DolphinGemma Denise Herzing, Thad Starner Блог:… — @gonzo_ML

DolphinGemma __Denise Herzing, Thad Starner__ Блог: https://blog.google/technology/ai/dolphingemma/ Сайт проекта: https://www.wilddolphinproject.org/ Статья: нет Модель: нет (обещали расшарить этим летом, пока вроде как всё ещё в разработке) Код: нет Давно хотелось разобрать DolphinGemma, совместный проект Гугла, Georgia Tech и проекта Wild Dolphin Project (WDP, https://www.wilddolphinproject.org/), про обученную на звуках дельфинов модель (LLM). __! Не путать с Dolphin Gemma/Llama/Qwen/Mistral проекта Dolphin (____https://huggingface.co/dphn____, ____https://dphn.ai/____) и Cognitive Computations, эти -- семейство разговорных instruction-tuned ассистентов без цензуры (____https://erichartford.com/uncensored-models____), просто универсальные текстовые модели. __ Это очень перекликается с проектом CETI (https://t.me/gonzo_ML/2182), который изучает китов, но это не он. Есть также и другие интересные проекты про животных. Особенно хочу отметить могучий Earth Species Project (https://www.earthspecies.org/) -- с ним надо отдельно поразбираться -- у них уже есть своя биоакустическая модель NatureLM-Audio (https://arxiv.org/abs/2411.07186) и другие тулы. WDP занимается изучением дельфинов с 1985 года, фокусируясь на атлантическом пятнистом дельфине (__Stenella frontalis__) в районе Багамских островов. Изучение в естественной среде, неинвазивное. За долгое время набрался датасет подводных видео и аудио, размеченный конкретными дельфиньими identities с их жизненными историями и наблюдаемыми поведениями. Я так понимаю, что в датасете не просто записи звуков, но и сопутствующая информация про ситуацию и поведение конкретных дельфинов, например, воссоединение мамы и дельфинёнка, драки, преследование акул и т.д. Цель проекта -- понять структуру коммуникации дельфинов и, потенциально, её смысл. Чуть подробнее с примерами, которые можно послушать, есть на сайте проекта (https://www.wilddolphinproject.org/our-research/dolphin-communication/). Я слышал, у дельфинов есть и иные способы коммуникации (https://www.scientificamerican.com/article/dolphins-communicate-with-fountains-of-pee/), но не будем пока об этом -- таких LLM нам не надо! У WDP есть также отдельный трек про двунаправленную коммуникацию, система CHAT (Cetacean Hearing Augmentation Telemetry, https://www.wilddolphinproject.org/our-research/chat-research/). CHAT может генерировать новые синтетические звуки, отличные от естественных, которые можно проассоциировать с новыми объектами, нравящимися дельфинам. Есть надежда, что любопытные дельфины выучат эти звуки, если захотят запросить такие объекты у исследователей (см. видео https://youtu.be/YhopeQKbpZA). CHAT должна работать надёжно (чтобы в океанском шуме услышать нужное) и быстро (чтобы исследователь с девайсом-декодером мог быстро понять, что от него хотят и дать это дельфину, тем самым усилив связь). На уже старом Pixel 6 это работало в рилтайме, что удобно -- не надо особого и дорогого спец оборудования. Использование DolphinGemma с её предсказанием следующих токенов по идее может ускорить процесс понимания, чего хочет сказать дельфин, и ускорить процесс общения. К сожалению, деталей про работу и практические результаты слишком мало. По моим представлениям это больше маркетинговый материал, нежели научная статья (её и нет). Project CETI и Earth Species Project в этом смысле намного более научные (и открытые). Информации про DolphinGemma почти нет -- в основном только посты в блогах и соцмедиа. Статей, самой модели или любого кода я не нашёл, что печально. Но попробуем разобрать что известно. Цель модели -- получать на вход дельфиньи вокализации и генерировать новые последовательности звуков, hopefully dolphin-like.

Из этого канала