Audio-in, audio-out. Но через токенизацию с токенизатором SoundStream… — @gonzo_ML

Audio-in, audio-out. Но через токенизацию с токенизатором SoundStream (https://arxiv.org/abs/2107.03312, https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/) -- гугловая работа от 2021 года. SoundStream -- это по сути обучаемый end-to-end нейро-кодек, состоящий из энкодера, декодера и квантователя в бутылочном горлышке между ними. Во время обучения он использует два лосса: лосс восстановления и adversarial лосс, так чтобы дискриминатор не сумел отличить реконструированный звук от исходного. После обучения можно использовать энкодер с квантователем для генерации токенов, и декодер для восстановления их в звук. Я не уверен, был ли этот кодек опубликован Гуглом, сходу я этого не вижу. Но вижу в сети сколько-то реимплементаций. Знатоки аудио-кодеков, поправьте меня. А также скажите, есть ли что-то более современное и лучшее? Наверняка за четыре года что-то появилось. Модель с 400M параметров, сделана для запуска локально на телефонах Pixel, которые используют в проекте WDP. Gemma такого размера не существует, то есть это не файнтюн Джеммы, а модель построенная на её идеях (видимо, декодер трансформера). В этом смысле коммуникация Гугла была misleading, когда они говорили (и до сих пор говорят), что проект использует модели Gemma. Размер датасета непонятен. В статье “Imitation of Computer-Generated Sounds by Wild Atlantic Spotted Dolphins (Stenella frontalis)” (https://www.animalbehaviorandcognition.org/article.php?id=1370) про CHAT упоминаются 1319 минут аудио записей. Практический выхлоп тоже неясен. Удалось нарыть отдельное интервью авторов в подкасте Scientific American (https://www.scientificamerican.com/podcast/episode/dolphingemma-could-enable-ai-communication-with-dolphins/). Там они утверждают, что модель выучила генерацию определённых вокализаций (VCM Type 3 или VCM3s), которые дельфины предпочитают использовать во время двусторонней коммуникации с человеками, и для авторов это было чем-то вроде a-ha момента. До этого, похоже, VCM3s генерить не особо получалось. Вроде и всё. Видимо, всё ещё какой-то ранний рисёч. Хотя было ощущение, что немного иначе всё. В общем конкретно с DolphinGemma ждём каких-то более внятных анонсов. И тем временем я бы более пристально посмотрел на более открытые проекты типа CETI и Earth Species Project. И вообще, давно бы уже обучили BarkLLM. Или в крайнем случае MeowLM. Может сорганизуемся?

Из этого канала