GigaAM: эффективный метод предобучения для распознавания речи Исследователи из Сбера представили новый подход к обучению моделей распознавания речи, который показывает хорошие результаты даже без большого объема размеченных данных. Работа была принята на Interspeech 2025 — главной конференции года в области речевых технологий. Как работает Вместо классического метода с акустическими переменными (как в wav2vec 2.0 или HuBERT), GigaAM использует сигналы из CTC-модели. CTC (Connectionist Temporal Classification) — это подход, который умеет получать текст прямо из аудио, не требуя точной разметки где какой звук. В отличие от низкоуровневых акустических признаков, CTC-модель уже понимает семантику речи. Self-supervised подход работает в два этапа: сначала они обучили свою CTC-модель на базе Conformer на 50k часах русской речи. Потом берут её выходы, делают K-means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио. Используется последний слой CTC-модели, а не промежуточные — так получаются более осмысленные цели. Итоговое обучение идёт на 50k часов русской речи, а чтобы модель работала и в онлайн режиме, и с полным контекстом, во время обучения случайно меняют размер чанков (от 200мс до 8с). Результаты — минус 50% WER по сравнению с Whisper-large-v3 — лучшая точность среди open-source решений для русского — одна модель для онлайн- и оффлайн-режимов — масштабируется по данным и параметрам — работает даже на 0.1% размеченных данных На мой взгляд, это заметно облегчает одну из главных болей сферы — зависимость от размеченных датасетов. Для русского языка это особенно критично: собрать хороший корпус — долго, дорого и часто невозможно. А тут self-supervised подход, который работает даже в условиях дефицита данных. Практически это означает более доступную разработку голосовых интерфейсов: помощников, систем распознавания звонков, ASR в чат-ботах. Модель и код выложены в открытый доступ — можно адаптировать под другие языки и задачи. Статья Код @ai_newz
GigaAM: эффективный метод предобучения для распознавания речи Исследователи из…
Из этого канала
- #4123Фей-Фей Ли хвастается world model своего стартапа — World Labs Для генерации…
Фей-Фей Ли хвастается world model своего стартапа — World Labs Для генерации всего мира понадобилась всего лишь одна картинка, причём по видео видно что…
- #4125Gen:48 Aleph Edition Сегодня стартовал таймер конкурса Runway. Наверное, второй…
Gen:48 Aleph Edition Сегодня стартовал таймер конкурса Runway. Наверное, второй по масштабу конкурс после Project Odyssey.
- #4126xAI наконец-то релизнули веса Grok 2 Хоть Grok 2 и безнадёжно устарел, веса все…
xAI наконец-то релизнули веса Grok 2 Хоть Grok 2 и безнадёжно устарел, веса все равно представляют интерес и показывают что компания не забыла про опенсорс.
- #4121Если вам не хватало странного в жизни — PewDiePie выпустил видео, где он…
Если вам не хватало странного в жизни — PewDiePie выпустил видео, где он собирает сервер для локального инференса LLM своими руками.
- #4118Детали DeepSeek V3.1 Самый сильный прирост заметен в агентных бенчах и…
Детали DeepSeek V3.1 Самый сильный прирост заметен в агентных бенчах и использованию инструментов.