GigaAM: эффективный метод предобучения для распознавания речи Исследователи из Сбера представили новый подход к обучению моделей распознавания речи, который показывает хорошие результаты даже без большого объема размеченных данных. Работа была принята на Interspeech 2025 — главной конференции года в области речевых технологий. Как работает Вместо классического метода с акустическими переменными (как в wav2vec 2.0 или HuBERT), GigaAM использует сигналы из CTC-модели. CTC (Connectionist Temporal Classification) — это подход, который умеет получать текст прямо из аудио, не требуя точной разметки где какой звук. В отличие от низкоуровневых акустических признаков, CTC-модель уже понимает семантику речи. Self-supervised подход работает в два этапа: сначала они обучили свою CTC-модель на базе Conformer на 50k часах русской речи. Потом берут её выходы, делают K-means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио. Используется последний слой CTC-модели, а не промежуточные — так получаются более осмысленные цели. Итоговое обучение идёт на 50k часов русской речи, а чтобы модель работала и в онлайн режиме, и с полным контекстом, во время обучения случайно меняют размер чанков (от 200мс до 8с). Результаты — минус 50% WER по сравнению с Whisper-large-v3 — лучшая точность среди open-source решений для русского — одна модель для онлайн- и оффлайн-режимов — масштабируется по данным и параметрам — работает даже на 0.1% размеченных данных На мой взгляд, это заметно облегчает одну из главных болей сферы — зависимость от размеченных датасетов. Для русского языка это особенно критично: собрать хороший корпус — долго, дорого и часто невозможно. А тут self-supervised подход, который работает даже в условиях дефицита данных. Практически это означает более доступную разработку голосовых интерфейсов: помощников, систем распознавания звонков, ASR в чат-ботах. Модель и код выложены в открытый доступ — можно адаптировать под другие языки и задачи. Статья Код @ai_newz