"Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher Мой… — @llm_under_hood

"Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой. Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже). LLM под капотом проекта: - ASR (Speech Recognition) - Сберовская gigaam-v3-ctc - Диаризация (разбор голосов) - DiariZen - Перевод на башкирский - Gemini-3 flash со своим контекстом - TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых. При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео. Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS: - Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR. - Свой GPU - для запуска моделей - диаризации, синтеза речи. - 1GB - для хранения готовых аудио-дорожек. Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени. Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop. Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов: (1) Запускаем make eval, чтобы выяснить текущий score, который записываем в `experiments/007-experiment.md` (2) Анализируем код, проглядываем журнал экспериментов и в файл `experiments/007-experiment.md` дописываем план для улучшения текущего score (3) реализуем код и запускаем `make eval`. Если score стал лучше, то отправляем все в коммит с описанием (4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок. Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например: ``` PROMPT_TEMPLATE=""запусти следующий эксперимент, который оптимизирует код генрации wav файла"" for ((start_index=0; start_index<=50; start_index+=1)); do codex exec --sandbox danger-full-access ""$PROMPT_TEMPLATE"" done ``` Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard. Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN. Ваш, @llm_under_hood 🤗 PS: Список всех кейсов канала"

Из этого канала