Там Яндекс обновил одну из самых полезных своих фич — голосовой перевод в Браузере. Теперь закадровая речь звучит почти как в оригинале — с тембром, интонациями, паузами. Будто англоязычный спикер сходил на курсы русского. В основе технологии — новая генеративная нейронка, которая сначала анализирует оригинальное аудио, переводит его и выделяет особенности голоса. Чтобы избежать косяков на уровне фонетики, вместо BPE-токенов собрали общую фонемную систему для английского и русского. Чтобы не терять тембр спикера — прикрутили биометрические эмбеддинги, созданные на основе доступных данных. А чтобы всё не звучало как будто записано в кинотеатре на телефон — денойзят промты. За перевод и стилистику речи отвечает языковая модель на базе YandexGPT. Которую, к слову, не так давно международный бенчмарк DiBiMT признал лидером по качеству перевода с английского. Для управляемости синтеза перевода добавили авто-метрику UTMOS на обучении и держат фиксированное значение — 3.75 на инференсе. А чтобы все это было быстро, оптимизировали инференс: уменьшили количество гипотез в языковой модели и число итераций в диффузионной модели + добавили техники ускорения. В итоге RTF около 0.18. В общем, совместили фундаментальные исследования из области генеративного ИИ и биометрии с инженерной оптимизацией. Потестить уже можно в поиске Яндекса и через Яндекс Браузер на YouTube, VK Видео, Дзене и Rutube.