Хочу поделиться интересной новостью — компания Meta (запрещенная и всячески поричаемая) опубликовала новую многоязыковую модель распознавания речи (ASR) с открытой лицензией Apache 2.0. Для меня эта тема особенно близка: в свое время я был глубоко вовлечен в разработку подобных систем и хорошо понимаю, насколько сложными и дорогими были такие решения. Для многих компаний и стартапов качество распознавания речи, особенно на неанглийских языках, было одним из ключевых конкурентных преимуществ. Со временем архитектуры моделей эволюционировали, потребность в больших объемах размеченных данных снижалась, и теперь мы пришли к моменту, когда модели способны из коробки обеспечивать отличное качество распознавания на более чем 1600 языках, включая достаточно редкие. Это колоссальный шаг вперед в области доступности и универсальности голосовых технологий. Но одновременно это и повод для размышлений: поле инноваций становится всё более плотным, а конкурировать с индустриальными гигантами — всё сложнее. Они растут, как быстро расширяющиеся звезды, которые своим масштабом и гравитацией “сжигают” вокруг себя стартапы-планеты, вращающиеся по орбитам их технологий и экосистем. https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition