"Респект FAIR, выкатили работу про очень мультиязычный перевод! Omnilingual MT:… — @gonzo_ML

"Респект FAIR, выкатили работу про очень мультиязычный перевод! Omnilingual MT: Machine Translation for 1,600 Languages __The Omnilingual MT Team, Belen Alastruey, Niyati Bafna, Andrea Caciolai, Kevin Heffernan, Artyom Kozhevnikov, Christophe Ropers, Eduardo Sánchez, Charles-Eric Saint-James, Ioannis Tsiamas, Chierh Cheng, Joe Chuang, Paul-Ambroise Duquenne, Mark Duppenthaler, Nate Ekberg, Cynthia Gao, Pere Lluís Huguet Cabot, João Maria Janeiro, Jean Maillard, Gabriel Mejia Gonzalez, Holger Schwenk, Edan Toledo, Arina Turkatenko, Albert Ventayol-Boada, Rashel Moritz, Alexandre Mourachko, Surya Parimi, Mary Williamson, Shireen Yates, David Dale, Marta R. Costa-jussà__ Статья: https://ai.meta.com/research/publications/omnilingual-mt-machine-translation-for-1600-languages/ Ревью: https://arxiviq.substack.com/p/omnilingual-mt-machine-translation Бенчмарк: https://huggingface.co/spaces/facebook/bouquet # TL;DR ЧТО сделали: Исследователи из FAIR представили Omnilingual Machine Translation (OMT) — комплексный набор моделей, датасетов и метрик, расширяющий поддержку машинного перевода до более чем 1600 языков. Авторы предлагают два архитектурных пути: decoder-only линейку (OMT-LLaMA) на базе LLaMA 3 и encoder-decoder модель на 3B параметров (OMT-NLLB), основанную на кросс-языковом пространстве эмбеддингов OmniSONAR. Для поддержки такого масштаба команда также собрала seed-датасет MeDLEy, фреймворки для оценки BOUQuET и Met-BOUQuET, а также reference-free метрику оценки качества BLASER 3. ПОЧЕМУ это важно: Работа преодолевает потолок в ~200 языков, который последние несколько лет был пределом для массивно мультиязычного перевода. Что ещё важнее, авторы изолируют и решают проблему ""узкого горлышка генерации"" (generation bottleneck) — явления, когда большие модели понимают малоресурсные языки за счёт кросс-языкового переноса, но не могут генерировать на них связный текст. Показывая, что специализированные модели на 1–8B параметров могут сравниться с 70B фундаментальными моделями или даже превзойти их в качестве перевода, это исследование задаёт Парето-оптимальный вектор для глобальной языковой инклюзивности. Для практиков: Статья наглядно демонстрирует, что для глобального деплоя LLM простое наращивание параметров — неэффективный способ охватить длинный хвост человеческих языков. Вместо этого точечные вмешательства, такие как масштабное расширение словаря, выравнивание кросс-языковых эмбеддингов предложений и генерация структурированных данных по грамматическим парадигмам, дают лучшее качество перевода при кратно меньших затратах на инференс. Появление BLASER 3 также даёт масштабируемую автоматизированную альтернативу дорогой человеческой оценке (quality estimation) для тысяч диалектов и письменностей. Копать тут: https://t.me/gonzo_ML_podcasts/2792"

Из этого канала