Странная какая-то статья, как будто пытались по-быстрому выложить. Больше набор буллет пойнтов, чем статья, да и практическая часть с эвалами практически же отсутствует. Но сама идея (как я её понял) интересна. В любом случае, вручную разбирать не стал бы, а так автоматом хоть что-то. JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention __Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun__ Статья: https://arxiv.org/abs/2512.07168 Код: https://github.com/gioannides/Density-Adaptive-JEPA Ревью: https://arxiviq.substack.com/p/jepa-as-a-neural-tokenizer-learning # TL;DR ЧТО сделали: Авторы предложили двухэтапный фреймворк для создания речевых представлений. На первом этапе используется архитектура Joint-Embedding Predictive Architecture (JEPA), усиленная механизмом адаптивного к плотности внимания (DAAM). Это позволяет выучивать семантические фичи через предсказание маскированных латентов в полном отрыве от задачи реконструкции волны. На втором этапе энкодер замораживают и обучают HiFi-GAN декодер с конечно-скалярным квантованием (FSQ). Итог — экстремально низкая частота кадров: всего 2.5 Гц (47.5 токенов в секунду). ПОЧЕМУ это важно: Подход разрешает вечный конфликт нейронных аудиокодеков между сохранением акустической точности и изучением высокоуровневой семантики. Заменив стандартные кодовые книги VQ-VAE на аналитическое FSQ и используя гейтинг внимания на основе вероятностей, модель выдает сильно сжатые, обратимые токены. Они идеально подходят для скармливания в LLM, не жертвуя при этом качеством восстановления аудио. Подробнее: https://t.me/gonzo_ML_podcasts/1727