Странная какая-то статья, как будто пытались по-быстрому выложить. Больше набор буллет пойнтов, чем статья, да и практическая часть с эвалами практически же отсутствует. Но сама идея (как я её понял) интересна. В любом случае, вручную разбирать не стал бы, а так автоматом хоть что-то. JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention __Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun__ Статья: https://arxiv.org/abs/2512.07168 Код: https://github.com/gioannides/Density-Adaptive-JEPA Ревью: https://arxiviq.substack.com/p/jepa-as-a-neural-tokenizer-learning # TL;DR ЧТО сделали: Авторы предложили двухэтапный фреймворк для создания речевых представлений. На первом этапе используется архитектура Joint-Embedding Predictive Architecture (JEPA), усиленная механизмом адаптивного к плотности внимания (DAAM). Это позволяет выучивать семантические фичи через предсказание маскированных латентов в полном отрыве от задачи реконструкции волны. На втором этапе энкодер замораживают и обучают HiFi-GAN декодер с конечно-скалярным квантованием (FSQ). Итог — экстремально низкая частота кадров: всего 2.5 Гц (47.5 токенов в секунду). ПОЧЕМУ это важно: Подход разрешает вечный конфликт нейронных аудиокодеков между сохранением акустической точности и изучением высокоуровневой семантики. Заменив стандартные кодовые книги VQ-VAE на аналитическое FSQ и используя гейтинг внимания на основе вероятностей, модель выдает сильно сжатые, обратимые токены. Они идеально подходят для скармливания в LLM, не жертвуя при этом качеством восстановления аудио. Подробнее: https://t.me/gonzo_ML_podcasts/1727
Странная какая-то статья, как будто пытались по-быстрому выложить. Больше набор…
Из этого канала
- #4404А вот это прикольно! https://ai.meta.com/samaudio/
А вот это прикольно! https://ai.meta.com/samaudio/
- #4405Ну и, кстати, если ещё не видели, новая Gemini 3 Flash выглядит неплохо!…
Ну и, кстати, если ещё не видели, новая Gemini 3 Flash выглядит неплохо! https://blog.google/products/gemini/gemini-3-flash/
- #4408Шмидхубер ссылается на фундаментальные работы Беннета и Шмидхубера! Multiple…
Шмидхубер ссылается на фундаментальные работы Беннета и Шмидхубера! Multiple Token Divergence: A Measure of In-Context Computation Density Vincent Herrmann,…
- #4398"Продолжаем кросс-опыление. JIT-компиляция для агентской памяти. General…
"Продолжаем кросс-опыление. JIT-компиляция для агентской памяти. General Agentic Memory Via Deep Research B.Y.
- #4394Очередной способ параллелизации размышлений. Мультитрединг приходит в LLM :)…
Очередной способ параллелизации размышлений. Мультитрединг приходит в LLM :) ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language…