Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит. The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models __Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach__ Paper: https://arxiv.org/abs/2604.06374 Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled Code: N/A Model: N/A # TL;DR Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов. Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию. Шорткатить здесь: https://t.me/gonzo_ML_podcasts/3957
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там…
Из этого канала
- #5507Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне…
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне кажется, что-то такое уже было...
- #5502Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то…
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое.
- #5498Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the…
Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters Mind Lab:…