Очень классная работа, мне нравится подход. Развитие идей десятков и сотен предыдущих работ и продолжение линейки: Transformer-XL, Compressive Transformer, RMT, LCM. Я бы даже сказал, что это LCM 2.0 (Large Concept Model). В отличие от обычного LCM, который работал над предложениями, но не совсем end-to-end, используя внешние SONAR энкодеры и декодеры для предложений, Thought Gestalt (TG) работает на двух уровнях. На __внешнем__ уровне он пользуется последовательностью гештальтов-предложений, генерируемых автоматом через дифференцируемую память, а на __внутреннем__ он генерит токен-за-токеном как обычный трансформер, но используя кросс-аттеншн на память гештальтов. Это мне кажется очень правильный подход. Ждём развития! Modeling Language as a Sequence of Thoughts __Nasim Borazjanizadeh, James L. McClelland__ Статья: https://arxiv.org/abs/2512.25026 Ревью: https://arxiviq.substack.com/p/modeling-language-as-a-sequence-of # TL;DR ЧТО сделали: Авторы представили модель Thought Gestalt (TG) — архитектуру рекуррентного трансформера, который обрабатывает текст не сплошным потоком токенов, а предложение за предложением. Вместо хранения полной истории прошлых токенов (как в классическом KV-кэше), TG сжимает каждое обработанное предложение в единое векторное представление — «гештальт» — и сохраняет его в дифференцируемой памяти. Ключевая фишка: модель обучается end-to-end, то есть градиенты от предсказания будущих токенов текут назад через память, оптимизируя параметры, которые создали представления прошлых предложений. ПОЧЕМУ это важно: Подход бросает вызов доминированию статического контекстного окна, показывая, что рекуррентность на уровне событий может быть эффективнее по данным, чем простое внимание к токенам. Авторы показывают, что TG обходит GPT-2 в scaling laws (требуя на ~5-8% меньше данных для той же перплексии) и значительно смягчает «Проклятие обратимости» (Reversal Curse, https://arxiv.org/abs/2309.12288) — ситуацию, когда модель выучила `A -> B`, но не может вывести `B -> A`. Это намекает на то, что сжатие контекста в латентные «мысли» создаёт более надёжные семантические репрезентации, чем поверхностная статистика токенов. Открыть гештальт: https://t.me/gonzo_ML_podcasts/2181
Очень классная работа, мне нравится подход. Развитие идей десятков и сотен…
Из этого канала
- #4622"А Кокос-то (разбирали тут) не думает! А теперь прослушайте пение дрозда. Do…
"А Кокос-то (разбирали тут) не думает! А теперь прослушайте пение дрозда. Do Latent Tokens Think? A Causal and Adversarial Analysis of…
- #4626Для тех, кто ещё не понял, что происходит
Для тех, кто ещё не понял, что происходит
- #4627Может, паттерн-матчинг — это хорошо? The unreasonable effectiveness of pattern…
Может, паттерн-матчинг — это хорошо? The unreasonable effectiveness of pattern matching Gary Lupyan, Blaise Agüera y Arcas Статья:…
- #4614Новая работа с Лекуном и джепой. Теперь для Latent Action Models Learning…
Новая работа с Лекуном и джепой. Теперь для Latent Action Models Learning Latent Action World Models In The Wild Quentin Garrido, Tushar Nagarajan, Basile…
- #4610Интересное копание внутри сетей. Мозг и трансформеры: анатомия синергетического…
Интересное копание внутри сетей. Мозг и трансформеры: анатомия синергетического ядра LLM A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning…