Очень классная работа, мне нравится подход. Развитие идей десятков и сотен… — @gonzo_ML

Очень классная работа, мне нравится подход. Развитие идей десятков и сотен предыдущих работ и продолжение линейки: Transformer-XL, Compressive Transformer, RMT, LCM. Я бы даже сказал, что это LCM 2.0 (Large Concept Model). В отличие от обычного LCM, который работал над предложениями, но не совсем end-to-end, используя внешние SONAR энкодеры и декодеры для предложений, Thought Gestalt (TG) работает на двух уровнях. На __внешнем__ уровне он пользуется последовательностью гештальтов-предложений, генерируемых автоматом через дифференцируемую память, а на __внутреннем__ он генерит токен-за-токеном как обычный трансформер, но используя кросс-аттеншн на память гештальтов. Это мне кажется очень правильный подход. Ждём развития! Modeling Language as a Sequence of Thoughts __Nasim Borazjanizadeh, James L. McClelland__ Статья: https://arxiv.org/abs/2512.25026 Ревью: https://arxiviq.substack.com/p/modeling-language-as-a-sequence-of # TL;DR ЧТО сделали: Авторы представили модель Thought Gestalt (TG) — архитектуру рекуррентного трансформера, который обрабатывает текст не сплошным потоком токенов, а предложение за предложением. Вместо хранения полной истории прошлых токенов (как в классическом KV-кэше), TG сжимает каждое обработанное предложение в единое векторное представление — «гештальт» — и сохраняет его в дифференцируемой памяти. Ключевая фишка: модель обучается end-to-end, то есть градиенты от предсказания будущих токенов текут назад через память, оптимизируя параметры, которые создали представления прошлых предложений. ПОЧЕМУ это важно: Подход бросает вызов доминированию статического контекстного окна, показывая, что рекуррентность на уровне событий может быть эффективнее по данным, чем простое внимание к токенам. Авторы показывают, что TG обходит GPT-2 в scaling laws (требуя на ~5-8% меньше данных для той же перплексии) и значительно смягчает «Проклятие обратимости» (Reversal Curse, https://arxiv.org/abs/2309.12288) — ситуацию, когда модель выучила `A -> B`, но не может вывести `B -> A`. Это намекает на то, что сжатие контекста в латентные «мысли» создаёт более надёжные семантические репрезентации, чем поверхностная статистика токенов. Открыть гештальт: https://t.me/gonzo_ML_podcasts/2181

Из этого канала