gonzo-обзоры ML статей@gonzo_ML
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Последние посты (60)
- #551110 июн. 2026 г.1 012 views
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там…
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит. The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models Michael Rizvi-Martel, Guillaume Rabusseau,…
- #55079 июн. 2026 г.1 905 views
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне…
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне кажется, что-то такое уже было... Do Transformers Need Three Projections? Systematic Study of QKV Variants Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis Статья: https://arxiv.org/abs/2606.04032 Код:…
- #55028 июн. 2026 г.2 223 views
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то…
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое. Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images Joséphine Raugel, Maximilian Seitzer, Marc Szafraniec, Huy V.
- #54987 июн. 2026 г.2 571 views
Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the…
Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al.
- #54975 июн. 2026 г.3 630 views
Извинити. Не знаю автора )
Извинити. Не знаю автора )
- #54935 июн. 2026 г.2 544 views
"Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и…
"Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и неограниченного компьюта. Другая похожая была в прошлом году (https://t.me/gonzoML/4038). Тоже ансамбли с дистилляцией, но хитрые.
- #54894 июн. 2026 г.248 views
Ян и Рэндал продолжают копать свои темы про JEPA и доказали интересную штуку…
Ян и Рэндал продолжают копать свои темы про JEPA и доказали интересную штуку про латенты такой модели — они с точностью до поворота восстанавливают истинные латенты мира. И в этом пространстве можно хорошо планировать.
- #54793 июн. 2026 г.143 views
Про важность обвязки (харнеса) и прогрессирующую экстернализацию у LLM агентов.…
Про важность обвязки (харнеса) и прогрессирующую экстернализацию у LLM агентов. Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering Chenyu Zhou, Huacan Chai, Wenteng Chen, Zihan Guo, Rong Shan, Yuanyi Song, Tianyi Xu, Yingxuan…
- #54752 июн. 2026 г.1 879 views
"Новости рекуррентного ризонинга. Теперь нейросимвольный подход с добавлением…
"Новости рекуррентного ризонинга. Теперь нейросимвольный подход с добавлением решёток (Дима Игнатов будет счастлив!). Щёлкает sudoku-extreme моделью на 800k параметров.
- #54721 июн. 2026 г.2 437 views
Ещё один свежий заход на то, что надо предсказывать латенты (как и в JEPA), а…
Ещё один свежий заход на то, что надо предсказывать латенты (как и в JEPA), а не финальные представления. Тогда ещё и выборочная сложность сильно лучше. Learn from your own latents and not from tokens: A sample-complexity theory Daniel J.
- #546731 мая 2026 г.1 630 views
Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема…
Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема про рекуррентный ризонинг, теперь применённая к диффузионным моделям.
- #546430 мая 2026 г.1 859 views
У агентов всё как у людей, кто громче и самоувереннее кричит, того мнение и…
У агентов всё как у людей, кто громче и самоувереннее кричит, того мнение и слушают 😿 Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer? Franka Bause, Jonas Niederle, Martin Pawelczyk, Rebekka Burkholz Paper: https://arxiv.org/abs/2605.25929 Review:…
- #545629 мая 2026 г.1 020 views
Наш любимый Michael Levin написал любопытную статью (он на редкость…
Наш любимый Michael Levin написал любопытную статью (он на редкость продуктивен, пишет много). В каком-то смысле про будущее машинного перевода 😁 и про общение с сильно другими живыми (и не очень) системами. Заодно экспериментирую с форматов обзоров.
- #545229 мая 2026 г.1 634 views
Очень интересная работа. Модели осваивают навыки в определённом порядке и он…
Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями. Это можно использовать для диагностики процесса обучения.
- #544728 мая 2026 г.1 713 views
Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving…
Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving Agent Skills Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo Paper:…
- #544027 мая 2026 г.986 views
Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee,…
Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti Paper: https://arxiv.org/abs/2605.26099 Review: https://arxiviq.substack.com/p/language-models-need-sleep Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы…
- #543526 мая 2026 г.927 views
"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels:…
"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma Paper: https://arxiv.org/abs/2605.23901 Ревью:…
- #542825 мая 2026 г.1 500 views
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2.…
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention Ali Hatamizadeh, Yejin Choi, Jan Kautz Paper: https://arxiv.org/abs/2605.22791 Code: https://github.com/NVlabs/GatedDeltaNet-2 Review:…
- #542425 мая 2026 г.1 441 views
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и…
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент. Agentic Systems as Boosting Weak Reasoning Models Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti Paper:…
- #542024 мая 2026 г.594 views
Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то,…
Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.
- #541523 мая 2026 г.898 views
Красивая история. UT с последовательным применением линейного внимания…
Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную сложность. LT2: Linear-Time Looped Transformers Chunyuan Deng, Yizhe Zhang, Rui-jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S.
- #541423 мая 2026 г.2 021 views
Ты инженер или философ?
Ты инженер или философ?
- #541022 мая 2026 г.249 views
Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs…
Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu,…
- #540621 мая 2026 г.1 551 views
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией…
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений. Generative Recursive Reasoning Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn Paper: https://arxiv.org/abs/2605.19376 Code: https://ahn-ml.github.io/gram-website…
- #540220 мая 2026 г.1 224 views
"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один…
"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для решения задачи схему, найдётся ещё миллион других не хуже. Диалектика.
- #539619 мая 2026 г.1 030 views
Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling:…
Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He Статья: https://arxiv.org/abs/2605.10938 Код:…
- #539318 мая 2026 г.18 views
Про разную экономику разметки для реворда и для динамики среды при обучении…
Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира. On Training in Imagination Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel Paper: https://arxiv.org/abs/2605.06732v2 Review:…
- #538617 мая 2026 г.1 020 views
Большой обзор про модели мира для роботов. World Model for Robot Learning: A…
Большой обзор про модели мира для роботов. World Model for Robot Learning: A Comprehensive Survey Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter…
- #538517 мая 2026 г.1 490 views
🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но…
🔬 Метод В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными фреймворками инференса. Здесь же решили замерить скорость в работы в vLLM интеграции на широком наборе задач, включая ризонинг.
- #538417 мая 2026 г.1 339 views
A First Comprehensive Study of TurboQuant: Accuracy and Performance [Блог]…
A First Comprehensive Study of TurboQuant: Accuracy and Performance [Блог] Казалось бы, уже стоило бы забить на этот несчастный TurboQuant, но кому-то он все еще не дает покоя.
- #538317 мая 2026 г.1 253 views
В дополнение
В дополнение
- #537717 мая 2026 г.1 419 views
"Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом…
"Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом году перед ICLR. Многомерные пространства рулят, а идея со случайным вращением просто красивая. И вообще случайные вектора — это сила.
- #537215 мая 2026 г.2 136 views
Эволюцию скиллов подвезли. SkillClaw: Let Skills Evolve Collectively with…
Эволюцию скиллов подвезли. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu Статья: https://arxiv.org/abs/2604.08377 Код: https://github.com/AMAP-ML/SkillClaw Ревью:…
- #536615 мая 2026 г.2 051 views
Слаб наш алайнмент! A Single Neuron Is Sufficient to Bypass Safety Alignment in…
Слаб наш алайнмент! A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models Hamid Kazemi, Atoosa Chegini, Maria Safi Статья: https://arxiv.org/abs/2605.08513v1 Ревью: https://arxiviq.substack.com/p/a-single-neuron-is-sufficient-to # TL;DR ЧТО сделали:…
- #536014 мая 2026 г.2 099 views
И снова BLT, но теперь быстрый! Fast Byte Latent Transformer Julie Kallini,…
И снова BLT, но теперь быстрый! Fast Byte Latent Transformer Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher Potts, Xiaochuang Han, Srinivasan Iyer Статья: https://arxiv.org/abs/2605.08044v1 Ревью:…
- #535914 мая 2026 г.3 231 views
Картинка с геораспределением аффилиаций на последнем ICLR 2026…
Картинка с геораспределением аффилиаций на последнем ICLR 2026 https://x.com/konstantdobler/status/2053098441069216113 Сейчас по сети ходит также другая картинка (https://github.com/DmytroLopushanskyy/iclr2026-affiliations), но как я понимаю эта вторая фильтрует top-50…
- #535713 мая 2026 г.2 616 views
И снова про рекурсии :) Пользуясь случаем, поздравляю Лёшу Досовицкого и всю…
И снова про рекурсии :) Пользуясь случаем, поздравляю Лёшу Досовицкого и всю команду. Ещё и Питера Норвига привлекли! https://www.recursive.com/
- #535313 мая 2026 г.2 585 views
Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute…
Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр. Compute Optimal Tokenization Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer Paper: https://arxiv.org/abs/2605.01188v1 Code:…
- #534812 мая 2026 г.2 176 views
"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что…
"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово пространство не работает. Другая похожая работа была про геометрию счёта от Антропика.
- #534312 мая 2026 г.2 331 views
Новые ядра и формат упаковки для неструктурированной разреженности от Sakana +…
Новые ядра и формат упаковки для неструктурированной разреженности от Sakana + NVIDIA. Sparser, Faster, Lighter Transformer Language Models Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones Статья: https://arxiv.org/abs/2603.23198 Код:…
- #533711 мая 2026 г.2 173 views
"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep…
"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep Learning Elon Litman, Gabe Guo Статья: https://arxiv.org/abs/2605.01172v1 Ревью: https://arxiviq.substack.com/p/a-theory-of-generalization-in-deep # TL;DR ЧТО сделали: Исследователи из Стэнфорда…
- #533510 мая 2026 г.2 706 views
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для…
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата. Это в каком-то смысле ризонинг внутри latent space, только реализованный снова по глубине, а не по длине последовательности как у Coconut.
- #533410 мая 2026 г.2 191 views
Recursion strikes back Тема про рекурсию активно развивается в последний год.…
Recursion strikes back Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного выхлопа.
- #533010 мая 2026 г.2 458 views
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем…
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning. Learning to Forget: Continual Learning with Adaptive Weight Decay Aditya A.
- #53278 мая 2026 г.2 869 views
"Развитие тем покойного Нафтали Тишби…
"Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw). Learning Is Forgetting: LLM Training as Lossy Compression Henry C. Conklin, Tom Hosking, Tan Yi-Chern, Julian Gold, Jonathan D. Cohen, Thomas L.
- #53236 мая 2026 г.2 092 views
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in…
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin…
- #53195 мая 2026 г.1 722 views
Сжатие сырых логов в структурированные саммари помогает кодовым агентам.…
Сжатие сырых логов в структурированные саммари помогает кодовым агентам. Scaling Test-Time Compute for Agentic Coding Joongwon (Daniel) Kim, Winnie Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srini Iyer, Manzil Zaheer, Daniel Fried,…
- #53154 мая 2026 г.1 742 views
Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How…
Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How Different Language Models Learn Similar Number Representations Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia Paper: https://arxiv.org/abs/2604.20817 Model:…
- #53114 мая 2026 г.1 927 views
"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM…
"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах. На старте не ждём ответа от хорошей облачной модели, а генерируем первые 4 токена локально через микро-LLM и сразу выдаём в интерфейс, время до первого токена 45 мс.
- #53103 мая 2026 г.2 383 views
Попалась свежая интересная репа, собирающая всё про UT/Looped Models…
Попалась свежая интересная репа, собирающая всё про UT/Looped Models https://github.com/huskydoge/Awesome-Loop-Models
- #53093 мая 2026 г.2 523 views
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую,…
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций.
- #53033 мая 2026 г.2 050 views
И снова Universal/Looped Transformers. На этот раз для генерации изображений.…
И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не надо перекачивать постоянно веса из обычной памяти.
- #53002 мая 2026 г.2 276 views
"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic…
"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic Sharpness Gap Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis Статья: https://arxiv.org/abs/2604.21016 Ревью: https://arxiviq.substack.com/p/sgd-at-the-edge-of-stability-the # TL;DR ЧТО…
- #52941 мая 2026 г.1 482 views
"Больше моделей мира за пределами красивых картинок! Agentic World Modeling:…
"Больше моделей мира за пределами красивых картинок! Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao,…
- #528930 апр. 2026 г.1 644 views
Ещё в тему про Universal Transformer (https://t.me/gonzoML/5270). Здесь…
Ещё в тему про Universal Transformer (https://t.me/gonzoML/5270). Здесь улучшили способности UT через матричные residual connections (mHC от дипсика, про который недавно писали https://t.me/gonzoML/4497).
- #528430 апр. 2026 г.1 725 views
Красивая история про квантизацию. Как сделать INT4, который нормально работает…
Красивая история про квантизацию. Как сделать INT4, который нормально работает на текущем железе. И вообще это большая тема про то как делать не просто теоретически эффективные алгоритмы, а такие, которые хорошо работают на практике. Что вообще не одно и то же.
- #527929 апр. 2026 г.1 961 views
Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь…
Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь асинхронная версия! Можно не блокироваться на поломанных воркеров в большом обучении, и даже миксовать разнородное железо. Может и не строго нужны будут огромные ДЦ с тоннами одинаковых чипов.
- #527829 апр. 2026 г.2 556 views
"""Кладбище домашних животных"", Стивен Кинк"
"""Кладбище домашних животных"", Стивен Кинк"
- #527128 апр. 2026 г.648 views
"Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе…
"Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе и рекурсивными циклами рассуждений, эта статья подсвечивает критическое упущение в классических сетях с адаптивными вычислениями.
- #527028 апр. 2026 г.687 views
"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот…
"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот развить давние темы Миши Бурцева про Memory Transformer (https://arxiv.org/abs/2006.11527).