gonzo-обзоры ML статей@gonzo_ML

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

24 246 подписчиков2 597 постов проиндексированопоследний пост: 26 июл. 2026 г.

Открыть в Telegram → @gonzo_ML 📡 RSS Глубокий поиск по архиву →

Этот архив создан NERVE — мостом между закрытым контентом Telegram-каналов и веб-поисковиками. Каждый пост публикуется на отдельной странице с полной мета-разметкой, чтобы экспертиза автора была доступна Google, ChatGPT, Claude, Perplexity и другим AI-системам. Оригинал каждого поста — в Telegram-канале @gonzo_ML.

Последние посты (60)

Прунинг через функциональный анализ. Выглядит красиво. Hilbert Operator for…

"Ну и чего-нибудь более классического для тех, кому про жызнь менее интересно.…

Субботнее про жызнь. Мы тут в чате недавно касались определения жизни, да и…

Хм... https://www.anthropic.com/news/claude-opus-5

Соскучились по Берту? Лекун не дремлет! Проблема с традиционным Бертом и его…

Замена LLM-as-a-Judge. Там где судья схлопывает свои представления в токены и…

Шмидхубер и ко написали 97-страничный обзор про самоулучшающихся агентов.…

Снова про зацикленные трансформеры, но на этот раз в контексте сжатия для edge…

Улучшенный зацикленный трансформер с латентным ризонингом, который теперь…

Just in case, я неожиданно стал соорганизатором конференции Superintelligence…

Большие модели — это, конечно, классно, но это удел избранных. Нам, простым…

"В комнату входит состязательная психометрика. Забавно, что ""персоны"" моделей…

Развитие темы про добавление памяти в различные архитектуры. В работе решают…

"Базу для хранения жизненного опыта агентов подвезли. Ждём новый…

Подарок от Джеффа Дина пришёл

Интересная работа с ICML 2026 Outstanding Position Paper Honorable Mention.…

Это моя любимая из работ призёров и около-призёров ICML. Разобрали…

Любопытное про диффузионки. Обосновали, почему обученные на разных…

"Интересная работа. Я её разбирал в англоязычном блоге год назад, но сюда…

https://x.com/arxiv/status/2075304842591969385?s=20

Число статей на arxiv перевалило за 3 миллиона. 2 миллиона были в 2022-м году,…

Умный отбор видео для обучения моделей физике движения. Если таким образом…

Как обучать самый честный AI на свете. ICML 2026 Outstanding Paper Honorable…

Сюрприз-сюрприз! Инструменты алайнмента по совместительству являются идеальными…

Хардкор про сэмплирование в диффузионках. Вторая работа с ICML 2026 Outstanding…

Пошли статьи с ICML 2026. Интересное про языковые диффузионки. Если в обучении…

Перед тем, как постить призёров ICML 2026, новая адаптивная джепа! AdaJEPA: An…

Анонсированы ICML 2026 Awards…

Предрасчитанная карта науки для агентов. Каждый раз парсить статью медленно и…

"Гиппокамп завезли! Вообще мне понравилось. Красиво и просто. К реккурентному…

DeepSeek ускоряет спекулятивное декодирование за счёт параллельного драфтера…

Авторы TRM добавили к уже обученной модели стохастичности и сильно улучшили…

Снова заход на неавторегрессионные модели (здесь потоковые модели, flow models)…

Агентная генерация качественной синтетики. По сути почти старая добрая зона…

+1 работа про несимметричный трансформер. Был недавно ><former, а теперь…

Новый язык для экономного по токенам общения LLM между собой, BabelTele. Ещё не…

Мы неправильно готовили GPU всё это время! MegaTrain: Full Precision Training…

Tech.report по DiffusionGemma ещё не вышел, а статьи с анализом уже выходят.…

Лекун и ко продолжают развивать тему про self-supervised обучение на картинках…

Про важность калибровки и неполную состоятельность теории платоновских…

Контуры будущего: секция про Клауд на Google I/O Connect теперь выглядит так.…

Подход к оценке прогресса в AGI от DeepMind. С Шейном Леггом в соавторстве. И с…

А что, так можно было? Variable-Width Transformers Zhaofeng Wu, Oliver…

"Я про Sakana (японская AI-лаба, основанная выходцами из японского Гугла) писал…

Неподвижная точка! ))

Развитие темы про рекурсивные архитектуры. В текущей работе отказываются от…

Я давно хотел сделать разбор про Neural Operators, но он так и остался у меня…

Universal (Loop) Transformers приходят в модели мира. Looped World Models…

Вот вам прекрасное субботнее, про constructor theory (писал про неё тут:…

Что-то происходит

Посмотрите только на эти цифры. Accuracy вырастает с 30 до 60, а длина в…

"Давно мы про GFlowNets не писали. А тут их как раз приспособили для латентного…

MiniMax-M3 и его разреженное внимание. MiniMax Sparse Attention Xunhao Lai,…

Есть ещё герои, не забросившие старые добрые RNN. Очень прикольный заход на…

Сложно поспорить

Или есть там всё-таки этот бэкпроп... This is how the Neocortex Learns Randall…

Но боюсь Макрон забанит скоро...

Завтра бахну разбор! 😁

Мы тут сидим, а в мире революция! 😺

Как геймеры в своё время проспонсировали железо для глубокого обучения, так и…