"Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw). Learning Is Forgetting: LLM Training as Lossy Compression __Henry C. Conklin, Tom Hosking, Tan Yi-Chern, Julian Gold, Jonathan D. Cohen, Thomas L. Griffiths, Max Bartolo, Seraphina Goldfarb-Tarrant__ Статья: https://arxiv.org/abs/2604.07569v1 Код: https://github.com/hcoxec/soft_h Ревью: https://arxiviq.substack.com/p/learning-is-forgetting-llm-training # TL;DR ЧТО сделали: Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров. Внедрив дифференцируемую оценку ""мягкой энтропии"", они спроецировали траектории предобучения больших трансформеров на информационную плоскость. Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные ""забываются"". ПОЧЕМУ это важно: Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости. Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76). Для практиков: Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей. Это может существенно снизить зависимость от тяжёлых и вычислительно затратных доменных эвалюаций. Забывать здесь: https://t.me/gonzo_ML_podcasts/3524"
"Развитие тем покойного Нафтали Тишби…
Из этого канала
- #5330Ещё одна красивая история про забывание, но теперь с другой стороны — делаем…
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning.
- #5334Recursion strikes back Тема про рекурсию активно развивается в последний год.…
Recursion strikes back Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного…
- #53352) test-time scaling из коробки — часто можно погонять рекурсию поглубже для…
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата.
- #5323Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in…
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu,…
- #5319Сжатие сырых логов в структурированные саммари помогает кодовым агентам.…
Сжатие сырых логов в структурированные саммари помогает кодовым агентам. Scaling Test-Time Compute for Agentic Coding Joongwon (Daniel) Kim, Winnie Yang,…