"Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw). Learning Is Forgetting: LLM Training as Lossy Compression __Henry C. Conklin, Tom Hosking, Tan Yi-Chern, Julian Gold, Jonathan D. Cohen, Thomas L. Griffiths, Max Bartolo, Seraphina Goldfarb-Tarrant__ Статья: https://arxiv.org/abs/2604.07569v1 Код: https://github.com/hcoxec/soft_h Ревью: https://arxiviq.substack.com/p/learning-is-forgetting-llm-training # TL;DR ЧТО сделали: Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров. Внедрив дифференцируемую оценку ""мягкой энтропии"", они спроецировали траектории предобучения больших трансформеров на информационную плоскость. Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные ""забываются"". ПОЧЕМУ это важно: Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости. Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76). Для практиков: Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей. Это может существенно снизить зависимость от тяжёлых и вычислительно затратных доменных эвалюаций. Забывать здесь: https://t.me/gonzo_ML_podcasts/3524"