Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями. Это можно использовать для диагностики процесса обучения. What Do Language Models Learn and When? The Implicit Curriculum Hypothesis __Emmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig__ Paper: https://arxiv.org/abs/2604.08510 Review: https://arxiviq.substack.com/p/what-do-language-models-learn-and Code: https://github.com/KaiserWhoLearns/ElementalTask # TL;DR ЧТО сделали: Авторы сформулировали и провалидировали «гипотезу скрытого учебного плана» (Implicit Curriculum Hypothesis). Они показали, что в процессе предобучения LLM выучивают навыки в стабильном, композиционном и предсказуемом порядке. Этот порядок сохраняется для разных семейств моделей, их размеров и состава обучающих данных. Чтобы подтвердить гипотезу, исследователи разработали специальный набор из 91 простой и композитной задачи, а затем детально отследили траектории развития 9 моделей из 4 крупных открытых семейств объёмом от 410M до 13B параметров. ПОЧЕМУ это важно: Эта работа предлагает уйти от непрозрачных, гладких кривых лосса на валидации и грубых комплексных бенчмарков. Вместо них мы получаем структурированный подход, где процесс освоения навыков становится предсказуемым и понятным. Самое удивительное: авторы доказали, что траекторию обучения модели на совершенно новой, незнакомой композитной задаче можно предсказать заранее. Для этого достаточно измерить геометрическую близость репрезентации этой задачи (функционального вектора) в residual stream модели. Для практиков: Результаты исследования позволяют оптимизировать мониторинг предобучения больших моделей. Вместо того чтобы вслепую тратить ресурсы на GPU-часы и надеяться на хороший итоговый результат, можно использовать легковесные диагностические тесты. По геометрии активаций на ранних этапах можно предсказывать, освоит ли модель сложные комплексные навыки к концу обучения. Осваивать навыки тут: https://t.me/gonzo_ML_podcasts/3797
Очень интересная работа. Модели осваивают навыки в определённом порядке и он…
Из этого канала
- #5456Наш любимый Michael Levin написал любопытную статью (он на редкость…
Наш любимый Michael Levin написал любопытную статью (он на редкость продуктивен, пишет много).
- #5464У агентов всё как у людей, кто громче и самоувереннее кричит, того мнение и…
У агентов всё как у людей, кто громче и самоувереннее кричит, того мнение и слушают 😿 Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?…
- #5467Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема…
Пиксели тоже думают. А мегапиксели... Если серьёзно, то это моя любимая тема про рекуррентный ризонинг, теперь применённая к диффузионным моделям.
- #5447Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving…
Текстовой оптимизации прибыло. SkillOpt: Executive Strategy for Self-Evolving Agent Skills Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu…
- #5440Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee,…
Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti Paper: https://arxiv.org/abs/2605.26099…