Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели используют свои слои В продолжение темы про mech interp в трансформерах, свежая работа Криса Маннинга и ко разбирает важность глубины трансформера и приходит к выводам, что более глубокая сеть скорее растягивает те же вычисления на большее число слоёв. Это прикольная тема, я тоже экспериментировал с выкидыванием слоёв в LLM (можете взять код и поэкспериментировать на более новых моделях, или на более глубоких, у кого DGX под рукой есть), и в канале мы регулярно писали про подобные работы (Transformer Layers as Painters или LayerShuffle). Ждём более умных подходов к обучению, им явно есть место! P.S. Обновил автогенератор ревью и среди прочего пофиксил там глупую багу, из-за которой на перевод отправлялась не самая финальная версия ревью. Теперь должно стать ещё лучше, особенно это помогло в борьбе с галлюцинациями и выдумыванием ссылок. До канала такие примеры не доезжали, но проблема была регулярная.
Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели…
Из этого канала
- #3674Пока не R2, но всё же https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
Пока не R2, но всё же https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
- #3675Картинка подоспела https://x.com/deepseekai/status/1928061589107900779?t=K2G9Kva…
Картинка подоспела https://x.com/deepseekai/status/1928061589107900779?t=K2G9KvaYQP3SzmtWKM1DA&s=19
- #3676Поразительно, конечно, изменился рынок за пару лет. Теперь центр топового…
Поразительно, конечно, изменился рынок за пару лет. Теперь центр топового опенсорса -- Китай.
- #3672Тем временем продолжаются эксперименты с автообзорами статей в канале…
Тем временем продолжаются эксперименты с автообзорами статей в канале https://t.me/gonzoMLpodcasts.
- #3669Yo! https://www.anthropic.com/news/claude-4
Yo! https://www.anthropic.com/news/claude-4