Тем временем продолжаются эксперименты с автообзорами статей в канале https://t.me/gonzo_ML_podcasts. Из последнего и свежего: * Статья от Тегмарка и ко про выучивание сильных узких моделей. Для которых правильный прунинг из большой общей модели оказывается лучше дистилляции, а в целом широкие и разнообразные данные таки нужны для более быстрого и качественного выучивания определённых навыков. * Статья про ризонинг токены где на модельной задаче с поиском A* и лабиринтами показано, что трассировки CoT не обязательно являются достоверным отображением «рассуждений» модели, и «бессмысленные» промежуточные токены могут быть поразительно эффективны. * Статья про механистичную оценку способностей трансформеров и SSM, показывающая что модели со схожей поведенческой производительностью могут использовать принципиально разные внутренние стратегии. Поток статей каждый день валится огромный, всё разобрать нереально, так что буду продолжать делать это автоматически для статей, которые любопытны, но не настолько чтобы разбирать вручную. Режим вручную оставлю для самого вкусного.
Тем временем продолжаются эксперименты с автообзорами статей в канале…
Из этого канала
- #3673Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели…
Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели используют свои слои В продолжение темы про mech interp в трансформерах, свежая…
- #3674Пока не R2, но всё же https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
Пока не R2, но всё же https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
- #3675Картинка подоспела https://x.com/deepseekai/status/1928061589107900779?t=K2G9Kva…
Картинка подоспела https://x.com/deepseekai/status/1928061589107900779?t=K2G9KvaYQP3SzmtWKM1DA&s=19
- #3669Yo! https://www.anthropic.com/news/claude-4
Yo! https://www.anthropic.com/news/claude-4
- #3668Свежего Бенжио вам в ленту https://youtu.be/qe9QSCF-d88?si=Xp2zLxiKIcAkVjap
Свежего Бенжио вам в ленту https://youtu.be/qe9QSCF-d88?si=Xp2zLxiKIcAkVjap