"Интересный подход PostNAS с поиском оптимальной архитектуры LLM в работе про Jet-Nemotron: https://t.me/gonzo_ML_podcasts/863 Не надо пробовать 100500 вариантов во время обучения (как работает классический NAS), надо обучить большую сеть, ""включающую всё"", а потом коцать её, занимаясь оптимизацией. Напоминает идейно pruning, но на чуть другом уровне. Результат интересный. Итоговые маленькие модели бьют оригинальные хорошие (и часто более тяжёлые) бейзлайны. Скорость генерации на уровне топовых нетрансформерных архитектур. Ну и сам JetBlock в целом по сути из той же когорты."
"Интересный подход PostNAS с поиском оптимальной архитектуры LLM в работе про…
Из этого канала
- #4037А вот и Навье-Стокс от Дипмайнда подоспел…
А вот и Навье-Стокс от Дипмайнда подоспел https://deepmind.google/discover/blog/discovering-new-solutions-to-century-old-problems-in-fluid-dynamics/
- #4038Pre-training under infinite compute Konwoo Kim, Suhas Kotha, Percy Liang,…
Pre-training under infinite compute Konwoo Kim, Suhas Kotha, Percy Liang, Tatsunori Hashimoto Статья: https://arxiv.org/abs/2509.14786 Код:…
- #4039Хотя регуляризация решает проблему масштабирования одной модели, авторы…
Хотя регуляризация решает проблему масштабирования одной модели, авторы задаются вопросом, есть ли лучший способ потратить бесконечные вычислительные ресурсы.
- #4034В тему агентских экономик (https://t.me/gonzoML/4032), Гугл анонсировал…
В тему агентских экономик (https://t.me/gonzoML/4032), Гугл анонсировал агентский протокол для платежей Agent Payments Protocol (AP2), расширение A2A.
- #4033Прикольно. Статья про Deepseek-R1 (https://t.me/gonzoML/3319) вышла в натуре.…
Прикольно. Статья про Deepseek-R1 (https://t.me/gonzoML/3319) вышла в натуре. Не всё Дипмайнду только там публиковаться :)…