"Интересный подход PostNAS с поиском оптимальной архитектуры LLM в работе про Jet-Nemotron: https://t.me/gonzo_ML_podcasts/863 Не надо пробовать 100500 вариантов во время обучения (как работает классический NAS), надо обучить большую сеть, ""включающую всё"", а потом коцать её, занимаясь оптимизацией. Напоминает идейно pruning, но на чуть другом уровне. Результат интересный. Итоговые маленькие модели бьют оригинальные хорошие (и часто более тяжёлые) бейзлайны. Скорость генерации на уровне топовых нетрансформерных архитектур. Ну и сам JetBlock в целом по сути из той же когорты."