Результат: бьют HRM и TRM на Sudoku, ARC-AGI-1 и ARC-AGI-2. В предыдущих работах ещё был Maze-Hard, здесь не сделали. Для ARC приводят скоры для pass@1, @10, @100 и @1000, для судоку только pass@1. Про ARC выглядит странно, мне казалось, что в предыдущих работах проверка была устроена так, что генерировались 1000 аугментаций, но из них выбирались два самых частых результата, по которым оценивался ARC (то есть как бы pass@2). Здесь написано, что сэмплилось n ответов и сэмпл считался корректным, если хотя бы один ответ был верным, то есть для n=1000 это реально pass@1000, что несравнимо с предыдущими работами. Смотреть вроде как тогда осмысленно только на pass@1 Интересно, что скоры заметно отличаются от скоров в статьях про HRM/TRM. Например, для судоку результаты HRM и TRM были 87.4/74.7 (у TRM были две разные версии, с MLP и SA) и 55.0 соответственно. Здесь в статье скоры этих моделей 63.9 и 66.8, что интересно потому что, во-первых, заметно меньше для TRM, во-вторых разница между ними стала крайне маленькой. У URM скор 77.6, что выше цифр TRM/HRM из текущей работы, но ниже оригинальной работы про TRM. На ARC-AGI-2 вообще здесь HRM выше TRM, что очевидно было иначе в работе про TRM, и так же иначе на картинке из начала статьи, где они явно говорят, что цифры взяли от ARC-AGI. Муть какая-то, надо очень внимательно разбираться. Вообще непонятно, как с предыдущими работами сравниться. Надежда только на самих ARC, чтобы по-честному померяли. Из интересного, авторы прогнали на ARC-AGI-1 много вариантов обычного трансформера и пару вариантов UT и показали цифры. UT с 4 слоями и 8 циклами заметно бьёт ванильный трансформер с 32 слоями, у которого столько же вычислений и в 8 раз больше параметров. Я только не понял, что здесь с ACT, это цикл равен 1? Вроде как получается, что итеративные вычисления лучше, чем добавление слоёв (перекликается с https://arxiv.org/abs/2502.17416). Рекуррентный Inductive bias UT лучше подходит для таких задач? Для полного бинго авторы попробовали оптимизатор Muon (я сделал то же самое). Muon дал более быструю сходимость, чуть ли не в два раза на ARC-AGI-2, но финальный результат такой же. С мюоном, правда, дьявол в деталях, к каким слоям его применяют, с какими именно гиперпараметрами. В статье деталей нет, надо в код лезть (при условии, что он соответствует). Мысли сходятся. И очень жду перепроверки от ARC-AGI.
Результат: бьют HRM и TRM на Sudoku, ARC-AGI-1 и ARC-AGI-2. В предыдущих…
Из этого канала
- #4450https://z.ai/blog/glm-4.7 🔥
https://z.ai/blog/glm-4.7 🔥
- #4452Важная тема на живом примере. Переход от прототипа к продакшн-агенту…
Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте.
- #4455"Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные…
"Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE.
- #4438Авторы добавляют одномерную depthwise свёртку с ядром k=2 (так понимаю, текущий…
Авторы добавляют одномерную depthwise свёртку с ядром k=2 (так понимаю, текущий токен и предыдущий токен) поверх фич, уже прошедших гейт: Hconv = σ(Wdwconv…
- #4437Universal Reasoning Model Zitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao,…
Universal Reasoning Model Zitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai Статья: https://www.arxiv.org/abs/2512.14693…