Эта эмерджентная иерархия, отсутствующая в необученной сети, точно отражает… — @gonzo_ML

Эта эмерджентная иерархия, отсутствующая в необученной сети, точно отражает организацию размерностей, наблюдаемую в коре млекопитающих, где ассоциативные области высшего порядка имеют более высокую размерность, чем первичные сенсорные области. Это предоставляет корреляционное свидетельство того, что HRM выучивает фундаментальный организационный принцип для гибких рассуждений общего назначения. 🧠 Пост-анализ от ARC-AGI Организаторы конкурса проанализировали перформанс HRM (https://arcprize.org/blog/hrm-analysis) и проверили её на скрытой части своего датасета. Они подтвердили результат модели, на Semi-Private sets это 32% для ARC-AGI-1 (что по-прежнему круто для такой маленькой модели) и 2% на ARC-AGI-2. Самая интересная часть в сделанных абляциях. Они таковы: * Иерархичность с рекурсией не особо играет, трансформер такого же размера при прочих неизменных архитектурных факторах (но компьюта HRM жрёт всё же больше, что может влиять) даёт качество в районе +/-5%, особенно если делать только один цикл (сегмент). То есть дело не в архитектуре как таковой. Это не совсем понятно, почему Direct pred тогда имел разницу 2x? * Outer-loop refinement process (тот самый Deep supervision с ACT и последовательным улучшением результата) добавляет очень много, особенно в training time. Особо большая разница между одним и двумя проходами, но в целом качество продолжает расти вплоть до 16 циклов. То есть Universal Transformer (https://t.me/gonzo_ML/90) или ALBERT (https://moocaholic.medium.com/adaptive-computation-time-act-in-neural-networks-3-3-99452b2eff18) — нашё всё? * Cross-task transfer ограничен, большая часть перформанса из запоминания решений специфических задач * Аугментации в претрейне критичны, но их достаточно 300, а не 1000. Аугментации при инференсе мало добавляют. Авторы анализа говорят, что это делает подход фундаментально близким к представленному в статье “Arc-agi without pretraining”, но в статье про HRM сказано, что указанный подход даёт столько же, сколько и Direct Pred бейзлайн. Так что может фундаментально и близко, но разница в качестве почти в два раза. 🤔 Ограничения и будущее Авторы признают несколько ограничений. Одношаговый градиент является аппроксимацией, а доказательства причинной роли эмерджентной иерархии размерностей пока что корреляционные. Связь между модулями реализована как простое поэлементное сложение, которое можно было бы улучшить с помощью более сложных механизмов гейтирования. Будущая работа включает исследование каузальной необходимости emergent-иерархии и интеграцию иерархической памяти для обработки ещё более длинных контекстов.

Из этого канала