Создатель механизма внимания Йошуа Бенджио предложил новую архитектуру для… — @data_secrets

Создатель механизма внимания Йошуа Бенджио предложил новую архитектуру для нейросетей Вместе с исследователями из лабы KAIST и Нью-Йоркского университета он анонсировал GRAM – Generative Recursive reAsoning Models. Ученые уже давно экспериментируют с так называемыми Recursive Reasoning Models. Идея в том, что в отличие от привычных ризонинг моделей они рассуждают не с помощью генерации дополнительных токенов, а как бы про себя, в пространстве внутренних состояний, которые итеративно уточняются, улучшая ответ. Преимущество в теории очевидно: можно делать сотни шагов рассуждения без раздувания контекста. Но до этой работы такие модели были детерминированы, то есть при одинаковом входе всегда шли по одному и тому же пути и приходили к единственному ответу. Почему это проблема? Потому что случайность – это источник креативного рассуждения самого по себе. В обычных ризонерах она есть, и это открывает путь к исследованию альтернатив и масштабированию через параллельный перебор. Нет случайности – нет возможности попробовать иначе, и это тупиковое развитие. Заслуга GRAM как раз в том, что это первая в своем классе стохастичная модель. На каждом шаге рекурсии модель вычисляет детерминированный шаг – куда двигаться дальше – и добавляет к нему стохастический сдвиг. Среднее этого сдвига задает направление, а дисперсия – степень исследования. Чем сложнее задача, тем шире модель разбрасывает траектории. Затем из множества таких траекторий с помощью реворд модели выбирается лучшая. На ARC-AGI GRAM набирает 52%, это примерно уровень GPT-5.2. А еще модель просто отлично играет в судоку. https://ahn-ml.github.io/gram-website/

Из этого канала