Создатель механизма внимания Йошуа Бенджио предложил новую архитектуру для нейросетей Вместе с исследователями из лабы KAIST и Нью-Йоркского университета он анонсировал GRAM – Generative Recursive reAsoning Models. Ученые уже давно экспериментируют с так называемыми Recursive Reasoning Models. Идея в том, что в отличие от привычных ризонинг моделей они рассуждают не с помощью генерации дополнительных токенов, а как бы про себя, в пространстве внутренних состояний, которые итеративно уточняются, улучшая ответ. Преимущество в теории очевидно: можно делать сотни шагов рассуждения без раздувания контекста. Но до этой работы такие модели были детерминированы, то есть при одинаковом входе всегда шли по одному и тому же пути и приходили к единственному ответу. Почему это проблема? Потому что случайность – это источник креативного рассуждения самого по себе. В обычных ризонерах она есть, и это открывает путь к исследованию альтернатив и масштабированию через параллельный перебор. Нет случайности – нет возможности попробовать иначе, и это тупиковое развитие. Заслуга GRAM как раз в том, что это первая в своем классе стохастичная модель. На каждом шаге рекурсии модель вычисляет детерминированный шаг – куда двигаться дальше – и добавляет к нему стохастический сдвиг. Среднее этого сдвига задает направление, а дисперсия – степень исследования. Чем сложнее задача, тем шире модель разбрасывает траектории. Затем из множества таких траекторий с помощью реворд модели выбирается лучшая. На ARC-AGI GRAM набирает 52%, это примерно уровень GPT-5.2. А еще модель просто отлично играет в судоку. https://ahn-ml.github.io/gram-website/
Создатель механизма внимания Йошуа Бенджио предложил новую архитектуру для…
Из этого канала
- #9265"Внутренняя модель OpenAI опровергла человеческое решение 80-летней задачи Речь…
"Внутренняя модель OpenAI опровергла человеческое решение 80-летней задачи Речь идет об очень известной задаче Пола Эрдеша, которую он поставил в 1946 (и даже…
- #9266Системный аналитик помогает бизнесу и разработке говорить на одном языке:…
Системный аналитик помогает бизнесу и разработке говорить на одном языке: разбирает задачи компании, описывает требования, проектирует IT-решения и следит,…
- #9267OpenAI начинает официальный процесс выхода в IPO WSJ пишут, что они планируют…
OpenAI начинает официальный процесс выхода в IPO WSJ пишут, что они планируют подать заявку регулятору буквально сегодня или завтра.
- #9263Сэм Альтман предложил каждому стартапу в YCombinator 2 миллиона долларов в…
Сэм Альтман предложил каждому стартапу в YCombinator 2 миллиона долларов в токенах за долю в компании Скорее всего, рассчитывать на такую щедрость (aka почти…
- #9262В 2026 году желания просто “войти в ИТ” уже недостаточно На фоне развития ИИ и…
В 2026 году желания просто “войти в ИТ” уже недостаточно На фоне развития ИИ и растущей конкуренции, базовые требования становятся выше.