OpenMythos: известный инженер и создатель Swarms воссоздал предполагаемую архитектуру Claude Mythos и набрал уже 3.3к звезд на GitHub https://github.com/kyegomez/OpenMythos Дисклеймер: это именно предполагаемая архитекутра. Никаких сливов вокруг модели (вроде как) не было, а это – просто реализация гипотезы, основанной на открытых данных, статьях и мнениях авторитетных граждан соцсетей. Автор утверждает, что модель построена на архитектуре Recurrent‑Depth Transformer (RDT) с MoE‑роутингом и адаптивным вычислением. Модель делится на три крупных блока: 1. Prelude – обычные слои трансформера, к которым мы привыкли в современных моделях. Они работают ровно один раз, обрабатывают входные данные и инициализируют скрытые состояния. 2. Recurrent Block. Вот тут уже начинается новизна. Это один и тот же блок слоев, который применяется по кругу N раз. То есть в такой модели глубина нейросети получается не за счет множества разных слоев, а за счет многократного прохождения одного блока. Надо сказать, что на каждом шаге еще учитываются LoRA‑адаптеры по глубине, так что каждый шаг цикла вычислительно уникальный, хотя базовые веса одни и те же. 3. Coda – заключительные слои, которые работают еще один раз после цикла, чтобы сформировать финальные логиты. Это идея так называемого рекуррентного рассуждения в латентном пространстве. Мы уходим от привычного ризонинга chain‑of‑thought в токен‑пространстве к гибкому ризонингу в скрытых слоях. Если нужно думать дольше, модель не генерирует больше токенов, а наращивает количество внутренних прогонов, уточняя ответ. Красивая гипотеза, конечно. Верить ей или нет, решать вам. Весь код можно покрутить вот здесь. В исходной имплементации в модели всего 770M параметров, но другие разработчики уже начинают скейлить идею и проверять архитектуру на более крупных моделях. Интересно, что из этого выйдет.
OpenMythos: известный инженер и создатель Swarms воссоздал предполагаемую…
Из этого канала
- #9076О, стало известно, кто станет следующим CEO Apple Apple официально объявила,…
О, стало известно, кто станет следующим CEO Apple Apple официально объявила, что Тим Кук уйдет с поста CEO, а его преемником станет Джон Тернус, нынешний…
- #9077В ChatGPT начинают раскатывать новую модель GPT Image-2 Первые генерации от…
В ChatGPT начинают раскатывать новую модель GPT Image-2 Первые генерации от пользователей выглядят невероятно.
- #9084Как быстро делать выжимку по любому материалу Если ведете блог или просто…
Как быстро делать выжимку по любому материалу Если ведете блог или просто регулярно пишете тексты, большая часть времени всегда уходит на разбор источников и…
- #9072«Сделано с ИИ»: Яндекс Практикум запускает премию для джунов и мидлов, которые…
«Сделано с ИИ»: Яндекс Практикум запускает премию для джунов и мидлов, которые используют нейросети в проектах Яндекс Практикум открыл прием заявок на премию…
- #9071"Исследователь из Google написал статью о том, почему ИИ никогда не сможет…
"Исследователь из Google написал статью о том, почему ИИ никогда не сможет обладать сознанием Он утверждает, что ни при какой мощности моделей, ни через 10, ни…