В прошлом году Google DeepMind представили SIMA (Scalable Instructable Multiworld Agent) — универсального ИИ-агента, который мог выполнять простые инструкции в 7 разных трёхмерных играх. Сегодня они показали SIMA 2 — систему, в которую интегрированы новые рассуждающие модели Gemini (что интересно, не пишут версию; не хотят спойлерить, что это Gemini 3?) с целью перехода от исполнителя простых инструкций до интерактивного игрового агента. Одна из самых интересных новых возможностей SIMA 2 — это способность к самообучению и самосовершенствованию. Исследователи обнаружили, что в процессе обучения агенты могут выполнять всё более сложные новые задачи, опираясь на опыт проб и ошибок, а также на обратную связь, генерируемую Gemini. Модель дообучается на уже завершённых эпизодах, тем самым закрепляя навыки. Кроме того, это позволило прокачать перенос приобретённых знаний — например, применять концепцию «добычи ресурсов» из одной игры к аналогичной концепции «сбора урожая» в другой. В результате SIMA 2 демонстрирует уровень выполнения задач значительно ближе к человеческому, чем SIMA 1. Авторы тестировали модель суммарно на 13 играх от 8 компаний, разделив их на тренировочные и валидационные, которые модели не показывают до момента тестирования. На первой группе доля успешно выполненных задач составила 68% (против 75% у людей и 31% у SIMA 1), а на второй — чуть меньше 15% (при 0-2% у SIMA 1). На этом в DeepMind не остановились, а запустили модель играть в Genie 3 — генеративную модель на основе видео-генератора, обученную создавать интерактивные виртуальные миры (см. тут). Никаких конкретных указаний метрик или качества не дают, лишь пару примеров — их и прикрепил к посту. Ещё раз: тут две модели симулируют для игрока мир: одна переводит текстовые команды в действия и формирует ответы, другая — генерирует игровой мир, принимающий действия на вход. В следующей серии ждём, как агента натренируют в большом количестве виртуальных сред и начнут тестировать в реальности 🍭 Хотя SIMA 2 представляет собой значительный шаг на пути к «универсальному, интерактивному искусственному интеллекту» (цитата из блога), проект остаётся исследовательским, и его текущие ограничения указывают на ключевые направления для будущих исследований. Мы видим, что агенты всё ещё испытывают трудности с очень сложными задачами, требующими длительного планирования, многошагового рассуждения и проверки целей. Также у SIMA 2 относительно короткая память о взаимодействиях — агенту приходится использовать ограниченный контекст для обеспечения быстрой генерации Посмотреть больше демок: тут