Вчера DeepMind представили Genie 3 — новую world model (дают такое определение: AI-системы, которые могут использовать свое понимание мира для моделирования его аспектов, позволяя агентам прогнозировать изменения окружающей среды и влияние действий на эту среду). Если по простому, то по текстовому промпту Genie 3 может генерировать динамические интерактивные миры, по которым вы можете перемещаться. Видео генерируется со скоростью 24 кадра в секунду в разрешении 720p. Наверняка сюда в модель заехала большая часть улучшений от Veo 3 / Veo 3 Fast. Ключевое отличие от Genie 2 — исследователи смогли достигнуть консистентности на отрезках более минуты. Дают два очень крутых примера (см. видео): — как отворачиваются от доски, смотрят в окно, поворачиваются обратно и надпись/картинки остаются — как красят стену, тоже отворачиваются и поворачиваются обратно Никакой статьи с деталями, увы, нет, но сказали хотя бы то, что консистентность над длинными промежутками времени — это emergent capability, то есть модель сама это выучила по ходу тренировки, без дополнительных подпорок/хаков. Другими словами под капотом нет никакого явного трёхмерного представления, не генерируются 3D-модели, итд. В некотором смысле Genie 3 — это симулятор, с которым могут взаимодействовать агенты (давать команды на передвижение / повороты + одна кнопка действия). Исследователи пишут, что они уже попробовали запустить своего SIMA-агента (Scalable Instructable Multiworld Agent) поиграть, правда не пишут о результатах. Для ностальгирующих — вот статья Genie 1 от февраля 2024-го года 👴и напоминаю про свой мега-лонг на Хабре про world models. Больше видео с демонстрациями интерактивности — тут.