DeepSeek, конечно, стал офигенным прорывом, особенно R1, пожалуй. После него стало понятно, что гэп между американскими фронтирными компаниями и остальными, возможно, не такой уж и большой. Знатно некоторые товарищи забегали. Благодаря этой работе (а не оригинальной DeepSeekMath из 2024), RL алгоритм GRPO (Group Relative Policy Optimization) стал чуть ли не стандартом, везде теперь используется (хоть после него уже и много чего ещё появилось). Qwen и до DeepSeek был очень хорош, и продолжает быть таковым. Их модели, в отличие от DeepSeek по крайней мере можно запускать на железе разумного размера, без кластеров H100. Часто являются дефолтными моделями для старта, как выясняется даже для американских стартапов. Есть и много других интересных моделей: Kimi K2, MiniMax, GLM, Hunyuan, теперь ещё и IQuest-Coder. Что тут ещё сказать, молодцы. 5. JEPA + World Models Тему про модели мира я люблю, писал про неё и в прошлый раз, и мне кажется за год здесь много всего произошло, количество понемногу переходит в качество. Во-первых, появилось 100500 вариантов и развитий JEPA: V-JEPA 2, VL-JEPA, LLM-JEPA, LeJEPA, JEPA as a Neural Tokenizer, а также близкая к JEPA NEPA. Во-вторых, сам Лекун ушёл делать свой стартап про World Models. А ещё вышел Dreamer 4, появилась гугловая Genie 3 (после первой версии всё без статей 🙁), и в целом движ идёт. 6. TPU rises, NVIDIA defends NVIDIA — самая дорогая компания мира и по-прежнему лидер, но почему-то неожиданно оказалось, что топовые модели можно обучать и без её железа. Пока лучший пример — Гугл, обучивший очень хорошую Gemini 3 (и все предыдущие Gemini) на своём TPU. TPU продолжает развиваться, есть какие-то разговоры про поставку железа за пределы Гугла (в Anthropic), и было бы интересно, если бы эта альтернатива появилась на открытом рынке. NVIDIA в свою очередь разбирается с конкурентами, вот прямо перед новым годом как бы съела Groq. Китайцы тем временем усиленно пытаются перейти на своё и на государственном уровне пытаются отвязаться от Нвидии — какая-никакая своя экосистема у них есть. Про другие ASIC сказать труднее. Ну вот Cerebras вроде как жив и продолжает производить свои супер-вафли, которые также можно поюзать в облаке. GraphCore как компания жив, но что-то от них ничего особо интересного не слышно, хотя архитектура их чипов была любопытная. Знаю, что используют внутри JAX, подарил свою книжку их Engineering Fellow. SambaNova вроде тоже что-то делает, и (я пропустил) оказывается Intel изъявил желание её купить. За интелом правда солидный трек убийства разных купленных компаний, с одной Nervana они годами кормили нас завтраками про новые чипы, которые так и не вышли. 7. AGI/ASI hype & 2027 scenario delayed Сценарий появления сверхчеловеческого ИИ под названием AI 2027 как оказалось откладывается. Но ничего, авторы выпустили обновлённую версию под названием The AI Futures Model с оценкой на май 2031 про появление Automatic Coder, который может автоматизировать создание ASI, и июль 2034, когда разница между ASI и лучшим человеком будет в два раза выше, чем между лучшими людьми и медианными профессионалами, и так по всем когнитивным задачам. Чуть подробнее по-русски тут, а вообще читайте сайт, там красиво всё сделали, навигация особенно прикольная. AGI/ASI хайп, кажется подсдулся. Некоторые товарищи слишком оголтело всё обещали и ничего не заделиверили, так что одни теперь говорят, что термин AGI мол не очень полезный нынче; другие заявляют, что термин overhyped (сложно было не согласиться); ну и так далее. Но рано или поздно всё равно всё будет. 8. AI+Science В этом году было много работ про агентов для науки. AI Scientist-v2 от Sakana создал статью, которая прошла пир ревью на воркшоп ICLR. Было много других работ про агентов для науки, где понемножку отдельные шаги исследований мы начинаем покрывать. Например, (это или это). Такого будет больше. Про математику отдельно писать не буду, но здесь тоже большой прорыв, сразу несколько компаний показали результаты сопоставимые с золотой медалью на международной математической олимпиаде.