Прошло полгода с выхода AI-2027, работе с предсказаниями о том, как ситуация… — @seeallochnaya

Прошло полгода с выхода AI-2027, работе с предсказаниями о том, как ситуация будет развиваться дальше. Вчера выделил пару часов на то, чтобы постараться понять, идём ли мы по сценарию, опережаем или отстаём. Согласно тексту, ничего из ряда вон выходящего пока не происходит. Большая часть вещей, предсказанных на 2025-начало 2026-го и на релизе выглядели адекватно, и в целом они и случились: компании делают ставки на агентов, агенты пока ненадёжны, их продают под соусом персональных ассистентов. По метрикам агентов на август 2025-го авторы предсказывали, что: — на OSWorld наберут 65% (сейчас топ-1 решение с одним прогоном, GTA1 с августовской GPT-5, набирает 63.4%, Sonnet 4.5 61.4%) — на SWEBench-Verified наберут 85% (сейчас топ-1 82% у Sonnet 4.5) Так что отставание если и есть, то совсем маленькое. Следующие конкретные предсказания по метрикам стоят на апрель 2026-го (80% на OSWorld, 85% на Cybench, 1.3 на REBench), но последние два бенчмарка не очень часто обновляются, и по последнему даже вот не ясно, какой сейчас результат у GPT-5 / Sonnet 4.5. Надежда на то, что для подведения итогов AI 2025 Forecast от AI Digest бенчмарки пересчитают с лучшими доступными на тот момент моделями. Прогресс к апрелю 2026-го, согласно работе, обоснован тем, что OpenBrain обучат Agent-1. Согласно их прогнозам, обучение будет происходить с июля 2025-го по февраль 2026-го и суммарно потребует 4e27 FLOP вычислений. Это в 20 раз больше, чем, по оценкам, потратили на GPT-4.5, и в 8 раз больше Grok-4. Вместе с GPT-5-Pro я попробовал оценить, есть ли такие мощности у OpenAI, и если нет, то с каким опозданием они идут? GPT-5-Pro делала расчёты и пришла к выводу, что да, в сентябре-октябре они могли начать такую тренировку, но я посмотрел в цифры и мне кажется, что нет. Такая тренировка даже при условии, что длится 7-8 месяцев (это абсолютный максимум, который можно брать в рамках разумного), потребует около 500 тысяч видеокарт H100. Sam Altman говорил, что к концу 2025-го у них будет всего миллион карт. То есть под эту тренировку должны выделить около половины всего железа, что повлияет на все остальные эксперименты. Одна из альтернатив — это использовать новые карты GB200; в Stargate I в Техасе как раз ставят их. Но на данный момент сдано всего 2 здания из 8 (~112 тысяч видеокарт из 450 тысяч запланированных), и сдача произошла в начале октября. Обычно после сдачи ещё какое-то время идет нагрузочное тестирование, сгоревшие видеокарты меняют итд, так что самое лучшее, когда смогут начтаь тренировку — ноябрь. Но в целом 112 тысяч карт GB200 действительно позволяют на горизонте от полугода выйти на Agent-1. Agent-0, который должны были учить с октября 2024-го по май 2025-го, всего в 5 раз больше GPT-4.5 и в 2 раза больше Grok-4 (релиз состоялся в июне 2025-го, так что окончание тренировки в мае +- ок) — в целом у OpenAI были такие мощности, и если они хотели, то могли обучить гигантскую модель с учётом уроков GPT-4.5. Возможно, именно эта экспериментальная система выиграла золото на олимпиадах по информатике/математике летом, а может быть и нет. TLDR: чуть-чуть отстаём от прогнозов, но есть шанс нагнать, так как выглядит, что в 2026-м году мощностей станет больше, чем было предсказано в работе (я сделал быструю оценку по размеру капитала, она может быть неточной).

Из этого канала