Прошло полгода с выхода AI-2027, работе с предсказаниями о том, как ситуация будет развиваться дальше. Вчера выделил пару часов на то, чтобы постараться понять, идём ли мы по сценарию, опережаем или отстаём. Согласно тексту, ничего из ряда вон выходящего пока не происходит. Большая часть вещей, предсказанных на 2025-начало 2026-го и на релизе выглядели адекватно, и в целом они и случились: компании делают ставки на агентов, агенты пока ненадёжны, их продают под соусом персональных ассистентов. По метрикам агентов на август 2025-го авторы предсказывали, что: — на OSWorld наберут 65% (сейчас топ-1 решение с одним прогоном, GTA1 с августовской GPT-5, набирает 63.4%, Sonnet 4.5 61.4%) — на SWEBench-Verified наберут 85% (сейчас топ-1 82% у Sonnet 4.5) Так что отставание если и есть, то совсем маленькое. Следующие конкретные предсказания по метрикам стоят на апрель 2026-го (80% на OSWorld, 85% на Cybench, 1.3 на REBench), но последние два бенчмарка не очень часто обновляются, и по последнему даже вот не ясно, какой сейчас результат у GPT-5 / Sonnet 4.5. Надежда на то, что для подведения итогов AI 2025 Forecast от AI Digest бенчмарки пересчитают с лучшими доступными на тот момент моделями. Прогресс к апрелю 2026-го, согласно работе, обоснован тем, что OpenBrain обучат Agent-1. Согласно их прогнозам, обучение будет происходить с июля 2025-го по февраль 2026-го и суммарно потребует 4e27 FLOP вычислений. Это в 20 раз больше, чем, по оценкам, потратили на GPT-4.5, и в 8 раз больше Grok-4. Вместе с GPT-5-Pro я попробовал оценить, есть ли такие мощности у OpenAI, и если нет, то с каким опозданием они идут? GPT-5-Pro делала расчёты и пришла к выводу, что да, в сентябре-октябре они могли начать такую тренировку, но я посмотрел в цифры и мне кажется, что нет. Такая тренировка даже при условии, что длится 7-8 месяцев (это абсолютный максимум, который можно брать в рамках разумного), потребует около 500 тысяч видеокарт H100. Sam Altman говорил, что к концу 2025-го у них будет всего миллион карт. То есть под эту тренировку должны выделить около половины всего железа, что повлияет на все остальные эксперименты. Одна из альтернатив — это использовать новые карты GB200; в Stargate I в Техасе как раз ставят их. Но на данный момент сдано всего 2 здания из 8 (~112 тысяч видеокарт из 450 тысяч запланированных), и сдача произошла в начале октября. Обычно после сдачи ещё какое-то время идет нагрузочное тестирование, сгоревшие видеокарты меняют итд, так что самое лучшее, когда смогут начтаь тренировку — ноябрь. Но в целом 112 тысяч карт GB200 действительно позволяют на горизонте от полугода выйти на Agent-1. Agent-0, который должны были учить с октября 2024-го по май 2025-го, всего в 5 раз больше GPT-4.5 и в 2 раза больше Grok-4 (релиз состоялся в июне 2025-го, так что окончание тренировки в мае +- ок) — в целом у OpenAI были такие мощности, и если они хотели, то могли обучить гигантскую модель с учётом уроков GPT-4.5. Возможно, именно эта экспериментальная система выиграла золото на олимпиадах по информатике/математике летом, а может быть и нет. TLDR: чуть-чуть отстаём от прогнозов, но есть шанс нагнать, так как выглядит, что в 2026-м году мощностей станет больше, чем было предсказано в работе (я сделал быструю оценку по размеру капитала, она может быть неточной).
Прошло полгода с выхода AI-2027, работе с предсказаниями о том, как ситуация…
Из этого канала
- #3027Сегодня OpenAI направили письмо в Управление Белого дома по вопросам науки и…
Сегодня OpenAI направили письмо в Управление Белого дома по вопросам науки и технологий.
- #3028Это случилось — с одобрения генеральных прокуроров Калифорнии и Делавэра OpenAI…
Это случилось — с одобрения генеральных прокуроров Калифорнии и Делавэра OpenAI завершила рекапитализацию, упростив корпоративную структуру.
- #3030Закончился стрим, в основном повторили то, что уже утекло в новости: заключили…
Закончился стрим, в основном повторили то, что уже утекло в новости: заключили суммарно сделок на $1.4T долларов и на 30 ГигаВатт датацентров в ближайшие годы.
- #3025Ждем пока кто-то наладит парсинг через Агента, чтобы он автоматически проходил…
Ждем пока кто-то наладит парсинг через Агента, чтобы он автоматически проходил капчу 😶
- #3024Попробовал решить проблему с ChatGPT Atlas браузером и доволен: Есть у меня…
Попробовал решить проблему с ChatGPT Atlas браузером и доволен: Есть у меня такой сервис на сайте, позволяет парсить интернет статьи в формате удобном для LLM:…