Forecasting AI Time Horizon Under Compute Slowdowns В начале года METR представили свою работу по AI Time Horizon — оценку того, как долго агент может автономно выполнять задачи, связанные с ML и разработкой. На некотором наборе данных они эмпирически обнаружили, что с 2019 по 2025 год этот показатель рос экспоненциально, удваиваясь каждые 7 месяцев. На момент выхода статьи лучшей моделью была Claude Sonnet 3.7 с показателем 54 минуты, сегодня это GPT-5.1-Codex-Max c почти 3 часами — получилось как бы «удвоение» (с учётом огромных доверительных интервалов). И дальше и авторы, и многие последователи экстраполировали этот тренд и использовали как факторы для своих моделей анализа будущего. Работа, вышедшая вчера (я так понял независимо от METR, хоть один из со-авторов и работает там) — это корректировка для этой модели: там заметили, что рост тесно связан с безумным наращиванием вычислительных мощностей. Авторы задались вопросом: а что будет, если (или когда) экспоненциальный рост железа упрётся в стену или просто замедлится? Они построили теоретическую модель, где прогресс зависит от двух факторов: затрат на обучение и качества алгоритмов (которые, в свою очередь, зависят от затрат на экспериментальные вычисления/исследования — то есть тоже от мощностей). Грубо говоря, если темпы наращивания кластеров упадут в два раза, то и прогресс в автономности агентов замедлится ровно в два раза. Дальше авторы берут опубликованные недавно планы OpenAI по железу до 2030-го года (после 2030-го просто сохраняют темп роста; и ещё закладывают увеличение эффективности самого железа), и делают расчёт уже с поправкой. Так, например, агент с горизонтом в 1 месяц при 50% успеха (= делает половину задач, которые в разбираемом домене занимают у инженеров по месяцу) уезжает с 2029-го на 2033-й. 1 неделя — с начала 2028-го на 2030-й. Эти цифры очень близки к моим внутренним прогнозам / вере в прогресс, как раз к 2031-32.
Forecasting AI Time Horizon Under Compute Slowdowns В начале года METR…
Из этого канала
- #3135А давайте вот такой эксперимент представим: вы Anthropic, тренируете мощную LLM…
А давайте вот такой эксперимент представим: вы Anthropic, тренируете мощную LLM писать код, используя Reinforcement Learning (RL) и заставляете модель…
- #3137Не обращайте внимание, гифка абсолютно никак не связана с постом выше 🙂
Не обращайте внимание, гифка абсолютно никак не связана с постом выше 🙂
- #3138Простите ответ на посты выше будет поздно вечером, вышло интервью с Илюхой…
Простите ответ на посты выше будет поздно вечером, вышло интервью с Илюхой https://www.youtube.com/watch?v=aR20FWCCjAs
- #3133Ииии вот из-под крыла Белого Дома выходит анонс THE GENESIS MISSION —…
Ииии вот из-под крыла Белого Дома выходит анонс THE GENESIS MISSION — инициативы, направленной на использование AI в науке.
- #3132Вместе с моделью добавили 3 новые фичи: — инструмент поиска инструментов —…
Вместе с моделью добавили 3 новые фичи: — инструмент поиска инструментов — программный вызов инструментов — примеры для инструментов Последние два менее…