Наткнулся в твиттере на обсуждение эссе Why AGI Will Not Happen от Tim Dettmers, автора bitsandbytes и подходов к квантизации LLM. С частью тезисов я согласен, а часть мне кажется безумно странной — автор вместо размышлений и доводов прыгает к выводам и никак их не поясняет. Например: «Трансформер (архитектура, лежащая в основе LLM) — одна из самых эффективных архитектур, поскольку она сочетает в себе простейшие способы выполнения локальных вычислений и глобального объединения информации». ❓хорошо, но ведь к ней придумали как минимум две модификации, которые делали её существенно более эффективной. А сколько ещё таких модификаций будет? Если мало, то придётся улучшать железо, про которое Tim пишет так: «Одно из самых распространенных заблуждений, которое я наблюдаю, — это предположение, что железо продолжает улучшаться и улучшаться. Это важное заблуждение, объясняющее многие ошибки в мышлении относительно прогресса ИИ. Каждое поколение GPU было лучше предыдущего, и, казалось бы, глупо думать, что это прекратится. Но на самом деле глупо думать, что GPU продолжат улучшаться. По факту, GPU больше не будут значимо улучшаться. Мы увидели последнее поколение значительных улучшений GPU. Максимальная производительность графических процессоров по соотношению цены и качества была достигнута примерно в 2018 году — после этого мы добавили разовые функции, которые быстро закончатся.» (посочувствуем человеку, который выбрал бы себе в инвест. советчики Tim Dettmers — акции Nvidia выросли на 5000%, наверное, какой-то другой критерий тоже важен, раз компании покупают новое, а не старое железо) Tim знает GPU лучше меня, и потому я соглашусь, что скорее всего прогресс был во многом на разовых функциях, тензорных ядрах, памяти, уменьшении битности итд. Но если посмотреть на прогресс развития CPU, то там для поддержания развития протяжении более чем 50 лет как раз такие разовые фичи и появлялись. Упираешься в предел оптимизации в одном — находится что-то другое. Волна за волной, суммарный прогресс так и накапливается. «У нас осталось, может быть, один или два года масштабирования, потому что дальнейшие улучшения становятся физически нереализуемыми. Результаты масштабирования моделей в 2025 году не впечатлили. Лучше бы масштабированию в 2026 и 2027 годах показать себя лучше» — этот тезис очень тесно связан с другим, «Линейный прогресс требует экспоненциальных ресурсов». И с последним я согласен — но ведь именно это мы и наблюдаем. Инвестиции в триллион долларов как раз и являются тем экспоненциальным ростом, и они не заканчиваются через один или два года. Помню, что я видел аналитику по затратам на ДЦ, на чипы и электричество, и там выходило, что мы сможем поддерживать такой рост (если индустрия будет привлекать деньги, то есть если сможет наращивать выручку) до ~2035-2036-ых годов. Вот что к тому моменту будет — от того да, сделать дальнейший шаг роста не получится, по крайней мере без решения вопросов энергетики. Так что моё несогласие тут скорее в сроках, нежели выводе — да, конец когда-то наступит, но не через 1-2 года. Может показаться, что он замедлился, только чтобы на третий год сделать ещё больший прыжок с каким-то новым исследовательским прорывом.