Всего полгода назад, в июле 2025-го, на мировом чемпионате по программированию AHC (на оптимизационные задачи без чёткого верного решения) AI-системы уже показывали зубы: OpenAI заняли второе место, система от Sakana — 5-ое. Я писал про это вот тут. В прошедшем AHC058 (насколько я понимаю, менее крупное соревнование) агент ALE от Sakana AI занял чистое первое место, обойдя 804 живых участника, включая топовых грандмастеров. Это первый случай в истории, когда AI выиграл соревнование по оптимизации в реальном времени, участвуя на тех же условиях, что и люди — 4 часа на всю задачу. С технической точки зрения решение агента оказалось глубже задуманного авторами. Организаторы ожидали стандартную связку жадного алгоритма и имитации отжига, но агент реализовал по-другому — детали ищите в блоге. Авторы задач признали, что агент нашел алгоритмические пути, которые они сами не предусмотрели, эффективно закрыв разрыв в интуиции на основе экспериментов, которой раньше не хватало LLM при решении оптимизационных задач. Как мне кажется, это тесно связано с инсайтом, который я описывал для Gemini 3 Pro (и которым обладает GPT-5.2): возможность более эффективно учиться из обратной связи и улучшаться от итерации к итерации при решении какой-то задачи в несколько шагов. Это не ли не research taste? 😀 Победа обошлась примерно в $1,300 на API и потребовала суммарно около 4700 вызовов моделей GPT-5.2 и Gemini 3 Pro.
Всего полгода назад, в июле 2025-го, на мировом чемпионате по программированию…
Из этого канала
- #3264"Там бостон динамикс выкатили нового Атласа. Теперь это не просто…
"Там бостон динамикс выкатили нового Атласа. Теперь это не просто экспериментальный прототип для видосов с сальтухами, а железка, призванная для того, чтобы…
- #3265Ночью на выставке CES Nvidia официально представила новые видеокарты для…
Ночью на выставке CES Nvidia официально представила новые видеокарты для ИИ-датацентров в линейке Vera Rubin.
- #3267Artemis 2: не раньше 6 февраля У первой пилотируемой миссии к Луне почти за 55…
Artemis 2: не раньше 6 февраля У первой пилотируемой миссии к Луне почти за 55 лет снова появилась новая NET дата: - 6 февраля (21:45 EST) - 7 февраля…
- #3261Продолжаю ковырять интернет на наличие любопытных штук которые можно купить…
Продолжаю ковырять интернет на наличие любопытных штук которые можно купить онлайн (просто так), и наткнулся на сайт по продаже небольших бизнесов в США: за…
- #3260Денис придумал Vending Bench в 2023-м
Денис придумал Vending Bench в 2023-м