Google DeepMind сделали, возможно, самого мощного ИИ-математика на сегодняшний день Они представили Aletheia – агента, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд). Это один из самых жестких публичных тестов на доказательства в стиле Межнара по математике. У Aletheia движок Gemini Deep Think, и процесс решения состоит из трех чередующихся этапов: генерация решений, верификация, корректировки. При этом относительно даже самой новой версии Gemini Deep Think Advanced агент показывает лучшие результаты с более низкими затратами на вычисления. Помимо бенчмарков модель уже: – решила четыре (формально) открытых задачи из списка Эрдеша, одна из которых, судя по всему, действительно не была закрыта ни в какой литературе до этого; – автономно написала статью с правильными математическими результатами; – в режиме ассистента работала с математиками и помогала в написании не-игрушечных научных работ. Что еще интересно: Google подчеркивают, что Aletheia – живой пруф того, что законы масштабирования все еще работают. Даже на доказательной математике (а это ох какой непростой домен) качество продолжает расти предсказуемо благодаря именно правильной агентной обвязке, и более того, более умные циклы дают возможность получить больше качества за меньшую стоимость. deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/
Google DeepMind сделали, возможно, самого мощного ИИ-математика на сегодняшний…
Из этого канала
- #8729ARC-AGI-2 решился спустя всего год после публикации Google выпустили…
ARC-AGI-2 решился спустя всего год после публикации Google выпустили специальный обновленный ризонинг мод Gemini 3 Deep Think.
- #8733Создатель ARC-AGI Франсуа Шолле заявил, что ARC-AGI-4 уже находится в…
Создатель ARC-AGI Франсуа Шолле заявил, что ARC-AGI-4 уже находится в разработке, а всего версий бенчмарка будет около 7 ARC-AGI-3 – выходит в паблик в марте,…
- #8734Агент накатал на разработчика огромную критическую статью за то, что тот не…
Агент накатал на разработчика огромную критическую статью за то, что тот не принял его PR Один из основных поддерживающих разработчиков matplotlib – Скотт…
- #8726GLM-5 – новая SOTA в опенсорсе и серьезная заявка от китайцев Z.ai выпустили…
GLM-5 – новая SOTA в опенсорсе и серьезная заявка от китайцев Z.ai выпустили свежую опенсорсную модель, которая тягается с Opus 4.5, Gemini 3 Pro и GPT-5.2.
- #8725"Сегодня у Маска плохой день: ключевые инженеры и рисерчеры массово покидают…
"Сегодня у Маска плохой день: ключевые инженеры и рисерчеры массово покидают xAI и уходят делать свой стартап За последние сутки об уходе из компании объявили…