Google DeepMind сделали, возможно, самого мощного ИИ-математика на сегодняшний день Они представили Aletheia – агента, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд). Это один из самых жестких публичных тестов на доказательства в стиле Межнара по математике. У Aletheia движок Gemini Deep Think, и процесс решения состоит из трех чередующихся этапов: генерация решений, верификация, корректировки. При этом относительно даже самой новой версии Gemini Deep Think Advanced агент показывает лучшие результаты с более низкими затратами на вычисления. Помимо бенчмарков модель уже: – решила четыре (формально) открытых задачи из списка Эрдеша, одна из которых, судя по всему, действительно не была закрыта ни в какой литературе до этого; – автономно написала статью с правильными математическими результатами; – в режиме ассистента работала с математиками и помогала в написании не-игрушечных научных работ. Что еще интересно: Google подчеркивают, что Aletheia – живой пруф того, что законы масштабирования все еще работают. Даже на доказательной математике (а это ох какой непростой домен) качество продолжает расти предсказуемо благодаря именно правильной агентной обвязке, и более того, более умные циклы дают возможность получить больше качества за меньшую стоимость. deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/