So, in the absence of a controlled test methodology that was not self-selected by the competing teams, one should be wary of making apples-to-apples comparisons between the performance of various AI models on competitions such as the IMO, or between such models and the human contestants. Related to this, I will not be commenting on any self-reported AI competition performance results for which the methodology was not disclosed in advance of the competition.
So, in the absence of a controlled test methodology that was not self-selected…
Из этого канала
- #3842Нам было дано редкое, интерпретируемое для человека окно (CoT) в разум наших…
Нам было дано редкое, интерпретируемое для человека окно (CoT) в разум наших самых продвинутых творений, но нет гарантии, что это окно останется открытым.
- #3843Одна из статей, получивших Outstanding Paper Award на недавнем ICML 2025.…
Одна из статей, получивших Outstanding Paper Award на недавнем ICML 2025. Адаптивный инференс для маскированных диффузионных моделей (MDM) сильно повышает…
- #3844И ещё золотая медаль на IMO, теперь от Gemini и вроде как официально. Тоже 35…
И ещё золотая медаль на IMO, теперь от Gemini и вроде как официально. Тоже 35 очков.
- #3840"Комментарий от Теренса Тао про результаты AI систем и их оценку на IMO. Если…
"Комментарий от Теренса Тао про результаты AI систем и их оценку на IMO. Если кратко, возможны миллионы вариаций, нужна стандартная прозрачная методология…
- #3839Уровень золотого медалиста на 2025 International Mathematical Olympiad…
Уровень золотого медалиста на 2025 International Mathematical Olympiad достигнут универсальной ризонинг моделью без использования тулов.