Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды. Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего. Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы. https://www.sri.inf.ethz.ch/blog/k2think Авторы сделали переоценку на MathArena: