😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор Epoch.AI уже кинул клич, что им необходимо $600k или хотя бы $100k, чтобы прогнать MirrorCode, свой аналог бенчмарка ProgramBench. На нём моделям дают гораздо больше времени и токенов на воспроизведение программ, поэтому каждый запуск стоит дороже. Очень надеюсь, что хотя бы OpenAI повторят свой рождественский подарок с o3-preview, где прогнали бенчмарк на ~миллион долларов по ценам API (для самой компании это обходится сильно дешевле). Теперь ждём релизов Claude Sonnet 4.7 и GPT 5.6 чисто чтобы посмотреть, какие оценки зарепортят компании 👨‍🦳