Мелкий апдейт на платформе ERC Пока еще не ERC3 бенчмарк, просто подготовка к его выкладке (1) Если при отправке решения не была прислана телеметрия вызовов LLM (название модели и число tokens), то из очков вычитается 10% (в eval logs это будет упомянуто). Так все заранее смогут проверить и поправить своих агентов. (2) Я поправил инфраструктуру так, что теперь задачи в бенчмарках могут чуть-чуть меняться (например, у айдишников добавляется случайный префикс). Суть это не меняет, просто в ERC3 бенчмарке уже не получится захардкодить правильные ответы. Примеры работы можно посмотреть в DEMO бенчмарке. STORE бенчмарк менять не стал, но в ERC3 это уже будет встроено. Ваш, @llm_under_hood 🤗