Мелкий апдейт на платформе ERC Пока еще не ERC3 бенчмарк, просто подготовка к его выкладке (1) Если при отправке решения не была прислана телеметрия вызовов LLM (название модели и число tokens), то из очков вычитается 10% (в eval logs это будет упомянуто). Так все заранее смогут проверить и поправить своих агентов. (2) Я поправил инфраструктуру так, что теперь задачи в бенчмарках могут чуть-чуть меняться (например, у айдишников добавляется случайный префикс). Суть это не меняет, просто в ERC3 бенчмарке уже не получится захардкодить правильные ответы. Примеры работы можно посмотреть в DEMO бенчмарке. STORE бенчмарк менять не стал, но в ERC3 это уже будет встроено. Ваш, @llm_under_hood 🤗
Мелкий апдейт на платформе ERC Пока еще не ERC3 бенчмарк, просто подготовка к…
Из этого канала
- #699Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK…
Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK тоже все есть - см.
- #700"Кейс про выбор правильного тендера, с ужасным стэком Иногда можно слышать про…
"Кейс про выбор правильного тендера, с ужасным стэком Иногда можно слышать про то, что AI проекты - это что-то сложное, дорогое, требует кучу денег, времени, а…
- #701"Как решить проблему SO с Invalid JSON в OpenAI SDK? В чате моего курса…
"Как решить проблему SO с Invalid JSON в OpenAI SDK? В чате моего курса (https://abdullin.com/ai-assistants-course) напомнили, что OpenAI так и не пофиксили…
- #697Бенчмарк LLM в ERC3: AI Agents Вот график лучших решений ERC3 в бенчмарке…
Бенчмарк LLM в ERC3: AI Agents Вот график лучших решений ERC3 в бенчмарке Store, где архитектуры ранжированы по стоимости запуска и времени исполнения.
- #696Новости и статистика про ERC3 Во-первых, по голосованию видно, что большинство…
Новости и статистика про ERC3 Во-первых, по голосованию видно, что большинство за перенос даты соревнования на начало декабря.