"GPT-5, бенчмарки Отобрал те, которые считаю важными для разработки (тут везде… — @etechlead

"GPT-5, бенчмарки Отобрал те, которые считаю важными для разработки (тут везде __скорее всего__ gpt-5-thinking high). Мнение по самой модели __почти__ сформировалось, распишу позже :) SWE-bench Verified Сабсет оригинального SWE-bench для оценки способности LLM решать реальные задачи разработки. Cодержит 500 задач из оригинального набора (из которых OpenAI в своих тестах убирают 23 задачи, которые ""не могут быть запущены на нашей инфраструктуре""). Методология: Модели получают описание проблемы на GitHub и базу кода в состоянии до исправления. Задача - сгенерировать патч, который решает описанную проблему. SWE-bench Bash Only Использует тот же набор данных, что и SWE-bench Verified, но оценивает LLM в минималистичной bash-среде без спец. инструментов или продвинутых агентов. Методология: Модели тестируются с помощью mini-SWE-agent в простом цикле ReAct-агента с доступом только к bash. Это позволяет проводить сравнение между различными LLM без влияния дополнительных инструментов. Aider Polyglot Оценка навыков программирования LLM на 225 сложных упражнениях из датасета Exercism по шести языкам программирования: C++, Go, Java, JavaScript, Python и Rust. Методология: Модели должны решать реальные задачи программирования, требующие рассуждений, точности и выполнения кода в разных стеках. Terminal Bench Оценка способности ИИ-агентов выполнять сложные задачи в терминальных средах. Методология: Содержит около 100 сложных задач от компиляции кодовых репозиториев и обучения ML-моделей до настройки серверов и отладки системных конфигов. Tau Bench v1 Оценка способностей LLM использовать инструменты в агентских диалоговых сценариях. Методология: Симулирует многошаговые диалоги между ""пользователем"" и агентом, имеющим доступ к API систем в конкретной предметной области и снабжённым общими руководящими принципами. Охватывает сценарии обслуживания клиентов авиакомпаний и розничной торговли. Измеряет успешность решения проблемы пользователя и правильность использования необходимых API-инструментов. Tau Bench v2 (τ²-bench) Продвинутая версия с двусторонним управлением в сценариях удаленной поддержки клиентов, где как агент, так и пользователь могут использовать инструменты для решения задачи. Методология: Агент должен координировать действия пользователя и эффективно направлять их. Включает композиционный генератор задач для создания разнообразных, проверяемых задач. Тестирует как координацию агента, так и коммуникацию, с детальным анализом ошибок рассуждения против ошибок коммуникации/координации. OpenAI MRCR (2-needle и 8-needle) Тестирование способности LLM находить и различать множественные идентичные элементы (""иглы"") в длинном контексте (до 1 миллиона токенов). Методология: Модели даётся длинный синтетический диалог, где ""пользователь"" несколько раз в разных местах просит создать похожий контент (например, стихотворение о тапирах). В диалоге скрыты 2, 4 или 8 таких запросов, и модель должна найти конкретный экземпляр по его порядковому номеру (например, ""дай мне 2-ю поэму о тапирах""). Модели нужно отличать ""иглы"" от ""сена"" и уметь точно определить, какой именно экземпляр запрашивается (1-й, 2-й, 3-й и т.д.) Чем больше ""игл"" (2->4->8) и чем длиннее контекст, тем сложнее задача. SimpleBench Бенчмарк множественного выбора, где люди без специализированных знаний (уровень старшей школы) превосходят современные LLM. Создан и поддерживается автором канала AI Explained (кстати, рекомендую - спокойные и вдумчивые новости). Методология: Более 200 вопросов на пространственное мышление, понимание времени, социальный интеллект и логические ловушки, основанные на здравом смысле и понятные большинству людей (поэтому и ""Simple""). Scale MultiChallenge Бенчмарк для оценки LLM в ведении многошаговых разговоров с пользователями-людьми. Методология: Проверяет 4 категории вызовов в многошаговых разговорах: удержание инструкций, запоминание пользовательской информации, версионное редактирование и самосогласованность. Все задачи требуют точного следования инструкциям и аккуратной работы с контекстом одновременно. #ai #model #review #benchmarks"

Из этого канала