Бенчмарк GPT-5 моделей - первое место, и интересное про OSS модели Базовая GPT-5 модель от OpenAI сразу попала на первое место. По сравнению с предыдушими моделями, у нее улучшились когнитивные способности и работа со сложным BI кодом. Просто работа с инженерными задачами и так уже 100% на моем бенчмарке. Опять надо усложнять. gpt-5-mini работает примерно на уровне gpt-oss-120b, причем показатели сильно совпадают. Она заняла четвертое место. gpt-5-nano заняла 15 место. Она на ~5% пунктов лучше, чем gpt-oss-20b. Update: запустил gpt-oss-20b в режиме SO и цифры красиво совпали и тут. У меня есть теория (из-за схожести показателей), что mini и nano - это какие-то свои reasoning режимы работы 120B и 20B. Но проверить это нельзя, т.к. OpenAI API долго думает свой ответ на задачи, а потом возвращает схему с пустыми слотами на размышления (это не reasoning traces, а именно типизированные поля в SGR схеме) Похоже, что не хотят светить свой CoT. У вас так же? Если теория верна, то можно сделать такой вывод - для GPT-5-120B обычного Schema-Guided Reasoning достаточно, чтобы поднять его на уровень gpt-5-mini, но для модели послабее (20B) потребуется более развитая схема. Жалко, что пока не подсмотреть, как это делают в OpenAI. Здорово, что вышли новые модели, которые обновили топы. И здорово, что OpenAI открыто поделились такими мощными моделями в Open Source. Осталось только научиться использовать 20B на полную катушку. Ваш, @llm_under_hood 🤗 PS: Возможно, это подстегнет Anthropic и остальных начать тоже шевелиться, ибо новый GPT-5 очень хорош в кодинге. А у Anthropic до сих пор даже нет constrained decoding по схеме 😂
Бенчмарк GPT-5 моделей - первое место, и интересное про OSS модели Базовая…
Из этого канала
- #623Локальная gpt-oss-20b - эквивалент закрытой gpt-5-nano, а mini - 120b 🔥 Теперь…
Локальная gpt-oss-20b - эквивалент закрытой gpt-5-nano, а mini - 120b 🔥 Теперь все цифры сошлись.
- #625"Новые материалы по SGR - Schema-Guided Reasoning Я собрал воедино и…
"Новые материалы по SGR - Schema-Guided Reasoning Я собрал воедино и структурировал материалы про SGR для LLM, выделил паттерны (их всего три) в отдельные…
- #626"Релиз линейки gpt-5 - это самый крутой подарок от OpenAI разработчикам.…
"Релиз линейки gpt-5 - это самый крутой подарок от OpenAI разработчикам. Включая тех, кто хочет запускать мощные модели на старых картах. Смотрите.
- #621"SGR Benchmark моделей - OpenAI OSS модели хороши Раньше я этот бенчмарк…
"SGR Benchmark моделей - OpenAI OSS модели хороши Раньше я этот бенчмарк называл LLM Reasoning бенчмарк.
- #620Schema-Guided Reasoning (SGR) это метод структурированного промптинга, в…
Schema-Guided Reasoning (SGR) это метод структурированного промптинга, в котором заранее заданные схемы управляют рассуждениями больших языковых моделей, явно…