Бенчмарк GPT-5 моделей - первое место, и интересное про OSS модели Базовая… — @llm_under_hood

Бенчмарк GPT-5 моделей - первое место, и интересное про OSS модели Базовая GPT-5 модель от OpenAI сразу попала на первое место. По сравнению с предыдушими моделями, у нее улучшились когнитивные способности и работа со сложным BI кодом. Просто работа с инженерными задачами и так уже 100% на моем бенчмарке. Опять надо усложнять. gpt-5-mini работает примерно на уровне gpt-oss-120b, причем показатели сильно совпадают. Она заняла четвертое место. gpt-5-nano заняла 15 место. Она на ~5% пунктов лучше, чем gpt-oss-20b. Update: запустил gpt-oss-20b в режиме SO и цифры красиво совпали и тут. У меня есть теория (из-за схожести показателей), что mini и nano - это какие-то свои reasoning режимы работы 120B и 20B. Но проверить это нельзя, т.к. OpenAI API долго думает свой ответ на задачи, а потом возвращает схему с пустыми слотами на размышления (это не reasoning traces, а именно типизированные поля в SGR схеме) Похоже, что не хотят светить свой CoT. У вас так же? Если теория верна, то можно сделать такой вывод - для GPT-5-120B обычного Schema-Guided Reasoning достаточно, чтобы поднять его на уровень gpt-5-mini, но для модели послабее (20B) потребуется более развитая схема. Жалко, что пока не подсмотреть, как это делают в OpenAI. Здорово, что вышли новые модели, которые обновили топы. И здорово, что OpenAI открыто поделились такими мощными моделями в Open Source. Осталось только научиться использовать 20B на полную катушку. Ваш, @llm_under_hood 🤗 PS: Возможно, это подстегнет Anthropic и остальных начать тоже шевелиться, ибо новый GPT-5 очень хорош в кодинге. А у Anthropic до сих пор даже нет constrained decoding по схеме 😂

Из этого канала