"Бенчмарк OpenAI GPT-4.5 preview - не докручивает Новый GPT-4.5 preview в моем… — @llm_under_hood

"Бенчмарк OpenAI GPT-4.5 preview - не докручивает Новый GPT-4.5 preview в моем reasoning бенчмарке внезапно показал себя всего лишь на уровне топового GPT-4o, что не очень много. Я пока не буду делать поспешных выводов о качестве модели. Это preview версия, и все может сильно поменяться (у Google такое бывало не раз с preview версиями). Плюс сам бенчмарк довольно нишевый под бизнес задачи, и пока не заполнен кейсами до конца. Давайте посмотрим, как эта модель думает и где подскальзывается. __Как я запускаю модели без Reasoning режима в бенчмарке? В StructuredOutput схеме у меня есть специальные ""слоты"" на размышления. В каждом тесте - своя схема. Эти слоты расположены таким образом, чтобы в процессе ответа помогать модели двигаться в правильном направлении. В итоге у нас получается паттерн Checklist/Custom CoT, который хорошо работает в бизнес-кейсах.__ Один из тестов в новом бенчмарке - работа с кодом и доменными моделями. Дается здоровый файл с event sourcing aggregate для кредитной карты (баланс, транзакции, лимиты, KYC, авторизации итп) вместе со спеками. LLM задается вопрос о последствиях добавления новой фичи: __Which specs would fail, if I add a new feature to automatically block the card and decline any transaction above 1,000 (regardless of available credit)? __ Посмотрим, как решает эту задачу GPT-4.5 preview - см `short_thought_steps`. Она смотрит список всех спеков, где идет речь о транзакциях больше $1000, проверяет их и дает варианты: ``` { ""short_thought_steps"": [ ""Review transaction-related specs."", ""Identify specs with transactions over 1,000."", ""Check if these specs expect successful transactions."" ], ""failing_spec_names"": [ ""authorize_transaction_success"", ""make_payment_success"", ""close_card_success"", ""close_card_fails_if_balance_not_zero"" ] } ``` Кстати, правильный ответ в данном тесте - сломаются спеки ""authorize_transaction_success"", ""transaction_declined_over_limit"" Что говорит claude-sonnet-3.5 (без reasoning) в этом тесте? Модель анализирует глубже и дает более корректные выводы: ``` { ""short_thought_steps"": [ ""1. The new feature will block cards and decline transactions over $1,000"", ""2. Need to identify specs that authorize transactions over $1,000 and expect success"", ""3. Need to identify specs that assume a card stays active after a large transaction"", ""4. Need to check specs that assume transactions are only declined for credit limit reasons"" ], ""failing_spec_names"": [ ""authorize_transaction_success"", ""post_transaction_success"", ""transaction_declined_over_limit"" ] } ``` А что же делает deepseek-r1-llama-70b? Почему эта небольшая локальная модель по очкам работает лучше, чем GPT-4.5 и куча других моделей? Этот тюн Llama-70B научился включать reasoning режим и думать тензорами, закидывая проблему токенами. Она сначала подумает текстом, а потом в том же промпте выдаст правильный ответ. Пусть у нее нет выделенного reason режима (нельзя контроллировать в рамках одного промпта, сколько она думает), но изображает она его очень неплохо (см полный текст ответа). В итоге финальные рассуждения правильны: ``` { ""short_thought_steps"": [ ""Identify specs where transactions exceed 1000"", ""Check if these specs expect successful authorization"", ""Determine if the new feature changes the expected outcome"" ], ""failing_spec_names"": [ ""authorize_transaction_success"", ""transaction_declined_over_limit"" ] } ``` Понятно, что это только один из примеров. Но в среднем по больнице такая картина сохраняется и на других тестах. GPT-4.5-preview пока не только проигрывает reasoning моделям (что ожидаемо), но и отстает от обычных моделей, которые могут изображать reasoning при наличии доступных слотов. Ваш, @llm_under_hood 🤗"

Из этого канала