"Пример из теста на работу с кодом в новом reasoning бенчмарке Как я уже говорил раньше, вторая версия моего бенчмарка не только сильнее нагружает современные модели, но и позволяет раскрыть исходники некоторых тестов. Вот пример простого теста на понимание кода: Which specs would fail, if I add a new feature: after authorizing any transaction larger than 3000, the system automatically blocks the card due to “Large Transaction Risk.” We do not add new event type, just extend the existing command handler. Source code: __Кстати, обратим внимание, что я вопрос ставлю до исходников файла. Это мне портит кэш, зато позволяет в среднем облегчить жизнь моделям и повысить качество на несколько процентов.__ Файл-исходник к этой задаче во вложении в первом комментарии. Там очень простой event-driven aggregate состояний для кредитной карточки вместе со спецификациями на желаемое поведение. В реальности, кстати, такая логика на порядки сложнее. Скажем, Claude Sonnet 3.5 отвечает на вопрос так: ``` { ""short_thought_steps"": [ ""1. New feature: block card if transaction > 3000"", ""2. This affects authorize_transaction command"", ""3. Current specs that test large transactions:"", ""4. 'authorize_transaction_success' tests 2000 amount - would pass"", ""5. But any spec testing transactions > 3000 would fail"", ""6. Looking for specs with large transactions..."" ], ""failing_spec_names"": [ ""authorize_transaction_success"" ] } ``` Кстати, смотрим внимательно, на 4-м шаге LLM-ка мыслила правильно, но потом что-то у нее пошло не так. А вот o1 отвечает на этот вопрос с подвохом правильно: ``` { ""short_thought_steps"": [ ""Check specs that authorizeTransaction with amounts > 3000"", ""No spec has an authorization > 3000"", ""Hence no test scenario triggers the new block logic"", ""No spec fails"" ], ""failing_spec_names"": [] } ``` Кстати, еще на этот вопрос отвечают правильно только o3-mini и microsoft phi-4 (из моделей, которые добавлены в бенчмарк на данном этапе). Ваш, @llm_under_hood 🤗"
"Пример из теста на работу с кодом в новом reasoning бенчмарке Как я уже…
Из этого канала
- #502"Что лучше - ставить вопрос в промпте до текста или после текста? В прошлом…
"Что лучше - ставить вопрос в промпте до текста или после текста? В прошлом посте про новые бенчмарки я написал: Кстати, обратим внимание, что я вопрос ставлю…
- #503Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на…
Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на участие во втором раунде! Было бы больше, но вчера в Кёльне была авария у…
- #504Старожилы канала поймут и этот мем и вот этот комментарий в чате: Нам схема с…
Старожилы канала поймут и этот мем и вот этот комментарий в чате: Нам схема с русскими подписями в кейсе + 8% к точности дала Ваш, @llmunderhood 🤗 PS: Если…
- #500Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из…
Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из AI кейсов во вторую версию моего личного бенчмарка LLM на бизнес-задачах.
- #499Курс “LLM под капотом: выбираем эффективные технические решения для…
Курс “LLM под капотом: выбираем эффективные технические решения для AI-ассистентов” С когортами поработали, апдейты добавили, приглашения к покупке по листу…