"Что лучше - ставить вопрос в промпте до текста или после текста? В прошлом посте про новые бенчмарки я написал: __Кстати, обратим внимание, что я вопрос ставлю до исходников файла. Это мне портит кэш, зато позволяет в среднем облегчить жизнь моделям и повысить качество на несколько процентов.__ На что в чате возник резонный вопрос: я бы сказал, это разворачивает бенчмарк в сторону 4о и других моделей опенаи. Из-за такого становится понятно, почему они так высоко в рейтинге по сравнению с действительно сильными моделями, тем же клодом. Это гипотеза, а гипотезы можно и нужно проверять. Поэтому я взял текущие coding задачи (там больше всего контекста) с вопросом до кода и добавил туда второй вариант промпта - чтобы вопрос был в конце. Плюс сделал градацию ошибок более плавной, как в других категориях. И добавил ""Averages"" внизу. Итак, категория prefix - это точность моделей на задачах с вопросом в начале. Postfix - точность моделей на тех же задачах, но вопрос идет в конце. Пока вышло, что в среднем по моделям промпты с вопросом в самом начале набирали 62%, а промпты с вопросом в конце - 55%. Разница есть, но я не сказал бы, что она пока статистически значима - слишком мало тестов в этой категории. Я потом еще добавлю в эти категории пару задачек с большим контекстом. Может, картина станет яснее. А пока можете предварительно посмотреть, как ведет себя ваша любимая модель, если ставить вопрос в начале или в конце промпта. Ваш, @llm_under_hood 🤗"
"Что лучше - ставить вопрос в промпте до текста или после текста? В прошлом…
Из этого канала
- #503Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на…
Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на участие во втором раунде! Было бы больше, но вчера в Кёльне была авария у…
- #504Старожилы канала поймут и этот мем и вот этот комментарий в чате: Нам схема с…
Старожилы канала поймут и этот мем и вот этот комментарий в чате: Нам схема с русскими подписями в кейсе + 8% к точности дала Ваш, @llmunderhood 🤗 PS: Если…
- #505"Enterprise RAG Challenge: Updated question generator Новая версия опубликована…
"Enterprise RAG Challenge: Updated question generator Новая версия опубликована тут.
- #501"Пример из теста на работу с кодом в новом reasoning бенчмарке Как я уже…
"Пример из теста на работу с кодом в новом reasoning бенчмарке Как я уже говорил раньше, вторая версия моего бенчмарка не только сильнее нагружает современные…
- #500Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из…
Deepseek V3, Qwen-Max/Plus/Turbo в бенчмарке v2 Продолжаю портировать тесты из AI кейсов во вторую версию моего личного бенчмарка LLM на бизнес-задачах.