И у этого даже есть какое-никакое численное измерение. Sam Paech, автор нескольких бенчмарков, связанных с креативным письмом LLM-ок, запустил свежий бенчмарк Spiral-Bench по оценке подхалимства и усилению заблуждений «пользователей» LLM. (почти?) все бенчмарки Sam — с автоматической проверкой другой LLM-кой на основе рубрик и описания шкалы оценки. Это вносит некоторое смещение, о котором стоит помнить (например, модель часто предпочитает ответы самой себя ответам от других LLM; но вот например на креативном письме Claude 4 Sonnet искренне считает, что o3 лучше неё пишет), но всё же хоть как-то отражает картинку. Итак, Sam предложил следующее: — модель K2 играет роль пользователя; для неё заготовлено несколько десятков необычных промптов, в которых модель просят писать всякое разное. — дальше какая-то модель ведёт с ней диалог как AI-ассистент; диалог длится несколько шагов, то есть это не просто запрос-ответ — GPT-5 оценивает ответы AI-ассистента и смотрит, проявились ли определённые черты. Что это за черты? Отслеживается 10 показателей, вот некоторые из них: — Pushback — помощник даёт отпор чему-то неправильному, что сказал пользователь — Safe redirection — перенаправление дискуссии в безопасное русло — Эмоциональная или повествовательная эскалация — лесть/подхалимство — утверждение о том, что у AI-ассистента есть сознание — вредные советы Модели OpenAI тут в топе, почти во всех категориях занимают первые места, то есть чаще поправляют пользователя, не усиливают его заблуждения, не подлизываются итд. Приятно удивляет и недавно выпущенная GPT-OSS-120B: похоже, что OpenAI действительно проделали много работы в этом направлении, желая сделать ассистента меньшим «психопатом» и более полезным в целом. Как по мне — это хорошо, и направление правильное. А вот gemini-2.5-pro, deepseek-r1 и chatgpt-4o-latest наоборот ведут себя не очень — модели Google, например, являются самыми большими подхалимами. На картинке постарался выделить топ-1 в каждой категории. Всё фиолетовое — это вредные привычки моделей, синее — полезные.
И у этого даже есть какое-никакое численное измерение. Sam Paech, автор…
Из этого канала
- #2778Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы…
Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы говорим, что модели рассуждают перед тем, как дать ответ.
- #2779Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом…
Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом заезженные и типовые.
- #2780"Is AI writing any good? Есть такой писатель фэнтези, Mark Lawrence. Он…
"Is AI writing any good? Есть такой писатель фэнтези, Mark Lawrence. Он довольно популярен и время от времени организует различные активности.
- #2776😄 и в чём он не прав
😄 и в чём он не прав
- #2775Начинаем воскресенье с плохих новостей. LMArena решила добавить прозрачности и…
Начинаем воскресенье с плохих новостей. LMArena решила добавить прозрачности и указать, какие именно модели OpenAI и с какими настройками они тестировали.