И у этого даже есть какое-никакое численное измерение. Sam Paech, автор… — @seeallochnaya

И у этого даже есть какое-никакое численное измерение. Sam Paech, автор нескольких бенчмарков, связанных с креативным письмом LLM-ок, запустил свежий бенчмарк Spiral-Bench по оценке подхалимства и усилению заблуждений «пользователей» LLM. (почти?) все бенчмарки Sam — с автоматической проверкой другой LLM-кой на основе рубрик и описания шкалы оценки. Это вносит некоторое смещение, о котором стоит помнить (например, модель часто предпочитает ответы самой себя ответам от других LLM; но вот например на креативном письме Claude 4 Sonnet искренне считает, что o3 лучше неё пишет), но всё же хоть как-то отражает картинку. Итак, Sam предложил следующее: — модель K2 играет роль пользователя; для неё заготовлено несколько десятков необычных промптов, в которых модель просят писать всякое разное. — дальше какая-то модель ведёт с ней диалог как AI-ассистент; диалог длится несколько шагов, то есть это не просто запрос-ответ — GPT-5 оценивает ответы AI-ассистента и смотрит, проявились ли определённые черты. Что это за черты? Отслеживается 10 показателей, вот некоторые из них: — Pushback — помощник даёт отпор чему-то неправильному, что сказал пользователь — Safe redirection — перенаправление дискуссии в безопасное русло — Эмоциональная или повествовательная эскалация — лесть/подхалимство — утверждение о том, что у AI-ассистента есть сознание — вредные советы Модели OpenAI тут в топе, почти во всех категориях занимают первые места, то есть чаще поправляют пользователя, не усиливают его заблуждения, не подлизываются итд. Приятно удивляет и недавно выпущенная GPT-OSS-120B: похоже, что OpenAI действительно проделали много работы в этом направлении, желая сделать ассистента меньшим «психопатом» и более полезным в целом. Как по мне — это хорошо, и направление правильное. А вот gemini-2.5-pro, deepseek-r1 и chatgpt-4o-latest наоборот ведут себя не очень — модели Google, например, являются самыми большими подхалимами. На картинке постарался выделить топ-1 в каждой категории. Всё фиолетовое — это вредные привычки моделей, синее — полезные.

Из этого канала