"Сказ о том, как я тестировал один промпт, десять нейросетей и сложную задачу:… — @aivkube

"Сказ о том, как я тестировал один промпт, десять нейросетей и сложную задачу: краш-тест AI на генерации BPMN 2.0 Как инженер, я постоянно использую LLM-модели для решения рабочих задач и трачу уйму времени на сравнение их ответов, часто запуская один и тот же промпт на аренах типа https://chat.lmsys.org/. Потому что, как показывает практика, нейросетки ведут себя непредсказуемо и за ними нужен 👁 да 👁. Чтобы автоматизировать этот процесс, я обратил внимание на сервис www.promptcannon.com. Он позволяет отправить один промпт сразу в несколько моделей и сравнить результаты на одном экране, экономя мне до 30-40 минут в день. В бесплатном тарифе ПромптПушки соревнуются младшенькие ChatGPT, Gemini, Claude и DeepSeek, но для чистоты эксперимента я использовал платную версию. Чтобы устроить краштест, я решил дать моделям по-настоящему сложную задачу с подвохом: преобразовать текстовое описание бизнес-процесса в формальную схему стандарта BPMN 2.0. Почему это хороший пример? Потому что ни одна из общедоступных моделей пока не умеет делать это корректно. Задача требует не только креативности, но еще и строгой логики, понимания технического стандарта и умения работать с XML. Было любопытно посмотреть не на то, кто справится, а на то, как по-разному они провалят эту задачу. Вместо простого перечисления результатов я сгруппировал подходы моделей по их ""характеру"". ```1. Прагматик: ""Помогу решить суть проблемы, а не твою странную задачу""``` ChatGPT-4 не стал даже пытаться генерировать сложный XML. Вместо этого он сфокусировался на самой частой потребности аналитика: быстро превратить хаос из текста в структурированную логику процесса. Результат идеально подходит для обсуждения с коллегами, хоть и не является формальной BPMN-схемой. ```2. Методолог: ""Сначала разберемся, как правильно""``` Gemini быстрее всех понял, что придется иметь дело с неоднозначностями и заложил уточнения (например, что такое ""уведомление"" - email, SMS, push?) и предложил декомпозировать высокоуровневые задачи. По сути, он не просто выполнил команду, а сымитировал диалог между младшим и старшим аналитиком, выстраивая полноценный воркфлоу для решения задачи. Llama 3 (70B) развернул целое методологическое руководство, объясняя, как мне вручную преобразовать текст в схему. Полезно, но не то, что я просил. К тому же, в его же инструкции содержались критические ошибки. ```3. Амбициозный юнец: ""Я почти смог!""``` Claude 3 Opus показал впечатляющее умение структурировать информацию, но как только дело дошло до технической реализации на XML, ушел в дебри и потерялся. Perplexity продемонстрировал ясный и логичный ответ, но в попытке быть исчерпывающим переусложнил промпт и в итоге также споткнулся на генерации XML-сниппета. ```4. Творческий провал: ""Я художник, я так вижу""``` Qwen выдал супер-директивный промпт с таким количеством технических ошибок и запутанной логикой, что результат был абсолютно нерабочим. Claude 3 Haiku решил, что лучшая схема — это процесс, нарисованный символами ASCII. Звучит забавно, если бы не было так бесполезно. DeepSeek и Grok вместо промпта самонадеянно сгенерировали HTML-формы, которые (сюрприз!) не работали. Mistral без лишних слов выдал HTML-заглушку с JavaScript, который притворился, что анализировал текст. Вы можете сказать: эту задачу изначально нельзя было решить, поэтому ожидаемо все модели провалились. Но это не так. Параллельно я предложил ровно то же для GPT o3-pro, вынесенному за скобки этого массового теста. И он справился с задачей идеально, создав промпт для получения предсказуемого, машиночитаемого и одновременно понятного человеку результата. Он включал в себя четкие инструкции по валидации, форматированию вывода и генерации чистого BPMN 2.0 XML. Без ошибок. Но все же и он периодически подводит. Поэтому хочу подчеркнуть, что ̶К̶а̶р̶ф̶а̶г̶е̶н̶ ̶д̶о̶л̶ж̶е̶н̶ ̶б̶ы̶т̶ь̶ ̶р̶а̶з̶р̶у̶ш̶е̶н̶ успех в решении сложных задач зависит не столько от выбора ""лучшей"" нейросети, сколько от качества проектирования самого промпта."

Из этого канала