"Можно ли использовать LLM для оптимизации промптов? Время от времени кто-нибудь в чате поднимает этот вопрос. Более того, я сам в курсе рассказывал про использование мощных моделей в дистилляции инструкций для моделей послабее. Казалось бы, что может быть сложного в том, чтобы задать вопрос: Эй, ChatGPT, вот тебе исходный промпт и вот результаты его работы. Перепиши промпт так, чтобы этих ошибок больше не было. А потом просто автоматизировать процесс перебора вариантов. Проблема в том, что в итоге будет ерунда и каша. LLM по своей природе усредняют ответы, чтобы понравиться среднему читателю. Их к этому приучили через RLHF. На скриншоте пример того, как ChatGPT o1 pro пару минут назад у меня банально скатилась в китайский, настолько она старалась сгладить логические углы. А при работе с какими-то исключениями и конкретными кейсами нам не нужно сглаживать углы. Наоборот, надо раскручивать размышления, раскапывать нестыковки. Поэтому лучше работает, когда мы даем мощной LLM материал для размышлений и просим ее проанализировать ошибки. А потом глазами просматриваем результаты и сами изменяем промпт. Получается в итоге тот же паттерн ""Human in the Loop"", даже для оптимизации логических блоков. Как без него обойтись в разработке систем с LLM под капотом - я пока не знаю. Ваш, @llm_under_hood 🤗"
"Можно ли использовать LLM для оптимизации промптов? Время от времени…
Из этого канала
- #532Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M.…
Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M. Говорят, что работает лучше Qwen2.5VL, но не со всеми языками.
- #533Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от…
Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от Mistral по своим оценкам на бенчмарке очень похожа на предыдущую версию 3.0 от 25…
- #534Все архитектуры Enterprise RAG Challenge Какие RAG архитектуры работают лучше…
Все архитектуры Enterprise RAG Challenge Какие RAG архитектуры работают лучше всего с бизнес-документами? Вот вам обновленный и интерактивный leaderboard по…
- #530Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все…
Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все версии Qwen, кроме Max.
- #529Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило…
Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить…