"Встречайте третий бриллиант в корону выдающихся LLM-учебников, которые вышли за последние месяцы - LLM evaluation guidebook, совместную работу команд Hugging Face и LangChain. Без продуманной оценки вы не знаете, насколько модель хорошо решит вашу задачу. Результаты на лидербордах редко когда отражают производительность в реальных условиях, а ошибки и алогичности ответов остаются незамеченными вплоть до релиза. Авторы доказывают на своем трехлетнем опыте работы с 15.000(!) моделями: предварительная оценка позволяет заранее понять, насколько модель надёжно решает вашу задачу, а не то, насколько она умна сама по себе. В книге разбираются сразу несколько подходов: ▶️Автоматические бенчмарки: сравнение предсказаний модели с эталонными ответами. ▶️Ручная оценка: кожаные эксперты оценивают ответы по качеству/полноте/смыслу. ▶️LLM-as-a-Judge: использование других БЯМ для оценки ответов и автоматизации человеческой оценки. Такая многослойная система позволяет выбирать метод под задачу, а не ограничиваться одной метрикой. Гайдбук не только описывает теорию, но еще содержит рекомендации по дизайну собственных вайб-тестов, лайфхаки по избежанию частых ошибок в тестировании и кейсы решения реальных проблем. Например, вместо абстрактных задач - проводить оценку по реальным пользовательским запросам, и не надеяться на LLM-судью, а тестировать его самого, чтобы он не превратился в ""черный ящик над черным ящиком"". Интересно, что в достаточно частотном кейсе ""агенты работают по отдельности, но ломаются в реальном сценарии"", авторы предлагают проводить оценку не отдельных навыков, а сквозных сценариев, допуская, что существует нескольких путей к успеху, и проверять результат, а не цепочки действий. В сухом остатке: гайдбук собрал в одном месте все основные методы и подходы к оценке больших языковых моделей от простых бенчмарков до сложных практик по созданию собственных тестов, что особенно полезно, если вы хотите не просто изучить метрику, а понять как и зачем проводить оценки. Искренне считаю, что такой док, написанный доступным языком с изрядной долей инженерного юмора, имеет огромную ценность как для продакшен-команд агентных систем, так и разработчиков AI-приложений и создателей образовательных и HR-продуктов (где такая оценка особенно важна). Оригинал - по ссылке, а перевод - в первом комментарии👇"
"Встречайте третий бриллиант в корону выдающихся LLM-учебников, которые вышли…
Из этого канала
- #635"ChatGPT записал меня в 1% лучших пользователей. Я сначала обрадовался, но…
"ChatGPT записал меня в 1% лучших пользователей. Я сначала обрадовался, но потом вспомнил, что это 8 миллионов человек, и от души посмеялся попыткам моего эго…
- #637"Главный навык будущего — это способность выдерживать собственную…
"Главный навык будущего — это способность выдерживать собственную неэффективность.
- #638"Завел в AI-фазенде, где собираю всякое полезное про ИИ, отдельную ветку…
"Завел в AI-фазенде, где собираю всякое полезное про ИИ, отдельную ветку Антикейсы, чтобы складировать истории колоссальных проёбов - таких, как этот.
- #633Тут легенда ML-индустрии, ученый Эндрю Нг, сходил в Стэнфорд и поделился своим…
Тут легенда ML-индустрии, ученый Эндрю Нг, сходил в Стэнфорд и поделился своим мнением про АИ и карьеру инженеров – видео длинное и я советую смотреть его, но…
- #632"На прошлой неделе The Wall Street Journal провёл эксперимент: редакции дали…
"На прошлой неделе The Wall Street Journal провёл эксперимент: редакции дали ИИ‑агенту на базе Claude полностью управлять офисным торговым автоматом - от…