"Ну а вот пасхалки в виде бонусного папируса мы уважаем, спасибо, нрааааиица! В конце второй лабы первого дня (про эвалюйшены) прицепили это Тут у нас про методы оценки LLM, рассказывают как от MVP дойти до прода ~~и сколько ног при этом придется сломать. ~~ есть три основных подхода к оценке: - Computation-Based Methods: количественная оценка, BLEU, ROUGE и прочее. Быстро, но не всегда точно. - Human Evaluation: самое надежное (правда ведь?), но дорого и долго. - Autoraters: оценка с помощью других LLM, попытка баланса между масштабируемостью и качеством. Опять проталкивают – ""документируйте всё!"" Молодцы)) Эвалы это тоже мучение LLM, поэтому тут все еще работает правило garbage in - garbage out. Про autoraters интересно - они могут давать bias (позиционный, к длине текста, к своей модели), но есть разные техники для борьбы с этим. В документе даже есть таблица с разными моделями-оценщиками и их особенностями. Структура оценки для LLM сложнее, чем для обычных ML-моделей. Нужно учитывать, что ""правильный"" ответ может быть не один, а метрики надо адаптировать под бизнес-задачу. Мета-оценка тоже важна (да-да сами оценщики надо оценивать 😃): как понять, что сам оценщик адекватен? Уже есть много датасетов для этого."