"Ну а вот пасхалки в виде бонусного папируса мы уважаем, спасибо, нрааааиица! В конце второй лабы первого дня (про эвалюйшены) прицепили это Тут у нас про методы оценки LLM, рассказывают как от MVP дойти до прода ~~и сколько ног при этом придется сломать. ~~ есть три основных подхода к оценке: - Computation-Based Methods: количественная оценка, BLEU, ROUGE и прочее. Быстро, но не всегда точно. - Human Evaluation: самое надежное (правда ведь?), но дорого и долго. - Autoraters: оценка с помощью других LLM, попытка баланса между масштабируемостью и качеством. Опять проталкивают – ""документируйте всё!"" Молодцы)) Эвалы это тоже мучение LLM, поэтому тут все еще работает правило garbage in - garbage out. Про autoraters интересно - они могут давать bias (позиционный, к длине текста, к своей модели), но есть разные техники для борьбы с этим. В документе даже есть таблица с разными моделями-оценщиками и их особенностями. Структура оценки для LLM сложнее, чем для обычных ML-моделей. Нужно учитывать, что ""правильный"" ответ может быть не один, а метрики надо адаптировать под бизнес-задачу. Мета-оценка тоже важна (да-да сами оценщики надо оценивать 😃): как понять, что сам оценщик адекватен? Уже есть много датасетов для этого."
"Ну а вот пасхалки в виде бонусного папируса мы уважаем, спасибо, нрааааиица! В…
119 viewsОткрыть в Telegram →
Из этого канала
- #274У нас было 2 кластера TPU, 75 слоев семантик роутера, полдюжины мелких…
У нас было 2 кластера TPU, 75 слоев семантик роутера, полдюжины мелких PydanticAI агентов, половина квоты Google Cloud и целое множество мелких опенсорсных…
- #277"Честно говоря, даже не знаю, что рассказать про WhitePaper о эмбеддингах и…
"Честно говоря, даже не знаю, что рассказать про WhitePaper о эмбеддингах и векторных хранилищах из вчерашнего дня интенсива.
- #278Для совсем ленивых или тех кто вообще не в теме, вот выжимка из дока от…
Для совсем ленивых или тех кто вообще не в теме, вот выжимка из дока от NotebookLM в любезном переводе gpt: Встраивания — это низкоразмерные числовые…
- #271"Привет, завершаем курить бамбук с первого дня интесива. Я очень борюсь с тем…
"Привет, завершаем курить бамбук с первого дня интесива. Я очень борюсь с тем чтобы не утыкаться в приложенные источники, ибо как раз там, там мякотка! Ну…
- #269А лабы кстати, вообще фигня 🙂
А лабы кстати, вообще фигня 🙂