Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику, Epiplexity (https://t.me/gonzo_ML/4543). А сегодня про опасный трейдофф внутри самой перплексии. Perplexity Cannot Always Tell Right from Wrong __Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu__ Статья: https://arxiv.org/abs/2601.22950 Ревью: https://arxiviq.substack.com/p/perplexity-cannot-always-tell-right # TL;DR ЧТО сделали: Авторы строго доказали, что для decoder-only трансформеров перплексия — теоретически ошибочная метрика для выбора моделей. Опираясь на свойства непрерывности, они показали: если модель уверена и точна на одной последовательности, всегда найдётся соседняя последовательность, где модель будет так же уверена, но неправа, сохраняя при этом исчезающе низкую перплексию. ПОЧЕМУ это важно: Работа разрушает постулат «меньше перплексия = лучше генерация», особенно для OOD (Out-of-Distribution). Это вскрывает «слепое пятно»: модели могут обманывать метрику, разменивая точность на необоснованную самоуверенность. Текущие лидерборды рискуют систематически отбирать переуверенные галлюцинации вместо моделей с качественными рассуждениями. Подробнее: https://t.me/gonzo_ML_podcasts/2328
Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику,…
Из этого канала
- #4719Правильная дистилляция помогает избавиться от лишнего запоминания моделью!…
Правильная дистилляция помогает избавиться от лишнего запоминания моделью! Memorization Dynamics in Knowledge Distillation for Language Models Jaydeep Borkar,…
- #4725"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует…
"Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI Существует легенда о том, что однажды Джон Кармак (создатель id Software, коим мы благодарны за…
- #4726"🔁 RNN / LSTM / Sequence Models 1. The Unreasonable Effectiveness of Recurrent…
"🔁 RNN / LSTM / Sequence Models 1. The Unreasonable Effectiveness of Recurrent Neural Networks (http://karpathy.github.io/2015/05/21/rnn-effectiveness/) — A.
- #4713"Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели,…
"Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели, чем другие способы.
- #4709В последнее время было возрождение интереса к эволюционным стратегиям (1, 2).…
В последнее время было возрождение интереса к эволюционным стратегиям (1, 2). Они работают, но с засадой.