Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику,… — @gonzo_ML

Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику, Epiplexity (https://t.me/gonzo_ML/4543). А сегодня про опасный трейдофф внутри самой перплексии. Perplexity Cannot Always Tell Right from Wrong __Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu__ Статья: https://arxiv.org/abs/2601.22950 Ревью: https://arxiviq.substack.com/p/perplexity-cannot-always-tell-right # TL;DR ЧТО сделали: Авторы строго доказали, что для decoder-only трансформеров перплексия — теоретически ошибочная метрика для выбора моделей. Опираясь на свойства непрерывности, они показали: если модель уверена и точна на одной последовательности, всегда найдётся соседняя последовательность, где модель будет так же уверена, но неправа, сохраняя при этом исчезающе низкую перплексию. ПОЧЕМУ это важно: Работа разрушает постулат «меньше перплексия = лучше генерация», особенно для OOD (Out-of-Distribution). Это вскрывает «слепое пятно»: модели могут обманывать метрику, разменивая точность на необоснованную самоуверенность. Текущие лидерборды рискуют систематически отбирать переуверенные галлюцинации вместо моделей с качественными рассуждениями. Подробнее: https://t.me/gonzo_ML_podcasts/2328

Из этого канала