Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем латентную структуру моделей и промптов по дешёвым разметчикам, а затем файнтюним по (дорогим и редким) человеческим оценкам. Много что напоминает, и self-supervised pre-training (representation learning) + supervised fine-tuning, и подходы из рекомендательных систем: factorization machines, а ещё больше коллаборативку типа SVD, особенно когда к двумерным матрицам товар-юзер добавляли третье измерение про контекст — время, место, whatever. Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization __Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque__ Paper: https://arxiv.org/abs/2603.02029 Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals # TL;DR ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами. ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей. Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета. Раскладывать тензоры тут: https://t.me/gonzo_ML_podcasts/3301