Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем латентную структуру моделей и промптов по дешёвым разметчикам, а затем файнтюним по (дорогим и редким) человеческим оценкам. Много что напоминает, и self-supervised pre-training (representation learning) + supervised fine-tuning, и подходы из рекомендательных систем: factorization machines, а ещё больше коллаборативку типа SVD, особенно когда к двумерным матрицам товар-юзер добавляли третье измерение про контекст — время, место, whatever. Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization __Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque__ Paper: https://arxiv.org/abs/2603.02029 Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals # TL;DR ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами. ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей. Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета. Раскладывать тензоры тут: https://t.me/gonzo_ML_podcasts/3301
Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора…
Из этого канала
- #5232"Шажок на пути к автоматической науке GIANTS: Generative Insight Anticipation…
"Шажок на пути к автоматической науке GIANTS: Generative Insight Anticipation from Scientific Literature Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y.
- #5235Свежак от DeepSeek https://github.com/deepseek-ai/TileKernels Tile Kernels…
Свежак от DeepSeek https://github.com/deepseek-ai/TileKernels Tile Kernels Optimized GPU kernels for LLM operations, built with TileLang.
- #5236Про важность харнесса на примере Клод Кода:…
Про важность харнесса на примере Клод Кода: https://www.anthropic.com/engineering/april-23-postmortem Продолжение темы https://t.me/gonzoML/5209
- #5224Давно мы про табличный ML не писали! Selecting Feature Interactions for…
Давно мы про табличный ML не писали! Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models Jingyun Jia, Chandan Singh,…
- #5219"И ещё про развитие ветки Universal Transformer (см.вчерашнее…
"И ещё про развитие ветки Universal Transformer (см.вчерашнее https://t.me/gonzoML/5206).