"Любопытная работа от Apple, дифференцируемый RAG по сути. Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning __Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang__ Статья: https://arxiv.org/abs/2511.18659 Код: https://github.com/apple/ml-clara Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation # TL;DR ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные ""токены памяти"" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа. ПОЧЕМУ это важно: В стандартном RAG существует проблема ""разрыва градиента"": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз. Подробнее: https://t.me/gonzo_ML_podcasts/1550"
"Любопытная работа от Apple, дифференцируемый RAG по сути. Closing the Loop:…
Из этого канала
- #4315Интересная работа, требует более вдумчивого чтения, чем просто саммари. On the…
Интересная работа, требует более вдумчивого чтения, чем просто саммари. On the Fundamental Limits of LLMs at Scale Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan…
- #4317Обещанный Лавкрафт
Обещанный Лавкрафт
- #4318"Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный…
"Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст.
- #4306В последние дни интересных моделей привалило! 1. DeepSeek-V3.2: обычный (замена…
В последние дни интересных моделей привалило! 1. DeepSeek-V3.2: обычный (замена V3.2-Exp) и DeepSeek-V3.2-Speciale (с улучшенным ризонингом).
- #4303"Будущее за оркестрами, обучайте дирижёров! ToolOrchestra: Elevating…
"Будущее за оркестрами, обучайте дирижёров! ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration Hongjin Su, Shizhe Diao, Ximing…