"Любопытная работа от Apple, дифференцируемый RAG по сути. Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning __Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang__ Статья: https://arxiv.org/abs/2511.18659 Код: https://github.com/apple/ml-clara Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation # TL;DR ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные ""токены памяти"" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа. ПОЧЕМУ это важно: В стандартном RAG существует проблема ""разрыва градиента"": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз. Подробнее: https://t.me/gonzo_ML_podcasts/1550"