"Прикручивая ризонинг к RAGу (retrieval-augmented generation - генерации по внешним источникам информации/ответы по документам) Попробовали просто раг поверх QwQ (на ней весь ризонинговый ресерч стоит) + еще сделали так назвываемый o1-search (тоже работает поверх QwQ), который состоит из двух модулей: ""Агентный RAG-механизм"": * Модель сама решает, когда искать внешние данные. * Запросы для поиска формируются автоматически в процессе рассуждения * Многократное использование поиска в одной задаче. Моделька рассуждает, когда она считает что ей нехватает знаний, то сама вызывает поиск, получает документы, дальше рассуждает уже с новой информацией. Модуль Reason-in-Documents (ризонит по релевантным документам): *анализирует полученные документы (по текущему запросу, полученным релевантным документам и по предыдущей цепочке рассуждений) *выделяет только полезную информацию Как это все в целом работает на инференсе: На вход получаем вопросы пользователя + инструкция по задаче; *генерим по каждому (вопросу + инструкция) цепочку рассуждений которую нужно будет завершить. *Начинаем генерить цепочку. Модель может захотеть поискать инфу - и сгенерит запрос в <|begin_search_query|> запрос <|end_search_query|> - идем ищем в документе, получаем релевантные чанки; * (вопрос + инструкция) + найденные релевантные части документов + текущая цепочка рассуждений -> в Reason-in-Documents модуль, из которого нам уже возвращается хорошо подготовленная информация (формируется результат поиска) в <|begin_search_result|> результаты <|end_search_result|> тегах, вставляем это в текущую цепочку рассуждений; * продолжаем рассуждать И так пока все сформированные изначально цепочки не сгенерим. Так понял, результы на скринах (RAgent и o1-search). Search-o1: Agentic Search-Enhanced Large Reasoning Models https://arxiv.org/abs/2501.05366 https://github.com/sunnynexus/Search-o1 Ризонинговый дождь ☔️"
"Прикручивая ризонинг к RAGу (retrieval-augmented generation - генерации по…
Из этого канала
- #926"Пару часов назад завершилось долгожданное дообучение o1 модели на GigaChat…
"Пару часов назад завершилось долгожданное дообучение `o1` модели на GigaChat 20B-A3B, выполнялось оно на одной RTX 4090 с 24Гб VRAM при помощи проекта…
- #927smolagents - новые агенты от HF Будет заменой для transformers.agents (да, есть…
smolagents - новые агенты от HF Будет заменой для transformers.agents (да, есть такие) Давят на простоту в первую очередь и это правильно Есть кодовый агент…
- #928Есть вот такая эксплорилка архива. https://www.alphaxiv.org/explore Что-то типа…
Есть вот такая эксплорилка архива. https://www.alphaxiv.org/explore Что-то типа https://huggingface.co/papers Показывает тренды папир на архиве К статьям можно…
- #920промт темплейтик
промт темплейтик
- #917"Вообще в работе про которую писал выше опираются на (и во многом…
"Вообще в работе про которую писал выше опираются на (и во многом воспроизводят) другую про обучение ризонингу.