"Насколько маленькая LLM модель может вытянуть Deep Research? Насколько плохо… — @llm_under_hood

"Насколько маленькая LLM модель может вытянуть Deep Research? Насколько плохо или хорошо это будет выглядеть? Насколько будет ерунда под капотом? Можно заглянуть под капот размышлений относительно небольшой модели gpt-4o-mini/Qwen2.5-7B-Instruct в режиме SGR (NextStep архитектура). Валера навайбкодил интерфейс для отладки, который показывает ход размышлений и вызова инструментов Да, в проде люди используют модели побольше. Но ведь реально интересно, как будет себя вести крохотная модель, которую даже не обучали под reasoning, но потом заставили следовать схеме размышлений. Вот, например, результат ответа на вопрос ""Find the price of Bitcoin today and find the price for 2023 and 2024"" при помощи qwen2.5-7B-Instruct: трейс размышлений c вызовами инструментов и финальный отчет. Ваш, @llm_under_hood 🤗"

Из этого канала