Помните, когда-то давно я рассказывал про историю разработки своего reasoning… — @llm_under_hood

Помните, когда-то давно я рассказывал про историю разработки своего reasoning агента, который мог разгрызать сложные compliance документы? И тогда это казалось какими-то космическими технологиями. Особенно удивляло, что логические цепочки настолько стабильные, что выдерживают запуск и на локальных моделях. Это больше не дальний космос, а вполне себе освоенное пространство в нашем коммьюнити! Просто посмотрите на топовые результаты из лидерборда (я загрузил туда новых описаний архитектур от команд - жмем на треугольник, чтобы увидеть детали). Во-первых, 5 из 10 агентов в топе способны работать долго самостоятельно (от 1 до 7 минут на задачу) и при этом не сойти с ума. Свой работающий Deep Research у каждого второго! Во-вторых, архитектура Ильи Риса на втором месте использует под капотом gpt-oss-120B, которую можно запускать на своих серверах. Облачные модели уже не являются единственным способом получить хорошого агента - теперь мы упираемся в архитектуры. В-третих, просто полистайте зоопарк архитектур и моделей. Чего там только нет. Начиная от быстрых и локальных агентов на базе qwen3-235b-a22b-2507 и до экзотической само-модифицирующейся системы на базе claude-opus-4.5. Команды на их базе строят разные решения, от точных и дорогих, до медленных и дешевых, до сбалансированных. Самое главное, что теперь не нужно жертвовать точностью для получения бюджетных решений. Но при этом агенты, которые оптимизируются на быстрые ответы - это отдельная песня, со своими архитектурными нюансами. В-четвертых, примечательно, что SGR NextStep архитектура (которая родилась в той reasoning истории) теперь довольно часто упоминается в качестве базовой. В лидербордах представлены агенты начиная с легких модификаций с дополнительными инструментами и до сильно измененной реализации на втором месте. Но одного наличия SGR не достаточно для победы, имеет значение то, чем ее дополняют. Да и первое место вообще без нее обошлось. В-пятых, более точные решения обычно явно прописывают в архитектурах упор на простоту и прозрачность, отдельную логику на валидацию и работу с правилами. Демо агенты показывали подход с rule distillation и preflight checks, но команды с точными агентами развили эту тему гораздо глубже. В общем, если кратко собрать выводы про построение самого точного и внедряемого в бизнес агента, то нужно делать упор на: deterministic control flow + distilled rules + automated validation + iterative self-improvement, где LLM-ка - это не центральный движок, а просто заменяемый планировщик и преобразователь информации. Ваш, @llm_under_hood 🤗

Из этого канала