Визуализация Reasoning цепочек - Эпизод IV Пора заканчивать reasoning историю. В этот раз будет про локальные модели и с картинками в комментариях. - Эпизод I - Эпизод II - Эпизод III - Reasoning кирпичик для Stargate - Эпизод IV (этот) Шаги 23 - 46: Долго и старательно доводил напильником онтологию. Получается в итоге что-то вроде графа, по которому “ползают” ассистенты. Причем в определенный момент, в зависимости от сложности задачи, мы запускаем несколько выделенных ассистентов в разные стороны. Шаг 47: Задал тестовый compliance вопрос ChatGPT o1 pro. Он думал 2m47s и провалился в грабли, через которые мы перешагнули на шаге 11. А мой reasoning на базе 4o за 25s пришел к правильному выводу. Шаг 48: Если отобразить семантические связи в виде графа, а потом подсветить на нем пройденные взаимосвязи, то получается интересная визуализация размышлений. Шаг 49: 4o - это хорошо, но с ним связана куча рисков. А насколько много работы нужно для запуска всей системы целиком локально? Есть только один способ проверить - перенести и посмотреть, насколько сильно она глупеет. Шаги 50-53: Про портирование работающих Structured Output / CoT цепочек с 4o на более болтливую Qwen2.5-72B-Instruct с “костыльным” constrained decoding. Шаг 54: Запустил на паре тестовых запросов. Внезапно, но система доходит до конца там, где o1 pro ломается. Похоже, что тщательно вылизанные логические цепочки обладают бОльшим запасом прочности, чем я ожидал. Шаг 55: Просадка по качеству заметна на этапе размышлений, если включить визуализацию - система с Qwen под капотом запускает сильно больше ассистентов в тупиковые направления исследований по графу. Но имеет значение, что в итоге тупики отсекаются, а итоговые ответы пока выглядят правильно. Дальше надо будет собирать тестовые таблицы для всех блоков и пристально анализировать различия в логике под микроскопом. Но это уже будет другая история. Шаг 56: А что, если вместо Qwen2.5-72B взять модель попроще, проанализировать ошибки, укрепить цепочки, а потом запускать на модели помощнее?.. __Вот на этом и все. Графы с цепочками размышлений ассистентов на базе ChatGPT 4o vs Qwen2.5-72B-Instruct закину в комментарии. __ Ваш, @llm_under_hood 🤗 PS: Где можно прочитать про технологии выстраивания reasoning цепочек на сложных доменах? Читаем про Schema-Guided Reasoning!
Визуализация Reasoning цепочек - Эпизод IV Пора заканчивать reasoning историю.…
Из этого канала
- #493Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM…
Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM под капотом.
- #494Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что…
Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что DeepSeek r1 лучше o1? Вот никаким боком.
- #496Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это -…
Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это - превью второй версии моего личного бенчмарка.
- #491А у какой локальной модели из топовых на моем бенчмарке есть удобный платный…
А у какой локальной модели из топовых на моем бенчмарке есть удобный платный хостинг, который поддерживает нормальный constrained decoding (для CoT+SO)? В…
- #490Reasoning кирпичик для Stargate В предыдущих постах я оставил закладки,…
Reasoning кирпичик для Stargate В предыдущих постах я оставил закладки, которые, приводят нас к сегодняшнему посту. Итак, следите за руками. Начнем мы с конца.