Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM под капотом. Reasoning модели пока не способны удерживать нюансы на длительных логических цепочках, но вот прокрутить большой объем данных и самостоятельно рассмотреть их с разных сторон - это они могут хорошо. Этим можно пользоваться, заменяя небольшой R&D отдел - вычитывать новые статьи и примерять идеи из них на свои решения. (1) в контекст модели загружаем архитектуру текущего решения с LLM под капотом - свои мысли вперемешку с кусками кода. И просим сделать сухую выжимку. Повторять, пока не будут подсвечены нужные нюансы. (2) потом в контекст грузим интересную статью, например, whitepaper про DeepSeek R1. Просим внимательно прочитать в контексте архитектуры текущего решения и предложить простые способы улучшения архитектуры, которые можно быстро проверить. В ответ можно получить что-то вроде: Your existing approach already follows many best practices in structured reasoning: ... Borrowing from DeepSeek-R1’s lessons—especially the self-check “reflection” and using a simple reward or rating for partial coverage—can help you tighten feedback loops. And adding short extraction or “evidence snippet” steps can make your system’s findings easier to read and trust. Each idea above is relatively small-scale to implement but can unlock smoother or more transparent user experiences, aligned with the paper’s spirit of reinforcing better chain-of-thought. Это выжимка из ответа. Детальный proposal со всеми идеями по улучшению развернулся на 3 страницы. И ведь дело говорит. Ваш, @llm_under_hood 🤗
Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM…
Из этого канала
- #494Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что…
Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что DeepSeek r1 лучше o1? Вот никаким боком.
- #496Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это -…
Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это - превью второй версии моего личного бенчмарка.
- #497"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать…
"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать задачи из кейсов во вторую версию моего личного бенчмарка LLM на бизнес задачах.
- #492Визуализация Reasoning цепочек - Эпизод IV Пора заканчивать reasoning историю.…
Визуализация Reasoning цепочек - Эпизод IV Пора заканчивать reasoning историю. В этот раз будет про локальные модели и с картинками в комментариях.
- #491А у какой локальной модели из топовых на моем бенчмарке есть удобный платный…
А у какой локальной модели из топовых на моем бенчмарке есть удобный платный хостинг, который поддерживает нормальный constrained decoding (для CoT+SO)? В…