Также во время обучения на задачах с инструментами начали применять подход как у OpenAI, когда рассуждения не выкидываются, и видны модели при генерации следующего вызова инструмента — смотрите картинку. Представьте что для ответа на первый запрос пользователя нужно вызвать 2 инструмента, и после этого дать ответ. При вызове второго модель будет видеть, о чём она уже подумал, а обычно это выкидывают, что приводит к значительной неэффективности использования токенов. Этот подход заставляет модель заново обдумывать всю проблему при каждом последующем вызове инструмента. После того как модель написала ответ и он вернулся пользователю, то цепочки рассуждений удаляются, история вызовов инструментов и их результатов остается сохраненной в контексте, так что модели видно, что она делала, но не о чём думала.