"OpenAI API для сжатия длинных разговоров Если общаться долго с чатботом, то разговор раздуется и, рано или поздно, перестанет вылазить в контекст. Особенно это актуально в системах с агентными архитектурами. Там контекст раздувает не только от общения LLM с человеком, но и взаимодействия с инструментами и MCP серверами. Чтобы справиться с этим, историю переписки с ботом могут сжимать например, отдельным промптом: __ChatGPT, сделай мне выжимку из этого разговора. __Но этот процесс каждый реализует сам и мало кто тестирует. А в OpenAI Platform (Responses API) есть штатный метод /responses/compact, который реализован и протестирован. При его вызове OpenAI упаковывает контекст модели (model's latent understanding) в зашифрованный снапшот, который занимает меньше места. Его теперь можно отправлять как `input` в дальнейшие обсуждения: ``` { ""id"": ""cmp_001"", ""type"": ""compaction"", ""encrypted_content"": ""gAAAAABpM0Yj-...="" } ``` Именно он используется, скажем, под капотом у цикла агента во всех реализациях Codex (см рассказ OpenAI Codex). Насколько я помню, пока ни одна из архитектур агентов в ERC3 не использовала этот штатный режим compaction для контекста. Возможно, если его натянуть на SGR Next Step Agent, то получится выжать больше качества и скорости из демо-архитектуры. Кто-нибудь уже использовал `/responses/compact`? Как оно вам? Ваш, @llm_under_hood 🤗"