Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние. Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст. Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков: 1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений. 2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием. Подробнее: https://t.me/gonzo_ML_podcasts/1093