Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние. Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст. Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков: 1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений. 2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием. Подробнее: https://t.me/gonzo_ML_podcasts/1093
Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не…
Из этого канала
- #4166Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по…
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст…
- #4168Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая…
Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять…
- #4170Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить…
Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы,…
- #4163Датасет для файнтюнинга агентности... из 78 примеров. LIMI: Less is More for…
Датасет для файнтюнинга агентности... из 78 примеров. LIMI: Less is More for Agency https://t.me/gonzoMLpodcasts/1083
- #4157Больше фундаментальных моделей, хороших и разных, и за пределами языка. Две…
Больше фундаментальных моделей, хороших и разных, и за пределами языка. Две недавние работы: Physics Foundation Model (https://t.me/gonzoMLpodcasts/1055) —…