Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений). При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии: * Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас». * Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии. * Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом. Подробнее: https://t.me/gonzo_ML_podcasts/1108
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по…
Из этого канала
- #4168Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая…
Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять…
- #4170Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить…
Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы,…
- #4172Extropic анонсировал своё новое железо…
Extropic анонсировал своё новое железо http://extropic.ai/writing/inside-x0-and-xtr-0 Мы писали про эту и другие интересные темы тут
- #4164Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не…
Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.
- #4163Датасет для файнтюнинга агентности... из 78 примеров. LIMI: Less is More for…
Датасет для файнтюнинга агентности... из 78 примеров. LIMI: Less is More for Agency https://t.me/gonzoMLpodcasts/1083