Отдельный интересный результат в том, что Coconut с k=0, то есть когда он вынужден генерировать обычную языковую цепочку CoT без латентных мыслей (но уже с парой токенов <bot>/<eot>), качество выше, чем у CoT, меньше галлюцинирует. Видимо, помогает процедура обучения с замешиванием разных этапов (а может и пара дополнительных токенов тоже). Латентный ризонинг можно интерпретировать как поиск по дереву, если опираться на интуицию, что непрерывные мысли могут содержать более одного шага рассуждения. Так, первая мысль кокоса может выбрать всех детей узла графа, следующая — детей детей. Получается похоже на поиск в ширину (BFS), но не равномерный, а с вероятностями или приоритетами. В работе посчитали эти вероятности для примеров, получается неявная value function для исследования графа. По ощущению тут где-то рядом MCTS. И вообще выглядит, что обучили не непрерывный CoT, а непрерывный ToT. По полученным вероятностям можно оценить степень параллелизма мыслей, если смотреть на кумулятивные значения top-1/2/3 кандидатов. У первых мыслей такой параллелизм (разница между линиями для top-1/top-2/top-3) выше, чем у вторых. Латентное рассуждение позволяет модели отложить выбор конкретных слов и «обдумывать» варианты глубже по дереву поиска, оценивая узлы уже у самых листьев, где ошибочные пути легко выявить. Экспериментально видно, что уверенность модели обратно пропорциональна высоте узла: на малых высотах она чётко отделяет правильные варианты от неправильных, тогда как на больших это различие размывается — поэтому планирование в непрерывном латентном пространстве оказывается выгодным. --- Интересный подход, он сильно перекликается с LCM (https://t.me/gonzo_ML/3149), только в LCM сразу работали на уровне отдельных больших мыслей-предложений, а здесь скорее избавляются от токенов для промежуточных вычислений. Наверное, где-то посередине есть подход с латентными концептами для объектов, действий и свойств, пока вроде не видел такого. Верю глобально в это направление с латентным ризонингом и латентным всем. Thought vector is a thing. In the meantime, прослушайте ~~пение дрозда~~ песню из шапки.
Отдельный интересный результат в том, что Coconut с k=0, то есть когда он…
Из этого канала
- #3583Just in case, бахнул авторазбор статьи про iCoT…
Just in case, бахнул авторазбор статьи про iCoT (https://arxiv.org/abs/2405.14838), которую упоминали в разборе Coconut'а (https://t.me/gonzoML/3567).
- #3584Работы, на которые надо обратить внимание…
Работы, на которые надо обратить внимание https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/
- #3585Концепция изменилась
Концепция изменилась
- #3568Тестируют подход на трёх датасетах с математическим (GSM8k) и логическим…
Тестируют подход на трёх датасетах с математическим (GSM8k) и логическим ризонингом (ProntoQA, и новый ProsQA). Проверяют на предобученной GPT-2.
- #3567Training Large Language Models to Reason in a Continuous Latent Space Shibo…
Training Large Language Models to Reason in a Continuous Latent Space Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong…