Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять параллельными вычислительными потоками для каждого токена. Это достигается путём вставки специализированных «слоёв ветвления» между стандартными блоками трансформера. Вместо генерации явного текста, как в Chain-of-Thought, эта модель может «разветвлять» (клонировать) или удалять residual streams для определённых токенов. Токены, требующие большей обработки, формируют временные «пузыри» параллельных вычислений внутри сети, которые затем сливаются для получения итогового результата. Подробнее: https://t.me/gonzo_ML_podcasts/1118
Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая…
Из этого канала
- #4170Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить…
Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы,…
- #4172Extropic анонсировал своё новое железо…
Extropic анонсировал своё новое железо http://extropic.ai/writing/inside-x0-and-xtr-0 Мы писали про эту и другие интересные темы тут
- #4173Не про архиваторы. Binary Retrieval-Augmented Reward, или Binary RAR, — это…
Не про архиваторы. Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её…
- #4166Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по…
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст…
- #4164Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не…
Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.