Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic. Подробнее: https://t.me/gonzo_ML_podcasts/1127
Краткость — сестра Адаптация LLM через прунинг весовых матриц. Что надо прунить…
Из этого канала
- #4172Extropic анонсировал своё новое железо…
Extropic анонсировал своё новое железо http://extropic.ai/writing/inside-x0-and-xtr-0 Мы писали про эту и другие интересные темы тут
- #4173Не про архиваторы. Binary Retrieval-Augmented Reward, или Binary RAR, — это…
Не про архиваторы. Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её…
- #4175"Продолжается развитие интересной линейки Dreamer, моделей, способных обучаться…
"Продолжается развитие интересной линейки Dreamer, моделей, способных обучаться ""в воображении"", внутри выученной модели мира.
- #4168Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая…
Всё дело в волшебных пузырьках! Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять…
- #4166Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по…
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст…