Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters __Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al.__ Статья: https://arxiv.org/abs/2606.02437 Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million Код: нет Модель: нет # TL;DR Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума. Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем. Скейлить тут: https://t.me/gonzo_ML_podcasts/3917
Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the…
Из этого канала
- #5502Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то…
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое.
- #5507Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне…
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне кажется, что-то такое уже было...
- #5511Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там…
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.
- #5497Извинити. Не знаю автора )
Извинити. Не знаю автора )
- #5493"Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и…
"Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и неограниченного компьюта.