TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз! Идея такая: не все токены одинаково полезны на всех слоях, не все слои одинаково полезны для всех токенов. Давайте дадим модели самой выбирать на какие слои передавать токены, а на какие слои нет. авторы получают х25 ускорение претрена и модель лучшую по метрикам чем классический DIT. paper
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training -…
Из этого канала
- #936Salt Мы начали собирать эту модель в августе, в конце августа получили первый…
Salt Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для…
- #937Агенты OpenAI Нам показывают Operator:…
Агенты OpenAI Нам показывают Operator: https://openai.com/index/introducing-operator/ агент для работы в вебе на базе новой модельки Computer-Using Agent - это…
- #939Куда ни глянь везде RL, реварды, агенты... шьто за время)
Куда ни глянь везде RL, реварды, агенты... шьто за время)
- #933АГИ через 500 лярдов:
АГИ через 500 лярдов:
- #932Проект Stargate — это новая компания, по инвестированию $500 миллиардов в…
Проект Stargate — это новая компания, по инвестированию $500 миллиардов в течение следующих четырех лет в создание новой инфраструктуры для искусственного…