В стане RNN пополнение, MesaNet, являющийся дальнейшим развитием Mesa-слоя из работы про мезаоптимизацию (https://t.me/gonzo_ML/1855). В новой работе архитектура и слой проработаны основательно, результаты RNN на синтетических тестах очень хороши, но всё равно показывают интересную особенность: подобно другим RNN, MesaNet работает лучше трансформеров на ранних токенах в последовательности, но трансформеры сохраняют преимущество на поздних токенах. Подробнее: https://t.me/gonzo_ML_podcasts/280
В стане RNN пополнение, MesaNet, являющийся дальнейшим развитием Mesa-слоя из…
Из этого канала
- #3698Вдруг вам нечем заняться в субботу вечером, а тут свежий Теренс Тао…
Вдруг вам нечем заняться в субботу вечером, а тут свежий Теренс Тао https://www.youtube.com/watch?v=HUkBz-cdB-k
- #3699Интересная новость от Huggingface. Компания не осилила multi-backend и…
Интересная новость от Huggingface. Компания не осилила multi-backend и прекращает поддержку всего кроме PyTorch (то есть JAX и TF) в своей либе transformers…
- #3701Интересная работа от соавтора резнетов. Новый лосс для диффузионок, позволяющий…
Интересная работа от соавтора резнетов. Новый лосс для диффузионок, позволяющий получать бенефиты контрастивного обучения без положительных пар.
- #3696Sakana.AI продолжает рулить! Придумали Text-to-LoRA (T2L), в котором по…
Sakana.AI продолжает рулить! Придумали Text-to-LoRA (T2L), в котором по текстовому описанию задачи обученная гиперсеть (моя любимая тема, см.
- #3695Классная движуха про демократизацию моделей «зрение-язык-действие»…
Классная движуха про демократизацию моделей «зрение-язык-действие» (Vision-Language-Action, VLA).