Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций. По мере того как размер памяти T растёт 8→64, среднее число итераций падает 11.6→8.3 при том же стабильном качестве в районе ~57% exact match на судоку.
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую,…
Из этого канала
- #5310Попалась свежая интересная репа, собирающая всё про UT/Looped Models…
Попалась свежая интересная репа, собирающая всё про UT/Looped Models https://github.com/huskydoge/Awesome-Loop-Models
- #5311"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM…
"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах.
- #5315Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How…
Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How Different Language Models Learn Similar Number Representations Deqing Fu, Tianyi…
- #5303И снова Universal/Looped Transformers. На этот раз для генерации изображений.…
И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не…
- #5300"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic…
"Про природу минибатчевого SGD. SGD at the Edge of Stability: The Stochastic Sharpness Gap Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis Статья:…