Multi-Head Low-Rank Attention https://arxiv.org/abs/2603.02188 https://www.alphaxiv.org/ru/overview/2603.02188 https://github.com/SongtaoLiu0823/MLRA
Multi-Head Low-Rank Attention https://arxiv.org/abs/2603.02188…
0 viewsОткрыть в Telegram →
Из этого канала
- #6254CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation…
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation https://arxiv.org/abs/2602.24286 https://www.alphaxiv.org/ru/overview/2602.24286…
- #6255кто-нибудь если проовал то отпишите как вам) я чот пока доволен
кто-нибудь если проовал то отпишите как вам) я чот пока доволен
- #6256наверно еще поиск в интернете нужен чтобы оно само могло ходить
наверно еще поиск в интернете нужен чтобы оно само могло ходить
- #6251самая маленькая квантизация очень быстро в репит ушла и одни и те же команды…
самая маленькая квантизация очень быстро в репит ушла и одни и те же команды начала спамить а q4 норм прям ваще
- #6250на 8гб врм + 16 рам 9б со 128к контекстом пыжится над квантовым симуляторо) по…
на 8гб врм + 16 рам 9б со 128к контекстом пыжится над квантовым симуляторо) по ощущениям где-то 8-10 токенов в секунду... ну еще и контекст пока не сильно забит