В опенсорсе модель с 1T параметров! Для тех, у кого лишние DGX простаивают, видимо :) https://github.com/MoonshotAI/Kimi-K2 Обучена оптимизатором muon (https://t.me/gonzo_ML/3591), кстати.
В опенсорсе модель с 1T параметров! Для тех, у кого лишние DGX простаивают,…
Из этого канала
- #3823Вот это я понимаю, масштаб! (3195 additional authors not shown)…
Вот это я понимаю, масштаб! (3195 additional authors not shown) https://arxiv.org/abs/2507.06261
- #3824Ещё интересная архитектурная инновация — H-Net, делающий следующий шаг к…
Ещё интересная архитектурная инновация — H-Net, делающий следующий шаг к обучаемой токенизации, теперь вроде как совсем end-to-end (в отличие от BLT).
- #3826🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем…
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.
- #3820Не могу не поделиться
Не могу не поделиться
- #3815А также на посмотреть. 2001: A Space Odyssey
А также на посмотреть. 2001: A Space Odyssey