Ещё интересная архитектурная инновация — H-Net, делающий следующий шаг к обучаемой токенизации, теперь вроде как совсем end-to-end (в отличие от BLT). Mamba included! https://t.me/gonzo_ML_podcasts/447
Ещё интересная архитектурная инновация — H-Net, делающий следующий шаг к…
Из этого канала
- #3826🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем…
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.
- #3827И ещё инновация с памятью, теперь ассоциативная память на замену механизму…
И ещё инновация с памятью, теперь ассоциативная память на замену механизму внимания: https://t.me/gonzoMLpodcasts/462 Снова позволяет обучаться лучше на…
- #3828Интересно как, OpenAI не дали, в итоге создатели Devin купили Windsurf…
Интересно как, OpenAI не дали, в итоге создатели Devin купили Windsurf https://cognition.ai/blog/windsurf
- #3823Вот это я понимаю, масштаб! (3195 additional authors not shown)…
Вот это я понимаю, масштаб! (3195 additional authors not shown) https://arxiv.org/abs/2507.06261
- #3821В опенсорсе модель с 1T параметров! Для тех, у кого лишние DGX простаивают,…
В опенсорсе модель с 1T параметров! Для тех, у кого лишние DGX простаивают, видимо :) https://github.com/MoonshotAI/Kimi-K2 Обучена оптимизатором muon…