Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров Модельку саму не выкладывают Интересного тут 1. моделька от хуавея 2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU Много про оптимизации под эти чипы Моделька по бенчам перформит ~ DeepSeek R1 Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs https://arxiv.org/abs/2505.04519 https://www.alphaxiv.org/ru/overview/2505.04519 Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505
Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов…
Из этого канала
- #1090Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо…
Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать.
- #1091просто double DQN проходит простой уровень из марио…
просто double DQN проходит простой уровень из марио https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/
- #1092хм интересная штука двое ребят kalomaze (хз кто он, в иксе часто про всякое…
хм интересная штука двое ребят kalomaze (хз кто он, в иксе часто про всякое рльное пишет) и Will Brown (он одним из первых выложил пример с кодом по grpo для…
- #1084Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись…
Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct SwallowCode ~ 16 Billion tokens…
- #1083AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро…
AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро отвечать, не false positiвить.