GLM 4.5 — китайский опенсорс продолжает доминировать Очередная очень сильная открытая MoE модель от китайцев, с очень хорошими результатами на бенчах. Гибридний ризонер, с упором на тулюз. Доступна по MIT лицензии, 128к контекста, нативный function calling, из коробки работают стриминг и batching, есть FP8‑инференс и совместимость с vLLM/SGLang. Как и Kimi K2 модельку тренировали с Muon, но в отличие от Kimi авторы использовали QK норму вместо клиппинга — Kimi такой трюк не позволило провернуть использование MLA, из-за чего им пришлось придумывать свою версию оптимайзера. Для спекулятивного декодинга получше модельку тренировали с MTP. Она заметно глубже чем другие открытые китайские MoE — это повышает перформанс, за счёт роста размера KV-кэша. Вместе с этим они используют заметно больше attention heads. Это хоть и не помогает лоссу, но заметно улучшает ризонинг бенчмарки. Модель идёт в двух размерах — 355B (32B active) и 106B (12B active). Претрейн был на 22 триллионах токенов — 15 триллионов токенов обычных данных, а после них 7 триллионов кода с ризонингом. На мидтрейне в модель запихнули по 500 миллиардов токенов кода и ризонинг данных с контекстом расширенным до 32к, а после этого 100 миллиардов long context и агентных данных при контексте уже в 128к. Посттрейн двухэтапный — сначала из базовой модели через cold‑start+RL тренируют три эксперта (reasoning модель, agentic модель, и для общих тасков) и сводят их знания в одну модель через self‑distillation. Затем идёт объединённое обучение: общий SFT → Reasoning RL → Agentic RL → General RL. Для ризонинга применяют одноступенчатый RL на полном 64K‑контексте с curriculum по сложности, динамическими температурами и адаптивным клиппингом. Агентные навыки тренируют на верифицируемых треках — поиск информации и программирование с обратной связью по исполнению. Полученные улучшения помогают и deep search и общему tool‑use. Кстати, их посттрейн фреймворк открытый и лежит на гитхабе. Веса Демо Блогпост Посттрейн фреймворк @ai_newz
GLM 4.5 — китайский опенсорс продолжает доминировать Очередная очень сильная…
Из этого канала
- #4064Для подписчиков Claude введут недельные лимиты Изменение войдёт в силу через…
Для подписчиков Claude введут недельные лимиты Изменение войдёт в силу через месяц — 28 августа и будет касаться как подписчиков Plus так и подписчиков Max.
- #4065Обновлённый Qwen 30B-A3B Instruct Влезающая в одну видеокарту MoE модель с 256к…
Обновлённый Qwen 30B-A3B Instruct Влезающая в одну видеокарту MoE модель с 256к контекста, по многим бенчам обгоняет DeepSeek V3-0324 и GPT 4o-0327.
- #4067Визуальные промпты для Veo 3 Зацените лайфхаки от Google Labs. Недавно в VEO 3…
Визуальные промпты для Veo 3 Зацените лайфхаки от Google Labs. Недавно в VEO 3 появилась возможность подавать на вход картинки.
- #4059Нейродайджест за неделю (#79) LLM - Обновление Qwen 3 — 235B теперь обходит…
Нейродайджест за неделю (#79) LLM - Обновление Qwen 3 — 235B теперь обходит Claude 4 Opus по некоторым бенчмаркам.
- #4058Эйай Ньюз Митап в Тбилиси Ребят, я договорился на нашей локации на большее…
Эйай Ньюз Митап в Тбилиси Ребят, я договорился на нашей локации на большее число людей.