Сбер обновил GigaChat — и выложил очень много интересных инженерных подробностей о том, как они это делали. В ноябре выкатили preview MoE-моделей, сейчас — полноценный релиз на MoE-архитектуре (MoE + MTP + MLA). Две модели: Ultra на 702B параметров (36B активных) и Lightning на 10B (1.8B активных). Обе под MIT, обе обучены с нуля без зарубежных весов. Самое ценное в релизе — не сами веса, а разбор на Хабре про то, как они туда дошли. Переход с Dense на MoE вскрыл кучу проблем, которые в теории не описаны. Главная боль — зацикливание генераций. Модель начинала повторять фрагменты бесконечно, и стандартные подходы не помогали. В итоге написали собственную метрику для детекции циклов и пересобрали весь пайплайн пост-трейна. DPO-этап перевели в нативный FP8 — и тут неожиданность: качество вышло выше, чем в bf16, при вдвое меньшем потреблении памяти. Ещё по ходу нашли критичный баг в SGLang при dp > 1, который тихо портил бенчмарки. По цифрам: Ultra обходит DeepSeek-V3-0324 и Qwen3-235B в математике и reasoning. Lightning — на бенчах сравним с сопоставимыми по размеру Qwen, а на аренах уровень GPT-4o. Для локального деплоя — очень конкурентная штука. HuggingFace Хабр @ai_newz
Сбер обновил GigaChat — и выложил очень много интересных инженерных…
Из этого канала
- #4493🔥🔥🔥 Seedance 2.0 в глобальном доступе После затяжного переноса ByteDance…
🔥🔥🔥 Seedance 2.0 в глобальном доступе После затяжного переноса ByteDance наконец выкатили SOTA видео-модельку за пределами Китая.
- #4495И тут очень вовремя OpenAI закрывают Sora Нейротикток OpenAI в итоге не взлетел…
И тут очень вовремя OpenAI закрывают Sora Нейротикток OpenAI в итоге не взлетел и не имел особых перспектив монетизации, так что компания решила…
- #4496Google запускает Lyria 3 Pro Модель может генерировать аудио вплоть до 3 минут,…
Google запускает Lyria 3 Pro Модель может генерировать аудио вплоть до 3 минут, против 30 секунд у ванильной модели, так что теперь можно генерировать…
- #4490Байка про немецкое PhD. На днях наш бывший интерн из Меты написал мне с…
Байка про немецкое PhD. На днях наш бывший интерн из Меты написал мне с просьбой подписаь документ, нужный для PhD защиты.
- #4489Чел запустил 400B Qwen 3.5 на iPhone 17 Pro Веса стримятся с диска, так что…
Чел запустил 400B Qwen 3.5 на iPhone 17 Pro Веса стримятся с диска, так что скорость всего полтокена в секунду.