Сегодня вышло самое масштабное обновление ГигаЧат в этом году. Новость интересна не только самим фактом релиза, а тем, что Сбер выложил код и веса в открытый доступ на HuggingFace под MIT-лицензией, приправив это очень детальным разбором своей инженерной кухни. Переезд на архитектуру MoE предсказуемо оказался непростым, и в блоге команда довольно откровенно рассказала, например, о том, как боролись с зацикливанием генераций. Плюс ко всему, ребята перевели этап DPO в нативный FP8 — памяти ест в два раза меньше, а качество не падает. По ходу дела еще и откопали критичный баг в SGLang, который портил бенчмарки. В опенсорс выложены две модели. Первая — флагманская GigaChat Ultra. По замерам в математике и общих рассуждениях она обходит DeepSeek-V3-0324 и Qwen3-235B. А вот вторая модель – компактная GigaChat-3.1-Lightning. При скромных 1,8 млрд активных параметров она на аренах выдает результаты на уровне GPT-4o. Маленькая, быстрая и при этом конкурентная по качеству база. Покрутить обновленную модель без развертывания уже можно на сайте.
Сегодня вышло самое масштабное обновление ГигаЧат в этом году. Новость…
Из этого канала
- #8915Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world…
Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world models Очень многие точно слышали про JEPA.
- #8916В Claude Code агент теперь может принимать решения о правах доступа от вашего…
В Claude Code агент теперь может принимать решения о правах доступа от вашего имени Обычно варианта два: либо агент спрашивает разрешения очень часто, либо не…
- #8918Почему OpenAI закрывает SORA Вчера вечером OpenAI объявили, что прощаются с…
Почему OpenAI закрывает SORA Вчера вечером OpenAI объявили, что прощаются с SORA. На самом деле, решение было не то чтобы ожидаемым, но лежало на поверхности.
- #8913Найдена та самая модель, которую Дженсен Хуанг назвал AGI…
Найдена та самая модель, которую Дженсен Хуанг назвал AGI https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
- #8912Почему большинство тестов ИИ-ассистентов не работают в реальности Российские…
Почему большинство тестов ИИ-ассистентов не работают в реальности Российские исследователи из SberAI, MWS AI, а также ИТМО, ВШЭ, МИСИС и других университетов…