Сбер представил первую на русском языке модель с нативным восприятием аудио Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука. Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно. Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать. Пост на хабре Гигачат @ai_newz
Сбер представил первую на русском языке модель с нативным восприятием аудио…
Из этого канала
- #3874"Помните какое-то время назад, после появления первого ChatGPT, было много…
"Помните какое-то время назад, после появления первого ChatGPT, было много разговоров про замену им гугл поиска, но было непонятно как они заменят revenue от…
- #3875В Yandex Cloud стали доступны VLM-модели через API Через стандартный API теперь…
В Yandex Cloud стали доступны VLM-модели через API Через стандартный API теперь можно вызвать разные опенсорсные VLM-ки — в разных размерах там представлены…
- #3876F Lite — 10B t2i на лицензированных данных Опенсорсная модель основанная на…
F Lite — 10B t2i на лицензированных данных Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений.
- #3872Ну что, готовы к новому релизу от DeepSeek? На 🤗 только что появились веса…
Ну что, готовы к новому релизу от DeepSeek? На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики.
- #3871На Llama Con показали официальное API Llama Сразу на запуске будет доступен…
На Llama Con показали официальное API Llama Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs.