"Очередная волна китайских моделей Последняя неделя января выдалась насыщенной… — @gonzo_ML

"Очередная волна китайских моделей Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой. Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском посте про Max, вот наконец доехала. Про архитектуру точно неизвестно, но скорее всего MoE на 1T параметров, контекст 262K токенов. Обучена на 36T токенов (цифра от Qwen3-Max-Base, Max-Thinking вероятно дообучали ещё на чём-то). В посте про Thinking пишут про скейлинг и RL, но непонятно, это оригинальный скейлинг Max имелся в виду или какой-то новый. Семейство Qwen3 поддерживает 119 языков, но непонятно насколько это распространяется на Max. Из новых фич заявлены 1) адаптивный вызов тулов на стороне модели (поиск, память и интерпретатор кода) и 2) Test-time Scaling Strategy с параллельными траекториями, multi-round self-reflection и хитрым механизмом, анализирующим предыдущие раунды рассуждения и фокусирующимся на ещё неразрешённых неопределённостях. По их собственным бенчмаркам заявлен уровень моделей GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro. Закрытая, только через API, как и вся ветка Max 🙁. ——— Kimi K2.5 от Moonshot AI — построена на базе Kimi K2 с continued pretraining на 15T токенов текста и изображений. Это первая по-настоящему мультимодальная модель в линейке Kimi, K2 был text-only. MoE на 1T параметров (32B активных), 384 эксперта, контекст 256K (карточка). Добавили визуальный энкодер MoonViT на 400M параметров — теперь модель понимает изображения и видео. На сайте и в приложении указаны четыре режима: K2.5 Instant, K2.5 Thinking, K2.5 Agent и K2.5 Agent Swarm (Beta). Для Kimi K2 Thinking заявляли стабильный тул‑юзинг для 200–300 последовательных вызовов, для K2.5 пишут, что может управлять 100 параллельными субагентами и выполнять воркфлоу до 1500 вызовов тулов, этот сворм агентов создаётся моделью самостоятельно. Обучена через Parallel-Agent Reinforcement Learning (PARL) с обучаемым агентом-оркестратором, который сам декомпозирует задачи и запускает замороженных субагентов впараллель (что хорошо сказывается на latency). В блоге есть немного деталей про этот подход. По бенчмаркам тоже рулит и соревнуется с GPT-5.2 (xhigh), Claude 4.5 Opus (Extend Thinking) и Gemini 3 Pro. Ещё и в офисные задачи умеет: документы, спредшиты, PDF, слайды (я только не понял, это через какие-то тулы в веб-версии или она нативно что-то умеет, в HF деталей не увидел). Веса открыты под Modified MIT — единственное ограничение: при >100M MAU или >$20M/месяц выручки нужно показывать брендинг ""Kimi K2.5"". Поддержка vLLM, SGLang, KTransformers. Нативная INT4 квантизация из коробки. ——— Qwen3-TTS — open-source TTS под Apache 2.0, релиз 21 января. Обучен на 5+ миллионов часов речи, 10 языков (включая русский). Клонирует голос по 3-секундному сэмплу, стримит первый аудио-пакет за 97 мс. Архитектура — discrete multi-codebook language model на базе Qwen3 LM. Два варианта токенизатора: 12Hz (16-layer multi-codebook design) и 25Hz (single-codebook). Модели от 0.6B до 1.7B параметров. Есть VoiceDesign-вариант — создаёт новые голоса по текстовому описанию (""кокетливый молодой женский голос с высоким тоном и явными интонационными перепадами""). Бьёт кое-где MiniMax-Speech и ElevenLabs, но у тех языков больше. Страшная вещь. ——— __UPDATE:__ А сегодня ещё и DeepSeek-OCR-2 подъехал: https://github.com/deepseek-ai/DeepSeek-OCR-2 Из нового — новый энкодер, DeepEncoder V2, который может переставлять визуальные токены в угоду семантике. Что наверное больше похоже на человеческое зрение со сканированием объектов, а не растра."

Из этого канала