"В целом постить анонсы появления разных новых моделей перестало быть особенно… — @gonzo_ML

"В целом постить анонсы появления разных новых моделей перестало быть особенно интересно, про это и так все напишут (тут ещё и Gemini 3.0 Pro и GPT-5.1 обещают), но удивительно, конечно, как сокращается разрыв между коммерческим close-source'ом и __китайским__ опен-сорсом. Кто бы мог подумать несколько лет назад, что именно Китай будет лидить это направление. Выход новой Kimi K2 Thinking некоторые (например, Томас Вулф) окрестили новым DeepSeek Moment. Модель -- MoE на 1T общих параметров и 32B активных, контекст 256k, родная INT4 (QAT) с сохранением качества; Moonshot прямо заявляет про стабильный тул‑юзинг при 200–300 последовательных вызовов. Все бенчмарки для Thinking репортились в 4‑битной точности. Если наконец есть возможность локально запускать модель уровня GPT‑5/Claude Sonnet 4.5/Grok‑4 -- это биг‑дил. В таблицах на карточке K2 Thinking она выигрывает у закрытых на части задач (HLE с инструментами, BrowseComp, некоторые кодовые бенчи), но, разумеется, кросс‑сравнения между командами и сетапами всегда надо читать с оговорками, да и хорошая работа на бенчмарке ещё не гарантирует такой же успех в личной жизни -- мы все тут слышали, что датасеты нынче разбавляют. Но тем не менее. Весит K2 Thinking ~594 GB в формате compressed‑tensors (INT4). Оригинальная K2 (не Thinking) распространялась в FP8, поэтому чекпойнты получались заметно тяжелее. Это всё ещё больше, чем позволяет типовое (или даже high end) домашнее железо. На практике уже есть успешные прогоны чего-то похожего: K2 в 4‑битном формате работает на двух Mac Studio с M3 Ultra по 512 GB (mlx‑lm + распределение между машинами) с «жить можно» скоростью; есть и локальные отчёты про ~30 ток/с на гибриде GPU+CPU через SGLang/ktransformers. Это пока всё варианты не для простых смертных. Два Mac Studio -- это $25-30k. NVIDIA DGX Spark за ~$4k -- не вариант, слишком мало памяти. Какая-то рабочая станция с 1-2 TB памяти + GPU могут быть вариантом, но тоже я думаю будет сильно за десятку тысяч. Реально рабочая конфигурация -- что-то вроде 8× H200/B100, в соответствии с документацией: __ “The smallest deployment unit for Kimi-K2-Thinking INT4 weights with 256k seqlen on mainstream H200 platform is a cluster with 8 GPUs with Tensor Parallel (TP).""__ Там же есть любопытный вариант с KTransformers+LLaMA-Factory Fine-tuning: __“This achieves end-to-end LoRA SFT Throughput: 46.55 token/s on 2× NVIDIA 4090 + Intel 8488C with 1.97T RAM and 200G swap memory.”__ В общем, пока скорее годится как потенциальная замена платных закрытых моделей внутри вашей компании, но не LLM для дома и локальных агентских экспериментов. Может быть в этом месте более разумная альтернатива -- это какой-нибудь MiniMax‑M2, его вроде хвалят: MoE 230B total / 10B active, уже годно для Mac Studio M3 Ultra и с натяжкой для DGX Spark. В любом случае, интересная движуха и огромный прогресс за несколько лет."

Из этого канала