Про метрики не вижу большого смысла говорить — по бенчмаркам показывают, что на равне или почти нос к носу с фронтиром, но мы-то с вами знаем, что это не так, и что в лучшем случае паритет в достаточно узком наборе доменов на 2-3 языках. Что не отменяет того, что модель может быть лучшей с открытыми весами. DeepSeek сами пишут, что «Широта знаний о мире у DeepSeek-V3.2 всё еще отстает от ведущих проприетарных моделей» — и это одно из ограничений. Второе — это длина цепочек рассуждений, для Speciale-версии модели (см. в следующем посте) нужно в 2-3 раза больше токенов (при более низкой скорости генерации, по крайней мере в официальном API), чем другим моделям — вторая картинка, цифры в скобках это количество генерируемых токенов.