Про метрики не вижу большого смысла говорить — по бенчмаркам показывают, что на равне или почти нос к носу с фронтиром, но мы-то с вами знаем, что это не так, и что в лучшем случае паритет в достаточно узком наборе доменов на 2-3 языках. Что не отменяет того, что модель может быть лучшей с открытыми весами. DeepSeek сами пишут, что «Широта знаний о мире у DeepSeek-V3.2 всё еще отстает от ведущих проприетарных моделей» — и это одно из ограничений. Второе — это длина цепочек рассуждений, для Speciale-версии модели (см. в следующем посте) нужно в 2-3 раза больше токенов (при более низкой скорости генерации, по крайней мере в официальном API), чем другим моделям — вторая картинка, цифры в скобках это количество генерируемых токенов.
Про метрики не вижу большого смысла говорить — по бенчмаркам показывают, что на…
Из этого канала
- #3165Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за…
Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за длину размышлений, плюс выкинули все данные без рассуждений.
- #3166TheInformation: согласно внутренней служебной записке, в понедельник…
TheInformation: согласно внутренней служебной записке, в понедельник генеральный директор OpenAI Sam Altman сообщил сотрудникам, что объявляет «красный уровень…
- #3167AI agents find $4.6M in blockchain smart contract exploits LLM всё лучше…
AI agents find $4.6M in blockchain smart contract exploits LLM всё лучше справляются с задачами в сфере кибербезопасности, о чём я уже писал ранее (вот про…
- #3162Для категории General Agent делают дополнительную фильтрацию, чтобы выкинуть…
Для категории General Agent делают дополнительную фильтрацию, чтобы выкинуть некачественную синтетику.
- #3161Пример сгенерированной задачи для General Agent: 1) есть детальнейшее описание…
Пример сгенерированной задачи для General Agent: 1) есть детальнейшее описание того, что хочет человек при планировании путешествия 2) есть набор функций,…