Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за длину размышлений, плюс выкинули все данные без рассуждений. Как следствие, модель может думать дольше, что, со слов авторов, приводит к метрикам чуть получше-повыше. Главный хайлайт тут — что модель может решить 5/6 задач с международной олимпиады по математике, завоёвывая золото и повторяя успехи OpenAI / Google, и берёт золото на ICPC/IOI, солидных соревнованиях по программированию. Для программирования генерируют 32 или 500 кандидатов, фильтруют по тестам, и делают несколько отправок решений, к которым привели самые длинные цепочки рассуждений. В математике используют цикл с генератором и верифиактором, как в DeepSeekMath-v2 (данные и приём обучения от которого переехали в DeepSeek-V3.2), чтобы выбиться в топ. Но в этом плане по сравнению с предыдущим релизом, вышедшим менее недели назад, новостей и разницы нет.
Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за…
Из этого канала
- #3166TheInformation: согласно внутренней служебной записке, в понедельник…
TheInformation: согласно внутренней служебной записке, в понедельник генеральный директор OpenAI Sam Altman сообщил сотрудникам, что объявляет «красный уровень…
- #3167AI agents find $4.6M in blockchain smart contract exploits LLM всё лучше…
AI agents find $4.6M in blockchain smart contract exploits LLM всё лучше справляются с задачами в сфере кибербезопасности, о чём я уже писал ранее (вот про…
- #3168Качество моделей с развитием за этот год, оценённое как сумма украденных…
Качество моделей с развитием за этот год, оценённое как сумма украденных средств через обнаруживаемые моделями уязвимости (которые не были известны до…
- #3163Про метрики не вижу большого смысла говорить — по бенчмаркам показывают, что на…
Про метрики не вижу большого смысла говорить — по бенчмаркам показывают, что на равне или почти нос к носу с фронтиром, но мы-то с вами знаем, что это не так,…
- #3162Для категории General Agent делают дополнительную фильтрацию, чтобы выкинуть…
Для категории General Agent делают дополнительную фильтрацию, чтобы выкинуть некачественную синтетику.