Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за… — @seeallochnaya

Ещё обучили DeepSeek-V3.2-Speciale — всё то же самое, только снизили штраф за длину размышлений, плюс выкинули все данные без рассуждений. Как следствие, модель может думать дольше, что, со слов авторов, приводит к метрикам чуть получше-повыше. Главный хайлайт тут — что модель может решить 5/6 задач с международной олимпиады по математике, завоёвывая золото и повторяя успехи OpenAI / Google, и берёт золото на ICPC/IOI, солидных соревнованиях по программированию. Для программирования генерируют 32 или 500 кандидатов, фильтруют по тестам, и делают несколько отправок решений, к которым привели самые длинные цепочки рассуждений. В математике используют цикл с генератором и верифиактором, как в DeepSeekMath-v2 (данные и приём обучения от которого переехали в DeepSeek-V3.2), чтобы выбиться в топ. Но в этом плане по сравнению с предыдущим релизом, вышедшим менее недели назад, новостей и разницы нет.

Из этого канала