сиол где обзор на дипсик
сиол где обзор на дипсик
Из этого канала
- #3143DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning В…
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning В DeepSeekMath-V1 был представлен GRPO — алгоритм, приведший к появлению рассуждающих моделей.
- #3144На этих данных запустили RL-тренировку рассуждениям поверх…
На этих данных запустили RL-тренировку рассуждениям поверх DeepSeek-V3.2-Exp-SFT с целью научить модель предсказывать оценку эксперта, глядя на уже написанное…
- #3145Итак, получили мета-верификатор. Что дальше? 🙂 а дальше ~~мета-мета-верифиактор…
Итак, получили мета-верификатор. Что дальше? 🙂 а дальше ~~мета-мета-верифиактор ~~модель мета-верификатора, обученная критиковать неправильные ответы…
- #3141Пока готовлю обзор статьи от DeepSeek — держите саммари интервью с Ilya (в…
Пока готовлю обзор статьи от DeepSeek — держите саммари интервью с Ilya (в целом, интервью вышло не самым интересным, наверное, самый большой апдейт для меня —…
- #3140В твиттере наткнулся на очень интересную статистику по длительности выполнения…
В твиттере наткнулся на очень интересную статистику по длительности выполнения задач на SWE-Bench Verified и качеству разных моделей в этих срезах.