DeepSeek выпустили веса R1, своей reasoner модели Как обычно, компания сначала релизит веса, и лишь потом техрепорты и бенчмарки. Так что пока что у нас есть лишь результаты Preview версии на LiveCodeBench, где R1-Preview тягается по качеству с o1. Важный контекст к табличке - в отличие от o1, мы не знаем насколько много компьюта использовали для получения таких результатов от R1. Если бенчили аналог low-compute режима OpenAI, то модель может в итоге оказаться сильнее чем o1. Основана R1 на DeepSeek V3 (685 миллиардов параметров), так что требования для запуска модели такие же - 8xH200. Пока ждём техрепорта, можно поспекулировать в чём разница между R1 и R1-Zero. Веса R1 Веса R1-Zero @ai_newz
DeepSeek выпустили веса R1, своей reasoner модели Как обычно, компания сначала…
Из этого канала
- #3626🔥DeepSeek R1 - уровень o1 бесплатно Бенчи говорят сами за себя. Модель уже…
🔥DeepSeek R1 - уровень o1 бесплатно Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace.
- #3627Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку…
Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.
- #3628Забавная возможность R1 - генерировать видосы объясняющие математические…
Забавная возможность R1 - генерировать видосы объясняющие математические концепты по одному запросу. Алмазный век с его букварём все ближе.
- #3623Нейродайджест за неделю (#52) LLM - Codestral 25.01 — обновление LLM от…
Нейродайджест за неделю (#52) LLM - Codestral 25.01 — обновление LLM от Mistal: модель стала значительно умнее и быстрее.
- #3622OpenAI помогает разрабатывать средства для продления жизни Для этого компания…
OpenAI помогает разрабатывать средства для продления жизни Для этого компания кооперируется со стартапом Retro, заявленная цель которого - повысить среднюю…