Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что DeepSeek r1 лучше o1? Вот никаким боком. Болтает, может, и приятно, но на конкретных бизнес-задачах он на уровне между 4o и 4o-mini. Да, это предварительные результаты бенчмарка v2 (см. рисунок 1). Да, там есть возможность поразмышлять вволю. Да, DeepSeek пользуется этой возможностью и размышляет только так. (2) Правда ли, что DeepSeek r1 настолько дешевле o1? Как у них экономика сходится? А тут начинаются интересные нюансы, про которые журналисты не всегда упоминают. Идем в Wiki статью про DeepSeek. DeepSeek - это китайская лаборатория искусственного интеллекта, которая разрабатывает большие языковые модели с открытым исходным кодом. DeepSeek в значительной степени финансируется китайским хедж-фондом High-Flyer, основанным и управляемым Лян Вэньфэном из Ханчжоу, Чжэцзян. А из этого следует два вывода: - Им не обязательно, чтобы модели окупались. - Они могут заработать денег, если выпустят такие новости, от которых мировые рынки зашатает. А если мы пойдем на OpenRouter и сравним цены на DeepSeek от разных конкурентов (модель же любой может хостить), то получится интересная картинка (см рисунок 2). DeepSeek хостят ее с крошечным контекстом, никаким throughput и вообще не в силах продолжать этот аттракцион невиданной щедрости (желтый статус - качество просело). TLDR; модель потенциально интересная, но не это не настолько переворот, как про это пишут. А в бизнес-задачах даже не самая оптимальная (не забываем про размер). Можно получить качество лучше просто разбив workflow на несколько небольших логических шагов для модельки послабее. Ваш, @llm_under_hood 🤗
Что мы хотели знать про DeepSeek r1, но стеснялись спросить? (1) Правда ли, что…
Из этого канала
- #496Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это -…
Ловите второе preview бенчмарка v2 c Mistral 3 и DeepSeek-Llama-70B Это - превью второй версии моего личного бенчмарка.
- #497"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать…
"o3-mini в бенчмарке на втором месте, добавил hard mode Продолжаю портировать задачи из кейсов во вторую версию моего личного бенчмарка LLM на бизнес задачах.
- #498Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне…
Краткая история использования ChatGPT o1 pro для создания ассистента С утра мне в голову пришла идея - а что, если создать свою ChatGPT, которая будет хранить…
- #493Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM…
Используйте reasoning модели, чтобы улучшать архитектуры своих проектов с LLM под капотом.
- #492Визуализация Reasoning цепочек - Эпизод IV Пора заканчивать reasoning историю.…
Визуализация Reasoning цепочек - Эпизод IV Пора заканчивать reasoning историю. В этот раз будет про локальные модели и с картинками в комментариях.