"DeepSeek v3 Рубрика медленные новости :) В конце декабря вышла новая версия… — @etechlead

"DeepSeek v3 Рубрика медленные новости :) В конце декабря вышла новая версия DeepSeek, V3 - модели от китайской компании High-Flyer. Провёл с ней некоторое время и как пользователь, и как разработчик, так что пришло время написать свои впечатления. Для пользователей Доступна по адресу https://chat.deepseek.com/ Рекомендую теперь её всем, кому нужен беспроблемный доступ к хорошей LLM. 🟢 Плюсы • бесплатная; • доступна отовсюду и не требует VPN; • сравнима по интеллекту и качеству ответов с платными ChatGPT 4o и Claude 3.5 Sonnet, и намного лучше, чем их бесплатные версии; • есть режим DeepThink для ""раздумий"" (как у ChatGPT o1) и поиск в Интернете. 🔴 Минусы • нет того набора инструментов, таких как ассистенты, проекты, canvas и генерация картинок, какие есть у ChatGPT/Claude; • всё-таки чуть хуже, чем конкурентные коммерческие модели. Для разработчиков 🛠 Как использовать • веса открытые, их можно скачать, но для запуска понадобится очень много мощного и дорогого железа. Тем не менее, это может быть интересно компаниям, кому нужна мощная модель для внутреннего безопасного использования; • OpenRouter или DeepSeek API; • можно подключить в Cursor как кастомную OpenAI-совместимую модель, но будет работать только в режиме чата, т.к. Cursor не поддерживает кастомные модели в других режимах (т.е. Composer работать не будет); • логичнее всего использовать в Cline - он как раз изначально на агентскую работу рассчитан и поддерживает практически любые модели. 🟢 Плюсы • длина контекста - 128к токенов, но в зависимости от провайдера может быть и 64к; • очень дешевая, в 10-30 раз дешевле, чем модели от OpenAI/Anthropic; • шустро работает (в т.ч. за счёт того, что MoE); • хорошо пишет не очень сложный код - это явно лучшая из свободно распространяемых моделей для кодинга; • хороша в математических задачах. 🔴 Минусы • 64к и даже 128к контекста всё-таки ограничивают использование модели меньшими по объему кода проектами в сравнении с Claude 3.5 Sonnet (200k); • чаще ошибается при написании кода - т.е. несмотря на бенчмарки, она всё-таки не так хороша, как Sonnet; • плавает качество написанного кода от запроса к запросу; • менее управляемая, может иногда игнорировать инструкции и хуже работает с tool use + structured outputs, что опять-таки оставляет первенство за Sonnet для агентской разработки. 📝 Выводы • для разработки остаёмся так же на Cursor + Claude 3.5 Sonnet / ChatGPT o1; • если хочется сэкономить и при этом проект не очень большой - то Cline + DeepSeek; • в задачах обработки и генерации текста для чего-то некритичного и массового при помощи LLM - DeepSeek, потому что модель неглупая и очень дешевая при этом. Инженерам • 671b MoE модель с 256 экспертами - больше параметров, чем у самой большой открытой модели до неё, Llama 405b; • тренировка обошлась примерно в $5.5m; • время тренировки - 55 дней; • датасет из 14.8t высококачественных токенов; • обучалась сразу в fp8. И это практически инженерное чудо с т.з. скорости тренировки и ее стоимости - у создателей DeepSeek ушло в 10+ меньше ресурсов, чем у вендоров сравнимых с ней моделей. Т.е. всё-таки ещё есть потенциал повышения качества и снижения стоимости тренировки больших моделей даже без того, чтобы строить ядерные реакторы :) — 📚 Серия постов для разработчиков по старту работы с AI — #ai #work #slownews"

Из этого канала