Deepseek Chat V3 0324 - есть прогресс Новая версия DeepSeek Chat v3 (не путать с r1 моделями) стала заметно лучше своей предыдущей версии. Причем, ее пока в Fireworks через OpenRouter не выкатили, поэтому тестировал я ее без поддержки в виде Structured Outputs. Не было ни одной ошибки валидации даже в очень сложных онтологиях. Понятно, что модель сама по себе относительно бесполезная - такую локально запускать мучительно, а качество получше можно получить из r1. Но тем не менее прогресс в семействе chat v3 наблюдать приятно. Новый Google Gemini, говорят, чрезвычайно хорош. Но пока OpenRouter возвращает сплошной `RESOURCE_EXHAUSTED`, поэтому тесты подождут. Ваш, @llm_under_hood 🤗 PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года.
Deepseek Chat V3 0324 - есть прогресс Новая версия DeepSeek Chat v3 (не путать…
Из этого канала
- #539Зачем вообще нужен OpenRouter? OpenRouter - это аггрегатор моделей, которым я…
Зачем вообще нужен OpenRouter? OpenRouter - это аггрегатор моделей, которым я пользуюсь со второй версии своих бенчмарков.
- #540Повышение цен на курс “AI Assistants” c апреля Мой курс про AI-ассистенты - о…
Повышение цен на курс “AI Assistants” c апреля Мой курс про AI-ассистенты - о том, как обоснованно выбирать эффективные технические решения продуктовых задач…
- #541Зачем вообще нужен OpenRouter? Продуктовый ответ Вчера в канале мы обсуждали…
Зачем вообще нужен OpenRouter? Продуктовый ответ Вчера в канале мы обсуждали вопрос про аггрегатор моделей OpenRouter.
- #537"Исходники лучшего решения ERCr2 и лонгрид на хабре Если вам хочется заняться…
"Исходники лучшего решения ERCr2 и лонгрид на хабре Если вам хочется заняться чем-то интересным на этих выходных, можно глянуть эти ссылки и понять, что именно…
- #536Формат третьего раунда ERC - приземляем наш R&D Итак, смотрите. Во втором…
Формат третьего раунда ERC - приземляем наш R&D Итак, смотрите. Во втором раунде Enterprise RAG challenge мы искали ответы на вопросы в сотне годовых отчетов.