Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%. Модель от OpenAI также набрала больше всех в каждом домене, кроме, внезапно, Browser Automation, где немного выбился вперёд Grok 4. Лучшая опенсурс-модель — GLM-4.5, хотя я думал бы на Kimi-K2, ведь они так описывали свой процесс дообучения использованию MCP.
Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё…
Из этого канала
- #2801Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами,…
Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии.
- #2802Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для…
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM.
- #2803Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning…
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Не полноценный разбор статьи + модели, просто почитал интересную для себя часть…
- #2799MCP-Universe: Benchmarking Large Language Models with Real-World Model Context…
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers Свежий бенчмарк от Salesforce, на этот раз тестируют навыки…
- #2798План миссии Flight 10. До старта ~ 13.5 часов. Четвёртый и предпоследний полёт…
План миссии Flight 10. До старта ~ 13.5 часов. Четвёртый и предпоследний полёт Starship из проблемного блока V2.