"LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по… — @llm_under_hood

"LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по конференции, вот вам неожиданный подарок от @AigizK - обновленная версия наших LLM бенчмарков с последними версиями. Для тех, кто видит эти бенчмарки впервые - эти бенчмарки основаны на эвалах, которые мы собрали из кейсов внедрения LLM в компаниях. Подробнее про бенчмарки в целом можно прочитать тут (особенно вопрос, который был популярен в 2025 году - ""почему Claude Sonnet 3.5 так низко?!"") Я эти бенчи публиковал с июля 2023 по сентябрь 2025. Но вот Айгиз собрался, разгреб мою инфраструктуру и подготовил новую версию. Вопросы про бенчмарки можно направлять к нему в комментариях! Подробнее отчет с полной таблицей можно увидеть на сайте TimeToAct. Но пара интересных моментов: (1) o1 Pro никто так и не побил по качеству (2) Но это не важно. Но вы заметили, что Qwen 3.7 Max на втором месте, да еще и стоит дешевле GPT5.5 Pro?! Пару лет назад о не-OpenAI моделях на в топах можно было только мечтать. (3) Еще очень радует DeepSeek V4 Pro на 14 месте и DeepSeek V4 Flash на 18 месте за какие-то копейки. В целом вырисовывается картина, что становится все менее важным, какая именно LLM бегает под капотом системы. Главное то, в какой архитектуре она работает, и как все это тестируется. На моделях в TOP 20 можно собирать очень хорошие рабочие решения! Ваш, @llm_under_hood 🤗"

Из этого канала