"LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по конференции, вот вам неожиданный подарок от @AigizK - обновленная версия наших LLM бенчмарков с последними версиями. Для тех, кто видит эти бенчмарки впервые - эти бенчмарки основаны на эвалах, которые мы собрали из кейсов внедрения LLM в компаниях. Подробнее про бенчмарки в целом можно прочитать тут (особенно вопрос, который был популярен в 2025 году - ""почему Claude Sonnet 3.5 так низко?!"") Я эти бенчи публиковал с июля 2023 по сентябрь 2025. Но вот Айгиз собрался, разгреб мою инфраструктуру и подготовил новую версию. Вопросы про бенчмарки можно направлять к нему в комментариях! Подробнее отчет с полной таблицей можно увидеть на сайте TimeToAct. Но пара интересных моментов: (1) o1 Pro никто так и не побил по качеству (2) Но это не важно. Но вы заметили, что Qwen 3.7 Max на втором месте, да еще и стоит дешевле GPT5.5 Pro?! Пару лет назад о не-OpenAI моделях на в топах можно было только мечтать. (3) Еще очень радует DeepSeek V4 Pro на 14 месте и DeepSeek V4 Flash на 18 месте за какие-то копейки. В целом вырисовывается картина, что становится все менее важным, какая именно LLM бегает под капотом системы. Главное то, в какой архитектуре она работает, и как все это тестируется. На моделях в TOP 20 можно собирать очень хорошие рабочие решения! Ваш, @llm_under_hood 🤗"
"LLM Бенчмарки Qwen 3.7, GPT-5.4+, Opus 4.7+, DeepSeek V4 Пока я хожу по…
Из этого канала
- #861"Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и…
"Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и медленные, к июню раскачаться не успеют, поэтому ECOM2 перенесем на осень.
- #862Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там…
Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там подсунули боту фейковый контекст и попросили поменять почтовый адрес своего…
- #859Конференция M2020 - огонь. Не в смысле, что много передового AI (наше комьюнити…
Конференция M2020 - огонь. Не в смысле, что много передового AI (наше комьюнити куда передовее), а в смысле неожиданных инсайтов с полей.
- #858Лечу на Money 20/20 в Амстердаме. Буду с Colibrix рассказывать про нашу…
Лечу на Money 20/20 в Амстердаме. Буду с Colibrix рассказывать про нашу платформу, верификацию агентов, искать новые кейсы и коллабы для ECOM2.
- #857"Анализ: Nous Hermes Agent + DeepSeek V4 на BitGN ECOM1 Итак, это архитектура…
"Анализ: Nous Hermes Agent + DeepSeek V4 на BitGN ECOM1 Итак, это архитектура Ивана Коновалова.