Artificial Analysis начали проверять API провайдеров на точность Начали пока что с GPT OSS 120B, хотя такую практику стоило бы расширить и на другие модели. Тестируют модель, прогоняя несколько бенчмарков несколько раз на каждом API провайдере, при это показывают не только медианное значение, но и разброс результатов бенчмарков. Как оказалось, разница между провайдерами огромная — на AIME25 худший провайдер уступает лучшему на 15 процентных пунктов. Хуже всех себя показали Azure, AWS и Nebius, хотя, казалось бы, у триллионных компаний должны быть ресурсы на контроль качества. А вот лучше всех себя показали инференс стартапы — Fireworks, Novita и DeepInfra. Cerebras даёт лучшие результаты на AIME25, но на GPQA и IFBench заметно просаживаются. Такой разброс может быть результатом как багов в софте, так и незадокументированных изменений в процессе инференса, вроде квантизации. Инференс LLM всё же крайне сложное дело — мелкие неточности в подсчётах могут крайне сильно повлиять на результаты, особенно если речь идёт о fp8 инференсе. Поэтому независимые и стандартизированные бенчи настолько важны. Ну а Artificial Analysis стоит подумать, как убедится что провайдеры не используют практики Volkswagen. @ai_newz
Artificial Analysis начали проверять API провайдеров на точность Начали пока…
Из этого канала
- #4109Tencent выложили веса своего нейронного игрового движка. Hunyuan Gamecraft…
Tencent выложили веса своего нейронного игрового движка. Hunyuan Gamecraft можно запустить на 4090, он может генерировать видео в 720p и хорошо запоминает…
- #4110Imagen 4, SOTA txt2img модель от Google, появилась в официальном API На…
Imagen 4, SOTA txt2img модель от Google, появилась в официальном API На Artificial Analysis Image Arena Leaderboard модель пока сидит на 3м месте, при этом…
- #4112Project Odyssey Season 3 Открылась регистрация на 3-й сезон самого масштабного…
Project Odyssey Season 3 Открылась регистрация на 3-й сезон самого масштабного конкурса AI-фильмов.
- #4107Технологическая платформа Авито запускает AI лабу с прикладным уклоном…
Технологическая платформа Авито запускает AI лабу с прикладным уклоном Заниматься будут генеративными моделями, компьютерным зрением, распознаванием голоса,…
- #4106Контекст Claude 4 Sonnet расширили до миллиона токенов Апдейт запустили в бете…
Контекст Claude 4 Sonnet расширили до миллиона токенов Апдейт запустили в бете для клиентов Tier 4 — это те кто купили API кредитов на $400+.