Очередное напоминание что арена — мусор если речь идёт об оценке LLM (и не…

27 апр. 2026 г.21 475 views124 forwardsОткрыть в Telegram →

Очередное напоминание что арена — мусор если речь идёт об оценке LLM (и не только LLM) Ну и давайте воспользуемся поводом чтобы обсудить методы оценки моделей. Как вы тестите модели? Каким бенчмаркам доверяете? Чем сейчас пользуетесь? @ai_newz

Источник

https://t.me/ai_newz/4552

Канал эйай ньюз · опубликовано 27 апр. 2026 г.

Из этого канала

#4553Xiaomi MiMo V2.5 вышла в опенсорс Выложили две версии — Pro с 1.02T-A42B и…
Xiaomi MiMo V2.5 вышла в опенсорс Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста.
#4554У Сбера вышел Kandinsky 6.0 Image Pro. Главный апдейт тут в editing. В…
У Сбера вышел Kandinsky 6.0 Image Pro. Главный апдейт тут в editing. В side-by-side модель сравнивают с Flux 2 Max и GPT Image 1.5, причём оценивают конкретные…
#4555Talkie — LLM застрявшая в 1930 Есть такой жанр, тренировка LLM на исторических…
Talkie — LLM застрявшая в 1930 Есть такой жанр, тренировка LLM на исторических данных.
#4551Нейродайджест за неделю (#115) OpenAI - GPT 5.5 — OpenAI выкатили новую модель,…
Нейродайджест за неделю (#115) OpenAI - GPT 5.5 — OpenAI выкатили новую модель, причём впервые с 4o поменяли базовую модель.
#4550Anthropic выпустили постмортем о деградациях Claude Code Компания признала три…
Anthropic выпустили постмортем о деградациях Claude Code Компания признала три проблемы с начала весны которые влияли на качество кода.