Очередное напоминание что арена — мусор если речь идёт об оценке LLM (и не только LLM) Ну и давайте воспользуемся поводом чтобы обсудить методы оценки моделей. Как вы тестите модели? Каким бенчмаркам доверяете? Чем сейчас пользуетесь? @ai_newz
Очередное напоминание что арена — мусор если речь идёт об оценке LLM (и не…
Из этого канала
- #4553Xiaomi MiMo V2.5 вышла в опенсорс Выложили две версии — Pro с 1.02T-A42B и…
Xiaomi MiMo V2.5 вышла в опенсорс Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста.
- #4554У Сбера вышел Kandinsky 6.0 Image Pro. Главный апдейт тут в editing. В…
У Сбера вышел Kandinsky 6.0 Image Pro. Главный апдейт тут в editing. В side-by-side модель сравнивают с Flux 2 Max и GPT Image 1.5, причём оценивают конкретные…
- #4555Talkie — LLM застрявшая в 1930 Есть такой жанр, тренировка LLM на исторических…
Talkie — LLM застрявшая в 1930 Есть такой жанр, тренировка LLM на исторических данных.
- #4551Нейродайджест за неделю (#115) OpenAI - GPT 5.5 — OpenAI выкатили новую модель,…
Нейродайджест за неделю (#115) OpenAI - GPT 5.5 — OpenAI выкатили новую модель, причём впервые с 4o поменяли базовую модель.
- #4550Anthropic выпустили постмортем о деградациях Claude Code Компания признала три…
Anthropic выпустили постмортем о деградациях Claude Code Компания признала три проблемы с начала весны которые влияли на качество кода.