Очередное напоминание что арена — мусор если речь идёт об оценке LLM (и не только LLM) Ну и давайте воспользуемся поводом чтобы обсудить методы оценки моделей. Как вы тестите модели? Каким бенчмаркам доверяете? Чем сейчас пользуетесь? @ai_newz