MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на… — @ai_newz

MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на русскоязычных документах — MWS Vision Bench. До этого момента разработчики могли полагаться только на OCRBench или MMMU, которые работают исключительно с английским и китайским языками, что делало невозможной адекватную оценку моделей для российского рынка. Это решает реальную боль компаний: теперь можно объективно сравнить, насколько хорошо разные VLM-модели справляются с типовыми задачами. Что проверяет бенчмарк: • Распознавание текста на сканах договоров и официальных документов • Извлечение структурированных данных из таблиц и форм • Понимание рукописных заметок и аннотаций • Работа со схемами, чертежами и диаграммами • Ответы на сложные вопросы по содержимому документов Бенчмарк включает 800 реальных изображений и 2580 заданий, полностью обезличенных и максимально приближенных к реальным рабочим сценариям. Команда MWS AI сделала бенчмарк полностью открытым: код выложен на GitHub, валидационный датасет доступен на HuggingFace. Любой желающий может скачать, запустить тесты на своих моделях и сравнить результаты с лидерами — сейчас это Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы. То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей, которые наконец-то можно сравнивать по единым, прозрачным метрикам. @ai_newz

Из этого канала