MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на русскоязычных документах — MWS Vision Bench. До этого момента разработчики могли полагаться только на OCRBench или MMMU, которые работают исключительно с английским и китайским языками, что делало невозможной адекватную оценку моделей для российского рынка. Это решает реальную боль компаний: теперь можно объективно сравнить, насколько хорошо разные VLM-модели справляются с типовыми задачами. Что проверяет бенчмарк: • Распознавание текста на сканах договоров и официальных документов • Извлечение структурированных данных из таблиц и форм • Понимание рукописных заметок и аннотаций • Работа со схемами, чертежами и диаграммами • Ответы на сложные вопросы по содержимому документов Бенчмарк включает 800 реальных изображений и 2580 заданий, полностью обезличенных и максимально приближенных к реальным рабочим сценариям. Команда MWS AI сделала бенчмарк полностью открытым: код выложен на GitHub, валидационный датасет доступен на HuggingFace. Любой желающий может скачать, запустить тесты на своих моделях и сравнить результаты с лидерами — сейчас это Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы. То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей, которые наконец-то можно сравнивать по единым, прозрачным метрикам. @ai_newz
MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на…
Из этого канала
- #4210Вчера Google анонсировали что Gemini теперь обрабатывает 1.3 квадриллиона…
Вчера Google анонсировали что Gemini теперь обрабатывает 1.3 квадриллиона токенов в месяц, с конца июля нагрузка выросла на 30%.
- #4211Нейродайджест за неделю (#90) Юбилейный LLM - OpenAI DevDay — мини-приложения…
Нейродайджест за неделю (#90) Юбилейный LLM - OpenAI DevDay — мини-приложения в ChatGPT. Плюс AgentKit (аналог n8n) и ChatKit для интерфейса.
- #4212Жесть какой объем видео было скормлено в Сору 2 во время тренировки. Знает даже…
Жесть какой объем видео было скормлено в Сору 2 во время тренировки. Знает даже всякую лютую дичь из нашего постсоветского телевизора, типа Малышевой.
- #4208Nvidia будет частью нового раунда финансирования xAI Особенность раунда в том,…
Nvidia будет частью нового раунда финансирования xAI Особенность раунда в том, что акций xAI инвесторы не получают.
- #4206Что показали на OpenAI DevDay Главный анонс — мини-приложения в ChatGPT. На…
Что показали на OpenAI DevDay Главный анонс — мини-приложения в ChatGPT. На старте их семь, анонсировали ещё 11.