"Интересное исследование от стэнфордских исследователей: пишут, что наше хвалёное компьютерное зрение это очень часто просто чушь, поданная с полной уверенностью. Авторы вскрыли ""эффект миража"". Это когда мы просим нейронку описать картинку, которую забыли прикрепить (ну или она не прогрузилась по дороге), а кремниевый болван вместо того, чтобы сказать “бро, ты забыл загрузить изображение"", начинает затирать про детали: какой там рентген, какие птички на ветках, какие цифры на номерах машины и т.д. Самое интересное в препринте: — Зрительные миражи: современные мультимодалки в среднем чаще чем в 60% случаев уверенно описывают несуществующие изображения. А при некоторых инструкциях у многих моделей эта хрень доходит вообще до 90–100%. Никаких “картинка не загружена”. Только уверенный полёт фантазии. — Бенчмарки местами мусор: авторы показывают, что без картинок модели сохраняют в среднем 70–80% своей якобы “визуальной” точности. Тоесть огромный кусок успеха в “визуальных” тестах добывается тупо по тексту вопроса, скрытым паттернам датасета и статистике ответов. — Медицинская беда: если изображения нет, модель не просто тупит, а часто начинает видеть патологию. В их примерах миражи в медицине заметно смещены в сторону всякой жести: меланом, карцином и прочих спидораков. Тоесть если картинка потерялась в пайплайне, эта скотина может не признать отсутствие данных, а уверенно сочинить диагноз. — Унижение гигантов: исследователи взяли сравнительно мелкую модель Qwen-2.5 на 3 млрд параметров, дообучили её угадывать ответы по chest X-ray benchmark без картинок, и этот мелкий пиздюк обогнал и гигантские модели, и в среднем живых радиологов. Просто потому, что научился читать не снимки, а саму структуру теста. Для лечения этой шизы они предлагают метод B-Clean: вычищать из бенчмарков все вопросы, которые модели могут брать без реального зрения, чтобы оценивать не мастерство врать, а хоть какое-то настоящее использование картинки. тут статья"