"Интересное исследование от стэнфордских исследователей: пишут, что наше хвалёное компьютерное зрение это очень часто просто чушь, поданная с полной уверенностью. Авторы вскрыли ""эффект миража"". Это когда мы просим нейронку описать картинку, которую забыли прикрепить (ну или она не прогрузилась по дороге), а кремниевый болван вместо того, чтобы сказать “бро, ты забыл загрузить изображение"", начинает затирать про детали: какой там рентген, какие птички на ветках, какие цифры на номерах машины и т.д. Самое интересное в препринте: — Зрительные миражи: современные мультимодалки в среднем чаще чем в 60% случаев уверенно описывают несуществующие изображения. А при некоторых инструкциях у многих моделей эта хрень доходит вообще до 90–100%. Никаких “картинка не загружена”. Только уверенный полёт фантазии. — Бенчмарки местами мусор: авторы показывают, что без картинок модели сохраняют в среднем 70–80% своей якобы “визуальной” точности. Тоесть огромный кусок успеха в “визуальных” тестах добывается тупо по тексту вопроса, скрытым паттернам датасета и статистике ответов. — Медицинская беда: если изображения нет, модель не просто тупит, а часто начинает видеть патологию. В их примерах миражи в медицине заметно смещены в сторону всякой жести: меланом, карцином и прочих спидораков. Тоесть если картинка потерялась в пайплайне, эта скотина может не признать отсутствие данных, а уверенно сочинить диагноз. — Унижение гигантов: исследователи взяли сравнительно мелкую модель Qwen-2.5 на 3 млрд параметров, дообучили её угадывать ответы по chest X-ray benchmark без картинок, и этот мелкий пиздюк обогнал и гигантские модели, и в среднем живых радиологов. Просто потому, что научился читать не снимки, а саму структуру теста. Для лечения этой шизы они предлагают метод B-Clean: вычищать из бенчмарков все вопросы, которые модели могут брать без реального зрения, чтобы оценивать не мастерство врать, а хоть какое-то настоящее использование картинки. тут статья"
"Интересное исследование от стэнфордских исследователей: пишут, что наше…
Из этого канала
- #7309На Stepik вышел курс: Vibecoding — Claude Code, Codex, Cursor и coding agents в…
На Stepik вышел курс: Vibecoding — Claude Code, Codex, Cursor и coding agents в 2026.
- #7310Контент, кстати, без нейрослопа, все как вы любите, человеческое…
Контент, кстати, без нейрослопа, все как вы любите, человеческое взаимодействие, ручной труд, наслаждайтесь!
- #7312Смотрите какую пепяку запилили корейцы. Нейронка генерит видео по реальным…
Смотрите какую пепяку запилили корейцы. Нейронка генерит видео по реальным улицам Сеула, но в отличие от обычных world моделей, она не выдумывает декорации из…
- #7307Я в резюме: загляните на мой гитхаб, там шикарные проекты! Мои проекты:
Я в резюме: загляните на мой гитхаб, там шикарные проекты! Мои проекты:
- #7306А еще тут утекли исходники Claude Code (они уже утекали кстати) – поэтому я…
А еще тут утекли исходники Claude Code (они уже утекали кстати) – поэтому я обновил свой spec driven скилл для агента, теперь сценарии для Claude Code,…