Абсолютно проклятый бенч для VLM Визуальные модели крайне подвержены стереотипам — например, если на изображении добавить лишний палец человеку или у пумы пририсовать лишнюю ногу, модели всё равно будут отвечать как-будто бы видят оригинал, игнорируя реальные изменения в картинке. VLMBias использует отфотошопленные картинки чтобы проверить, насколько модели реально думают об их содержании, а не просто запоминают ответ. В среднем точность на таких отретушированных изображениях падает до 17 %, причём ~76% ошибок совпадали с заранее заданным предвзятым ответом из знаний модели, а добавление в изображение названий брендов вроде Adidas делало результаты ещё хуже (а это авторы ещё не пробовали Abibas). Чтобы выявить, когда модель полагается на заученные ассоциации вместо анализа картинки, авторы генерируют пары знакомых объектов и их слегка изменённых версий. Тестируются 7 доменов — от животных и логотипов до шахмат, флагов, оптических иллюзий и искусственно созданных паттернов. 6 из 7 категорий генерируются и модифицируются автоматически, а человек только проверяет результаты. Для редактирования обычных изображений используют Gemini Flash и GPT Image Generation, а для SVG — o4-mini. Похожий пайплайн можно легко использовать для генерации adversarial синтетических данных, чтобы натренировать LLM реально смотреть на картинки, а не прибегать к стереотипам. vlmsarebiased.github.io @ai_newz