Если добавить 3 полоски на картинку, то влмки могут апнуть метрички на визуальном поиске, подсчете, на описании сцены Еще надо в промтик прописать, что сканируй картинку по горизонтальным линиям Тестились на синтетике и на реальных данных. На синтетике получше бустит Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs https://arxiv.org/abs/2506.22146 https://www.alphaxiv.org/ru/overview/2506.22146v1