"Простой пример, почему не так просто добиться стабильной работы агентов/операторов на практике. Смотрите на вот эту тестовую картинку. Задача у VLM на данном этапе плана - найти место на экране, куда нужно ""ткнуть"" мышкой, чтобы заполнить поле Lieferant. __NB: Я в курсе про BAPI PO_CREATE1 / SAP Fiori / SAPUI5 / итп. Тут дело не в этом.__ Казалось бы просто - отправили в VLM и попросили. Так вот, даже GPT-4o начинает мазать и кликать не под текстом ""Lieferant"" а направо от него. Почему? ChatGPT объясняется так: __The mistake wasn't laziness, it was bias to SAP defaults + time pressure + separated information.__ bias в данном случае можно перевести как ""грабли"", которые срабатывают внезапно и время от времени. Хотя любой студент без проблем ткнет мышкой не справа от текста, а в текстовое поле под ним. Что делать в данном случае? См пост про системное внедрение LLM без галлюцинаций. Нужно крутить проблему до посинения, пока не получится решение, которое сводится не к игре в рулетку, а к инженерной задаче и возможности верифицировать качество каждого шага. Ваш, @llm_under_hood 🤗 PS: А задача в итоге сводится к подобию того, что я описывал в истории разработки своего reasoning."