"Простой пример, почему не так просто добиться стабильной работы агентов/операторов на практике. Смотрите на вот эту тестовую картинку. Задача у VLM на данном этапе плана - найти место на экране, куда нужно ""ткнуть"" мышкой, чтобы заполнить поле Lieferant. __NB: Я в курсе про BAPI PO_CREATE1 / SAP Fiori / SAPUI5 / итп. Тут дело не в этом.__ Казалось бы просто - отправили в VLM и попросили. Так вот, даже GPT-4o начинает мазать и кликать не под текстом ""Lieferant"" а направо от него. Почему? ChatGPT объясняется так: __The mistake wasn't laziness, it was bias to SAP defaults + time pressure + separated information.__ bias в данном случае можно перевести как ""грабли"", которые срабатывают внезапно и время от времени. Хотя любой студент без проблем ткнет мышкой не справа от текста, а в текстовое поле под ним. Что делать в данном случае? См пост про системное внедрение LLM без галлюцинаций. Нужно крутить проблему до посинения, пока не получится решение, которое сводится не к игре в рулетку, а к инженерной задаче и возможности верифицировать качество каждого шага. Ваш, @llm_under_hood 🤗 PS: А задача в итоге сводится к подобию того, что я описывал в истории разработки своего reasoning."
"Простой пример, почему не так просто добиться стабильной работы…
Из этого канала
- #564"Когда говорят про AI Coding, люди делятся на два лагеря: Одни говорят, что…
"Когда говорят про AI Coding, люди делятся на два лагеря: Одни говорят, что вайб кодинг - это невероятно круто.
- #566"Как одним промптом решить задачу, которую AI coding агенты будут пилить 30-90…
"Как одним промптом решить задачу, которую AI coding агенты будут пилить 30-90 минут? Вот примеры промптов, которые решают упражнение из предыдущего поста, где…
- #567Сегодня каналу LLM под капотом исполняется два года! За это время мы сделали…
Сегодня каналу LLM под капотом исполняется два года! За это время мы сделали много всего интересного.
- #562Новые LLM в reasoning бенчмарке на бизнес-задачах - o3-mini и o4-mini очень…
Новые LLM в reasoning бенчмарке на бизнес-задачах - o3-mini и o4-mini очень хороши - gemini flash preview в thinking режиме заняла третье место - версии…
- #561"Наш чатбот популярен, но как жить дальше? Кейс. В одной компании сделали…
"Наш чатбот популярен, но как жить дальше? Кейс. В одной компании сделали внутреннего чат-бота для крупной организации, он стал популярным, им пользуются…