"Cпасение проекта с LLM под капотом - День 4 __Хроники спасения проекта с LLM под капотом. В __первый день__ мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, __второй день__ - собирали их.__ В третий, наконец, смогли измерить текущую точность, отобразив ее на карте ошибок. Осталось два рабочих дня до выхода на нужную точность. Послезавтра вечером (самое позднее) нужно либо писать клиенту про митинг с результатами, либо… 10:00 Утренний созвон с ролями Head of Eval, PM, BI, SGR и Pipeline engineering. Планируем следующие два дня, проговариваем приоритеты. Eval команда будет искать сложные кейсы, которые доказывают негодность и бесполезность пайплайна, добавлять их в GT dataset (добавляют красные квадратики в нашу карту ошибок, по которой мы планируем дальнейшую стратегию). Pipeline engineering - закрывает провалы в обработке документов (убирает серые квадратики) SGR Team - повышает качество document extraction (убирает красные квадратики с карты) Integration - смотрит, будут ли впереди проблемы с интеграцией финального CSV в аналитику. 10:52 SGR Team: 70.7% Accuracy. На самом деле, 70.7% получили раньше, но не писали, чтобы не отвлекать в нерабочее время. Вечером накануне пришло вдохновение, как улучшить качество. А тут как раз есть eval loop и возможность за несколько минут прогнать эксперимент. И он удался. Скриншот карты ошибок на этом этапе - первый в комментариях. Пока все улучшения происходят только за счет мелких изменений в одном единственном запросе к LLM. Причем это даже не изменения в промпте (там всего два предложения), а перестановки и переименования полей в SGR схеме. Дробим задачу в рамках одного LLM запроса на маленькие шажочки при помощи SGR Cascade. Чтобы, при начале извлечения очередного свойства, у модели в самом хвостике контекста уже лежали все нужные данные. И так 60 раз в одном запросе. Такой ""микро-промптинг"". 12:04 У SGR команды начинают появляться вопросики к качеству и значению некоторых столбцов в ground truth данных. Ошибки модели у них перед глазами, и некоторые вещи не сходятся. Большая часть четвертого дня проходит в обсуждении и правках схемы ground truth c привлечением клиента. В Excel появляются вкладки ground_truth_v1, _v2, _v3. Схему штормит. При этом SGR команде не нужно заморачиваться отслеживанием деталей этих обсуждений. Если что-то поменяется - это автоматически проявится красными квадратиками. Они просто работают с самыми явными паттернами красного. 16:10 Eval team релизит ground_truth_v2. 17:02 SGR Team: 74.5% accuracy (карта ошибок - вторая в комментариях) 17:31 Eval team: Новые кейсы заказывали? Вот вам ground_truth_v3 17:37 SGR Team: вот новая версия карты ошибок (скриншот три в комментариях). Серые блоки - новые документы, на которых ломается пайплайн. С учетом этого accuracy падает до 62.2%. Eval team - молодцы, что так сильно просадили качество. С одной стороны всем печально за score. А с другой - мы вскрыли проблемы, которые уже и так были в пайплайне, просто не отражались на карте. Лучше увидеть сейчас, чем если ошибки найдет клиент при перепроверке. Приоритизация работ в команде на завтра вопросов не вызывает. Откуда начинать с утра копать - видно сразу по карте. Может нам пора ее начать называть стратегической картой ошибок (Strategic Error Map)? Ваш, @llm_under_hood 🤗 PS: 21:24 PM появляется в чатике со словами, что ему хотелось поработать вечером и он подготовил еще новых строчек для ground_truth. Просим его завязать с работой. Пусть экономит энергию и внимание на завтра - это будет решающий день."