Cпасение проекта с LLM под капотом - День 3 Хроники спасения проекта с LLM под… — @llm_under_hood

Cпасение проекта с LLM под капотом - День 3 __Хроники спасения проекта с LLM под капотом. В __первый день__ мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, __второй день__ - собирали их. Может уже пора начать что-то делать?__ 8:43 Head of eval говорит, что первые ground truth данные будут готовы через полчаса. Переспрашивает, сколько времени займет генерация predictions - раньше было 3.5-8 дней. Говорим, что по паре минут на каждый PDF. То есть минут 15 на первую версию GT. Eval команда: O_o 09:27 Первую версию GT вычитали эксперты клиента. 09:28 Присылаю в чат первую версию карты ошибок (скриншот 1 в комментарях). Один столбец - одна сущность. Каждый квадратик - конкретное свойство этой сущности. Серые - данные должны быть, но их нет Красный квадрат - данные есть, но они ошибочны Зеленый квадрат - predicted/actual == expected Это - наша стартовая точка. Хуже уже не будет. Погнали 10:07 Готова первая работа над ошибками - подключили в пайплайн часть пропущенных документов. Карта выглядит менее страшно. Левая серая половина - не подгружается целая категория документов, Pipeline team работает над этим. 10:16 Созваниваемся с head of eval. Объясняю правила дальнейшей игры. SGR vs Eval: (1) __Objective of Eval team (eval and quality) - add as many red blocks as possible to this chart __(2) __Objective of SGR team - turn as many blocks green as possible. __(3) __Winning team get free round of beers/drinks paid by CEO __ И заодно объясняю, что несмотря на игровую формулировку, под капотом тут строгая логика: (1) Клиенту пока нужно увеличение точности. Приоритизируя большие красные блоки (обычно парсинг каких-то схожих полей), мы выбираем те части пайплайна, улучшение которых в итоге порадует клиента больше. (2) Хорошие тестеры - это плохие разработчики, и наоборот. Одни создают, а другие - ломают. Эти роли ментально сложно совмещать, вот мы и не пытаемся. Задача “eval team” - не беспокоиться о качестве модели, а находить те самые вредные кейсы, на которых ломается модель. Эти кейсы принесут им больше красных блоков в карту. Но при этом кейсы должны быть разнообразные. Т.к. если кейсы схожие, то SGR Team их сможет закрыть одним фиксом. А это не имеет смысла. 11:04 Наглядность - великая вещь. Один из экспертов клиента тоже подключается к заполнению GT. В итоге все видят, что требования проекта немного уехали в сторону, правят схему ground truth данных. SGR team берет новую версию в работу. 11:16 Начинаем генерировать такую плашку миссии с каждым отчетом - потраченные рабочие дни и текущая точность. ============================================== HAIL MARY: 2 days, 1 hours since start ============================================== Total blocks: 5,022 Green blocks: 1,996 (39.7%) - Matching Red blocks: 1,290 (25.7%) - Different Gray blocks: 1,736 (34.6%) - Missing ============================================== 11:49 Head of eval заканчивает рабочий день - у них в офисе внепроектные дела. __Да, у нас срочный проект, который горит. Да, мы только что потратили почти три дня на подготовку тестовых данных, и осталось всего два полных рабочих дня до первого milestone, где нужно получить более 80% точности. Да, прошлая попытка потратила 800 EUR токенами и занимала неделю только на один прогон пайплайна. Но все идет по плану. Есть GT данные и pipeline eval. Дальше SGR команда может ставить эксперименты и инкрементально улучшать пайплайн, как в правильных стартапах. А поскольку работа разблокирована - eval команда может со спокойной совестью уйти отдыхать.__ 13:38 PM тоже уходит по своим делам 14:40 SGR team: 46.9% Accuracy 15:15 SGR team: 63.1% Accuracy (скриншот карты ошибок на этот момент - третий в комментариях). __Пора заканчивать день. У нас есть два полных дня чтобы попробовать добить качество до +80% при активном противодействии клиента (новые требования) и eval team (интеграция новых edge cases в ground truth). Head of Eval сомневается, что получится (у него роль такая), я даю 70% успеха (у меня роль такая).__ Ваш, @llm_under_hood 🤗

Из этого канала