Продолжение после реального A/B-теста 5.5-low vs 5.5-medium. Прогнали обе… — @deksden_notes

Продолжение после реального A/B-теста 5.5-low vs 5.5-medium. Прогнали обе модели на одинаковом sample из 8 академий, без promotion в базу. Цель была не “кто написал больше строк”, а кто дает больше реально полезных source-backed candidates при меньшей нагрузке на QA. Короткий итог: 5.5-low полезна, но не как замена mini и не как замена medium. Она занимает узкую middle-tier позицию. Что показал тест: 5.5-low - лучше держится на простых exact-URL задачах; - дает более чистые contact/program rows; - меньше расползается в лишние рассуждения; - выглядит дешевле по QA для простых страниц; - но пропускает более сложные источники: PDFs, linked pages, padel/pricing details, неоднозначные программы. То есть 5.5-low хороша, когда надо быстро извлечь очевидные факты с уже известной официальной страницы. 5.5-medium - нашла больше materially useful facts; - лучше справилась с pricing, PDF, padel и более сложными linked sources; - полезнее там, где нужна интерпретация; - но output был менее promotion-ready; - требовала больше нормализации и main-agent QA. То есть medium лучше как reasoning/research модель, но ее нельзя использовать как “просто дешевый extractor”: она может дать больше ценности, но и больше шума. Главный вывод по workflow 5.5-low не заменяет mini, потому что mini все еще остается default для массового простого extraction, если official URL уже известен. Но 5.5-low можно добавить как промежуточный слой: - mini — обычный default worker для простых known-URL batches; - 5.5-low — когда задача чуть сложнее mini, но еще не требует полноценного reasoning; - 5.5-medium — когда есть PDF, non-English, booking gates, pricing ambiguity, multiple official pages, contact repair или слабый результат от mini/low. Практическое правило после теста: Использовать 5.5-low для: - exact official URL; - contact + simple program extraction; - простых англоязычных страниц; - bounded QA; - случаев, где Spark слишком слабый, а medium избыточна. Не использовать 5.5-low для: - broad discovery; - dead URL / rebrand repair; - pricing через booking portals; - PDF-heavy pages; - non-English pages; - финального решения по ambiguous facts. И важное: ни 5.5-low, ни 5.5-medium нельзя считать promotion-ready. Обе модели должны писать только raw JSONL candidates. Main agent дальше делает strict normalization, duplicate checks, pricing filters и helper dry-run. Финальная рекомендация: 5.5-low стоит добавить в routing, но как narrow middle tier. Она экономит QA на простых задачах, но medium все еще нужен для сложных случаев, где low просто не достает часть ценных фактов.

Из этого канала