В нашем тесте mini выглядит заметно эффективнее 5.5-medium для типовых extraction-задач, но не как полная замена. Практический вывод: mini лучше по cost/performance, когда: известен официальный URL; задача простая: контакты, email, phone, social, базовые pricing/program facts; страницы на английском или простые по структуре; не нужно много reasoning. 5.5-medium лучше, когда: сайт неочевидный или надо искать новый официальный URL; есть PDF, booking portal, формы, логин-гейты; страница не на английском; надо отличить реальную академию от клуба/кортов/мерча; mini вернул мало, расплылся или дал сомнительные факты. По качеству: mini дал достаточно хорошие raw candidates, которые main agent мог проверить и нормализовать. Он намного надежнее Spark и обычно дешевле/быстрее, чем medium. По риску: mini все еще нельзя пускать напрямую в базу. Он может: принять court booking price за program pricing; не заметить, что цена устарела; не отличить camp от generic junior page; дать слабый status/type. Итоговая оценка: mini должен быть default worker для 70-80% обычного enrichment batch, а 5.5-medium надо держать как escalation model для сложных/ambiguous случаев. Это, вероятно, лучший баланс между ценой, скоростью и качеством.
В нашем тесте mini выглядит заметно эффективнее 5.5-medium для типовых…
Из этого канала
- #875Продолжение после реального A/B-теста 5.5-low vs 5.5-medium. Прогнали обе…
Продолжение после реального A/B-теста 5.5-low vs 5.5-medium. Прогнали обе модели на одинаковом sample из 8 академий, без promotion в базу.
- #876⚪️ Software Factory Тут Factory.ai (авторы droid, довольно крутого агента)…
⚪️ Software Factory Тут Factory.ai (авторы droid, довольно крутого агента) разродился интро-постом о том, что мы переходим от индивидуальных агентов к…
- #877"⚪️ Codex Referal Reset Как вы знаете, Кодекс ввел систему рефералок, - если по…
"⚪️ Codex Referal Reset Как вы знаете, Кодекс ввел систему рефералок, - если по вашей ссылке регистрируется пользователь, вам и ему дают ресет.
- #873если интересно, то можно расшарить пост - Провел небольшой A/B-тест моделей…
если интересно, то можно расшарить пост - Провел небольшой A/B-тест моделей Spark, mini и 5.5-medium на реальной задаче обогащения базы своего теннисного…
- #871"⚪️ Расценки для Claude -p / Agents SDK Мы все помним как в мае антропики всех…
"⚪️ Расценки для Claude -p / Agents SDK Мы все помним как в мае антропики всех ""обрадовали"" что с 15 июня програмное использование их агента - Claude -p или…