"Я пообщался с ребятами на Reddit (и не только) по поводу испытываемых ими болей при разработке AI систем. Сами проблемы вообще не удивительно, ничего нового нет: - Недетерминированные результаты, постоянно глючит - Только добились нормального поведения, выходит новая SoTA модель, но с ней внезапно система работает намного хуже - Постоянно переписывают evaluation тесты, и толка от них мало (см пункт 1) - Ну и мое любимое – нормального агента на function-calls как они есть в API построить очень и очень сложно. Ребята пишут что максимальная точность, которой они смогли добиться, составила примерно 80%, при этом было написано более 100 eval тестов, кроме которых еще приходилось постоянно a/b тестировать руками привлекая свои семьи 😨 Вишенка на торте: ""Мы так задолбались что решили вообще переключиться с попытки разрабатывать свои AI продукты на удовлетворение потребностей наших прямых клиентов"" Я так понял что подразумевалось удовлетворение этих самых потребностей с использованием LLM. И вот это удивительно – коллеги одновременно не могут найти решения своим страданиям, и при этом пародаксальным образом начинают решать реальные боли клиентов проще и лучше, чем любые другие своим стартапные начинания. На фоне этого небольшого исследования я написал пост на boosty где я раскрываю конкретную причину всех этих страданий (сама причина крайне обширная, но все еще очень конкретная), и даю базовый но емкий чеклист вместе со ссылкой на хорошее описания SoTA паттерна разработки AI систем. in my honest opinion этот чеклист, понимание проблемы, и упомянутая техника при должном применении решат просто огромное количество упомянутых бед 🫣 *** Поделитесь тут в комментариях своими болями, самому дущераздирающему комменту отдам пост с бусти прямым линком."
"Я пообщался с ребятами на Reddit (и не только) по поводу испытываемых ими…
163 viewsОткрыть в Telegram →
Из этого канала
- #383"А еще вся эта история про общение с зарубежными коллегами заставила продолжать…
"А еще вся эта история про общение с зарубежными коллегами заставила продолжать переосмысливать формат моего блога, и платной и бесплатной части.
- #384"Эта записка только для тех кто хочет сдвинуться с мертвого места. Хотя комфорт…
"Эта записка только для тех кто хочет сдвинуться с мертвого места. Хотя комфорт это даже не ""мертвая зона"".
- #387"Как заставить думать обоих – машину и себя самого. В любой системе где есть…
"Как заставить думать обоих – машину и себя самого. В любой системе где есть хоть какой-то интеллект можно обнаружить так называемое концептуальное…
- #381"Ещё одна важная новость из мира эйай: Стартап Harmonic запустил приложение с…
"Ещё одна важная новость из мира эйай: Стартап Harmonic запустил приложение с чатботом, став первым общедоступным математическим эйай-сервисом с формальной…
- #380Даже если там под капотом просто LLM с условным «REPL» в Lean – это очень и…
Даже если там под капотом просто LLM с условным «REPL» в Lean – это очень и очень круто! 🤓