Как и что оценивалось: из кейсов контрольной и тестовой выборок случайно было выбрано 5666 штук; они были пристально проанализированы и размечены рабочей группой из 108 независимых врачей (29 из Кении; только я не понял, это те же, что были в исследовании, или нет — скорее всего нет). Только 3 из них были выбраны и назначены OpenAI — возможно, у вас сложилось ощущение что это всё инициатива OpenAI, но читая статью + отчёт становится ясно, что лидировала исследование сама Penda, OpenAI лишь предоставили им кредиты для экспериментов + помощь в промптинге и улучшении системы. Для каждого кейса один врач заполнял специальную анкету, указывая оценку от 1 до 5 по нескольким пунктам. Врач-оценщик не знал, был ли это кейс из группы с AI-консультантом или от обычного врача без ассистента. Далее проводилась оценка доли кейсов, в которых были допущены серьёзные ошибки в разрезе 4 ступеней лечения: 1. Сбор истории & первичное обследование 2. Диагностика (назначенные тесты & анализы) 3. Постановка диагноза 4. Назначение лечения Ошибки сбора анамнеза сократились на 32%, ошибки в назначении анализов — на 10%, диагностические ошибки — на 16%, ошибки лечения — на 13%. В каждой из групп наблюдалось статистически значимое улучшение. При этом обратите внимание, что доля ошибок всё ещё очень высока 🥲 Эффект был ещё выше в случаях, когда AI Consult мог выделить хотя бы одно красное предупреждение: здесь AI сократил диагностические ошибки на 31%, ошибки лечения — на 18% (то есть для серьёзных ошибок AI показал себя лучше). Насколько это серьёзный результат? Авторы пишут, что это сравнимо с узконаправленными и давно признанными и применяемыми методиками вроде отслеживания назначения антибиотиков. Другими словами, алгоритм не просто «немного полезен» — он уже находится на уровне проверенных методов, при этом способен охватить гораздо более широкий круг клинических задач. И внимание — всё было сделано на GPT-4o от августа прошлого года, даже не на GPT-4.1 и тем более не на рассуждающих моделях. Как мы знаем по HealthBench, разница в диагностических навыках моделей может быть двукратной. Но даже в таком виде, без «если бы взяли другую модель» или «промты как-то ниоч...» — в абсолютных цифрах внедрение AI Consult позволит предотвратить критические диагностические ошибки в 22,000 визитах и ошибки назначения лечения в 29,000 визитах ежегодно только в рамках клиник Penda.
Как и что оценивалось: из кейсов контрольной и тестовой выборок случайно было…
Из этого канала
- #2703Дополнительно отслеживали показатель игнорирования красных предупреждений (left…
Дополнительно отслеживали показатель игнорирования красных предупреждений (left in red rate) — долю визитов, когда врачи не исправляли ошибки, несмотря на…
- #2704А разработчики Cursor уже во всю тестируют какую-то новую модель. Интересно,…
А разработчики Cursor уже во всю тестируют какую-то новую модель. Интересно, что там за название за размытием 👀
- #2705Лёд тронулся, господа — WIRED пишет, что Meta планирует позволить кандидатам…
Лёд тронулся, господа — WIRED пишет, что Meta планирует позволить кандидатам использовать ИИ во время собеседований по программированию.
- #2701AI-based Clinical Decision Support for Primary Care: A Real-World Study (блог)…
AI-based Clinical Decision Support for Primary Care: A Real-World Study (блог) На стриме с Валерой весной обсуждали, что есть большая разница между «модели…
- #2700Давно не слышал про смешные способы обмануть LLM через промпт джейлбрейк, и вот…
Давно не слышал про смешные способы обмануть LLM через промпт джейлбрейк, и вот наткнулся на смешное.