Как и что оценивалось: из кейсов контрольной и тестовой выборок случайно было… — @seeallochnaya

Как и что оценивалось: из кейсов контрольной и тестовой выборок случайно было выбрано 5666 штук; они были пристально проанализированы и размечены рабочей группой из 108 независимых врачей (29 из Кении; только я не понял, это те же, что были в исследовании, или нет — скорее всего нет). Только 3 из них были выбраны и назначены OpenAI — возможно, у вас сложилось ощущение что это всё инициатива OpenAI, но читая статью + отчёт становится ясно, что лидировала исследование сама Penda, OpenAI лишь предоставили им кредиты для экспериментов + помощь в промптинге и улучшении системы. Для каждого кейса один врач заполнял специальную анкету, указывая оценку от 1 до 5 по нескольким пунктам. Врач-оценщик не знал, был ли это кейс из группы с AI-консультантом или от обычного врача без ассистента. Далее проводилась оценка доли кейсов, в которых были допущены серьёзные ошибки в разрезе 4 ступеней лечения: 1. Сбор истории & первичное обследование 2. Диагностика (назначенные тесты & анализы) 3. Постановка диагноза 4. Назначение лечения Ошибки сбора анамнеза сократились на 32%, ошибки в назначении анализов — на 10%, диагностические ошибки — на 16%, ошибки лечения — на 13%. В каждой из групп наблюдалось статистически значимое улучшение. При этом обратите внимание, что доля ошибок всё ещё очень высока 🥲 Эффект был ещё выше в случаях, когда AI Consult мог выделить хотя бы одно красное предупреждение: здесь AI сократил диагностические ошибки на 31%, ошибки лечения — на 18% (то есть для серьёзных ошибок AI показал себя лучше). Насколько это серьёзный результат? Авторы пишут, что это сравнимо с узконаправленными и давно признанными и применяемыми методиками вроде отслеживания назначения антибиотиков. Другими словами, алгоритм не просто «немного полезен» — он уже находится на уровне проверенных методов, при этом способен охватить гораздо более широкий круг клинических задач. И внимание — всё было сделано на GPT-4o от августа прошлого года, даже не на GPT-4.1 и тем более не на рассуждающих моделях. Как мы знаем по HealthBench, разница в диагностических навыках моделей может быть двукратной. Но даже в таком виде, без «если бы взяли другую модель» или «промты как-то ниоч...» — в абсолютных цифрах внедрение AI Consult позволит предотвратить критические диагностические ошибки в 22,000 визитах и ошибки назначения лечения в 29,000 визитах ежегодно только в рамках клиник Penda.

Из этого канала