"Гарвардский университет опубликовал исследование о том, как reasoning-модели… — @it_ent

"Гарвардский университет опубликовал исследование о том, как reasoning-модели OpenAI o1 и 4o справляется с постановкой диагноза в приёмном отделении скорой. Модели и врачам давали одинаковое описание 76 пациентов, нужно было предположить диагноз. По данным исследования, o1 поставила правильный диагноз в 89% случаев, врачи — в 34%. Разрыв 89 против 34 — это не ""AI умнее врача"". Это два разных режима работы. Врач работает в шуме, усталости и временном давлении: за смену десятки пациентов, на каждого можно выделить какие-то минуты. Reasoning-модель спокойно перебирает гипотезы, держит весь дифференциальный диагноз в окне контекста и не устаёт к третьему часу смены. Один и тот же врач у себя дома, в тишине и без потока, поставил бы диагноз ближе к 89, чем к 34. Просто этого режима в приемном у него нет, а у модели есть всегда. Та же траектория, на мой взгляд, что в IT. Полтора года назад замеры METR (независимая исследовательская группа, оценивает возможности AI) показывали, что разработчик с AI-ассистентом работает на 19% медленнее. Через год тот же замер показал плюс 18%, и цифра продолжает расти. Разворот на 37 процентных пунктов за год, в регулируемой и насквозь измеряемой профессии. Медицина пройдёт ту же кривую, причем не от регуляторов, а от самих пациентов. Они уже сейчас приходят на прием со скриншотом из ChatGPT и просят прокомментировать. AI будет давать пациенту второе мнение, и это второе мнение будет в среднем точнее первого на длинной дистанции. Важно: ни в коем случае не используйте ИИ для интерпретации анализов, постановки диагнозов и назначения лечения. Я не зря сказал, что исследование будет точнее ""в среднем"". Так же ""в среднем"" в 1–2 случаях из 10 диагноз и лечение будут ошибочными и это серьезная опасность. ИИ в медицине в текущем его виде можно использовать только как второе мнение. Публикация по исследованию в Science: https://www.science.org/doi/10.1126/science.adz4433"

Из этого канала