Новое исследование, опубликованное в журнале Science, демонстрирует возможности больших языковых моделей в сложных медицинских сценариях. Группа ученых из Гарвардской медицинской школы и медицинского центра Beth Israel Deaconess провела серию экспериментов, чтобы сопоставить точность работы искусственного интеллекта с решениями профессиональных медиков в условиях экстренной медицины.
Методология и результаты тестирования
В ходе эксперимента исследователи проанализировали данные 76 пациентов, поступивших в отделение скорой помощи. Диагнозы, поставленные двумя опытными врачами-терапевтами, сравнили с результатами моделей o1 и 4o от компании OpenAI. Оценку точности проводили независимые эксперты в формате «слепого тестирования»: они не знали, был ли диагноз сформулирован человеком или алгоритмом.
В обзоре отмечается, что модель o1 либо превосходила врачей по точности, либо работала наравне с ними. Основные показатели исследования распределились следующим образом:
- Модель o1 предложила верный или максимально близкий диагноз в 67% случаев.
- Показатели врачей составили 55% и 50% соответственно.
- Наибольшее преимущество ИИ проявилось на этапе первичной сортировки пациентов, когда объем доступной информации минимален, а срочность принятия решения максимальна.
Важной деталью исследования стало то, что данные для нейросетей не проходили предварительную обработку. Моделям предоставляли ту же информацию из электронных медицинских карт, которая была доступна врачам в момент осмотра.
Критический взгляд и этические вопросы
Несмотря на статистическое превосходство алгоритмов, эксперты подчеркивают, что технология пока не готова к принятию самостоятельных решений в ситуациях, когда на кону стоит жизнь человека. По словам обозревателей, существует острая необходимость в проведении дальнейших клинических испытаний для оценки работы ИИ в условиях реального ухода за больными.
Среди основных ограничений и спорных моментов выделяются следующие факторы:
- Отсутствие правовой базы и механизмов подотчетности за решения, принятые искусственным интеллектом.
- Нейросети пока ограничены в анализе нетекстовых данных, таких как результаты физического осмотра или визуальные исследования.
- В исследовании проводилось сравнение с врачами-терапевтами, а не с профильными специалистами экстренной медицины, чьи навыки специфичны для условий скорой помощи.
Специалисты отмечают, что основной задачей врача в приемном отделении является не просто установление окончательного диагноза, а быстрое выявление состояний, представляющих непосредственную угрозу жизни. Пациенты по-прежнему склонны доверять выбор стратегии лечения и критические решения людям, а не машинам.



