Использование чат-ботов на основе искусственного интеллекта для получения медицинских советов может быть опасным для пациентов. Чат-боты часто предоставляют неточную или противоречивую информацию. К такому выводу пришли исследователи из Оксфордского интернет-института и кафедры первичной медицинской помощи Наффилда Оксфордского университета, сообщает BBC.
Исследование, опубликованное в журнале Nature Madicine, показало, что искусственный интеллект имеет склонность предоставлять неточную и противоречивую информацию, что создает риски при принятии медицинских решений. Несмотря на высокие результаты на стандартизированных тестах, ИИ не гарантирует корректного поведения в реальных условиях.
"Несмотря на весь ажиотаж, искусственный интеллект просто не готов взять на себя роль врача", — заявила соавтор исследования доктор Ребекка Пейн. По ее словам, проблема заключается не только в качестве ответов, но и во взаимодействии между человеком и моделью.
[see_also ids="669941"]
В рамках рандомизированного исследования ученые привлекли 1298 совершеннолетних участников из Великобритании. Им предложили десять медицинских сценариев и попросили определить возможные заболевания и рекомендуемый курс действий.
Часть участников пользовалась языковыми моделями GPT-4o, Llama 3 или Command R+, тогда как контрольная группа использовала привычные методы, в том числе интернет-поиск или собственные знания. Результаты показали, что пользователи с ИИ определяли правильные заболевания менее чем в 34,5% случаев.
В то же время именно программное обеспечение демонстрировало значительно более высокие показатели точности во время отдельного тестирования без участия людей. Это свидетельствует о том, что ключевой проблемой является взаимодействие пользователей с моделями, а не только их знания.
[see_also ids="670367"]
"Пациенты должны осознавать, что расспрашивать модель с большим количеством языков об их симптомах может быть опасно", — подчеркнула Пейн. Она добавила, что это может привести к ложным диагнозам или игнорированию ситуаций, когда требуется срочная помощь.
Ведущий автор исследования Эндрю Бин отметил, что даже лучшие языковые модели сталкиваются с трудностями при реальном взаимодействии с людьми. Он выразил надежду на то, что "эта работа будет способствовать разработке более безопасных и полезных систем искусственного интеллекта".
Исследователи рекомендуют проводить систематическое тестирование с участием реальных пользователей перед внедрением ИИ в сфере здравоохранения. По их мнению, стандартные бенчмарки и симуляции не способны выявить ключевые риски для пациентов.
Это исследование появилось после выпуска специальных сервисов для работы с вопросами о здоровье компаниями Anthropic и OpenAI.
Claude for Healthcare ориентирован на клиническую практику, администрирование и взаимодействие с пациентами. По данным Anthropic, он должен помочь врачам сократить время на рутинные процессы, а пациентам — лучше понимать медицинскую информацию.
ChatGPT Health от OpenAI помогает толковать результаты анализов, готовиться к визитам к врачу, анализировать данные с носимых устройств и сравнивать варианты страхования. В то же время сервис не предназначен для диагностики или лечения и должен только поддерживать медицинские решения.