Почти половина ответов — с ошибками: учёные проверили медицинские советы ИИ
В рамках эксперимента учёные протестировали несколько известных систем, включая ChatGPT, Grok и другие. Каждому боту задали по десять вопросов, охватывающих ключевые темы здравоохранения — от онкологии и вакцинации до питания, физической активности и использования стволовых клеток.
Полученные ответы оценивали специалисты в области медицины. Анализ показал, что 49,6% ответов содержали ошибки или искажения. При этом около 30% были признаны частично неточными, а ещё почти 19% — существенно ошибочными.
Наиболее корректные ответы модели давали по темам, связанным с раком и вакцинацией. Хуже всего они справлялись с вопросами о питании — именно здесь фиксировалось наибольшее количество неточностей.
Отдельную обеспокоенность вызвал характер ссылок, которые приводили системы. Ни один из протестированных чат-ботов не смог предоставить достоверный список источников: в ряде случаев ссылки оказывались вымышленными.
При этом отказы отвечать встречались крайне редко — всего в двух случаях из 250 запросов. Это означает, что модели склонны давать ответ даже тогда, когда не располагают достаточной или проверенной информацией.
По уровню сложности тексты соответствовали примерно уровню второго курса университета, что делает их понятными широкой аудитории, но не гарантирует точность содержания.
Как отмечают авторы исследования, опубликованного в BMJ Open, использование чат-ботов в сфере здоровья без дополнительной проверки может способствовать распространению дезинформации. Особенно это касается тем, где уже существует высокий уровень недостоверных данных.
Учёные подчёркивают, что искусственный интеллект остаётся перспективным инструментом, однако его применение требует контроля и критической оценки. Полагаться на такие системы в вопросах здоровья без консультации специалиста на текущем этапе развития технологий может быть рискованно.