关键词: ChatGPT artificial intelligence clinical decision making support tool evidence level guidelines inguinal hernia large language model

Mesh : Humans Artificial Intelligence Herniorrhaphy / methods Surgeons Hernia, Inguinal / surgery Clinical Decision-Making / methods Decision Support Systems, Clinical

来  源:   DOI:10.17116/hirurgia20240816

Abstract:
OBJECTIVE: To evaluate the quality of recommendations provided by ChatGPT regarding inguinal hernia repair.
METHODS: ChatGPT was asked 5 questions about surgical management of inguinal hernias. The chat-bot was assigned the role of expert in herniology and requested to search only specialized medical databases and provide information about references and evidence. Herniology experts and surgeons (non-experts) rated the quality of recommendations generated by ChatGPT using 4-point scale (from 0 to 3 points). Statistical correlations were explored between participants\' ratings and their stance regarding artificial intelligence.
RESULTS: Experts scored the quality of ChatGPT responses lower than non-experts (2 (1-2) vs. 2 (2-3), p<0.001). The chat-bot failed to provide valid references and actual evidence, as well as falsified half of references. Respondents were optimistic about the future of neural networks for clinical decision-making support. Most of them were against restricting their use in healthcare.
CONCLUSIONS: We would not recommend non-specialized large language models as a single or primary source of information for clinical decision making or virtual searching assistant.
UNASSIGNED: Оценить качество рекомендаций языковой модели (ЯМ) ChatGPT по лечению паховой грыжи.
UNASSIGNED: ChatGPT было задано 5 вопросов о хирургическом лечении паховых грыж. Чат-боту отведена роль эксперта в области герниологии и предложено провести поиск только в специализированных медицинских базах данных, предоставив информацию об источниках и уровне их доказательности. Эксперты в области герниологии и общие хирурги (не эксперты) оценили качество рекомендаций, полученных с помощью ChatGPT, по 4-балльной шкале (от 0 до 3 баллов). Изучены статистические закономерности между оценками респондентов и их мнением относительно перспектив использования искусственного интеллекта.
UNASSIGNED: Качество ответов ChatGPT экспертами оценено ниже (2 [1—2] балла), чем не экспертами (2 [2—3]), (p<0,001). Чат-бот не справился с предоставлением достоверных ссылок на источники и указанием уровня доказательности, а также сфальсифицировал половину приведенных ссылок. Респонденты с оптимизмом смотрят на будущее нейросетей как инструмента принятия клинических решений; большинство из них выступают против ограничения их использования в здравоохранении.
UNASSIGNED: Основываясь на результатах данного исследования, в настоящее время нельзя рекомендовать применение неспециализированных ЯМ в качестве единственного или основного источника информации для принятия решения или виртуального помощника по поиску медицинской информации.
摘要:
暂无翻译
公众号