[基于人工智能的大型语言模型在疝气学决策支持中的有效性和安全性：专家和普通外科医生的评估] 。[Efficacy and safety of artificial intelligence-based large language models for decision making support in herniology: evaluation by experts and general surgeons].-医云文献数字医云科研云海量医学决策数据服务

Abstract：

OBJECTIVE: To evaluate the quality of recommendations provided by ChatGPT regarding inguinal hernia repair.
METHODS: ChatGPT was asked 5 questions about surgical management of inguinal hernias. The chat-bot was assigned the role of expert in herniology and requested to search only specialized medical databases and provide information about references and evidence. Herniology experts and surgeons (non-experts) rated the quality of recommendations generated by ChatGPT using 4-point scale (from 0 to 3 points). Statistical correlations were explored between participants\' ratings and their stance regarding artificial intelligence.
RESULTS: Experts scored the quality of ChatGPT responses lower than non-experts (2 (1-2) vs. 2 (2-3), p<0.001). The chat-bot failed to provide valid references and actual evidence, as well as falsified half of references. Respondents were optimistic about the future of neural networks for clinical decision-making support. Most of them were against restricting their use in healthcare.
CONCLUSIONS: We would not recommend non-specialized large language models as a single or primary source of information for clinical decision making or virtual searching assistant.
UNASSIGNED: Оценить качество рекомендаций языковой модели (ЯМ) ChatGPT по лечению паховой грыжи.
UNASSIGNED: ChatGPT было задано 5 вопросов о хирургическом лечении паховых грыж. Чат-боту отведена роль эксперта в области герниологии и предложено провести поиск только в специализированных медицинских базах данных, предоставив информацию об источниках и уровне их доказательности. Эксперты в области герниологии и общие хирурги (не эксперты) оценили качество рекомендаций, полученных с помощью ChatGPT, по 4-балльной шкале (от 0 до 3 баллов). Изучены статистические закономерности между оценками респондентов и их мнением относительно перспектив использования искусственного интеллекта.
UNASSIGNED: Качество ответов ChatGPT экспертами оценено ниже (2 [1—2] балла), чем не экспертами (2 [2—3]), (p<0,001). Чат-бот не справился с предоставлением достоверных ссылок на источники и указанием уровня доказательности, а также сфальсифицировал половину приведенных ссылок. Респонденты с оптимизмом смотрят на будущее нейросетей как инструмента принятия клинических решений; большинство из них выступают против ограничения их использования в здравоохранении.
UNASSIGNED: Основываясь на результатах данного исследования, в настоящее время нельзя рекомендовать применение неспециализированных ЯМ в качестве единственного или основного источника информации для принятия решения или виртуального помощника по поиску медицинской информации.

摘要：

暂无翻译