先进的人工智能模子竟然没有会“问诊”
发表时间:2025年01月07日浏览量:
一项新研讨发明,固然进步的人工智能(AI)模子在专业医学测验中得分很高,但在大夫最主要的义务之一 ——与患者攀谈以网络相干医疗信息并供给正确诊断方面,依然表示欠安。1月2日,相干研讨结果宣布于《天然-医学》。?美国哈佛年夜学的Pranav Rajpurkar说:“固然年夜型言语模子在多项抉择测试中的表示令人印象深入,但在静态对话中,它们的正确性显明降落,特殊是难以停止开放式诊断推理。”当研讨职员开辟出一种基于模仿医患对话评价临床AI模子推理才能的方式时,这一点变得很显明。这些“患者”基于2000个医疗案例,重要来自美国医学委员会的专业测验。同样来自哈佛年夜学的Shreya Johri说:“模仿患者互动能够评价病史收罗技巧,这是临床实际的一个要害构成局部。”她表现,新的评价基准被称为CRAFT-MD,也“反应了事实生涯中的情形,即患者可能不晓得哪些细节是至关主要的,只有在特定成绩提醒时才会表露主要信息”。CRAFT-MD基准自身依附于AI。美国OpenAI公司的GPT-4模子在与正在测试的“临床AI”的对话中表演了“患者AI”的脚色。GPT-4还经由过程将“临床AI”的诊断与每个病例的准确谜底停止比拟,辅助对成果停止评分。人类医学专家细心检讨了这些评价。他们还检察了对话,以检讨“患者AI”的正确性,并检查“临床AI”能否胜利网络了相干的医疗信息。多项试验标明,4种当先的年夜型言语模子——OpenAI的GPT-3.5跟GPT-4模子、美国Meta公司的Llama-2-7b模子跟法国Mistral AI公司的Mistral-v2-7b模子,在基于对话的基准测试中的表示比基于书面病例总结停止诊断时差得多。3家公司不回应置评恳求。 比方,当供给构造化的病例择要并容许从多项抉择谜底列表当选择诊断时,GPT-4模子的诊断正确性到达了令人印象深入的82%,而当不多项抉择选项时,其诊断正确率降至49%以下。但是,当它不得欠亨过模仿的患者对话停止诊断时,正确率降至26%。在这项研讨中,GPT-4模子的表示在测试中是最好的,GPT-3.5模子平日次之,Mistral-v2-7b模子排在第二位或第三位,Llama-2-7b模子平日得分最低。AI模子在很年夜水平上也未能网络完全的病史,比方GPT-4模子仅在71%的模仿患者对话中做到了这一点。即便AI模子确切网络了患者的相干病史,它们也并不老是能作出准确的诊断。美国斯克利普斯研讨转化研讨所的Eric Topol表现,这种模仿患者对话的方法代表了一种比医学检讨“更有效”的评价AI临床推理才能的方式。Rajpurkar说,即便一个AI模子终极经由过程了这一基准,可能依据模仿的患者对话连续作出正确诊断,也并纷歧定象征着它优于人类大夫。他指出,事实天下中的医疗实际比模仿中的“更凌乱”。它波及治理多名患者、与医疗团队和谐、停止身材检讨,以及懂得外地医疗情形中“庞杂的社会跟体系要素”。“AI可能是支撑临床任务的强盛东西,但纷歧定能代替教训丰盛的大夫的团体断定。”Rajpurkar说。相干论文信息:https://doi.org/10.1038/s41591-024-03328-5