ChatGPT能當(dāng)“網(wǎng)絡(luò)醫(yī)生”嗎?新研究揭示了它的醫(yī)療問診能力與短板
在人們感到身體不適時,越來越多的人開始求助于ChatGPT等生成式人工智能來“自我診斷”。但這些AI給出的健康建議究竟有多靠譜?一項近期發(fā)表在《iScience》期刊的研究給出了初步答案,結(jié)果既令人驚喜,也揭示出值得警惕的問題。
這項研究由美國紐約州賓厄姆頓大學(xué)托馬斯·J·沃森工程與應(yīng)用科學(xué)學(xué)院系統(tǒng)科學(xué)與工業(yè)工程學(xué)院的研究員Ahmed Abdeen Hamed主導(dǎo),聯(lián)合波蘭AGH克拉科夫大學(xué)、霍華德大學(xué)和佛蒙特大學(xué)的科學(xué)家共同完成。
Hamed此前開發(fā)了一種名為“xFakeSci”的機器學(xué)習(xí)算法,能夠識別出高達94%的虛假科學(xué)論文,比現(xiàn)有常規(guī)數(shù)據(jù)挖掘方法準(zhǔn)確率高出近一倍。他希望這項新研究能作為驗證大語言模型(LLMs)在生物醫(yī)學(xué)領(lǐng)域生成能力的下一步。
“現(xiàn)在很多人會直接對ChatGPT說:‘我有這些癥狀,是不是得癌癥了?是不是心臟病?該不該去看醫(yī)生?’”Hamed表示,“這其實非常危險,所以我們想測試一下,ChatGPT到底會給出什么樣的回答,以及這些回答是否能在生物醫(yī)學(xué)文獻中被驗證?!?/p>
研究團隊以疾病相關(guān)術(shù)語為核心,測試了三類醫(yī)學(xué)關(guān)聯(lián)信息:藥物名稱、基因信息以及癥狀描述。結(jié)果顯示,在識別疾病、藥物和基因方面,ChatGPT的準(zhǔn)確率分別達到了88%~97%、90%~91%、以及88%~98%,表現(xiàn)遠(yuǎn)超研究人員最初“25%左右”的預(yù)期。
“讓人驚訝的是,ChatGPT能正確識別‘癌癥是疾病’、‘高血壓是疾病’、‘發(fā)燒是癥狀’、‘瑞德西韋是藥物’,還能識別‘BRCA是與乳腺癌相關(guān)的基因’——這太不可思議了!”Hamed說道。
然而,在識別“癥狀”這一項上,ChatGPT的表現(xiàn)明顯遜色,準(zhǔn)確率僅為49%~61%。研究人員分析,這可能與模型訓(xùn)練的數(shù)據(jù)風(fēng)格有關(guān)。醫(yī)生和科研人員習(xí)慣使用結(jié)構(gòu)化的醫(yī)學(xué)本體(biomedical ontologies)來定義術(shù)語及其關(guān)系,而普通用戶則常用口語化表達。
“ChatGPT傾向于用更貼近大眾的語言交流,而不是學(xué)術(shù)文獻中的專業(yè)術(shù)語。”Hamed解釋道,“這可能導(dǎo)致模型在簡化醫(yī)學(xué)語言的過程中丟失了一些精確性?!?/p>
更令人困惑的是,當(dāng)研究人員要求ChatGPT提供特定基因的數(shù)據(jù)庫編號(如BRCA1的編號為NM_007294.4)時,AI竟然“編造”出了看似合理卻完全不存在的編號。研究人員將這一現(xiàn)象稱為“幻覺”(hallucination),即AI憑空生成錯誤信息。
對此,Hamed指出:“也許我們可以考慮將真實的生物醫(yī)學(xué)本體引入到LLM訓(xùn)練中,從而提高其準(zhǔn)確性,消除幻覺現(xiàn)象,讓這些工具真正變得強大且可靠。”
Hamed自2023年開始關(guān)注ChatGPT,并意識到其在“事實核查”方面的局限。他希望通過暴露模型的缺陷,幫助數(shù)據(jù)科學(xué)家不斷優(yōu)化改進。
“當(dāng)我試圖構(gòu)建知識體系時,我必須確保剔除所有可能存在問題的信息,才有可能建立起真正可信的理論框架?!盚amed表示。
參考文獻:Ahmed Abdeen Hamed et al, From knowledge generation to knowledge verification: examining the biomedical generative capabilities of ChatGPT,?iScience?(2025).?DOI: 10.1016/j.isci.2025.112492
編輯:周敏
排版:李麗


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。