日前,OpenAI公布一項(xiàng)研究成果:由哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì),在醫(yī)學(xué)診斷領(lǐng)域深入評(píng)估OpenAI的o1-preview模型,發(fā)現(xiàn)其比人類醫(yī)生更擅長(zhǎng)診斷棘手的醫(yī)療案例。相關(guān)消息引發(fā)了全球關(guān)注,醫(yī)生真的在不久的將來(lái)會(huì)被取代嗎?
o1-preview診斷正確率近8成
@deedydas在原文中說(shuō),“根據(jù)(關(guān)于)OpenAI的最新論文,o1-preview在推理任務(wù)上遠(yuǎn)遠(yuǎn)優(yōu)于醫(yī)生,甚至天壤之別。AI對(duì)143項(xiàng)困難的NEJM CPC診斷結(jié)果分別為約80%至30%?,F(xiàn)在相信你的醫(yī)生而不咨詢?nèi)斯ぶ悄苣P褪俏kU(xiǎn)的?!睋?jù)悉,自上世紀(jì)50年代以來(lái),評(píng)估鑒別診斷生成器的首要標(biāo)準(zhǔn)是由《新英格蘭醫(yī)學(xué)雜志》(NEJM)發(fā)表的臨床病理學(xué)會(huì)議(CPCs)病例,因此這也是評(píng)估o1-preview的首選基準(zhǔn)。截至發(fā)稿前,該言論已引來(lái)107萬(wàn)次的瀏覽量。
根據(jù)研究報(bào)告,o1-preview正確診斷了78.3%的測(cè)試案例,在70個(gè)特定案例的對(duì)比測(cè)試中,準(zhǔn)確率高達(dá)88.6%,顯著優(yōu)于其前身GPT-4的72.9%。此外,使用醫(yī)學(xué)推理質(zhì)量評(píng)估標(biāo)準(zhǔn)量表R-IDEA,o1-preview在80個(gè)案例中取得了78個(gè)滿分。同時(shí),經(jīng)驗(yàn)豐富的醫(yī)生在28個(gè)案例中獲得滿分,住院醫(yī)生則僅為16例。而在25位專家設(shè)計(jì)的復(fù)雜案例中,o1-preview得分高達(dá)86%,是使用GPT-4的醫(yī)生(41%)和使用傳統(tǒng)工具的醫(yī)生(34%)的兩倍有余。
不過(guò),研究人員承認(rèn)該測(cè)試存在局限性,部分測(cè)試案例可能包含在o1-preview的訓(xùn)練數(shù)據(jù)中,且測(cè)試主要集中于系統(tǒng)單獨(dú)工作,并未充分考慮其與人類醫(yī)生協(xié)同工作的場(chǎng)景;此外,o1-preview建議的診斷測(cè)試成本高昂,在實(shí)際應(yīng)用中存在局限性。
醫(yī)學(xué)是科學(xué),也是“人”學(xué)
這并非AI與醫(yī)生的首次“對(duì)決”。此前,在醫(yī)學(xué)頂刊《美國(guó)醫(yī)學(xué)會(huì)雜志》(JAMA)等期刊上,也曾有研究指出大語(yǔ)言模型在診斷基準(zhǔn)測(cè)試中超越了人類,包括醫(yī)科學(xué)生、住院醫(yī)師和主治醫(yī)師。這是否意味著o1-preview在醫(yī)學(xué)上已全面超越人類?
“AI確實(shí)在病例診斷的初步篩選、初診環(huán)節(jié)具有很強(qiáng)的輔助功能,但無(wú)論是現(xiàn)在,或是可以預(yù)見(jiàn)的將來(lái),它都仍舊沒(méi)有完全進(jìn)行決策的能力?!鄙虾J械谝蝗嗣襻t(yī)院副院長(zhǎng)、放射科學(xué)科帶頭人王悍談到,“無(wú)可否認(rèn)的是,成熟的AI模型能力應(yīng)該與住院醫(yī)師是可以抗衡的,其優(yōu)勢(shì)在于完成重復(fù)性、細(xì)致度高的工作,比如肺小結(jié)節(jié)在體檢場(chǎng)景中的篩查、心腦血管的重建。以往,大多數(shù)此類工作由住院醫(yī)師人工掃描完成,大約耗時(shí)20分鐘,現(xiàn)在基于AI的四維重建最快只需按秒計(jì)算,大大節(jié)省了臨床醫(yī)師的時(shí)間,還能減少患者的不適?!绷硪环矫妫珹I也有劣勢(shì):所有的診斷均應(yīng)該建立在可靠、可重復(fù)的基礎(chǔ)上,目前尚無(wú)樣本量和覆蓋面足夠大且可靠的通用型模型,不同人種、國(guó)家、性別、年齡、文化水平等變量參數(shù)都可能造成評(píng)估的謬誤,“因?yàn)獒t(yī)學(xué)不僅是科學(xué),也是‘人’學(xué)?!?/p>
王悍說(shuō),以我國(guó)傳統(tǒng)中醫(yī)藥為例,望、聞、問(wèn)、切的診療流程缺一不可,即便如今也有中醫(yī)領(lǐng)域的AI軟件及模型開(kāi)發(fā),如根據(jù)舌苔的疾病評(píng)估,但仍基于圖形化的固定模式,“它或許還不同于X光、CT影像學(xué)報(bào)告,這與醫(yī)患面對(duì)面,有熱度的觸診是不同的?!?/p>
其實(shí),AI在輔助決策中的準(zhǔn)確率現(xiàn)階段仍取決于患者的“標(biāo)準(zhǔn)化”,但其心理因素、經(jīng)濟(jì)水平乃至社會(huì)關(guān)系都可能在真實(shí)的治療場(chǎng)景中對(duì)方案產(chǎn)生影響,“AI或許可以完成多學(xué)科團(tuán)隊(duì)(MDT)對(duì)于單純病理癥狀的評(píng)估并給出建議,但患者最終選擇的方案,仍需醫(yī)者以同理心從‘模棱兩可’的選項(xiàng)中幫助拍板?!?/p>
好醫(yī)生應(yīng)學(xué)會(huì)向AI借力
在王悍看來(lái),雖然AI模型較難完全取代醫(yī)生,但主動(dòng)學(xué)習(xí)AI同時(shí)對(duì)其保持不依賴的心理,才是未來(lái)從事醫(yī)療領(lǐng)域的不二法則。“如果學(xué)不會(huì)向AI借力,在未來(lái)更精準(zhǔn)、個(gè)性化的診療趨勢(shì)中,醫(yī)生會(huì)浪費(fèi)更多寶貴的精力;但若過(guò)分盲信AI,就會(huì)成為‘被淘汰者’?!彼毖浴?/p>
11月30日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布了《生成式人工智能應(yīng)用發(fā)展報(bào)告(2024)》,截至今年6月,我國(guó)生成式人工智能產(chǎn)品的用戶規(guī)模已達(dá)2.3億人。由清華大學(xué)智能產(chǎn)業(yè)研究院團(tuán)隊(duì)打造的首家“AI醫(yī)院”(Agent Hospital)預(yù)計(jì)將于2025年上半年對(duì)公眾開(kāi)放,醫(yī)療或?qū)⒃诓贿h(yuǎn)的將來(lái)成為AI滲透生活的主要途徑之一。
在上海,11月末也公布了首批5個(gè)醫(yī)療應(yīng)用場(chǎng)景,包括中山醫(yī)院AI電子病歷輔助書(shū)寫(xiě)、AI醫(yī)健助手,東方醫(yī)院醫(yī)生伴侶、科研助理及上海電信的就醫(yī)小幫手等。正如東方醫(yī)院AI醫(yī)學(xué)大模型Med-Go創(chuàng)始人、急診重癥醫(yī)學(xué)科主任張海濤所說(shuō),精準(zhǔn)高效的可解釋性醫(yī)學(xué)回復(fù)內(nèi)容,是醫(yī)學(xué)模型的核心競(jìng)爭(zhēng)力,也是賦能醫(yī)學(xué)提高臨床應(yīng)用的重中之重,“AI來(lái)源于醫(yī)生,也服務(wù)醫(yī)生與患者,讓其助力人才隊(duì)伍的高效培養(yǎng)與升級(jí),將最終為患者帶來(lái)精益求精的醫(yī)療體驗(yàn)?!?/p>
評(píng)論 0
還沒(méi)有添加任何評(píng)論,快去APP中搶沙發(fā)吧!