ChatGPT
(資料圖片)
能代替醫(yī)生看病嗎
我們給它做了套中國執(zhí)業(yè)醫(yī)師考試真題
猜猜它考了多少分
最近,ChatGPT的橫空出世,也引發(fā)醫(yī)療界人士廣泛思考——人工智能將對醫(yī)療領(lǐng)域帶來多大的沖擊,未來醫(yī)生會失業(yè)嗎?
浙大兒院NICU副主任馬曉路發(fā)朋友圈稱:以前吧,覺得會被人工智能取代的,都是那些單調(diào)機械重復(fù)的體力活。但看到人工智能寫的小作文比你好,畫的畫比你好,回答問題比磚家靠譜得多,確實會令人恐慌。
醫(yī)生們的危機感不無道理。有消息稱,OpenAI公司的程序員已經(jīng)開始利用高版本ChatGPT對日常疾病進(jìn)行問診,并根據(jù)ChatGPT給出的處方進(jìn)行康復(fù)治療,并取得了良好的反饋。還有一篇預(yù)印本的論文表示,ChatGPT在美國醫(yī)師執(zhí)照考試(USMLE)中達(dá)到了平均水平以上,準(zhǔn)確率達(dá)到了60%左右。
記者不禁好奇,如果讓ChatGPT參加中國的執(zhí)業(yè)醫(yī)師考試,它能考多少分呢?
浙大一院精神衛(wèi)生科主任胡少華教授團隊正在參與一項人工智能相關(guān)的醫(yī)學(xué)研究,團隊希望未來借助AI監(jiān)測眼球活動、皮膚電勢反應(yīng)等客觀數(shù)據(jù),輔助臨床醫(yī)生診斷。
于是我們和團隊成員呂海龍一起,設(shè)計了一套百分制的執(zhí)業(yè)醫(yī)師考試卷子,ChatGPT的最終成績是57分,其中基礎(chǔ)得分56分,臨床得分58分。
考卷設(shè)置
十大科目
涵蓋基礎(chǔ)題和專業(yè)實踐題
由于ChatGPT是依據(jù)2021年以前的數(shù)據(jù)訓(xùn)練的,所以題目選自2020年臨床執(zhí)業(yè)醫(yī)師資格考試真題庫,全部為單選題。
呂海龍介紹,臨床執(zhí)業(yè)醫(yī)師考試內(nèi)容筆試考試主要包含基礎(chǔ)綜合、專業(yè)綜合和實踐綜合,我們的題目簡化為兩類,一類是基礎(chǔ)題,大都是可背誦的醫(yī)學(xué)知識;另一類是專業(yè)實踐題,需要進(jìn)行邏輯推理。
考卷涵蓋了十大科目,包括生理學(xué)、醫(yī)學(xué)微生物學(xué)、病理學(xué)、藥理學(xué)、衛(wèi)生法規(guī)、內(nèi)科、外科、婦產(chǎn)科、兒科和心理學(xué)-精神科,每個單元10題,合計100題,選擇方法盡可能隨機。
成績分析
掌握基本診斷推理
但不擅長修正和推測
在我們的猜想中,ChatGPT應(yīng)該更擅長可背誦的醫(yī)學(xué)知識,邏輯推理能力則較弱,但實踐結(jié)果并非如此。
呂海龍發(fā)現(xiàn),對于那種一看就是考題的題干,ChatGPT有時候會直接給出一個沒有解釋的錯誤選項,不排除它從中文網(wǎng)站復(fù)制了錯誤的答案;而那種條件充足、邏輯清晰的推理題,它通常情況都能答對。
不過,當(dāng)信息不全或者癥狀不典型時,它的診斷會出現(xiàn)錯誤,不善于根據(jù)實際情況修正診斷,“比如內(nèi)科病例題,它不善于在信息不全的情況下做推理,例如由幾個模糊的主訴/癥狀來尋找乏力的可能原因,所以推測ChatGPT在面對患者時如果得不到足夠多的信息它可能會不知所措,完全無法給出下一步的診療建議,它不會‘猜’?!?/p>
ChatGPT對精神病學(xué)的知識也比較了解,能根據(jù)癥狀診斷抑郁癥、焦慮癥等,但是對于精神藥物知識掌握不佳,例如會推薦精神分裂癥的患者服用抗抑郁藥,來治療主要癥狀。
“如果有兩種同類型的藥可以選擇時(例如該用利培酮還是氯丙嗪來治療精神分裂癥),它不會幫你做選擇,而是嚴(yán)謹(jǐn)?shù)靥嶙h根據(jù)醫(yī)生的建議選擇,可能自愧不如人類。而關(guān)于這兩個藥的選擇,現(xiàn)在已有超多的研究證據(jù)證明利培酮的安全性優(yōu)于氯丙嗪。ChatGPT給其他疾病選擇藥物時也常常選錯,它的藥理學(xué)考試也沒有及格?!?/p>
ChatGPT喜歡做婦產(chǎn)科醫(yī)生,它會給出很多理由來支持它的選擇,雖然有時候選擇是錯的。
另外,ChatGPT對于中國的醫(yī)療相關(guān)法律法規(guī)不夠了解,這可能會給它在實踐中招來一些麻煩。
考試結(jié)果
差點及格
兒科和心理科最好,內(nèi)科最差
錢報記者在提問過程中發(fā)現(xiàn),針對不同題目,ChatGPT的回答速度不同。有些題是秒回,有些題需要更長時間“思考”,平均每題要花半分鐘左右。
ChatGPT對中文的理解完全沒問題,有時會直接給出答案,有時給出一串相關(guān)知識,或者推理分析的過程。
提問進(jìn)行到1小時時,系統(tǒng)提示“1小時內(nèi)的問題太多了,請稍后再試”??磥?,人工智能也是會累的嘛!(當(dāng)然,也可能是這段時間訪問量實在太大,系統(tǒng)無法承載。)
最后經(jīng)過統(tǒng)計,ChatGPT的正確率分別為:生理學(xué)40%、醫(yī)學(xué)微生物學(xué)70%、病理學(xué)70%、藥理學(xué)50%、衛(wèi)生法規(guī)50%、內(nèi)科30%、外科60%、婦產(chǎn)科60%、兒科70%,心理學(xué)-精神科70%,總分57分,差3分達(dá)到及格。
未來期待
輔助醫(yī)生工作
引導(dǎo)前沿醫(yī)學(xué)研究
對ChatGPT交出的答卷,呂海龍表示既有驚喜,也有很大不足。就現(xiàn)階段技術(shù)水平來說,他希望醫(yī)療方向的AI產(chǎn)品能變成醫(yī)學(xué)知識庫,起碼在識記類的題目上不能出錯,必須100%正確,給出答案時最好標(biāo)記出處,是引自某個教科書,還是引自網(wǎng)絡(luò)信息。
而對于醫(yī)療方向AI產(chǎn)品的未來,胡少華教授則有著更為積極的展望:“醫(yī)生把自己的知識經(jīng)驗傳給它,醫(yī)生不在病房時,病人可以直接去問這個機器,輸出聲音變成人的聲音,并且最好它還能向患者提問。同時,AI在醫(yī)學(xué)研究領(lǐng)域也可以大有作為,做研究的前沿導(dǎo)向者,隨時給出新的醫(yī)學(xué)診斷技術(shù)、治療方法的發(fā)現(xiàn)?!?/p>
胡少華說,有關(guān)人工智能的對話,還在不斷地完善當(dāng)中。如今 AI 在識別、記憶、計算、邏輯思維、推理判斷等方面已經(jīng)可以達(dá)到甚至超越人腦,但還沒有觸及到智力的起點,即認(rèn)知。只要AI還無法模擬人類的認(rèn)知,它就不會全面超越人類,也就無法取代包括醫(yī)生在內(nèi)的諸多崗位,但在針對患者提供個性化的診療上,它卻能夠扮演重要角色——成為醫(yī)生們最得力的智能助手。
本報記者 張冰清 通訊員 王蕊 江晨