這次,AI要代替醫生?
出品 | 虎嗅醫療組
作者 | 陳廣晶
編輯 | 廖影
(相關資料圖)
頭圖 |視覺中國
AI(人工智能)能不能替代醫生?
“AI替代醫生是遲早的事。” 張強醫生集團創始人、首席醫生張強告訴虎嗅,如果在半年前,他還會給出完全不同的答案,但GPT為代表的生成式AI改變了他的想法。
南方科技大學恒普生命科學研究中心首席醫學專家李定綱進一步預言,基于大模型的AI進入醫療,將生產大批中低級“醫生”,他們有相當于名牌醫科大學畢業生的水平,可以更好地完成日常基礎工作;也可以推動精準醫學應用,填補地域間醫療水平的巨大差異。
幾乎每一次AI技術有突破,醫療都是該技術最躍躍欲試的領域。在過去10多年的時間里,IBM、谷歌等科技巨頭都在這一領域持續推進。新一波由微軟掀起的GPT浪潮中,醫療也同樣是熱門賽道。
“醫療不是第一批,是第零批。”鷹瞳科技(Airdoc)創始人張大磊,在《超越想象的GPT醫療》的分享活動中回應醫療會不會是GPT第一批落地的產業時這樣說。
就在此前不久,谷歌、Meta等全球科技巨頭,百度、阿里巴巴、華為、訊飛等國內科技大廠,互聯網醫療公司醫聯等,都相繼公布了其AI在醫療上的新進展。
這次,AI又將給醫學界帶來哪些改變?
醫生對AI的態度變了
科技界大佬們對改變醫療的執著,從有了AI誕生就有了。幾乎是1956年達特茅斯會議之后,就已經有人嘗試用計算機程序來“扮演”醫生的角色了。在中國,上世紀70年代末也有了一款早期看病相關的“AI”——“關幼波肝病診療程序”,主要輔助醫生看診。
2011年,IBM沃森(Watson)在電視游戲節目《危險邊緣》中完敗最優秀的人類玩家,由此在全球掀起AI熱潮以后,IBM就與多家腫瘤權威機構合作開發出了“沃森醫生”。
只可惜,這一系列被寄予厚望的AI產品,用起來卻不太靈光。
“沃森做的診斷非常的保守。可以說,只是做了最簡單層級的醫療處置,沒有考慮到患者的個體化資料和病情變化,或者潛在的情況。”遼油寶石花醫院腫瘤一病區副主任申龍海,向虎嗅分享體驗“沃森腫瘤”的感受時說。
由于接受訓練的數據不是真實患者數據,沃森在輔助醫生設計癌癥治療方案時,還曾經給出過“不合適且危險”的方案——給伴有嚴重出血癥狀的患者開容易導致出血的藥物。沃森也因此逐漸成為IBM的“棄子”。
再之后的AI產品放棄了宏大的目標,更加專注于具體輔助工作上,落地項目逐漸集中到了醫學影像、病理分析、智能導診等領域。給人的印象,主要還是幫助人類完成大量簡單重復性的工作,或者查詢方面的工作,充當著初級助手的角色。
“再復雜一些的,需要個性化分析的工作,AI目前還是做不到。”申龍海向虎嗅表示。
來自視覺中國
這一切在chatGPT出現后發生了急劇的轉變,基于大模型的AI,在診療中,也表現出了令醫生“震驚”的潛力。
張強醫生曾經在臨床診療中“用”到了“AI助手”。他的一名患者在經過靜脈曲張手術后,腿上出現了紅色的硬結,去過很多家醫院看診,結果都是靜脈炎。經過與AI助手對話,最終確定這名患者腿上的硬結是惡性淋巴腫瘤。病理結果也證實了這一診斷結果。
“這個案例對我的啟發和震動都很大。”張強醫生事后向虎嗅這樣說。這實際上超過了很多三甲醫院專家的水平。
類似的震撼也出現在大洋彼岸。2022年秋天,GPT-4(當時代號:達芬奇-3)還在研究中,哈佛大學醫學院生物醫學信息學系首席主任伊薩克·科恩,受邀對這個新的大模型進行了試驗性訪問。作為醫學博士和計算機科學博士,他第一次將GPT-4用于臨床就感到了震撼。
在這次訪問中,AI助手經過兩輪問答,就診斷出了一例每10萬名嬰兒中僅有不到1名患者的非常罕見的疾病。
科恩在撰文中寫道:“它比我所觀察到的許多醫生表現得還要優秀。”
這也改變了張強、申龍海等臨床專家對AI的看法。AI盡管目前仍然存在各種問題,但是其驚人的學習能力,還是讓醫生們感受到其“深不可測”的潛力。
大模型做對了什么?
除了在臨床診斷中表現出來的潛力,更令人驚奇的是,GPT等大模型還有人文關懷的一面,令很多人自嘆不如。在給出診斷結果和治療方案時,總還不忘要安慰一下患者,充分詮釋了“醫學之父”希波克拉底“總是去安慰”的理念。
自然語言溝通能力提升,以及新增的對復雜問題系統整合處理能力,被認為是第二代醫療AI,也就是基于transformer形成的大模型構建的醫療AI的優勢所在。這種語言能力和交流中表現出來的邏輯性,讓AI更加容易獲得人類的信任。
“AI更像人了。”張強告訴虎嗅。
在集中和大模型互動了7天以后,張強終于掌握了與新一代AI交流的“法門”。他決定“雇傭”一個虛擬的AI助手,取名Emily。Emily有數字形象,除了是張強的助理,還在“張強醫生集團”正在推進的出海項目中,扮演“形象代言人”的角色,還為每一個員工出謀劃策。
“AI對做我決策的幫助很大。”張強告訴虎嗅,自從全院引入AI,每一個問題都在當天得到了妥善解決。“AI把所有的問題都變成了選擇題。”
對于AI有沒有理性的問題,盡管計算機領域專家還沒有明確的答案,但是很多用戶堅信他有理性了。
電影《奇異博士》劇照
大模型能做到這一步,并不只靠“花言巧語”。GPT等大模型已經不再局限于單模態的發展模式,對更多工作內容的整合能力,讓AI不再像從前一樣拘謹、保守。
“他像一個指揮官。”《超越想象的GPT醫療》一書的譯者蘆義告訴虎嗅,這一次語言大模型帶來的變革之所以深刻,是因為大模型可以通過語言來認識世界、沉淀經驗。
比如在診療中,AI將診斷知識、當前主流醫療AI的讀影技術等,全部統籌起來,以其獨特的“思考”方式得出最優解,再以人類能夠理解的方式輸出,以助手的角色,幫助人類全面提高醫療效率。
在8月初,谷歌和旗下DeepMind團隊公布的一份報告中,其醫療大模型Med-PaLM M已經可以承擔14種不同的生物醫學任務,包括問題問答、視覺問題回答、醫學圖像分類、放射學報告生成和總結,以及基因組變體調用等。
此外,大模型讓醫療AI有更強的泛化能力。仍以Med-PaLM M為例。這種AI已經可以將知識泛化到從未接觸過的領域,比如在X光片中正確識別從未“見”過的結核病變。
從未受過醫學訓練的GPT,也在早期試驗性使用中表現出了這種能力。科恩以擔憂的形式提到這個問題,就是GPT根本沒有醫學方面的知識——它所做的只是在對話中的一連串單詞中“計算”下一個詞,但是卻可以參與到診斷中,并擊敗大多數醫生。這是令人驚奇的,也是非常有用的。
近期醫療反腐重新把醫療難題擺到了公眾的面前。實際上,絕大多數中國人對“看病難、看病貴”都有切身體會,在這些切膚之痛背后,是全人類都共同面對的醫療成本不斷攀升、優質醫生資源緊缺、老齡化趨勢加重、全球性流行病隨時到來等問題。
作為助手,“AI和機器人,可以把醫生、護士解放出來。”李定綱向虎嗅指出,目前老齡化趨勢下,勞動力缺乏,這些新技術可以取代人類醫生去做中低端工作,無疑對提高效率有很大幫助的。還可以推廣開來,“所有技術含量高、培養周期長、對人體有傷害,有毒、有放射性,都可以讓AI和機器人替代人去做”。
AI終于可以代替醫生了嗎?
熟悉醫療的專業人士表現得更加克制、冷靜。在AI過去幾輪沖擊醫療未果后,專業人士已經認識到,醫療的問題并不是單靠技術能解決的,更何況技術本身也還有其待完善之處。
中國科學院復雜系統管理與控制國家重點實驗室研究者王飛躍,就在前不久發表的一篇文章中提到,6年前,圖靈獎獲得者Hinton教授曾經預言,深度學習將會比放射科醫生做得更好。
而今天,盡管深度學習已經取得了很大的成功,但是醫學界還是不能“停止培養放射科醫生”。相反,為了應對AI帶來的變化,還必須培養更多的新型放射科醫生。
回到GPT等大模型基礎上誕生的AI醫生身上,最明顯的問題就是“幻覺”,即說出一些看似合理實則虛構的內容。對于沒有醫學常識的大眾來說,如果將AI醫生認定為權威,其結果很可能是災難性的。
必須說明的是,目前受到法律法規的限制,AI醫生還不能拿到行醫資格,也不能面向患者進行診療。在張強醫生與AI合作診療的案例中,AI也只是作為張強醫生的助手、顧問,給出提示。在醫聯,MedGPT也只是用于內部參考。
而在與AI的互動中,人類的醫療水平、給出提示的能力,也決定了AI表現的“天花板”在哪里。比如在張強提供的案例中,醫生本身已經有了基本的判斷,AI的作用主要是提供證據支持。
“根據經驗,我懷疑這是惡性腫瘤,但是吃不準,就找他商量。”張強醫生告訴虎嗅。
而在第一遍回答時,AI給出的答案并不可靠,他給出的是動脈血栓等明顯不可能的猜測。于是,張強醫生又從另一個方面引導:“一個淋巴瘤化療的病人,有沒有可能出現體表的多發性結節腫塊?”
受此啟發,AI才給出新的推斷,認為腫塊是轉移的惡性腫瘤,因為惡性腫瘤有轉移到皮膚上的可能,并列出了可能轉移的部位。有了這些信息,張強又進一步核實,才得出了準確的診斷。
“這是張醫生在問,如果是‘小張醫生’可能就是另一個故事了。”張強在總結經驗時調侃說。
來自:視覺中國
北京大學新聞與傳播學院教授胡泳直言:萬事萬物搞不定的時候,我們總希望靠技術來解決,但是結果往往帶來更大的代價。
他指出,醫療是與千萬人福祉關系密切的產業之一,但同時也是利益關系盤根錯節的領域,既得利益體非常難以攻破。在這種情況下,我們過度把希望寄托于技術的單兵突進,是不能解決問題的。
AI醫生如果通過考試,能不能拿到執業資格證?AI出錯后如何追責?每一個問題的解決都是牽涉甚廣的。
新一代AI的學習能力已經得到了醫生的認可。蘆義也認為,未來AI醫生要獨當一面,最大的障礙將是法律、法規、倫理等方面的限制,而非技術。
有趣的是,新一代AI也更加謙遜、有“自知之明”。張強曾經問AI助手,能不能接任董事長的位置。Emily出現了罕見的長時間停頓,最后拒絕了這個提議,并承認自己無法替代任何人。
歷史趨勢不可阻擋
無論如何,AI在醫療領域廣泛應用已經是大勢所趨了。
動脈網數據顯示,預計2020年到2025年,中國醫療AI、AI輔助新藥研發加上AI助力腫瘤診斷等賽道的年復合增長率將達到39.4%,到2025年市場總規模將突破300億元。
微軟在chatGPT大火以后,除了GPT-4,也有很多生物醫學領域的大模型誕生。從公開數據看,僅中國就有至少18個醫療大模型亮相。而GPT還不是AI跨界醫療走得最快的大模型。
中國醫療大模型企業發布時間應用場景Deepwise MetAI深睿醫療2023年4月醫療智慧影像&數據通用平臺火星認知科大訊飛2023年5月診后康復管理ClouD GPT智云健康2023年5月輔助診斷、藥械研發Uni-talk上海聯通2023年5月17日專業醫學文獻檢索,輔助診斷等山海云知聲2023年5月24日少數病歷撰寫、門診病歷生成系統、商保智能理賠系統MedGPT醫聯2023年5月全流程智能化診療基于華為云潤達醫療2023年6月檢驗報告智能解讀、互聯網檢驗以及居民全周期健康管理華佗GPT深圳市大數據研究院2023年6月問診對話添翼東軟2023年6月輔助醫生問診、患者健康服務、醫院管理
中國醫療大模型(續表)
企 業發布 時間應用 場景HealthGPT叮當健康2023年6月用戶健康助手左醫醫療大語言模型左手醫生2023年6月擬人AI醫生問診和問答、智能導診、病歷書寫、結構化抽取、只能診斷、隨訪OpenMEDLab浦醫上海人工智能實驗室2023年6月29日醫療多模態基礎模型群京醫千詢京東健康2023年7月提供導診、健康咨詢、輔助決策靈醫Bot百度靈醫智惠2023年7月14日文檔理解、病歷理解、醫療問答岐黃問道·大模型南京大經中醫藥2023年7月28日基于已確診疾病的臨床診療CareGPT微脈2023年8月17日全病程管理:預防、咨詢、預約、康復等WiNEX Copilot衛寧健康2023年10月(預計)醫療知識問答、互聯網問診、醫療報告小結升級版SenseCare智慧醫院商湯2023年7月13日就醫、診療、隨訪
數據來自公開信息,虎嗅制圖
從某些方面看,AI醫生已經跟人類醫生做得差不多好,有些方面甚至有趕超的趨勢了。但是,這不意味著,AI醫生可以取代人類醫生。技術要想改變醫療也還有很長的路要走。
今年5月,我國率先發布的醫聯的“AI醫生”MedGPT,在與10位國內頂級大三甲醫院的醫生,經歷了長達3小時的比拼中,他們取得了7.2分的綜合成績,僅比人類三甲醫院醫生低了0.3分。
整場比拼共涉及六個環節——問詢、診斷、給出治療建議、開具輔助檢查方案、分析檢查結果、提供可信解釋,有91名受試患者參與,覆蓋了消化科、心內科、老年呼吸科、骨科、泌尿外科、腎內科等領域,由來自阜外醫院、中日友好醫院、北大人民醫院等醫院的7位主任專家評分。
這實際上是全球首次AI醫生與人類醫生同時面對真實人類患者時進行的“雙盲試驗”。在一定程度上,說明了AI醫生的實力超過了大多數醫生的水平。
當然,這些數據和成果最多說明AI具有了醫學畢業生的水平,距離行醫還很遠。
競爭并不只在技術上。在技術之外,微軟全球資深副總裁、微軟研究院負責人彼得·李曾撰文提到三點關于GPT醫療的認識:一是GPT-4有望改善醫學和醫療保障領域;二是由于它同時具有風險,有必要盡快在盡可能廣泛的范圍內進行測試,并讓公眾了解其局限性;三是務必立即開始努力,確保盡可能多的人能夠運用這一技術。
這像極了放下身段、卑微地幫孩子找工作的老父親。
與其把AI封神,不如給新技術更多的包容和容錯空間。而隨著通用大模型大舉進入各個領域,融入人類的工作、生活,社會、法律、倫理,乃至教育和臨床上的學科劃分等,都面臨重塑。醫療也許并不是其中最棘手的那一個。
正在改變與想要改變世界的人,都在虎嗅APP
關鍵詞: