AI輔助放射科醫生-科學人雜誌
人工智慧

AI輔助放射科醫生

2021/08/06 里爾登 ( Sara Reardon )
演算法正以無可匹敵的準確度詳查X光等醫學影像,但它們仍需醫生把關。


當40歲出頭的芭茲萊(Regina Barzilay)進行例行乳房X光攝影檢查時,影像顯示她的乳房組織有許多白色斑點,可能是良性也可能是惡性腫塊,即使是最厲害的放射科醫生往往也難以區別。芭茲萊的醫生認為尚不需擔憂,再觀察看看。事後回想,她說:「我其實已經罹癌了,只是他們看不出來。」接下來兩年,芭茲萊接受了第二次乳房X光攝影、胸部磁共振造影(MRI)以及活體組織採樣檢查,還是得到模稜兩可或互相衝突的答案。2014年終於確診乳癌,但診斷過程的折磨難以想像,芭茲萊不禁懷疑:「怎麼可能三種檢查會得到三種結果?」


芭茲萊接受治療後康復情況良好,但她對因乳房X光攝影結果不明確而延遲治療仍心有餘悸。她說:「我意識到目前的檢查方法仍不足以保護病患,我必須改變這情況。」身為美國麻省理工學院的電腦科學家,芭茲萊過去從未修習過醫療相關課程,她的專長是把機器學習技術應用於自然語言處理,這是人工智慧(AI)研究的一門分支。但芭茲萊同時也在找尋新研究題材,她決定和放射科醫生合作開發機器學習演算法,利用電腦的視覺分析能力找出乳房X光影像中人眼可能錯過的細微病理模式。


接下來四年,芭茲萊的研究團隊訓練電腦程式分析3萬2000名不同年齡和族裔的女性乳房X光影像,並告訴電腦哪些病患在五年內確診罹患乳癌。另外讓電腦分析3800名病患的乳房X光影像,測試它配對乳房X光影像與罹病結果的能力。結果顯示演算法預測罹癌的準確度,比一般診所使用的方法高出許多,這項結果發表於去年5月的《放射學》。當芭茲萊團隊以程式分析她2012年拍攝的乳房X光影像時(當時醫師認為不需擔憂的那張影像),演算法準確預測出她在五年內發展出乳癌的風險,比98%的病患更高。


AI演算法不僅能辨別出人眼不能察覺的細節,還能發展出人類無法完全理解的全新方法來詮釋醫學影像。無數研究人員、新創公司和掃描機器製造廠商投入AI程式設計,希望藉此改進醫療診斷的準確性和及時性,提供較佳的醫療給開發中國家和缺乏放射科醫生的偏遠區域,找出生物學和疾病的新關聯,甚至協助預測病患壽命。AI的應用正快速進入臨床領域,接觸過這項科技的醫生對它喜憂參半,一方面樂見它可分擔工作量,一方面又擔心AI會搶走飯碗。演算法同時也引發一些前所未見的問題,例如該如何規範一個不斷學習和改變的電腦,以及演算法結果出錯時該由誰負責。儘管如此,許多醫生仍對AI的前景充滿期待。史丹佛大學放射科醫師蘭格倫(Matthew Lungren)說:「如果能充份檢查這些模型,讓我們更加了解它的運作方式,將能提升醫療照護的品質。」


炙手可熱的領域

利用電腦解讀醫學影像並非新概念,1990年代起,放射科醫生開始使用電腦輔助診斷程式(computer-assisted diagnosis, CAD)來偵測乳房X光影像中的乳癌跡象,當時CAD被譽為革命性科技,許多診所很快採用它。但後來發現CAD比傳統方法更費時且不易使用,有些研究顯示,和沒有使用CAD的診所相比,使用它的診所出現更多錯誤診斷。曾任北美放射學會會長的湯瑪斯傑弗遜大學放射科醫生勞烏(Vijay Rao)表示,這個失敗經驗令許多醫生對CAD抱持懷疑。然而過去10年間,電腦視覺在日常生活(例如臉孔辨識)和醫學領域的應用可謂一日千里,進步動力主要來自深度學習演算法的發展:給電腦一組影像,讓電腦在影像中尋找關聯,最後建立關聯網路。把AI應用於醫學影像時,我們可能告訴電腦哪些影像裡有癌症,然有後讓電腦找出那些病理影像的共同特徵,而這特徵是正常醫學影像所沒有的。

放射學領域研發並應用AI的速度非常快,勞烏說:「過去一年來,我參加的每場大型會議主題都是AI與醫學影像,顯然這是非常熱門的主題。」

美國食品及藥物管理局(FDA)表示,他們沒有列表統計已核准AI應用的有多少,但加州斯克里普斯研究院的數位醫學研究員托波爾(Eric Topol)估計,FDA平均每月都會核准至少一項AI應用產品。2018年一家行銷情報公司「反應數據」(Reaction Data)調查發現,84%的放射科診所已採用或計畫採用AI醫學應用程式,這個領域在中國格外快速成長,有超過100家公司正設計AI醫學應用程式。


以色列特拉維夫新創公司「天醫」(Aidoc)的總裁沃洛克(Elad Walach)說:「現在這個市場正處於最有趣的階段。」天醫研發的演算法可分析電腦斷層掃描(CT)影像並找尋異常之處,然後把CT影像有異常的病患列入醫師優先看診名單。救治病患分秒必爭,全世界醫學造影儀器的主要製造廠「奇異醫療」(GE Healthcare)副總裁兼AI部門經理約德(Karley Yoder)說:「每位和我聊過的醫生都有一個來不及挽救氣胸病患的故事。」去年9月FDA核准一套AI工具,將會裝設於GE的掃描儀中,自動標示最緊急的病例。


由於電腦能處理巨量資料,因此能執行超出人類能力的分析工作。例如Google開發的一款AI演算法,就是利用電腦的計算能力,把二維的肺部CT影像重建為三維肺部結構,然後檢查整個構造來判斷是否有癌症。相對地,傳統方法中放射科醫生必須檢查每張影像,然後在腦海中重建肺部構造。Google還研發了另一款演算法,能達成放射科醫生辦不到的事:從病患的視網膜掃描結果,偵測出血壓、膽固醇、吸菸和老化造成的細微變化,從而判斷病患罹患心血管疾病的風險。Google產品經理謝(Daniel Tse)說:「有一些潛在跡象是我們以前不知道的。」


黑盒子問題

AI程式可能會找到生物特徵和病患預後的全新關聯。去年一篇發表在《美國醫學會期刊網路公開版》的論文,描述了一種以8萬5000多張胸腔X光影像訓練的深度學習演算法,這些X光影像來自兩項大型臨床試驗,追蹤病患超過12年,演算法評估每名病患在12年內死亡的風險。研究人員發現,相對於低風險病患的4%死亡率,53%被AI列入高風險的病患在12年內死亡,研究人員並未告訴電腦演算法關於死亡名單或死亡原因等資訊。

這篇論文的第一作者、麻州綜合醫院放射科醫生陸(Michael Lu)說,若結合醫生的醫療診斷和遺傳資訊等資料使用,演算法對病患健康情況的評估會是有用的工具。為了理解演算法如何運作,研究人員找出電腦計算風險所使用的影像區域。有些區域看起來合情合理,例如腰圍和女性乳房構造,因為這些部位確實有一些已知的風險因子與特定疾病相關。但演算法也檢查了影像中肩胛骨下方,我們並不清楚這是否代表任何重要的醫學意義。陸推測身體的靈活度也是預測壽命長短的因子。胸腔X光攝影檢查需要病患抱著掃描儀,健康較差的病人可能手臂無法完全環抱,造成肩膀擺放方式不同。陸說:「有些因子不是我自己能想到或理解的。」

這種電腦運作和人類思維脫節的現象稱為「黑盒子問題」:電腦在人類無法觸及的隱密空間裡運作。它對醫學影像是否會造成問題,專家看法分歧。另一方面,如果演算法能持續增進醫生的醫療診斷和病患健康,那麼或許醫生並不需要知道它如何運作,畢竟研究人員也不清楚許多藥物的作用機制,例如從1950年代就用來治療憂鬱症的鋰鹽。托波爾說:「也許我們不該那麼執著,人類在醫學領域的工作方式其實也和黑盒子差不多,我們該要求AI符合更高的標準嗎?」


然而不可否認黑盒子問題可能會導致人類對AI產生誤解。例如西奈山醫院伊坎醫學院的研究人員就百思不解,他們研發深度學習演算法從胸腔X光影像中找出肺炎病患,但這款演算法表現不一致,演算法在判讀西奈山醫院拍的胸腔X光影像準確度超過90%,但對來自其他醫療機構的胸腔X光影像準確度就差很多。最後他們終於找出原因:演算法除了分析影像外,還考慮了每個醫療機構出現肺炎病例的機率,這並不是研究人員預期或想要程式做的事。


諸如此類的干擾因素,讓哈佛醫學院研究機器學習生物醫學應用的芬雷生(Samuel Finlayson)感到擔憂,他指出用來訓練AI的資料集可能隱藏著研究人員意想不到的偏見,例如比起例行檢查,一張在急診室或深夜時拍攝的影像更有可能讓演算法判定被拍攝者罹病。此外,演算法也有可能學會找尋疤痕或植入式醫療裝置,這些跡象顯示病患過去曾有健康問題,因此讓演算法研判沒有這些特徵的患者就沒有病症。甚至醫療機構標記影像的方式也有可能混淆AI演算法,讓一台在某機構運作良好的電腦到了使用不同標記系統的機構就失效。芬雷生警告:「如果你訓練演算法時天真地只用來自一家醫院的某個地點、某段時間和特定群體,你可能會忽略模型納入考量的成千上萬個小因素,一旦上述任何條件改變,可能就會造成嚴重錯誤。」


芬雷生說,解決辦法是用來自許多地點和多樣化群體的資料來訓練演算法,然後不做任何修正,用它去測試另一群新病患。然而很少演算法以這種方法來測試。根據托波爾最近發表於《自然.·醫學》的評論,在幾十篇宣稱AI表現比放射科醫生好的研究中,只有少數幾篇測試了開發時之外的群體。杜克大學資訊科學家魯丁(Cynthis Rudin)說:「演算法非常脆弱,把它應用於訓練組以外的影像,不一定能發揮功用。」


隨著研究人員漸漸意識到這個問題的嚴重性,可預見未來會有較多在全新情境下測試的前瞻性研究。芭茲萊團隊最近完成了乳房X光影像AI程式的測試,他們使用來自瑞典卡洛林斯卡學院的一萬張乳房X光影像,發現AI的表現和判讀來自美國麻州的影像一樣好。現在團隊也與台灣及美國底特律的醫院合作,來測試多樣化的病患族群。團隊還發現,把評估乳癌風險的現有標準套用在非裔美國人時較不準確,芭茲萊說,那是因為制定這些標準時使用的影像大部份來自白人女性,「我想我們確實有能力改善這個情況。」


法律責任歸屬

即使AI能做出正確的醫學診斷,黑盒子問題仍會引發一些法律上的顧慮。當AI診斷錯誤,我們很難判定是醫生的責任、還是程式的責任。密西根大學醫療法律專家普萊斯(Nicholson Price)說:「醫療過程中會發生很多不好的事,你不一定能知道為什麼這些壞事會發生。」如果AI系統誤導醫生做出錯誤診斷,醫生可能無法辯解原因,而AI公司把測試方法視為必須嚴加保護的商業機密。醫學AI系統仍然太過新穎,未曾面臨過醫療訴訟的挑戰,所以我們不清楚法庭會如何判定責任歸屬和可容許的透明度。

建立黑盒子演算法的趨勢讓魯丁感到氣餒。這個問題源自大多數醫學演算法是由其他影像分析類型的深度學習工具改造而來。但改造黑盒子演算法來檢查醫學資料,和一切從頭開始建立高透明度的演算法,兩者困難的差異不可相提並論,魯丁懷疑這就是為什麼大多數研究人員都選擇先讓演算法運作,再來想辦法了解它是如何獲得結論。

魯丁正開發高透明度的AI演算法,來分析乳房X光影像是否疑似有腫瘤,她也經常告訴研究人員工作計畫,然而她的研究卻因為缺乏可用來訓練演算法的影像而陷入困境。魯丁說公開的X光影像資料往往標記不清或是用已淘汰的舊機器拍攝,如果沒有大量多樣化的資料集,演算法很容易受干擾因子影響。

除了黑盒子問題,AI演算法從經驗中學習的能力也為監管單位帶來挑戰,它和作用機制永遠一樣的藥物不同,機器學習演算法會隨著時間演變,在接觸更多病患資料後改進。由於演算法會從各式各樣的輸入資料來找尋意義,醫院裡一些貌似無害的變動可能就會毀掉AI程式,例如新的資訊科技系統。托波爾說:「電腦和人一樣會生病,它們也會感染惡意軟體,當你有病人命懸一線時,你不能只信任一款演算法。」

去年4月,FDA擬定了規範準則以監管會隨著時間改變的演算法,其中一條是期望製造商監控演算法如何演變,確保它們的運作和原本設計一致,並要求製造商在發現預期之外的改變時通知FDA,以判斷產品是否需要重新評估。FDA也正研擬最佳製造規範,可能會要求公司詳列他們預期演算法會如何演變,以及擬定管理演變的規範。FDA數位醫療部門主管巴特爾(Bakul Patel)說:「我們必須了解,這不是一法皆通的情況。」


AI會取代醫生嗎?

2012年科技創投家、昇揚電腦公司共同創辦人柯斯拉(Vinod Khosla)預測演算法將會取代80%的醫生時,醫學界極為震驚。2015年美國放射科住院醫生職缺只有86%就職,前一年是94%,這數字在後來幾年雖有改善,但根據2018年對加拿大322名醫學生的調查,68%學生相信AI會降低放射科醫生的需求人數。不過多數專家和AI製造商並不認為短期內AI會取代醫生,即使演算法在診斷特定問題時表現得比人類好,但還是要結合醫生的專業經驗與對病人個別情況的了解,才能獲得最佳醫療結果。能把一項工作做得很好的AI,可以分擔放射科醫生的繁瑣工作,而有更充份的時間與病患溝通。不過勞烏和其他人相信,未來幾年內,放射科醫生接受的專業訓練、使用的工具和他們的日常工作,將會因AI而劇烈改變。史丹佛大學醫學中心放射科醫生藍格洛茲(Curtis Langlotz)說:「AI不會取代放射科醫生,但使用AI的放射科醫生將會取代不使用AI的醫生。」不過凡事都有例外。2018年FDA核准了第一款不需要醫生檢查影像就可直接做出醫學診斷的演算法。這款程式由愛荷華州的IDx科技公司研發,它能檢查視網膜影像,預測糖尿病引起的視網膜病變,根據該公司數據,準確度達87%。IDx執行長阿布拉莫夫(Michael Abramoff)說,因為沒有醫生參與,他們公司會承擔任何醫療錯誤的法律責任。

在短期內,AI演算法較可能輔助醫生而非取代。例如開發中國家的醫院可能沒有大型醫療中心使用的先進掃描儀器,或是受過訓練能判讀影像的放射科醫生。蘭格倫說,當醫學變得更專業並仰賴影像分析,富裕和貧窮地區的醫療水準差距也會越來越大,演算法可能是讓差距縮小的便宜方法。AI另一個短期目標是檢查病歷記錄,來評估患者是否需要接受影像檢查。許多經濟學家相信醫學影像檢查已遭濫用:美國每年有超過8000萬人接受CT檢查。雖然這些豐富的影像資料有助於研究人員訓練演算法,但醫學影像檢查費用昂貴,且會讓病患接受不必要的輻射。

芭茲萊說,AI最終會成為有用的工具,做為放射科醫生目光敏銳的合作夥伴,幫助偵測並解決醫生無法獨自應付的難題。她說:「如果有方便且可描述的模式,人類早就辦到了。」而她從親身經歷得知,情況往往不是如此簡單。


更多文章
活動推薦更多
追蹤科學人