Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

Google AMIE 的視覺飛躍:多模態 AI 如何重塑醫療診斷

 

 

圖靈學院
科楠
2025-05-06

 

引言:當 AI 學會「看見」:醫療診斷的下一個前沿

 

    在科技日新月異的浪潮中,人工智慧 (AI) 正以前所未有的深度和廣度滲透到各行各業,而醫療健康領域無疑是其最具變革潛力的舞台之一。從輔助藥物研發到優化醫院管理,AI 的應用場景不斷拓展。近期,Google Health 再次投下一顆震撼彈,其研發的診斷型 AI:AMIE (Articulate Medical Intelligence Explorer),不僅能理解人類的語言,更進化到能夠「看見」並解讀醫療影像。這項從文本到視覺的多模態突破,不僅標誌著 AI 技術本身的顯著進步,更為我們描繪了一幅未來醫療診斷可能發生的深刻變革圖景。本文將深入報導 Google AMIE 的最新研究進展,探討其技術核心與模擬評估結果,並結合評論分析,探討多模態 AI 在醫療領域的巨大潛力、面臨的挑戰,以及其對醫病關係和未來醫療生態可能產生的深遠影響。

 

Google AMIE 的視覺突破

 

    人工智慧 (AI) 在醫療領域的應用正以驚人的速度發展,而 Google Health 的最新研究成果再次將界線向前推進。其名為 AMIE (Articulate Medical Intelligence Explorer) 的診斷型 AI,如今不僅能理解文字,更能「看見」並解析醫療影像,實現了從單純文本對話到多模態理解的關鍵飛躍。這項進展發表於 Google 的最新研究中,展示了 AI 在模擬臨床環境下處理視覺醫療資訊的潛力。

 

想像一下,未來您與 AI 醫生進行線上諮詢時,不再僅限於描述症狀。您可以直接上傳一張令人擔憂的皮疹照片,或是一份心電圖 (ECG) 的掃描檔,而 AI 不僅能讀懂您的文字描述,更能直接分析這些影像,將其納入診斷考量。這正是 Google AMIE 最新研究的核心目標:讓 AI 具備如同人類醫生般,整合文字與視覺線索進行診斷的能力。

 

先前的研究(已發表於《自然》期刊)已經證明,AMIE 在純文字的醫療對話中展現出令人期待的表現。然而,真實世界的醫療實踐遠不止於文字交流。正如 Google 研究團隊所指出的,醫生在診斷過程中高度依賴視覺資訊——觀察皮膚狀況、判讀儀器讀數、檢視實驗室報告等。即使是基礎的即時通訊平台,也允許用戶透過分享靜態的多模態資訊(如圖片和文件)來豐富討論內容。因此,一個僅限於文本處理的 AI,顯然缺少了醫療診斷拼圖中至關重要的一塊。研究人員面臨的核心問題是:「大型語言模型 (LLM) 是否能夠進行結合此類更複雜資訊(指視覺資訊)的診斷性臨床對話?」

 

賦予 AI 視覺:AMIE 的技術核心與模擬評估

 

    為了讓 AMIE 具備「看見」的能力,Google 的工程師們進行了關鍵的技術升級。他們採用了 Google 強大的 Gemini 2.0 Flash 模型作為 AI 的核心大腦,並結合了一套創新的「狀態感知推理架構 (state-aware reasoning framework)」。這套架構並非讓 AI 僅僅遵循預設腳本,而是使其能夠根據對話過程中已獲取的資訊以及尚需釐清的疑點,動態調整其溝通策略與資訊需求。

 

這種運作模式,在某種程度上模擬了人類臨床醫生的工作流程:首先收集病患的基本病史與主訴,接著逐步形成可能的診斷假設,然後針對性地提出問題或要求提供更具體的資訊:現在更包括了視覺證據,以縮小診斷範圍,最終達成更精確的判斷。Google 解釋道:「這使得 AMIE 能夠在需要時,主動要求相關的多模態物件(如影像),準確地解讀其發現,將這些資訊無縫整合到進行中的對話裡,並利用它來完善診斷。」

 

具體來說,AMIE 的對話流程被設計為分階段進行:從初步的病史收集,到診斷與處置建議的形成,再到最後的追蹤管理。在這個過程中,AI 會持續評估自身的理解程度,一旦偵測到資訊缺口,便會主動請求補充,例如要求上傳皮膚病灶的照片或是實驗室的檢驗報告。


為了在不涉及真實病患、避免潛在風險的前提下,安全有效地訓練和評估這種新型態的 AI,Google 建立了一個高度擬真的「模擬實驗室」。研究團隊精心創建了逼真的虛擬病患案例,整合了來自權威醫療影像資料庫(如 PTB-XL ECG 資料庫和 SCIN 皮膚病學影像集)的真實醫學影像與數據,並利用 Gemini 模型為這些案例添加了合理的背景故事與病程描述。接著,他們讓 AMIE 在這個模擬環境中與「虛擬病患」進行對話互動,並透過自動化流程評估其在診斷準確性、避免錯誤(或稱「幻覺」,即 AI 產生不實資訊)等方面的表現。

 

虛擬 OSCE:嚴格的臨床技能檢驗

 

    真正的考驗來自於一項模擬醫學生臨床技能評估標準的測試——客觀結構化臨床考試 (Objective Structured Clinical Examination, OSCE)。Google 設計並執行了一項遠端研究,涵蓋了 105 種不同的醫療情境。

 

在這項研究中,由受過專業訓練、能夠一致性地扮演病患角色的真人演員,分別與新開發的多模態 AMIE 或真實的人類初級照護醫師 (Primary Care Physicians, PCPs) 進行互動。這些互動是透過一個特製的介面進行,該介面允許扮演「病患」的演員上傳圖片,模擬現代遠距醫療或通訊軟體中的常見操作。

 

互動結束後,來自皮膚科、心臟科和內科的專科醫生,以及扮演病患的演員們,共同對這些對話記錄進行了詳細的審查與評分。評估的面向極為廣泛,涵蓋了病史詢問的完整性、診斷的準確性、建議處置計畫的品質,乃至於溝通技巧與同理心表達等軟技能。當然,其中一個核心評估重點,便是 AI 對於視覺資訊的解讀能力。

 

模擬診間的驚人發現

 

    研究結果令人矚目。在這項嚴謹控制的模擬 OSCE 環境下的直接比較中,Google 發現 AMIE 不僅表現不俗,甚至在多個關鍵指標上超越了參與研究的人類初級照護醫師。


首先,AI 在解讀對話過程中分享的多模態數據(即醫療影像)方面,被評為優於人類醫生。其次,AMIE 在診斷準確性上得分更高,其產生的鑑別診斷列表(按可能性排序的潛在疾病清單)被專科醫生認為,基於案例的詳細資訊,更加準確和完整。

 

審查對話記錄的專科醫生們,傾向於在大多數評估維度上給予 AMIE 更高的分數。他們特別指出了 AMIE 在「影像解讀與推理的品質」、診斷檢查計畫的周全性、處置計畫的合理性,以及識別需要緊急處理情況的能力等方面的優異表現。

 

或許最令人意外的發現之一來自扮演病患的演員:在這些純文字(輔以圖片)的互動中,他們普遍認為 AI 比人類醫生更能展現同理心,且更值得信賴。


在安全性方面,研究也帶來了令人鼓舞的結果:比較 AMIE 基於影像做出錯誤判斷(產生幻覺)的頻率與人類醫生犯錯的頻率,兩者之間並未發現統計學上的顯著差異。

 

此外,著眼於技術的持續進步,Google 也進行了初步測試,將 AMIE 的核心模型從 Gemini 2.0 Flash 替換為更新的 Gemini 2.5 Flash。利用其模擬評估架構進行的測試結果暗示,新模型有望帶來進一步的性能提升,特別是在提高診斷準確率(Top-3 Accuracy,即正確診斷在前三個可能性之內的比例)和提出適當處置計畫方面。然而,研究團隊也審慎地補充,這些僅是自動化評估的初步結果,「必須透過專科醫生的嚴格審查,才能最終確認這些性能上的益處。」

 

解讀 AMIE 的視覺飛躍:潛力、挑戰與深層影響

 

    Google AMIE 具備視覺理解能力的研究成果,無疑是 AI 醫療領域一個令人興奮的里程碑。它不僅僅是技術上的突破,更預示著未來醫療服務模式可能發生的深刻變革。然而,在為其潛力歡呼的同時,我們也必須審慎地分析其研究結果、潛在影響以及從實驗室走向真實臨床應用所面臨的重重挑戰。

 

多模態 AI:診斷能力的質變

 

    從純文字到多模態,這不僅是輸入方式的增加,更是 AI 診斷能力的一次質變。人類醫生的診斷過程本身就是一個多模態資訊融合的過程,結合病患的口述、視覺觀察(體徵、影像學檢查)、聽覺資訊(聽診)甚至觸覺資訊(觸診)。AMIE 納入視覺解讀能力,使其向模擬人類醫生的綜合診斷能力邁進了一大步。這意味著 AI 不再僅僅是處理抽象的文字符號,而是開始理解更接近物理世界的具象資訊。對於皮膚病、眼科疾病、影像判讀(如 X 光、CT、ECG 圖譜)等高度依賴視覺資訊的醫學領域,其潛在應用價值尤為巨大。想像一個能夠初步判讀皮膚鏡影像、分析眼底照片或識別心電圖異常的 AI 助手,無疑能極大提升早期篩查和輔助診斷的效率與可及性。

 

AI vs. 人類醫生:模擬環境下的驚人對比與現實考量

 

    模擬 OSCE 研究中,AMIE 在多項指標上超越人類初級照護醫師的結果,既令人驚訝,也需要客觀解讀。AI 在處理結構化資訊、快速檢索龐大知識庫、保持一致性以及嚴格遵循預設邏ilderivative reasoning framework) 方面具有天然優勢。在一個標準化的、資訊相對完整的模擬環境中,AI 能夠更「完美」地執行被設定的任務,例如更全面地列出鑑別診斷、更精確地解讀提供的影像。這反映了 AI 在特定、受控條件下處理資訊的強大能力。

 

然而,這絕不意味著 AI 已經可以取代人類醫生。研究本身的局限性必須被充分認識:


模擬環境的簡化性: 真實臨床遠比 OSCE 複雜。病患的表述可能模糊不清、充滿矛盾,病情可能涉及多系統、罕見組合,社會心理因素、溝通障礙、非預期狀況層出不窮。AI 目前能否應對這種高度不確定性和複雜性,仍是未知數。

 

互動模式的限制: 純文字(加靜態圖片)的互動,遠不能還原真實醫病互動的豐富性。醫生的經驗不僅在於知識,更在於從病患的語氣、表情、肢體語言中捕捉細微線索,建立信任關係,進行人文關懷。這些是目前 AI 難以完全複製的。


評分標準的側重: OSCE 的評分標準可能更側重於資訊處理的準確性和完整性,這恰好是 AI 的強項。人類醫生在實際工作中可能需要權衡效率、成本、病患接受度等多重因素,其決策過程未必能在標準化考試中得到完美體現。

 

令人意外的「同理心」:文字互動的特殊性

 

研究中「病患演員認為 AI 更具同理心和可信賴」的發現尤其引人深思。這可能部分歸因於文字互動的特性。在純文字環境下,AI 可以被設計為始終使用耐心、禮貌、詳盡且結構清晰的語言,避免了人類可能因疲勞、情緒或偏見而產生的不耐煩或疏忽。AI 可以不知疲倦地解釋、詢問,給予使用者充分的關注感。相比之下,真實醫生在繁忙的工作壓力下,其文字溝通(如果透過訊息平台)未必總能達到同樣的「完美」狀態。這並不代表 AI 真正擁有了人類的情感同理心,而更可能是在特定互動模式下,其程式化的「最佳溝通實踐」給使用者帶來了更好的體驗。這也提醒我們,在評估 AI 的「軟技能」時,需要區分是真實的情感理解,還是優化的互動設計。

 

倫理與安全的警鐘

 

    儘管研究顯示 AMIE 的影像誤判率不顯著高於人類醫生,但 AI 在醫療領域的應用,倫理與安全始終是懸在頭頂的達摩克利斯之劍。數據偏見可能導致 AI 對特定人群的診斷存在系統性偏差;演算法的不透明性(黑盒子問題)使得錯誤難以追溯和修正;數據隱私和安全更是重中之重。此外,過度依賴 AI 可能導致醫生自身技能退化,以及當 AI 建議與醫生判斷衝突時如何決策等問題,都需要在技術發展的同時,建立完善的倫理規範和監管架構。

 

從實驗室到臨床:AMIE 的未來之路與展望

 

    Google AMIE 的多模態能力展示了 AI 在醫療領域的巨大潛力,但從令人鼓舞的研究成果走向安全、可靠、公平且被廣泛接受的臨床應用,仍然是一條漫長且需要謹慎導航的道路。

 

現實世界的檢驗:不可或缺的下一步

 

    Google 非常清楚模擬研究的局限性,並強調「這項研究探索的是一個僅供研究的系統……其實質上低估了真實世界照護的複雜性」。將 AMIE 從模擬環境推向真實臨床場景,是驗證其價值的關鍵一步。與 Beth Israel Deaconess Medical Center 的合作研究,將是觀察 AMIE 如何應對真實病患、複雜病史、非標準化數據以及臨床工作流程整合等挑戰的試金石。真實世界的數據往往充滿噪音、缺失和意想不到的變化,AI 的魯棒性(Robustness)和適應性將面臨嚴峻考驗。此外,如何在保護病患隱私的前提下,合規地收集和使用真實醫療數據進行訓練和驗證,也是必須解決的難題。

 

超越靜態影像:擁抱動態與多源資訊

 

    目前 AMIE 的視覺能力主要集中在靜態影像(照片、圖譜)。然而,現代遠距醫療越來越多地採用視訊通話,其中包含了豐富的動態視覺資訊(如病患的表情、動作、呼吸模式)和語音資訊。未來的 AI 診斷系統需要具備處理即時視訊流和語音的能力,才能更全面地輔助遠距診斷和監測。這不僅對 AI 的多模態融合能力提出了更高要求,也對計算資源和即時處理能力帶來了挑戰。

 

人機協作:重新定義醫療團隊

 

    AMIE 的目標並非取代醫生,而是成為輔助工具,提升醫療服務的效率和品質。未來的醫療場景更可能是人機協作的模式。AI 可以承擔部分重複性、資訊密集型的工作,如初步的病歷整理、影像篩查、文獻檢索、提供鑑別診斷建議等,讓醫生能將更多精力投入到複雜決策、與病患的深度溝通和人文關懷上。如何設計高效、無縫的人機交互介面,如何建立清晰的責任劃分機制,以及如何對醫生進行相關的 AI 工具使用培訓,都是實現成功人機協作的關鍵因素。

 

公平性與可及性:AI 醫療的雙刃劍

 

    AI 有潛力打破地域限制,將優質的醫療知識和初步診斷能力帶到醫療資源匱乏的地區,提升醫療服務的可及性。然而,AI 的開發和部署也可能加劇現有的醫療不平等。如果 AI 模型的訓練數據主要來自特定人群,可能導致其在其他人群上的表現不佳;高昂的技術成本也可能使得先進的 AI 醫療服務僅限於部分地區或人群。確保 AI 醫療的公平性,避免數位鴻溝的擴大,是技術發展過程中必須高度關注的社會議題。

 

謹慎樂觀,擁抱變革

 

    Google AMIE 的視覺突破是 AI 醫療發展的一個縮影,它展示了技術的無限可能,也提醒我們前路充滿挑戰。從模擬環境的出色表現,到真實臨床的複雜考驗;從靜態影像的解讀,到動態多模態資訊的融合;從單純的技術驅動,到倫理、安全、公平和人機協作的綜合考量——每一步都需要科學界的嚴謹探索、產業界的審慎推進、監管機構的有效規範以及社會各界的廣泛討論。

 

我們有理由對 AI 為醫療帶來的變革保持謹慎的樂觀。AMIE 及其同類研究,正為我們描繪一個更智能、更高效、更可及的醫療未來。但通往這個未來的道路,必須以病患安全為最高準則,以人本關懷為核心價值,確保技術的發展真正服務於人類的健康福祉。

 

結論:迎接 AI 視覺賦能的醫療新時代

 

    Google AMIE 的多模態進化,特別是其整合視覺資訊進行診斷的能力,是 AI 醫療發展道路上一個值得高度關注的里程碑。研究結果展示了 AI 在處理複雜醫療資訊方面的驚人潛力,尤其是在模擬環境下超越人類醫生的表現,以及在文字互動中展現出的「同理心」,都為我們帶來了深刻的啟示和思考。

 

我們必須清醒地認識到,從實驗室的成功走向真實世界的廣泛應用,挑戰與機遇並存。模擬環境無法完全複製臨床實踐的複雜性與不確定性,AI 的安全性、公平性、倫理規範以及與人類醫生的協同合作模式,都是未來發展中必須審慎處理的關鍵議題。將靜態影像處理能力擴展到動態視訊和多源感測器資訊,將是下一階段技術演進的重要方向。

 

AMIE 這類先進 AI 的價值,不在於取代人類醫生,而在於賦能。它們有望成為醫生的得力助手,分擔繁重的信息處理工作,提高診斷效率與準確性,擴大優質醫療資源的可及性,讓醫生能更專注於提供具有溫度的人文關懷。迎接 AI 視覺賦能的醫療新時代,需要我們保持開放的心態,擁抱技術革新,同時堅守以人為本的核心價值,確保科技的發展始終為了增進人類的健康福祉。這段旅程才剛開始,謹慎樂觀、持續探索、嚴格驗證,將是引導我們走向更智能、更公平、更人性化醫療未來的關鍵。

 

 


參考資料:
Daws, R. (2025, May 2). Google AMIE: AI doctor learns to ‘see’ medical images. Artificial Intelligence News. Retrieved from