Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

《AI超越人類專家:劃時代的CytoDiffusion模型,如何精準解讀血液形態學,開啟血液病診斷新篇章》

 

 

利創智能圖靈學院
科楠老師
2025-11-28


引言:血液學診斷的複雜挑戰與傳統AI的局限

 

    血液細胞形態學評估是血液學診斷的基石,為各種病理狀況提供了至關重要的見解。然而,這項複雜的任務需要受過專業訓練的專家進行判讀,因為細胞形態存在細微的差異、生物學上的異質性以及技術影像因素的干擾,這都阻礙了自動化方法的發展。血液學系統是最複雜的生理系統之一,並且與所有其他系統都有著獨特的相互關聯。儘管通常通過簡單的「血球計數」來量化細胞類別頻率,但血液學的特徵在個體內部和個體之間都極為豐富且高度可變。

 

    在光學顯微鏡下描述單個血細胞的形態外觀,對於管理血液學疾病至關重要。由於多樣的生物學、病理學和儀器因素對細胞形態的複雜調控,這項任務必須由訓練有素的專家來執行。事實上,形態學特徵描述這項任務本質上是開放式的,缺乏一個明確的真實標準(ground truth):可能存在形態學模式,其微妙性隱藏了巨大的臨床重要性。此外,病理學上的表現可能高度不尋常或獨一無二,即使在最簡單的描述層面,也無法將其歸類到任何類別中。

 

    在這種複雜的臨床背景下,訓練用於自動化形態學特徵描述的機器學習(ML)模型本質上是困難的。雖然近期工作已將判別式模型,特別是卷積神經網路(CNN),應用於血細胞的形態評估,但它們主要基於專家標籤來學習決策邊界。因此,它們並非天生設計來捕捉細胞外觀的完整數據分佈。這項限制使其在處理臨床血液學數據的複雜性和變異性時,難以具備一些理想的特性,例如對分佈偏移(domain shifts)的固有魯棒性、對未見細胞類型的自然異常檢測,以及高數據效率。

 

CytoDiffusion:生成式分類器模型的誕生與核心機制

 

    為了解決這些開放性挑戰,來自劍橋大學、倫敦大學學院和倫敦瑪麗女王大學的研究人員引入了CytoDiffusion,這是一種以擴散模型(diffusion-based generative model)為中心的建模方法。CytoDiffusion的目標是建立血細胞形態的完整分佈模型,而不僅僅是學習一個分類邊界。通過在潛在空間中捕捉底層數據分佈,生成式模型在臨床環境中提供了幾個潛在優勢,包括:促進對分佈偏移的更大魯棒性、實現固有的異常檢測(因為分佈外的樣本表現不佳)、提高數據效率、通過生成反事實解釋來增強可解釋性,以及潛在地簡化新類別或現有類別更細微劃分的納入。

 

    生成式模型被證實能夠避免「捷徑解決方案」(shortcut solutions)。在血細胞圖像分類的背景下,CytoDiffusion必須學習每種細胞類型的完整形態特徵(通過建模分佈),而不是僅關注決策邊界附近的分辨特徵。圖1展示了所提出的建模方法:輸入圖像x0首先被編碼到潛在空間中,接著加入高斯噪聲 epsilon ~N(0, I) 創建一個帶噪的潛在表示 zt。然後,這個表示被送入擴散模型,針對每個可能的類別條件 c,模型會預測噪聲 epsilon_theta。分類決策的依據是選擇使預測噪聲 epsilon_theta 與真實噪聲 epsilon 之間誤差最小的類別(圖1)。

 

 

圖1. 基於擴散的分類模型概述(Deltadahl et al.2025)

 

超越肉眼:連專家都難以分辨的合成圖像

 

    CytoDiffusion具備的關鍵能力是其對潛在分佈的良好掌握。為了驗證CytoDiffusion學習到的形態學特徵分佈是否真實,研究人員進行了一項真實性測試。模型在包含 32,619 張圖像的數據集上進行了訓練。

 

    研究團隊邀請了十位經驗豐富的血液學專家來評估總共 2,880 張圖像。這些專家在區分真實圖像和CytoDiffusion生成的合成圖像時,總體準確度僅為0.523(95%信賴區間:[0.505, 0.542])。這個表現與隨機猜測相當,表明CytoDiffusion生成的合成血細胞圖像,即使對於經驗豐富的專業人員來說,也幾乎無法與真實圖像區分。

 

    此外,通過比較專家對合成圖像的細胞類型分類與生成時使用的條件標籤,條件合成的質量得到了評估。高達 0.986 的高度一致性不僅驗證了生成質量,也證實了CytoDiffusion保留了類別定義的形態學特徵。

 

核心優勢一:臨床關鍵指標的卓越表現

 

    儘管CytoDiffusion在標準分類任務上的基線性能與最先進的判別式模型相比具有競爭力,例如在CytoData、PBC和Bodzas等三個數據集上取得了最優的分類性能(參見表1),但其真正的優勢體現在五個臨床關鍵維度上:魯棒性、異常檢測能力、低數據環境下的效率、不確定性量化和可解釋性。


表1.模型在四個資料集上的效能比較(Deltadahl et al.2025)


1. 異常細胞類型檢測的卓越能力:

 

    在臨床篩查血液系統惡性腫瘤(特別是白血病和骨髓增生異常綜合徵)時,檢測原始細胞(blast cells)至關重要,且需要極高的靈敏度以最大程度地減少可能導致漏診的假陰性。

 

  • Bodzas數據集: 以原始細胞作為異常類別,CytoDiffusion實現了高靈敏度(0.905)和高特異性(0.962)。相比之下,ViT-B/16模型(判別式模型)的靈敏度極差(0.281),不適用於臨床應用。
  • PBC和CytoData數據集: 以有核紅細胞(erythroblasts)作為異常類別,CytoDiffusion也實現了比ViT更高的靈敏度,同時保持了高特異性。

 

    這些結果證明了該模型能夠區分它訓練過的正常細胞與訓練數據中不存在的異常細胞類型,並保持臨床應用所需的高靈敏度。在異常檢測方面,CytoDiffusion的曲線下面積(AUC)達到了0.990,遠優於判別式模型(0.916)(圖2a)。

 

 

圖2a.核密度估計圖比較了ViT-B/16(上排)和CytoDiffusion(下排)對成紅血球(左列和右列)和原始細胞(中列)的異常檢測性能。橫軸表示歸一化到[0, 1]範圍內的正常性得分。靈敏度(Sens)和特異性(Spec)值分別顯示了各模型檢測異常細胞和正確分類正常樣本的表現。(Deltadahl et al.2025)

 

2. 對分佈偏移的魯棒性:

 

    分類模型對於分佈偏移的魯棒性,即其在不同成像條件下泛化的能力,對於臨床環境中的實際應用至關重要。在血液學中,由於不同實驗室和醫院之間顯微鏡類型、相機系統和染色技術的差異很常見。

 

    研究人員在具有不同程度分佈偏移的數據集上評估了模型。例如,模型在CytoData上訓練後,應用於PBC和Bodzas數據集。PBC是使用不同代次的CellaVision技術創建的,而Bodzas是通過手動染色創建的。在所有四個不同分佈偏移的數據集上,CytoDiffusion的準確度均達到最優(參見Extended Data Table 1),例如,在挑戰最大的LISC數據集上,CytoDiffusion準確度為0.854,明顯優於EfficientNetV2-M的0.738 [表2]。


表2. 模型在域偏移下的效能(Deltadahl et al.2025)


3. 低數據環境下的效率:

 

    在醫學應用中,大規模、良好註釋的數據集可能稀缺。研究在每類僅有 10、20 和 50 張圖像的有限訓練數據子集下進行。結果表明,CytoDiffusion始終優於判別式模型EfficientNetV2-M和ViT-B/16(圖3b)。在數據最稀缺的條件下,這種優勢尤為顯著。這種數據效率在將類別劃分為更細粒度的亞類時至關重要。

 

 

圖3b.在四個細胞學資料集上,對低資料量條件下的模型表現進行了比較。數據點代表平均平衡準確率,陰影區域代表標準差。統計數據是基於五次獨立的訓練過程計算。 AUC,曲線下面積。(Deltadahl et al.2025)

 

核心優勢二:超越人類的元認知與透明決策

 

1. 優於人類專家的不確定性量化:

 

    在任何分類任務中,理解最終決策的不確定性都具有高度信息價值。臨床數據尤其如此,因為分類結果可能影響干預或治療決策。

這項研究獨特之處在於,其數據集納入了人類專家的信心評分,從而提供了比較模型不確定性與人類專家不確定性的機會。不確定性被分解為隨機性成分(類別的固有可區分性)和認知性成分(代理人區分它們的能力)。理想情況下,模型的不確定性應主要由隨機性成分主導。

 

    通過貝葉斯心理測量學分析,研究發現CytoDiffusion的不確定性估計優於人類專家。CytoDiffusion的心理測量功能(Psychometric function)顯示出極佳的擬合度(圖2a),其行為接近於理想觀察者。當使用CytoDiffusion的信心分數作為區分度指標來評估人類專家的表現時(圖2b),它甚至比使用專家自己的信心分數(圖4c)更能描述人類專家表現與準確性之間的關係。

 

 

圖4c.以專家信心為區分度指標,對同一位專家(專家 5)進行心理測量函數分析。(Deltadahl et al.2025)

 

    這種優越的不確定性量化具有兩個主要臨床意義:首先,它實現了高效的分流,高度確定的病例可以自動處理,而不確定的病例則會被標記出來供人工審查。其次,對模型不確定性的透明量化,有助於建立臨床醫生之間的信任。

 

2. 通過反事實熱圖提供視覺化解釋:

 

    可解釋性對於ML模型的臨床部署至關重要。與判別式模型需要通過後驗方法(如Grad-CAM或LIME)生成解釋不同,CytoDiffusion通過其生成過程直接輸出反事實熱圖(counterfactual heat maps)。

 

    反事實熱圖突出了圖像中需要改變哪些區域,才能將其分類為不同的細胞類型。例如,在圖4a中,以嗜酸性粒細胞為例,模型被要求考慮需要哪些改變才能將其分類為嗜中性粒細胞。生成的熱圖($H_{neutrophil}$)揭示了模型主要專注於區分中性粒細胞和嗜酸性粒細胞之間的顆粒度(圖5a)。

 

 

圖5a產生反事實解釋的範例。左圖:嗜酸性粒細胞的原始影像。右中:反事實熱圖(Hneutrophil),突出顯示了模型將圖像分類為中性粒細胞需要改變的區域。最右圖:閾值化熱圖與原始影像的疊加,定位了最關鍵的特徵。(Deltadahl et al.2025)

 

    此外,熱圖還揭示了模型對相似細胞類型之間細微差異的理解。在從單核細胞向未成熟粒細胞的轉變中(圖6b,第4行,第6列),模型指示了細胞質的差異:未成熟粒細胞的細胞質更嗜酸性,而單核細胞的細胞質為灰藍色。令人感到興趣的是,模型還建議填充單核細胞的空泡(在熱圖中表現為暗點),這捕捉了單核細胞與其他正常血細胞區分的典型形態學特徵。這些視覺化結果作為一種驗證工具,使臨床醫生能夠驗證分類是基於合法的形態學特徵,而非偽影或虛假相關性,從而使模型更值得信賴。

 

 

圖6b.反事實熱圖矩陣,展示了各種細胞類型轉換過程。對角線元素顯示了每種細胞類型的原始圖像,作為其對應列的來源圖像。同一列中每個非對角線元素代表反事實熱圖 (Hc),展示了從對角線元素(來源)到該行細胞類型(目標)的轉換過程。熱圖中顏色與背景偏差最大的區域表示兩個類別之間潛在空間存在較大誤差的區域。(Deltadahl et al.2025)

 

結論與展望:實現更可靠的醫療AI

 

    CytoDiffusion方法,結合其全面的評估框架,代表了在血液學細胞圖像分類領域邁向更魯棒、可解釋和值得信賴的AI系統的關鍵一步。這種生成式方法的主要優勢在於其能夠學習數據分佈的全面表示,這是其強大性能的基礎。這種深層次表徵學習是模型在異常檢測和分佈偏移魯棒性方面取得成功的合理解釋。

 

    儘管CytoDiffusion的推理過程存在計算成本較高的限制,但對於醫學領域而言,這不是一個主要問題,因為數據集的類別通常少於ImageNet等通用圖像分類任務。未來的研究可以探索利用生成式模型的表徵學習能力來識別新的、具有臨床重要性的亞類。例如,學到的表徵可用於表徵現有類別內的異質性,從而促進識別新的形態信號。

 

    CytoDiffusion在異常檢測中的優勢表現,就像一位經驗豐富的守門員:他不僅知道如何分辨場上穿著標準隊服的球員,還能立刻察覺到任何穿著非標準服裝、試圖混入隊伍的外來者,因為他對「標準隊服」的每一個細節(數據分佈)都有著深刻的理解和模型。

 

 

參考資料
Deltadahl, S., Gilbey, J., Van Laer, C., Boeckx, N., Leers, M. P. G., Freeman, T., Aiken, L., Farren, T., Smith, M., Zeina, M., MacDonald, S., Gleghorn, D., Rudd, J. H. F., Piazzese, C., Taylor, J., Gleadall, N., Schönlieb, C.-B., Sivapalaratnam, S., Roberts, M., & Nachev, P. (2025)。Deep generative classification of blood cell morphology。Nature Machine Intelligence。https://doi.org/10.1038/s42256-025-01122-7。