「華為 SuperPoD 評論：挑戰 NVIDIA 的超節點 AI 算力新格局」

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人科楠老師的願景

「華為 SuperPoD 評論：挑戰 NVIDIA 的超節點 AI 算力新格局」

圖靈學院
科楠老師
2025-10-6

引言：為什麼要「超節點」？

近年來，人工智慧（AI）模型規模爆炸式成長，從數十億參數一路衝到上千億、甚至萬億級別。隨之而來的，是對算力、帶寬、互聯延遲、資源調度效率的極端考驗。傳統靠多台伺服器組成「集群」再靠軟體層溝通的方式，當規模越大，瓶頸就越明顯：通訊開銷、同步延遲、資源不均、能效損耗等問題都會被放大。

「超節點」（SuperPod）這個概念，本質上就是在硬體互聯層面做突破，將多個計算單元緊密耦合，使整體在邏輯上像是一台巨型「單機」在運作。英偉達早有相似概念，而華為正是在這條路上做新的投入與創新。

華為此次發表的 SuperPoD 技術，並非單一產品，而是一整套從硬體、互聯協議、資源池化設計、軟體支持到生態開放的技術體系。本文會從架構、優勢、挑戰與未來展望幾個面向，作比較全面的觀察。

華為 SuperPoD 的技術架構與設計亮點

以下是我從公開資料整理出的幾個核心技術與設計方向：

1. 統一互聯協議：UnifiedBus（靈衢）／UB-Mesh

華為在大會上強調，SuperPoD 核心在於其「統一匯流互聯協議」（UnifiedBus, 又稱靈衢），這是 SuperPoD 架構能夠把多個計算單元整合為一體的關鍵。

這個協議覆蓋光電互聯、網絡拓撲、協議算法等層面。華為稱它可支持超長距離、高可靠性、低時延的通訊連接。

在具體拓撲方面，華為推出了 UB-Mesh（遞歸直連網絡）架構，它能支援單板內、板間、機架間的 NPU 全互聯。以 64 卡為步長按需擴展，最高可達 8192 卡互聯。

此外，華為宣稱在其最新的 Atlas 950 SuperPoD 中實現了「零線纜電互聯」以及液冷接頭浮動盲插設計，並且將光模組在液冷下的可靠性提升了一倍。

這套設計意在減少傳統電纜布線的複雜度與調試困難，同時提高通訊性能與可靠性。

2. 擴展能力與規模

華為並不只是做個小試驗品，而是瞄準極大規模。以其最新的產品線為例：

Atlas 950 SuperPoD：支援 8,192 張昇騰（Ascend）加速卡。
Atlas 960 SuperPoD：支援 15,488 張昇騰卡（未來版本規劃）
在集群層面，華為提出 SuperCluster 構想：多個 SuperPoD 組合成更大算力系統。例如 Atlas 950 SuperCluster 可超過 50 萬張卡，Atlas 960 可達百萬張卡規模。

這樣的規模意味著：單一系統如果要達到類似算力，傳統集群架構可能要跨越更多節點、更複雜的網絡結構。SuperPoD 的優勢，在於「縮短節點距離、統一資源管理」的可能性。

3. 通用計算引入：TaiShan 950 SuperPoD

有趣的是，華為並不只把 SuperPoD 用在 AI 計算加速領域，也將其推向通用計算領域。這意味著它有可能替代傳統的大型機／小型機／數據庫一體機（如 Oracle Exadata 等）。

具體來說，華為發布 TaiShan 950 SuperPoD，基於 Kunpeng 處理器，並結合 GaussDB 分布式數據庫。在此架構下，它在資料庫、虛擬化、大數據分析場景中，都宣稱能展現出低時延、高帶寬、內存池化等優勢。

例如，在資料庫場景下，華為宣稱 tpmC 性能可提升 1.9 倍；在虛機熱遷移中，可將遷移時間從 100 ms 降到 50 ms。在大數據場景，資源池化與內存借用機制使系統資源利用率從 50% 提升至 70%。

這條路徑是很值得注意的 — 如果 SuperPoD 架構能成功融入通用計算場景，它的潛在應用範圍將遠超 AI 領域。

4. 軟體支持與生態開放

硬體再強，沒有軟體的支持和生態，很難落地。華為在這方面也有布局：

華為表示將開源靈衢 2.0 技術規範，歡迎產業界合作。
在操作系統層面，靈衢組件預計會逐步合入 openEuler 等開源系統。
在 AI 模型部署與服務層面，有學術論文指出：在華為 CloudMatrix384 SuperPod 平台上，有名為 xDeepServe 的模型推理系統，提出將模型拆解為模塊獨立在多個 NPU 上運行、消除瓶頸。該系統還引入名為 XCCL 的通信庫，用來利用全局共享內存實現高效通信。

這些布局顯示，華為並非僅公開硬體 spec，而確實打算從軟體層、工具鏈與應用層與合作方共建。

5. 從 Atlas 900 的累積經驗

在此之前，華為已有 Atlas 900 A3 SuperPoD 方案。公開文檔中可見其參考設計與互聯拓撲，比如採用 HCCS-L1、L2 層級互聯方式。底層通信矩陣、親和性規則、互聯方式都是從這些經驗中演化的。

在 2025 年 WAIC（世界AI大會）上，華為將其昇騰 384 超節點 Atlas 900 展出，作為其「超節點」技術的代表之作，標識其在硬體互聯、低延遲通信方面已有實驗基礎。

在該案例中，華為曾稱其在超節點內的任意兩 AI 處理器間通信帶寬較傳統提升 15 倍，單跳時延降低 10 倍；並且在某些模型下，訓練性能可達傳統集群的 2.5 倍以上。

這些舊案能為新一代 SuperPoD 提供設計、調校與驗證的寶貴數據。

優勢總結：SuperPoD 的潛在價值

綜合以上技術架構與設計思路，我認為華為 SuperPoD 有以下幾個核心優勢：

1. 低延遲、高帶寬互聯
通過 UnifiedBus + UB-Mesh + 光電混合互聯設計，使得節點間通信延遲與阻塞風險降低。對大模型、小包通信場景尤為重要。

2. 資源池化與可擴展性
自底向上支持內存、計算、網絡資源的池化與按需擴展。這讓系統能更靈活地使用閒置資源。

3. 邏輯單體化
對上層看起來像是一台超級機器，簡化管理、減少分布式軟體邊界的複雜度。

4. 從 AI 到通用計算的跨界潛力
如果 TaiShan 950 SuperPoD 的通用計算願景能落實，華為可在資料庫、中台、大數據等領域建立新競爭優勢。

5. 生態與開放策略

若真能把靈衢開源、操作系統整合、工具鏈生態打通，會吸引上下游廠商加入，加速落地。

6. 技術路線自主性

在國際競爭、供應鏈受限的情況下，構建可控的互聯協議與系統架構，對華為本身的戰略自主性意義重大。

風險與挑戰：別被光芒矇住了眼睛

技術願景再好，也要落地才可信。我對 SuperPoD 的實際挑戰與風險做以下評析：

1. 熱設計與冷卻問題

大規模計算單元在物理集群內難免產生高熱。華為雖提出液冷設計與盲插接頭等形式減少故障，但在長期運維、故障隔離、冷卻可靠性方面，依然是硬骨頭。光模組在液冷下要提升可靠性一倍，這本身就是高難度挑戰。

而在風冷機房支持超節點（如 Atlas 850 風冷版）需要更強的設計功力與熱管理技術。

2. 互聯協議與標準化競爭

華為選擇把 UnifiedBus／靈衢開放是正向，但市場上已有 Infiniband、Ethernet／RoCE、NVLink／NVSwitch 等競爭技術。SuperPoD 要被廣泛採用，就得與這些成熟方案形成兼容性或明顯性能優勢。

此外，協議版本演進、容錯設計、兼容性向後支援都是長期工程。在互聯標準尚未定型時，可能存在被封閉或被邊緣化風險。

3. 成本與能效

某些報導指出，華為聲稱其 SuperPoD 設計在性能上可以壓倒競爭對手。舉例來說，華為公布其設計能比 Nvidia 在某些情況下“壓 6.7 倍”算力。([雅虎財經][13]) 但這類宣傳數字往往在理想條件下成立，實際落地時受到功耗、冷卻、通信效率、失效率等因素拖累就難說。

若單卡的能效、功耗比不具備競爭力，即便在集群設計上有優勢，也可能在整體成本上被打回票。

4. 軟體生態成熟度與開發者採納

硬體強不代表軟體生態跟得上。很多 AI 計算平台卡在「最後一哩」是軟體調優、調度策略、通信庫優化、故障恢復、容器化支持等細節。即便底層硬體設計出色，如果上層軟體有瓶頸，效益就大打折扣。

在這一點上，華為已有部分投入（如 xDeepServe），但從論文到商用落地，往往還有很大落差。

此外，社群開發者對於新的互聯協議、新的資源池化框架是否願意接手、投入成本多高，都是不確定因素。

5. 故障隔離與可靠性

在超大規模系統中，單點失效的影響被放大。當整個系統被視為一個邏輯機器時，如果內部某個節點、某個通信鏈路出問題，是否會導致全局性能下滑？如何隔離故障、做熱插拔、容錯切換？這些都是實際運作必須解決的問題。

此外，光模組、接頭、液冷系統、連接器、電源等部分的可靠性要求也極高，一旦某個環節失敗就可能牽一髮動全身。

6. 國際制裁與供應鏈風險

華為在某些高端芯片領域仍受到國際政策與供應鏈限制。即便 SuperPoD 自己設計互聯協議，可控性提高，但如果在關鍵元件（如高端光模組、先進製程晶片等）仍需依賴他人，則仍有約束力。若合作夥伴或部件供應中斷，其計劃可能受挫。

7. 實地部署與機房基建瓶頸

要把 SuperPoD 部署在各地機房，要求機房在電力、冷卻、空間布局、網絡接入等方面都要同步升級。現有的數據中心設施是否能適應如此高密度、高功率、高散熱的機器，是一大挑戰。在很多地區或公司，用戶側本身的基礎設施可能不允許這樣的架構。

與競爭方案的比較觀察

為了比較 SuperPoD 的定位，我做一些對照觀察：

與傳統集群架構

傳統集群以節點 + 網絡交換機 + 通訊協議為主。優點是成熟、靈活、容錯容易、採用率高。但在極大規模下，互聯帶寬與延遲成瓶頸，通訊開銷占比大。SuperPoD 希望在硬體互聯層面縮短這些開銷。

與NVIDIA的 DGX / NVL / SuperPOD

NVL / DGX SuperPOD 是英偉達在高端 AI 集群上的解法，其強項在生態完整、軟體支持成熟。華為若想與之競爭，必須在互聯性能、能效比與成本上具備明顯優勢。公開資料指出華為主打在某些情況下在性能上「壓到 6.7 倍」。但這類宣稱需嚴格驗證。

與異構計算 / 混合雲方案

市場上有些方案將 AI 計算拆散到多種加速器、CPU、FPGA、專用推理芯片等混合協作。在這樣的組合中，通信協調、負載調度是核心挑戰。SuperPoD 若要和這些方案競爭，還要展示其在異構環境下的適應力。

未來可能的關鍵觀察指標

在我看來，判斷華為 SuperPoD 成敗的幾個關鍵指標包括：

1. 實際上線案例與客戶反饋

技術白皮書、論文樣板固然有價值，但最終還是要在真實場景（AI 研發機構、企業雲端、資料庫中心等）中投入運營，才能看出性能與穩定性。

2. 能效比與總持有成本（TCO）

大型部署講究的是長期運營成本。如果每瓦算力成本過高，即使性能強也難以擴張。

3. 互聯協議兼容性與開放程度

如果與現有協議（如 Ethernet／RoCE 等）兼容不好，部署門檻就高。若真的能把 UnifiedBus 規格公開、促成生態建立，那是一大利多。

4. 軟體、生態支持力度

包括通信庫、調度器、中間件、AI 框架適配、容器支援、故障切換策略等。如果這些不能跟上，硬體再好都難完全體現價值。

5. 跨領域應用推廣能力

從純 AI 加速，到通用計算、資料庫、虛擬化等場景的適配能力。如果 TaiShan 950 SuperPoD 願景成功，那麼它不僅是 AI 基礎架構，也可能進入企業運算核心。

6. 供應鏈穩定性與風險控管

包括關鍵元件的可獲得性、替代方案、政策風險等。

結語：技術魅力與落地爭議並存

總結來說，華為 SuperPoD 技術的亮點與潛力確實令人眼睛一亮。它在互聯架構、資源池化、邏輯單體化、通用性延伸、生態構建等面向，展示了強烈的野心與技術創新路線。

然而，從技術轉向產品落地，從樣板系統到大規模商用中間環節的複雜性不可低估。熱管理、可靠性、協議標準化、軟體支持、生態建設這些都是極具挑戰的環節。若華為能在這些方面兌現其承諾，那 SuperPoD 有可能成為下一代 AI / 雲端計算架構的中堅力量；反之，如若被成本、兼容性、穩定性等瓶頸壓制，那麼它可能成為「壯志未酬」的技術願景。

對於關心 AI 基礎設施的人來說，SuperPoD 是一條值得追蹤的路徑。我接下來也會持續觀察其在全球尤其在中國以外市場的進展。

參考來源

1. 華為新聞稿：全球最強算力超節點與集群發布

2. 華為新聞稿：超節點架構創新，開源共築算力底座

3. 科技日報：《超節點互聯技術引領 AI 基礎設施新範式》

4. Tom’s Hardware：Huawei Atlas 950 SuperCluster 能力介紹

5. Artificial Intelligence News：Inside Huawei’s SuperPoD 計畫

6. Cloud & AI Infrastructure 評析：Huawei SuperPod 架構演進

7. IT之家：TaiShan 950 SuperPoD 通算架構介紹

8. 中新報 / 新京報：華為超節點集群規模與戰略

9. 金融時報報導：華為宣稱 SuperPod 設計壓制競爭對手能力

10. 《How Powerful Are Huawei’s New SuperPods and SuperClusters》