Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

AI 與量子計算的歷史性交匯:首個在真實量子硬體上運行的生產級 LLM 增強方案

 


圖靈學院編輯部
2026-6-30

 

引言:當 AI 撞上經典物理牆

 

    近年來,以大語言模型(LLM)為代表的生成式人工智慧(Generative AI)徹底改變了人類與機器的互動方式。然而,這場智能革命的背後卻隱藏著一個不可忽視的「物理阿基里斯之腱」:在現有的經典計算架構下,大模型的每一個可訓練參數都必須佔用經典內存,這使得模型體積與算力基礎設施的需求呈現出難以持續的指數級增長。為了解決這個瓶頸,產業界提出了量化(Quantisation)、剪枝(Pruning)和低秩適應(Low-Rank Adaptation, LoRA)等壓縮技術,但這些方法往往是以犧牲模型的表達能力(Expressive Capacity)為代價 。量子計算憑藉其固有的資源優勢(一個 n 量子位元的系統可以駐留在 2^n 維的指數級希爾伯特空間中,而物理資源僅線性增長),被視為徹底打破這一極限的「聖杯」。過往的量子 AI 研究大多停留在模擬器階段、或是僅限於分類等簡單任務,從未有人成功在真實量子硬體上實現對生產級、自迴歸大語言模型的量子增強。直到由 Multiverse Computing 等機構組成的科學團隊在 arXiv 發布了這篇名為《Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters》的重磅論文,這一技術鴻溝終於被正式填平。該研究成功在包含 156 個量子位元的 IBM Quantum System Two 超導量子處理器上運行,直接為擁有 80 億參數的 Llama 3.1 8B 模型帶來了顯著的性能提升。


Cayley 么正配接卡(CUA)的硬體高效架構

 

    這篇論文之所以能取得歷史性突破,核心在於提出了一種全新且硬體高效(Hardware-Efficient)的架構:Cayley 么正配接卡(Cayley Unitary Adapters, CUA)。

 

1. 拋棄傳統 VQC,改採分塊對角么正矩陣(Block-Diagonal Unitaries, BDU)

 

    過去的量子機器學習多採用變分量子線路(VQC),這類線路通常具有固定的擬設(Ansätze),需要複雜的雙量子位元纠缠門(如 CNOT),且在現有的嘈雜中型量子(NISQ)時代,深度過深會迅速超出量子位元的相干時間(Coherence Budget)。CUA 另闢蹊徑,採用了分塊對角么正矩陣(Block-Diagonal Unitaries, BDU)構造 。它將一個全局的巨型矩陣分解為多個獨立、並行執行的 2n x 2n 小塊(在實驗中固定為 4 x 4 矩陣,對應2顆量子位元)。如此一來,每個子塊在真實量子處理器(QPU)上只需要深度為 19 的原生門線路即可執行,完美契合當前量子硬體的相干極限。

 

2. 基於 Cayley 變換的參數優化

 

    如何確保這些矩陣在經典訓練過程中嚴格保持么正(Orthogonal/Unitary)特性?CUA 巧妙利用了數學上的 Cayley 變換,將一個反對稱矩陣(Skew-Symmetric Matrix)映射為么正矩陣。這帶來了極大的參數壓縮優勢。例如,一個 4 x 4 的矩陣(2 量子位元)只需要 6 個自由參數,比全參數化減少了 62.5%。對於 Llama 3.1 8B 這樣高達 4096 維的殘差流,整個 CUA 配接卡僅需 1024 個子塊,共 6,144 個可訓練參數(佔總模型參數不到十萬分之一)。

 

3. 輸入相關的符號修正(Sign Correction)

 

    量子測量在本質上只能輸出非負的概率值(即概率振幅的平方),這會導致大模型神經網絡中的激活值失去正負極性,進而破壞非線性信號的穩定傳播。研究團隊創新地設計了一種符號修正機制:

 

在量子硬體輸出振幅大小後,手動乘回輸入信號的符號(),消除了這一物理限制對深度網絡造成的負面影響。

 

4. 經典訓練與量子執行的完美解耦

 

    在訓練階段,所有大模型的原生權重全部凍結(Frozen),僅在經典計算機上更新 CUA 的 Cayley 參數,避免了在巨量數據集上進行量子梯度計算的恐怖開銷。訓練完成後,再將這些么正矩陣以振幅編碼(Amplitude Encoding)的方式部署到 IBM 的真實 QPU 上進行端到端自迴歸推理驗證。

 

實驗結果:微小參數下的「降級打怪」

 

    研究團隊在兩個不同尺度的模型上進行了嚴謹的雙軌驗證:

 

1. 旗艦實驗:Llama 3.1 8B 的量子跨越

 

    在完全不壓縮、保持原裝外殼的 Llama 3.1 8B-Instruct 模型中,科學家僅在第 7 層注意力機制的 Value 投影層(v_proj)插入了一個 CUA(僅新增 6,000 多個參數)。實驗結果令人振奮:在 WikiText 基準測試中,模型的困惑度(Perplexity, PPL,數值越低越好)從 8.877 顯著提升至 8.752(改善了 1.43%)。若擴展到 192 個子層,PPL 改善幅度更達到了驚人的 5.45%。與相同參數預算下的 LoRA 相比,CUA 展現出了更為優異的隱式性價比。

 

更具說服力的是,在考驗專家級科學知識與長程上下文推理的 MMLU 基準測試中,量子增強後的 Llama 3.1 8B 成功答對了許多經典原生模型完全潰敗的題目。例如:

 

  • 天文學問題(木星型行星是否有環): 原生 Llama 3.1 誤選了只有土星(C),而量子增強版正確選擇了「以上皆是(D)」。
  • 大學生物學問題(種群間基因流動的後果): 原生模型錯誤地選擇了破壞哈溫平衡(D),而量子增強版精準識別出會「增加遺傳同質性(A)」。

 

2. 機理研究:SmolLM2 (135M) 的全面剖析

 

    為了深入探討量子增強的底層邏輯,團隊在較小的 SmolLM2 模型上實施了極端的壓縮挑戰(利用 Tensor Network 將其從 135M 壓縮至 94.8M,導致性能雪崩式下滑)。當在所有 210 個投影層中插入 2 量子位元的 CUA 後,成功收復了高達 83% 的壓縮性能損失(LAMBADA 困惑度從 272.18 暴跌回 46.20)。消融實驗進一步證明,這種恢復並非隨機擾動,而是因為 CUA 學習到了「保模旋轉(Norm-Preserving Rotations)」,重新對齊了被壓縮損壞的激活子空間,恢復了網絡內部精準的路由通路。


對大語言模型(LLM)未來發展的深遠啟發

 

    這篇論文的成功,不單單是一次漂亮的物理實驗,它更為整個大語言模型及通用人工智慧(AGI)的未來演進帶來了三點底層範式的啟發:

 

啟發一:打破「經典內存牆」的量子擴展非對稱性(Quantum Scaling Asymmetry)

 

    當前經典 AI 的致命傷在於參數與物理內存的線性綁定 。但這篇論文提出了一個極具說服力的量子擴展論點:在經典設備上,參數化一個 2n x 2n 的么正矩陣需要以 n 的指數級(2n(2n-1)/2)存儲 Cayley 參數 ;然而在量子處理器(QPU)上,一個深度為 D 的磚牆式線路(Brickwork Circuit)僅需要 的門參數,就能探索相同維度的巨大么正空間。


這意味著:一個在 10 個量子位元上、深度為 200 的量子線路,僅需編碼約 2,000 個參數,卻能代表一個在經典計算機中需要高達 524,000 個參數才能表達的巨型矩陣!量子硬體為大模型提供了一種「天然的、無損的參數壓縮過濾器」。未來,隨着量子位元數量的增加,大模型或許不再需要一味追求千億、萬億級別的經典參數體積,而是通過量子模組在更高維度的希爾伯特空間中實現高效率、低參數量的「降級打怪」。

 

啟發二:AI 硬體結構的「異構微調」新思維

 

    傳統的 LLM 微調(如 LoRA)是在經典架構內部尋找低秩空間 。而 CUA 的成功證明,我們可以將大模型的特定敏感層(如注意力機制的 v_proj 或 MLP 的 gate_proj)視為可被量子化的特殊算子。經典硬體負責凍結並留存語言模型的基礎泛化流暢度(Fluency),而極少量的「量子外掛程式」則負責在关键節點微調信號流的幾何結構,從而激發出更強的邏輯推理與跨學科專家知識。這種「經典骨幹 + 量子外掛程式」的混合同步模式,為混合算力數據中心的建設勾勒出了具體的落地藍圖。

 

啟發三:跨越「Shor 演算法時刻」,驗證技術的可行性基石

 

    正如論文作者在文中所做出的精妙歷史類比:2001 年,科學家 Vandersypen 等人利用核磁共振(NMR)量子設備成功將「15」因數分解為「3 x 5」。從算術的角度來看,這毫無經典優勢,但它在物理上向全人類證明了「索爾演算法(Shor's Algorithm)是可實現的」。同理,CUA 在現階段所執行的 2 量子位元線路雖然完全可以被經典計算機模擬,其展現的推理時間也有待優化(例如完整序列推理需數小時),且它並未宣稱實現了絕對的「量子霸權」。但它的科學價值在於回答了量子 AI 領域的終極天問:量子線路確實可以插進 80 億參數的真實生產級大模型中,且其帶來的性能提升是可測量、可復現、並在真實量子硬體上得到驗證的。

 

結語

 

    這篇論文正式開啟了生產級大語言模型與真實量子硬體交融的時代。儘管目前的限制仍受制於當前 NISQ 硬體的雜訊與門保真度Gate Fidelity(一旦強行擴展到 3~4 個量子位元,雜訊會引發結構性的崩塌 phase transition),但研究團隊給出的「3Q–4Q 近似編譯」與「5Q–6Q 漸進式擴展」路線圖,已經為未來的微調優化點亮了燈塔。當前,我們正站在人工智慧與量子計算這兩大科技洪流歷史性交匯的奇點之上,而「Cayley 么正配接卡」無疑是為這場交匯遞上的一把關鍵鑰匙。

 

 

參考文獻
Aizpurua, B., Singh, S., Kshetrimayum, A., Jahromi, S. S., & Orus, R. (2026). Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters. arXiv preprint arXiv:2605.05914.