Diffusion LLM 基本理論

圖靈學院
科楠
2025-3-18
基於昨日所介紹以Diffusion LLM (擴散型大型語言模型)的生成AI - Mercury Coder,與傳統的LLM為模型礎GAI來說,生成結果速度真的飛快,那到底什是Diffusion LLM?基於擴散過程的生成式AI模型。與傳統的自回歸模型不同,擴散型模型可以並行生成多個詞元,這使得它在生成速度和效率上具有優勢。以下,我們以比較理論的角度來簡單說明一下。
數學模型
1. 擴散過程
擴散過程是指一個隨機過程,其中一個量(如詞元序列)會在時間步驟中逐漸變得更加雜雜或無序。在擴散型模型中,這個過程被用來將一個簡單的初始分佈(如高斯分佈)轉變為複雜的語言分佈。
2. 前向擴散過程
前向擴散過程描述了如何從一個簡單的初始分佈轉變為目標分佈。對於一個詞元序列 x ,前向擴散過程可以表示為:

其中
是最終的詞元序列, 描述了在第
步驟中,詞元序列
的條件概率。
3. 後向擴散過程
後向擴散過程描述了如何從目標分佈逆推回簡單的初始分佈。這是一個反向的過程,通常用於生成新的詞元序列。後向擴散過程可以表示為:

其中
描述了在第 t 步驟中,詞元序列
的條件概率。
4. 模型結構
擴散型模型通常由兩個部分組成:前向擴散模型 和 後向擴散模型。
- 前向擴散模型:用於訓練模型,通過最小化前向擴散過程的負對數似然函數來學習參數。
- 後向擴散模型:用於生成文本,通過反向擴散過程生成新的詞元序列。
生成結果之架構
1. 初始化
生成過程開始時,初始化一個簡單的初始分佈,如高斯分佈,作為輸入。
2. 反向擴散步驟
在每個步驟中,模型根據當前的詞元序列 生成下一個詞元序列 。這涉及到計算條件概率 並採樣生成新的詞元序列。
3. 並行生成
與自回歸模型不同,擴散型模型可以在並行生成多個詞元,這使得生成過程更快、更高效。
4. 終止條件
生成過程在達到預設的步驟數 或生成完畢所需的詞元序列後結束。
結論
擴散型模型通過利用擴散過程,實現了並行生成和高效的文本生成。這種模型在生成速度和品質上都有很好的表現,特別是在需要快速生成長文本的場景中。