Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

Diffusion LLM 基本理論

 

圖靈學院
科楠
2025-3-18

 

    基於昨日所介紹以Diffusion LLM (擴散型大型語言模型)的生成AI - Mercury Coder,與傳統的LLM為模型礎GAI來說,生成結果速度真的飛快,那到底什是Diffusion LLM?基於擴散過程的生成式AI模型。與傳統的自回歸模型不同,擴散型模型可以並行生成多個詞元,這使得它在生成速度和效率上具有優勢。以下,我們以比較理論的角度來簡單說明一下。


數學模型

 

1. 擴散過程


    擴散過程是指一個隨機過程,其中一個量(如詞元序列)會在時間步驟中逐漸變得更加雜雜或無序。在擴散型模型中,這個過程被用來將一個簡單的初始分佈(如高斯分佈)轉變為複雜的語言分佈。

 

2. 前向擴散過程


    前向擴散過程描述了如何從一個簡單的初始分佈轉變為目標分佈。對於一個詞元序列 x ,前向擴散過程可以表示為:

 

 

其中  是最終的詞元序列, 描述了在第  步驟中,詞元序列  的條件概率。

 

3. 後向擴散過程
後向擴散過程描述了如何從目標分佈逆推回簡單的初始分佈。這是一個反向的過程,通常用於生成新的詞元序列。後向擴散過程可以表示為:

 

 

其中  描述了在第 t 步驟中,詞元序列  的條件概率。

 

4. 模型結構


    擴散型模型通常由兩個部分組成:前向擴散模型 和 後向擴散模型。
- 前向擴散模型:用於訓練模型,通過最小化前向擴散過程的負對數似然函數來學習參數。
- 後向擴散模型:用於生成文本,通過反向擴散過程生成新的詞元序列。

 

生成結果之架構

 

1. 初始化
生成過程開始時,初始化一個簡單的初始分佈,如高斯分佈,作為輸入。

 

2. 反向擴散步驟
在每個步驟中,模型根據當前的詞元序列  生成下一個詞元序列 。這涉及到計算條件概率  並採樣生成新的詞元序列。

 

3. 並行生成
與自回歸模型不同,擴散型模型可以在並行生成多個詞元,這使得生成過程更快、更高效。

 

4. 終止條件
生成過程在達到預設的步驟數  或生成完畢所需的詞元序列後結束。

 

結論


    擴散型模型通過利用擴散過程,實現了並行生成和高效的文本生成。這種模型在生成速度和品質上都有很好的表現,特別是在需要快速生成長文本的場景中。