圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

大型語言模型的資料合成與擴充技術

 

圖靈學院
科楠
2024-10-24

 

大型語言模型(LLM)的興起


    近年来,大型語言模型(LLM)在自然語言處理和電腦視覺等領域展現出驚人的能力,成為通用人工智慧(AI)系統發展的關鍵。LLM之所以取得如此成功,主要歸功於它們能夠從大量資料中學習並掌握複雜的模式和關係。然而,訓練LLM需要海量的資料,這也帶來了一系列挑戰,例如資料獲取成本高、資料品質參差不齊、資料隱私和安全問題等,今天我們就來針對此問題的一篇北京航天航空大學發表在arXiv的Survey論文內容進行分享。


資料合成與擴充技術的重要性


    為了克服這些挑戰,研究人員提出了各種資料合成與擴充技術。這些技術的目標是提高LLM的效能,同時解決資料獲取和品質方面的問題。


資料合成與擴充方法


    論文綜述主要涵蓋以下兩種資料合成與擴充方法:

 

  • 資料擴充(Data Augmentation):在不改變原始資料基本特徵的前提下,通過操作或擾動增加資料的多樣性和數量。
  • 資料合成(Data Synthesis):從頭開始或基於生成模型建立全新的資料,使其與真實資料分佈相似。

 

圖:大型模型的資料合成和增強技術開發的演化步驟的圖示。
Source:https://arxiv.org/pdf/2410.12896

 

資料擴充技術


常見的資料擴充技術包括:

 

  • 資料重整(Data Reformation): 例如旋轉、顏色通道轉換、同義詞替換等,以及利用LLM生成重整資料的方法,如TinyGSM、GPT3Mix、CORE和DISCO等。
  • 資料標記(Data Labeling): 利用LLM為未標記資料生成標籤,例如T-SciQ、ChatGPT-based等。
  • 共同標註(Co-Annotation): 利用LLM和人類共同完成資料標註,例如Co-annotating、ToolCoder等。

 

資料合成技術


常見的資料合成技術包括:

 

  • 通用模型蒸餾(General Model Distillation): 利用強大的通用模型(如StableVicuna、ChatGPT和GPT-4)生成資料,例如TinyStories、Phi-1系列、Alpagasus和WizardLM等。
  • 領域模型蒸餾(Domain Model Distillation): 利用針對特定領域定制的模型生成資料,例如Minerva、DeepSeek-Prover和WizardCoder等。
  • 模型自我改進(Model Self-Improvement): 利用LLM自身生成資料並用於訓練自身,例如Rephrasing、Self-instruct、SPIN和SelTDA等。


LLM生命週期中的資料合成與擴充


    資料合成與擴充技術可以應用於LLM生命週期的不同階段,包括:

 

  • 資料準備階段
  • 預訓練階段
  • 微調階段
  • 指令調整階段
  • 偏好對齊階段

 

每個階段都有不同的技術應用,論文中列舉了大量的例子,例如Alpaca、Vicuna、Orca、Baize、LLaVA等。


基於功能的資料合成與擴充


    根據LLM的核心功能,資料合成與擴充方法可以分為以下幾類:

 

  • 理解(Understanding):例如Alpaca、WizardLM、WRAP、LLaVA和ChartLlama等。
  • 邏輯(Logic):例如ReST-EM、Case2Code、MathInstruct、MMIQC、STaR和SelTDA等。
  • 記憶(Memory):例如Quiet-STaR、AutoKG、Persona Hub、AceCoder和RepoCoder等。
  • 生成(Generation):例如Genie、UltraMedical、HuaTuo、TinyStories、DIALOGIC和ALIA等。

 

挑戰與限制


    儘管資料合成與擴充技術取得了顯著進展,但也面臨一些挑戰和限制:

 

  • 合成與擴充方法本身: 如何生成更逼真、更具多樣性的資料,如何評估合成資料的品質,如何避免引入新的偏差等。
  • 資料隱私與安全: 如何保護合成資料中包含的個人隱私,如何防止合成資料被惡意利用等。
  • 社會影響: 合成資料可能加劇社會偏見,合成資料的真實性可能引發法律爭議等。

 

未來研究方向

 

圖: 此圖表對比了現有的基於大型語言模型(LLM)的資料合成與增強技術的調查以及圖表中所提出的新調查方式。根據圖表的說明,可以分成上下兩部分來理解。
上半部分:以往的LLM資料合成與增強技術調查
這部分強調的是以往的調查主要專注於LLM驅動的資料合成與增強技術,目標是支援後續的任務(downstream tasks)。
下半部分:針對LLM的資料合成與增強的調查
這部分表達了新的調查方法,強調的是LLM導向的資料合成與增強技術,涵蓋LLM的完整生命週期,並強調LLM的核心功能。
關鍵區別:傳統方法集中於資料增強技術的應用,以支持LLM的後續任務。
新的方法強調的是完整的生命週期,以及如何通過理解和生成等核心功能來改進LLM自身,並且更注重資料驅動的技術在這一過程中的作用。Source:https://arxiv.org/pdf/2410.12896

 

未來資料合成與擴充技術的研究方向包括:

 

  • 領域模型蒸餾: 利用領域特定模型生成更高品質的資料。
  • 大規模合成: 開發更具擴展性的資料合成方法,以滿足大型模型的訓練需求。
  • 多模態合成: 開發更强大的多模態資料合成方法。
  • 評估指標: 開發更全面的評估指標,以評估合成資料的品質和對LLM效能的影響。
  • 倫理和社會影響: 深入研究資料合成與擴充技術的倫理和社會影響,制定相應的規範和指南。


結論


    資料合成與擴充技術對於提高LLM的效能至關重要,並且將在未來繼續推動LLM技術的發展。通過不斷創新和完善,這些技術將有助於構建更強大、更可靠、更負責任的AI系統。

 

 

如果您需要更深入的了解,請參閱原始論文