Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

大型語言模型的資料合成與擴充技術

 

圖靈學院
科楠
2024-10-24

 

大型語言模型(LLM)的興起


    近年来,大型語言模型(LLM)在自然語言處理和電腦視覺等領域展現出驚人的能力,成為通用人工智慧(AI)系統發展的關鍵。LLM之所以取得如此成功,主要歸功於它們能夠從大量資料中學習並掌握複雜的模式和關係。然而,訓練LLM需要海量的資料,這也帶來了一系列挑戰,例如資料獲取成本高、資料品質參差不齊、資料隱私和安全問題等,今天我們就來針對此問題的一篇北京航天航空大學發表在arXiv的Survey論文內容進行分享。


資料合成與擴充技術的重要性


    為了克服這些挑戰,研究人員提出了各種資料合成與擴充技術。這些技術的目標是提高LLM的效能,同時解決資料獲取和品質方面的問題。


資料合成與擴充方法


    論文綜述主要涵蓋以下兩種資料合成與擴充方法:

 

  • 資料擴充(Data Augmentation):在不改變原始資料基本特徵的前提下,通過操作或擾動增加資料的多樣性和數量。
  • 資料合成(Data Synthesis):從頭開始或基於生成模型建立全新的資料,使其與真實資料分佈相似。

 

圖:大型模型的資料合成和增強技術開發的演化步驟的圖示。
Source:https://arxiv.org/pdf/2410.12896

 

資料擴充技術


常見的資料擴充技術包括:

 

  • 資料重整(Data Reformation): 例如旋轉、顏色通道轉換、同義詞替換等,以及利用LLM生成重整資料的方法,如TinyGSM、GPT3Mix、CORE和DISCO等。
  • 資料標記(Data Labeling): 利用LLM為未標記資料生成標籤,例如T-SciQ、ChatGPT-based等。
  • 共同標註(Co-Annotation): 利用LLM和人類共同完成資料標註,例如Co-annotating、ToolCoder等。

 

資料合成技術


常見的資料合成技術包括:

 

  • 通用模型蒸餾(General Model Distillation): 利用強大的通用模型(如StableVicuna、ChatGPT和GPT-4)生成資料,例如TinyStories、Phi-1系列、Alpagasus和WizardLM等。
  • 領域模型蒸餾(Domain Model Distillation): 利用針對特定領域定制的模型生成資料,例如Minerva、DeepSeek-Prover和WizardCoder等。
  • 模型自我改進(Model Self-Improvement): 利用LLM自身生成資料並用於訓練自身,例如Rephrasing、Self-instruct、SPIN和SelTDA等。


LLM生命週期中的資料合成與擴充


    資料合成與擴充技術可以應用於LLM生命週期的不同階段,包括:

 

  • 資料準備階段
  • 預訓練階段
  • 微調階段
  • 指令調整階段
  • 偏好對齊階段

 

每個階段都有不同的技術應用,論文中列舉了大量的例子,例如Alpaca、Vicuna、Orca、Baize、LLaVA等。


基於功能的資料合成與擴充


    根據LLM的核心功能,資料合成與擴充方法可以分為以下幾類:

 

  • 理解(Understanding):例如Alpaca、WizardLM、WRAP、LLaVA和ChartLlama等。
  • 邏輯(Logic):例如ReST-EM、Case2Code、MathInstruct、MMIQC、STaR和SelTDA等。
  • 記憶(Memory):例如Quiet-STaR、AutoKG、Persona Hub、AceCoder和RepoCoder等。
  • 生成(Generation):例如Genie、UltraMedical、HuaTuo、TinyStories、DIALOGIC和ALIA等。

 

挑戰與限制


    儘管資料合成與擴充技術取得了顯著進展,但也面臨一些挑戰和限制:

 

  • 合成與擴充方法本身: 如何生成更逼真、更具多樣性的資料,如何評估合成資料的品質,如何避免引入新的偏差等。
  • 資料隱私與安全: 如何保護合成資料中包含的個人隱私,如何防止合成資料被惡意利用等。
  • 社會影響: 合成資料可能加劇社會偏見,合成資料的真實性可能引發法律爭議等。

 

未來研究方向

 

圖: 此圖表對比了現有的基於大型語言模型(LLM)的資料合成與增強技術的調查以及圖表中所提出的新調查方式。根據圖表的說明,可以分成上下兩部分來理解。
上半部分:以往的LLM資料合成與增強技術調查
這部分強調的是以往的調查主要專注於LLM驅動的資料合成與增強技術,目標是支援後續的任務(downstream tasks)。
下半部分:針對LLM的資料合成與增強的調查
這部分表達了新的調查方法,強調的是LLM導向的資料合成與增強技術,涵蓋LLM的完整生命週期,並強調LLM的核心功能。
關鍵區別:傳統方法集中於資料增強技術的應用,以支持LLM的後續任務。
新的方法強調的是完整的生命週期,以及如何通過理解和生成等核心功能來改進LLM自身,並且更注重資料驅動的技術在這一過程中的作用。Source:https://arxiv.org/pdf/2410.12896

 

未來資料合成與擴充技術的研究方向包括:

 

  • 領域模型蒸餾: 利用領域特定模型生成更高品質的資料。
  • 大規模合成: 開發更具擴展性的資料合成方法,以滿足大型模型的訓練需求。
  • 多模態合成: 開發更强大的多模態資料合成方法。
  • 評估指標: 開發更全面的評估指標,以評估合成資料的品質和對LLM效能的影響。
  • 倫理和社會影響: 深入研究資料合成與擴充技術的倫理和社會影響,制定相應的規範和指南。


結論


    資料合成與擴充技術對於提高LLM的效能至關重要,並且將在未來繼續推動LLM技術的發展。通過不斷創新和完善,這些技術將有助於構建更強大、更可靠、更負責任的AI系統。

 

 

如果您需要更深入的了解,請參閱原始論文