大型語言模型的資料合成與擴充技術

IntelliBenefit Technology Co., Ltd.

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人科楠老師的願景

大型語言模型的資料合成與擴充技術

圖靈學院
科楠
2024-10-24

大型語言模型（LLM）的興起

近年来，大型語言模型（LLM）在自然語言處理和電腦視覺等領域展現出驚人的能力，成為通用人工智慧（AI）系統發展的關鍵。LLM之所以取得如此成功，主要歸功於它們能夠從大量資料中學習並掌握複雜的模式和關係。然而，訓練LLM需要海量的資料，這也帶來了一系列挑戰，例如資料獲取成本高、資料品質參差不齊、資料隱私和安全問題等，今天我們就來針對此問題的一篇北京航天航空大學發表在arXiv的Survey論文內容進行分享。

資料合成與擴充技術的重要性

為了克服這些挑戰，研究人員提出了各種資料合成與擴充技術。這些技術的目標是提高LLM的效能，同時解決資料獲取和品質方面的問題。

資料合成與擴充方法

論文綜述主要涵蓋以下兩種資料合成與擴充方法：

資料擴充（Data Augmentation）：在不改變原始資料基本特徵的前提下，通過操作或擾動增加資料的多樣性和數量。
資料合成（Data Synthesis）：從頭開始或基於生成模型建立全新的資料，使其與真實資料分佈相似。

圖:大型模型的資料合成和增強技術開發的演化步驟的圖示。
Source:https://arxiv.org/pdf/2410.12896

資料擴充技術

常見的資料擴充技術包括：

資料重整（Data Reformation）: 例如旋轉、顏色通道轉換、同義詞替換等，以及利用LLM生成重整資料的方法，如TinyGSM、GPT3Mix、CORE和DISCO等。
資料標記（Data Labeling）: 利用LLM為未標記資料生成標籤，例如T-SciQ、ChatGPT-based等。
共同標註（Co-Annotation）: 利用LLM和人類共同完成資料標註，例如Co-annotating、ToolCoder等。

資料合成技術

常見的資料合成技術包括：

通用模型蒸餾（General Model Distillation）: 利用強大的通用模型（如StableVicuna、ChatGPT和GPT-4）生成資料，例如TinyStories、Phi-1系列、Alpagasus和WizardLM等。
領域模型蒸餾（Domain Model Distillation）: 利用針對特定領域定制的模型生成資料，例如Minerva、DeepSeek-Prover和WizardCoder等。
模型自我改進（Model Self-Improvement）: 利用LLM自身生成資料並用於訓練自身，例如Rephrasing、Self-instruct、SPIN和SelTDA等。

LLM生命週期中的資料合成與擴充

資料合成與擴充技術可以應用於LLM生命週期的不同階段，包括：