圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

Llama 3.2: 革命性的邊緣AI與視覺能力

 

 

 

圖靈學院  科楠/2024-09-30/No.100

 

引言


    隨著人工智慧技術的進展,Meta於 2024 年 Connect 大會上發佈了 Llama 3.2 模型,此模型針對移動設備及邊緣設備進行了優化,擁有更強大的視覺與語言推理能力。這顯示著 Llama 模型從單純的語言模型發展至多模態的應用,並在處理圖片和文字結合的任務上展現了卓越的性能。

 

Llama 3.2 的主要特點


1. 多樣化模型配置:


   Llama 3.2 提供了多個尺寸的模型,涵蓋 1B、3B、11B 和 90B 參數。小型模型專注於輕量化應用,如在 Qualcomm 和 MediaTek 的移動設備上運行;大型模型則針對複雜的圖像理解和推理任務。

 

Llama 3.2 的模型尺寸對比圖(資料來源:Meta 官方部落格)

 

 

2. 視覺語言推理能力:


   Llama 3.2 引入了 11B 和 90B 的多模態模型,支援圖像推理,能夠處理文檔級理解、圖片標註等任務。例如,該模型可以讀取一張圖表並解釋其內容,甚至幫助使用者在地圖上找出步行路徑的起伏。

 

Llama 3.2 視覺推理模型的應用場景示意圖(資料來源:Meta 官方部落格)

 

3. 本地化運行與隱私保護:


   Llama 3.2 針對移動設備的應用進行了優化,1B 和 3B 模型可以在本地設備上運行,實現即時的響應,並且保護數據隱私。這些模型適合用於處理例如消息摘要、日程安排等個人助理功能。

 

Llama 3.2 在移動設備上的應用示例(資料來源:Meta 官方部落格)

 

模型性能評估


    根據Meta的內部測試,Llama 3.2 在圖像理解、指令遵循等多項任務上表現出色,尤其是 3B 模型在跨語言文本生成上超越了同類模型,如 Gemma 2 和 Phi 3.5-mini,展現出卓越的多語言支援能力。

 

訓練與模型優化


    Llama 3.2 的開發延續了 Llama 3.1 的訓練管道,透過「Pruning剪枝1」和「Distillation知識蒸餾2」技術,將模型縮小至能夠在設備上高效運行,同時保留了其原有的性能。為了支援視覺輸入,Meta 開發了新的適配器,讓圖像編碼器與語言模型無縫對接,並透過多階段的微調,提升了圖像和語言的整合推理能力。

 

Llama Stack 分配系統


    Meta 導入了 Llama Stack,提供多樣化的分配管道,讓開發者能夠在不同環境下使用 Llama 3.2,無論是雲端還是移動設備。本次發佈的 Llama CLI 和多語言客戶端代碼,更簡化了 Llama 模型的開發和部署流程。

 


Llama Stack 分發系統架構圖(資料來源:Meta 官方部落格)

 

系統級安全保護


    隨著模型應用的擴展,Meta 在 Llama 3.2 的發佈中強調了安全性的提升。Llama Guard 3 作為專門的安全模型,幫助過濾圖片與文字的輸入和輸出,並在本地部署時顯著減少成本。

 

結論


    Llama 3.2 的發佈不僅擴展了其應用範圍,從語言模型擴展至視覺推理,還強調了本地化運行的高效性和隱私保護。隨著開源社區和企業合作伙伴的參與,Llama 3.2 將成為新一代 AI 應用的核心技術。這次的發佈不僅推動了邊緣AI的發展,也為移動設備上多模態 AI 的應用開啟了新的篇章。

 

 

註:
1.剪枝 (Pruning)
剪枝透過移除語言模型中的非關鍵或多餘組件(例如權重參數)來提升模型效率,這是一種最佳化的方法。此方法透過裁剪對模型效能貢獻較小的參數,減少了儲存需求,又優化了記憶體和運算效率,同時盡量保持模型效能的穩定性。
2.知識蒸餾(Knowledge Distillation)
知識蒸餾是一種通過在一個較大的“教師”模型的指導下訓練一個較小的“學生”模型的方法。在知識蒸餾中,教師模型通常是一個複雜的、高精度的模型,學生模型是一個簡化的、低計算量的模型。知識蒸餾的目標是將教師模型的知識和泛化能力傳遞給學生模型,從而使得學生模型能夠在較小的模型規模下達到接近教師模型的性能。

 

 

資料來源:Meta 官方部落格