Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

Meta棄開源轉閉源:Muse Spark正式登場,宣告回歸AI頂級戰場

─ Llama時代謝幕,Alexandr Wang的九個月重建計畫首次交卷


圖靈學院編輯部
2026-4-13


一、失敗的起點:Llama 4的災難性登場

 

    要理解 Muse Spark 的誕生,必須先回到 2025 年 4 月那個令 Meta 顏面盡失的時刻。Llama 4 的推出引發了普遍的負面評價,最終 Meta 不得不承認,他們在基準測試中使用了為特定任務微調過的專用未發布版本,藉此拉高測評分數。這種「操弄數據」的行為,不僅讓開發者社群憤怒,更讓 Zuckerberg 意識到,Meta 的 AI 組織已積重難返——需要的不是修補,而是推倒重建。Meta 的執行長 Mark Zuckerberg 對 Meta 的 Llama 模型進度感到不滿,認為其遠落後於 OpenAI 的 ChatGPT 和 Anthropic 的 Claude,於是決定組建全新的研究單位 Meta Superintelligence Labs(MSL)。接下來的一步,是 Meta 近年最昂貴也最具爭議的人事決策。


二、143億美元的豪賭:Alexandr Wang走進Meta

 

    2025年6月,Meta 斥資 143 億美元取得 Scale AI 49% 的無投票權股份,同時將該公司創辦人兼執行長 Alexandr Wang 延攬為 Meta 有史以來第一位首席 AI 長(Chief AI Officer)。當時年僅 29 歲的 Wang,帶來的不只是個人能力,更是整套重構 AI 訓練數據品質的思維體系——Scale AI 正是全球最重要的 AI 訓練數據標注平台之一。這也預示著 Muse Spark 在數據策略上的重大轉向。在接下來的九個月內,Meta Superintelligence Labs 從零開始重建整個 AI 技術棧,涵蓋模型架構、訓練基礎設施以及數據管線。Wang 表示,測試結果顯示這套新的技術棧在預訓練、強化學習及測試期推理上都能穩定擴展。

2026年4月8日,成果公諸於世。


三、Muse Spark登場:技術架構的三大突破

 

    Muse Spark 是一個原生多模態推理模型,內建工具使用、視覺思維鏈(visual chain of thought)以及多智能體協作編排,目前已驅動觸及逾 30 億用戶的 Meta AI 服務。

 

突破一:原生多模態架構

 

    與過去將視覺能力「拼接」進文字模型的作法不同,Muse Spark 從底層重建,將視覺資訊整合進模型內部邏輯的每個層次。這種架構轉型實現了「視覺思維鏈」——讓模型能夠對動態環境進行標注,例如辨識一台複雜咖啡機的各個組件,或透過並排影片分析修正使用者的瑜伽姿勢。

 

突破二:思維壓縮與算力效率

 

    Meta 在強化學習訓練中引入了對「過度思考時間」的懲罰機制,迫使模型以更少的推理 token 解決複雜問題,同時不犧牲準確率。這項稱為「思維壓縮」(thought compression)的技術,使 Muse Spark 僅用 5,800 萬個輸出 token 就完成了 Artificial Analysis Intelligence Index 的完整評測,遠低於 Claude Opus 4.6(1.57 億)和 GPT-5.4(1.2 億)。

更驚人的是算力效率的躍升:Meta 宣稱 Muse Spark 達到與 Llama 4 Maverick 相當的能力水準,但所需算力僅為後者的十分之一。

 

突破三:Contemplating 多智能體模式

 

    Contemplating 模式能協調多個智能體(agents)平行推理,使 Muse Spark 得以與 Gemini Deep Think 和 GPT Pro 等頂級推理模式正面競爭。在 Humanity's Last Exam 測試中,Contemplating 模式達到 58% 的成績;在 FrontierScience Research 測試中達到 38%。


四、基準測試:有贏有輸,但已重返頂級戰場

 

    Muse Spark 的測評成績呈現出一幅「競爭但不全面領先」的圖像,這正是 Meta 選擇誠實面對的定位方式。

強項領域:

 

    在 HealthBench Hard(開放式醫療問題)測試中,Muse Spark 以 42.8 分大幅領先 Gemini 3.1 Pro(20.6 分)、Grok 4.2(20.3 分),也略優於 GPT-5.4(40.1 分)。這部分歸功於 Meta 與逾 1,000 名醫師合作策劃的臨床訓練數據。

 

    在 CharXiv Reasoning(圖表理解)測試中,Muse Spark 的 Thinking 模式得分 86.4,明顯優於 Claude Opus 4.6(65.3)、Gemini 3.1 Pro(80.2)以及 GPT-5.4(82.8)。

 

    在 DeepSearchQA(智能體搜尋)測試中,Muse Spark 以 74.8 分超越 Gemini 3.1 Pro 的 69.7 分和 Grok 4.2 的 62.8 分。

 

需要補強的領域:

 

    在 GPQA Diamond(PhD 級推理能力)測試中,Muse Spark 得分 89.5%,略低於 Gemini 3.1 Pro 的 94.3%,以及 Claude Opus 4.6 和 GPT-5.4 的 92.7%、92.8%。

Meta 在技術部落格中坦承,公司持續投資以彌補目前的性能差距,特別是「長期智能體系統」以及「程式碼工作流程」兩大領域。這種透明度,是 Meta 為了重建社群信任而刻意採取的溝通策略——相較 Llama 4 時代的基準操弄,這是一次顯著的態度轉變。


五、戰略大轉彎:從開源旗手到閉源競爭者

 

    Muse Spark 最具爭議的面向,不是技術性能,而是商業策略的根本轉向。截至 2026 年 4 月,Meta 在開放權重(open-weight)運動中的無可爭議領導地位,已轉變為高度競爭的多極格局。美國佔 Llama 全球部署的 35%,但中國模型——包括阿里巴巴和 DeepSeek——在 Hugging Face 等平台的下載量已佔 41%。面對這種壓力,Meta 選擇以閉源的 Muse Spark 回應,這是對其「開放科學」根基的爭議性背離。不同於 Meta 過去的 Llama 系列——任何人都可以免費下載並在自有設備上運行、修改與微調——Muse Spark 目前主要作為 Meta 的內部工具,先在 Meta AI App 和 meta.ai 網站上線,並計畫逐步部署至 WhatsApp、Instagram、Facebook、Messenger 以及 Ray-Ban AI 眼鏡。

 

    商業模式方面,Meta 正在嘗試一種新的 AI 模型收益來源:最終將透過 API 向第三方開發者開放 Muse Spark 的底層技術,目前僅提供給「特定合作夥伴」私人 API 預覽,並計畫在稍後向更廣泛的受眾提供付費 API 存取。這意味著 Meta 正試圖在「讓 30 億用戶免費使用」的消費者生態優勢,與「向企業開發者收取費用」的商業模式之間找到平衡。


六、隱憂未散:隱私爭議與基準可信度

 

    技術成就之外,兩朵烏雲仍籠罩著 Muse Spark 的登場。隱私風險: Muse Spark 的用戶必須以現有的 Meta 帳號(Facebook 或 Instagram)登入才能使用,而 Meta 並未明確說明 Facebook 或 Instagram 的個人資料是否會被 AI 系統採用。但考量到 Meta 一貫使用公開用戶數據進行訓練,以及該公司將 Muse Spark 定位為「個人超級智慧」產品的方向,這種可能性相當高。

 

    基準可信度: 過去 Meta 曾被發現操弄 AI 模型的已發布基準數據,使其看起來比大多數用戶實際使用的版本更強大——Llama 4 的基準測試正是如此,Meta 後來承認使用了針對特定任務微調的特殊版本。因此,當 Muse Spark 的第三方獨立驗證結果尚未完整出爐之前,業界對官方數據保持審慎態度是合理的。


七、產業格局:Meta回歸的連鎖效應

 

    OpenAI 和 Anthropic 目前合計估值超過 1 兆美元,Google 的 Gemini 技術與服務在消費市場也獲得明顯牽引力。全球生成式 AI 市場估計每年成長超過 40%,預計從 2025 年的約 220 億美元,成長至 2033 年的近 3,250 億美元。

Meta 帶著 30 億用戶基礎的天然分發優勢重返這個市場,其戰略意涵不可忽視:

 

    對消費者市場:Meta AI 嵌入 Facebook、Instagram、WhatsApp 的 Muse Spark,等於瞬間為全球數十億人提供了「免費的頂尖 AI 助理」,這種分發規模是任何競爭者都難以複製的護城河。

 

    對開源生態:Llama 系列是否繼續維護更新,目前尚無明確答案。若 Meta 完全轉向閉源,全球開放原始碼 AI 社群將失去最重要的企業支柱之一。

 

    對算力市場:Meta 最新財報顯示,2026 年 AI 相關資本支出預計介於 1,150 億至 1,350 億美元之間,幾乎是去年的兩倍,顯示 Meta 正在以超大規模資本投入確保算力優勢。這股資本支出浪潮將進一步推高 NVIDIA、AMD 等晶片廠的需求能見度。


八、結語:這不是終點,而是新一輪軍備競賽的發令槍

 

    Meta 表示:「我們正處於可預測且高效的擴展軌道上。我們期待在通往個人超級智慧的路上,盡快分享能力日益強大的模型。」Muse Spark 的誕生,標誌著一個新階段的開始:AI 頂尖戰場不再是三家公司的遊戲,而是四強並立、各有勝場。Meta 帶著社交數據、30 億用戶入口與超過千億美元資本承諾重新加入競局,這對整個產業的競爭強度、定價策略與開源生態,都將產生深遠的連鎖影響。

 

    九個月前,那個在 Llama 4 失敗陰影下緊急重組的 Meta,今天終於交出了一張讓市場重新正視的成績單。但正如 Wang 本人在 X 上所說——更大的模型,已在開發之中。真正的考驗,才剛開始。


參考資料來源

1. Meta AI 官方部落格:Introducing Muse Spark: MSL’s First Model, Purpose-Built to Prioritize People

2. Meta AI Research Blog:Introducing Muse Spark: Scaling Towards Personal Superintelligence

3. Fortune:Meta unveils Muse Spark, its first new AI model since its botched Llama 4 debut

4. CNBC:Meta debuts new AI model, attempting to catch Google, OpenAI after spending billions

5. VentureBeat:Goodbye, Llama? Meta launches new proprietary AI model Muse Spark

6. TechCrunch:Meta debuts the Muse Spark model in a 'ground-up overhaul' of its AI

7. Axios:Meta debuts Muse Spark, first AI model under Alexandr Wang

8. OfficeChai:Meta Releases Muse Spark, Beats Top Frontier Labs On Some Benchmarks

9. SiliconANGLE:Meta debuts Muse Spark multimodal reasoning model

10. Lushbinary:Meta Muse Spark: Benchmarks, Modes & Developer Guide

11. 9to5Mac:So long, Llama: Meta unveils Muse Spark AI with Contemplating mode