圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

Gemini 2.0:引領「行動智能時代」的新世代 AI

 

 

(圖取自Google網頁developers.googleblog.com)
 

 

圖靈學院
科楠
025-01-13

 

    Google 推出 Gemini 2.0:改變遊戲規則的人工智慧

2023 年 12 月 11 日,Google 推出了其最新的人工智慧系統 Gemini 2.0。雖然官方公告低調且充滿科技術語,但背後的潛力卻不可忽視。Google 將其稱為「行動智能時代(Agentic Era)的 AI」,並強調它在多模態處理、語音輸出、以及 API 擴展方面的強大性能。

 

Gemini 2.0 目前的重點版本為 Gemini 2.0 Flash,但令人好奇的是,並未見到傳聞中的 Pro 或 Ultra 版本。這種情況讓人聯想到 Anthropic 曾推出 3.5 Sonnet 與 Haiku,但未推出 3.5 Opus 的情景。或許,這反映了當前大型語言模型(LLM)擴展的挑戰。

 

Gemini 2.0 的性能表現與技術突破

 

    官方提供的一張性能比較表,顯示出 Gemini 2.0 Flash 在多數基準測試中的表現優於 Gemini 1.5 Pro,但在長上下文處理方面稍有遜色。然而,從多模態處理到可控的語音輸出,Gemini 2.0 引入了數項突破性技術:

 

1. 多模態即時 API:支持視覺與音頻串流應用的工具集成,讓應用場景更加多元。


2. 速度提升:首次回應時間(TTFT)顯著優於 1.5 Flash。


3. 品質改進:在多數基準測試中取得領先,提升了多模態理解、程式設計、複雜指令追蹤等能力。


4. 新增模式:原生支持圖像生成與可控的文字轉語音功能。

 

(圖取自Google網頁developers.googleblog.com)
 

特別是文字轉語音(Text-to-Speech, TTS)功能,讓 Gemini

2.0 成為首個支援語音輸出的主流 LLM。

 

真實測試:Gemini 2.0 與前代的差異

 

在測試中,Gemini 2.0 Flash 展現了明顯的進步。以回答以下問題為例:

 

問題:許多機構聲稱受到 FDIC 或 CDIC 保險,但實際上並非如此。這是真的嗎?

- Gemini 1.5 Pro 的回答:過於一般化,認為這種說法誤導且可能錯誤。
- Gemini 2.0 Flash 的回答:更平衡,承認金融科技公司與加密貨幣領域可能導致誤解,進一步提供詳細分析。

 

這反映出 Gemini 2.0 Flash 在內容深度與語調上的改進。即使面對相同的自定義提示,Flash 的回答仍顯得更全面且切題。

 

創新應用:解鎖更多可能性

 

    Gemini 2.0 的 API 功能非常令人期待。除了多模態應用,語音輸出和即時處理功能更是改變遊戲規則的亮點。例如:

 

1. 語音互動:提供即時語音反饋,讓虛擬助理更加貼近人類交互模式。


2. 影像生成:支援圖像生成 API,開啟內容創作的新篇章。


3. 整合應用:對於開發者而言,像 Tejido 電子郵件應用程式這樣的創新工具,將受益於 Gemini 2.0 的即時處理能力。

 

Gemini 2.0 讓開發者不僅能提升應用效能,更能打造出更加智能化的應用場景,例如電子郵件數字助理或多媒體總結工具。

 

超越文字:Gemini 2.0 的未來展望

 

    目前,儘管 Gemini 2.0 的部分功能尚未全面開放(如圖像生成與 TTS API),但其技術潛力無疑令人振奮。未來,透過更深入的語音處理、多模態擴展及實時功能,Gemini 2.0 有望在 AI 生態系統中占據重要地位。

 

這標誌著一個新時代的開端:行動智能時代。Gemini 2.0 並非只是技術堆疊,而是一種重新定義 AI 與人類互動方式的創新。當下,開發者與使用者正迎來一個嶄新的技術突破點。