Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

Gemini 2.0:引領「行動智能時代」的新世代 AI

 

 

(圖取自Google網頁developers.googleblog.com)
 

 

圖靈學院
科楠
025-01-13

 

    Google 推出 Gemini 2.0:改變遊戲規則的人工智慧

2023 年 12 月 11 日,Google 推出了其最新的人工智慧系統 Gemini 2.0。雖然官方公告低調且充滿科技術語,但背後的潛力卻不可忽視。Google 將其稱為「行動智能時代(Agentic Era)的 AI」,並強調它在多模態處理、語音輸出、以及 API 擴展方面的強大性能。

 

Gemini 2.0 目前的重點版本為 Gemini 2.0 Flash,但令人好奇的是,並未見到傳聞中的 Pro 或 Ultra 版本。這種情況讓人聯想到 Anthropic 曾推出 3.5 Sonnet 與 Haiku,但未推出 3.5 Opus 的情景。或許,這反映了當前大型語言模型(LLM)擴展的挑戰。

 

Gemini 2.0 的性能表現與技術突破

 

    官方提供的一張性能比較表,顯示出 Gemini 2.0 Flash 在多數基準測試中的表現優於 Gemini 1.5 Pro,但在長上下文處理方面稍有遜色。然而,從多模態處理到可控的語音輸出,Gemini 2.0 引入了數項突破性技術:

 

1. 多模態即時 API:支持視覺與音頻串流應用的工具集成,讓應用場景更加多元。


2. 速度提升:首次回應時間(TTFT)顯著優於 1.5 Flash。


3. 品質改進:在多數基準測試中取得領先,提升了多模態理解、程式設計、複雜指令追蹤等能力。


4. 新增模式:原生支持圖像生成與可控的文字轉語音功能。

 

(圖取自Google網頁developers.googleblog.com)
 

特別是文字轉語音(Text-to-Speech, TTS)功能,讓 Gemini

2.0 成為首個支援語音輸出的主流 LLM。

 

真實測試:Gemini 2.0 與前代的差異

 

在測試中,Gemini 2.0 Flash 展現了明顯的進步。以回答以下問題為例:

 

問題:許多機構聲稱受到 FDIC 或 CDIC 保險,但實際上並非如此。這是真的嗎?

- Gemini 1.5 Pro 的回答:過於一般化,認為這種說法誤導且可能錯誤。
- Gemini 2.0 Flash 的回答:更平衡,承認金融科技公司與加密貨幣領域可能導致誤解,進一步提供詳細分析。

 

這反映出 Gemini 2.0 Flash 在內容深度與語調上的改進。即使面對相同的自定義提示,Flash 的回答仍顯得更全面且切題。

 

創新應用:解鎖更多可能性

 

    Gemini 2.0 的 API 功能非常令人期待。除了多模態應用,語音輸出和即時處理功能更是改變遊戲規則的亮點。例如:

 

1. 語音互動:提供即時語音反饋,讓虛擬助理更加貼近人類交互模式。


2. 影像生成:支援圖像生成 API,開啟內容創作的新篇章。


3. 整合應用:對於開發者而言,像 Tejido 電子郵件應用程式這樣的創新工具,將受益於 Gemini 2.0 的即時處理能力。

 

Gemini 2.0 讓開發者不僅能提升應用效能,更能打造出更加智能化的應用場景,例如電子郵件數字助理或多媒體總結工具。

 

超越文字:Gemini 2.0 的未來展望

 

    目前,儘管 Gemini 2.0 的部分功能尚未全面開放(如圖像生成與 TTS API),但其技術潛力無疑令人振奮。未來,透過更深入的語音處理、多模態擴展及實時功能,Gemini 2.0 有望在 AI 生態系統中占據重要地位。

 

這標誌著一個新時代的開端:行動智能時代。Gemini 2.0 並非只是技術堆疊,而是一種重新定義 AI 與人類互動方式的創新。當下,開發者與使用者正迎來一個嶄新的技術突破點。