圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

ETL的終章?資料處理的革命性轉變正加速來臨

 

圖靈學院
科楠
2025-7-8

 

前言:當代資料工程的集體迷思

 

    我們用了三十年的時間,將資料處理流程定義為三個步驟:Extract(擷取)、Transform(轉換)、Load(載入)。這個簡潔的縮寫 “ETL”,幾乎成為所有數據管道設計的起點。每位資料工程師、BI分析師甚至是AI應用開發者,都曾在這座三段式橋梁上來回奔波。

 

但,我們現在正站在歷史的轉折點。

 

資料流量已經爆炸、即時處理變成標配、AI需求完全顛覆資料邏輯,這三大力量交織成一場完美風暴,正徹底顛覆ETL的地基。

ETL,不是漸漸退出歷史舞台,而是以一種壯觀的方式迅速瓦解。我們進入的是一個全新的資料處理時代:Streaming-First 架構。

 

為何 ETL 死定了?三大趨勢逼迫轉型

 

1. 資料量爆炸:

 

  • 根據統計,光是2024年,全球就產生了149 ZB(zettabytes)的資料。
  • 這意味著每天都有無數個ETL批次在超負荷處理,效率低下。

 

2. 即時需求已成標配:

 

  • 不管是社群媒體廣告的動態更新,或是交易安全的即時偵測,沒人願意等「隔夜批次報表」。
  • 批次處理的慢節奏,與使用者的即時互動需求脫節。

 

3. AI模型革命:

 

  • 訓練AI需要的不是昨天的快照,而是「現在」的連續資料流。
  • 傳統ETL的設計根本無法餵養大模型所需的語意豐富、多模態資料。

 

後ETL時代:Streaming-First 資料架構正式上線

 

這場變革不只是工具的更新,而是邏輯根基的重建。

從傳統的:


來源 → 擷取 → 轉換 → 載入 → 目的地

 

走向新的流架構:

 

來源 → 實時串流 → 邊緣轉換 → 多目的地發散


這代表的不是「更快的ETL」,而是資料從被動搬運,變成主動流動、智慧轉換、即時決策。


EtLT:未來資料流的新秩序

 

    你可能還記得 ELT(Extract-Load-Transform)曾短暫流行,但這也已經被 EtLT 所取代:

 

  1. Extract:從各種來源(IoT、API、log)即時擷取資料。
  2. transform(小t):在邊緣設備進行基本清洗、格式轉換。
  3. Load:將資料同步輸入多個目的地(如資料湖、數據倉儲、營運資料庫)。
  4. Transform(大T):在目的地上進行複雜的深層分析與AI處理。

 

這種架構能夠應付當前最難搞的資料形式——多模態資料(文字、圖片、語音、影片的綜合)。

 

Streaming-First 架構圖解

 

批次處理的沒落,不是消失,而是退居二線

 

批次仍有其價值,但已不再是預設選項:

 

1. 適合:

  •   歷史資料回補
  •   模型批量訓練
  •   合規報告

 

2. 不適合:

  •   需要即時反應的業務邏輯(詐騙偵測、即時推薦)
  •   多人協作環境(金融下單、物聯網監控)

 

新時代的預設立場變成:「除非能忍受延遲,否則就用streaming。」


多模態資料是壓垮ETL的最後一根稻草

 

AI模型現在處理的不再是乾淨的CSV,而是:

 

  • 音訊 + 文字對話 + 圖片 + 使用者互動紀錄
  • 資料需要語意理解、跨模態對齊(如圖像產生標題)
  • 向量嵌入(Vector Embedding)產生供相似查詢使用

 

ETL用SQL、正規表示式這些老方法,根本處理不了這些新需求。

 

Serverless + Streaming:資料處理的經濟轉型

 

Serverless技術讓資料處理不再需要長期開機的昂貴伺服器,轉為:

 

  • 自動擴展(0 到千倍運算力只需幾秒)
  • 使用多少付多少
  • 搭配邊緣運算(Edge Computing)降低延遲

 

這讓即時處理的成本大幅降低,擊潰了ETL的經濟優勢。

 

API-First:資料不再搬運,而是即時存取

 

現在的資料存取方式已從「批次搬運」轉為:

 

  • API即時查詢
  • Event-driven(事件驅動)觸發更新
  • 資料即服務(Data as a Service)
  • 架構具備 schema-on-read、即時演化能力

 

換句話說:你不再需要等資料被「搬過來」,你直接跟它說話就好。

 

誰是新時代的勝利者?

 

以下這些工具,已經取代了傳統ETL軟體(如Informatica、SSIS):

 

AI時代加速埋葬ETL

 

1. AI驅動資料處理: 使用LLM自動生成轉換邏輯。
2. 向量資料庫: 需要即時嵌入產生與查詢,ETL無法跟上。
3. 模型服務: 模型需要持續資料流,而非隔夜更新。
4. 自然語言產生管線: 不用寫程式也能生成流程圖,還要ETL做什麼?

 

成本現實:老ETL經濟結構撐不下去了

 

 

平均來說,stream-first 架構的建置與維運成本可比ETL低10倍。


現實轉型建議:你的ETL該退休了

 

轉型路徑:

 

1. 階段一:加裝串流 Sidecar
   不砍掉原本ETL,只針對關鍵流程試行streaming

2. 階段二:混合架構運行
   新數據走streaming,老數據繼續批次,漸進式取代

3. 階段三:新專案預設streaming
   每個新系統設計時就用stream-first架構

4. 階段四:全面現代化
   退役舊ETL架構,改建AI原生資料管線


技術轉型的最大挑戰:人才落差

 

大多數資料工程師習慣SQL、熟悉批次工作排程,但streaming要求的技能包括:

 

  • 事件驅動架構(event-driven architecture)
  • 串流處理語言(如Flink SQL)
  • 向量處理、向量資料庫
  • 即時監控與backpressure處理
  • 非同步與eventual consistency 概念

 

企業若不願投資 retraining,只能眼睜睜看著競爭對手先行轉型。

 

小結:你的資料架構準備好了嗎?

 

從 punch card 到 ETL,再到 streaming-first,我們正進入資料處理的第三波革命。

 

不是改良 ETL,而是全面告別 ETL。

 

  • AI 需要即時資料流
  • 使用者需求不容延遲
  • Serverless 大幅降低成本
  • API 正式成為資料的新語言

 

所以,問題不在於你是否需要改變,而在於:你什麼時候開始改變?

 

如果你還在維護那台跑了十年的ETL伺服器,不如問問自己:

你,是在為未來而建?還是在跟過去糾纏?

 

若需幫忙轉型streaming-first架構,或導入即時AI資料管線,歡迎聯絡利創智能(info@ibco.com.tw),我們一起走上資料工程的新未來。