Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

ETL的終章?資料處理的革命性轉變正加速來臨

 

圖靈學院
科楠
2025-7-8

 

前言:當代資料工程的集體迷思

 

    我們用了三十年的時間,將資料處理流程定義為三個步驟:Extract(擷取)、Transform(轉換)、Load(載入)。這個簡潔的縮寫 “ETL”,幾乎成為所有數據管道設計的起點。每位資料工程師、BI分析師甚至是AI應用開發者,都曾在這座三段式橋梁上來回奔波。

 

但,我們現在正站在歷史的轉折點。

 

資料流量已經爆炸、即時處理變成標配、AI需求完全顛覆資料邏輯,這三大力量交織成一場完美風暴,正徹底顛覆ETL的地基。

ETL,不是漸漸退出歷史舞台,而是以一種壯觀的方式迅速瓦解。我們進入的是一個全新的資料處理時代:Streaming-First 架構。

 

為何 ETL 死定了?三大趨勢逼迫轉型

 

1. 資料量爆炸:

 

  • 根據統計,光是2024年,全球就產生了149 ZB(zettabytes)的資料。
  • 這意味著每天都有無數個ETL批次在超負荷處理,效率低下。

 

2. 即時需求已成標配:

 

  • 不管是社群媒體廣告的動態更新,或是交易安全的即時偵測,沒人願意等「隔夜批次報表」。
  • 批次處理的慢節奏,與使用者的即時互動需求脫節。

 

3. AI模型革命:

 

  • 訓練AI需要的不是昨天的快照,而是「現在」的連續資料流。
  • 傳統ETL的設計根本無法餵養大模型所需的語意豐富、多模態資料。

 

後ETL時代:Streaming-First 資料架構正式上線

 

這場變革不只是工具的更新,而是邏輯根基的重建。

從傳統的:


來源 → 擷取 → 轉換 → 載入 → 目的地

 

走向新的流架構:

 

來源 → 實時串流 → 邊緣轉換 → 多目的地發散


這代表的不是「更快的ETL」,而是資料從被動搬運,變成主動流動、智慧轉換、即時決策。


EtLT:未來資料流的新秩序

 

    你可能還記得 ELT(Extract-Load-Transform)曾短暫流行,但這也已經被 EtLT 所取代:

 

  1. Extract:從各種來源(IoT、API、log)即時擷取資料。
  2. transform(小t):在邊緣設備進行基本清洗、格式轉換。
  3. Load:將資料同步輸入多個目的地(如資料湖、數據倉儲、營運資料庫)。
  4. Transform(大T):在目的地上進行複雜的深層分析與AI處理。

 

這種架構能夠應付當前最難搞的資料形式——多模態資料(文字、圖片、語音、影片的綜合)。

 

Streaming-First 架構圖解

 

批次處理的沒落,不是消失,而是退居二線

 

批次仍有其價值,但已不再是預設選項:

 

1. 適合:

  •   歷史資料回補
  •   模型批量訓練
  •   合規報告

 

2. 不適合:

  •   需要即時反應的業務邏輯(詐騙偵測、即時推薦)
  •   多人協作環境(金融下單、物聯網監控)

 

新時代的預設立場變成:「除非能忍受延遲,否則就用streaming。」


多模態資料是壓垮ETL的最後一根稻草

 

AI模型現在處理的不再是乾淨的CSV,而是:

 

  • 音訊 + 文字對話 + 圖片 + 使用者互動紀錄
  • 資料需要語意理解、跨模態對齊(如圖像產生標題)
  • 向量嵌入(Vector Embedding)產生供相似查詢使用

 

ETL用SQL、正規表示式這些老方法,根本處理不了這些新需求。

 

Serverless + Streaming:資料處理的經濟轉型

 

Serverless技術讓資料處理不再需要長期開機的昂貴伺服器,轉為:

 

  • 自動擴展(0 到千倍運算力只需幾秒)
  • 使用多少付多少
  • 搭配邊緣運算(Edge Computing)降低延遲

 

這讓即時處理的成本大幅降低,擊潰了ETL的經濟優勢。

 

API-First:資料不再搬運,而是即時存取

 

現在的資料存取方式已從「批次搬運」轉為:

 

  • API即時查詢
  • Event-driven(事件驅動)觸發更新
  • 資料即服務(Data as a Service)
  • 架構具備 schema-on-read、即時演化能力

 

換句話說:你不再需要等資料被「搬過來」,你直接跟它說話就好。

 

誰是新時代的勝利者?

 

以下這些工具,已經取代了傳統ETL軟體(如Informatica、SSIS):

 

AI時代加速埋葬ETL

 

1. AI驅動資料處理: 使用LLM自動生成轉換邏輯。
2. 向量資料庫: 需要即時嵌入產生與查詢,ETL無法跟上。
3. 模型服務: 模型需要持續資料流,而非隔夜更新。
4. 自然語言產生管線: 不用寫程式也能生成流程圖,還要ETL做什麼?

 

成本現實:老ETL經濟結構撐不下去了

 

 

平均來說,stream-first 架構的建置與維運成本可比ETL低10倍。


現實轉型建議:你的ETL該退休了

 

轉型路徑:

 

1. 階段一:加裝串流 Sidecar
   不砍掉原本ETL,只針對關鍵流程試行streaming

2. 階段二:混合架構運行
   新數據走streaming,老數據繼續批次,漸進式取代

3. 階段三:新專案預設streaming
   每個新系統設計時就用stream-first架構

4. 階段四:全面現代化
   退役舊ETL架構,改建AI原生資料管線


技術轉型的最大挑戰:人才落差

 

大多數資料工程師習慣SQL、熟悉批次工作排程,但streaming要求的技能包括:

 

  • 事件驅動架構(event-driven architecture)
  • 串流處理語言(如Flink SQL)
  • 向量處理、向量資料庫
  • 即時監控與backpressure處理
  • 非同步與eventual consistency 概念

 

企業若不願投資 retraining,只能眼睜睜看著競爭對手先行轉型。

 

小結:你的資料架構準備好了嗎?

 

從 punch card 到 ETL,再到 streaming-first,我們正進入資料處理的第三波革命。

 

不是改良 ETL,而是全面告別 ETL。

 

  • AI 需要即時資料流
  • 使用者需求不容延遲
  • Serverless 大幅降低成本
  • API 正式成為資料的新語言

 

所以,問題不在於你是否需要改變,而在於:你什麼時候開始改變?

 

如果你還在維護那台跑了十年的ETL伺服器,不如問問自己:

你,是在為未來而建?還是在跟過去糾纏?

 

若需幫忙轉型streaming-first架構,或導入即時AI資料管線,歡迎聯絡利創智能(info@ibco.com.tw),我們一起走上資料工程的新未來。