Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

2024年諾貝爾物理獎得主與AI的基礎性突破

 

 

 

 

圖1:取自諾貝爾官網

 

圖靈學院
科楠 2024-10-10


    

    2024年,普林斯頓大學的約翰·J·霍普菲爾德和多倫多大學的傑弗里·E·辛頓因在人工神經網絡領域的突破性貢獻,共同榮獲諾貝爾物理獎。這一殊榮對AI界具有非凡的意義,值得深刻紀念。坦白說,若要用短短的一、二千字來闡釋這兩位學者的理論,可能顯得過於簡化,甚至有些自不量力。沒有人工神經網絡(ANN)的出現,現代自然語言處理(NLP)技術就無從談起;而若沒有NLP能夠分析、預測、模擬人類語言與文字,也就無法孕育大型語言模型(LLM),更不可能誕生如今的生成式AI。展望未來,Sam Altman甚至預測通用人工智能(AGI)可能會在五年內出現。在這短短的十年——甚至僅僅五年內——我們正身處這股AI變革的浪潮,見證歷史性改變。


我們仍願意冒險嘗試解釋這兩位被譽為AI教父的研究,他們的貢獻足以與圖靈媲美,甚至值得以他們的名字命名。他們的研究不僅基於物理學理論,還在人工智慧技術的實踐中廣泛應用,極大推動了深度學習與機器學習的核心發展。約翰·J·霍普菲爾德與傑弗里·E·辛頓的工作在數學建模和物理學理論方面奠定了深厚的基礎,對現代AI理論,特別是大型語言模型(LLM)的發展,產生了深遠而持久的影響。
 

 

-霍普菲爾德的聯想記憶與「霍普菲爾德網絡」

 

    霍普菲爾德於1980年代提出了「霍普菲爾德網絡」(Hopfield Network),這是一種可以進行聯想記憶(Associative Memory)功能的人工神經網絡。該網絡通過模仿大腦神經元的互動方式來儲存和重建訊息,成為當代神經網絡的基石之一。霍普菲爾德網絡是一種「全連接網絡」,每個節點(或神經元)都與其他節點互相連接,並透過調整連接權重來實現記憶功能。

 

數學模型解構

 

霍普菲爾德網絡的運作基礎是物理學中「自旋玻璃」(Spin Glass)的理論。

 

圖2:Spin Glass 來源:Wikipedia


自旋玻璃是一種具有隨機耦合的系統,其中自旋的方向與鄰近自旋之間存在隨機互作用。霍普菲爾德網絡採用了這一概念,通過引入「能量函數」(Energy Function)來描述系統的穩定狀態,使網絡可在輸入被扭曲或不完整的情況下,逐步將輸入調整到與儲存記憶最相似的狀態。這一網絡的能量函數定義如下:

 


其中:
-  表示系統的能量。
-  為兩個節點間的連接權重。
-  表示節點的狀態。
-  為偏置項。

 

透過不斷地降低能量函數值,系統最終將趨於「最低能量」的穩定狀態,這樣網絡便可自動將輸入與最接近的記憶模式匹配起來。

 

-辛頓與「玻爾茲曼機」

 

圖3:玻爾茲曼機 來源:Wikipedia

 

    辛頓則進一步推動了神經網絡的發展,提出了「玻爾茲曼機」(Boltzmann Machine),這是一種可以通過無監督學習進行特徵提取的網絡。辛頓受到了霍普菲爾德網絡的啟發,但其改進使網絡能夠自我學習與分類訊息。玻爾茲曼機使用了一種基於「概率分布」的隨機方法來更新權重,這與統計物理學的玻爾茲曼分布有密切關聯。

 

玻爾茲曼機的數學模型

 

玻爾茲曼機的基本思想是透過馬可夫鏈蒙特卡洛方法(Markov Chain Monte Carlo,MCMC)來實現神經網絡的自適應更新。該網絡引入了一種「能量函數」,類似於霍普菲爾德網絡,但以概率形式進行學習。其能量函數為:

 

其中:
-  表示系統的總能量。
- 是兩個節點間的連接權重。
-  是隱藏層或輸入層的狀態。

 

這種網絡利用「玻爾茲曼分布」計算每個神經元狀態的轉換概率:

 

 

其中  表示狀態變化帶來的能量變化,k 是玻爾茲曼常數,T  是「溫度」參數。透過調整這些參數,玻爾茲曼機可以學習並生成類似輸入數據的模式,這成為現代生成對抗網絡(GAN)和深度學習技術的理論基礎之一。

 

 

圖4:  GAN架構

 

 

理論貢獻與AI的深遠影響

 

    霍普菲爾德與辛頓的研究為AI理論和應用打下了堅實基礎。霍普菲爾德的聯想記憶模型開啟了利用物理學工具來解釋和模擬大腦學習過程的可能性。而辛頓的玻爾茲曼機則推動了無監督學習的發展,使得AI能夠自主識別和生成類似輸入的數據。這些理論構建不僅加速了AI的發展,還引領了生成模型和深度學習等技術的創新。如今,這些技術被廣泛應用於語音識別、自然語言處理和電腦視覺等領域。

 

當代AI的應用與未來展望

 

    隨著深度學習和神經網絡的發展,霍普菲爾德和辛頓的研究逐步從理論走向應用。霍普菲爾德網絡與玻爾茲曼機的設計思維被應用於生成對抗網絡(GAN)、遞歸神經網絡(RNN)、卷積神經網絡(CNN)等各種深度學習模型中,這些模型在圖像識別、自然語言處理和自動駕駛等領域中發揮了重要作用。未來,這些基礎性理論將持續推動AI技術的進步,並為機器學習的多樣化應用提供理論支持。

 

圖5:  RNN架構

 

圖6:  CNN架構

 

    霍普菲爾德與辛頓的理論開啟了基於物理學的AI方法。霍普菲爾德的聯想記憶模型為LLM中的模式記憶和關聯性理解奠定基礎,辛頓的隨機分布理論則直接影響了LLM的隱藏層特徵學習。
LLM依靠多層神經網絡學習大量語言數據中的語法、語意模式。霍普菲爾德網絡中的「穩定點」概念被應用於LLM的關聯機制,使得模型能夠在進行文本生成時具備上下文關聯性。辛頓的隨機性啟發了LLM中的注意力機制,在上下文關係和句意理解中發揮重要作用。


現代LLM的生成與自我學習


    LLM的生成能力源於霍普菲爾德的自我校正機制和辛頓的自適應學習模型。LLM經歷預訓練和微調過程,預訓練階段學習語言普遍模式,微調時適應特定語境任務,這與霍普菲爾德的記憶重建和辛頓的特徵識別高度一致。

 

 

結論:深遠影響

 

圖7:  NLP架構

 

    LLM之所以能在NLP領域取得突破,得益於霍普菲爾德與辛頓的理論。霍普菲爾德網絡提供了對不完整數據進行匹配的基礎,辛頓的玻爾茲曼機則為無監督學習和特徵識別提供了支持。這些基礎理論不僅促進了AI全面發展,也深化了AI應用於語言理解的模式,預示未來更豐富的AI技術和應用。