WEEX 唯客博客, 作者:Dylan Wang, Dr. Nick 1、技術堆棧 AI2.0 時代需要新一代的基礎設施來支撐大模型的訓練與推理、生成式 AI 應用的規模化落地,其核心要素,如算力、數據服務、大模型服務都需精細化的設計和重構,而非簡單的伺服器或 GPU 實例的堆砌。當下,人工智慧正在改變技術堆棧。為了在新的人工智慧浪潮中增加價值,了解每個技術堆棧層的潛在動態、它們如何相互作用以及它們與以前的技術堆棧不同的原因至關重要。 1.模型層 大模型是指具有數千萬甚至數億參數的深度學習模型。大模型的原理是基於深度學習,它利用大量的數據和計算資源來訓練具有大量參數的神經網路模型。通過不斷地調整模型參數,使得模型能夠在各種任務中取得最佳表現。總體來說,大模型就是參數+架構,即更多的參數,更先進的架構。 大模型發展至今經歷了從量變到質變的過程。 量變:大模型的能力提升會遵循「規模法則」,隨著數據量、算力、參數量提升,大模型的壓縮損失率持續降低,模型能力持續提升。 質變:當模型體量足夠大時,模型會出現類似人類「開悟」般的湧現能力,經過思維鏈提示后(一步步思考),模型 推理能力隨模型規模擴大顯著提升。 (1)從CNN架構到Transformer類架構再到大模型 卷積神經網路(CNN)架構是一個重要的里程碑,尤其擅長圖像分類和目標檢測任務。但由於難以生成高解析度任務、難以捕捉圖像全局結構和語義信息,CNN在圖片的發展上遇到了瓶頸。同時CNN結構在向文本類進行應用拓展時遇到了阻礙,如CNN採用RNN(循環神經網路)按順序對文本進行處理,即無法同時處理大量的文本信息,且容易遺忘已經輸入的文本信息。基於CNN架構的缺陷,Transformer架構的出現解決了CNN面臨的問題。 Transformer 模型是一種深度學習架構,通常而言,傳統的順序模型(例如循環神經網路 (RNN))在捕獲遠程依賴性和實現并行計算方面存在局限性。為了解決這些問題,Transformer 模型引入了自注意力機制,通過廣泛使用該機制,模型能夠在生成輸出時權衡輸入序列中不同位置的重要性。 在圖像生成領域,Transformer類架構可以有效地捕捉圖像的全局結構和語義信息,同時也可以生成高解析度、逼真的圖像。從而近年來,Transformer類架構在圖像生成領域也開始逐漸被應用,在自然語言處理領域的機器翻譯任務中,Transformer已經成為了一種主流的模型架構。 真正讓Transformer 架構大放異彩的是他在文本處理方面的突出能力。 首先,Transformer 模型通過引入位置編碼層,有效地捕捉輸入序列中的長距離依賴關係,使得模型能夠理解單詞在句子中的上下文。 同時,引入了注意力機制(Attention),使得模型在解碼輸出標記時能夠聚焦於句子中最相關的單詞。 最後,Transformer摒棄了RNN(循環神經網路)的順序處理方式,以并行化的方式處理數據,從而實現更大規模的并行計算和更快速的訓練。Transformer 深度學習模型的優勢之一是能夠同時處理多個單詞。這得益於 Transformer 的并行計算能力,使得它能夠更高效地處理序列數據。 Transformer架構會走向何方?多模態架構可能是一個主流方向,他可以建立統一的、跨場景/任務的模型,將不同類型的數據(如圖像、文本、音頻等)融合起來,極大地拓展了人工智慧認知並理解世界的能力邊界。多模態學習在不同模態間搭建了橋樑,使得基礎模型通過遷移學習和規模湧現達到能力躍遷成為可能,極大加速了通用模型的演進。2023年10月,斯坦福大學提出新架構:Monarch Mixer,在該模型中無需注意力機制(Attention),有望成為Transformer的替代者。 有了transformer架構的支撐,大模型的革命隨之到來。從最初的 Transformer 論文到2017 年穀歌推行 transformer 模型,繼而 2018 年第一代 GPT 現身,Transformer模型基於其對文本處理和并行計算的突出優勢極大地推動了大語言模型的發展。 最先運用Transformer架構推出大模型並佔據首發優勢的有Google的BERT和GPT。通過預訓練的 Transformer 模型,雙向編碼器表示(BERT)在自然語言理解任務中取得了顯著的突破。BERT 的核心思想是通過在大規模無標籤的文本數據上進行預訓練,使模型學習到豐富的語言表示。BERT 模型具備雙向性,能夠同時考慮一個詞在上下文中的左側和右側信息,從而更好地捕捉詞語的語義和語境。 隨之GPT系列的推出讓全世界為之震驚。GPT(Generative Pre-trained Transformer)專註於處理自然語言處理(NLP)相關任務,如機器翻譯、問答、文本摘要等。具體而言,GPT-3 是最新的模型,相比於 GPT-2,其引入了許多新的功能和改進。除此之外,GPT-3 的模型容量達到了驚人的 1750 億個機器學習參數,而 GPT-2 只有 15 億個參數。具備如此巨大的參數容量,GPT-3 在自然語言處理任務中展現出了令人驚嘆的性能。它具備更強大的語言理解和生成能力,能夠更準確地理解和生成自然語言文本。 如今,全世界的AI公司都在奮力地湧入大語言模型的賽道,中國的百度、科大訊飛、微軟等公司紛紛入局,大語言模型也進入了各大公司混戰的階段。根據輸入類型的不同,當下的大模型主要可以分為以下三大類: 語言大模型(NLP):是指在自然語言處理(Natural Language Processing,NLP)領域中的一類大模型,通常用於處理文本數據和理解自然語言。這類大模型的主要特點是它們在大規模語料庫上進行了訓練,以學習自然語言的各種語法、語義和語境規則。例如:GPT 系列(OpenAI)、Bard(Google)。 視覺大模型(CV):是指在計算機視覺(Computer Vision,CV)領域中使用的大模型,通常用於圖像處理和分析。這類模型通過在大規模圖像數據上進行訓練,可以實現各種視覺任務,如圖像分類、目標檢測、圖像分割、姿態估計、人臉識別等。例如:VIT 系列(Google)、文心UFO、華為盤古 CV、INTERN(商湯)。 多模態大模型:是指能夠處理多種不同類型數據的大模型,例如文本、圖像、音頻等多模態數據。這類模型結合了 NLP 和 CV 的能力,以實現對多模態信息的綜合理解和分析,從而能夠更全面地理解和處理複雜的數據。例如:DingoDB 多模向量資料庫、DALL-E(OpenAI)、midjourney。 (2)模型的機器學習過程 大模型的機器學習主要由演算法、算力和數據這三個要素構成: 演算法:大模型發展的推手。是一系列解決問題、實現特定功能的有序指令和步驟,它直接決定了內容的生成能力和效果 數據:大模型發展的燃料。體現了對現實世界的反映與提現,大模型的質量與訓練數據量呈正相關關係。 算力:大模型發展的基礎。體現了對信息數據的處理能力;自深度學習等演算法出現以後,全球的算力需求快速上漲,2012年以來,全球的算力需求增長30萬倍。 有了數據、演算法、算力這三個要素作為支撐,才能對模型進行訓練,進而實現機器學習。大模型通過以下四個步驟來實現機器學習。 步驟一:數據收集與預處理。 《AI x Crypto 報告》中用皮膚科醫生的例子對數據的重要性進行了闡述。如果我們想建立一個供皮膚科醫生使用的模型,首先就要給這個模型看足夠多的人臉的數據,然後,我們請專業皮膚科醫生來評估是否存在皮膚病。那麼在這個過程中,我們找到的人臉數據的質量和數量就變得尤為重要。只有通過足夠大的樣本和足夠精準的數據才能讓大模型進行識別判斷。 步驟二:根據任務目標選擇合適的演算法模型。 構建大模型所需要的機器學習演算法大致可以分為三類:監督學習、無監督學習以及強化學習。 監督學習演算法 (Supervised Algorithms):在監督學習訓練過程中,可以由訓練數據集學到或建立一個模式(函數 / learning model),並依此模式推測新的實例。該演算法要求特定的輸入/輸出,首先需要決定使用哪種數據作為範例。比如在皮膚科醫生模型的例子中,在我們把各種人臉和皮膚數據拿給大模型看的同時,需要有一個醫生告訴大模型圖片上的人臉得了什麼皮膚病。 比如把圖片1打上標籤「青春痘」,把圖片2打上標籤「濕疹」等等。大模型有了這些數據和對應的標籤之後就可以提取這些信息加以運用。當我們把一個新患者的人臉拿給大模型看之後,大模型就會把圖片上的數據和過往輸入的範例信息進行匹配,最後得出結論。但是這種方法的成本較高,不僅需要大量的數據,還需要很多給數據貼標籤的人工成本。 無監督學習演算法 (Unsupervised Algorithms):這類演算法沒有特定的目標輸出,主要特徵是演算法將數據集分為不同的組。回到皮膚科醫生的例子,這一次我們把人臉數據輸送給大模型之後不給每一份數據打上標籤,也就是不告訴大模型每一個患者得了什麼病。此時模型會檢查所有這些數據,並試圖自己根據數據的特徵找出模式或分組。比如說,這個模型可能把泛紅的皮膚病都歸類為一組,然後把起疙瘩的皮膚病歸為另一組。無監督學習是許多流行的機器學習模型的支柱,例如大型語言模型(LLM)。ChatGPT不需要人類通過提供標籤來教它如何說每個句子。它只需分析語言數據中的模式,並學會預測下一個單詞。 強化學習演算法 (Reinforcement Algorithms):強化學習普適性強,主要基於決策進行訓練,演算法根據輸出結果(決策)的成功或錯誤來訓練自己,通過大量經驗訓練優化后的演算法將能夠給出較好的預測。比如說皮膚病的大模型,我們把一個皮膚病患者的信息輸入給大模型,大模型給出了一個錯誤的答案。這是環境給大模型一個負反饋。之後大模型會繼續自主探索出不同的答案,直到找到了正確的答案,得到了環境的正反饋為止。這就是強化學習演算法的特點,不斷地在錯誤中學習來達到自身的強化。 演算法是用來定義整個大模型訓練過程的。選定了一個演算法之後,大模型就能夠通過該演算法來對數據進行處理訓練。事實上,為了提高大模型的準確性,上述集中機器學習的演算法常常是一起出現的。比如GPT的訓練就將以上幾種演算法融合在一起。在《State of GPT》這份報告中,大模型的訓練包括以下四個階段,預訓練階段(Pretraining)、有監督微調階段(Supervised Finetuning)、獎勵建模階段(Reward Modeling)、強化學習階段(Reinforcement Learing)。其中,預訓練階段採用無監督學習演算法將大量的數據輸入大模型中進行自主分組,進入監督微調階段后,通過監督學習演算法用少量人為攥寫的語料做微調,給數據標上標籤。獎勵建模階段和強化學習階段採用強化學習演算法,基於有監督微調模型,對同一提示多次調用模型產生不同的輸出,請人來對不同的輸出進行評分。基於評分數據,訓練出獎勵模型。通過不斷地試錯、評分與強化最終形成了震驚世界的GPT。 步驟三:訓練 大模型訓練過程是指通過大數據訓練出一個複雜的神經網路模型,通過大量數據的訓練確定網路中權重和偏置的值,使其能夠適應特定的功能。在訓練中需要調整神經網路權重以使損失函數最小,通過反向傳播來執行訓練以更新每層中的權重。綜合來看,大模型訓練中最重要的兩個要素是參數和架構,因而訓練也圍繞著這兩個元素展開。 首先,我們要選擇一個合適的架構作為神經網路模型,例如當前的大語言模型大多都選擇了Transformer類架構。如果我們想讓構造出的神經網路更複雜更有效,就需要增加參數量。而訓練大模型的過程就是增加模型中的參數量,豐富模型神經網路的過程。 《大模型的算力基礎設施:GPU 初識》中介紹了大模型訓練神經網路的原理,一個簡單的神經網路如下圖所示,它只有一個輸入層、一個輸出層和一個隱藏層: 為了提升神經網路的能力,通過訓練增加了神經網路內部的參數,讓神經網路擁有更多的隱藏層,也稱為深度神經網路。 神經網路最基本的單元或者說最簡單的形式叫做感知機,它有若干個輸入信號,加權求和后,再通過一個激活函數激活,形成感知機的輸出。 上述過程其實就是對大腦神經信號處理的一種簡單模擬: 從中能夠看到,對於相同的輸入信號,輸出結果影響的主要因素就是信號權重,也就是參數值,不同信號對應不同的權重,最終形成了參數值權重矩陣,這些參數值權重就是知識的表徵。 讓我們回到皮膚科醫生的例子,皮膚科大模型訓練的流程大致如下: 將患者的數據信息輸入給大模型的神經網路 大模型對輸入的信息進行處理 大模型對患者的情況進行判斷並輸出結果 Transformer結構根據大模型輸出結果的準確性對參數以及權重進行小幅修改:生成了新的參數 由於生成了新的參數,模型的複雜度和預測準確性進一步提升 不斷輸入新數據重複訓練直到皮膚科大模型神經網路的預測結果基本正確為止 這一過程本質上是順序性的。我們首先通過整個網路傳遞一個數據點,看看預測結果如何,然後更新模型的權重,豐富模型的參數量。大模型和其他模型的核心區別就是參數量的多寡。小模型通常指參數較少、層數較淺的模型,它們具有輕量級、高效率、易於部署等優點,適用於數據量較小、計算資源有限的場景,例如移動端應用、嵌入式設備、物聯網等。而當模型的訓練數據和參數不斷擴大,直到達到一定的臨界規模后,其表現出了一些未能預測的、更複雜的能力和特性,模型能夠從原始訓練數據中自動學習並發現新的、更高層次的特徵和模式,這種能力被稱為「湧現能力」。 GPT Transformer 是一個擁有超大規模參數的深度神經網路模型,正是這些參數的取值(權重)組合在一起,才能輸出了相應的預測結果(概率),而 Transformer 就是通過預測結果,再反向更新自己的參數權重。經過不斷的數據輸入和訓練,GPT-3 的模型容量達到了驚人的 1750 億個機器學習參數,而 GPT-2 只有 15 億個參數。具備如此巨大的參數容量,GPT-3 在自然語言處理任務中展現出了令人驚嘆的性能。GPT-4在120層中總共包含了1.8萬億參數,而GPT-3隻有約1750億個參數。 也就是說,GPT-4的規模是GPT-3的10倍以上。 步驟四:推理 推理是指利用訓練好的神經網路模型進行運算,利用輸入的新數據來一次性獲得正確結論的過程。當我使用ChatGPT並得到回應時,模型正在執行推理。我們就可以使用這個訓練好的大模型完成特定任務發過程就是推理。推理本質上是利用輸入的新數據「一次性」獲得正確結論的過程,他不需要和訓練一樣需要循環往複的調整參數,因此對算力的需求也會低很多。訓練大模型可能要花費數千萬美元,但進行一次推理只需幾分之一。 訓練也有以下幾個步驟。首先在使用皮膚科醫生大模型時,我們需要對這個大模型進行測試。我們給大模型輸入一個全新的患者信息,讓大模型進行推理,以驗證模型的質量。然後我們可以對大模型進行部署。比如一些用戶想要在手機上就享受到皮膚科醫生大模型的服務,客戶需要在手機端上傳自己的病情圖片。這樣手機通過互聯網向我們的中心大模型發送請求,然後在大模型上進行推理,生成結果。另一種方法是直接把皮膚科大模型存在手機這個終端上,這樣圖片就無需上傳至大模型總部,只需要在用戶的手機上就能實現推理。 我們將上述機器學習的步驟不斷重複,模型也在重複中實現了迭代升級。事實上,對於大模型公司而言,訓練與推理是他們最大的花銷。 模型層的競爭 模型正在開啟「智能即服務」(IQaaS)的時代,勝方將在人才、數據及計算能力的角逐中敲定。拓展模型性能亦意味著拓展高品質的數據集。 在演算法層面,當下 AI 技術的發展尚且處於持續迭代與提升的進程之中。未來的發展趨向主要會體現在深度學習演算法的多模態及大模型方面,以及在自主學習、知識遷移與增量學習等方面的創新。此將進一步提升 AI 演算法的智能水準與應用範疇,推動 AI 技術的廣泛應用。 模型層以高研發壁壘以及高運行成本為主要特點,一方面從數據基礎和訓練成本來看,模型層的研發均需要體量較大的數據來完成,另一方面從運行成本來看,模型層的運行需要較強算力的支持。 數據壁壘:模型能力較大程度上依靠訓練數據,且對數據的需求量正在不斷膨脹,大廠往往具備優質數據,具備競爭優勢 訓練成本:模型訓練對晶元、伺服器等算力設施的需求較大,帶來較高的訓練成本,每個token的訓練成本大概為六倍的模型參數數量 運行成本:根據推算,ChatGPT運行成本在9.1-45.6億美元每年,運行成本較為高昂 基於上述模型層高研發投入的特點,競爭門檻將持續提升,參與者會持續減少,走向寡頭格局。 (3)模型層的發展方向 模型進化方向1:多模態,感知理解升級+拓展人機交互形式 多模態指文字、圖片、音頻、視頻等多種數據類型;多模態大模型不僅可以像人類一樣看和聽,理解視覺、音頻等信息背後的規律,完成複雜的推理,還可以生成圖片、視頻、音頻、3D等多模態內容。 多模態大模型將帶來以下改變: 提高泛娛樂、商業等場景內容創作效率。多模態大模型的圖像、視頻、3D生成能力可以廣泛應用於影視、音樂、遊戲等泛娛樂場景的內容創作,同時加速廣告、電商等商業場景的營銷創意效率。 感知交互升級帶動終端硬體革新。多模態大模型可以處理視覺提示,例如我們在圖片中圈出物體,模型可以對圈出的部分針對性分析這種能力未來可以適配觸屏、眼動追蹤、手勢追蹤等人機交互形式;另一方面,多模態大模型可以對物理世界建模,優化自動駕駛、機器人感知控制技術。 拓展落地場景提升AI滲透率。語言大模型最大的應用場景是教育、辦公;多模態大模型將具備圖像、視頻分析與推理能力,可應用於泛娛樂、交通 (自動駕駛) 、工業 (檢測與自動化)、安防 (城市管理) 等場景。 模型進化方向2:多種模型組合 按照應用領域的不同,大模型主要可以分為 L0、L1、L2 三個層級:· 通用大模型 L0:是指可以在多個領域和任務上通用的大模型。它們利用大算力、使用海量的開放數據與具有巨量參數的深度學習演算法,在大規模無標註數據上進行訓練,以尋找特徵並發現規律,進而形成可「舉一反三」的強大泛化能力,可在不進行微調或少量微調的情況下完成多場景任務,相當於 AI 完成了「通識教育」。· 行業大模型 L1:是指那些針對特定行業或領域的大模型。它們通常使用行業相關的數據進行預訓練或微調,以提高在該領域的性能和準確度,相當於 AI 成為「行業專家」。· 垂直大模型 L2:是指那些針對特定任務或場景的大模型。它們通常使用任務相關的數據進行預訓練或微調,以提高在該任務上的性能和效果。 短周期內通用類大模型市場熱度較高,長周期內多種模型組合是未來發展方向。根據模型體量,模型可分為大模型、小模型、微模型。大模型參數量大,算力強,具備通用類問題處理能力。小模型多專註於垂類領域,往往在垂直場景具備充足的數據以及問題處理能力。微模型更加個性化,由用戶個人數據訓練而成。大模型和小模型具備不同的優勢,分別通過壓縮技術以及教師模型進行整合來提高問題處理能力,能夠實現1+1大於2的效果,可能是未來模型層的發展方向。 根據 Menlo 的 Enterprise AI 報告,60% 的企業使用多個模型並將提示…
探秘Web3.0 AI產業鏈(上半部)
Previous: A輪融資1500萬美元的Caldera,能否構建基於以太坊的 Web3 開發者平台
Next: 加密行業中的生態和技術|疑問解答