WEEX 唯客博客, 原標題:《The Data Must Flow》 作者:SHLOK KHEMANI 編譯:深潮TechFlow 看看你是否能發現圖像中所有精心策劃的參考資料 過去兩年裡,自從一家相對不知名的初創公司 OpenAI 發布了名為 ChatGPT 的聊天機器人應用程序,AI 從幕後走向了台前。我們正處在機器智能全面滲透生活的關鍵時刻。隨著對控制這種智能的競爭愈發激烈,驅動其發展的數據需求也在不斷增加。這就是這篇文章的主題。 我們討論了AI公司所需的數據的規模和緊迫性以及它們在獲取數據時面臨的問題。我們探討了這種難以滿足的需求如何威脅到我們所熱愛的互聯網及其數十億貢獻者。最後,我們介紹了一些利用加密技術來提出解決這些問題和擔憂的初創公司。 在深入探討之前需要說明一點:這篇文章是從訓練大型語言模型(LLMs)的角度寫的,並非所有AI系統。因此,我經常將「AI」和「LLMs」互換使用。 展示數據 LLMs 需要三種主要資源:計算能力、能源和數據。在大量資本的支持下,公司、政府和初創企業同時在爭奪這些資源。在這三者中,對計算能力的爭奪最為引人注目,這部分歸功於英偉達股價的迅速上漲。 訓練 LLMs 需要大量專用的圖形處理單元(GPUs),特別是NVIDIA 的 A100、H100 和即將推出的B100型號。這些計算設備並不是你可以從亞馬遜或本地計算機商店購買的。相反,它們的價格高達數萬美元。NVIDIA決定如何在其AI實驗室、初創公司、數據中心和超大規模客戶之間分配這些資源。 在ChatGPT推出后的18個月內,GPU的需求遠遠超過了供應,等待時間高達11個月。然而,隨著初創公司關閉、訓練演算法和模型架構的改進、其他公司推出的專用晶元以及NVIDIA擴大生產,供需動態正在正常化,價格也在下降。 其次是能源。運行數據中心中的GPUs需要大量的能源。根據一些估計,到2030年,數據中心將消耗全球能源的4.5%。隨著這種激增的需求給現有電網帶來壓力,科技公司正在探索替代能源解決方案。亞馬遜最近以6.5億美元購買了一個由核電站供電的數據中心園區。微軟已經雇傭了一位核技術主管。OpenAI的Sam Altman支持了 Helion, Exowatt 和 Oklo等能源初創公司。 從訓練AI模型的角度來看,能源和計算能力只是商品。選擇B100而不是H100,或者選擇核能而不是傳統能源,可能會使訓練過程更便宜、更快或更高效,但不會影響模型的質量。換句話說,在創造最智能和最類人AI模型的競賽中,能源和計算能力只是基本要素,而不是決定性因素。 關鍵資源是數據。 James Betker 是OpenAI的研究工程師。他自己說,訓練了比任何人都有權訓練的更多的生成模型。在一篇博文中,他指出,「在相同的數據集上訓練足夠長時間,幾乎每個模型都有足夠的權重和訓練時間,最終都會收斂到同一點。」這意味著區分一個AI模型與另一個模型的因素是數據集,而不是其他。 當我們稱一個模型為「ChatGPT」、「Claude」、「Mistral」或「Lambda」時,我們並不是在談論其架構、使用的GPUs或消耗的能源,而是其訓練的數據集。 如果數據是AI訓練的食物,那麼模型就是它們所吃的東西。 要訓練一個最先進的生成模型需要多少數據?答案是非常多。 GPT-4仍然被認為是發布一年多后的最佳大型語言模型,估計使用了12萬億個標記(或約9萬億個單詞)進行訓練。這些數據來自對公開可用互聯網的爬取,包括維基百科、Reddit、Common Crawl(一個免費的、開放的網頁抓取數據存儲庫)、超過一百萬小時的轉錄YouTube 數據以及代碼平台如GitHub和Stack Overflow。 如果你認為這已經是很多數據了,請稍等。在生成AI中有一個叫做「Chinchilla Scaling Laws」的概念,這意味著對於給定的計算預算,將較小的模型在較大的數據集上訓練比在較小的數據集上訓練較大的模型更為有效。如果我們推算AI公司預計用於訓練下一代AI模型(如GPT-5和Llama-4)的計算資源,我們會發現這些模型預計將需要五到六倍的計算能力,使用多達100萬億個標記進行訓練。 隨著大部分公開互聯網數據已經被抓取、索引並用於訓練現有模型,額外的數據將來自哪裡?這已成為AI公司面臨的一個前沿研究問題。有兩種解決方案。一種是生成合成數據,即由LLMs直接生成的數據,而不是人類。然而,這種數據在使模型更智能方面的有用性尚未經過測試。 另一種方法是簡單地尋找高質量數據而不是合成生成。然而,獲得額外數據是具有挑戰性的,特別是當AI公司面臨的問題不僅威脅到未來模型的訓練,也威脅到現有模型的有效性時。 第一個數據問題涉及法律問題。儘管AI公司聲稱使用的是「公開可用數據」,但其中許多數據是受版權保護的。例如,Common Crawl數據集中包含了《紐約時報》和《美聯社》等出版物的數百萬篇文章以及其他受版權保護的材料。 一些出版物和創作者正在對AI公司採取法律行動,指控其侵犯版權和知識產權。《紐約時報》起訴了OpenAI和微軟,指控其「非法複製和使用《紐約時報》的獨特有價值的作品」。一群程序員聯合提起集體訴訟,質疑使用開源代碼訓練GitHub Copilot(一種流行的AI編程助手)的合法性。 喜劇演員Sarah Silverman和作者Paul Tremblay也起訴AI公司,指控其未經許可使用他們的作品。 其他人則通過與AI公司合作來接受變革。《美聯社》、《金融時報》和Axel Springer 都與OpenAI簽署了內容許可協議。蘋果公司正在探索與康泰納仕和NBC等新聞組織達成類似協議。谷歌同意每年支付Reddit 6000萬美元,以訪問其API進行模型訓練,而Stack Overflow 與 OpenAI 達成了類似的協議。Meta 據稱曾考慮直接購買出版公司Simon & Schuster。 這些安排與AI公司面臨的第二個問題——開放網路的關閉——不謀而合。 互聯網論壇和社交媒體網站已經認識到,AI公司通過使用其平台數據訓練模型所帶來的價值。在與谷歌(以及未來可能與其他AI公司)達成協議之前,Reddit 開始對其以前免費提供的API收費,終結了其流行的第三方客戶端。同樣,Twitter也限制了API的訪問,並提高了價格,Elon Musk利用Twitter數據為他自己的AI公司xAI訓練模型。 即使是較小的出版物、同人小說論壇和其他生產內容供所有人免費消費(如果有的話,通過廣告貨幣化)的互聯網小眾角落,現在也在關閉。互聯網曾被設想為一個神奇的網路空間,每個人都可以找到分享其獨特興趣和怪癖的部落。那種魔力似乎正在慢慢消失。 這種訴訟威脅、多百萬美元內容交易的增加以及開放網路的關閉有兩個含義。 首先,數據戰爭嚴重傾向於科技巨頭。初創公司和小公司既無法訪問以前可用的API,也無法負擔購買使用權所需的資金,而沒有法律風險。這顯然具有集中特性,富人可以購買最好的數據,從而創建最好的模型,變得更富有。 其次,用戶生成內容平台的商業模式越來越不利於用戶。像Reddit和Stack Overflow這樣的平台依賴於數百萬未付費的人類創作者和管理員的貢獻。然而,當這些平台與AI公司達成數百萬美元的協議時,他們既不補償也不徵求用戶的許可,沒有這些用戶,就沒有數據可供出售。 Reddit和Stack Overflow都因這些決定而經歷了顯著的用戶罷工。聯邦貿易委員會(FTC)也對 Reddit 將用戶帖子出售、許可和分享給外部組織用於訓練AI模型的行為展開調查。 這些問題對於訓練下一代AI模型以及互聯網內容的未來提出了相關問題。按照目前的情況,未來看起來不太樂觀。加密解決方案能否在某種程度上為小公司和互聯網用戶提供公平競爭的機會,解決其中的一些問題? 數據管道 訓練AI模型和創建有用的應用程序是複雜且昂貴的工作,需要數月的計劃、資源分配和執行。這些過程包括多個階段,每個階段都有不同的目的和數據需求。 讓我們分解這些階段,以了解加密技術如何適應更大的AI拼圖。 預訓練 預訓練是LLM訓練過程中第一步且最耗費資源的步驟,形成了模型的基礎。在這一步中,AI模型在大量無標籤文本上進行訓練,以捕捉世界的通用知識和語言使用信息。當我們說GPT-4使用了12萬億個標記進行訓練時,這指的是預訓練中使用的數據。 要理解為什麼預訓練是LLM的基礎,我們需要對LLM的工作原理有一個高層次的概述。請注意,這只是一個簡化的概述。你可以在Jon Stokes的優秀文章、Andrej Karpathy的有趣視頻或Stephen Wolfram的出色書籍中找到更詳盡的解釋。 LLMs使用一種叫做 Next-Token Prediction 的統計技術。簡單來說,給定一系列標記(即單詞),模型嘗試預測下一個最可能的標記。這個過程重複進行,形成完整的響應。因此,你可以將大型語言模型視為「完成機器」。 讓我們用一個例子來理解這一點。 當我問ChatGPT「What direction does the sun rise from (太陽從哪個方向升起)?」時,它首先預測出單詞「the」,然後依次預測出「sun rises from the East」這句話中的每一個單詞。但是這些預測從何而來?ChatGPT如何確定在「the sun rises from」之後應該是「the East」而不是「the West」、「the North」或「Amsterdam」?換句話說,它如何知道「the East」比其他選項更有統計可能性? 答案是從大量高質量訓練數據中學習統計模式。如果考慮到互聯網上的所有文本,什麼更有可能出現–“太陽從東方升起 “還是 “太陽從西方升起”?後者可能出現在特定的語境中,比如文學隱喻(”這就像相信太陽從西邊升起一樣荒謬”)或關於其他星球的討論(比如金星,太陽確實從西邊升起)。但總的來說,前者更為常見。 通過反覆預測下一個單詞,LLM 形成了一種通用的世界觀(我們稱之為常識)和對語言規則和模式的理解。另一種理解LLM的方法是將其視為互聯網的壓縮版本。這也有助於理解為什麼數據需要既是大量的(更多模式可供選擇),也是高質量的(提高模式學習的準確性)。 但正如前面討論的,AI公司正在耗盡用於訓練更大模型的數據。訓練數據需求增長的速度遠遠快於開放互聯網中新數據生成的速度。隨著訴訟的臨近和主要論壇的關閉,AI公司面臨著嚴重的問題。 對於較小的公司來說,這個問題更加嚴重,因為它們無法負擔與Reddit等專有數據提供商達成數百萬美元的交易。 這引出了Grass,一家去中心化的住宅代理提供商,他們旨在解決這些數據問題。他們稱自己為「AI的數據層」。讓我們首先了解一下什麼是住宅代理提供商。 互聯網是訓練數據的最佳來源,抓取互聯網是公司獲取這些數據的首選方法。在實踐中,抓取軟體在數據中心託管,以實現規模、便捷和效率。但擁有有價值數據的公司不希望其數據被用於訓練AI模型(除非他們得到報酬)。為實施這些限制,他們通常會阻止已知數據中心的IP地址,防止大規模抓取。 這時,住宅代理提供商派上用場。網站僅阻止已知數據中心的IP地址,而不阻止像你我這樣的普通互聯網用戶的連接,使我們的互聯網連接,或住宅互聯網連接,變得有價值。住宅代理提供商聚合了數百萬這樣的連接,以大規模抓取AI公司的數據。 然而,中心化的住宅代理提供商運作隱蔽。他們通常不明確他們的意圖。用戶如果知道某個產品在使用他們的帶寬,可能不願意分享。更糟的是,他們可能要求為產品使用的帶寬得到補償,這反過來又減少了他們的利潤。 為保護他們的底線,住宅代理提供商將其消耗帶寬的代碼搭載在分佈廣泛的免費應用程序中,如手機實用工具應用(如計算器和語音記錄器)、VPN提供商甚至消費者電視屏保中。用戶認為他們在獲取免費產品,實際上一個第三方住宅提供商在消耗他們的帶寬(這些細節通常隱藏在很少有人閱讀的服務條款中)。 最終,這些數據中的一些會流向AI公司,他們用這些數據訓練模型並為自己創造價值。 Andrej Radonjic在經營自己的住宅代理提供商時,意識到了這些做法的非道德性質及其對用戶的不公平性。他看到加密技術的發展,識別出了一種創建更公平解決方案的方法。這就是Grass在2022年末的成立背景。幾周后,ChatGPT發布,改變了世界,把Grass放在了正確的時間和地點。 與其他住宅代理提供商使用的隱蔽策略不同,Grass明確告知用戶其帶寬的使用情況,以訓練AI模型為目的。作為回報,用戶會直接獲得獎勵。這種模式顛覆了住宅代理提供商的運作方式。通過自願提供帶寬並成為網路的部分擁有者,用戶從被動的參與者轉變為積極的倡導者,提高了網路的可靠性,並從AI產生的價值中獲益。 Grass的增長令人矚目。自2023年6月推出以來,他們已擁有超過200萬活躍用戶,這些用戶通過安裝瀏覽器擴展或移動應用程序來運行節點並貢獻帶寬。這種增長在沒有外部營銷成本的情況下實現,得益於一個非常成功的推薦計劃。 使用Grass的服務允許各類公司,包括大型AI實驗室和開源初創公司,以較低的成本獲取抓取訓練數據。同時,每個普通用戶通過分享其互聯網連接獲得報酬,並成為不斷增長的AI經濟的一部分。 除了原始抓取數據外,Grass還為客戶提供一些附加服務。 首先,他們將非結構化網頁轉換為易於AI模型處理的結構化數據。這一步驟,稱為數據清洗,是AI實驗室通常承擔的資源密集型任務。通過提供結構化、清潔的數據集,Grass增強了其對客戶的價值。此外,Grass還訓練了一個開源LLM,以自動化抓取、準備和標記數據的過程。 其次,Grass將數據集捆綁了不可否認的來源證明。鑒於高質量數據對AI模型的重要性,確保數據集未被惡意網站或住宅代理提供商篡改對於AI公司來說至關重要。 這一問題的嚴重性在於像 Data & Trust Alliance 這樣的機構的成立,這是一個包括Meta、IBM和沃爾瑪在內的20多家公司組成的非營利組織,共同努力創建數據溯源標準,幫助組織確定一個數據集是否適合和值得信賴。 Grass也在採取類似措施。每次Grass節點抓取一個網頁時,它還會記錄驗證該網頁來源的元數據。這些溯源證明存儲在區塊鏈上,並與客戶共享(客戶可以進一步與其用戶共享)。 儘管Grass正在Solana上構建,這是吞吐量最高的區塊鏈之一,但在L1上存儲每次抓取任務的溯源是不可行的。因此,Grass正在構建一個rollup(Solana上的第一個rollup之一),使用ZK處理器批量處理溯源證明,然後發布到Solana。這個rollup,Grass稱之為「AI的數據層」,成為他們所有抓取數據的數據賬本。 Grass的Web 3優先方法使其相對於中心化住宅代理提供商具有幾個優勢。首先,通過使用獎勵來鼓勵用戶直接分享帶寬,他們更公平地分配了AI生成的價值(同時也節省了支付應用開發者捆綁其代碼的成本)。其次,他們可以為提供客戶「合法流量」收取溢價,這在行業內非常有價值。 另一家在「合法流量」方面工作的協議是Masa。該網路允許用戶傳遞其社交媒體平台(如Reddit、Twitter或TikTok)的登錄信息。網路上的節點然後抓取這些平台的高度上下文相關的更新數據。這種模型的優勢在於,收集的數據是普通用戶在其社交媒體平台上看到的內容。實時地,您可以獲取解釋情緒或即將成為病毒的內容的豐富數據集。 這些數據集的主要用途有兩個。 金融 – 如果你能看到成千上萬的人在其社交媒體平台上看到的內容,你可以基於這些數據開發交易策略。可以在Masa的數據集上訓練利用情緒數據的自主代理。 社交 – AI 伴侶(或像Replika這樣的工具)的出現意味著我們需要模仿人類對話的數據集。這些對話還需要最新信息。Masa的數據流可以用於訓練能夠有意義地討論最新Twitter趨勢的代理。 Masa的方法是通過用戶同意從封閉花園(如Twitter)獲取信息,並使這些信息可供開發人員用於構建應用程序。這樣一種社交優先的數據收集方法也允許構建圍繞區域語言的數據集。 例如,一個說印地語的機器人可以使用從以印地語操作的社交網路中獲取的數據。這些網路打開的應用前景尚待探索。 模型對齊 預訓練的LLM遠未準備好投入生產使用。想一想。模型目前只知道如何預測序列中的下一個單詞,而其他都不知道。如果你給一個預訓練的模型一些文本,比如「誰是中本聰」,任何這些都是有效的響應: 完成問題:中本聰? 將短語變成句子:是一個多年來困擾比特幣信仰者的問題。 實際上回答問題:中本聰是創建比特幣、第一種去中心化加密貨幣及其底層技術區塊鏈的化名人物或團體。 旨在提供有用答案的 LLM 將提供第三種回答。然而,預先訓練的模型並不能做出一致或正確的回答。事實上,它們經常會隨機吐出一些對最終用戶毫無意義的文字。最糟糕的情況是,模型在保密的情況下給出了與事實不符、有毒或有害的信息。當這種情況發生時,模型就會出現 “幻覺”。 這就是預訓練的GPT-3如何回答問題的 模型對齊的目標是使預訓練模型對最終用戶有用。換句話說,是將其從一個單純的統計文本完成工具轉變為一個理解和對齊用戶需求並能進行連貫、有用對話的聊天機器人。 對話微調 這個過程的第一步是對話微調。微調是指在一個預訓練的機器學習模型的基礎上,進一步在一個較小的、有針對性的數據集上進行訓練,以幫助其適應特定任務或用例。對於訓練LLM來說,這個特定的用例是進行類似人類的對話。自然,這個微調的數據集是一組人類生成的提示-響應對,展示給模型如何行為。 這些數據集涵蓋不同類型的對話(問答、摘要、翻譯、代碼生成),通常由高學歷的人類(有時稱為AI導師)設計,他們具有優秀的語言技能和主題專業知識。 最先進的模型如GPT-4估計在~100,000對這樣的提示-響應對上進行了訓練。 提示-響應對的示例 從人類反饋中強化學習(RLHF) 可以將這一步視為類似於人類訓練寵物狗:獎勵好的行為,懲罰壞的行為。模型收到一個提示,其響應與人類標註者共享,標註者根據輸出的準確性和質量對其進行評分(例如1-5分)。RLHF的另一種版本是生成一個提示併產生多個響應,由人類標註者從最佳到最差進行排名。 RLHF 任務示例 RLHF旨在引導模型朝著人類偏好和期望的行為發展。事實上,如果你是ChatGPT的用戶,OpenAI也會將你作為RLHF數據標註者!這發生在模型有時生成兩個響應並要求你選擇更好的一個時。 甚至是簡單的點贊或點踩圖標,提示你評價回答的有用性,也是模型的一種 RLHF 訓練。 使用AI模型時,我們很少考慮到背後投入的數百萬小時的人類勞動。這不僅僅是LLMs獨有的需求。歷史上,即使是傳統機器學慣用例,如內容審核、自動駕駛和腫瘤檢測,也需要大量的人類參與進行數據標註。(這篇2019年《紐約時報》的優秀故事展示了iAgent印度辦公室背後的幕後故事,這家公司專門從事人類標註)。 Fei-Fei Li用來創建ImageNet資料庫的Mechanical Turk,被Jeff Bezos稱為「人工的 AI 」,因為它的工作人員在 AI 訓練中發揮的…