WEEX 唯客博客, 整理:有新 6 月 2 日晚,英偉達 CEO 黃仁勛在台北 ComputeX 2024 大會上展示了英偉達在加速計算和生成式 AI 領域的最新成果,還描繪了未來計算和機器人技術的發展藍圖。 這場演講涵蓋了從 AI 基礎技術到未來機器人和生成式 AI 在各個行業的應用,全面展示了英偉達在推動計算技術變革方面的卓越成就。 黃仁勛表示,英偉達位於計算機圖形、模擬和 AI 的交匯處,這是英偉達的靈魂。今天展示給我們的一切都是模擬的,它是數學、科學、計算機科學、令人驚嘆的計算機架構的結合。這些都不是動畫,而是自製的,英偉達把它全部融入了 Omniverse 虛擬世界。 加速計算與 AI 黃仁勛表示,我們所看到的一切的基礎是兩項基本技術,加速計算和在 Omniverse 內部運行的 AI,這兩股計算的基本力量,將重新塑造計算機行業。計算機行業已有 60 年的歷史。在很多方面,今天所做的一切都是在 1964 年黃仁勛出生后一年發明的。 IBM System 360 引入了中央處理單元、通用計算、通過操作系統實現硬體和軟體的分離、多任務處理、IO 子系統、DMA 以及今天使用的各種技術。架構兼容性、向後兼容性、系列兼容性,所有今天對計算機了解的東西,大部分在 1964 年就已經描述出來了。當然,PC 革命使計算民主化,把它放在了每個人的手中和家中。 2007 年,iPhone 引入了移動計算,把計算機放進了我們的口袋。從那時起,一切都在連接並隨時運行通過移動雲。這 60 年來,我們只見證了兩三次,確實不多,其實就兩三次,主要的技術變革,計算的兩三次構造轉變,而我們即將再次見證這一切的發生。 有兩件基本的事情正在發生。首先是處理器,即計算機行業運行的引擎,中央處理單元的性能提升顯著放緩。然而,我們需要進行的計算量仍然在迅速增長,呈指數級增長。如果處理需求,數據需要處理的量繼續指數級增長但性能沒有,計算通貨膨脹將會發生。事實上,現在就看到了這一點。全球數據中心使用的電力量正在大幅增長。計算成本也在增長。我們正在經歷計算通貨膨脹。 當然,這種情況不能繼續下去。數據量將繼續以指數級增長,而 CPU 性能提升將永遠不會恢復。我們有更好的方法。近二十年來,英偉達一直在研究加速計算。CUDA 增強了 CPU,卸載並加速了專用處理器可以更好完成的工作。事實上,性能非常出色,現在很明顯,隨著 CPU 性能提升放緩並最終顯著停止,應該加速一切。 黃仁勛預測,所有需要大量處理的應用程序都會被加速,當然每個數據中心在不久的將來都會被加速。現在加速計算是非常合理的。如果你看看一個應用程序,這裡 100t 代表 100 單位時間,它可能是 100 秒,也可能是 100 小時。在很多情況下,如你所知,現在正在研究運行 100 天的 AI 應用程序。 1T 代碼是指需要順序處理的代碼,其中單線程 CPU 是非常關鍵的。操作系統控制邏輯非常重要,需要一條指令接著一條指令地執行。然而,有很多演算法,比如計算機圖形處理,可以完全并行操作。計算機圖形處理、圖像處理、物理模擬、組合優化、圖處理、資料庫處理,當然還有深度學習中非常著名的線性代數,這些演算法都非常適合通過并行處理來加速。 因此,發明了一種架構,通過在 CPU 上添加 GPU 來實現。專用處理器可以將耗時很長的任務加速到極快的速度。因為這兩個處理器可以並肩工作,它們都是自主的,獨立的,可以將原本需要 100 個時間單位的任務加速到 1 個時間單位,速度的提升是難以置信的,效果非常顯著,速度提升了 100 倍,但功耗只增加了大約三倍,成本只增加了約 50%。在 PC 行業一直這樣做,英偉達在 1000 美元 PC 上加一個 500 美元 GeForce GPU,性能會大幅提升。英偉達在數據中心也這樣做,一個價值十億美元的數據中心,加上 5 億美元的 GPU,突然間它就變成了一個 AI 工廠,這種情況正在全球各地發生。 節省的成本非常驚人。每花一美元就能獲得 60 倍的性能提升,速度提升了 100 倍,而功耗只增加了三倍,成本只增加了 1.5 倍。這種節省是難以置信的。節省的成本可以用美元來衡量。 很明顯,許多公司在雲端處理數據上花費了數億美元。如果這些過程被加速,不難想象可以節省數億美元。這是因為在通用計算上已經經歷了很長時間的通貨膨脹。 現在終於決定加速計算,有大量被捕獲的損失可以現在回收,許多被保留的浪費可以從系統中釋放出來。這將轉化為金錢的節省和能源的節省,這也是為什麼黃仁勛常說「買得越多,省得越多」。 黃仁勛還表示,加速計算確實帶來了非凡的成果,但它並不容易。為什麼它能省這麼多錢,但這麼長時間以來人們卻沒有這樣做呢?原因是因為這非常難。沒有一種軟體可以通過 C 編譯器運行,突然間應用程序就快了 100 倍。這甚至不合邏輯。如果可以做到這一點,他們早就改造 CPU 了。 事實上,必須重寫軟體,這是最難的部分。軟體必須完全重寫,以便能夠重新表達在 CPU 上編寫的演算法,使其能夠被加速、卸載并行運行。這種計算機科學的練習極其困難。 黃仁勛表示,在過去 20 年裡,英偉達讓全世界變得更容易。當然,非常著名 cuDNN,即處理神經網路的深度學習庫。英偉達有一個 AI 物理庫,可以用於流體動力學和許多其他應用中,神經網路必須遵守物理定律。英偉達有一個叫 Arial Ran 新的偉大庫,它是一個 CUDA 加速 5G 無線電,能夠像定義世界網路互聯網一樣定義和加速電信網路。加速的能力使我們能夠將所有的電信轉變為與雲計算平台相同類型的平台。 cuLITHO 是一個計算光刻平台,能夠處理晶元製造中最計算密集的部分——製作掩膜。台積電正在使用 cuLITHO 進行生產,節省了大量的能源和金錢。台積電的目標是加速他們的堆棧,以便為進一步的演算法和更深入、更窄的晶體管的計算做好準備。Parabricks 是英偉達基因測序庫,它是世界上吞吐量最高的基因測序庫。cuOpt 是一個用於組合優化、路線規劃優化的令人難以置信的庫,用於解決旅行商問題,非常複雜。 科學家們普遍認為需要量子計算機來解決這個問題。英偉達創造了一個在加速計算上運行的演算法,運行速度極快,創下了 23 項世界紀錄。cuQuantum 是一個量子計算機的模擬系統。如果你想設計一個量子計算機,你需要一個模擬器。如果你想設計量子演算法,你需要一個量子模擬器。如果量子計算機不存在,你如何設計這些量子計算機,創建這些量子演算法呢?你使用今天世界上最快的計算機,當然就是 NVIDIA CUDA。在上面,英偉達有一個模擬器,可以模擬量子計算機。它被全世界數十萬研究人員使用,並集成到所有領先的量子計算框架中,廣泛用於科學超級計算中心。 cuDF 是一個令人難以置信的數據處理庫。數據處理消耗了今天雲端支出的絕大部分,所有這些都應該被加速。cuDF 加速了世界上使用的主要庫,比如 Spark,許多公司可能都在使用 Spark,Pandas,一個新的叫做 Polars 的庫,當然還有 NetworkX,一個圖處理資料庫庫。這些只是一些例子,還有很多其他的。 黃仁勛表示,英偉達必須創建這些庫,以便讓生態系統能夠利用加速計算。如果英偉達沒有創建 cuDNN,光有 CUDA 是不可能讓全世界的深度學習科學家使用的,因為 CUDA、TensorFlow 和 PyTorch 中使用的演算法之間的距離太遠了。這幾乎像是在沒有 OpenGL 情況下做計算機圖形處理,或者沒有 SQL 的情況下進行數據處理。這些特定領域的庫是英偉達的珍寶,總共有 350 個庫。正是這些庫使英偉達能夠打開如此多的市場。 上周,Google 宣布在雲端加速 Pandas,這是世界上最流行的數據科學庫。你們中的許多人可能已經在使用 Pandas,它被全球 1000 萬數據科學家使用,每月下載 1.7 億次。它是數據科學家的電子表格。現在,只需點擊一下,你就可以在 Google 雲數據中心平台 Colab 中使用由 cuDF 加速 Pandas,加速效果真的非常驚人。 當你將數據處理加速到如此快的速度時,演示確實不會花很長時間。現在 CUDA 已經達到了人們所說的臨界點,但它甚至更好。CUDA 現在已經實現了一個良性循環。 這種情況很少發生。如果你看看歷史上所有計算架構的平台。以微處理器 CPU 為例,它已經存在了 60 年,並且在這個層面上沒有發生變化。這種計算方式,加速計算已經存在,創建一個新平台極其困難,因為這是一個先有雞還是先有蛋的問題。 如果沒有開發人員使用你的平台,那麼當然也就不會有用戶。但是如果沒有用戶,就沒有安裝基礎。如果沒有安裝基礎,開發人員就不會對它感興趣。開發人員希望為大型安裝基礎編寫軟體,但大型安裝基礎需要大量應用程序來吸引用戶創建安裝基礎。 這種先有雞還是先有蛋的問題很少被打破。而英偉達花了 20 年的時間,一個領域的庫接著一個領域的庫,一個加速庫接著一個加速庫,現在有 500 萬開發人員在全球範圍內使用英偉達的平台。 英偉達服務於每一個行業,從醫療保健、金融服務、計算機行業、汽車行業,幾乎所有主要行業,幾乎所有科學領域,因為英偉達的架構有這麼多客戶,OEM 廠商和雲服務提供商對構建英偉達的系統感興趣。像台灣這裡的系統製造商這樣的優秀系統製造商對構建英偉達的系統感興趣,這使得市場上有更多的系統可供選擇,這當然為我們創造了更大的機會,使我們能夠擴大規模,研發規模,從而進一步加速應用。 每次加速應用,計算成本就會下降。100 倍加速轉化為 97%、96%、98% 節省。因此,當我們從 100 倍加速到 200 倍加速,再到 1000 倍加速時,計算的邊際成本繼續下降。 英偉達相信,通過大幅降低計算成本,市場、開發人員、科學家、發明家將繼續發現越來越多的演算法,這些演算法消耗越來越多的計算資源,最終會發生質的飛躍,計算的邊際成本如此之低,以至於一種新的計算使用方式出現了。 事實上,這正是現在看到的情況。多年來,英偉達在過去 10 年裡將某種特定演算法的邊際計算成本降低了百萬倍。因此,現在訓練包含整個互聯網數據的 LLM 是非常合理和常識的,沒有人會懷疑。這個想法,即你可以創建一個能夠處理如此多數據的計算機來編寫自己的軟體。AI 的出現是因為完全相信,如果讓計算變得越來越便宜,總會有人找到一個偉大的用途。 如今,CUDA 已經實現了良性循環。安裝基礎在增長,計算成本在下降,這導致更多的開發人員提出更多的想法,從而推動更多的需求。現在我們正處在一個非常重要的起點。 黃仁勛接著提到了地球 2 的想法,將創建地球的數字孿生體,通過模擬地球,可以更好地預測未來,從而更好地避免災害,更好地理解氣候變化的影響,以便更好地適應。 研究人員在 2012 年發現了 CUDA,那是英偉達與 AI 第一次接觸,這是一個非常重要的日子。有幸與科學家合作,使深度學習成為可能。 AlexNet 取得了巨大的計算機視覺突破。但更重要的是,退一步理解深度學習的背景、基礎以及其長期影響和潛力。英偉達意識到這項技術具有巨大的擴展潛力。一種幾十年前發明和發現的演算法,突然之間,因為更多的數據、更大的網路以及非常重要的更多計算資源,深度學習實現了人類演算法無法實現的成就。 現在想象一下,如果進一步擴展架構,更大的網路、更多的數據和更多的計算資源,可能會實現什麼。2012 年之後,英偉達改變了 GPU 的架構,增加了 Tensor 核心。英偉達發明了 NVLink,那是 10 年前的事了,CUDA,然後是 TensorRT、NCCL,收購了 Mellanox、TensorRT-ML、Triton 推理伺服器,所有這些都整合在一台全新的計算機上。沒有人理解,沒有人要求,沒有人理解它的意義。 事實上,黃仁勛確信沒有人想買它,英偉達在 GTC 上宣布了它,OpenAI,一個位於舊金山的小公司,請求英偉達為他們提供一台。 2016 年,黃仁勛向 OpenAI 交付了第一台 DGX,世界上第一台 AI 超級計算機。之後,繼續擴展,從一台 AI 超級計算機,一台 AI 設備,擴展到大型超級計算機,甚至更大。 到 2017 年,世界發現了 Transformer,使能夠訓練大量數據,識別和學習長期序列模式。現在,英偉達可以訓練這些 LLM,理解並在自然語言理解方面取得突破。繼續前進,建造了更大的系統。 然後在 2022 年 11 月,使用成千上萬英偉達 GPU 和非常大的 AI 超級計算機進行訓練,OpenAI 發布了 ChatGPT,五天內用戶達到一百萬,兩個月內達到一億,成為歷史上增長最快的應用。 在 ChatGPT 向世界展示之前,AI 一直是關於感知,自然語言理解、計算機視覺、語音識別。這一切都是關於感知和檢測的。這是第一次,世界解決了生成式 AI,逐個生成 token,而這些 token 是單詞。當然,有些 token 現在可以是圖像、圖表、表格、歌曲、單詞、語音、視頻。這些 token 可以是任何你能理解其意義的東西,它們可以是化學品的 token ,蛋白質的 token ,基因的 token 。你們之前在地球 2 項目中看到的,生成的是天氣的 token 。 我們可以理解,我們可以學習物理。如果你能學習物理,你可以教 AI 模型物理。AI 模型可以學習物理的意義,然後可以生成物理。我們將其縮小到 1 公里,不是通過過濾,而是生成。所以我們可以用這種方法生成幾乎任何有價值的 token 。我們可以為汽車生成方向盤控制,為機器人手臂生成動作。我們可以學習的一切,現在都可以生成。 AI 工廠 我們現在已經進入了生成式 AI 時代。但是,真正重要的是,這台最初作為超級計算機的計算機現在已經演變成了一個數據中心,它只生成一種東西,那就是 token ,它是一個 AI 工廠,這家 AI 工廠正在生成、創造和生產一種極具價值的新商品。 19 世紀 90 年代末,尼古拉·特斯拉發明了交流發電機,而英偉達發明了 AI 生成器。交流發電機生成電子,英偉達 AI 生成器生成 token,這兩種東西在市場上都有巨大的機會,在幾乎每個行業中都是完全可以替代的,這也是為什麼這是一次新的工業革命。 英偉達現在有一個新的工廠,為每個行業生產一種新的商品,這種商品具有非凡的價值。這種方法具有高度的可擴展性,並且這種方法的可重複性也非常高。 注意到每天都有這麼多不同的生成式 AI 模型被發明出來。每個行業現在都在湧入。第一次,價值 3 萬億美元 IT 行業,正在創造一些可以直接服務於 100 萬億美元產業的東西。不再只是信息存儲或數據處理的工具,而是一個為每個行業生成智能的工廠。這將成為一個製造業產業,但不是計算機製造業,而是使用計算機進行製造業。 這在歷史上從未發生過。加速計算帶來了 AI,帶來了生成式 AI,現在帶來了工業革命。對行業的影響也非常顯著,可以為許多行業創造一種新商品,一種新的產品,稱之為 token ,但對我們自己的行業的影響也非常深遠。 60 年來,計算的每一層都發生了變化,從 CPU 通用計算到加速 GPU 計算,計算機需要指令。現在計算機處理 LLM,AI 模型。而過去的計算模型是基於檢索的。幾乎每次你觸摸手機時,都會為你檢索一些預錄文本、圖像或視頻,並基於推薦系統重新組合併呈現給你。 黃仁勛表示,未來計算機將儘可能多地生成數據,只檢索必要的信息。原因是生成的數據需要更少的能量去獲取信息。生成的數據也更具上下文相關性。它將編碼知識,理解你。你不再是讓計算機獲取信息或文件,而是讓它直接回答你的問題。計算機將不再是我們使用的工具,而是生成技能,執行任務。 NIMs,英偉達推理微服務 而不是一個生產軟體的行業,這在 90 年代初是一個革命性的想法。記得微軟創造的軟體包裝的想法革命化了 PC 行業。沒有包裝軟體,我們會用 PC 做什麼?它驅動了這個行業,現在英偉達有一個新的工廠,一個新的計算機。我們將在其上運行一種新的軟體,稱之為 NIMs,英偉達推理微服務。 NIM 在這個工廠內部運行,這個 NIM 是一個預訓練模型,它是一個 AI。這個 AI 本身非常複雜,但運行 AI 的計算堆棧是極其複雜的。當你使用 ChatGPT 時,其背後的堆棧是大量的軟體。其背後的提示符是大量的軟體,極其複雜,因為模型龐大,有數十億到數萬億的參數。它不僅在一台計算機上運行,而是在多台計算機上運行。它必須在多個 GPU 之間分配工作負載,使用張量并行、流水線并行、數據并行、各種并行性、專家并行性等各種并行性,在多個 GPU 之間分配工作負載,儘可能快速地處理它。 因為如果你在一個工廠里運行,你的吞吐量直接與收入相關。你的吞吐量直接與服務質量相關,你的吞吐量直接與能使用你服務的人數相關。 我們現在處於一個數據中心吞吐量利用率至關重要的世界。在過去這很重要,但沒有現在重要。在過去這很重要,但人們不測量它。今天,每一個參數都被測量,啟動時間、運行時間、利用率、吞吐量、空閑時間等,因為這是一個工廠。當某物是一個工廠時,其操作直接與公司的財務表現相關,這對大多數公司來說極其複雜。 所以英偉達做了什麼?英偉達創建了這個 AI 盒子,這個容器里裝滿了大量的軟體,這個容器內部包括 CUDA、cuDNN、TensorRT、Triton 推理服務。它是雲原生的,可以在 Kubernetes 環境中自動擴展,它有管理服務和鉤子,可以監控你的 AI。它有通用 API,標準 API,你可以與這個盒子聊天。下載這個 NIM,可以與它聊天,只要你的計算機上有 CUDA,它現在當然是無處不在的。它在每一個雲中可用,來自每一個計算機製造商。它在數億台 PC 上可用,所有的軟體都整合在一起,400 個依賴項都整合在一個裡面。 英偉達測試了這個 NIM,每一個預訓練模型都在整個安裝基礎上測試,所有不同版本的 Pascal、Ampere 和 Hopper,以及各種不同的版本。我甚至忘記了一些名字。令人難以置信的發明,這是我最喜歡的之一。 黃仁勛表示,英偉達有所有這些不同版本,無論是基於語言的還是基於視覺的,還是基於圖像的,或者用於醫療保健、數字生物學的版本,有數字人類的版本,只需訪問 ai.nvidia.com。 黃仁勛還表示,今天英偉達剛剛在 HuggingFace 上發布了完全優化的 Llama3 NIM,它在那裡可以供你嘗試,你甚至可以帶走它。它免費提供給你。你可以在雲中運行它,在任何雲中運行。你可以下載這個容器,將其放入你自己的數據中心,並可以使其可用於你的客戶。 英偉達有各種不同領域的版本,物理學,一些用於語義檢索,稱為 RAGs,視覺語言,各種不同的語言。你使用它們的方法是將這些微服務連接到大型應用程序中。 未來最重要的應用之一當然是客戶服務。幾乎每個行業都需要 Agent。這代表了數萬億美元的客戶服務。護士在某些方面也是客戶服務 Agent,一些非處方或非診斷性的護士基本上是零售業的客戶服務,快速服務食品、金融服務、保險業。數以千萬計的客戶服務現在可以通過語言模型和 AI 增強。因此你看到的這些盒子基本上就是 NIMs。 一些 NIM 是推理 Agent,給出任務,確定任務,分解成計劃。一些 NIM 檢索信息。一些 NIM 可能會進行搜索。一些 NIM 可能會使用工具…