March 10, 2024

踏上 GPU 浪頭的新玩家! Inference.ai 要成為 「AI 時代的新 AWS」

「我們目前生活的世界,是建立在 NVIDIA 的 GPU 之上(The world we live in is built on NVIDIA GPUs。 」這是 NVIDIA 執行長黃仁勳(Jensen Huang)日前接受媒體採訪時的發言

是的,這一點都不誇張。生成式 AI 襲捲全球,由 OpenAI 的 ChatGPT 領軍,大大小小小的 AI 應用正以前所未見的速度冒出,熱潮延燒下,對運算至關重要的 GPU 成為高價稀缺資源。思科(Cisco)資訊長 Fletcher Previn 日前更公開表示,「這些 NVIDIA 晶片是用裝甲車運送過來的。 」,足以突顯 GPU 的珍貴。

「我必須說,這場遊戲很殘酷,誰有GPU,誰就是贏家。價格、使用者界面好不好用,這些甚至都不重要,在 90% 的情況下,擁有 GPU 資源的人,就是贏得業務的人。」新創 Inference.ai 創辦人暨執行長 John Yue 在談到 GPU 短缺的情況時表示,「現在你去找公有雲業者要 GPU,經常要等 1~2 個季度,還不一定排得到,而且還要預先支付一大筆金額,這對想做 AI 的新創與企業來說是一大困難。」

「在 AI 的時代,基礎設施即服務(Infrastructure as a Service, IaaS)將迎來重大改變,因為大家不再像以前那樣擁有無限資源可以使用,這是產業需要正視的事。」,John 說得直接,「而我們,擁有很多算力。」

看好資料量爆炸趨勢,以雲端儲存業務起家,搭上 GPU 浪潮

打開 Inference.ai 的網站,映入眼簾的是一整排又多又齊全的 NVIDIA GPU 晶片,再往下滑,還能看到 AMD 與 Intel 的產品。在捧著錢都搶不到 GPU 的時代, Inference.ai 的 GPU 晶片,就如同新時代的黃金一般,閃閃發光。

Inference.ai 並不是先知,更不是早在多年前就預知今日 GPU 大缺貨的局面,但卻絕對是在這一領域中的先行者。 John 與共同創辦人在 2019 年創立公司時,就選定了「分散式儲存」(distributed storage)的賽道,因此在早期就掌握了許多 CPU、GPU 資源,才能在 AI 爆發之際踏上浪尖、乘勢而起。

John 來自加拿大,是連續創業家,過去創業的題目也圍繞在硬體、IaaS 相關。John 說,「幾年前我跟我的共同創辦人決定,創業若要成功,首先要緊跟著大趨勢。」,「當時我們看到最重要的趨勢,是數據正以前所未有的速度激增。而在未來數據只會越來越多,對於儲存、算力的需求只會成長,絕對不會少。

研究資料印證了 John 的觀點。 IDC 報告指出,因為物聯網與雲端運算已成為主流,資料的數量與類別都在快速成長。 2014 年時 IDC 就預估,到 2020 年時,全球的資料量每 2 年就會翻一倍。

John 看準了資料量倍增的趨勢,決定以雲端分散式儲存業務起步。 「我們當初的想法很直接:資料快速成長,那麼儲存需求也會同步增加。然而,資料儲存技術好幾年來沒有長足進步,使用者體驗不夠好,且價格極高。 」

基於這些痛點,John 與夥伴與超過 2 萬個儲存數據中心合作,邀請業者共享閒置的雲端儲存資源。當有使用者要儲存資料時,除選擇公有雲以外,也能選擇分散放在 Inference.ai 提供的 80 個不同的伺服器上,除了成本比使用傳統公有雲降低 90% 以外,更大幅降低資料遺失與被駭的機率。

因為最一開始的選題,加上過去的創業資源累積,讓 John 早在所有人之先,就掌握了不少閒置的 CPU 與 GPU 資源。然而,當時他沒有預估到的是,才短短沒幾年的時間,生成式 AI 為產業帶來轉折點,GPU 變成各企業爭搶的資源,也讓 Inference.ai 的業務,站上產業最紅的風口。

算力成為 AI 時代的新貨幣! 「GPU 即服務」市場興起

AI 應用爆發,背後最主要的驅動力就是 GPU,在算力短缺嚴重的情況下,「GPU 即服務」(GPU as a Service, GPUaaS)順勢興起,也帶動 Inference.ai 在關鍵時刻處於最好的位置,更為 Inference.ai 在募資寒冬時,帶來資金活水。Inference.ai 在 2023 年成功募得 400 萬美元的種子輪投資,由心元資本(Cherubic Ventures)、Maple VC 與 Fusion Fund 投資。

Inference.ai 做的是什麼?其實很簡單: 擁有 GPU 資源的資料中心,與有 GPU 算力需求的客戶相匹配,並提供租用服務。簡單來說,Inference.ai 就像是「GPU 的 Airbnb」,透過匹配,幫助企業快速找到價格最合理、規格最適合的 GPU,讓已經稀缺的 GPU 資源被更有效的利用,解決 GPU 算力短缺的燃眉之急。

例如,使用者可以用每小時 1.99 美元的價格租用到 NVIDIA H100 晶片,或針對不同的模型訓練需求,選擇租用不同型號的 GPU 晶片。

這樣的服務,對於急需 GPU 資源的企業來說,在資源、時間、成本上都有好處。在資源的取得上,透過 Inference.ai,使用者可以立即獲得 GPU 並進行模型訓練,同時也不需要被綁在特定的 GPU 規格上;更也不用曠日費時,等待公有雲業者釋出 GPU。

在成本上,租用 Inference.ai 的 GPU,則不需自行下重本建置伺服器,而是能以更低的價格、更快的速度進行 AI 產品開發。整體來說,用戶透過租用 Inference.ai 的 GPU,比起向 Google、AWS、微軟這些大公司購買,可以省下 82% 的成本。

GPU 市場 3 大痛點-資源分配不均、短缺難緩解、資訊不對稱

John 觀察到,目前市面上有 3 大痛點,首先,是 GPU 資源嚴重短缺與分配不均。微軟、Google、AWS 等公有雲業者以及擁有 AI 需求的大企業,已經拿走了大部分的 GPU,資源較少的企業有錢也買不到,新創公司更是分不到一杯羹。根據估計,NVIDIA 最新 GPU 僅有不到 6% 是分給新創。

此外,企業若想要做 AI 模型訓練並開發產品,找公有雲業者要 GPU 資源得等上 1~2 個季度,更需要先準數百萬美元,並且事先付款,才有機會取得算力。對想要投入 AI 的企業是一大阻礙,對資金吃緊的新創來說,根本就是天方夜譚。

而第二大痛點,是 GPU 算力供不應求的情況,短期內尚難看到緩解曙光。

儘管全球 GPU 晶片短缺情況近期有稍微緩解,但卻不是立刻就能完全解決的議題。若想要短缺狀況舒緩,除了GPU 晶片製造商的產能要全速轉起來以外,包括供應鏈如台積電 CoWoS 先進封裝產能、半導體設備供應商 ASML 的 EUV 極紫外光微影曝光設備的產能都要同步提高,而這些問題,目前仍然沒有速成解方。

供給端跟不上,但需求端卻不斷爆發。各行各業都想趁早發展 AI 。將 AI 分為「模型訓練」(model training)與「模型推論」(model inferencing)兩階段,儘管現在大多數公司都還在模型訓練的階段,但 John 認為,模型推論將在未來 12 個月內到來,屆時會有更多的公司將已訓練好的 AI 模型用來預測或產生內容或新產品。而因為 AI 模型只有在更新時才需要訓練,但 AI 的推論卻會持續不斷發生,也就是說,當 AI 推論越來越多,也會需要越來越多的 GPU 算力。

「在這樣的情況下,一是增加生產,二是讓現有資源更好地被分配。後者就是我們正在做的事情」,John 表示,「我們相信,未來隨著 GPU 規格不斷推陳出新,短缺的情況會一直存在,我們能做的,就是確保所有的資源都能被有效率地分配到需要的人手上。

儘管市場爆發,但在資訊上,供需兩方仍有相當大的不對稱,這是第三大痛點。

GPU 和 CPU 扮演不同功能,若以運動選手比喻,CPU 就如同全能選手,在各種運動項目都表現優秀,但也很可能在任何一項上面都不是最頂尖的。

而 GPU 就像一個「專才」,被專門設計來有效率地處理某些特定的運算。使用加速運算,就等於聘用了一位專家,而每位專家擅長的任務都不同,「很多人搞不清楚這一點,事實上,大部分人對於 GPU 理解還是很少。 」,「而 ChatGPT 爆紅不到 2 年的時間,要所有的技術長都在一夕之間變身 GPU 專家,是不可能的事。」。John 說,現在若企業想知道訓練一個模型需要多少 GPU,通常只能上 NVIDIA 或 AMD 的網站閱讀規格,然後「拍腦袋」猜測大概需要多少算力。

另外,因為機器學習的不可解釋性,也讓訓練AI 模型的過程就如同黑盒子,訓練者無法得知算法的決策方式,更增加了企業在採購算力時的難度與複雜性。

除了在產品上的資訊不對稱以外,通路上的資訊也有相當大的落差。John 舉例,過去, Inference.ai 其中一個客戶正在尋找 NVIDIA 的 L40S 晶片,「但那時這批晶片是 NVIDIA 最新產品,只提供給大學實驗室,甚至沒有提供給企業」,「我們的客戶翻遍全世界都找不到這款晶片。於是,他們找上我們。」

很快地,John 與團隊找到一間於愛沙尼亞的供應商,最終順利解決了客戶的問題,「如果沒有我們,他們可能永遠無法在第一時間找到這些晶片。」,「我想說的是,就算 GPU 短缺,並不代表這個產業的資訊落差就已被解決」,「我們做的,就是幫助供應端的資源被更好地分配,客戶端的需求被滿足。」

此外,為了讓客戶將資源運用在刀口上,Inference.ai 更特地開發了專門推薦 GPU 型號的 AI 模型「ChatGPU」,使用者可依自身需求,事先在 Inference.ai 的官方網站上免費諮詢。 

「ChatGPU」會回答各種模型訓練方面的問題,再根據客戶不同的資金,時間,模型需求等推薦合適的晶片。另外,Inference.ai 的專業團隊也會一起進行基準測試(benchmark testing),進一步協助客戶對標出到底需要多少算力、再協助用戶配對並租用最合適的晶片。

加速運算時代來臨,「AI 時代的公有雲業者」將崛起

John 認為,AI 浪潮之下,權利將重新分配,而手握最大資源的,將不再是互聯網時代的公有雲業者,而是 NVIDIA、AMD 等新巨頭。在這樣的趨勢下,「AI 時代的公有雲業者」也將趁勢崛起,John 自信表示,「我很有信心,我們將成為新時代的 AWS。 」

如同黃仁勳說的,「通用運算」(general-purpose computing)時代已經結束,「加速運算」(accelerated computing)時代正式來臨,而世界與科技產業的生態,也將迎來全新的面貌。可以想見的是,在 AI 時代,GPU 晶片將越來越細分與垂直,尋找算力的挑戰也會越來越大。而在未來,誰能最有效率地分配資源,將會成為新時代的贏家。

近期文章

查看全部文章