踏上 GPU 浪頭的新玩家！ Inference.ai 要成為「AI 時代的新 AWS」

「我們目前生活的世界，是建立在 NVIDIA 的 GPU 之上（The world we live in is built on NVIDIA GPUs）。」這是 NVIDIA 執行長黃仁勳（Jensen Huang）日前接受媒體採訪時的發言。

是的，這一點都不誇張。生成式 AI 襲捲全球，由 OpenAI 的 ChatGPT 領軍，大大小小小的 AI 應用正以前所未見的速度冒出，熱潮延燒下，對運算至關重要的 GPU 成為高價稀缺資源。思科（Cisco）資訊長 Fletcher Previn 日前更公開表示，「這些 NVIDIA 晶片是用裝甲車運送過來的。」，足以突顯 GPU 的珍貴。

「我必須說，這場遊戲很殘酷，誰有GPU，誰就是贏家。價格、使用者界面好不好用，這些甚至都不重要，在 90% 的情況下，擁有 GPU 資源的人，就是贏得業務的人。」新創 Inference.ai 創辦人暨執行長 John Yue 在談到 GPU 短缺的情況時表示，「現在你去找公有雲業者要 GPU，經常要等 1～2 個季度，還不一定排得到，而且還要預先支付一大筆金額，這對想做 AI 的新創與企業來說是一大困難。」

「在 AI 的時代，基礎設施即服務（Infrastructure as a Service, IaaS）將迎來重大改變，因為大家不再像以前那樣擁有無限資源可以使用，這是產業需要正視的事。」，John 說得直接，「而我們，擁有很多算力。」

看好資料量爆炸趨勢，以雲端儲存業務起家，搭上 GPU 浪潮

打開 Inference.ai 的網站，映入眼簾的是一整排又多又齊全的 NVIDIA GPU 晶片，再往下滑，還能看到 AMD 與 Intel 的產品。在捧著錢都搶不到 GPU 的時代， Inference.ai 的 GPU 晶片，就如同新時代的黃金一般，閃閃發光。

Inference.ai 並不是先知，更不是早在多年前就預知今日 GPU 大缺貨的局面，但卻絕對是在這一領域中的先行者。 John 與共同創辦人在 2019 年創立公司時，就選定了「分散式儲存」（distributed storage）的賽道，因此在早期就掌握了許多 CPU、GPU 資源，才能在 AI 爆發之際踏上浪尖、乘勢而起。

John 來自加拿大，是連續創業家，過去創業的題目也圍繞在硬體、IaaS 相關。John 說，「幾年前我跟我的共同創辦人決定，創業若要成功，首先要緊跟著大趨勢。」，「當時我們看到最重要的趨勢，是數據正以前所未有的速度激增。而在未來數據只會越來越多，對於儲存、算力的需求只會成長，絕對不會少。」

研究資料印證了 John 的觀點。 IDC 報告指出，因為物聯網與雲端運算已成為主流，資料的數量與類別都在快速成長。 2014 年時 IDC 就預估，到 2020 年時，全球的資料量每 2 年就會翻一倍。

John 看準了資料量倍增的趨勢，決定以雲端分散式儲存業務起步。「我們當初的想法很直接：資料快速成長，那麼儲存需求也會同步增加。然而，資料儲存技術好幾年來沒有長足進步，使用者體驗不夠好，且價格極高。」

基於這些痛點，John 與夥伴與超過 2 萬個儲存數據中心合作，邀請業者共享閒置的雲端儲存資源。當有使用者要儲存資料時，除選擇公有雲以外，也能選擇分散放在 Inference.ai 提供的 80 個不同的伺服器上，除了成本比使用傳統公有雲降低 90% 以外，更大幅降低資料遺失與被駭的機率。

因為最一開始的選題，加上過去的創業資源累積，讓 John 早在所有人之先，就掌握了不少閒置的 CPU 與 GPU 資源。然而，當時他沒有預估到的是，才短短沒幾年的時間，生成式 AI 為產業帶來轉折點，GPU 變成各企業爭搶的資源，也讓 Inference.ai 的業務，站上產業最紅的風口。

算力成為 AI 時代的新貨幣！「GPU 即服務」市場興起

AI 應用爆發，背後最主要的驅動力就是 GPU，在算力短缺嚴重的情況下，「GPU 即服務」（GPU as a Service, GPUaaS）順勢興起，也帶動 Inference.ai 在關鍵時刻處於最好的位置，更為 Inference.ai 在募資寒冬時，帶來資金活水。Inference.ai 在 2023 年成功募得 400 萬美元的種子輪投資，由心元資本（Cherubic Ventures）、Maple VC 與 Fusion Fund 投資。

Inference.ai 做的是什麼？其實很簡單：將擁有 GPU 資源的資料中心，與有 GPU 算力需求的客戶相匹配，並提供租用服務。簡單來說，Inference.ai 就像是「GPU 的 Airbnb」，透過匹配，幫助企業快速找到價格最合理、規格最適合的 GPU，讓已經稀缺的 GPU 資源被更有效的利用，解決 GPU 算力短缺的燃眉之急。

例如，使用者可以用每小時 1.99 美元的價格租用到 NVIDIA H100 晶片，或針對不同的模型訓練需求，選擇租用不同型號的 GPU 晶片。

這樣的服務，對於急需 GPU 資源的企業來說，在資源、時間、成本上都有好處。在資源的取得上，透過 Inference.ai，使用者可以立即獲得 GPU 並進行模型訓練，同時也不需要被綁在特定的 GPU 規格上；更也不用曠日費時，等待公有雲業者釋出 GPU。

在成本上，租用 Inference.ai 的 GPU，則不需自行下重本建置伺服器，而是能以更低的價格、更快的速度進行 AI 產品開發。整體來說，用戶透過租用 Inference.ai 的 GPU，比起向 Google、AWS、微軟這些大公司購買，可以省下 82% 的成本。

GPU 市場 3 大痛點－資源分配不均、短缺難緩解、資訊不對稱

John 觀察到，目前市面上有 3 大痛點，首先，是 GPU 資源嚴重短缺與分配不均。微軟、Google、AWS 等公有雲業者以及擁有 AI 需求的大企業，已經拿走了大部分的 GPU，資源較少的企業有錢也買不到，新創公司更是分不到一杯羹。根據估計，NVIDIA 最新 GPU 僅有不到 6% 是分給新創。

此外，企業若想要做 AI 模型訓練並開發產品，找公有雲業者要 GPU 資源得等上 1~2 個季度，更需要先準數百萬美元，並且事先付款，才有機會取得算力。對想要投入 AI 的企業是一大阻礙，對資金吃緊的新創來說，根本就是天方夜譚。

而第二大痛點，是 GPU 算力供不應求的情況，短期內尚難看到緩解曙光。

儘管全球 GPU 晶片短缺情況近期有稍微緩解，但卻不是立刻就能完全解決的議題。若想要短缺狀況舒緩，除了GPU 晶片製造商的產能要全速轉起來以外，包括供應鏈如台積電 CoWoS 先進封裝產能、半導體設備供應商 ASML 的 EUV 極紫外光微影曝光設備的產能都要同步提高，而這些問題，目前仍然沒有速成解方。

供給端跟不上，但需求端卻不斷爆發。各行各業都想趁早發展 AI 。將 AI 分為「模型訓練」(model training）與「模型推論」（model inferencing）兩階段，儘管現在大多數公司都還在模型訓練的階段，但 John 認為，模型推論將在未來 12 個月內到來，屆時會有更多的公司將已訓練好的 AI 模型用來預測或產生內容或新產品。而因為 AI 模型只有在更新時才需要訓練，但 AI 的推論卻會持續不斷發生，也就是說，當 AI 推論越來越多，也會需要越來越多的 GPU 算力。

「在這樣的情況下，一是增加生產，二是讓現有資源更好地被分配。後者就是我們正在做的事情」，John 表示，「我們相信，未來隨著 GPU 規格不斷推陳出新，短缺的情況會一直存在，我們能做的，就是確保所有的資源都能被有效率地分配到需要的人手上。」

儘管市場爆發，但在資訊上，供需兩方仍有相當大的不對稱，這是第三大痛點。

GPU 和 CPU 扮演不同功能，若以運動選手比喻，CPU 就如同全能選手，在各種運動項目都表現優秀，但也很可能在任何一項上面都不是最頂尖的。

而 GPU 就像一個「專才」，被專門設計來有效率地處理某些特定的運算。使用加速運算，就等於聘用了一位專家，而每位專家擅長的任務都不同，「很多人搞不清楚這一點，事實上，大部分人對於 GPU 理解還是很少。」，「而 ChatGPT 爆紅不到 2 年的時間，要所有的技術長都在一夕之間變身 GPU 專家，是不可能的事。」。John 說，現在若企業想知道訓練一個模型需要多少 GPU，通常只能上 NVIDIA 或 AMD 的網站閱讀規格，然後「拍腦袋」猜測大概需要多少算力。

另外，因為機器學習的不可解釋性，也讓訓練AI 模型的過程就如同黑盒子，訓練者無法得知算法的決策方式，更增加了企業在採購算力時的難度與複雜性。

除了在產品上的資訊不對稱以外，通路上的資訊也有相當大的落差。John 舉例，過去， Inference.ai 其中一個客戶正在尋找 NVIDIA 的 L40S 晶片，「但那時這批晶片是 NVIDIA 最新產品，只提供給大學實驗室，甚至沒有提供給企業」，「我們的客戶翻遍全世界都找不到這款晶片。於是，他們找上我們。」

很快地，John 與團隊找到一間於愛沙尼亞的供應商，最終順利解決了客戶的問題，「如果沒有我們，他們可能永遠無法在第一時間找到這些晶片。」，「我想說的是，就算 GPU 短缺，並不代表這個產業的資訊落差就已被解決」，「我們做的，就是幫助供應端的資源被更好地分配，客戶端的需求被滿足。」

此外，為了讓客戶將資源運用在刀口上，Inference.ai 更特地開發了專門推薦 GPU 型號的 AI 模型「ChatGPU」，使用者可依自身需求，事先在 Inference.ai 的官方網站上免費諮詢。

「ChatGPU」會回答各種模型訓練方面的問題，再根據客戶不同的資金，時間，模型需求等推薦合適的晶片。另外，Inference.ai 的專業團隊也會一起進行基準測試（benchmark testing），進一步協助客戶對標出到底需要多少算力、再協助用戶配對並租用最合適的晶片。

加速運算時代來臨，「AI 時代的公有雲業者」將崛起

John 認為，AI 浪潮之下，權利將重新分配，而手握最大資源的，將不再是互聯網時代的公有雲業者，而是 NVIDIA、AMD 等新巨頭。在這樣的趨勢下，「AI 時代的公有雲業者」也將趁勢崛起，John 自信表示，「我很有信心，我們將成為新時代的 AWS。」

如同黃仁勳說的，「通用運算」（general-purpose computing）時代已經結束，「加速運算」（accelerated computing）時代正式來臨，而世界與科技產業的生態，也將迎來全新的面貌。可以想見的是，在 AI 時代，GPU 晶片將越來越細分與垂直，尋找算力的挑戰也會越來越大。而在未來，誰能最有效率地分配資源，將會成為新時代的贏家。

踏上 GPU 浪頭的新玩家！ Inference.ai 要成為「AI 時代的新 AWS」

看好資料量爆炸趨勢，以雲端儲存業務起家，搭上 GPU 浪潮

算力成為 AI 時代的新貨幣！「GPU 即服務」市場興起

GPU 市場 3 大痛點－資源分配不均、短缺難緩解、資訊不對稱

加速運算時代來臨，「AI 時代的公有雲業者」將崛起

Starry Editor

近期文章

一場意外淹水，如何催生房地產的新作業系統 Ender？專訪創辦人 Jonathan Lonsdale

內容創作者的 Shopify！Teachify 如何幫助上千人打造個人教學事業？

從「遊戲課長」到跨國稅務專家，Tokenz 如何為亞洲創作者鋪一條「出海高速公路」？專訪 Tokenz 創辦人 Linmic

華爾街菁英如何重塑加密貨幣選擇權市場？SignalPlus 打造「選擇權交易的自動駕駛」

踏上 GPU 浪頭的新玩家！ Inference.ai 要成為 「AI 時代的新 AWS」

看好資料量爆炸趨勢，以雲端儲存業務起家，搭上 GPU 浪潮

算力成為 AI 時代的新貨幣！ 「GPU 即服務」市場興起

GPU 市場 3 大痛點－資源分配不均、短缺難緩解、資訊不對稱

加速運算時代來臨，「AI 時代的公有雲業者」將崛起

Starry Editor

近期文章

一場意外淹水，如何催生房地產的新作業系統 Ender？專訪創辦人 Jonathan Lonsdale

內容創作者的 Shopify！Teachify 如何幫助上千人打造個人教學事業？

從「遊戲課長」到跨國稅務專家，Tokenz 如何為亞洲創作者鋪一條「出海高速公路」？專訪 Tokenz 創辦人 Linmic

華爾街菁英如何重塑加密貨幣選擇權市場？SignalPlus 打造「選擇權交易的自動駕駛」

踏上 GPU 浪頭的新玩家！ Inference.ai 要成為「AI 時代的新 AWS」

算力成為 AI 時代的新貨幣！「GPU 即服務」市場興起