AI存儲,百億空間
IDC預(yù)測,全球AI(人工智能)市場支出將在2021年達到850億美元,并在2025年增至2,000億美元,五年復合增長率(CAGR)約為24.5%。2025年,全球約8%的AI相關(guān)支出將來自于中國市場,市場規(guī)模在全球九個區(qū)域中位列第三。
“十四五”規(guī)劃綱要將“新一代人工智能”作為議題重點提及,加上新基建、數(shù)字經(jīng)濟在內(nèi)的持續(xù)利好政策的推動,中國AI市場將穩(wěn)步發(fā)展。根據(jù)最新預(yù)測,2021年,中國在AI市場的支出規(guī)模將達到82億美元。2021-2025的五年預(yù)測期內(nèi),中國市場AI相關(guān)支出總量將以22%左右的CAGR增長,有望在2025年超過160億美元。
人工智能市場的高速發(fā)展,也帶動了AI存儲的發(fā)展。根據(jù)IDC,從2018年開始,全球AI存儲的年復合增長率高達37%,到2022年,AI存儲的市場規(guī)模將達100億美金。
也就是說,今年AI存儲的市場規(guī)模就將進入百億美金俱樂部了。
AI存儲, IB領(lǐng)跑
為什么有AI存儲這個分類,因為AI場景比較特殊,它和GPU關(guān)系密切。由于GPU價格昂貴,AI存儲必須足夠快,這樣才能充分利用GPU的能力,榨干GPU的帶寬。
由計算密集型機器學習 (ML) 和深度神經(jīng)網(wǎng)絡(luò) (DNN) 組成的 AI 工作負載在不同階段具有不同的輸入/輸出 (IO) 特征,這要求 I&O 負責人部署互補型存儲架構(gòu)。AI 和 ML 工作負載的獨特需求會讓 I&O 負責人重新評估其存儲選擇方法,并采用新的技術(shù)和部署方法。
從上表我們可以看到,AI工作流程一般分5個階段:采集、數(shù)據(jù)準備、訓練、推理、歸檔,不同階段對存儲的要求不同。
ML和DNN工作負載對存儲架構(gòu)有重大影響。由于GPU等更常用的專用處理器(特別是在神經(jīng)網(wǎng)絡(luò)的訓練階段)的并行處理能力和絕對密度,從基于磁盤的系統(tǒng)中讀取訓練數(shù)據(jù)是最常見的瓶頸之一。I&O領(lǐng)導者應(yīng)該設(shè)計他們的網(wǎng)絡(luò)和存儲子系統(tǒng)以減少 I/O 瓶頸,以便他們能夠充分利用他們在GPU等專用計算硬件上的投資價值。為了減少GPU空閑時間,使用固態(tài)陣列或驅(qū)動器,或其他形式的非易失性存儲或持久內(nèi)存來優(yōu)化預(yù)處理流水線變得越來越普遍。由于在訓練階段攝取的數(shù)據(jù)量很大,最好將這些數(shù)據(jù)集存儲在共享存儲中,以便組織可以獨立擴展計算和存儲環(huán)境。集中式存儲還有助于進行版本控制,以便用戶和應(yīng)用程序可以在整個組織中處理單個一致的副本。較新的 NVMe SSD 可以改善與神經(jīng)網(wǎng)絡(luò)相關(guān)的低帶寬和高延遲挑戰(zhàn)。
從AI的負載分析來看,高速的全NVMe閃存的分布式文件系統(tǒng)成為AI存儲的最佳形態(tài)。
AI存儲的網(wǎng)絡(luò)接口,毫無疑問必須采用RDMA技術(shù),只有這樣才能有效降低系統(tǒng)的時延。RDMA技術(shù)原來主要用在Infiniband(IB)網(wǎng)絡(luò)上,但現(xiàn)在無損以太網(wǎng)也支持。但除了RDMA,IB還具有協(xié)議棧簡單、處理效率高、管理簡單等優(yōu)點。與以太網(wǎng)的分層拓撲不同,InfiniBand 是扁平結(jié)構(gòu),這意味著每個節(jié)點都與所有其他節(jié)點直接連接。與 TCP/IP 網(wǎng)絡(luò)協(xié)議相比,IB 采用基于信任和流量控制的機制來保證連接的完整性,并且數(shù)據(jù)包很少丟失。數(shù)據(jù)傳輸完畢后,接收端返回一個信號,指示緩沖區(qū)空間的可用性。因此,IB協(xié)議消除了由于原始數(shù)據(jù)包丟失而導致的重傳延遲,從而提高了協(xié)議的性能。
由于IB的固有優(yōu)勢,目前高端的AI存儲,一般優(yōu)選IB網(wǎng)絡(luò),這也可以從歷年的全球TOP500超級計算榜單可以看出。
根據(jù)2021年11月的全球TOP500超級計算榜單,InfiniBand連接了全球 10 大超級計算機中的 7 臺,全球100大計算機中的65臺。InfiniBand 已成為高性能計算系統(tǒng)的事實標準,被深度學習基礎(chǔ)設(shè)施廣泛采用,并且越來越多地用于超大規(guī)模云數(shù)據(jù)中心。
InfiniBand 提供了許多關(guān)鍵優(yōu)勢。它是一個全傳輸卸載網(wǎng)絡(luò),這意味著所有網(wǎng)絡(luò)操作都由網(wǎng)絡(luò)管理,而不是由 CPU管理。它是最有效的網(wǎng)絡(luò)協(xié)議,這意味著能夠以更少的開銷傳輸更多數(shù)據(jù)。InfiniBand 的延遲也比以太網(wǎng)低得多,最重要的是,它在網(wǎng)絡(luò)內(nèi)部集成了處理引擎,可加速深度學習和高性能計算的數(shù)據(jù)處理。這些是任何計算和數(shù)據(jù)密集型應(yīng)用程序的關(guān)鍵技術(shù)優(yōu)勢。這就是為什么 InfiniBand 已成為高性能、科學和產(chǎn)品模擬的公認標準。
隨著GPU的能力越來越強,對帶寬要求也愈來愈高。目前IB雖然已經(jīng)有了400G NDR的產(chǎn)品,但是產(chǎn)品太新,性價比不高,從性價比角度考慮,200G HDR IB是目前高端AI存儲的首選。
200G HDR可以支持目前最高端的應(yīng)用場景,比如腦映射。而且,現(xiàn)在的AI系統(tǒng)都是多GPU的,更高的速度,就可以支撐更多的GPU。這些因素,使得2022年,AI存儲支持200G IB成為一個很大的優(yōu)勢。
AI存儲, 國外占優(yōu)
許多大型老牌供應(yīng)商正在針對 AI 工作負載重新定位其分布式文件系統(tǒng),同時我們還發(fā)現(xiàn)這個領(lǐng)域中涌現(xiàn)出多個新興供應(yīng)商。
國外的一些存儲公司,還針對AI推出AI一體機,其中比較有特色的是Pure Storage和DDN。
Pure Storage的AI一體機叫AIRI,其早在2018年就發(fā)布,剛剛不久前發(fā)布了最新一代AIRI//S。
其關(guān)鍵的AI存儲采用自研的全閃Scale-out文件系統(tǒng)FlashBlade//S,采用自研NVMe盤,存儲網(wǎng)絡(luò)接口目前還是100G的RDMA以太網(wǎng)。
Pure Storage的AI存儲FlashBlade//S雖然相比上一代,存儲介質(zhì)從TLC轉(zhuǎn)向QLC,性價比上更有優(yōu)勢,但可惜的網(wǎng)絡(luò)接口依然是100G以太網(wǎng),而且也不支持Nvidia的GPUDirect Storage (GDS)。Pure Storage的首席技術(shù)官Rob Lee說,一項人工智能工作的總工作時間包括搜索源數(shù)據(jù)集,尋找所需的子集,提取它,然后將它發(fā)送到GPU上。搜索和提取過程可能要比數(shù)據(jù)傳輸?shù)紾PU的時間長得多,而FlashBlade/S縮短了這一時間,而GDS僅僅是擁有更快的數(shù)據(jù)傳輸時間,不支持GDS對整體時間影響不大。
但是,作為專做HPC存儲的DDN,其推出的AI一體機叫A3I,其關(guān)鍵的AI存儲基于開源的Lustre文件系統(tǒng),目前最新的高端型號的AI400X2,也是采用NVMe SSD,但存儲網(wǎng)絡(luò)接口采用了200G HDR InfiniBand,并且支持GDS。
我們看到,DDN的AI存儲優(yōu)選推薦InfiniBand而不是流行的以太網(wǎng)技術(shù),而且已經(jīng)開始規(guī)模采用200G HDR IB接口。
國產(chǎn)廠商,迎頭趕上
國產(chǎn)廠商,推出類似Pure Storage這樣的AIRI通用AI一體機的不多,但推出AI存儲的廠商就很多了。
比如華為,就專門推出了針對HPDA的OceanStor Pacific系列。
其中高端AI場景,就需要采用Pacific最高端的全閃型號Pacific 9950了。但從華為官網(wǎng)宣傳的規(guī)格看,目前Pacific 9950雖然同時支持以太網(wǎng)和IB,但是最高速率還是100G。
反而國內(nèi)專門做高性能文件系統(tǒng)的初創(chuàng)公司焱融科技,最近發(fā)布的全閃分布式文件存儲一體機焱融追光 F8000X 系列,率先支持200G IB雙端口,令人眼前一亮。
焱融追光F8000X AI存儲,除了是國內(nèi)自研存儲中第一個支持 雙端口200G HDR Infiniband接口外,還有其他什么特點呢?
焱融追光,為“AI”而生
從焱融科技的官網(wǎng)介紹看,追光F8000X系列,所有的特性都圍繞AI場景而設(shè)計,可以說完全是一款為”AI”而生的專用存儲。
作為AI存儲,性能是第一位的。追光 F8000X 搭載了第三代 AMD EPYC 計算平臺(支持PCIe 4.0)和焱融高性能分布式文件存儲系統(tǒng) YRCloudFile ,采用全 NVMe SSD、InfiniBand 200G高速RDMA網(wǎng)絡(luò),性能表現(xiàn)強勁,可以充分榨干多GPU的帶寬。
軟件方面,焱融追光 F8000X 從客戶端到 Server 端做了全鏈路的優(yōu)化(如提供Linux和Windows的高性能并發(fā)客戶端),不僅能提供高 IOPS,還能提供更低的延遲,以及高帶寬性能。在實際測試中焱融追光F8000X 每節(jié)點配置為兩顆 CPU,32G X 8 內(nèi)存,2塊200Gbps HDR InfiniBand 網(wǎng)卡,存儲節(jié)點(集群最少三節(jié)點起,這里只是為了方便,攤分到單節(jié)點看)測試數(shù)值如下:
帶寬性能
IOPS 性能
我們看到,結(jié)合 InfiniBand 強大的網(wǎng)絡(luò)性能,追光 F8000X 取得了十分優(yōu)異的性能測試數(shù)據(jù)。單個存儲節(jié)點達到40GB/s 帶寬、200萬以上IOPS,80μs的時延,同時存儲采用分布式架構(gòu),性能可以實現(xiàn)線性提升,在 6 存儲節(jié)點時性能可達1000萬 IOPS,210GB/s帶寬, 在高負載情況下能夠保持130μs以內(nèi)的延遲。
除了性能,AI存儲也需要講究成本。從前面的AI負載分析我們可以看到,AI的數(shù)據(jù)集是非常龐大的,而且需要長期保持。但是,對存儲性能要求最高的只是在訓練和推理階段,這兩個階段采用全閃的AI存儲是合適的,但是如果數(shù)據(jù)歸檔也用全閃,成本就不劃算了。而對象存儲,是最適合作為歸檔存儲的。焱融追光系列雖然不支持S3訪問,不是一個對象存儲產(chǎn)品,但是它支持智能分層到第三方對象存儲的方式,有效解決了成本的問題。用戶可以選擇其他廠商的對象存儲,或者采用公有云,配合焱融追光AI存儲,支撐AI所有階段對數(shù)據(jù)的存儲和處理要求。
從AI的流程,我們也看到,訓練需要準備大量的數(shù)據(jù),數(shù)據(jù)準備的時間往往大于訓練的時間,因此,縮短數(shù)據(jù)的加載時間,就能夠大大縮短整體的時間。焱融追光系列,采用智能數(shù)據(jù)加載DataLoad技術(shù)來解決這個問題。
DataLoad 具體是如何設(shè)計的呢?實際上,它的設(shè)計和 Tiering 是非常類似的,主要是場景有所不同。實際上 DataLoad 的實現(xiàn)幾乎是能完整復用 Tiering(分層) 的實現(xiàn)。
焱融追光的Tiering沒有做物理切片。在不做物理切片的情況下,可以直接把 5GB 的數(shù)據(jù)文件關(guān)聯(lián)到 YRCloudFile,S3 對象和 YRCloudFile 文件很直觀地一一對應(yīng)起來,這天然滿足了 DataLoad 功能的用戶需求和設(shè)計需求。而在做物理切片的情況下,一個 5GB 的對象需要先切成很多小塊,然后才能再寫回對象存儲里。
用戶通過 YRCloudFile DataLoad 功能,將 S3 上的數(shù)據(jù)直接關(guān)聯(lián)為 YRCloudFile 文件系統(tǒng)中的目錄和文件,直接滿足用戶利用 S3 上已知數(shù)據(jù)的計算需求。
比如用戶在 S3 bucket 中已有 100 萬個 object,現(xiàn)在要使用 YRCloudFile DataLoad 的話 S3 和文件系統(tǒng)的連接。DataLoad 會自動掃描 S3 bucket,根據(jù) S3 object 的路徑,在 YRCloudFile 中創(chuàng)建出對應(yīng)的目錄和文件,然后用戶業(yè)務(wù)就可以像使用本地文件一樣,使用這些 DataLoad 關(guān)聯(lián)下來的 S3 數(shù)據(jù)集。
焱融追光在實現(xiàn) DataLoad 時,也做了充分的性能考慮。比如 DataLoad 在創(chuàng)建對象和文件的關(guān)聯(lián)時,將其分為不同的階段,比如掃描 S3 bucket 階段、創(chuàng)建文件階段、數(shù)據(jù)拉取階段等,每個階段都支持配置不同的策略,比如掃描 bucket 時,可以通過設(shè)置 pattern 去過濾需要的數(shù)據(jù)。比如在數(shù)據(jù)拉取時,默認配置為異步地、按需地拉取。
另外,用戶在使用 DataLoad 時,除了一開始建立起對象和文件的關(guān)聯(lián)后,用戶可能還需要實時感知 S3 bucket 中對象的變化,比如對象的新增和刪除等。YRCloudFile DataLoad 實現(xiàn)了訂閱機制,并適配了阿里云、騰訊云等各種云產(chǎn)商各異的訂閱通知機制,對用戶提供一致的訂閱功能體驗。
最后一點,就是AI存儲需要共享存儲,而焱融追光軟件就是焱融云自研的高性能文件系統(tǒng)YRCloudFile,它不僅支持通用的NFS和SMB訪問,而且還有Window和Linux下的私有客戶端,給胖客戶端提供更好的單客戶端性能。還有,現(xiàn)在的AI負載很多已經(jīng)容器化了,因此CSI的支持也是必須的。焱融追光除了支持CSI標準接口外,還針對容器場景下的運維和監(jiān)控做了很多增強,讓用戶使用起來更加方便。
寫在后面
從上面的分析我們可以看到,AI存儲高速增長,今年就達百億美金規(guī)模。國外的AI存儲發(fā)展較快,很多都聯(lián)合NVIDIA推出了AI一體機,但后端的AI存儲接口目前也沒有超過200G IB。國內(nèi)廠商雖然在AI一體機有所落后,但在AI存儲這塊卻跟得非常緊,比如焱融科技推出的追光專用AI存儲,圍繞AI的整個流程進行了設(shè)計和優(yōu)化,不僅在性能上能夠充分榨干多個GPU的帶寬,而且功能上可以還可以和第三方對象存儲配合,兼顧成本和性能,完美解決AI不同階段對存儲的需求。
END