天天看點

大規模存儲基礎設施對人工智能的要求要求1–高性能網絡要求2–共享存儲要求#3–分層存儲要求#4–并行通路要求#5 –多種協定要求#6 –進階中繼資料處理結論

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

存儲基礎設施采用人工智能技術提高了容量和性能方面的要求。對于采用人工智能或機器學習的存儲環境來說,存儲容量增長到幾十TB甚至數百TB的情況并不少見。盡管提供全閃存陣列産品的供應商聲稱,這麼龐大的資料無法全部存儲在全閃存陣列上,但由于它們具有的并行性質,大多數存儲環境從硬碟獲得的服務幾乎與從閃存獲得的服務一樣好。

要求1–高性能網絡

對于人工智能/機器學習環境來說,建立使用内部部署或直接連接配接存儲(DAS)的計算伺服器叢集的情況并不少見。即使共享存儲在使用容量和将工作負載更均勻地配置設定給計算節點方面效率更高,很多組織仍然願意犧牲這些效率來消除計算節點與共享存儲之間建立的網絡延遲。

NVMe光纖網絡(NVMe-oF)是專門為基于記憶體的儲存設備(如閃存和非易失性記憶體)設計的下一代網絡。它提供的延遲幾乎與DAS NVMe相同。NVMe的深度指令和隊列深度使其也非常适合高度并行化的工作負載,并且人工智能/機器學習可能是所有工作負載中最為并行的技術。NVMe-oF是專門為記憶體存儲而設計的,但它也是為人工智能/機器學習量身定制的。

要求2–共享存儲

如果NVMe-oF可以解決計算與存儲之間的延遲問題,那麼它将啟用第二個要求,即共享存儲。通過NVMe-oF連接配接的共享存儲解決方案,工作負載可以受益于共享存儲的所有自然屬性。首先,所有節點都可以通路所有資料,這意味着工作負載可以更均勻地配置設定其計算負載,這也意味着具有圖形處理單元(GPU)的節點可以通路所有資料。由于GPU的價格比CPU貴得多,是以讓GPU處理更多的負載是當務之急,而共享存儲則使這一工作變得更加容易。

在衡量數十個甚至幾百PB的工作負載容量需求時,存儲效率的提高都可以節省大量成本。在具有用于每個計算節點的專用硬碟的叢集中,IT團隊無法輕松地将可用存儲容量重新配置設定給叢集中的其他節點。直接連接配接存儲(DAS)模型中缺乏資源池,這也意味着組織無法有效使用制造商推向市場的大容量硬碟。現在,具有雙重用途的節點(計算和存儲)可能會安裝12個或更多的16TB的閃存或18TB的硬碟,而單個節點可能無法有效使用。如果人工智能/機器學習存儲體系結構從專用伺服器中集中使用這些硬碟,則可以對其進行更精細的配置設定。人工智能/機器學習工作負載不僅需要擴充以滿足容量需求,而且還必須可以直接通路存儲節點以滿足性能需求。

要求#3–分層存儲

鑒于人工智能/機器學習資料集的規模,分層存儲幾乎是必須的措施,因為配置數十PB的閃存裝置太昂貴了。事實上,某些人工智能工作負載并不遵循80/20規則,在任何給定時間,80%的資料都是不活躍的。這些工作負載可以從100%休眠狀态變為100%活躍狀态。盡管如此,它們還是高度并行的,并且數百個性能較低的機械硬碟都可以同時滿足工作負載的需求,是以應該可以提供這些工作負載所需的性能。如果沒有,他們可以在目前網絡技術允許的範圍内盡快傳送資料。

要求#4–并行通路

并行通路意味着存儲基礎設施中的每個節點為人工智能/機器學習叢集中的每個計算節點提供對其所需資料的直接通路。單個控制節點不會成為瓶頸。進階别的并行性對于人工智能/機器學習至關重要,因為可能需要同時通路存儲池的計算節點數量衆多。正是這種并行性使吞吐量能夠使硬碟在人工智能/機器學習存儲基礎設施中成為一個元件。并行檔案系統幾乎總是需要用戶端或代理,但是該代理除了提供并行通路之外,還經常需要比典型NFS協定更少的開銷。

要求#5 –多種協定

盡管需要并行通路進行處理,但另一個要求是多協定通路,這對于将資料提取到存儲基礎設施中特别有幫助。許多人工智能和機器學習項目都從物聯網(IoT)裝置接收資料,這些裝置通常需要與其附帶的協定進行通信。許多裝置通過伺服器消息塊(SMB)或網絡檔案系統(NFS)進行通信,少數裝置使用S3存儲桶。更重要的是,幾乎沒有人使用原生并行檔案系統用戶端。

要求#6 –進階中繼資料處理

人工智能/機器學習的工作負載是中繼資料繁重的負載,盡管通常不是因為它們像媒體和娛樂的工作負載那樣使用豐富的中繼資料。中繼資料在人工智能/機器學習工作負載中的重要性來自其通用檔案的數量。在大多數情況下,數十億至數百PB的人工智能工作負載由數十億個檔案組成。這些檔案中的每個檔案都有中繼資料,就像其他工作負載一樣,大部分IO事務都來自中繼資料。人工智能/機器學習存儲基礎設施必須管理中繼資料,以便即使檔案數量增加,它也可以維持系統的性能。中繼資料需要在整個存儲叢集中進行配置設定,以便所有節點都可以參與其管理。供應商可能還會檢視每個存儲節點中閃存上的存儲中繼資料,以確定系統始終能夠響應。

結論

人工智能/機器學習工作負載與組織過去可能運作的其他工作負載有着根本的不同。早期的人工智能/機器學習項目已經依靠直接連接配接存儲(DAS)進行資料存儲。問題在于直接連接配接存儲(DAS)無法平均配置設定負載,這對于每個人工智能工作負載的GPU數量增加至關重要。而且,直接連接配接存儲(DAS)效率很低,複制和移動資料所花費的容量和時間上的浪費将會消除機械硬碟的價格優勢。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-04-20

本文作者:George Crump

本文來自:“

企業網D1net

”,了解相關資訊可以關注“

繼續閱讀