天天看點

Starfish幫助馴服大量非結構化資料

作者:AI時代前沿

“你有什麼資料?”“我可以通路它嗎?”對于任何資料驅動型企業來說,這些問題似乎都很簡單。但是,當并行檔案系統上有數十億個檔案分布在存儲空間中時,這些問題實際上就變得非常難以回答了。這也是Starfish存儲的亮點所在,因為它獨特的資料發現工具已經被許多國家的頂級HPC站點和越來越多的GenAI商店所使用。

Starfish幫助馴服大量非結構化資料

在高端非結構化資料管理領域中存在一些沖突:檔案系統越大,對它的了解就越少。擁有的位元組越多,這些位元組就越沒用。我們越接近使用非結構化資料來實作輝煌、驚人的事情,檔案通路的挑戰就越大。

這是Starfish存儲公司創始人Jacob Farmer自10年前創辦公司以來一次又一次遇到的情況。

“每個人都想挖掘自己的檔案,但他們将面對一個殘酷的事實:他們不知道自己擁有什麼,他們擁有的大部分都是垃圾,他們甚至無法通路這些檔案,無法做任何事情。”他表示。

多年來,許多大資料挑戰已經得到解決。資料存儲的實體限制已基本消除,使組織能夠跨分布式檔案系統和對象存儲存儲PB級甚至EB級的資料。大量的處理能力和網絡帶寬是可用的。機器學習和人工智能的進步降低了HPC(高性能計算)工作負載的進入門檻。生成式人工智能(GenAI)革命正如火如荼地進行着,備受尊敬的人工智能研究人員正在談論在十年内創造出通用人工智能(AGI)。

我們從所有這些進步中受益,但我們仍然不知道資料中有什麼,誰可以通路它?這怎麼可以呢?

“對我來說,最難的部分是解釋這些問題還沒有解決。” Farmer繼續說,“人們認為這是生活的事實,是以他們甚至沒有嘗試做任何事情。他們不會進入你的非結構化資料,因為人們普遍認為這是一個未知的領域。”

Farmer詳細闡述了非結構化資料問題的本質,以及Starfish的解決方案。

“我們要解決的問題是‘這些檔案到底是什麼?’”他說。“在檔案管理方面,除非你有強大的工具,否則你無法處理數十億個檔案。你什麼也做不了。”

在桌面檔案系統上運作搜尋,需要幾分鐘才能找到一個特定的檔案。嘗試在由數十億個單獨檔案組成的并行檔案系統上執行此操作,這些檔案占用PB級的存儲空間,可能要等待相當長的時間。

大多數Starfish的客戶都在積極地使用存儲在并行檔案系統中的大量資料,例如Lustre、GPFS/Spectrum Scale、HDFS、XFS和ZFS,以及存儲供應商(如VAST data、Weka、Hammerspace等)使用的檔案系統。

許多Starfish的客戶正在進行高性能計算或人工智能研究工作,包括勞倫斯利弗莫爾和桑迪亞等美國國家實驗室的客戶;哈佛、耶魯和布朗等研究型大學;美國疾控中心(CDC)和美國國立衛生研究院(NIH)等政府組織;雪松西奈兒童醫院和杜克健康中心等研究型醫院;迪士尼和夢工廠等動畫公司;以及大多數頂尖的制藥研究公司。十年來,Starfish公司的客戶管理着超過1EB的資料。

Starfish幫助馴服大量非結構化資料

這些機構需要通路HPC和AI工作負載的資料,但在許多情況下,這些資料分布在數十億個單獨的檔案中。檔案系統本身通常不提供工具來告訴您檔案中的内容、何時建立的以及誰控制對它的通路。檔案可能有時間戳,但它們可以很容易地更改。

問題是,該中繼資料對于決定檔案是否應該保留、移動到運作在低成本存儲上的存檔還是完全删除至關重要。

Starfish方法

Starfish采用中繼資料驅動的方法來跟蹤每個檔案的起源日期、檔案中包含的資料類型以及所有者是誰。該産品使用Postgres資料庫維護檔案系統中所有檔案的索引以及它們随時間的變化情況。當需要對一組檔案采取操作時(例如,删除超過一年的所有檔案),starfish的标簽系統使具有适當權限的管理者可以輕松完成該操作。

在跟蹤非結構化資料時,還會出現另一個悖論。Farmer說:“你必須知道檔案是什麼,才能知道檔案是什麼。”“通常你必須打開檔案并檢視,或者你需要使用者輸入,或者你需要一些其他API來告訴你檔案是什麼。是以,我們的整個中繼資料系統使我們能夠在更深層次上了解什麼是什麼。”

Starfish并不是這個領域唯一的選手。有競争的非結構化資料管理公司,也有主要關注結構化資料的資料目錄供應商。然而,最大的競争對手是那些認為自己可以基于腳本建構檔案目錄的HPC站點。其中一些基于腳本的方法可以工作一段時間,但當它們觸及檔案管理的上層時,它們就會混亂。

“擁有20台ZFS伺服器的客戶可能有自己的方法來做我們所做的事情。沒有一個單一的檔案系統有那麼大,他們可能知道去哪裡找,是以他們可能能夠用傳統的工具來完成。”他說。“但當檔案系統變得足夠大,環境變得足夠多樣化,或者當人們開始将檔案傳播到足夠廣泛的區域時,我們就成為了檔案所在位置的‘定位地圖’,以及做任何你需要做的事情的工具。”

也有很多邊緣情況會難度提高。例如,資料可以被研究人員移動,目錄可以重命名,留下破碎的連結。有些應用程式可能生成10,000個空目錄,或者建立的目錄比實際檔案還多。

Farmer說:“如果你用一款為企業打造的傳統産品來沖擊市場,它就會崩潰。”

非結構化檔案管理工程

Farmer将這一挑戰視為一個工程問題,他和他的團隊為此設計了一個解決方案。

基于postgre的索引允許Starfish維護檔案系統的完整曆史記錄,這樣客戶就可以準确地看到檔案系統是如何變化的。Farmer說,唯一的方法是重複掃描檔案系統,并将結果與之前的狀态進行比較。在勞倫斯利弗莫爾國家實驗室,Starfish目錄比生産檔案系統晚大約30秒。“是以我們正在做一個非常非常緊密的同步。”他說。

有些檔案系統比其他檔案系統更難處理。例如,Starfish利用IBM的GPFS/Spectrum Scale檔案系統公開的内部政策引擎來擷取洞察力,為Starfish爬蟲提供資訊。然而,事實證明,從Lustre擷取這些資料非常困難。

“Lustre不會輕易放棄它的中繼資料。它不是一個高中繼資料性能系統。Lustre是所有檔案系統中最難抓取的,我們在它上面得到了最好的結果,因為我們能夠使用一些其他Lustre機制來制作一個超級強大的爬蟲。”

一些商業産品可以很容易地跟蹤資料。例如,Weka更容易公開中繼資料,VAST有自己的資料目錄,在某種程度上複制了Starfish所做的工作。在這種情況下,Starfish參與了VAST提供的幫助客戶獲得所需的服務。Farmer說:“我們處理所有問題,但在許多情況下,我們做了特定的工程來利用特定檔案系統的細微差别。”

Starfish幫助馴服大量非結構化資料

擷取資料

通路結構化資料通常非常簡單。來自業務線的某些人通常擁有Snowflake或Teradata上的資料,他們根據公司的政策授予或拒絕通路這些資料。

在非結構化資料的世界中,通常不是這樣工作的。檔案系統被認為是IT基礎設施的一部分,是以控制對檔案通路的人是存儲管理者或系統管理者。Farmer說,這給想要通路這些資料的研究人員和資料科學家帶來了問題。

“通路所有檔案或幫助自己分析不屬于自己的檔案的唯一方法是擁有檔案系統的root權限,而這在大多數組織中是不可能的。”Farmer說,“我必須把産品賣給營運基礎設施的人,因為他們擁有root權限,是以他們決定誰可以通路哪些檔案。”

Farmer說,在某種程度上,為什麼組織要依靠過時的、有50年曆史的流程來通路組織中可能最重要的資料,這令人困惑,但事實就是如此。“每個人都固守着一個過時的模式,這有點好笑,”他說。“這既是他們的優點,也是他們的缺點。”

從表面上看,Starfish是一個非結構化資料的資料發現和資料目錄,但它也可以作為想要通路資料的資料科學家和具有root通路權限的管理者之間的接口,管理者可以向他們提供資料。如果沒有像Starfish這樣的中介,通路、移動、存檔和删除請求的效率可能會低得多。

POSIX檔案系統是非常有限的工具。有50多歲了。”他說,“我們已經想出了在這些限制條件下工作的方法,使人們能夠輕松地做一些事情,否則就需要列一個清單,通過電子郵件或打電話或其他方式。我們可以無縫地使用與檔案系統相關的中繼資料來驅動程序。”

Starfish幫助馴服大量非結構化資料

我們可能正處于開發具有超人認知能力的人工智能前沿,進而使IT的發展速度比現在更快,永遠改變世界的命運。請不要忘記在向存儲管理者請求通路資料時表現得友好。