資料存儲技術取得突破，存儲資料需“開源”更需“節流”

日前，ibm研究團隊成功地通過“孤立原子”（solitary atom）的方式創造出了全世界最小的磁體。具體的思路是，現有的資料存儲技術及硬碟在存儲資料時，大多需通過磁頭磁化磁層上的媒體，每存儲1bit資料大約需要10萬粒原子，而ibm通過“孤立原子”的方式，使資料存儲的硬碟體積縮小了1000倍。

對此，該團隊在《自然》（nature）雜志上發文稱，這一突破将為人類帶來令人興奮的全新資料存儲系統。

如今，移動計算和雲計算飛速發展，全球資料量随之猛增。資料存儲自然也成為重要的技術。那麼，如此龐大的資料量都被儲存在何處？其中蘊含怎樣的原理？目前資料存儲技術多有突破，但我們真的需要将所有的資料都永久儲存嗎？或許對于資料存儲，人類要做的不隻是技術上的“開源”。

一、資料存儲方式多樣，全球資料量逐年遞增

在資料量快速增長的背景下，容易生出一個疑問：這麼多的資料，究竟都被存放在何處？其實回歸本質看這個問題，答案非常簡單，那就是“硬碟”。依此類推可知，龐大的資料的存儲自然需要非常多的硬碟。

比如谷歌，其早些年的資料中心就已經擁有上萬塊硬碟，如果按1tb(terabajt,太)的标準計量，能夠達到10pb(petabajt,拍)的數量級，用于一般存儲可以說綽綽有餘。

而在國内，像百度雲等資料存儲服務則開創了10gb tor交換機、ssd（自制固态硬碟）等用于大規模資料存儲的技術。但當資料量開始變得龐大，就需要以伺服器作為主要存儲方式。

伺服器能夠存儲資料、處理資料。通過網絡協定，使人們在用戶端快速擷取存儲其中的資料，使用者也可以上傳檔案。在上傳和下載下傳的過程中，形成了網際網路頻繁的資料交換，其外在展現是我們經常在一些科幻影視劇中看到的信号燈瘋狂閃爍的畫面。

當需要存儲的資料越來越龐大時，增加硬碟、伺服器和帶寬都需要非常高的成本。因而對于更龐大資料的存儲和處理，需要資料中心作為輔助。

在上圖中，每個櫃子中的每一排都插入了大約20~40台機器，整個資料中心就由成千上萬台這樣聯網在一起的機器構成。不一定有硬碟，但一定有處理器和記憶體。

　　插入其中的機器

其中的硬碟每天都會有人工進行置換，由于硬碟時常損壞，是以每份資料大概會在不同的機器中至少備份三份。資料中心的地點通常在地皮、水電、制冷價格較低的郊區。

這樣的技術投資自然更大，但也視情況而定。像bat這樣的巨頭使用者基數和資料體量極為龐大，相關産品衆多，投資自然也随之增加。而一些小廠商沒有龐大的資料，對資料存儲方面的投入自然也少一些。

然而，全球資料量龐大已成趨勢。據idc公布的調查資料顯示，未來全球資料将維持50%左右的增長率，到2020年，全球資料總量将達到44zb(十萬億億位元組)，中國将達到8.6zb，占全球的21%。

随之而來的是大資料市場的繁盛，根據中國資訊産業研究院的資料顯示，去年中國大資料市場規模約為116億元，同比增長38%，未來将以40%左右的規模高速增長。

資料量的飛速增長及市場的繁盛，需要存儲技術的支撐。

二、存儲技術取得突破，但短期内不能實作商用

目前常用的資料存儲方式有das(direct attached storage，直接附加存儲)、nas(network attached storage，網絡附加存儲)、san(storage area network，區域網路絡存儲)等。然而面對資料量的一再龐大，縮小存儲媒體的體積以減少占地及投入成為了重中之重。

在ibm此次研發的“孤立原子”存儲方式中，運用了曾獲諾貝爾獎的stm（scanning tunneling microscopes，掃描穿隧式顯微鏡），并與holmium（钬原子）技術相配合，用以創造并監控這一磁體，而之後的資料讀寫操作則借助電流完成。此技術能極大縮減存儲媒體體積，意味着人們能将3500萬首歌曲大小的檔案存儲在一個信用卡大小的硬碟中。

其實，ibm可以算得上是資料存儲技術的先驅企業之一。早在1956年就研制出了世界上第一台計算機硬碟驅動器“ibm305ramac”。1991年，ibm推出首款采用感應式薄膠片磁阻磁頭的磁盤“0663corsair”。

不過，ibm于2003年将其資料存儲部門出售給日立，結束了在磁盤領域的曆程，如今ibm或許會借助新的資料存儲技術重回這一領域。但該項目的研究員chris lutz表示，這項研究離商用的距離還有數十年。

除了運用了新技術的“孤立原子”方式，近期另一項大熱的資料存儲技術是利用dna存儲資料。此種技術的優勢在于dna排列極為緊湊，并且不會随時間的推移損壞或發生降解。據統計，4克dna就能儲存人類每年産生的所有資料，并且存儲時長大于100年，與傳統存儲媒體相比高出了一個數量級。

然而，與ibm新的資料存儲技術一樣，dna存儲技術離商用同樣有着多年的距離。

面對這種狀況，除了努力研發和深耕技術之外，或許更應該想想：我們真的需要儲存全部的資料嗎？顯然不是。是以，在不斷研發和提升存儲技術的同時，對于資料的存儲量也應該适當地采取一些控制措施。

三、資料存儲不能隻顧“開源”，“節流”同樣重要

intel的創始人gordon moore曾說：當價格不變時，內建電路上可容納的半導體數目，約每隔18個月便會增加一倍，性能也将提升一倍。此定律揭示了資訊技術進步的速度，即著名的“摩爾定律”。

這一定律在資料存儲領域同樣可被借鑒。資訊技術不斷進步，閃存、磁盤、資料中心、dna等各種新的存儲技術不斷出現。可即便如此，仍難以滿足日漸龐大的資料體量的存儲需求，加之iot(物聯網)行業的發展，緻使資料的體量更為驚人。

不可否認，這些資料中許多都蘊含着價值，但也不能忽視資料的驚人體量。難道到2020年我們要将44zb的資料全部記錄并存儲下來嗎？顯然是天方夜譚。物聯網的發展使機器能夠自行收集并儲存資料，但在這些資料中，真正有價值的其實并不是全部。

比如智能裝置所記載的使用者資料，交通工具行駛過程中産生的資料，這類資料在當下可用性強，但當個體消失或工具報廢之後，餘下的資料是總結抑或是棄之不用？這些資料要存儲到何時？其中需要多少費用？這些資料的價值與存儲它們投入的成本是否可以成正比呢？

事實上，在這類資料中，人們隻看一次的比例超過90%。是以在這個每天産生大量資料的時代，要學會優先提煉重要資料，對于邊緣化的資料應适當摒棄。在資料的存儲和摒棄之間找到一個平衡點，能夠使資料産生更高的價值。

在資訊高速發展的時代，大資料的作用愈發重要。一方面，人類在努力“開源”，研發新的資料存儲技術，以便适應大資料時代的發展。但另一方面，“節流”同樣重要。厘清主次，找到資料存儲價值的最高點，有助于提升效率，節省投入，更好地推動大資料時代的進一步發展。

本文轉自d1net（轉載）

資料存儲技術取得突破，存儲資料需“開源”更需“節流”

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

解讀2008年網絡技術熱詞之雲計算

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark