天天看點

海量檔案基于NAS存儲資料異地容災難訣竅

 資料存儲是門大學問,比如使用者的關鍵業務資料存儲,通常是在大型資料庫的基礎上進行存儲與管理,其相應的資料存儲形式主要是資料塊(block),中小型資料庫則可能會采用檔案形式(file)。

但是作為辦公自動化oa、卷宗類海量内部文檔管理、多叢集前端業務平台、網際網路業務平台、财務系統、工資系統等需要檔案級(file)的集中存儲與共享時,則有更專業的需求:一是充分利用現有的網絡資源;二是提供強勁的存儲容量的擴充;三是多台伺服器對海量檔案級的資料讀寫;四是降低存儲資源開銷及整體擁有的成本。

海量檔案基于NAS存儲資料異地容災難訣竅

如何解決上述檔案級(file)資料集中存儲與共享的使用者需求,nas網絡共享存儲給出了漂亮的解決方案,并且順利解決企業使用者海量資料檔案(file)與資料塊(block)兩種形式并存的難題。 是以,很多像網際網路這樣對外提供服務的多叢集前端網際網路業務平台,以及公檢法擁有海量卷宗檔案的使用者,會欣然接受nas存儲架構作為檔案的存儲形式。

海量檔案基于NAS存儲資料異地容災難訣竅

比如使用者有基于網際網路業務的平台,使用者的基數非常大,是以前端就要做負載均衡和多叢集業務。 在這樣背景下,如何解決海量非結構化資料在多台節點中保持資料的一緻性,困難相當大。

那麼使用者大多使用的方案是多個前端業務的叢集,共享同一個nas存儲的目錄,它們擁有共同寫與讀的機制,確定不會寫沖突。這樣的讀寫機制確定了檔案的唯一性,這個方案可以快捷擴充前端叢集節點的數量,以增加使用者對實際的通路量的需求。

nas存儲架構下的資料容災難題

從資料安全管理角度來看,從nas上複制檔案是一件讓人頭痛的事情。如果使用nas廠商的相關複制功能,那麼就必須有一套相同的nas系統複制。而現有的nas系統隻能在檔案管理系統層次進行複制。這決定了要麼就全部複制,要麼就什麼都不複制。但是在實際環境中,使用者更希望針對特定檔案進行相應的管理。比如,對相關的檔案進行實時的備份,但是因為前端業務叢集伺服器主機可能會同時讀寫同一個nas檔案夾中的資料,造成無法實作資料的實時保護。

另外,海量小檔案,例如2000萬資料量,如何確定複制資料在主備兩端的一緻性?傳統的災備方式,在第一次全鏡像的同時,如何確定鏡像過程中增量部分的同步?這些都是困擾整個nas架構下海量小檔案進行資料容災的難題。

基于nas的定時同步方案

從下面定時同步方案的拓撲圖來看,它是在基于nas存儲叢集架構拓撲圖上增加了一個備份節點。資料複制的流程首先是将業務端的nfs共享存儲目錄挂載至災備機,提供隻讀機制,其次,通過英方控制台,下發定時複制的政策,通過英方将災備機上的生産目錄資料複制至災備目錄裡,進行一緻性比對或執行複制規則,定時或手動執行。

海量檔案基于NAS存儲資料異地容災難訣竅

該方案的優點是對源端的業務架構沒有任何的改變,它隻是把目錄映射到災備伺服器上,災備伺服器同時挂載一個映射的隻讀目錄,另外還有一個存儲資料的災備目錄。它要做的就是把生産資料産生變化的目錄的資料進行定時的比對,并且将缺少的檔案同步到備端的存儲上去。

由于該方案需要定時做掃描的差異對比,是以資料同步需要時間,是以無法做到實時的資料同步,隻能做到定時的資料同步。 那麼随着nas存儲資料的大量增加,可能僅就掃描和差異對比,就耗費大量時間。 目前這種解決方案,主要是針對使用者資料量不是特别大的nas目錄,例如資料檔案的數量在百萬級别,并且使用者讀寫不是很頻繁,可以把定時的時間縮短即可實作。

基于nas的實時同步方案

在實時同步方案中,資料複制的流程首先是在3台前端業務伺服器上面都安裝英方軟體用戶端;其次是單獨使用1台伺服器隻讀該nas存儲中對應檔案夾,命名“英方nas監控伺服器”;最後是當這3台伺服器有任何1台伺服器對nas資料進行修改時,英方用戶端會将修改的檔案名和該檔案的存儲路徑發送給“英方nas監控伺服器”,由該伺服器實時讀取資料,并發送給容災端。

海量檔案基于NAS存儲資料異地容災難訣竅

英方i2coopy實時複制在一般伺服器下能夠做到毫秒級資料同步,在nas伺服器叢集環境下,i2coopy通過在生産端指定一個伺服器作為其他伺服器io變化的合并節點,能夠在備端的伺服器達到秒級同步讀寫的目的。

該解決方案是旁路監聽,是以對主業務的節點變化是安裝用戶端,但是用戶端本身不産生性能開銷,隻是監控對應伺服器會對目錄當中的某個檔案進行修改。比如叢集中有三台伺服器,第一台修改完了,會傳輸到英方nas監控伺服器上,然後會優先進行傳輸,當第二台修改完後,就會進入檔案隊列傳輸的等待過程,依次類推……英方監控伺服器得到更改确定的指令後,會第一時間去讀對應目錄下的名稱,然後經過tcp/ip網絡發送到容災端的伺服器。

該方案既解決了實時同步的問題,又解決了海量資料情況下資料複制時間視窗的問題,確定當生産環境nas存儲出現故障時,資料安全,業務連續。

實時同步方案的六大優勢

這兩個方案均能滿足不同使用者nas存儲資料容災的需求,具體的方案選擇要根據使用者的生産環境與資料量進行綜合分析判斷。不過,在nas存儲架構下的海量檔案的資料容災, 英方股份進階售前技術顧問李毅總結了六大優勢:

1)、無備份視窗,可實作實時的資料傳輸;

2)、對使用者現有的業務架構無調整,隻增加同步主機、災備主機,同時在客戶的業務環境上安裝用戶端,如果使用存儲級的複制,需要對存儲本身進行調整;

3)、對使用者的資源系統沒有多餘的開銷,因為去同步主機才會産生資料的讀取,對源端的業務沒有壓力,對i/o的消耗比較小;

4)、備端資料可見,因為主備端的資料與檔案目錄同樣,可随時檢視資料的一緻性;

5)、當使用者需要容災演練,檢視備端海量的資料的啟動時間非常短;

6)、彌補現有解決方案中無法針對使用nas作為存儲備援架構的不足,英方提供全場景解決方案,能夠滿足使用者同時做實時資料複制備份、非結構資料同步、高可用等容災備份的綜合需求,而之前很多對nas存儲資料做複制都是定時的。

實戰:海量檔案的資料容災落地方案

1、某金融使用者前端業務叢集案例

海量檔案基于NAS存儲資料異地容災難訣竅

某金融使用者異地容災拓撲圖

該使用者擁有大量的網際網路業務平台,使用者希望實作本地到同城災備機房的實時資料複制。

實際上使用者的業務運作在本地的idc機房,在本地建有容災的機房,中間通過千兆網絡進行資料的傳輸。使用者平時就有很多的資料要進行複制備份,同時也要實作nas存儲架構下的資料複制,據統計,使用者在nas存儲下的資料量是1.6t,海量檔案的數量在2000萬左右。在生産業務方面,使用者實際的運作業務一共有10個,有8個業務因為資料量沒有達到千萬級别,是以英方通過定時同步的方案,實作增量資料的比對; 另外核心業務是2個網際網路業務的叢集,叢集伺服器一共有7台,共享同一個目錄,寫入資料非常頻率,每天大約以20萬的資料在增加。

在這樣的生産環境下,使用者通過英方實時同步的方案,非常好地實作了基于nas下的廣域網的資料的快速複制。經過現場的實時測算,使用者的延遲大部分時間是在5秒以下,這其中要考慮使用者的業務量非常頻繁,另外使用者的部分業務資料放在本地,是以千兆網絡不僅要進行異地的資料傳輸,還要支援本地業務的運作,整個網絡的日常生産占用率非常高,能達到秒級同步在業内已經無人能敵。

2、某廳級檢察院海量小檔案案例

該檢察院使用者是典型的卷宗類海量小檔案容災場景,使用者小檔案數量在8000萬左右,資料量約7t,前端業務叢集共有7台伺服器,共享同一個目錄,進行電子化檔案的存儲。使用者不會對資料進行修改和删除,但是資料量會持續地增加,另外資料是電子性的檔案,每份檔案都是非常關鍵,不能出現任何的丢失。

該檢察院使用者已經在本地進行容災保護,希望通過英方的方案實作異地的容災級别的保護。使用者生産中心與災備中心相隔幾百公裡,通過專線連接配接,巨大的資料量使得使用者第一次的資料同步就花費了一個星期。同時通過英方基于nas的實時同步方案,在每台伺服器上安裝用戶端,監控伺服器會觀察生産端不斷發生的資料變化,将截獲到的資料變化同步到災備伺服器中。

這些擁有海量小檔案的使用者,要實作基于nas存儲架構下的異地定時或實時同步資料容災,目前業内的解決方案鳳毛麟角。英方在備端同步在時間上達到秒級别的容災要求,已經成功應用于公檢法、網際網路多叢集前端業務平台、電信營運商等領域,并且英方能夠提供全場景的容災需求,擁有很多典型的定制化的容災備份的解決方案。

作者:佚名

來源:51cto

繼續閱讀