天天看點

有效管理是利用大資料力量的關鍵

随着大資料的應用不斷發展與擴大,企業面臨着新的機遇和挑戰。企業可以通過大量資料揭示新的見解或政策,但必須注意不要被龐大資訊的大山所壓倒。正如資料專家所言,考慮到資料存儲的成本增加因素,與非結構化資料的海洋相比,少量的有組織的智能資料更加有用。

是以,大資料需要适當的管理,確定企業能夠同時輕松通路和保護他們的資訊資源。以下是關于資料管理科學以及管理人員可以做的一些重要的事情。

存儲和“資料湖”的挑戰

企業的管理者必須記住,人們所說的“大資料”可以更準确地定義為“分散資料”。大資料的差別因素是傳統的集中式資料庫根本無法有效存儲或處理資料,就算數量沒有達到pb級,其大小可能會達到數百tb。

組織正在轉向采用其他解決方案,如雲計算,但在大資料管理中經常被提及的一個概念是資料湖。資料湖基本上是一個存儲庫,通常使用apache hadoop,可以使用中繼資料标簽轉儲和辨別資料。如果業務中的一個組織尋求某些類型的資料,他們可以使用中繼資料标簽來提取較小的資料塊。此外,擁有一個資料湖儲存庫意味着企業内的各個部門可以更容易地從另一個部門通路,進而實作更全面的資料方法。

但是,盡管資料湖可以解決大資料存儲問題,但管理不善的資料湖可能使所有資料幾乎無用,因為使用者不可能可靠地得知資料湖的實際情況。中繼資料标簽對于顯示資料及其來源絕對至關重要。必須不斷更新和監控這些标簽,以便在出現新問題時,會出現一個中繼資料标簽,可以接近有關于所有問題的所有相關資料。

編目和建立中繼資料标簽需要新的軟體,如microsoft azure以及專門的資料庫。但是,如果企業業務隻是建立一個資料湖,以便在沒有計劃的情況下轉儲資訊,那麼将會是一種浪費時間的行為。

複制資料和虛拟化

即使使用有效管理的資料湖,存儲大資料也是具有挑戰性,并且将所有資料集合在一起可能提供新的挑戰。資料湖是來自不同部門的資訊合并的地方,但是每個部門可能會複制一個特别有用的資料集,并将其用于自己的目的。但是,雖然每個部門都使用相同的資料集,但常數拷貝意味着所提供的資料集可能比之前占據的空間多10甚至20倍,卻不能提供任何新的見解。

幸運的是,這個複制問題可以用虛拟化軟體來解決。虛拟化基本上隻建立一個僅使用軟體的虛拟計算機系統。這允許多個作業系統在單個伺服器上運作,通過不斷複制相同的資料來提高效率。而通過虛拟化,不同部門可以使用完全相同的資料足迹。

隐私和安全

企業必須重視大資料,而且還需要了解大資料帶來了犯罪和黑客的獨特隐私和安全風險。請記住,很多大資料是個人資料,是以受到政府機構的監管。大資料可用于揭示不僅僅是新的業務政策,而且可以用于推斷資料在資料湖中的個人資訊。雖然企業的業務可能了解保護資訊的重要性,但那些對于安全不太謹慎的企業可能會與别人分享大量的資料。一個大的資料洩露事件可能會給企業造成數百萬美元的直接損失,此外還有企業聲譽的損失。

所有這些意味着保護大資料必須端到端進行。限制對伺服器的實體通路,監控大資料賬戶以防止黑客入侵,并確定企業的資料不會被惡意人員所損害,確定您的軟體安全。企業也可以考慮讓客戶了解所擁有的個人資訊,并根據要求将其删除。企業的業​​務仍将擁有大量資料,并促進客戶的善意使用。

保護客戶安全和有效存儲大資料,使使用者能夠搜尋相關資訊隻是強大的資料管理實踐的幾個方面,但它們是一些最重要的。最重要的是,企業管理層必須明白,大資料本身是無意義的。隻有通過保持靈活的方式将沒有進行組織的大資料轉化為結構化智能資料,企業才能獲得最有價值的見解。

本文轉自d1net(原創)

繼續閱讀