天天看點

必備知識:大資料處理應遵循的原則

必備知識:大資料處理應遵循的原則

簡約原則

這是牛頓創設的一條“極簡主義”的節約規則。在牛頓看來,神奇的自然界在創設過程中選擇的簡單性和對繁瑣的讨厭,使得人類也形成如下觀念:“在用很少的東西就能夠解決問題的情況下,決不勞力費神和興師動衆”;要始終展現大自然所遵循的簡約性、精準性、合理性與有效性。欲達此目的,就需要在雲計算或大資料進行中,遵循簡約原則,選擇有用資料,淘汰無用資料;識别有代表性的本質資料,去除細枝末節或無意義的非本質資料。要能夠确識資料之間的巨大差距或差異;要能夠鑒别和挑出那些“以一當十”的資料和資訊。這種簡約原則在大資料的收集、挖掘、算法和實施中的最有效途徑,就是對“資料規約”的運用。所謂資料規約就是簡化現有的資料集,使得一種小規模的資料就能夠産生同樣的分析效果。常用的資料規約政策有資料立方體聚集、維規約、資料壓縮、數值壓縮、離散化和概念分層等,而常用的資料規約方法則主要包含粗糙集、遺傳算法、主成分分析、逐漸回歸分析、公共因素模型分析等。運用這些規約方法,就可以擷取可靠資料,減少資料集規模,提高資料抽象程度,提升資料挖掘效率,使之在實際工作中,可以根據需要選用具體的分析資料和合适的處理方法,以達到操作上的簡單、簡潔、簡約和高效。具體地說,當一位認知主體面對收集到的大量資料和一些非結構化的資料對象,如文檔、圖檔、飾品等物件時,不僅需要掌握大資料管理、大資料內建的技術和方法,遵循“簡約原則”和“資料內建原則”,學會資料的歸檔、分析、模組化和中繼資料管理,還需要在大量資料激增的過程中,學會規約、選擇、評估和發現某些潛在的本質性變化,包括對新課題、新項目的興趣和開發。

綜觀原則

所謂綜觀,就是對認知對象進行綜合性的觀察、分析和探索;就是從總體上對認識對象、認識過程和認識結果進行抽象、概括或直覺,并通過具體的資訊資料超越那涵蓋于總體性中的局部或個别。這種綜觀既針對構成事物之個體的全部,也針對構成事物的諸要素組成的統一體,以及總體上顯現的本質和規律。綜觀較整體觀察更加辯證。它堅持從大處着眼,從總體上去“觀其狀,求其法,探其道”,以求得解決問題的政策和戰略。它堅持整體的具體統一性,凸顯認知對象的具體實在性。至于現實中,人們究竟如何對具體的認知對象進行綜觀,這裡需要借助與綜觀緊密相關的大資料集合的理論與實踐。因為大資料內建,既包括對存貯在結構化資料結構中的資料進行移動和內建,也包括對一大部分非結構化資料中的資料進行移動、調節和內建。比如面對複雜的資訊和資料,人們就可以将“雲架構、實時資料內建、資料虛拟化、資料內建模組化”等先進技術用到具體問題的解決中,使用一種根據大資料制作的“可預測模型描述語言”(pmml),為其提供一種快速簡便的程式和模型。此時,通過使用标準的xml(可擴充标記語言)解析器對pmml進行解析,應用程式就能夠決定模型輸入和輸出的資料類型,及模型的詳細格式,并會按照标準的資料挖掘術語來解釋模型的結果。通過對大資料的綜觀、模型化和虛拟化,可以做到花最小氣力,獲最大效益。特别是資料虛拟化,不僅可以為資料使用者提供極具真實性、完整性和精準性的“實時內建的資料視圖”,還可以将來自不同數源的資料資訊整合為一,并轉化成使用者所需要的圖式和模型。因為有些對象,絕不是僅僅用數字就可以解釋和認知的,比如人類複雜多變的面部表情,就很難用單純的資料給予精确表達,隻有通過資料內建、智能技術和虛拟技術将大資料虛拟化,使反映認知或實踐對象的海量資訊和資料,變成一種實時圖像或視訊供主體觀察研究,他們才可能從中獲得相關的認識、結論和決策。

解釋原則

盡管資料內建、資料模組化、雲計算和資料虛拟化是大資料處理的一些主要形式,能夠給認知主體以質、量和度等多方面的總體性的形象和認識,但面對“不能言語”的具體的數字、資訊、圖像和虛拟視訊,還是需要認知主體進行能動的和創造性的解讀與闡釋。這不隻因為包括數字、數位、文字和一切符号在内的語言“是存在的故鄉”,即要認識客體或對象,總是需要利用語言給予建構、包裝、說明和解釋,還因為一切語言自身所擁有的價值和意義,也需要使用它和閱讀它的主體所“贈予”。換句話說,這些擺在人們面前的大資料,究竟表達什麼或意味什麼,很大程度上,并不取決于由資料資訊自身所标明的“客觀實在性”,而是主要取決于認知主體對其解讀時所擁有的整體上的解釋力、建構力和知解力,取決于由資料構架起來的理論形态和實踐目的。因為隻有通過人的感悟、覺識、分析、推理、判斷和闡釋才能夠賦予資料和資訊以多重的或異乎尋常的結構和意義,才能夠由表及裡,揭示出深藏于内的隐蔽之物;進而通過各種解釋之間的沖突和沖突,獲悉被解釋的存在和本質。

智慧原則

盡管資訊革命将人類帶進大資料的春天,而且使越來越多的人确信“資料多多益善,即資料越多,分析越深入,所得的結論就越全面”,但面對“僵死的資料”,要想點石成金,還需依賴于人的智慧和學識。為此,在大資料處理過程中,真正的智者既要兼具資料分析、機器學習、資料挖掘以及資料統計的能力,也要具備應用算法和編寫代碼的經驗。尤其是面對琳琅滿目的大資料,不僅要關注海量資料的多樣性、差異性、精确性和實效性,否則缺少其中任何一個性能,都可能使所獲資料達不到預期的效果和目标;還要全面深入地挖掘各種類型的資料,并在此基礎上運用資料模組化和資料算法在不同的資料內建中分析不同的假設情境,建構不同的可視化圖像,進而揭示資料內建的變化及其産生的效用。特别是今天,面對激烈的社會競争,必須不斷尋找新的資料處理方法,不斷加快資料處理速度。要意識到各種資料都并非生而就有價值,隻有通過主體智慧的挖掘,才能将其變為現實。

此外,還要善于從資料內建、資料模組化和資料虛拟化中發現和解決問題;提升自己觀察、思考、批判和揚棄的能力;錘煉自己的理性思維和邏輯思維;培養自己統籌決策、高瞻遠矚、見微知著的預見力和洞察力。當然,在大資料時代更需要掌握對已有的資料模型進行精練,以及利用新的訓練資料對原有内容和規則集進行修改、操作和運作的技藝。在此過程中,要盡可能做到思想活躍,思維清晰,頭腦開放,認識深遠,能夠不失時機地打破陳規舊套,抓住新機遇,嘗試新途徑,開辟新天地,以多元智能的理念來認知和實踐,以便在大資料進行中,既不忽略任何一個未經深度分析的資料,也不丢棄任何一個異常資料。在許多情況下,異常資料往往比正常資料更有價值。這樣,也就自然地要求認知主體工作上缜密細心,時時關注事件的每一個細節與資料,真正做到明察秋毫、細心研制,直至收獲完美的認識和成功的實踐。

本文作者:佚名

來源:51cto

繼續閱讀