天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一1.1 背景

1.1 背景

在計算早期,資料總是高度結構化的。所有資料都被劃分成多個字段,字段有固定長度,存入字段的資料限定在一個由允許值組成的、預先設定的集合之内。資料記錄在穿孔卡中,其行列位置是預先設定的。穿孔卡使用廣泛,因而為了解釋二進制資料、十進制資料、固定大小的文本、程式設計指令等(見術語表,binary data),出現了各種各樣的輸入和輸出方法。鍵盤穿孔機操作人員制造出成堆的穿孔卡,依靠穿孔卡分類機,卡片編碼資料集甚至不需要計算機的協助就可以完成很多分析工作。如果你希望篩選出所有超過18歲、高中畢業且通過了體能測試的所有男性,分類機就需要進行4次操作。分類機首先會篩選出所有男性卡片,接着在這些卡片中選擇年齡滿18歲的那部分卡片,然後再選出滿足下一标準的卡片……在20世紀60年代,我還是一名高中生,非常喜歡玩卡片分類機。回到那時,所有資料都是結構化資料,從我的角度來看,那時的一台穿孔卡分類機是進行大資料集分析的必備工具。

當然,現在看來我完全錯了。如今,人們輸入的很多資料是自由文本格式,是非結構化的。自由文本來自于電子郵件資訊、微網誌、文獻等。結構化資料并沒有消失,但被非結構化文本這座大山所掩蓋。現在,自由文本讀起來比穿孔卡更有趣,但在穿孔卡繁盛時期,與其後代自由文本相比,穿孔卡更容易進行分析。為了從自由文本中擷取極大的資訊價值,就需要給文本強加“結構”,這就涉及:将文本翻譯成首選語言,将文本解析為語句,提取和規範語句中的概念性詞組,将詞組映射到标準術語集(見術語表,nomenclature,thesaurus),對詞組進行注釋(注釋代碼來自一個或多個标準術語集),提取和歸一化文本的資料值,給分類系統中的特定資料類别指派數值,将分類後的資料指派到某個存儲器或某個檢索系統(如資料庫),并制定該系統中資料的索引。這些操作很難在小規模資料集上實施,在大規模資料集上也幾乎無法完成。然而,每個使用非結構化資料的大資料項目都必須處理這些任務,以從可用資源中獲得最好的結果。

繼續閱讀