天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一導讀

我們不能用導緻問題的方法去解決問題。

——albert einstein

數以百萬計的電腦每時每刻都有資料注入。在全球範圍内,所有計算機上存儲的資料總量約為3000eb(約3000億gb),并正以每年28%的速度增加。盡管如此,與未被存儲的資料量相比,存儲下來的資料量仍是微不足道的。據統計,每年約有1.9zb的資料傳輸量(約19 000億gb;見術語表,binary sizes)1。日益紛繁複雜的數字化資訊将引發新一代資料資源的湧現。

現在,我們有能力從各類資源中得到衆多不同類型的資料對象,也能夠擷取來自未來或遙遠過去的資料,這要求我們找到能夠準确描述每個資料片段的方法,這樣就不至于将資料項混淆,進而能夠在需要的時候搜尋和追蹤對應的資料項。精明的資訊學專家明白一個道理:如果要在我們的星球上精确地描述每一件事,必然需要一個“輔助星球”來掌控所有資訊,同時後者也必然要比我們的實體星球大很多。

急于擷取和分析資料時,往往容易忽視資料的準備工作。如果大資料資源中的資料沒有得到有效的組織、綜合和準确的描述,那麼這些資料資源将毫無價值。本書的首要目标是解釋大資料資源建立的原理。大資料資源中的所有資料必須具備某種形式以支援搜尋、檢索和分析,分析方法必須可再現,分析結果必須可驗證。

大資料潛在的最大益處也許是它能夠連接配接一些看似無關的學科,進而開發和測試那些無法通過單個學科領域知識完成的假設性想法。

<a href="https://yq.aliyun.com/articles/174468">第0章 引  言 這是資料。 ―jim gray</a>

<a href="https://yq.aliyun.com/articles/174470">0.1 大資料的定義</a>

<a href="https://yq.aliyun.com/articles/174472">0.2 大資料vs小資料</a>

<a href="https://yq.aliyun.com/articles/174476">0.3 大資料在哪裡</a>

<a href="https://yq.aliyun.com/articles/174479">0.4 大資料最常見的目的是産生小資料</a>

<a href="https://yq.aliyun.com/articles/174588">0.5 機會</a>

<a href="https://yq.aliyun.com/articles/174591/">0.6 大資料成為資訊宇宙的中心</a>

<a href="https://yq.aliyun.com/articles/174595">第1章 為非結構化資料提供結構</a>

<a href="https://yq.aliyun.com/articles/174600/">1.1 背景</a>

<a href="https://yq.aliyun.com/articles/174588">1.2 機器翻譯</a>

<a href="https://yq.aliyun.com/articles/174591/">1.3 自動編碼 格物緻知。</a>

<a href="https://yq.aliyun.com/articles/174595">1.4 索引</a>

<a href="https://yq.aliyun.com/articles/174600/">1.5 術語提取</a>

<a href="https://yq.aliyun.com/articles/174595">第2章</a>

<a href="https://yq.aliyun.com/articles/174600/">2.1 背景</a>

[2.2 辨別符系統的特征]()

<a href="https://yq.aliyun.com/articles/174614">2.3 注冊唯一對象辨別符</a>

<a href="https://yq.aliyun.com/articles/174619">2.4 糟糕的辨別方法</a>

<a href="https://yq.aliyun.com/articles/174621">2.5 在辨別符中嵌入資訊:不推薦</a>

<a href="https://yq.aliyun.com/articles/174623">2.6 單向哈希函數</a>

<a href="https://yq.aliyun.com/articles/174626">2.7 案例:醫院登記</a>

<a href="https://yq.aliyun.com/articles/174627">2.8 去辨別化</a>

<a href="https://yq.aliyun.com/articles/174631">2.9 資料清洗</a>

<a href="https://yq.aliyun.com/articles/174634">2.10 重辨別</a>

<a href="https://yq.aliyun.com/articles/174636">2.11 經驗教訓</a>

繼續閱讀