天天看點

《R語言資料挖掘》----1.12 資料內建

資料內建将多個資料源中的資料合并,形成一個一緻的資料存儲。其常見的問題如下:

異構資料:這沒有普遍的解決方案。

不同的定義(different definition):這是内在的,即相同的資料具有不同的定義,如不同的資料庫模式。

時間一緻性:這可以檢查資料是否在相同的時間段收集。

舊資料:這指的是從舊系統留下的資料。

社會學因素:這限制了資料的收集。

處理上述問題也有一些方法:

實體識别問題:模式整合和目标比對是棘手的,這稱為實體識别問題。

備援與相關性分析:有些備援可以通關相關性分析來檢測。給定兩個屬性,基于可用的資料,這樣的分析可以測量一個屬性影響另一個屬性的強度。

元組重複:在元組級可以檢測重複,進而可以檢測屬性之間的備援。

資料值沖突的檢測和分辨率:在不同的抽象級,屬性可能不同,其中一個系統中的一個屬性可能在不同的抽象級被記錄。

繼續閱讀