天天看點

大資料項目——網際網路精準營銷——資料清洗

使用kettle進行資料清洗:

 1.建立轉換去除手機銷售資訊表的重複記錄

  要求:去除該字段中的所有空格,友善後續聚合統計,字母統一大小寫,去除該字段中的所有特殊字元(各種标點符号)

      這裡可選用排序加去重元件,也可用哈希去重。然後用字元串操作去括号,大小寫統一。字元串替換的正規表達式去除特殊字元。

大資料項目——網際網路精準營銷——資料清洗
大資料項目——網際網路精準營銷——資料清洗
大資料項目——網際網路精準營銷——資料清洗

 2.建立轉換去除使用者評論資訊表的重複記錄

  和上面的操作差不多,一個去重

大資料項目——網際網路精準營銷——資料清洗

3. 建立轉換處理使用者資訊表中出生日期字段(将 2019 年 5 月 20 日轉換為 2019-5-20)

這個我仍然用的正則,把年月(填寫為“(年|月)”)改成“-”   把 日 替換為空

大資料項目——網際網路精準營銷——資料清洗

 效果:

大資料項目——網際網路精準營銷——資料清洗
大資料項目——網際網路精準營銷——資料清洗

繼續閱讀