使用kettle進行資料清洗:
1.建立轉換去除手機銷售資訊表的重複記錄
要求:去除該字段中的所有空格,友善後續聚合統計,字母統一大小寫,去除該字段中的所有特殊字元(各種标點符号)
這裡可選用排序加去重元件,也可用哈希去重。然後用字元串操作去括号,大小寫統一。字元串替換的正規表達式去除特殊字元。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsISPrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdsATOfd3bkFGazxCMx8VesATMfhHLlN3XnxCMwEzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5yY2IWN2IzNhFjZjRjMkJTOwEWY1gjN0MTZ1MWO3EmY58CX0IzLcRDMxIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjL5M3Lc9CX6MHc0RHaiojIsJye.png)
2.建立轉換去除使用者評論資訊表的重複記錄
和上面的操作差不多,一個去重
3. 建立轉換處理使用者資訊表中出生日期字段(将 2019 年 5 月 20 日轉換為 2019-5-20)
這個我仍然用的正則,把年月(填寫為“(年|月)”)改成“-” 把 日 替換為空
效果: