SAP Cloud for Customer客戶主資料的重複檢查-Levenshtein算法

2021-11-30 23:50:00

AP C4C的客戶主資料建立時的重複檢查，基于底層HANA資料庫的模糊查找功能，根據掃描資料庫中已有的資料檢測出目前正在建立的客戶主資料是否和資料庫中記錄有重複。

在系統裡開啟重複檢查的配置：

在此處配置主資料模型上每個字段對重複性檢查結果共享的權值：

要了解權值的作用，就必須先了解C4C客戶主資料重複性檢查的算法Levenshtein algorithm。這個算法以開發者Vladimir Levenshtein命名，通過計算Levenshtein(萊文斯坦)距離來衡量兩個字元串的相似度。

看個具體例子。

假設資料庫裡有一條主資料記錄：

Name = Carl,

然後在C4C UI建立一個新的客戶主資料：

Name = Corl,

其中Name字段的相似度為 1 - 1/4 = 75%，而Email字段相似度為100%。

然後在C4C裡這兩個字段的權值配置如下：

Name = 30

E-mail = 70

按照Levenshtein algorithm的公式計算重複度：

SIM = SQRT( (30² * 0.75² + 70² * 1²) / (30² + 70²) ) = 0.97 = 97%

到底重複度多少的待建立客戶主資料被認為是真正的重複資料呢？可以在Business Configuration裡配置：

‘Strong – Duplicate Check for Business Partners’:85%

‘Medium – Duplicate Check for Business Partners’: 80%

‘Weak – Duplicate Check for Business Partners’: 70%

繼續閱讀