天天看點

通俗講解“輿情大資料場景化聚類”,貼近業務全面掌控輿情洞察

作者:美雲智數

網絡資訊呈幾何級的增長,傳播轉載平台也愈加泛濫,同一輿情往往會在多個平台和社群廣泛傳播。大量同質化内容給資訊處理和應用帶來極大的困擾。業界對于該問題主要采取聚類手段,将相似的文本進行去重或歸類展示,但在實際應用中會存在聚類的效果、邏輯或性能等問題。另外,不同業務場景對于相似的定義也有所差異,處理不當的話,聚類結果将不符合業務需求。

基于這一痛點,美雲智數汽車星謀雲采用SimHash聚類算法,結合行業背景對關鍵詞權重,進行輿情的場景化聚類,高效判斷文本相似性,更貼合業務需求。

文本聚類的難點有哪些?

針對文本聚類,業界有多種解決方案,包括ES、歐式距離、MD5、BloomFilter、KMP算法等,這些文本聚類的方法雖然各有優勢,但都存在不同程度的缺陷。

通俗講解“輿情大資料場景化聚類”,貼近業務全面掌控輿情洞察

部分算法對相似文本聚類時,僅判斷關鍵詞的相似程度,但不同的關鍵詞組合會産生截然不同的語義,比如“車身設計簡潔,内飾好看”和“車身設計好看,内飾簡潔”切分後關鍵詞相同,但實際為不同描述。另一方面,文本的高相似度并不代表其重點資訊一緻,比如經銷商在各類營銷推文中會使用大量的相似描述,導緻聚類時無法區分不同品牌車系的宣推。

當聚類效果不佳時,某些算法可能不支援聚類邏輯的幹預和調整。除此之外,海量資料也對聚類算法的性能有了更高的要求。

SimHash聚類算法如何應用?

結合高效率、高精度、高适應性的要求,美雲智數汽車星謀雲采用了Simhash文本聚類方案。該算法不僅計算方法簡單,還可基于行業背景調整權重,适配業務需求。

SimHash聚類算法主要包含6個步驟:分詞、Hash、權重、合并降維、倒查排序、相似計算。基于汽車的行業背景,汽車星謀雲對輿情标題和正文進行分詞後權重合并,對關鍵詞賦予不同權重,通過SimHash計算後輸出SimHash編碼,經過倒查排序後,進行輿情的相似度計算。根據業務應用場景,SimHash聚類算法可通過不同權重的指派實作聚類邏輯的調整,進而優化聚類效果。

通俗講解“輿情大資料場景化聚類”,貼近業務全面掌控輿情洞察

場景化聚類優勢如何發揮?

SimHash聚類方案可通過調整權重進行不同的場景化聚類。以汽車行業營銷類輿情為例,标題的相似度影響權重較高,而且需要針對不同區域、不同品牌車系、甚至不同優惠活動進行聚類。

我們使用部分汽車營銷輿情作為樣例(如下所示),可從不同的場景出發進行聚類。

① 從品牌事件上看,輿情都為途觀L在各地的營銷活動,應判定為相似輿情;

② 從區域業務的角度,相同地區的營銷輿情才需做相似歸類;

③ 從經銷商角度而言,相同的降價活動才屬于相同輿情。

通俗講解“輿情大資料場景化聚類”,貼近業務全面掌控輿情洞察

針對以上需求,汽車星謀雲可通過調節“重點文本權重”、“領域關鍵詞權重”和“其他關鍵詞權重”滿足不同聚類場景。

總體而言,汽車星謀雲采用SimHash算法大大提升了聚類效果,泛化能力強且效率性能高,其可拓展方向還很多,可根據主機廠需求動态進行權重配置,實作更多場景化聚類需求。

繼續閱讀