通俗講解“輿情大資料場景化聚類”，貼近業務全面掌控輿情洞察

2022-11-03 11:23:00

網絡資訊呈幾何級的增長，傳播轉載平台也愈加泛濫，同一輿情往往會在多個平台和社群廣泛傳播。大量同質化内容給資訊處理和應用帶來極大的困擾。業界對于該問題主要采取聚類手段，将相似的文本進行去重或歸類展示，但在實際應用中會存在聚類的效果、邏輯或性能等問題。另外，不同業務場景對于相似的定義也有所差異，處理不當的話，聚類結果将不符合業務需求。

基于這一痛點，美雲智數汽車星謀雲采用SimHash聚類算法，結合行業背景對關鍵詞權重，進行輿情的場景化聚類，高效判斷文本相似性，更貼合業務需求。

文本聚類的難點有哪些？

針對文本聚類，業界有多種解決方案，包括ES、歐式距離、MD5、BloomFilter、KMP算法等，這些文本聚類的方法雖然各有優勢，但都存在不同程度的缺陷。

部分算法對相似文本聚類時，僅判斷關鍵詞的相似程度，但不同的關鍵詞組合會産生截然不同的語義，比如“車身設計簡潔，内飾好看”和“車身設計好看，内飾簡潔”切分後關鍵詞相同，但實際為不同描述。另一方面，文本的高相似度并不代表其重點資訊一緻，比如經銷商在各類營銷推文中會使用大量的相似描述，導緻聚類時無法區分不同品牌車系的宣推。

當聚類效果不佳時，某些算法可能不支援聚類邏輯的幹預和調整。除此之外，海量資料也對聚類算法的性能有了更高的要求。

SimHash聚類算法如何應用？

結合高效率、高精度、高适應性的要求，美雲智數汽車星謀雲采用了Simhash文本聚類方案。該算法不僅計算方法簡單，還可基于行業背景調整權重，适配業務需求。

SimHash聚類算法主要包含6個步驟：分詞、Hash、權重、合并降維、倒查排序、相似計算。基于汽車的行業背景，汽車星謀雲對輿情标題和正文進行分詞後權重合并，對關鍵詞賦予不同權重，通過SimHash計算後輸出SimHash編碼，經過倒查排序後，進行輿情的相似度計算。根據業務應用場景，SimHash聚類算法可通過不同權重的指派實作聚類邏輯的調整，進而優化聚類效果。

場景化聚類優勢如何發揮？

SimHash聚類方案可通過調整權重進行不同的場景化聚類。以汽車行業營銷類輿情為例，标題的相似度影響權重較高，而且需要針對不同區域、不同品牌車系、甚至不同優惠活動進行聚類。

我們使用部分汽車營銷輿情作為樣例（如下所示），可從不同的場景出發進行聚類。

① 從品牌事件上看，輿情都為途觀L在各地的營銷活動，應判定為相似輿情；

② 從區域業務的角度，相同地區的營銷輿情才需做相似歸類；

③ 從經銷商角度而言，相同的降價活動才屬于相同輿情。

針對以上需求，汽車星謀雲可通過調節“重點文本權重”、“領域關鍵詞權重”和“其他關鍵詞權重”滿足不同聚類場景。

總體而言，汽車星謀雲采用SimHash算法大大提升了聚類效果，泛化能力強且效率性能高，其可拓展方向還很多，可根據主機廠需求動态進行權重配置，實作更多場景化聚類需求。

通俗講解“輿情大資料場景化聚類”，貼近業務全面掌控輿情洞察

繼續閱讀

【架構圖話說】我們怎麼就做上了“中台”寫在前面的共識基礎故事的開始: 小而美的小作坊平台出現了: 拆! 合! 一種可能解法, 叫"中台" 那要怎麼做到"中台"? 小結: 對抗增長的複雜度很艱難,沒有銀彈最後的筆者自我介紹:

【宜搭客戶說第四期】宜搭幫助咨詢公司快速開始數字化轉型

帶你讀《重構數字戰鬥力：中小企業的數字化轉型之路》第一章汽車及汽車零部件生産企業的 “上雲、用數、賦智”之路案例1（三）

ICLR首次雲會議開啟：可視化互動論文，視訊直聊作者，不用翻牆

Graphviz之DT：手把手教你使用可視化工具Graphviz将dot檔案轉為結構圖的png檔案

ML之DT：建構一個二進制DT(sk的DTR)來進行評分預測+Graphviz可視化

ML之DT：利用DT(DTC)實作對iris(鸢尾花)資料集進行分類并可視化DT結構

ML之MIC：利用某資料集計算機最大資訊系數MIC并可視化MIC矩陣熱圖及其代碼實作利用某資料集計算機最大資訊系數MIC并可視化MIC矩陣熱圖及其代碼實作

技術宅打算如何改變世界——來看看Facebook工程師黑客馬拉松的年度傑作吧

【TICA2020早班車】“錄”在腳下，“智”在何方

【愚公系列】2021年12月通用職責配置設定原則(六)-多态原則(Polymorphism Principle)

跨越可觀測性鴻溝｜高手們都在用的“火焰圖”是什麼功能入口滑鼠懸浮點選放大火焰圖整體功能示範參看視訊：參考連結 & 延伸閱讀

R語言之可視化-火山圖R語言之可視化-火山圖

GitHub開源城市結構公交路線資料可視化

完結！《沉浸式線性代數》完整版正式釋出，全互動式體驗

Apache Kyuubi 在B站大資料場景下的應用實踐