网络信息呈几何级的增长,传播转载平台也愈加泛滥,同一舆情往往会在多个平台和社区广泛传播。大量同质化内容给信息处理和应用带来极大的困扰。业界对于该问题主要采取聚类手段,将相似的文本进行去重或归类展示,但在实际应用中会存在聚类的效果、逻辑或性能等问题。另外,不同业务场景对于相似的定义也有所差异,处理不当的话,聚类结果将不符合业务需求。
基于这一痛点,美云智数汽车星谋云采用SimHash聚类算法,结合行业背景对关键词加权,进行舆情的场景化聚类,高效判断文本相似性,更贴合业务需求。
文本聚类的难点有哪些?
针对文本聚类,业界有多种解决方案,包括ES、欧式距离、MD5、BloomFilter、KMP算法等,这些文本聚类的方法虽然各有优势,但都存在不同程度的缺陷。
部分算法对相似文本聚类时,仅判断关键词的相似程度,但不同的关键词组合会产生截然不同的语义,比如“车身设计简洁,内饰好看”和“车身设计好看,内饰简洁”切分后关键词相同,但实际为不同描述。另一方面,文本的高相似度并不代表其重点信息一致,比如经销商在各类营销推文中会使用大量的相似描述,导致聚类时无法区分不同品牌车系的宣推。
当聚类效果不佳时,某些算法可能不支持聚类逻辑的干预和调整。除此之外,海量数据也对聚类算法的性能有了更高的要求。
SimHash聚类算法如何应用?
结合高效率、高精度、高适应性的要求,美云智数汽车星谋云采用了Simhash文本聚类方案。该算法不仅计算方法简单,还可基于行业背景调整权重,适配业务需求。
SimHash聚类算法主要包含6个步骤:分词、Hash、加权、合并降维、倒查排序、相似计算。基于汽车的行业背景,汽车星谋云对舆情标题和正文进行分词后加权合并,对关键词赋予不同权重,通过SimHash计算后输出SimHash编码,经过倒查排序后,进行舆情的相似度计算。根据业务应用场景,SimHash聚类算法可通过不同权重的赋值实现聚类逻辑的调整,从而优化聚类效果。
场景化聚类优势如何发挥?
SimHash聚类方案可通过调整权重进行不同的场景化聚类。以汽车行业营销类舆情为例,标题的相似度影响权重较高,而且需要针对不同区域、不同品牌车系、甚至不同优惠活动进行聚类。
我们使用部分汽车营销舆情作为样例(如下所示),可从不同的场景出发进行聚类。
① 从品牌事件上看,舆情都为途观L在各地的营销活动,应判定为相似舆情;
② 从区域业务的角度,相同地区的营销舆情才需做相似归类;
③ 从经销商角度而言,相同的降价活动才属于相同舆情。
针对以上需求,汽车星谋云可通过调节“重点文本权重”、“领域关键词权重”和“其他关键词权重”满足不同聚类场景。
总体而言,汽车星谋云采用SimHash算法大大提升了聚类效果,泛化能力强且效率性能高,其可拓展方向还很多,可根据主机厂需求动态进行权重配置,实现更多场景化聚类需求。