论文阅读:MIX: Multi-Channel Information Crossing for Text Matching(KDD2018)

2023-04-29 12:07:45

今天同样读了一篇文本匹配相关的论文，提出了一个多通道信息融合的方法，文章提出这个模型的动机主要有以下几点：

1、在局部信息匹配过程中，为了考虑到单个词语匹配过程中存在的不准确性（比如文中提到的hard work\work hard以及all in\in all这两个词组，同样是颠倒了一下词序，前者语义相近，而后者语义完全不同，这说明匹配过程中不能仅以单个词语为单位），文中引入了unigram,bigram,trigram三种处理方式，这样对于同一个文本就得到了三个表达方式，分别计算相似度可以得到9个相似度矩阵，这就是局部匹配的9个通道。

2、引入全局信息。在有了局部匹配信息之后，为了引入全局的匹配信息，文章设计了3个attention机制，分别是用词的idf表示的词权重attention、Part-of-Speech(PoS)权重信息以及词语所在的位置权重。其中词的idf作为attention可以突出一个句子中的关键词在匹配过程中的作用，比如文中举得一个例子，勒布朗詹姆斯获得总决赛MVP和斯蒂芬库里获得总决赛MVP这两句话中，明显勒布朗詹姆斯和斯蒂芬库里这两个词对于匹配的影响更大，虽然其他词的相似度很高，但是由于这两个词不同使得整个句子的意思完全不同。第二个PoS权重信息的原理与上述例子类似，类型为人名、地名、机构名的词语在匹配过程中明显会提供更多的信息，将这些类型的词语匹配权重提高，同时降低一些虚词的权重（比如the、a）。最后文章考虑到处在同一个句子中不同位置的词语也应该具有不同的权重。将这些权重加到局部匹配结果上，总共可以得到27个匹配矩阵，即27个通道。

3、融合多通道，文章使用的是卷积神经网络来将多通道的结果融合，最终池化之后将得到的矩阵flatten放入多层感知机中训练即得到最终的匹配得分。模型总体结构如下图所示：

论文阅读:MIX: Multi-Channel Information Crossing for Text Matching(KDD2018)

论文阅读:MIX: Multi-Channel Information Crossing for Text Matching(KDD2018)

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络