有監督相似性學習：基于相似問題資料的對稱關系學習

用于對稱分類的孿生網絡

quora和stackexchange資料集根據兩個問題是否重複進行标記，這種關系既可交換也可傳遞的。對于is_dup(a, b) 和 is_dup(b, a)兩個同樣的問題而言，不希望得到兩種計算不同的結果——因為該模型應該把這兩種問題看作一樣。同樣，如果知道is_dup(a, b)和is_dup(b, c)，應該得到結論is_dup(a, c)。

可以通過使用“孿生”架構來學習遵守這些限制的函數，之前讨論的非對稱模型的架構差異很小。如前所述，首先對句子進行編碼，使用距離函數來産生預測，而不是任意的非線性。下面簡述孿生網絡：

孿生網絡架構

cauchy similarity

對于text2vec函數，我一直使用之前釋出的部落格——maxout window encoding中引入的卷積層。mwe層與bilstm具有相同的目标：提取更好的字特征。它會根據周圍的上下文重寫每個單詞的向量。這是很有用的，因為它繞過了字矢量的主要限制。我們知道像“duck”這樣的詞可以有多個含義（鴨子、躲避、人名等），我們想要一個反映上下文意義的向量。

将滑鼠懸停在向量上以檢視哪些單詞用于計算：懸停在單詞上，看看它們影響的向量（去原文嘗試）

模型定義

在mwe層之後，獲得兩個矩陣，每個文本對應其中的一個。矩陣可以具有不同的長度，并且需要輸出單個相似性得分。下一步是模型中最弱的部分：為了比較這些矩陣，通過采用它們的元素均值及其元素最大值來将矩陣減少為兩個向量。在這兩個操作中，最大值趨向于具有更多資訊——但是使用兩者往往比僅使用最大值更好。

結果和顯著例子

下表顯示了quora和stackexchange資料的開發集精度。既然沒有一個指定的訓練/驗證/測試拆分語料庫，是以我一直将資料集随機分成對應的10％、30％、60%三部分。下表仍然是初步結果，并且模型的超參數還沒有得到很好的調整。

盡管有這些附加說明，但對稱網絡的準确性得到提高是非常一緻的。在quora資料集中，準确度提高了2.3％——比我之前看到任何改變的進步都大。最大視窗編碼層也似乎有幫助，雖然結果的不一緻使得這點難以确定。

在嘗試的大多數示例中，預設的相似度模型（其采用簡單的向量平均）偏高。quora和stackexchange模型的輸出差異大部分可以通過教育訓練文本的不同領域來解釋。另外還可以看到協調政策的效果，因為它控制重複項的定義。例如在quora資料集中，細節不同的問題（例如地點）是從來不會被視為重複問題，是以該模型學習去注意單個命名實體。

這些模型中沒有一個揭示他們正在分類的文本對的“真實”相似性，因為均值是多元的，以至于文本段在某些方面總是相似的，而在其他方面是不同的。是以，需要的标簽将始終取決于那些對應用程式很重要關系。

如果嘗試從相似性分數中擷取一個意圖示簽，你可能想将兩個句子視為相同的動詞，但不同的類似對象——它們都将觸發同一個函數。或者，如果嘗試在産品評論中集中意見，則該對象可能是決定性的次元。使用示例資料，算法無法猜出你想要什麼，除非你告訴它，這就是為什麼監督的方法是如此有用。

作者資訊

matthew honnibal：ai技術的領先專家，以其研究、軟體和著作而聞名；他于2009年完成博士學位，并再度進行了長達5年的研究發表了最先進的自然語言了解系統；在2014年離開學術界，開發了spacy——用于工業級nlp的開源庫。

<a href="https://yq.aliyun.com/articles/email%ef%bc%[email protected]" target="_blank">email：[email protected]</a>

<a href="https://yq.aliyun.com/articles/twitter%ef%bc%9ahttps%3a//twitter.com/honnibal" target="_blank">twitter：https://twitter.com/honnibal</a>

<a href="https://yq.aliyun.com/articles/github%ef%bc%9ahttps%3a//github.com/honnibal" target="_blank">github：https://github.com/honnibal</a>

<a href="https://yq.aliyun.com/articles/scholar%ef%bc%9ahttps%3a//www.semanticscholar.org/search?q=matthew%20honnibal" target="_blank">scholar：https://www.semanticscholar.org/search?q=matthew%20honnibal</a>

文章原标題《supervised similarity: learning symmetric relations from duplicate question data》，作者：matthew honnibal，譯者：海棠，審閱：

附件為原文的pdf

翻譯者：海棠

wechat：269970760

<a href="https://weibo.com/u/3910993635/" target="_blank">weibo：uncle_lld </a>

email:[email protected]

微信公衆号：ai科技時訊

有監督相似性學習：基于相似問題資料的對稱關系學習

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普