天天看點

有監督相似性學習:基于相似問題資料的對稱關系學習

有監督相似性學習:基于相似問題資料的對稱關系學習

<a href="https://demos.explosion.ai/similarity">try the demo</a>

用于對稱分類的孿生網絡

         quora和stackexchange資料集根據兩個問題是否重複進行标記,這種關系既可交換也可傳遞的。對于is_dup(a, b) 和 is_dup(b, a)兩個同樣的問題而言,不希望得到兩種計算不同的結果——因為該模型應該把這兩種問題看作一樣。同樣,如果知道is_dup(a, b)和is_dup(b, c),應該得到結論is_dup(a, c)。

         可以通過使用“孿生”架構來學習遵守這些限制的函數,之前讨論的非對稱模型的架構差異很小。如前所述,首先對句子進行編碼,使用距離函數來産生預測,而不是任意的非線性。下面簡述孿生網絡:

孿生網絡架構

cauchy similarity

對于text2vec函數,我一直使用之前釋出的部落格——maxout window encoding中引入的卷積層。mwe層與bilstm具有相同的目标:提取更好的字特征。它會根據周圍的上下文重寫每個單詞的向量。這是很有用的,因為它繞過了字矢量的主要限制。我們知道像“duck”這樣的詞可以有多個含義(鴨子、躲避、人名等),我們想要一個反映上下文意義的向量。

有監督相似性學習:基于相似問題資料的對稱關系學習

将滑鼠懸停在向量上以檢視哪些單詞用于計算:懸停在單詞上,看看它們影響的向量(去原文嘗試)

模型定義

在mwe層之後,獲得兩個矩陣,每個文本對應其中的一個。矩陣可以具有不同的長度,并且需要輸出單個相似性得分。下一步是模型中最弱的部分:為了比較這些矩陣,通過采用它們的元素均值及其元素最大值來将矩陣減少為兩個向量。在這兩個操作中,最大值趨向于具有更多資訊——但是使用兩者往往比僅使用最大值更好。

結果和顯著例子

       下表顯示了quora和stackexchange資料的開發集精度。既然沒有一個指定的訓練/驗證/測試拆分語料庫,是以我一直将資料集随機分成對應的10%、30%、60%三部分。下表仍然是初步結果,并且模型的超參數還沒有得到很好的調整。

有監督相似性學習:基于相似問題資料的對稱關系學習

盡管有這些附加說明,但對稱網絡的準确性得到提高是非常一緻的。在quora資料集中,準确度提高了2.3%——比我之前看到任何改變的進步都大。最大視窗編碼層也似乎有幫助,雖然結果的不一緻使得這點難以确定。

有監督相似性學習:基于相似問題資料的對稱關系學習

在嘗試的大多數示例中,預設的相似度模型(其采用簡單的向量平均)偏高。quora和stackexchange模型的輸出差異大部分可以通過教育訓練文本的不同領域來解釋。另外還可以看到協調政策的效果,因為它控制重複項的定義。例如在quora資料集中,細節不同的問題(例如地點)是從來不會被視為重複問題,是以該模型學習去注意單個命名實體。

這些模型中沒有一個揭示他們正在分類的文本對的“真實”相似性,因為均值是多元的,以至于文本段在某些方面總是相似的,而在其他方面是不同的。是以,需要的标簽将始終取決于那些對應用程式很重要關系。

         如果嘗試從相似性分數中擷取一個意圖示簽,你可能想将兩個句子視為相同的動詞,但不同的類似對象——它們都将觸發同一個函數。或者,如果嘗試在産品評論中集中意見,則該對象可能是決定性的次元。使用示例資料,算法無法猜出你想要什麼,除非你告訴它,這就是為什麼監督的方法是如此有用。

作者資訊

matthew honnibal:ai技術的領先專家,以其研究、軟體和著作而聞名;他于2009年完成博士學位,并再度進行了長達5年的研究發表了最先進的自然語言了解系統;在2014年離開學術界,開發了spacy——用于工業級nlp的開源庫。

<a href="https://yq.aliyun.com/articles/email%ef%bc%[email protected]" target="_blank">email:[email protected]</a>

<a href="https://yq.aliyun.com/articles/twitter%ef%bc%9ahttps%3a//twitter.com/honnibal" target="_blank">twitter:https://twitter.com/honnibal</a>

<a href="https://yq.aliyun.com/articles/github%ef%bc%9ahttps%3a//github.com/honnibal" target="_blank">github:https://github.com/honnibal</a>

<a href="https://yq.aliyun.com/articles/scholar%ef%bc%9ahttps%3a//www.semanticscholar.org/search?q=matthew%20honnibal" target="_blank">scholar:https://www.semanticscholar.org/search?q=matthew%20honnibal</a>

文章原标題《supervised similarity: learning symmetric relations from duplicate question data》,作者:matthew honnibal,譯者:海棠,審閱:

附件為原文的pdf

翻譯者: 海棠 

wechat:269970760 

<a href="https://weibo.com/u/3910993635/" target="_blank">weibo:uncle_lld </a>

email:[email protected]

微信公衆号:ai科技時訊

有監督相似性學習:基于相似問題資料的對稱關系學習

繼續閱讀