本文來自AI新媒體量子位(QbitAI)

自然語言處理領域的學術會議EMNLP今天評出了四篇最佳論文:最佳長論文兩篇、最佳短論文和最佳資源論文。
EMNLP的全稱是Conference on Empirical Methods in Natural Language Processing,自然語言進行中的經驗方法會議,由國際語言學會(ACL)的SIGDAT小組主辦,今年9月7-11日将在丹麥哥本哈根舉行。
下面是本屆EMNLP評出的幾篇最佳XX論文。量子位決定先說最佳短論文,因為它比較好玩:
Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog
PDF:https://arxiv.org/pdf/1706.08502.pdf
作者:Satwik Kottur, José M.F. Moura, Stefan Lee, Dhruv Batra
(來自卡耐基梅隆大學、弗吉尼亞理工學院、喬治亞理工和Facebook AI研究院)
你可能注意到了這篇論文的最後一位作者:Facebook研究員Dhruv Batra。
本論文的幾位作者雖然來自不同機構,但之前就在這個領域有合作,共同參與了一篇題為Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning的論文,這篇論文表明,兩個AI可以通過讨論和配置設定顔色和形狀值來發明自己的通信方式。
今天獲獎的這篇,再次闡述了AI自己發明語言是非常正常的事情,但是,AI自己發明的通信方式通常都“不是人話”,論文還探索了能如何限制AI的通信規則,哄騙它們“說人話”。
幾位作者在論文中以Task & Talk推理遊戲為測試平台,來讓兩個agent溝通。
Task & Talk遊戲是這樣的:有一個虛拟的世界,其中的物體有4種可能的形狀、4種可能的顔色、以及4種可能的樣式。負責回答問題的A-BOT拿到一個物體,然後Q-BOT的任務是通過向A-BOT提問來搞清楚物體的一對屬性。
實驗産生了一系列“負面”的結果之後,最終得到了一個“正面”結果。這表明,大多數agent發明的語言(對它們自己來說)都是有效的,能達到擷取任務獎勵等目的,但它們顯然不能被人所了解。他們在論文中寫道,“實際上,我們發現自然語言并不會‘自然地’出現。”
在這篇論文中,作者也讨論了如何通過在兩個agent的溝通方式上增加限制條件,來“哄騙”它們,讓他們發明的語言越來越接近人類,能被人所了解。
1
Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints
PDF:https://arxiv.org/pdf/1707.09457.pdf
作者:Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez、Kai-Wei Chang
(來自弗吉尼亞大學和華盛頓大學)
這篇論文提出了一種方法,要通過語料庫級的限制來減輕性别偏見在機器學習模型訓練過程中的擴大。
在多标簽物體識别、視覺語義角色标注等圖像識别任務,都涉及到自然語言。在研究這類問題時,研究者們通常會使用結構化的預測模型和從網上搜集圖檔資料,這些資料也帶來了一些社會偏見。
研究發現,這些任務的資料集就顯示出了巨大的性别偏見,而用這些資料集訓練出來的模型,會将已有的偏見放大。
比如說做飯這件事。雖然标題叫men also like shopping,但文章中最主要的例子是“cooking”。
在訓練集中,做飯這個行為涉及女性的機率比男性要高33%,而用這樣的資料集訓練出來的模型,會放大這種偏見,在測試時,男女之間的差異被擴大到了68%。
于是,論文作者提出了用語料庫級的限制來校準預測模型,并為集合推理(collective inference)設計了一種基于拉格朗日松弛的算法。使用這種方法之後,模型的識别性能幾乎沒有損失,但在多标簽分類任務和視覺語義角色标注任務中表現出的偏見分别降低了47.5%和40.5%。
量子位想提議另一種途徑,從根本上解決這個問題:男同學們多做飯,多拍照,發到網上
2
Depression and Self-Harm Risk Assessment in Online Forums
論文尚未公開
作者:Andrew Yates、Arman Cohan、Nazli Goharian
(來自馬克思普朗克資訊研究所和喬治城大學)
我們目前還沒有看到全文,從标題來看,這篇論文是要通過線上論壇中的内容,來評估使用者的抑郁和自殘風險。
Crowdsourcing a Benchmark of Concept Maps
PDF:https://arxiv.org/pdf/1704.04452
作者:Tobias Falke、Iryna Gurevych
(來自德國達姆施塔特工業大學)
概念地圖可以用來簡潔地展示重要資訊,将大型文本集合結構化。作者研究了多文檔摘要的一種變體,能以概念地圖的形式生成簡介,但發現找不到用來評估任務效果的資料集。
于是,他們就建立了一個。
作者用衆包方法建立了一個新的概念地圖語料庫,總結了網上教育主題的異構檔案集合,同時還釋出了一組基準系統,還提出了一套測試方案,用來進一步研究摘要的這種變體。
— 完 —
本文作者:李林
原文釋出時間: 2017-08-18