本文來自AI新媒體量子位(QbitAI)
近日,哈佛大學的三名研究人員公開發表論文《Challenges of Data-to-Document Generation》,利用NBA的比賽結果資料嘗試生成描述性文本,并測試了現有的神經網絡模型生成文本效果如何。

這篇論文由Sam Wiseman、Stuart M. Shieber和Alexander M. Rush三人共同完成。Wiseman是工程和應用科學學院的博士生,Shieber和Rush同是是哈佛大學的NLP專家。
△ 從左到右依次為Wiseman、Shieber和Rush
神經模型已經在小型資料庫生成短描述文本問題上取得了重大進展。在這篇文章中,我們用稍微複雜的資料庫測試神經模型資料轉文本的能力,探究現有方法在這個任務中的有效性。
首先,我們引入了一個記載了大量資料的語料庫,裡面也包含與資料比對的描述性文檔。随後,我們建立了一套用來分析表現結果的評估方法,并用目前的神經模型生成方法擷取基線觀測資料。
結果表明,這些模型可以生成流暢的文本,但看起來不像人類寫的。此外,模闆化的基線在某些名額上的表現會超過神經模型。
研究人員用兩個資料集測試模型性能。
第一個資料集是來自體育網站ROTOWIRE的4853篇NBA比賽報道,包含NBA在2014年初到2017年3月之間的比賽。這個資料集被随機分為訓練、驗證和測試集,分别包含3398、727和728條報道。
第二個資料集來自體育網站SBNation,涵蓋了10903篇從2006年底到2017年3月之間的報道。其中訓練、驗證和測試集中分别有7633、1635和1635條報道。
下面這張表格展示了資料集中可能被記錄的資訊——
△ 可能被記錄的資訊
研究人員從ROTOWIRE資料庫中抽取了以下資料,裡面同時包含了比分資料和球員資訊,讓模型轉化成文本。
根據上面的資料,神經模型生成了以下文字内容。雖然不如新聞報道有文采,但看起來還算流利。
最後,附送研究詳細資訊——
Paper位址:
https://arxiv.org/pdf/1707.08052.pdf
Dataset位址:
https://github.com/harvardnlp/boxscore-data
Code位址:
https://github.com/harvardnlp/data2text
【完】
本文作者:安妮
原文釋出時間:2017-07-28