哈佛用NBA比賽資料生成報道，評測各模型效果 | 資料集+論文+代碼論文摘要測試資料集測試結果擴充資料

2018-01-07 23:50:00

本文來自AI新媒體量子位（QbitAI）

近日，哈佛大學的三名研究人員公開發表論文《Challenges of Data-to-Document Generation》，利用NBA的比賽結果資料嘗試生成描述性文本，并測試了現有的神經網絡模型生成文本效果如何。

這篇論文由Sam Wiseman、Stuart M. Shieber和Alexander M. Rush三人共同完成。Wiseman是工程和應用科學學院的博士生，Shieber和Rush同是是哈佛大學的NLP專家。

△ 從左到右依次為Wiseman、Shieber和Rush

神經模型已經在小型資料庫生成短描述文本問題上取得了重大進展。在這篇文章中，我們用稍微複雜的資料庫測試神經模型資料轉文本的能力，探究現有方法在這個任務中的有效性。

首先，我們引入了一個記載了大量資料的語料庫，裡面也包含與資料比對的描述性文檔。随後，我們建立了一套用來分析表現結果的評估方法，并用目前的神經模型生成方法擷取基線觀測資料。

結果表明，這些模型可以生成流暢的文本，但看起來不像人類寫的。此外，模闆化的基線在某些名額上的表現會超過神經模型。

研究人員用兩個資料集測試模型性能。

第一個資料集是來自體育網站ROTOWIRE的4853篇NBA比賽報道，包含NBA在2014年初到2017年3月之間的比賽。這個資料集被随機分為訓練、驗證和測試集，分别包含3398、727和728條報道。

第二個資料集來自體育網站SBNation,涵蓋了10903篇從2006年底到2017年3月之間的報道。其中訓練、驗證和測試集中分别有7633、1635和1635條報道。

下面這張表格展示了資料集中可能被記錄的資訊——

△ 可能被記錄的資訊

研究人員從ROTOWIRE資料庫中抽取了以下資料，裡面同時包含了比分資料和球員資訊，讓模型轉化成文本。

根據上面的資料，神經模型生成了以下文字内容。雖然不如新聞報道有文采，但看起來還算流利。

最後，附送研究詳細資訊——

Paper位址：

https://arxiv.org/pdf/1707.08052.pdf

Dataset位址：

https://github.com/harvardnlp/boxscore-data

Code位址：

https://github.com/harvardnlp/data2text

【完】

本文作者：安妮

原文釋出時間：2017-07-28

繼續閱讀