天天看點

哈佛用NBA比賽資料生成報道,評測各模型效果 | 資料集+論文+代碼論文摘要測試資料集測試結果擴充資料

本文來自AI新媒體量子位(QbitAI)

近日,哈佛大學的三名研究人員公開發表論文《Challenges of Data-to-Document Generation》,利用NBA的比賽結果資料嘗試生成描述性文本,并測試了現有的神經網絡模型生成文本效果如何。

哈佛用NBA比賽資料生成報道,評測各模型效果 | 資料集+論文+代碼論文摘要測試資料集測試結果擴充資料

這篇論文由Sam Wiseman、Stuart M. Shieber和Alexander M. Rush三人共同完成。Wiseman是工程和應用科學學院的博士生,Shieber和Rush同是是哈佛大學的NLP專家。

哈佛用NBA比賽資料生成報道,評測各模型效果 | 資料集+論文+代碼論文摘要測試資料集測試結果擴充資料

△ 從左到右依次為Wiseman、Shieber和Rush

神經模型已經在小型資料庫生成短描述文本問題上取得了重大進展。在這篇文章中,我們用稍微複雜的資料庫測試神經模型資料轉文本的能力,探究現有方法在這個任務中的有效性。

首先,我們引入了一個記載了大量資料的語料庫,裡面也包含與資料比對的描述性文檔。随後,我們建立了一套用來分析表現結果的評估方法,并用目前的神經模型生成方法擷取基線觀測資料。

結果表明,這些模型可以生成流暢的文本,但看起來不像人類寫的。此外,模闆化的基線在某些名額上的表現會超過神經模型。

研究人員用兩個資料集測試模型性能。

第一個資料集是來自體育網站ROTOWIRE的4853篇NBA比賽報道,包含NBA在2014年初到2017年3月之間的比賽。這個資料集被随機分為訓練、驗證和測試集,分别包含3398、727和728條報道。

第二個資料集來自體育網站SBNation,涵蓋了10903篇從2006年底到2017年3月之間的報道。其中訓練、驗證和測試集中分别有7633、1635和1635條報道。

下面這張表格展示了資料集中可能被記錄的資訊——

哈佛用NBA比賽資料生成報道,評測各模型效果 | 資料集+論文+代碼論文摘要測試資料集測試結果擴充資料

△ 可能被記錄的資訊

研究人員從ROTOWIRE資料庫中抽取了以下資料,裡面同時包含了比分資料和球員資訊,讓模型轉化成文本。

哈佛用NBA比賽資料生成報道,評測各模型效果 | 資料集+論文+代碼論文摘要測試資料集測試結果擴充資料

根據上面的資料,神經模型生成了以下文字内容。雖然不如新聞報道有文采,但看起來還算流利。

哈佛用NBA比賽資料生成報道,評測各模型效果 | 資料集+論文+代碼論文摘要測試資料集測試結果擴充資料

最後,附送研究詳細資訊——

Paper位址:

https://arxiv.org/pdf/1707.08052.pdf

Dataset位址:

https://github.com/harvardnlp/boxscore-data

Code位址:

https://github.com/harvardnlp/data2text

【完】

本文作者:安妮 

原文釋出時間:2017-07-28