天天看點

ace2005資料集_ace2005資料集,ace2005語料庫介紹

ACE2005資料庫解決了3項基本的任務——實體識别、值、事件表達式、關系和事件

The dataset is available at the Linguistic Data Consortium. The data is taken from a variety of sources and is available for the tasks in the following languages: Arabic, Chinese and English.

這個資料集可以從語言資料聯盟獲得. 資料來自多種資料源并可以在如下語言的相關任務中使用

Four versions of each document are provided:

每一個檔案都提供了4種版本:

Source text files (.sgm): All source files, including the Chinese files, are encoded in UTF-8.

源文本檔案(.sgm):所有源檔案,包括中文檔案,都用UTF-8編碼。

APF files (.): The ACE Program Format.

APF檔案 (.): ACE程式格式

AG files (.): The LDC Annotation Graph Format.

AG檔案(. AG .xml): LDC注釋圖格式。

TABLE files (.tab): Files that store mapping tables between the IDs used in each file and their corresponding file.

表檔案(.tab):存儲每個檔案中使用的id與其對應的檔案id之間的映射表的檔案

The detailed statistics for the training portion of this corpus are as follows:

本預料中訓練集部分的詳細統計如下:

LDC2005E18釋出版本的2005 ACE訓練語料統計。

源 訓練資料時間 估算大小

英文資源

廣播新聞 3/03-6/03 60000詞

廣播對話 3/03-6/03 45000詞

新聞專線 3/03-6/03 60000詞

微網誌 3/03-6/03 45000詞

網絡新聞 11/04-2/05 45000詞

對話、電話、講話 11/04-12/04(根據主題等區分) 45000詞

阿拉伯語資源

廣播新聞 10/00-12/00 60000詞

新聞專線 10/00-12/00 60000詞

微網誌 11/04-2/05 30000詞

中文資源(字元=1個詞)

廣播新聞 10/00-12/00 120000詞

新聞專線 10/00-12/00 120000詞

微網誌 11/04-2/05 60000詞