ACE2005資料庫解決了3項基本的任務——實體識别、值、事件表達式、關系和事件
The dataset is available at the Linguistic Data Consortium. The data is taken from a variety of sources and is available for the tasks in the following languages: Arabic, Chinese and English.
這個資料集可以從語言資料聯盟獲得. 資料來自多種資料源并可以在如下語言的相關任務中使用
Four versions of each document are provided:
每一個檔案都提供了4種版本:
Source text files (.sgm): All source files, including the Chinese files, are encoded in UTF-8.
源文本檔案(.sgm):所有源檔案,包括中文檔案,都用UTF-8編碼。
APF files (.): The ACE Program Format.
APF檔案 (.): ACE程式格式
AG files (.): The LDC Annotation Graph Format.
AG檔案(. AG .xml): LDC注釋圖格式。
TABLE files (.tab): Files that store mapping tables between the IDs used in each file and their corresponding file.
表檔案(.tab):存儲每個檔案中使用的id與其對應的檔案id之間的映射表的檔案
The detailed statistics for the training portion of this corpus are as follows:
本預料中訓練集部分的詳細統計如下:
LDC2005E18釋出版本的2005 ACE訓練語料統計。
源 訓練資料時間 估算大小
英文資源
廣播新聞 3/03-6/03 60000詞
廣播對話 3/03-6/03 45000詞
新聞專線 3/03-6/03 60000詞
微網誌 3/03-6/03 45000詞
網絡新聞 11/04-2/05 45000詞
對話、電話、講話 11/04-12/04(根據主題等區分) 45000詞
阿拉伯語資源
廣播新聞 10/00-12/00 60000詞
新聞專線 10/00-12/00 60000詞
微網誌 11/04-2/05 30000詞
中文資源(字元=1個詞)
廣播新聞 10/00-12/00 120000詞
新聞專線 10/00-12/00 120000詞
微網誌 11/04-2/05 60000詞