天天看點

《短文本資料了解(1)》一2.4 相關研究

本節書摘來自華章出版社《短文本資料了解(1)》一書中的第2章,第2.4節,作者王仲遠,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

雖然概念的屬性提取被廣泛研究,現有的工作沒有側重于典型度得分和概念數量的擴充性。本章方法創新性地通過對屬性典型度的嚴謹分析和多重資料來源,為大量的概念提取屬性。

許多現有工作[122,138,33]依賴于種子屬性來鑒别提取模式以獲得較多屬性。這些工作也嘗試了從網頁文本[33]、搜尋日志[122],以及包括網頁表格、清單和html标簽在内的結構化資料[138]中擷取屬性。然而,它們沒有将多個來源的屬性提取融合。

不依賴于種子屬性的提取方法[125]通常隻使用ib模式,從搜尋日志和網頁文本提取屬性。然而,依賴于單一資料源的方法在某些概念上(如wine和credit card)表現很差。

最新的一些方法[82,124]考慮了在屬性提取中将多個資料源的結果合并。pasca等[124]使用搜尋日志和查詢會話來提取屬性。參考文獻[82]則合并了多個結構化的資料源,如網頁表格、清單、dbpedia和wikipedia。然而,這些方法沒有涉及計算機率得分并将多資料源的得分聚合。

一些不包含打分的屬性提取方法使用了詞性标注[162],基于随機遊走的标簽擴散[7],通過網頁圖表改進實體模式[174]。相比之下,本章的方法用輕量級的模式提取代替了詞性标注,進而解決了拓展性和資料稀疏問題。本章方法的另一顯著特點在于從多資料源量化屬性的典型度。

基于網頁表格的方法[47]量化了屬性的聯合機率,可以給出相關屬性。而本章方法的差別在于強調了實體的歧義性,進而得到健全的屬性典型度得分。另一個差別在于本章方法采用learningtorank的手段來擷取得分,進而避免了對人工标注的依賴。

非常依賴網頁表格的方法[47,82]可提取帶有數值的屬性。然而大多屬性不會被以數值描述,如history of country。是以,這些方法不适用于提取大範圍的典型屬性。