由于文檔往往采用高頻的詞語來強調需要表達的特征涵義,而句子中往往是單一的詞語,是以在句子檢索中需要進一步選擇更有區分能力的特征詞。為此引入了文本分類過濾中常用的特征選擇過程。
靈玖nlpir parser智能挖掘平台文本分類過濾系統能夠根據文獻内容進行類别的劃分,可以用于新聞分類、履歷分類、郵件分類、辦公文檔分類、區域分類等諸多應用。
文本過濾功能能夠從大量文本中快速識别和過濾出符合特殊要求的資訊,可應用于品牌報道監測、垃圾資訊屏蔽、敏感資訊審查等領域。
靈玖采用基于内容的文本自動分類過濾和基于規則的文本分類過濾兩種方式,并支援兩種方式的混合分類。能夠進行多級分類,分類速度每秒100篇以上,平均準确率90%以上,能夠進行中英文分類和中英文的混合分類。使用者可以靈活、友善的更換模闆,來實作對不同的主題的分類過濾。
主要接口:
// 功能: 檔案方式初始化
// 傳回值:成功/失敗
classifier_api bool classifier_init(const char conf="rulelist.xml", const char slicensecode=0);
// 功能:對輸入的文章結構進行分類
// 參數:d:文章結構指針
// itype=0: 輸出類名,各類之間用t隔開 内容格式舉例:“要聞 敏感 訴訟”
// itype=1: 輸出類名和置信度,各類之間用t隔開,類名和權重用“ ”隔開 内容格式舉例:“要聞 1.00 敏感訴訟 0.82”
// 傳回值:主題類别串 各類之間用t隔開,類名按照置信度從高到低排序
classifier_api const char classifier_exec(stdoc d, int itype=0);
// 功能:對于目前文檔,輸入類名,取得結果明細
// 參數:classname:結果類名
// 傳回值:結果明細 例如:
/* rule3:
subrule1: 内幕 1
subrule2: 股市 1 基金 3 股票 8
subrule3: 書摘 2 */
classifier_api const char classifier_detail(const char classname);
// 功能:退出,釋放資源
classifier_api void classifier_exit();