通常用于研究分析的資料中,非結構化的資料所占比例更高,這些非結構化的資料中也包含着重要的資訊量,要運用文本分析工具來完成資訊提取。文本分析是自然語言處理的一個小分支,是指從文本中抽取特征詞進行量化以表示文本資訊,文本一般指文字。過程是将無結構化的原始文本轉化為結構化,高度抽象和特征化,計算機可以識别和處理的資訊,進而利用機器學習,分類聚類等算法,再對文本進行分析處理。現已經在廣告推薦和輿情監測方面實作應用。

NLPIR大資料語義智能分析平台十三大功能:
精準采集:對境内外網際網路海量資訊實時精準采集,有主題采集(按照資訊需求的主題采集)與站點采集兩種模式(給定網址清單的站内定點采集功能)。
文檔轉化:對doc、excel、pdf與ppt等多種主流文檔格式,進行文本資訊轉化,效率達到大資料處理的要求。
新詞發現:從文本中挖掘出新詞、新概念,使用者可以用于專業詞典的編撰,還可以進一步編輯标注,導入分詞詞典中,提高分詞系統的準确度,并适應新的語言變化。
批量分詞:對原始語料進行分詞,自動識别人名地名機構名等未登入詞,新詞标注以及詞性标注。并可在分析過程中,導入使用者定義的詞典。
語言統計:針對切分标注結果,系統可以自動地進行一進制詞頻統計、二進制詞語轉移機率統計。針對常用的術語,會自動給出相應的英文解釋。
文本聚類:能夠從大規模資料中自動分析出熱點事件,并提供事件話題的關鍵特征描述。同時适用于長文本和短信、微網誌等短文本的熱點分析。
文本分類:根據規則或訓練的方法對大量文本進行分類,可用于新聞分類、履歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。
摘要實體:對單篇或多篇文章,自動提煉出内容摘要,抽取人名、地名、機構名、時間及主題關鍵詞;友善使用者快速浏覽文本内容。
智能過濾:對文本内容的語義智能過濾審查,内置國内最全詞庫,智能識别多種變種:形變、音變、繁簡等多種變形,語義精準排歧。
情感分析:針對事先指定的分析對象,系統自動分析海量文檔的情感傾向:情感極性及情感值測量,并在原文中給出正負面的得分和句子樣例。
文檔去重:快速準确地判斷檔案集合或資料庫中是否存在相同或相似内容的記錄,同時找出所有的重複記錄。
全文檢索:支援文本、數字、日期、字元串等各種資料類型,多字段的高效搜尋,支援AND/OR/NOT以及NEAR鄰近等查詢文法,支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。
編碼轉換:自動識别内容的編碼,并把編碼統一轉換為其他編碼。
NLPIR大資料語義智能分析平台是一個全鍊條的分析工具,完全本地化部署, 不上傳使用者資料,安全可靠。融合了網絡精準采集、自然語言了解、文本挖掘和 網絡搜尋的技術,提供用戶端工具、雲服務以及二次開發接口,包含了大資料背 景下有關語義分析的各個環節的工具,無論對沒有任何程式設計背景但要大量處理語 言、媒體資訊的文科生輔助處理分析,還是對需要二次開發才能完成特定領域的 資訊服務都可以滿足要求。平台先後曆時20年,融入了20年的科研成果。服務了全球40萬家機構使用者和100餘家高校使用者,免費給研究人員從事研究工作。