随着資訊産業的迅猛快速的發展以及Internet/Web技術的快速普及,使海量資料不斷産生。随之而來的問題是如此多的資料讓人難以消化,無法從表面上看出他們所蘊涵的有用資訊,進而不能有效地進行分析處理。
資料是進行資訊化處理的基礎,從資料中擷取重要資訊并将其轉化為實際的生産和應用效果變得越來越廣泛,也推動着社會生産和市場經濟的快速發展。盡管現代的資料庫技術已經相當優秀能夠使我們使我們很容易的存儲大量的資料流,但還沒有一種成熟的技術幫助我們分析、了解并使資料以可了解的資訊表示出來。以往,我們通常由知識工程師把專家經驗知識經過分析、篩選、比較、綜合、再提取出知識和規則來擷取有用資訊。但由于專家所擁有知識的有局限性,是以對于擷取的資訊是否完全表達了資料本身還不是很确定。傳統的知識擷取技術已經無法滿足巨型資料倉庫,資料挖掘技術就應運而生。
資料的迅速增加與資料分析方法的滞後之間的沖突越來越突出,人們希望在對已有的大量資料分析的基礎上進行科學研究、商業決策或者企業管理,但是目前所擁有的資料分析工具很難對資料進行深層次的處理,使得人們隻能望“數”興歎。資料挖掘正是為了解決傳統分析方法的不足,并針對大規模資料的分析處理而出現的。
資料挖掘通過在大量資料的基礎上對各種學習算法的訓練,得到資料對象間的關系模式,這些模式反映了資料的内在特性,是對資料包含資訊的更高層次的抽象。目前,在需要處理大資料量的科研領域中,資料挖掘受到越來越多的關注,同時,在實際問題中,大量成功運用資料挖掘的執行個體說明了資料挖掘對科學研究具有很大的促進作用。資料挖掘可以幫助人們對大規模資料進行高效的分析處理,以節約時間,将更多的精力投入到更高層的研究中,進而提高科研工作的效率。
資料挖掘是一種決策支援過程,它主要基于人工智能、機器學習、模式識别、統計學、資料庫、可視化技術等,高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場政策,減少風險,做出正确的決策。
NLPIR大資料語義智能分析平台平台根據中文資料挖掘的綜合需求,融合了網絡精準采集、自然語言了解、文本挖掘和語義搜尋的研究成果,并針對網際網路内容處理的全技術鍊條的共享開發平台。15年專業研究與工程積累,提供應用軟體及各平台下的二次開發包。提供了用于技術二次開發的基礎工具集。開發平台由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類複雜應用系統之中。
NLPIR能夠全方位多角度滿足應用者對大資料文本的處理需求,包括大資料完整的技術鍊條:網絡采集、正文提取、中英文分詞、詞性标注、實體抽取、詞頻統計、關鍵詞提取、語義資訊抽取、文本分類、情感分析、語義深度擴充、繁簡編碼轉換、自動注音、文本聚類等。
中文資料挖掘技術應時代的要求應運而生,在很大程度上滿足了人們對自然語言處理的需要,解決了人和計算機交流中的一些障礙;但中文資料挖掘技術也存在很多困難,NLPIR大資料語義智能技術将對中文資料挖掘技術進行深入研究,必将提供出高品質、多功能的中文資料挖掘算法并促進自然語言了解系統的廣泛應用。