天天看點

NLPIR大資料平台突破技術瓶頸實作智能挖掘

  在當今資訊爆炸的時代,伴随着社會事件和自然活動的大量産生(資料的海量增長),人類正面臨着“被資訊所淹沒,但卻饑渴于知識”的困境。随着計算機軟硬體技術的快速發展、企業資訊化水準的不斷提高和資料庫技術的日臻完善,人類積累的資料量正以指數方式增長  。面對海量的、雜亂無序的資料,人們迫切需要一種将傳統的資料分析方法與處理海量資料的複雜算法有機結合的技術。資料挖掘技術就是在這樣的背景下産生的。它可以從大量的資料中去僞存真,提取有用的資訊,并将其轉換成知識。

  一般說來,資料挖掘(DM)是一個利用各種分析方法和分析工具在大規模海量資料中建立模型和發現資料間關系的過程,這些模型和關系可以用來做出決策和預測。例如:超市分析交易資料,可以安排貨架上貨物擺布,以提高銷售;信用卡公司分析信用卡曆史資料,判斷哪些人有風險,哪些沒有;廣告公司通過分析人們購買模式,估計他們的收入和孩子數目,作為潛在的市場資訊;稅務局則可分析不同團體交所得稅的記錄,發現異常模型和趨勢。資料挖掘還有其他叫法如資料挖掘和知識發現(DMKD)、資料庫中知識發現(KDD)、資料融合(Data Fusion)等等,但在産業界和研究界更加流行資料挖掘和資料庫中知識發現的叫法。

  資料挖掘涉及多種學科領域,包括資料庫、人工智能、數理統計、神經網絡、可視化、并行計算等,它是知識發現的關鍵步驟。資料挖掘的步驟一般概括:

  1.資料清理(消除噪聲或不一緻資料).

  2.資料內建(多種資料源可以組合在一起)。

  3.資料選擇(從資料庫中檢索與分析任務相關的資料)。

  4.資料變換(資料變換或統一成适合挖掘的形式)。

  5.資料挖掘(基本步驟,使用智能方法提取資料模式)。

  6.模式評估(根據某種興趣度度量,識别表示知識的真正有趣的模式)。

  7.知識發現(使用可視化和知識表示技術,向使用者提供挖掘的知識)

  資料挖掘是一種獲得知識的技術。它的基礎是資料,手段是各種算法,目的是獲得資料中蘊含的知識。發現知識并非易事,人們總是受到各種各樣的局限,目前資料缺乏仍然是發現知識的瓶頸。随着資料采集和存儲技術的發展,對大量資料的分析和使用成為一個新的難題。

  北京理工大學大資料搜尋與挖掘實驗室張華平主任研發的NLPIR大資料語義智能分析技術是滿足大資料挖掘對文法、詞法和語義的綜合應用。NLPIR大資料語義智能分析平台是根據中文資料挖掘的綜合需求,融合了網絡精準采集、自然語言了解、文本挖掘和語義搜尋的研究成果,并針對網際網路内容處理的全技術鍊條的共享開發平台。

  NLPIR大資料語義智能分析平台主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能子產品,平台提供了用戶端工具,雲服務與二次開發接口等多種産品使用形式。各個中間件API可以無縫地融合到客戶的各類複雜應用系統之中,可相容Windows,Linux, Android,Maemo5, FreeBSD等不同作業系統平台,可以供Java,Python,C,C#等各類開發語言使用。

  大資料挖掘已成為大資料技術最重要的應用,它從大資料中提取、挖掘對業務發展有價值的、潛在的知識,找出趨勢,為決策層提供有力依據,對産品或服務發展方向起到積極作用,将有力推動企業内部的科學化、資訊化管理。在資訊管理領域,綜合應用資料分析技術和人工智能技術,擷取使用者知識、文獻知識等各類知識,将是實作知識檢索和知識管理發展的必經之路。