天天看點

NLPIR-KGB知識圖譜大資料語義挖掘新引擎

  近些年,由于以社交網站、基于位置的服務LBS 等為代表的新型資訊産生方式的湧現,以及雲計算、移動和物聯網技術的迅猛發展,無處不在的移動、無線傳感器等裝置無時不刻都在産生資料,數以億計使用者的網際網路服務時時刻刻都在産生着資料互動,大資料時代已經到來。在當下,大資料炙手可熱,不管是企業還是個人都在談論或者從事大資料相關的話題與業務,我們創造大資料同時也被大資料時代包圍。在大量的資料中找到有意義的模式和規則。在大量資料面前,資料的獲得不再是一個障礙,而是一個優勢。對于資料量早已逾越TB、增長率驚人、實時性高的大資料,如何分析、管理、利用大資料等工作仍将面臨若幹的挑戰。

  大資料(Big data)通常用來形容大量非結構化和半結構化資料,這些資料在下載下傳到關系型資料庫用于分析時會花費過多時間和金錢。大資料分析常和雲計算聯系到一起,因為實時的大型資料集分析需要像MapReduce一樣的架構來向數十、數百或甚至數千的電腦組態設定工作。簡言之,從各種各樣類型的資料中,快速獲得有價值資訊的能力,就是大資料技術。

  大資料技術,從本質上講是從類型各異、内容龐大的資料中快速獲得有價值資訊的技術。目前,随着大資料領域被廣泛關注,大量新的技術已經開始湧現出來,而這些技術将成為大資料采集、存儲、分析、表現的重要工具。

  大資料技術的戰略意義不在于掌握龐大的資料資訊,而在于對這些含有意義的資料進行專業化處理。換言之,如果把大資料比作一種産業,那麼這種産業實作盈利的關鍵,在于提高對資料的“加工能力”,通過“加工”實作資料的“增值”。

  大資料處理的關鍵技術主要包括:資料采集、資料預處理(資料清理、資料內建、資料變換等)、大資料存儲、資料分析和挖掘、資料的呈現與應用(資料可視化、資料安全與隐私等)。

  北京理工大學大資料搜尋與挖掘實驗室張華平主任研發的NLPIR大資料語義智能分析技術是對文法、詞法和語義的綜合應用。NLPIR大資料語義智能分析平台是根據中文資料挖掘的綜合需求,融合了網絡精準采集、自然語言了解、文本挖掘和語義搜尋的研究成果,并針對網際網路内容處理的全技術鍊條的共享開發平台。

  其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發的知識圖譜建構與推理引擎,基于漢語詞法分析的基礎上,采用KGB文法實作了實時高效的知識生成,可以從非結構化文本中抽取各類知識,并實作了從表格中抽取指定的内容等。KGB同時可以定義不同的動作,如抽取動作,并能自定義各類後處理程式。利用KGB知識圖譜引擎可以抽取到産品的詳細報價資訊,友善進行下一步的資料挖掘與圖譜建構。

  随着雲計算、移動網際網路以及物聯網等技術的發展和完善,相信大資料在各個領域的應用會越來越廣泛和深入,相關的研究也會越來越全面和深入,在資訊管理領域,綜合應用資料挖掘技術和人工智能技術,擷取使用者知識、文獻知識等各類知識,将是實作知識檢索和知識管理發展的必經之路。

繼續閱讀