天天看點

《影響中國大資料産業程序100人》張華平:如何應用網絡搜尋挖掘内容價值

前言:

大資料是一個事關我國經濟社會發展全局的戰略性産業,大資料技術為社會經濟活動提供決策依據,提高各個領域的運作效率,提升整個社會經濟的集約化程度,對于我國經濟發展轉型具有重要的推動作用!2016年,由網加時代網、中國首席資料官聯盟發起并主辦,北京大學資訊化與資訊管理研究中心、中國新一代IT産業推進聯盟協辦的“影響中國大資料産業程序100人”大型人物專訪活動全面啟動,被采訪對象均來自中國首席資料官聯盟(分别為自政府、産、學、研、企各個領域),他們将從不同角度,不同層面向大家闡述目前大資料産業熱點、難點、疑點問題,為中國大資料産業健康、持續發展探索經驗、保駕護航,敬請關注!

第四期專訪人物:中國首席資料官聯盟-專家組成員,ICTCLAS創始人張華平。

《影響中國大資料産業程式100人》張華平:如何應用網絡搜尋挖掘内容價值

張華平,中國首席資料聯盟專家組成員,北京理工大學副教授,博士,研究所學生導師,知名漢語分詞系統ICTCLAS創始人,大資料搜尋與挖掘實驗室主任,《大資料搜尋與挖掘》作者。

本期訪談由網加時代網特邀嘉賓、中國首席資料官聯盟發起人魯四海向王緒剛先生提問。

《網加時代網》特邀嘉賓魯四海:雲計算、智慧城市、移動網際網路、大資料與物聯網已經成為大資料時代的技術特征,實作了人、機器與實物的多元互聯互通。對語言的了解一直是大資料深入應用的一道門檻。網際網路上的内容很多,可以說是資訊泛濫,那麼要從網絡挖掘内容價值,是不是也有一些條件和要求需要滿足?

《網加時代網》特邀嘉賓張華平 : 是的。網絡搜尋與挖掘其實就是四步曲: 目标分解,資訊收集,分析去噪,情報提煉。據此可以看出,要進行網絡搜尋與挖掘,也必須具備四個要件。

資訊可達——網際網路真實記錄并可采集抽取到相關的資訊,無論深淺,無論真假,無論規模;

群體規模——海量規模確定各類UGC(使用者産生的内容)能滿足挖掘所需;

目标可解——挖掘目标本身具有可解性,能夠進一步分解具體落實;

工具可行——檢索工具與分析工具具備可行的計算代價與分析效率。

《網加時代網》特邀嘉賓魯四海:大資料搜尋與挖掘目前在國内有什麼實際應用?

《網加時代網》特邀嘉賓張華平 : 大資料搜尋與挖掘目前應用很廣泛,它在政府輿情、軍事資訊戰、企業競争情報、金融征信,個人社交等方面均具有廣泛的應用前景。

一個實用案例是中國證監會的網絡輿情系統,這是我做的。它會廣泛搜集網上各種各樣的資訊,采集BBS論壇新聞,包括采集微網誌資訊。采完以後進行各種分析提煉,可以發現有什麼人在釋出虛假資訊。

再比如用于地圖開發。我們的GPS資料,許多都是由地圖廠商那裡來的。地圖商們總是面臨一個問題,某地新蓋了一棟樓了,或者搬地方了,或者又多了一家飯店,等等。地圖廠商要獲得這些資訊,其實是相當耗錢費力的,他們要每天派300輛車在全國各地跑,一直跑一直拍,沿途發現什麼地方變化了,或者路斷了,就要分析再入庫。

用網絡搜尋和資料挖掘的手段來解決此事就友善許多了。現在是網絡時代,例如某地要蓋個樓、開家飯店什麼的,一般網上都會有消息發出來,那麼就可以用技術手段,從新聞或網友發言中分析挖掘出來。地圖商或交管局拿了這個資料,稍微核實一下就能夠用來更新自己的資料庫。

此外,國内網上的“水軍”現在是很厲害的,要炒作什麼話題,要把誰捧上去或貶下來,手法多種多樣,真是翻手為雲覆手為雨。我們就可以通過資料挖掘,辨識出“水軍”力量的運作線索。

《網加時代網》特邀嘉賓魯四海:按照你的說法,大資料搜尋能去除幹擾,精準的挖掘出你想要的資訊,如果用在搜尋領域是否使使用者更加快捷友善查詢。

《網加時代網》特邀嘉賓張華平 :

現在的網絡搜尋服務一般都是使用者輸入搜尋條件,然後跳出一大堆連結,讓你點進去看頁面。這種方式既浪費時間工作量又大。給出一些條件,利用大資料搜尋挖掘直接給出最終答案是可以實作的。這種技術,在專業領域應用可以,并且我們也已經有了這種案例,這種搜尋的專業定位叫“問答式搜尋引擎”,但是,在通用搜尋的領域不可能全部實作這種服務。因為人的知識,到目前為止,并沒有一個有效的方法實作全部的邏輯推理。

《網加時代網》特邀嘉賓魯四海:張老師在大資料吧搜尋挖掘技術領域深耕10多年了,現在大資料搜尋挖掘需要什麼樣的技術鍊條呢?

這看似簡單,其它是一個很複雜的過程,我在此領域不止10年了,從我讀大學到現在一直在堅守陣地。要滿足應用者對大資料文本的處理需求,需要完整的技術鍊條包括:網絡抓取、正文提取、中英文分詞、詞性标注、實體抽取、詞頻統計、關鍵詞提取、語義資訊抽取、文本分類、情感分析、語義深度擴充、繁簡編碼轉換、自動注音、文本聚類等。

但在大資料文本處理這部分既相對獨立,又需要無縫地融合到其它的各類複雜應用系統之中,是以在選擇這部分元件的時候看能否相容各大主流的平台,能否被Java,C/C++,C#, Python,Php, R等各類主流開發語言很好調用其所有功能。

《網加時代網》特邀嘉賓魯四海:我想張博士開發的NLPIR就能夠全方位多角度滿足應用者對大資料文本的處理需求。能不能請張博士對NLPIR采用的一些先進算法給我們分享一下。

《網加時代網》特邀嘉賓張華平 : NLPIR是相容目前所有主要平台,也可以被各種開發語言調用的。

漢語詞法分析中間件能對漢語語言進行拆分處理,是中文資訊處理必備的核心部件。NLPIR綜合了各家所長,采用條件随機場(Conditional

Random

Field,簡稱CRF)模型,分詞準确率接近99%,另外特色功能包括:切分粒度可調整,融合20餘部行業專有詞典,支援使用者自定義詞典等。

NLPIR實體抽取系統采用基于角色标注算法自動識别命名實體,開發者可在此基礎上搭建多樣化的大資料挖掘應用。

NLPIR采用深度神經網絡對分類體系進行了綜合訓練。示範平台目前訓練的類别隻是新聞的政治、經濟、軍事等。我們内置的算法支援類别自定義訓練,該算法對正常文本的分類準确率較高,綜合開放測試的F值接近86%。NLPIR深度文本分類,可以用于新聞分類、履歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。此外還可以實作文本過濾,能夠從大量文本中快速識别和過濾出符合特殊要求的資訊,可應用于品牌報道監測、垃圾資訊屏蔽、敏感資訊審查等領域。

NLPIR情感分析提供兩種模式:全文的情感判别(左圖)與指定對象的情感判别(右圖)。情感分析主要采用了兩種技術:

《影響中國大資料産業程式100人》張華平:如何應用網絡搜尋挖掘内容價值

1.情感詞的自動識别與權重自動計算,利用共現關系,采用Bootstrapping的政策,反複疊代,生成新的情感詞及權重。

2.情感判别的深度神經網絡:基于深度神經網絡對情感詞進行擴充計算,綜合為最終的結果。(算法細節請參照:《大資料搜尋與挖掘》)。

中國首席資料官聯盟/中國CDO精英俱樂部是國内首個以CDO為核心的技術型非盈利性聯盟組織,遵循自願、平等、合作的原則。由劉冬冬、魯四海和葛涵濤三

人發起成立,為實作中國大資料産業全球領 先而努力。将資料變為未來企業發展的核心驅動力并最終推動中國大資料産業整體發展水準。

原文釋出時間為:2016年4月8日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。

繼續閱讀