感謝各位朋友的莅臨,随着以微網誌、twitter與facebook等為代表的新型社交網絡的迅猛發展,大資料已經成為了新一輪的科技革命,是資訊技術發展的新趨勢,對國家的經濟與社會已經逐漸産生重大影響。今天我的演講包括四個部分:我對大資料的定義與了解;大資料應對之道:知著-見微-曉意;大資料搜尋與挖掘的研究;大資料搜尋與挖掘的實踐案例分享。
第一部分:我對大資料的定義與了解
我們先從棱鏡計劃的手機監控來看大資料:
我們知道,利用我們手機周邊的三個基站基本可以定位出我們所在的位置。利用手機位置,美國nsa究竟可以做什麼?部落客年初在cctv接受了專訪,且聽我分解如下:
第一:可以推斷出個人的活動規律,出差規律,出國頻度等;
第二:可以推斷出個人職業、性别等(這個并不難,隻需要根據其位置對應的職業特征即可,如高校、寫字樓、農場、女性用品店等);
第三:可以推斷出個人社交圈(晚上與你手機頻繁重疊的,絕大部分都是你的親屬;白天重疊的,是同僚的機率極高;與危險人物密切交際的手機主人,其屬于潛在威脅的機率大大高于常人);
這是一個非常經典的大資料案例,其中手機位置資料大量疊加,我們從中獲得了遠遠超出了手機位置之外的多種資訊,幾乎可以做安全監控的所有事情。
剛才的案例還是有些高富帥,不是國家特種機構很難作為。那麼我再舉一個芸芸衆生可以輕易為之的案例,楊達才表哥案。
上面的11張圖檔中,每一張都來自于公開、輕易可以擷取的普通新聞網頁,單點來看,幾乎沒有任何特别的價值,但是當這11條普通的資訊按照一定的結構一定的邏輯疊加在一起的時候,将從中挖掘出巨大的情報價值,進而形成知識,形成反腐決策的智慧。量變引起質變,從無數普通水滴中,我們可以窺探到世界的氣候風雲變化,這就是大資料的魅力所在。
那麼究竟什麼是大資料,幾乎不同的人都會做對自己有利的解釋,這點跟目前所有流行的技術熱點類似。比如說:資料庫領域的人會說大資料就是資料倉庫,體系結構的會說大資料就是雲計算、hadoop就是資料中心,做晶片的會說,大資料就是更高性能的并行晶片。
我們且看已有的廣為流行的說法:一個來自于wiki,定義如下:wiki: big data is the term for acollection of data sets so large and complex that it becomes difficult toprocess using on-hand database management tools or traditional data processingapplications.
另外一個是來自于舍恩伯格.維克托《大資料時代》:大資料指不用随機分析法(抽樣調查)這樣的捷徑,而采用所有資料的方法。
部落客認為:這兩種定義都不嚴謹,僅僅是定義出了大資料的屬性,是大資料的必要而不充分的條件。結合剛才講的兩個案例,我們給出了我們自己的了解:大資料是指從客觀存在的全量超大規模、多源異構、實時變化的微觀資料中,利用自然語言處理、資訊檢索、機器學習等技術抽取知識,轉化為智慧的方法論。
我更多的強調的是大資料從微觀資料中,發現資訊,挖掘知識,并轉化為智慧。大資料更多的是一種方法論,而不僅僅是資料本身。根據科技革命的周期律,大資料是一場新的科技革命,也是一種思想方法的革命。
大資料思維主要包括:全量分析,讓資料說話; 承認并客觀地認識世界的混雜性; 相關性挖掘替代因果推斷。當然這裡還有不少争議,有各家之言。
第二部分大資料應對之道:知著-見微-曉意
我們中國人做事的時候,先道後術。我們先從一張自創的示意圖開始說起:
我們如何解讀這張圖,按照正常的邏輯一般人會說:這是一個“大”字,細看是由多個“小”字組成,不過其構成有一個有機的宏觀結構。細想一下,還需要有個必備的語義知識了解過程,我們都認識中文的字,有中文語義了解的基礎。
其實我們對大資料的了解也是這樣的過程,即:知著、見微、曉意。如下圖所示:
我想以微網誌分析為例來解釋一下我的觀點。
知著:強調的是從整體來認識客觀世界,需要快速計算大資料的宏觀特征與結構。是整體認識客觀世界快速而又有效的方法。微網誌分析過程中,我們需要的是快速計算出微網誌的熱點特征,需要了解微網誌關注與傳播的宏觀分布圖。
見微:強調的是在宏觀指導下,有針對性的研究有代表性的微觀資料,這裡并不需要對每一個微觀進行分析計算。微網誌計算時,我們不可能對每一條微網誌做精細化的分析,這在效率上是不可能對,最終也會因為過多微觀導緻的噪聲過多,影響最終的效果。
曉意:強調的是對語言語義的了解與認知,屬于自然語言了解的範疇。需要我們真正了解内容内在的含義。這點目前強調的不多,舉中英文的例子分别說明一下:
“杭州市長春藥店”存在兩種歧義了解:杭州/市長/春藥店/ 以及杭州市/長春/藥店 ,語義了解的錯誤會造成不同的“笑”果。幾乎90%以上的幽默都來自于語義的歧義了解。
英文的例子:
who was chinese president in 2012?
hu.
who?
a:who is chinese president?
b:xi.
a:she?
大資料分為結構化大資料與非結構化大資料,結構化大資料在上世紀末期已經有較好的研究,産生了關系型資料庫以及資料倉庫等相對成熟的技術與産品,也造就了ibm,oracle等跨國大企業。
而以文本、多媒體資訊為主要元素的非結構化大資料,體量是結構化大資料的十倍甚至更多,但非結構化大資料的分析處理挑戰更多。非結構化大資料的生産、搜尋、挖掘與分析已經成為了目前研究的熱點與難點。是以,部落客認為:大資料更大意義上是非結構化内容了解。
傳統結構化資料挖掘屬于已知的成熟領域,嚴格來論,并不屬于大資料的研究範疇。
第三部分:大資料搜尋與挖掘的研究
下面我來彙報一下我們北理工大資料搜尋與挖掘實驗室在大資料搜尋與挖掘方面的研究工作。
jzsearch精準搜尋引擎由我們實驗室開發,具有專業精準、高擴充性和高通用性的特點。可支援文本、數字、日期、字元串等各種資料類型的高效索引,支援豐富的查詢語言和查詢類型,支援少數民族語言的搜尋。目前已經應用于中國郵政搜尋引擎、河北省标準搜尋引擎、富基融通(納斯達克上市公司:efut)商品搜尋。
上面是大資料精準搜尋引擎的架構,和傳統搜尋引擎類似,但融入了很多新的理念,如非機構化資料與結構化資料的結合;實時線上索引與搜尋等。
•搜尋基本功能: 多字段關聯搜尋、指定字段排序、精确搜尋與模糊搜尋
搜尋特色功能包括以下幾點:
•内嵌正負面情感等極性分析、語義聯想搜尋、臨近搜尋、搜尋結果去重;
•内嵌了ictclas智能分詞系統;
•資料庫實時同步:資料庫增删改10秒内即可同步到搜尋;
•搜尋維護功能: 單點故障容錯;支援增量索引;自動備份與恢複機制;自動緩存機制;自動優化機制;搜尋屏蔽與恢複;
部分的應用效果如下:
除了搜尋之外,我們更多的工作是圍繞大資料的内容挖掘上,我們推出了nlpir大資料搜尋與挖掘平台。
nlpir網絡搜尋與挖掘共享開發平台,針對語言資訊内容處理的全技術鍊條的共享開發平台。12年專業研究與工程積累,提供應用軟體及各平台下的二次開發包,非商用永久免費。www.nlpir.org下載下傳。
核心功能包括:
搜尋類:jzsearch大資料精準檢索;
大資料語言了解類:新詞發現,分詞标注,統計分析與術語翻譯;關鍵詞提取;
大資料文檔挖掘類:文本聚類及熱點分析;分類過濾;自動摘要;文檔去重;情感分析
限于演講形式的限制,僅僅介紹幾個大資料挖掘的效果展示吧,更多的可以請大家通路www.nlpir.org下載下傳共享軟體自己拿自己的大量業務資料測試找找感覺吧。
利用大資料關鍵詞提取,我們可以發現十八大報告的關鍵語義為:中國特色社會主義、改革開放、科學發展觀等。需要說明的是整個過程沒有人工幹預,全部由資料自己說話。
大資料聚類的效果,我們從百萬以上的文檔中自動聚類計算,可以發現甲流的流行,如圖所示。
第四部分:大資料搜尋與挖掘的實踐案例分享
群裡的朋友大都是來自于産業界的,理論很豐滿,現實很骨幹。我們還是跟大家分享更多我們所涉及的非常豐滿的大資料實踐吧。
使用者的大資料刻畫,上圖是一家資料統計公司,采用我們的技術将使用者浏覽過的内容來對浏覽者進行标簽分類,如下圖所示。我們幾乎可以很準确的擷取使用者的特征、興趣與偏好。為精準營銷提供技術支援。
第二個案例:從使用者的社交網絡發言内容,發現使用者内心深處的價值觀,如上圖所示。
上圖是某家全球top3的手機廠商利用我們的大資料挖掘分析使用者的短信,進而發現其潛在的衣食住行需求。
上面是第三個案例。下面是第四個案例:特點主題的可視化刻畫,這裡給出的是根據新浪微網誌資料對“雅安地震”的話題刻畫。
上面是我們的第五個案例:微網誌部落客的情緒感覺。我們從中可以發現不同人的情緒波動,有很情緒化的人,有波瀾不驚的人。
第六個案例也是最後一個案例:web大資料搜尋與挖掘平台。
這裡面展示的是我們如何對一個内容進行完整的自動化挖掘,可以自動分析其摘要、情感色彩、并抽取其人物、地域、機構、主題、以及相關的背景等。
自動從大資料中挖掘出改革所涉及到的人物關聯關系,背後都是大量資料自動計算,沒有人工幹預的關聯計算。
對比分析人民日報與新華社,中間粉紅色是共同點,其他是不同點。資料似乎告訴我們前任副總理回良玉與新華社關系密切,而與人民日報關聯生疏,為什麼?我不懂,或許大資料懂。
互動内容:
張華平:坦率地講,單獨微網誌短文本的計算僅僅從其本身出發幾乎沒有好辦法,我一般都建議從兩個角度來增加信
原文釋出時間為:2014-05-16
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号