天天看點

大資料挖掘的本質和意義

        近期,國外黑客利用俄羅斯影子經紀人曝光的美國國家安全局(NSA)若幹利用smb協定(445端口) 漏洞而制作的勒索軟體,席卷全球并把國内許多大學的大四畢業生論文給加密了。該勒索軟體實際是一種蠕蟲病毒,它首先利用郵件附件等方式感染一台主機,然後它會自動掃描區域網路内開放了445端口的主機,一旦發現,就利用内置的ms17010(俗稱“藍色永恒”)的漏洞,把這些機子也感染。緊接着将所有的文檔資料用特殊算法加密,是之無法正常打開,隻有按要求提供贖金,黑客才會遠端解密該電腦。

        然而這篇文章并不想讨論這此勒索軟體的技術原理,而是想從一位朋友提到一個很有意思的現象說起。朋友發現就在幾天前(2017年5月10日)比特币的價格突然暴漲,而這次的勒索軟體需要通過比特币來支付贖金,是以朋友将比特币的突然暴漲和這次勒索軟體席卷全球聯系到了一起,推測勒索軟體團夥買入大量比特币,将比特币的市場價格迅速提高,進而通過勒索軟體迫使受害者用更高的市場價格買入比特币,使他們可以攫取更多經濟利益。   

        我對朋友的推測過和思維方式表示贊同,或許少數人會認為這是陰謀論,或者屬于事後諸葛。但我覺得這就是大資料挖掘該發揮作用的時候,如果未來多次出現勒索軟體爆發之前比特币價格迅速暴漲的事情,那關聯性就會很大。

       現在開始進入正題,大資料挖掘的本質和意義到底是什麼?大資料挖掘的本質就是對曆史資料進行碰撞,挖掘出看似違背常理,其實情理之中的一些潛在的規則和規律。他的意義就是利用潛在的規則和規律預測到人類預測不到的、未來一定會發生的事情。

       說起大資料挖掘,它就是進階智能的最充分的展現,人類也是運用的很多的一種智能技能,平時我們對一個小孩說,“我看準了這個孩子,他一定會有成就,會有出息”,或者“我看準了你,你一定沒出息”,這其實就是人類的一種預測,人類憑什麼去預測其他人的未來,憑借的就是對其他人以前行為的一種分析、總結、提煉,最後預測。人類也是最喜歡使用“假如”、“如果”這種詞語的物種,也表明人類是善于使用預測的。

       而網際網路時代,計算機能夠利用大量的資訊與資料,類似于人類的方式,對這些資訊和資料進行碰撞、提煉,總結出一些從所未有的規則,就像前面提到的,比特币價格暴漲竟然和勒索軟體風靡有關,還比如最經典的案例,超市裡紙尿褲竟然和啤酒銷量驚人一緻是因為孩子父親買了紙尿褲都會買再買瓶啤酒這種預料之外而又情理之中的關聯規則。 

       隻不過,我認為,大資料挖掘應該是挖掘系統性的社會性規則,而不是這對某個個人進行挖掘和預測。我堅信,社會性的潛在關聯規則會更多,更出乎我們普通人的意料,更讓我們人類想象不到。這才是未來大資料挖掘的發展之路。 

       一旦大資料挖掘走上這條發展之路,那麼預測社會未來的發展規則将不是夢想,統計學更新版就是大資料挖掘。 

繼續閱讀