天天看點

高峰對話:資料挖掘與可視化

高峰對話:資料挖掘與可視化

6月11日,北京國家會議中心,以“融合 開放 智能”為主題的2014地理資訊開發者大會(wgdc2014)在此拉開帷幕。地理資訊開發者大會自2012年起開始舉辦,三年時間裡,伴随着中國地理資訊産業的快速發展,已經成為地理資訊領域最具影響力的技術創新盛會,與跨界融合、國際交流的重要平台。

在6月12日下午的位置大資料專場中,最後一個環節是高峰對話。主持人:3snews中國地理資訊産業網執行主編張凱,嘉賓介紹:北京大學“百人計劃”研究員袁曉如、北京超圖軟體股份有限公司地圖彙業務部總監王天寶,北京捷泰天域資訊技術有限公司geoq位置智能咨詢部總監陳建英。

以下為實錄:(根據現場速記整理,未經演講本人稽核)

張凱:今天和三位嘉賓讨論一下資料挖掘,都是帶有地理位置标簽的讨論。我想問一下三位嘉賓,地理位置資料如果對它挖掘的話,可以有哪些有價值的資訊?

袁曉如:我們做資料挖掘,現在我們各種各樣的資料都可能獲得,我們在微網誌,或者是微信裡釋出一些資訊的時候,同時不自覺或者自覺的把一些地理資訊也放在上面,單個來說可能沒有意義,但是積少成多,它的資訊可能描述你整個人的行為,甚至描述整個社會的行為。随着資料越來越多,随着分析能力越來越加強,我們一定會看到更多的東西。可能我們更需要警惕的是,它也會帶來安全的問題,很可能你原來不想讓人知道,或者某一些不應該知道的資訊,他能夠通過這些挖掘出來。是以這是一個充滿了各種希望,但是又充滿了各種陷井的地方。

王天寶:我覺得先從資料源來講,包括我們傳統的空間,資訊産業擷取的空間資料,比如遙感衛星,或者是無人機,包括各種資料,這是一個傳統擷取資料的方式。為什麼咱們圈裡關注的分析,就是網際網路行為,比如你去搜尋,你去發微網誌,用的微信,甚至可穿戴裝置,都是地理位置資訊,資料源越來越多樣,不管是傳統的衛星,無人機,特别現在網際網路的行為分析資料,原來大家說資訊裡面帶有位置,在有這麼多資料之後,我覺得可能從地理位置把資料組織起來,從地理空間的角度來挖掘資料。你從不同的資料源疊加在一起,可以得出一些更明顯的特征。它同時也可以做一個交叉驗證。

對于企業,比如選址分析,銀行要開在哪裡,連鎖店開在哪裡,包括經營分析,廣告往那裡投放,策劃在哪裡做更有效果,這也是我們做了很多年的事情。對于個人來講,交通大資料除了對政府部門做規劃有用,可能對個人出行也更有用,避開擁堵的路段,通過網際網路行為的資料分析,你可能會了解一些自己甚至都沒有洞察到的自己的一些特點行為。

陳建英:其實資料源對我們可視化來說還是挺重要的。位置資料是一個資訊,在我們看來,這種資訊可以說是我們從中挖掘的一個最關鍵的途徑。比如現在我們服務的一些客戶,我們可以向一些商家,還有賣場的vip資料,可以上傳到地圖上面,如果之前這些賣場和商家沒有地理位置的資料,他可以把資料上傳,以不同的方式回報出來,他可以得到很多的資訊。比如說可以做一個精準的營銷,我還可以做一些銷售的合理分析。在做廣告精準營銷的時候,其實位置資料是非常非常重要的。其實地理位置資訊是一種關系網絡的資料,如果要是我們将所有賣場和商家,這把些vip資料一條直線連接配接起來,其實我們可以看到賣場所有的客戶在什麼地方,如果知道這個客戶在什麼地方,我會對所有的店面進行合理化布局的分析。另外還可以做一些,像一些大型商超會有一些班車,比如班車的路線合不合理,能不能覆寫所有的客戶,這也是從地理位置資訊挖掘其中的一個方面吧。

張凱:今年百度推出的地圖,也是第一次讓很多的大衆,通過電視的手段,了解到分析的一些魅力。在你們看來,把資料進行可視化之後,到底對人們的生活和決策,能夠帶來什麼幫助,我們為什麼要對這些資料進行可視化的展示?

袁曉如:現在可視化産品比較多。可視分析這個詞出現在2001年的911之後,是美國的西北太平洋國家實驗室的幾個人,再加上做情報分析的,做可視化的這些聯合起來提出這樣一個概念。可視分析其實是一種推理分析的科學,但是它是通過互動的,可視界面,實際上它是把自動算法挖掘的方式,跟人通過可視互動的界面參與,相當于把人和機器結合起來,但是對于人來說,怎麼樣才能了解周圍的世界,我們必須通過互動的界面,是以是這樣的工作。

可視化相對來說發展得早一點,之前我們看到很多可視化,我們往往隻看在它的表達、展示上。因為今天大家都在看到有很多的資料,而這些資料如何進行分析,怎麼樣讓人進入環境,可視化和可視分析扮演非常重要的角色。我們看到有的可視化非常漂亮,但是它未必是真正可視化的精髓。更多的我們看一些需要人做一些互動操作的時候,這些案例你會發現更有意思一點。因為在這個過程中,人可以扮演更重要的角色,不僅僅發一條指令,像我們發一條資料庫的查詢,我們更多的是通過發現了解的方式,在裡面發現它的異常,或者發現原來意想不到的東西,這個會越來越多的被人所接受,并且這是計算機科學發展的過程。

最開始的時候,我們做計算機科學,其實沒有人機互動這個概念,但是發展到一定程度的時候,我們發現人怎麼樣跟計算機進行交流是非常重要的。是以說我們看到了成功,包括滑鼠的裝置,可以幫助我們很好的跟計算機結合。就像今天拿到滑鼠,大家會感到非常習慣。

在後面我們來看将來對于資料分析,這個可視分析會扮演更多的角色。它恰恰就是像人機互動一樣,我們通過可視分析的方式,在資料之間打開這樣一個管道。在交通上面,它非常直覺的,因為我們有利益的體系。但是我們怎麼樣來觀察一個道路,它在一年之内它的變化,我們既希望看到它的細節,又希望看到它的趨勢,這可能有一些很有意思的方式我們可以來進行,這時候就不是簡單的把原來采集到的原始資料把它直接劃分出來,我們要轉化。這方面我們感到現在是一個開始,将來會有更多更多的案例來去探讨。當然現在最大的問題,可能還是來做可視化分析的人比較少,但是除此之外還有太多的東西值得我們去進行探索。它基本上是一個還沒有被開發的一塊,特别是相比國外來說,中國更加落後一點。是以我也希望感興趣的人可以去看一看,這裡面有很多的機會。

王天寶:你用可視化的方式展示它的體驗,體驗的好,可以造成傳播效應。比如百度遷徙在媒體上傳播很廣泛。用可視化的方式,你會洞察到一些原來沒有注意到的資訊。第一可能有很好的宣傳效果,第二可以用可視化的方式去呈現。

陳建英:通過這張遷徙地圖,我可以感受到來北京的人,基本上都是來自哪,是哪些地方。是以這個是一個我們可視化比較明顯的東西。去年的時候我的同僚還釋出了一張地圖,在微網誌上轉發了将近一萬次,他做了一件事情,就是把美國所有的麥當勞的資料放到地圖上,當時引起了一些轟動,大家沒有想到能夠把美國地圖勾勒了出來。我們這個資料庫的同僚覺得挺有意思,然後就想有沒有這樣一個興趣點展現呢?後來我們把所有的資料過了一下,全國收費站的資料能夠把中國的全景勾勒出來。我覺得可視化讓我們能夠抛開表面,挖掘一些更深層次的概念和現象,幫助我們甚至一些客戶,把一些深層的資訊挖掘出來。

張凱:像這些資料會非常多,人口資料,經濟資料,地理資料,你們怎麼把資料整合起來,為客戶分析出合理的方案?在商業地理智能的發展如何?

陳建英:地理位置資料和商業資料還是非常多的,這是很大的一塊資料,可以說是一個大資料。我們在做這些資料處理的時候,我們會将資料先做分類,彙總,抽出資料的一些比較關聯的屬性。在這個過程中,還會做一些篩選、過濾,清洗,最後把所有的資料通過500米半徑的網格資料分割出去,展現給大家。

另外因為這些資料比較複雜,我們可以要求客戶把他的資料先上傳到地圖上面,在他想要關注的一些,因為我們有很多分類的資料,選擇他關心的資料,這些客戶關心的不是所有的資料,而是其中某組資料,把他關心的資料,和他自己的業務資料疊加起來。

第二個問題就是發展,現在國内地理商業智能平台可以從兩方面發展來說,第一方面就是平台提供商,現在的一些服務平台能夠提供的除了可視化,還有比較高深的分析。

張凱:你們geoq是怎麼把使用者的資料進行管理,又是怎麼讓資料發揮更大的價值?

王天寶:公開的一些資料,我們現在做的主要就是來看一下這些使用者,他用地圖來做什麼,他本身是哪個行業的,他從事什麼行業,從事什麼工作,另外就是新聞,包括财經網,搜狐網,他們可能都是用地圖的工具來展開他們的資料。是以從這個角度來講,我們更多是把一個工具和品牌開放出來,看看到底有哪些企業和客戶,個人類的使用者使用地圖,我們可以做針對行業推廣等其他的分析。

張凱:現在有很多可視化的愛好者在地圖上做了一些呈現,這些是不是比較初級的可視分析,我們可視分析的差距在哪裡?怎麼提高?

袁曉如:也不能講是不是初級的,因為你有什麼樣的資料,你有什麼目的,就會找到一個跟它相合适比對的可視化方法。無論隻是一個直接的可視化,還是一個比較複雜的設計。

當然對于我們國家來說,我覺得這都是在逐漸發展的,因為我們的傳統,我們是重硬輕軟,我們輕視這些軟的東西。但是我們會發現,在随着工作的進展到最後,非常重要的是你怎麼樣修複好系統,給使用者體驗好。今天我們看到有很多的人關心這些事情,這個過程怎麼樣進步,對于學校來說,我們會開網絡公開課,再過一兩個月,就會上線。同時我們也有各種各樣的學術活動,像今天的會議我們可以交流讨論,随着越來越多的人加入,隻要有需求,一定會有更多的人加入進來。我們需要正視和國外的差距,将來慢慢的我們無論在學術上,還是在應用上,都會看到一些東西。隻要大家認識到它的重要性,并不是一個太遙遠的事情。是以我們還是可以多關注這些。

張凱:謝謝袁老師。希望我們以後可以有更多的交流,共同讨論可視化的發展。非常感謝三位嘉賓,也非常感謝在座的各位觀衆,和我們幾位嘉賓一起對資料挖掘和可視化進行了現場交流,謝謝大家!

原文釋出時間為:2014-06-16

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀