天天看點

比大資料還要可怕的是什麼?沒有資料!

導讀當有太多資料需要處理的時候,你可能會為此抓狂,而舊金山警局卻對此求之不得。原來,沒有更多的可利用資料才是巨大的挑戰。

怎麼才能從多結構和非結構化的資料源中提取并整合資料?對一些機構來說,這是一個艱巨的挑戰;對另一些人卻剛好相反,他們正經曆着巧婦難為無米之炊的困境。從他們的角度來看,沒有更多的可利用資料才是巨大的挑戰。這不禁讓人聯想起在東部的波士頓白雪皚皚,寸步難行的時候,西部的舊金山卻是旱情綿綿。

這個再恰當不過的比喻,是受到了一次談話的啟發。舊金山郡警督ross mirkarimi和他們it組成員dave hardy跟我聊起他們現在怎麼處理相關資料。在舊金山警局,現在處于一個吃力不讨好的境地,他們試圖将大量的結構化資料彙集在一起。這可不是一件輕而易舉的事情:hardy使用microstrategy的商務智能工具嘗試着從多種結構化資料庫中收集資料。這些工具包括foxpro, access, filemaker pro等。

既然舊金山警局有大量的結構化資料需要處理,那麼所謂的資料旱情又是怎麼來得?他們沒有非結構化的資料。他們希望自己能像其它公司一樣,擁有需要整合的非結構資料。 “我喜歡科技”,hardy說。他曾是一名巡邏警員,目前已成為資訊技術支援與服務部的指揮官。他還說:“這是一件好事,創新和自動化讓一線同僚的工作更容易。我喜歡利用資料做一些重要的舉措。”

但mirkarimi,這位前舊金山城市監察員,卻哀歎可供執法使用的資料就跟加州的雨一樣少得可憐。“執法需要更多警力來應對犯罪威脅” ,他說,在現實中,我們希望對犯人的問責是由資料決定的。與其讓一個活生生的人像接力棒一樣在警察、公設辯護人辦公室(美政府對無錢聘請律師的被告指聘的律師)、緩刑與假釋部門間傳遞,我們不如放棄成見,共享資料。這樣,使我們在判斷個人是否守法時,能夠更清晰的了解他的傾向性,個人曆史并預測他的個人行為。

州政府計劃削減已超載的州監獄人數,并将犯人送返至各個郡下設的監獄。是以,舊金山警局被要求做一項他們從來沒做過的分析項目(舊金山是一個罕見的行政實體,在編制上,它即是一個市又是一個郡)。即使沒有結構化資料,mirkarimi 依然聲稱,累犯人數已經從60%以上下降到差不多40%,然而州政府的标準是接近78%。

舊金山警局還想做更多,但是它無能為力。必須得承認,手頭隻有結構化資料确實是其中的問題之一。hardy說,能整合的隻有“小資料”,這些小資料是人們在通過系統時生成的,像是位址、量刑、指紋;他們在監獄裡參與了哪種治療或是教育項目;他們是否再次因罪獲捕,如果是,那又是為什麼?所有的這一切都在一個sql結構化資料庫裡。可是為了能夠達到目的,hardy和mirkarimi需要更多。

舊金山警局罪案調查處署已經開始追蹤社交網絡,及時識别“熱點事件”,但是在追蹤和分析整合資料之間,還有很大的距離(microstrategy有分析社交網絡的工具,但是舊金山警局沒有用)。 hardy設想,建立一個網絡來聯系所有的政府部門,從警長辦公室到健康衛生部門甚至延伸到學校社群。“我的設想是,在不侵犯隐私的情況下,我們能夠進入這些部門的資料庫收集所需資料,并與我們現有的資料相比較。想想看,我們是否可以識别某個學校或是某個居住區的某個群體是否有更大的可能性在他們22歲之前被逮捕? ”hardy還想進入聯邦資料庫去看看囚犯是否是榮民,是否有資格享受美國政府的一些特設項目。

為了能采取積極措施,mirkarimi特别注重分析監禁過程對囚犯子女的影響。“最終,當你可以将這些完全不同的資料源結合起來,它能幫助我們了解那些坐在拘押室裡的人。” 他的目标很明确:真正改變舊金山,為過度擁擠的監獄減負,通過了解對家庭的影響,“為犯人的家庭與子女帶來更積極的幫助”。他同意收集和分析如此之多的資料,有點像奧威爾的小說《1984》中所描寫的監視社會。盡管如此,就目前的情況來看,這種方法是有實際意義的。我們将不得不摸着石頭過河。

“刑事司法機構也很難人性化與系統内部監禁人員的關系”,mirkarimi說。“資料越周詳,我們越能人性化的調整監禁對當事人以及他們的家人的影響。我甯願站着數人頭,也不願坐着做統計。這就是我們如何能使這套系統更有效。”

固然,這是個大挑戰。讓這個挑戰變得更為艱巨的,是目前舊金山警局還無法獲得他們所需要得到有效資料。請記住!當有太多資料需要處理的時候,你可能會為此抓狂,而舊金山警局卻對此求之不得。

原文釋出時間為:2015-06-01

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号