算法選取在算法選取方面,個人感覺也是要結合業務來實施。首先,要弄清楚業務那邊主要關注的是什麼名額。而與這一個名額相關的參數有那些,這些參數都是如何來影響這些名額的。至于算法的準确度,這一點,可以通過對資料顆粒度的細化來不斷提高。不同的代碼對系統的資源排程是不同的,而若你對算法的了解程度最大限度決定了你最終産品的反應快慢!

但據《财經》記者調查,這些有政府和國資背景的大資料交易所大部分生意寥寥,純市場化的資料服務公司盈利狀況欠佳,有些甚至一度遊走在灰黑色地帶,變相參與個人隐私資料的販賣,直到2017年6月《網絡安全法》出台,才逐漸收斂。
不過,黑市交易依然是中國資料交易的主流。據不完全統計,國内個人資訊洩露數達55.3億條左右,平均每人就有4條相關的個人資訊洩露,這些資訊最終的命運,是在黑市中反複倒手,直至被榨幹價值。其中,80%的資料洩露自企業内鬼,黑客僅占20%。
市場有明顯的資料購買和交換需求;但經過合法管道交易仍然舉步維艱。供需難以順暢銜接的背後,既是因為資料交易本身複雜度高,相關技術仍未完善;也因為相關标準、法律法規的缺失;還因為大資料應用場景挖掘不夠充分,應用牽引的力度不夠。這意味着,解決它也需要各方的合力,且絕非一夕之功。
資料交易産業難以快速爆發,很大一部分原因是資料交易本身的特殊性。
資料是可以無限次複制的電子資訊,是一種特殊商品,并不能簡單套用現實中的實物交易規則,資料交易過程中産生的資料确權、資料回溯、交易過程中的安全性合法性保障等問題迄今為止還沒有得到很好的解決。
其中,資料确權最為棘手。在法律專家看來,資料确權是個新興法律課題,挑戰巨大。例如,資料的采集、加工、控制、利用、交易等環節可能有多個參與方,什麼情況下什麼類型的參與方可以獲得資料的權利,所擁有的權利中哪些是排他性的權利(即絕對禁止他人抄襲和模仿的)等,每一步設計都關系到多種利益的博弈和平衡,在實踐中尚無形成共識和慣例。
中國社會科學院大學網際網路法治研究中心執行主任劉曉春告訴《财經》記者,資料确權不是不可以,但是在制度設計上還需要考慮大量的細節和配套性制度,而這些配套制度執行起來很可能成本過高,反而阻礙了資料交易産業的發展,是以,目前并不是法律介入的好時機。
除去資料交易本身的技術性難題,多位行業人士表示,精準營銷和金融風控是目前較為成熟的大資料應用場景,使用者主要是一些網際網路征信公司,而這些公司目前需要的服務主要是簡單的“三要素驗真”(姓名、身份證、電話号碼)。
具體來說,網際網路征信公司送出一條個人資訊,大資料公司傳回一個這條個人資訊正确與否的判斷結果。一位行業人士告訴《财經》記者,不少地方電信營運商的大資料業務收入主要來自“三要素驗真”。
但大資料的價值絕非隻是用于驗真,且若論驗真,資料黑産從業者 “更有競争力”,因為他們直接出售包含身份證、電話号碼的使用者資料。
從業者普遍希望手裡的大資料能更加進階地變現。對此,行業共識是大資料必須結合具體的應用場景,必須“大資料+行業”,例如,基于海量使用者用電資訊進行大資料分析,可以實作負荷預測、智能用電排程等。
但朱國輝和陳曉建均向《财經》記者表示,具體哪些細分場景能采用大資料的能力還需要摸索,而且這本質上是針對客戶提供定制化資料服務,對資料交易所和資料提供方的資料處理能力有很高要求。
而且,資料的開放程度遠遠不夠,導緻市面上合法流通的資料品類和數量有限,玩家們難以施展拳腳。
多位大資料從業人士向《财經》記者反映,資料主要掌握在政府和幾家大型網際網路公司手裡,并未完全開放出來,但這一工作隻能靠政府由上至下推動。