算法选取在算法选取方面,个人感觉也是要结合业务来实施。首先,要弄清楚业务那边主要关注的是什么指标。而与这一个指标相关的参数有那些,这些参数都是如何来影响这些指标的。至于算法的准确度,这一点,可以通过对数据颗粒度的细化来不断提高。不同的代码对系统的资源调度是不同的,而若你对算法的了解程度最大限度决定了你最终产品的反应快慢!

但据《财经》记者调查,这些有政府和国资背景的大数据交易所大部分生意寥寥,纯市场化的数据服务公司盈利状况欠佳,有些甚至一度游走在灰黑色地带,变相参与个人隐私数据的贩卖,直到2017年6月《网络安全法》出台,才逐渐收敛。
不过,黑市交易依然是中国数据交易的主流。据不完全统计,国内个人信息泄露数达55.3亿条左右,平均每人就有4条相关的个人信息泄露,这些信息最终的命运,是在黑市中反复倒手,直至被榨干价值。其中,80%的数据泄露自企业内鬼,黑客仅占20%。
市场有明显的数据购买和交换需求;但经过合法渠道交易仍然举步维艰。供需难以顺畅衔接的背后,既是因为数据交易本身复杂度高,相关技术仍未完善;也因为相关标准、法律法规的缺失;还因为大数据应用场景挖掘不够充分,应用牵引的力度不够。这意味着,解决它也需要各方的合力,且绝非一夕之功。
数据交易产业难以快速爆发,很大一部分原因是数据交易本身的特殊性。
数据是可以无限次复制的电子信息,是一种特殊商品,并不能简单套用现实中的实物交易规则,数据交易过程中产生的数据确权、数据回溯、交易过程中的安全性合法性保障等问题迄今为止还没有得到很好的解决。
其中,数据确权最为棘手。在法律专家看来,数据确权是个新兴法律课题,挑战巨大。例如,数据的采集、加工、控制、利用、交易等环节可能有多个参与方,什么情况下什么类型的参与方可以获得数据的权利,所拥有的权利中哪些是排他性的权利(即绝对禁止他人抄袭和模仿的)等,每一步设计都关系到多种利益的博弈和平衡,在实践中尚无形成共识和惯例。
中国社会科学院大学互联网法治研究中心执行主任刘晓春告诉《财经》记者,数据确权不是不可以,但是在制度设计上还需要考虑大量的细节和配套性制度,而这些配套制度执行起来很可能成本过高,反而阻碍了数据交易产业的发展,因此,目前并不是法律介入的好时机。
除去数据交易本身的技术性难题,多位行业人士表示,精准营销和金融风控是目前较为成熟的大数据应用场景,用户主要是一些互联网征信公司,而这些公司目前需要的服务主要是简单的“三要素验真”(姓名、身份证、电话号码)。
具体来说,互联网征信公司提交一条个人信息,大数据公司返回一个这条个人信息正确与否的判断结果。一位行业人士告诉《财经》记者,不少地方电信运营商的大数据业务收入主要来自“三要素验真”。
但大数据的价值绝非只是用于验真,且若论验真,数据黑产从业者 “更有竞争力”,因为他们直接出售包含身份证、电话号码的用户数据。
从业者普遍希望手里的大数据能更加高级地变现。对此,行业共识是大数据必须结合具体的应用场景,必须“大数据+行业”,例如,基于海量用户用电信息进行大数据分析,可以实现负荷预测、智能用电调度等。
但朱国辉和陈晓建均向《财经》记者表示,具体哪些细分场景能采用大数据的能力还需要摸索,而且这本质上是针对客户提供定制化数据服务,对数据交易所和数据提供方的数据处理能力有很高要求。
而且,数据的开放程度远远不够,导致市面上合法流通的数据品类和数量有限,玩家们难以施展拳脚。
多位大数据从业人士向《财经》记者反映,数据主要掌握在政府和几家大型互联网公司手里,并未完全开放出来,但这一工作只能靠政府由上至下推动。