天天看点

数据管理:50年的数据探索所带来的商业价值

在过去几十年来,数据管理和商业智能已然成为了企业价值创造的核心。那么,就不妨来阅读一下本文所介绍的computer weekly是如何跟踪数据管理所为企业组织带来的相关承诺和磨难吧。

在过去的半个世纪中,数据管理已经成为大部分it商业价值的助产师。

在大约二十年前的1996年11月7日,当nicholas enticknap撰文以纪念 computer weekly创刊30周年时,他写道:“20世纪90年代以来,it为企业所提供的竞争优势越来越明显,而这也导致了数据挖掘和数据仓库应用程序的兴起。

“这同时还导致了能够使得您企业组织所拥有的数据和应用程序方面的优势能够为别人所用的一大升值,包括为客户、供应商和中介机构(如经纪公司)所用。”

二十年后,还是在这一it大背景下,数据管理、商业智能和数据分析仍然有着特殊使命。enticknap继续评论其是“自20世纪90年代以来,所推动的第二次重大革命:基于互联网计算的兴起。”

而在更早十年的1986年7月3日所发行的computer weekly报刊上,同一作者也曾谈到了类似的主题,在一系列关于当时所谓的“第五次革命”的计算相关的介绍文章中,涉及到人工智能(ai):“我们即将看到新的应用程序被陆续推出,旨在将数据转化为信息,如提供决策支持和专家系统。”

从第一代到第四代的计算,无论它们之间具体区别的细节是怎样的,都“遵循了由约翰·冯诺依曼(john vonneumann)和他的同事们在1944年所首次提出的同样的基本计算机体系结构”,enticknap写道,彼时一台计算机还是“一台超级强大的计算器时,而电子仍处于其起步阶段。”

而一大方面的新的典范,其中还包括了用户友好的计算机,则很好的解决了“如何充分利用在数据领域的大规模投资的问题。”

关系数据库模型和语言

enticknap于1996年写道,到了20世纪70年代,我们已经看到,事务处理数据库的建立、而微型计算机也已经作为一种商业工具。同时,我们还看到数 据库管理系统和跨多台微型计算机的分布式处理的推出,而不再是集中于单一一台大型主机。

到那个时候,关系数据库模型打破了数据存储和应用程序之间的依赖关系,已成为了众所周知的事情。其已经由供职于ibm、牛津大学毕业的数学家英国人tedd codd在1970发表了一篇论文《a relational model of data for large shared data banks(大型共享数据库的关系数据模型)》从理论上证明成立了。

智能业务策略分析师兼顾问迈克·弗格森为ted codd及其合作者和同事们工作,而剑桥数学家chris date则在上世纪80年代末期则为他们工作。

弗格森很惊讶的发现,ibm花了如此长的时间——大约11年的时间——才将codd发明的关系模型转变为数据库产品。到了1978年,拉里·埃里森和他的oracle数据库团队弥补了这一差距。而oracle目前仍然是企业数据库领域的巨头。

ibm也是结构化查询语言(sql)的滋生地,其是由 donald chamberlin和raymond boyce在上世纪70年代中期所发明的,而且该语言目前仍然是最被广泛使用的数据库语言。

sql是一种实现关系模型的语言。弗格森回忆了codd和date在涉及距离原始概念的偏差时的不满。尽管如此,借助sql,关系数据库——如oracle的数据库、以及ibm的db2、微软的sql server、现在由sap所拥有的sybase db,已经发展壮大。

事实上,sql在数据库领域的持久存在已十分显著。尽管在过去的10年里,有hadoop堆栈、nosql数据库、apache spark框架这样的所谓的大数据技术的兴起,但sql已多次作为数据查询的超级语言回归了。

数据仓库和商业智能

在纪念computer weekly创刊三十周年的专刊上,有一个关于数据仓库如何在1996年严重辜负了关于其炒作的故事。

“彼时,尽管围绕着这一概念有着各种各样的炒作,但在英国排名前1000名的企业组织中,仅仅只有不到10%的企业组织正在部署实施数据仓库。”据computer weekly的报道。而在今天,我们又

在基于大数据hadoop的“数据湖”的领域,看到发生了类似的故事。

数据仓库体现了以分析为目的的数据库技术的演变,并主张为一家企业组织所有的业务系统数据建立集中的存储库。

这个想法主要是获取事务性数据库的数据,并将其加载到数据仓库中进行分析。这样一个对于生成数据的提取、转换和加载(etl)的技术,迁移数据,然后利用商业智能(bi)软件将编写sql查询的痛苦移除,来写报告和分析。

这套技术现在经常被用于处理过于缓慢和过时的任务,以及过于依赖于企业内部it的任务。其在今天经常被用来与新一波的现代数据发现和可视化软件进行对比,包括诸如qlik、tableau和similar ilk,以避免it作为一种功能。

然而,在上世纪90年代中后期和2000年代早期,弗格森非常希望重申以数据仓库、etl和商业智能软件这三种技术为代表的生产力的基本的阶跃变化。

“彼时,数据仓库绝对需要瞄准bi市场。截至那时,我们所有的都是那些绿色和白色打印的纸张,吐出事务型数据库系统,以进行报告。”他说。

弗格森说,他曾在那个时候供职于teradata公司,而该公司在彼时在其大规模并行处理数据库“非常具有先锋性”,并为以报告为目的进行了优化。

再加上当时兴起的etl技术(特别是兴起于现在的informatica公司)和bi工具——包括business objects公司、cognos公司以及microstrategy公司,等等——数据仓库/商业智能,标志着“生产力的分水岭”,弗格森说。

他说:“早期实施了这些技术的10%的企业组织,都是由那些已经看到了洞察力的价值的管理者们所领导的”。

这种洞察力也是从sas和(现在的ibm的spss预测)等数据分析技术的使用而产生的,其较少的是关于bi报告,而更多的则是关于用于预测的统计模型的建立。

数据仓库开发与来自sap公司、siebel的大企业资源规划(erp)和客户关系管理(crm)软件包的兴起并行发展。

近年来,sap公司已经开始专攻内存、列式数据库(columnar database)平台hana,据说这是要把分析和事务数据库模型整合在一起。

正如我们已经在computer weekly的报道中看到,商业软件的历史将是这一个主题的姊妹篇。

在弗格森看来,我们在这里可以说,etl供应商们正面临“从他们的业务应用程序中获取数据,而数据模型并未得到很好的理解的压力”,以及从上世纪90年代及之后的关系数据库管理系统获取数据的压力。

网络的到来

正是由于这些技术对于数据库制造商和数据库管理员并不复杂,另一个英国人蒂姆·伯纳斯·李在1994年发明了万维网。而computer weekly也从90年代中期开始建立其网站。

在线事务处理(oltp)数据库的特殊点在于,他们从来都不是为了服务于在网络上的大量并发用户而建立的,更不用说那些来自手机等移动设备的网络访问了,尤其是随着现如今的智能手机的兴起。

在1996年3月28日出版的computer weekly上,julia vowler报道了关系数据库供应商和对象数据库供应商公司(如informix公司)之间的网络战争。彼时,informix公司的技术被公认为更适合于支持文本、音频、视频、html和java;以及连接数据库到web服务器。

据报道,informix公司的客户包括摩根斯坦利、雷曼兄弟和美国宇航局。

而到了今天,谁记得面向对象的数据库管理系统公司呢?当然,这方面的技术仍然在不断发展,面向对象的编程语言包括诸如c#、python和perl、ruby仍在继续蓬勃发展。

但是,那些试图取代甲骨文和其它关系数据库供应厂商的企业基本上都被业内其他企业所取代了——informix公司在2001年由ibm收购。

大数据的兴起

然而,关系模型的霸权最近遭到了来自nosql(不仅仅是sql,notonlysql)公司热潮高涨的质疑和挑战,其往往是基于开源技术的,但也并不全是基于开源技术的。marklogic便是一款非开源的nosql技术。但是,我们现在已经有了basho( rick技术)、couchbase、datastax公司(cassandra数据库)和mongodb。

弗格森将这个群体总结为提供了非常具体的使用案例,通常与电子商务或其他网站操作运营事务相关。

在2014年,teradata公司的首席技术官stephen brobst在接受computer weeky 的采访时表示,nosql的供应商们最终会走上对象数据库供应商们的老路。

“在硅谷,sql和nosql的偏执狂之间将会有一场宗教似的战争。而最终,理性会赢得胜利。在sql中执行一切的工作任务绝不是一个好主意,而所有工作任务都不在sql中执行也不是一个好主意。”brobst说。

“而关于nosql,mongo在为java程序员们增强易用性方面确实做得相当不错。而cassandra则是很好的网络日志。但我相信,未来所将会发生的事情很可能是20世纪90年代对象数据库所发生事情的重演。”他说。

“当时的呼声是’关系模型已死',其已经统治有20年了”。但是,从本质上讲,关系数据库工程师们挖走了所有的好点子,并带给了对象数据库,扼杀了那些纯粹的对象数据库的工程师们。”他说。

诸如此类的任何事情都可以证明这种预测的准确性,而较新的数据库供应商所兴起的基础与已经兴起的hadoop系列技术的基础则是一样的——大数据。

大数据是我们现如今所经常到处流传的一大术语,但可以说包括了从社交媒体数据、机器生成的数据和其他不符合行和列的关系数据库技术的各种数据类型。

自从战略公司麦肯锡在其于2011年5月发布的报告中将大数据这一术语描述为:“创新、市场竞争和生产力的下一个前沿领域,企业cxo级别的企业领导人将因此而被自己的it部门卡住咽喉”以来,“我们的大数据在哪里?我们怎样才能从中赚钱呢?”一直是企业高层执行人员所魂牵梦绕的问题。有些人甚至可能问:“hadoop是什么?”

hadoop技术,或者,更准确地说,hadoop分布式文件系统——是一款开源版本的并行编程框架,称为mapreduce,最初是由谷歌开发的。

其简化了分布在商品硬件上的跨大型数据集的数据处理,是由doug cutting和mike cafarella十年前在雅虎公司开发的。cutting现在是cloudera的高管,该公司是hadoop的分销商公司之一,还包括hortonworks和mapr。

mapreduce本身即将被由databricks公司商品化的apache spark所取代(或补充)。spark是另一种并行处理架构,但它并不局限于hadoop技术,并且可以在关系数据存储以及nosql数据库运行。其也不是batchy,而mapreduce则是的。

数据管理的未来

今天,数据管理是一个令人兴奋的、快速发展的领域。而根据computer weekly的报道,在过去的50年——尤其是在过去20年间,随着网络和大数据的兴起,我们对此已经讨论了太多。

我们还讨论过太多关于主数据管理(mdm)、共享数据的安全管理等议题,这些通常是关于真实的单一版本;而mdm的基础——数据管理,总是会回来困扰数据专业人士和数据库供应商。

而弗格森的观点则是,“企业it现在比任何时候都需要更多的工具,以便降低复杂性,而cio们也不再需要花大钱来支付数据科学与数据工程方面的技能了。在某种程度上,这是回到了codd的时代。我们需要数据的独立性。那么,数据存储被在哪里有什么关系?工具和应用程序不应该知道这一点。”

无论技术将如何打造未来的数据管理架构的形态,该领域只能发展成为商业价值的主要承担者之一。其来自it,并为了企业组织的发展及其未来。而更重要的是,我们这些为此而记录和撰写文章的人将有大量的工作要做。

本文转自d1net(转载)