2022年,据Gartner调查,500家企业机构的IT专业人士共同对100 多项技术的使用计划、预期价值和风险测试显示:由于企业机构复工复产并寻求创新机会,其经营正在向以客户为中心的业务运营模式转变,企业正在实施维护和优化现有的数据中心基础设施,部署具备高度颠覆性的新兴技术,通过改进、简化、增强大数据平台,人工智能、自动化等技术,落地“数据驱动”战略,应对日益普遍的创新和不确定性与竞争,增强产品体验、降低成本、优化运营流程,扩大客户覆盖范围。在此背景下,预期2023年大数据与智能技术趋势如下:
现代数据栈、数据编织和数据操作流程自动化等现代数据管理方法走进现实
现代数据栈(MDS)是一种新的数据整合方法和流程,通过基于云端的数据传递、管理和分析数据的工具和技术,满足企业平台健壮性、成本与易用性需求。数据整合流程从ETL变为更高效的ELT,数据转换更多地使用Python和SQL编写数据操作;数据存储与处理更集中到云数仓中,使用新的产品管理数据栈中的数据,使用云上更加易用的分析工具,帮助客户专注于更高价值的分析和数据科学工作。相比传统数据栈,现代数据栈降低了数据整合的技术障碍、促进了成本节约,增强了平台的高可用性,可扩展性、易用性和可访问性,以满足企业不断扩张的业务需求。代表厂商如:Fivetran、Airbyte、Stitch、DBT、Big Query、Snowflake、SecuPi、StarRocks。
数据编织(Data Fabric)指“包含数据和连接的集成层,通过对现有的、可发现的和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付”。数据编织提供了一种大数据分析管理方法论,可以在更广泛的本地云和边缘设备上进行扩展。同时,数据编织技术还有望改进企业内的数据使用,减少了70%的设计、部署和运营数据管理工作,简化企业对数据的使用难度,并且可以与不同的应用系统集成整合。代表厂商如:Alex、Alation、Atlas、DataHub、Data.world、Neo4j、Cluedin、Tada、Stardog、Denodo、Palantir、IDMC、Glue、Data fusion、阿里云、Creatlink、Vesoft、TigerGraph、Minglamp。
DataOps是一种数据管理流程自动化方法与实践,是数据编织落地的核心关键。DataOps专注于改善整个组织中数据管理者和数据消费者之间的数据流通信、集成和自动化。目标是通过创建数据、数据模型和相关工件的可预测交付和变更管理,满足组织全数据生命周期(从生成到归档)的需求。DataOps采用敏捷、迭代、综合的方法处理数据在组织中流动时的全生命周期,关键能力涵盖数据质量保障、监控、自动化测试与部署、工作流编排与自动化建模等,从而优化或解决数据治理、隐私和安全使用问题,在不影响数据分析速度和质量的情况下,实现数据的持续集成、持续交付、持续部署。代表厂商如:Airflow、Atlan、Nexla、Deepexi。
云原生、流批湖仓一体化奠定新一代数字化平台基础
目前,云原生容器化技术已成为数字化平台架构的事实标准,代表技术包括不可变基础设施、服务网格、声明式 API 及 Serverless,可帮助企业构建弹性可靠、松耦合、易管理、可观测的应用系统,提供极致的弹性能力、服务自治、故障自愈能力,实现跨区域、跨平台甚至跨服务商的规模化复制能力。支持敏捷开发,异构资源标准化,大幅提升交付速度,降低业务试错成本,高效响应用户需求,增强用户体验、加速业务创新。代表厂商有以 AWS、Azure、Google、阿里云、华为云、青云为代表的公有云,以及众多落地在国内大中型企业的私有云,混合云等,此外国内的如 Deepexi、Volcengine、DTstack。
金融、制造、能源、医疗保健、零售等行业的多样性数据爆炸式增长,迫使行业思考超越传统数据仓库处理信息的手段,基于云原生容器化环境,支持统一存储,流、批数据处理、数据分析、数据科学等多工作负载的湖仓一体走上前台,帮助客户推动工艺优化,精细化运营,营销获客、风险防控,从而更好地吸引和留住客户,提高生产力和运营效率。据报告,落地数据湖的企业相比同类公司收入增长高出 9%,如今Amazon S3已成为数据湖的典型代表,其它海外厂商还有Databricks、ADLS、CDP,以及国内的Transwarp、Deepexi、Volcengine、柏睿数据Rapids LakeHouse等。基于智能算力分析引擎RapidsDB,柏睿数据推出高性能、一站式、智能集成的湖仓一体化产品Rapids Lakehouse,打造统一的数据集成、数据湖、数据仓库的数据管理平台,结合AI/ML技术,全面发掘数据价值、提供即时数据洞察,帮助客户提升业务能力和行业领导力。
此外,随着5G通信技术快速发展,边缘计算技术如边缘服务器和边缘网络等技术正处于部署阶段,加剧了大数据平台的数据多样性,因其在更接近数据生成点的地方迅速分析信息,有助于加快数据分析,为用户提供更快的响应。在医疗保健领域,快速扩张的可穿戴设备市场,如Fitbit、Apple Watch和谷歌Android设备,正在推动远程医疗和以改善健康为目的的关键患者数据处理分析业务的增长。
自然语言处理、机器学习、增强分析等人工智能技术与应用增长迅速
过去十年来,产业界积累了前所未有的实体和数据。在大规模数据集和大数据计算的支撑下,使得最终训练得到的模型足够复杂,因此人工智能,尤其是深度神经网络,在语音识别、图像处理、自然语言处理以及数字化基础设施与多个行业都取得了长足的进步。
智能技术的发展目前还依赖于计算能力的提升,随着数据量的增加,单机已经无法满足数据计算甚至是存储的需求,因此分布式存储和计算技术迎来了发展。以Hadoop生态为例,实现了分布式存储和分布式计算。建立在Hadoop之上的Hive提供了类似SQL接口的数据分析方案,但由于其存在大量磁盘IO,性能常常成为大数据计算的瓶颈。而新一代分布式内存计算引擎,如 RapidsDB以性能为突破口,保障了机器学习、音视频识别、NLP 等智能分析工作得以顺利开展。
机器学习能够识别模式和检测大型数据集中的异常,支持预测分析和其他高级数据分析功能。例如:识别图像、视频和文本数据、自动分类数据、分析语音和文本、个性化和推荐特征及能够在海量数据中分析找到业务问题最佳解决方案等,从而提供更智能的应用,更好地了解客户行为、业务流程和整体运营。目前,机器学习技术已较为成熟。
融合计算机科学、语言学和人工智能技术的自然语言处理(NLP)技术发展迅速, NLP主要关注人类语言与计算机系统之间的交互, 通过科学编程使其能够准确识别、分析和处理自然语言的信息,通过语料、分词、句法和语义分析等NLP技术,使用语法规则从句子中提取重要信息的算法,阅读和解释人类语言。随着企业业务的不断延伸,如问题回答和知识检索等应用场景,可以使用向量数据库存储大规模的知识库,通过将问题和知识库中的内容转化为向量表示,并计算向量之间的相似度,最大限度地减少数据检索所需的时间,系统可以更快地响应并提供更好的用户体验。
人工智能是指使计算机能够分析数据、提出建议,执行查看、理解和翻译口语和书面语言等高级分析能力的技术,从与数据库产品能力结合方面,可通过 AI 作代价预估与监督学习实现数据库引擎动态优化,加速数据库查询性能,通过定义新的函数和数据类型SQL,实现数据库内的人工智能模型训练和推理。从数据应用角度,人工智能可提纯数据、提升多领域的分析决策能力。代表厂商如IBM、AWS、阿里云、百度及Anaconda、Dataiku、Domino、4paradigm、Mericdata、Ishumei。如柏睿数据RapidsDB创新研发基于机器学习的动态查询优化技术,目前已获得美国专利。
增强分析(Augmented Analytics)本质上是利用机器学习和人工智能技术来自动化或增强与准备数据有关的任务——分析数据、清理数据、加入数据,以自动化围绕生成见解和解释见解的任务;由此,它减轻了如分析师或消费者等业务人员必须手动探索数据的过程,通过工具即可完全理解所拥有的数据,专注于可视化,识别关键见解;并停止以纯粹定量的方式思考数据,从而帮助企业更好地了解业务发展环境,针对企业经营成本、效率、风险等问题,找到解决办法。Gartner 认为,增强分析将颠覆目前的数据分析模式,代表了数据和 BI 能力的第三大浪潮。典型产品包括:Power BI、Tableau、Qlik、Looker、Superset、FineBI。柏睿数据正在探索将数据库和大模型完美结合的应用平台,通过微调AI大模型以实现数据库智能化,能够将自然语言转换为数据库语句、优化数据语句等,进一步提高数据可视化分析的效率。
近年来,随着AI的应用逐渐成熟、落地,产业焦点集中于 AI 大规模快速落地,布局 MLOps 平台或工具的需求日益迫切,推动组织数智化转型成为产业界追逐的目标。人工智能研发运营体系(MLOps) 作为 AI 工程化重要组成部分,其核心思想是解决 AI 生产过程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的 AI 生产过程。代表产品包括 Amazon SageMaker、Microsoft Azure、Google Cloud Platform、 DataRobot、Algorithmia、Kubeflow、MLflow。柏睿数据作为专注于数据的公司,提供以数据为中心的柏睿数据智能平台Rapids AI,Rapids AI具备包括数据加载、数据质量诊断、数据特征管理、特征工程、模型训练、模型评估、模型部署在内的人工智能开发全生命周期能力。
数据民主化、数据云与数据资产化拓展社会与商业价值
数据民主化(Data Democratization)在于使组织的所有成员都能轻松地应用数据开展应用分析,实现更精准决策和更好的客户体验。通过数据民主化,非技术用户也可以在没有数据管理员、系统管理员或IT人员的帮助下收集和分析数据。通过对数据的即时访问和理解,业务团队可以更快地做出决策。民主化的数据环境是管理大数据和实现其潜力的重要方面,那些为员工配备正确工具和理解能力的企业,能够更好地做出决策。
数据云(Data Cloud)在狭义是指以云计算为平台,可面向全球客户和个人提供大数据与智能数据管理、数据应用与数据服务的基础设施,当前,以数据云为依托,向更广泛的客户群提供数据智能技术,融汇互通数据价值,成为数据智能垂类厂商的新机遇。如:京东数据云平台、星环数据云平台、袋鼠云平台等;在业务领域,我们观察到全球范围内的产业研究也在深化,如在摩纳哥一年一度举办的Datacloud全球大会,关注数据中心和云计算领域的最新技术、趋势和创新。今年大会重点聚焦数据云行业数据中心的可持续性,混合云和多云管理、降低网络威胁风险,以及如何面对即将到来的能源危机,亚太地区、中东和非洲数据投资与驱动等议题。
同时,以数据云技术与平台为基础的数据资产化(Data capitalization)正在兴起,旨在通过数据市场、数据交易发挥放大数据价值:以Snowflake为例,企业在独立架构基础上,为客户提供全场景全生态的在线数据仓库、数据科学、数据应用与数据市场,其数据市场汇聚了全球200多家数据提供商和服务提供商,提供了近千种数据集、企业市值高达 700 亿美元,成为全球炙手可热的数字化品牌。在国内,国家基础学科公共科学数据中心已可提供VLBI月球与深空探测数据等 24个主题库,在线服务数据总量 2.29 PB;2022 年,“人民云”面向全社会提供数据存储、数据运用、数据交易、人员培训;深圳、上海两地正在大力推进数据权属界定、开放共享、交易流通等标准指定和系统建设,加快培育数据要素市场。
总结与展望
综合来看,数据智能类技术在今天已取得突破性进展,随着新材料、能源、通信技术的快速演进,未来5 年,预计依托算力、数据、算法的数据智能技术将出现更具想象力的变革与创新。从地域看,在理论体系、数据科学、技术核心、业务创新与开放方面,仍然以西方国家为主,而在技术应用、价值变现、产业数字化与社会治理方面,大陆走在前列;两者有巨大合作的空间,但也需要不断弥补其中存在的差距。
(作者系柏睿数据联合创始人、全球副总裁、首席技术官马珺)