天天看点

ChatGPT重构企业级市场 星环科技一发三箭

作者:科技有态度

文/李佳师

微软的创始人比尔盖茨说,大语言模型ChatGPT是他一生中遇到的两项革命性技术之一。未来,所有的行业都将会因为大语言模型而重构,目前大家已经看到了以ChatGPT为代表的大语言模型在通用消费市场的魔力,但在行业企业级市场,大语言模型要想规模化应用依然面临三重限制。

“第一,训练需要时间,而且时间比较长,可能需要半年或一年。第二,无论是通用还是行业大模型,输入都有限制,这个限制取决于它的算力和工程化难度。第三,大模型有时精准度不够,会出现‘幻觉’,所以需要一个知识库来校正结果,需要一个机制来补充大模型,让它能够给出准确的答案和更实时的信息。”日前,星环科技(688031.SH)创始人、CEO孙元浩在上海举行的向星力·未来数据技术峰会上表示,目前在特定领域,大模型还不能像一个专家,只相当于一个本科生或本科低年级的水平,只能作为一个实习生,因为缺乏专业知识库以及行业深度知识,无法解决特定行业的业务问题。

ChatGPT重构企业级市场 星环科技一发三箭

要解决大语言模型在行业市场面临的这三重限制,星环科技做了三件事:提供大模型训练工具,让每个企业都能打造自己的专属大模型;推出两个行业模型,降低行业使用大模型的门槛;以大语言模型重构星环科技的核心数据库产品。

一是推出大模型训练工具Sophon LLMOps,帮助企业构建自己的行业大模型。据了解,Sophon LLMOps是一个机器学习模型全生命周期管理的工具平台,针对大语言模型及其衍生数据、模型、应用问题,提供了相应的增强:首先是样本仓库能力。第二,模型运维管理能力。第三,大语言模型和其他任务的编排和调度和上线能力。这个训练模型主要解决行业客户面临三个核心痛点:第一,提供一站式工具链,帮助客户从“通用大语言模型” 训练/微调,得到“满足自身业务特点的领域大语言模型”;第二,帮助客户将原型的大语言模型应用,成功在实际生产中投入应用;第三,帮助客户运营在生产中应用的大语言模型和大模型的持续提升。

二是推出两个行业模型“无涯”和“求索”。 “无涯”是一款面向金融量化领域、超大规模参数量的生成式大语言模型。无涯使用上百万的专业金融语料,其中涵盖了研报、公告,政策,新闻等高质量的自然语言文本来作为基础大模型的二次预训练语料,使得无涯具备对包括基本面、技术面、消息面在内的金融通识领域准确的理解能力。无涯构建了包括政策、舆情、ESG、风险、量价、产业链等六类大模型基础因子集,擅长处理金融量化领域的各类问题。

“求索”SoLar是一个大数据分析大模型 ,SoLar “求索”可以使用自然语言描述涉及多种数据模型的复杂业务需求,借助星环大数据平台的“多模型”技术,对不同模态(比如图数据、文本数据、结构化数据)的数据进行关联分析和展示。用户可以通过自然语言,生成可成功执行的SQL或Cypher,从而快速获取查询的结果,能够快速降低用户的使用门槛。SoLar可以作为数据查询和分析的智能副手,为数据工程师、数据科学及业务人员提供更好的使用体验。 SoLar求索让数据库查询平民化,让非专业用户在不需要学习和掌握数据库编程语言的前提下通过自然语言自由地按需查询数据。

三是用大模型重构星环科技的核心数据库产品线。孙元浩认为数据库技术因为数据的变化不断发生变化:最古老的数据库类型是SQL或关系数据库,其中所有的数据都结构化的。Web 2.0公司不断增长的需求引发了NoSQL革命,数据库变得更加灵活,出现了能够处理更多非结构化数据的数据库,能够的处理数量更加庞大。现在,随着市场对人工智能应用的追捧,出现了另一种被称为向量数据库(vector databases)的新市场。AIGC热更是将加速了向量数据库的投资热。

ChatGPT重构企业级市场 星环科技一发三箭

基于此,在此次峰会上,星环科技推出自研的向量数据库Transwarp Hippo。作为一款企业级云原生分布式向量数据库,星环Hippo支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。

同时,大模型技术带来的启发,图神经网络技术的日益发展,为图智能的发展提供了沃土,为图库和图智能结合提供了探索的机遇。针对海量图数据的存储、计算的难题,星环科技打造面向图智能、业务分析的多模型企业级分布式图数据库StellarDB 5.0。StellarDB 5.0实现了实时短查询场景5倍提升,高并发上万+QPS,近50种图算法,平均8倍性能提升,多度关联关系场景10倍提升,解决无限扩层问题。StellarDB 5.0对接星环科技自研深度图框架ZenGraph结合,基于图数据库的查询计算能力,提供快速、准实时,甚至实时的特征查询和计算。

另外,星环科技推出面向多元场景的高性能分布式时序数据库TimeLyre 9.1。面对时序数据数据量大、数据分析需求高,开源系统不支持集群部署,存储和计算数据规模有限,不支持复杂分析,服务不稳定,以及缺乏安全可控性等问题,星环TimeLyre 9.1在常见的时序数据上,可实现5~20倍压缩率,远优于传统数据库,数据压缩高、单节点磁盘可用容量高,可大大节约成本。

ChatGPT重构企业级市场 星环科技一发三箭

这次星环一举发三箭有什么启示?

每一个新技术浪潮到来都会带来产业重构,以ChatGPT为代表的大模型基础技术不断成熟,给行业带来的变化是“所有技术和产品与行业都将因为大模型而重新来过”。星环科技这次一系列发布带来一些新启示,作为一个企业级产品技术的厂商应该如何挖掘其中的变革商机:

首先,新的基础技术出现要想进入每一个领域,必然需要降低门槛,必然需要新的工具,所以给行业提供大模型训练的“铁锹”和“铲子”,必然是新生意,所以星环给行业提供模型训练的铲子Sophon LLMOps。

其次,新基础技术应用到行业需要模板,需要有人将行业知识与用户需求与基础技术结合,这也是新生意,而星环在金融和大数据分析领域都有多年的积累,深知这些领域的需求,将这些需求和行业知识再结合大模型技术,于是星环推出两个行业模型“无涯”和“求索,这也必然是新的有巨大需求的生意”。

再者每一个新基础技术的到来,必然影响原有的产品与技术形态,原有的产品与技术必然因新技术而重构,所以星环升级和进一步扩展了自己的核心产品家族,推出了一系列与AIGC引发的新数据库产品。这同样是必须做的新生意。

这就是孙元浩在大模型浪潮到来之际的新生意逻辑。

继续阅读