天天看点

金融知识图谱的现状与展望

金融知识图谱的现状

金融行业是个数据驱动的行业,很多传统金融业务对行情、资讯等金融数据已经形成了高度依赖。知识图谱作为人工智能时代的“知识工程”、“专家工程”,承载了对纷繁复杂、多源异构的金融资讯大数据面向AI加工整合的重任。知识图谱可以让金融机构绕开“统一资讯”这一难题,知识图谱可以将金融资讯大数据中的实体关系属性等信息,用极其简单的三元组的方式聚合在一起,形成一个金融语义网络。因为有统一的数据表示,所以可以形成统一的数据消费。这份连机器都可以看得懂的大数据,没有理由不在智能金融业务场景中大放异彩。然而现实情况是,知识图谱在金融业务场景的探索是一个相对缓慢的过程,还没有一个行业普遍认同的刚需场景出现,类似于智能客服对于NLP的依赖,知识图谱需要在金融场景应用上有所突破。

语义鸿沟制约知识图谱的场景发展

语义鸿沟,这是一个人工智能的专业术语,但用来解释传统金融与智能金融的沟通障碍非常贴合。这里有两个层面的问题,一个是”看见”的问题,一个是”信任”的问题。我们以前做金融IT,基本上的套路是业务部门提业务需求,IT部门负责转化为软件需求,IT供应商负责提供解决方案或者软件产品。这套方法在数字金融时代、互联网金融时代都非常有效,为何在智能金融时代就玩不转了呢?这里就存在所谓看不看得见的问题。简单来说,人工智能的数据科学家看不见业务部门的业务,而金融机构的业务人员也看不见自己的某项业务问题还可以用人工智能的方法来解决,从而也提不出这样的需求。所以在人工智能团队和业务团队之间,必须有一类角色要解决这个问题,他们负责创造性的提出某些业务场景如何用人工智能(大数据技术)加以改造。这类角色最好是业务出身,并且懂一些人工智能技术,他们是典型的创新型人才,其当下的重要作用不亚于数据科学家。说到这里,有人会问金融IT的供应商里有很多产品经理,金融机构的信息技术部也应该有这种职责和担当哦。遗憾的是,金融IT的供应商大部分玩的还是流程软件,至少金融行业从IT到DT的转型,本质上是业务运营的事情,不是软件流程的事情,传统金融IT的产品经理都没有接触到金融机构的业务运营数据,如何提出金融DT的场景和需求呢?同样,当下金融机构的信息技术部,人手极其短缺,业务项目一个接着一个,即便遇到某个项目可以用AI来解决,还要面临说服业务部门人员追加预算、延长工期,还要承担可能的项目失败的风险,往往人工智能项目都像是杀鸡用牛刀,本来可以用简单可靠的传统方法解决,何必引入风险极大成本不可控的人工智能呢?人工智能推广面临的第二个难题信任问题。人工智能结果的可靠性和质量的保障以及过程的可解释性,是产生信任问题的根源。举个例子,人工审核的合同和用AI审核的合同,你信任哪个?就算你宣称AI的审核准确率能够高达98,是相当的优秀,但传统业务人员会说,我要的是关键条款不能出错,而不是一个针对通篇的高概率的正确。即便你真的是一个数据科学家,面对这样的质疑你也无话可说,这背后,隐藏的是经年的用户教育的问题。

金融知识图谱的应用与推广就存在这样的语义鸿沟,同时知识图谱跟过去的数据中心项目很像,是一份“大而全”的数据,而数据的增量部分是很少的,大部分数据是对已有数据的再组织,成果就是“多源异构”转化为了统一的schema。多源异构数据的治理,本质上是数据中台的事情,知识图谱属于数据中台里面向AI的数据治理的一部分。这就使得若不是公司级的架构重构的项目,以点为主以快速响应为目标的业务需求,基本上都会采用直接用原始数据去解决,而不会先费尽力气按照知识图谱的schema处理一遍,然后用图分析图查询的方式解决问题。而且,当下金融业务团队提出的业务需求大多数都还不是大数据的需求,很多只能算是找数据的需求。而大数据模式识别的能力,往往能改变传统金融生产过程,产业互联网赋能——2B生产效率的提升,即便对于一直玩信息的专业户:金融机构,依然有效。只有使用知识图谱的业务由点及面之后,在各类数据通过各个项目慢慢汇集在一起,并且在各个场景中逐步产生数据的增量价值,此时知识图谱的威力才会得以发挥,如同过去的数据中心,大家都贡献了数据给他,并且都连接了他,他才会更加有价值,而一开始这类项目注定就是个成本项,看到的是无休止的投入。

金融大数据的质量制约知识图谱的能力变现

语义鸿沟会导致知识图谱推广受限,但当下对金融知识图谱推广影响最大的还是数据,数据的质量以及数据的缺失,使得图谱业务很难发力。

下面这张图是一个典型的金融知识图谱schema。

金融知识图谱的现状与展望

从schema构建来说,这张图已经清晰描述出了企业核心谱系,实体上覆盖了公司、产品、行业、概念、地域,甚至事件、指标也做了定义;关系上,股权关系为主,还覆盖了产业链上下游。了解上市公司三方数据的人会认为,这不就是一个典型的上市公司三方数据的数据字典里面关系相关数据的一个子集吗 ?对的,没错。如果这个schema定义的知识图谱,实体关系只有1、2度这样的深度,那么他跟三方数据没啥区别。知识图谱的强大不在于信息的详尽,而在于信息的穿透。

金融知识图谱的现状与展望

拿股权穿透为例,如上图上市公司,因为信息批露的原因,我们很容易获得该上司公司的一层股东关系,诸如:10大股东、10大流通股东、联营公司、母公司、子公司。在二层股东关系里,我们会发现有几个非上市公司,非上市公司没有信息批露的义务,所以你能获取的就是有限的工商股权数据。这就使得,图1定义的如此强大的schema变得非常的尴尬,因为非上市公司的原因,有一大半的schema定义的公司与公司的股权关系,没有了,断片了。当知识图谱schema定义的很多槽无法得到有效填充的情况下,知识图谱的信息穿透等分析能力就会大为减弱,这种数据的缺失,是制约金融知识图谱发展的至关重要的问题。

笔者曾率队做过一个股权方面的课题,名字叫资本系,业务本身比较简单,以股权投资超过20%作为控制逻辑,计算上市公司包含在哪些资本系里面,并给出实控公司、核心成员以及扩展成员。这是一个典型的信息穿透的案例,在此课题之前,资本市场资本系的计算基本上是人工根据专家规则和投资经验进行的判断和整理,主观意味很浓,股权结构不清晰,说你是你就是,专家说了算。但如果你真的有一份完整的股权穿透数据,用图谱做连通子图计算,很容易找出一个个有股权关系的一系列公司,再通过股权比例的控制,找到子图中的核心企业,核心企业投资的公司再做1、2层的股权穿透,进而找到扩展成员,据此,再加上一些专家规则,一个基于知识图谱的资本系计算就完成了。这样一个任务,大家认为最难的是什么?实践下来,不是连通子图的计算,也不是上下穿透的图分析,而是找到并清洗出一份合格的股权数据。如果用工作量来度量下这个课题,20%的算法,20%的应用开发,30%的数据源比对,30%数据处理。这里我们遇到了很多的问题,诸如,某个公司股权信息为空,公司股东持股比例超过100%,最大股权小于20%持股比例分散等等的问题。股权就在那里,但你就是无法把它连起来。中国金融大数据的现状就这样子了,这也使得基于这份大数据的知识图谱业务受到了严重制约,数据积累和沉淀,路漫漫。

金融知识图谱数据破局点:产业链大数据

前文我虽以股权数据来说明我们金融大数据的现状,但相对于我们更加需要的产业大数据,股权数据已经相当“完美”了。毕竟对于股权数据,只要你是上市公司、发债企业,你就有义务进行批露。对于没有监管批露要求的非上市公司,股权数据也是有渠道获取的:独角兽对于VC,中小企业对于银行信贷,小微企业对于供应链金融,股权结构都是必须要批露的核心数据,所以说,通过某种渠道获取到股权数据还是可以的,最不济,基本的工商数据也能贡献相当一部分股权数据,尽管时效性稍有问题,但总体上还是靠谱的。

产业数据就没那么理想了,一份完美的产业链数据,不仅要描述公司所处的行业、产品的上下游关系,还要对行业中的公司的具体产品的库存、产能、供应关系等数据进行描述,这已经涉及到一家企业的核心机密了,目前产业链数据基本上缺失状态,从事行业研究的行研专家,通过调研、走访、合作、私人关系,能够获取一部分这类数据,但总体上是残缺不全的。

金融知识图谱为何高度依赖产业数据?这个问题,笔者思考过很久。首先企业分析应该从关系分析开始,知识图谱让企业以实体的形式置身于一个语义网络空间,而实体和实体之间是有关系的。从关系网络上对一家企业进行分析,远比对一家企业做信息堆砌来的重要。从这一点上来说,基于知识图谱的企业画像,远比传统企业画像要有优势。企业的关系分析,在知识图谱上可以有很多种,对于上市公司来说,除了基本的企业链信息之外,无外乎两大类关系:公司的股权关系,实体公司的产业链条关系。公司的股权关系包括:股东关系、投资关系、母子公司关系、担保关系、质押关系等等;产业链关系则包括:公司主营产品信息、公司所属行业,产品所属细分行业,产品上下游、行业上下游等等。一个公司的股权信息代表了一个实体公司在金融层面的一些运作,股权投资、股权激励、增资扩股、股权质押、股权担保,都属于这类业务;但对一个实体公司来说,股权层面的操作再怎么样都可以看作是副业,实体产业的经营才是一个实体公司的主业。对于金融机构、VC、投行等善于与实体公司做股权方面的业务,当然股权结构的变化也会暴漏出公司的经营风险、业务前景等等。但一家实体公司从投资研究的角度看,实体产业的估值、行业地位、市场占有率、上下游构成,这类信息构成了实体公司的投资分析的基础,这些数据属于产业链数据,产业链数据是当下行研分析师做投资研究的基础数据,知识图谱对于公司的关系分析,产业链条的关系,是核心。由此再配合股权数据,可以解决实体+金融两类主要关系的业务分析。此时的金融知识图谱才是在数据上完整的知识图谱。这份知识图谱数据才能够覆盖投研、风控、投资、营销服务等金融各类场景的数据服务需求。

金融知识图谱的场景发力点:事件图谱

整合了产业大数据的金融知识图谱,已经演化为产业金融知识图谱了。原来比较简单的企业关系分析,现在可以在产业链条上做产业分析了。有了产业分析能力的金融知识图谱,就可以试水行研风控等金融核心业务了。

笔者在智能金融实践中,经常还会遇到如下的一些问题:原材料涨价,对行业上下游的公司有什么影响?某P2P平台暴雷了,这个风险事件对上市公司会有什么影响? CPI拐点出现,该指标对哪些行业,哪些公司有哪些影响?这类问题不是简单的数据问题,也不是在找企业的某种关系,而是投研/风控领域经常面对的业务研究的问题。这类问题的起点是一个个具体的事件(区别于传统事件驱动的“事件“,这里的”事件“是广义上的事件),寻找的答案是事件的影响分析。这类问题在过去基本存在于行研风控专家的业务模型里,类似聚源、万德、东财的数据终端为专家模型提供数据支持;而现在知识图谱作为企业关系分析的利器,企业等实体的关系网络的存储载体,对于这类问题我们可以有新的方案加以应对,将传统业务研究嫁接到基于知识图谱的人工智能基础设施上,而支撑这类业务研究的,是构建在图谱数据中台之上,投研风控业务之下的一个中间业务处理层,这部分内容,就是接下来要讲的事件图谱。

首先这里讲的事件图谱,不是传统投研一直在研究的是事件驱动,事件驱动作为投资研究的一种策略,在过去有无数金融工程的专家投身其中,各类主体投资基金也不断涌现,但结果并不理想,有人总结是因为“事件本身“相对于”预期本身“来讲,时效性太差,事件发生了,事件窗口期可能已经过了。这里的事件图谱是指将新闻、公告、舆情等各类资讯,用人工智能分类的方法进行事件类型识别,将识别好的事件,和关联主体跟金融知识图谱做关联,从而形成我这里所说的事件图谱。同样,这里的事件图谱显然也不同于国内学术界提出的事理图谱,事理图谱更多的是从nlp角度讲新闻资讯的内容格式化为知识图谱,从而形成大数据,进而做推理分析。

有了上面的概念澄清,我们具体谈谈事件图谱的作用,我认为,事件图谱本质上做了两方面的事情,一个是是事件识别,一个是事件的影响分析。所谓事件识别,可以理解为事件的建模,或者说事件本体的构建,简单来说就是用模型描述一类事件,比如诉讼事件,你可以简单建模成{事件类型:诉讼事件;影响标的:某公司;情感分析:-0.5;事件热度:0.8;事件影响度:0.5};你也可以对此进行更加复杂的建模,把原告、被告、诉讼金额、诉讼地点等识别出来,从而更加精准的对事件加以描述。已知的事件建模做的最好的公司是国外的一家独角兽公司,叫做Palantir,这家公司采用动态本体的技术,形成对事件的精准描述,相比较而言,我们的事件建模还要依赖行研专家的业务理解。

事件图谱的另一个作用是事件影响分析,所谓影响分析,有两个维度,一个是事件回测,一个是事件传播影响;事件回测就是对历史上同类事件的发生可以做一个数据统计分析,对于上市公司而言,回测的目标可以是设定为行情的收益率、波动率或者某个金融工程的具体模型;回测的目的是看历史上同类事件发生后,对于相关公司会有什么样的影响;而事件传播影响则是要借助金融知识图谱,通过事件识别会命中某个事件主体,可能是某个公司、行业、产品,抑或是某个宏观数据行业指标等,将该主体关联到金融知识图谱里,可以查看跟这个事件相关的企业链信息、股权链信息和产业链信息。事件自身的正负面、影响度、热度会沿着知识图谱实体的关系网络进行传播,对这个传播影响进行定性或者定量的分析就是事件图谱要解决的核心问题了。

事件图谱通过对新闻资讯舆情所描述的事件进行建模,并对其做定性或者定量的影响分析,从而在金融大数据一层和投研风控的业务研究一层中加入了一层面智能事件的图谱分析,你可以把这一层的抽象当作面向人工智能业务中台的一部分,事件图谱联合企业画像和标签系统,为传统金融向智能金融演化提供了强有力的人工智能的业务支撑。

继续阅读