天天看点

建投数据企业知识图谱解决方案

作者:建投数据

一、项目背景

企业在自身发展的过程中,积累了大量的知识。随着计算机技术的发展,整理和使用知识逐渐从线下迁移到线上。从传统的资料归档逐渐迁移到在线网站以及移动应用。线上知识库易于存储及扩展,易于搜索查询及使用,易于更新及维护。

随着知识图谱、在线百科、实体搜索和智能问答技术的发展,企业自身知识库的建设也不再局限于扁平化的存储、分析、展现和应用。整个应用的技术架构需要从传统的关系型数据库向图数据库进行迁移演进。数据处理要从传统的人工处理向自动化处理演进。需要增加更多的基于自然语言处理的相关算法,同时也需要基于用户和知识使用订阅推荐算法为用户推荐。在展现形式上也要从基于富文本的图文展示向基于图技术、3D 技术等方向的展示。

本方案解决的主要是大量文本知识的知识处理问题。针对大量的文本,使用定制算法进行实体和关系的识别,将算法实现为可供自动标注调用的服务,通过标注系统批量调用服务进行标注,识别三元组并进行后续知识治理和知识管理过程。

二、项目挑战

1、知识获取

随着互联网、移动应用、在线百科和协作知识平台的不断发展,如何从各类数据中萃取特定行业或者领域有用的知识,以及抽取知识的准确率和效率方面都需要根据实际项目进行定制。

2、知识表示

人类知识类型丰富多样,还涉及大量主观感受和情感。而知识表示又是知识图谱构建与知识应用的基础,如何合理的设计知识表示方案,以更好的涵盖各种知识类型是知识图谱应用的首要问题。

3、词汇挖掘及实体关系识别

构建知识图谱的第一步就是获取图谱中的实体。在构建领域知识图谱时短语挖掘用于发现领域相关的短语。而要形成一个高质量的短语不仅需要算法和技术上的进步,还需要从其出现的频率、上下文的一致性、表达的信息量和完整性多个方面进行评估。

命名实体识别是知识图谱的重要组成部分,对于构建知识图谱具有重要的意义。在完成词汇挖掘短语识别后,另外一个重要的任务就是命名实体识别。相关的传统方法、基于深度学习的方法以及近期一些新的方法仍然存在很多开放性的问题。

当前的关系抽取多采用有监督学习的框架,需要大量的样本,对于冷启动的项目不太友好。同时关系抽取技术依赖合理的测评基准。目前大部分标准都基于通用领域,对于领域任务需要场景特性考虑。

4、概念多变

构建概念时,随着时间的推移会出现新的一些实体,如何将新的实体加入到概念至关重要。同时有些概念随着时间变化也会产生新的概念,对于概念的更新也是一个挑战。

5、数据基量及增量

如一般客户已经有十几万级别的基础数据,对历史数据的迁移是一个问题,同时每年数据增量在万级,基量和增量数据的自动化处理也是一个挑战,如果人工标注处理,时间周期和成本都将无法接受。

三、解决方案

建投数据自主研发的知识图谱平台,是基于分布式计算框架,具有高性能、易扩展、高可靠性访问控制,满足图数据采集、转换、计算的整个图数据处理作业过程中的应用需求,为企业应用推荐、知识利用、欺诈检测等提供统一的图谱管理、词库管理、结构化知识管理、文本知识管理等功能,可解决各种知识获取、处理、分析和利用等问题。

建投数据企业知识图谱解决方案

知识图谱平台支持结构化知识和文本知识的设计、获取、映射、融合和使用。支持基于关系型数据库、大数据数仓数据源数据的映射处理的知识图谱构建过程。支持本地文件(基于模板)数据映射处理的知识图谱构建过程。支持基于文本的文本知识管理、内容标注、三元组管理、三元组治理等基于文本知识图谱的构建过程。

建投数据企业知识图谱解决方案

在完成数据获取、知识获取、知识建模和知识治理过程之后,就可以利用知识图谱构建知识应用。根据应用场景,首先可以基于图技术进行可视化展示,这是知识图谱应用最常见的方式,也是最基础的方式。基于全文检索技术,基于可视化进一步挖掘和过滤关系展现,使基础应用方式更加丰富。基于推荐技术实现基于知识图谱的知识推荐相关应用,可以用于多个领域的知识应用。

四、功能特性

1、支持主流数据库和大数据引擎。

2、支持图形化的知识图谱本体设计。

3、支持多种数据源类型知识接入方式。

4、支持文本数据的自动标注和人工标注。

5、知识获取、构建、治理、存储和应用全生命周期管理。

五、价值体现

知识图谱平台是面向知识的应用,可以满足当前组织建设、营销洞察、金融行业、媒体资产和教育培训等各类对知识进行建模、抽取、管理和计算分析的场景,最终的价值体现在快速的知识建模、数据洞察和知识管理,为知识中台或知识应用提供源源不断的知识数据支撑。其价值主要体现在以下几个方面:

1、提高知识建模效率

通过使用知识图谱产品可视化建模,提高数据洞察效率,快速设计知识图谱本体并进行应用。

2、适配多领域类知识建模

提供通用化功能,实现基于词库类、百科类、常识类和领域类知识图谱本体的建模。

3、自动文本标注

定制化文本标注算法,实现自动文本标注,降低人工参与度进而优化成本,实现节源增效。

4、可人工介入的知识融合

在完成知识抽取后,需要对知识进行管理,知识融合是知识管理的一部分,可以人工介入实体融合和关系融合的过程中。

5、知识图谱可视化检索

基于顶点和边的知识图谱实体和关系的展现,基于全文检索和实体及关系过滤,快速定位知识。

6、知识应用的订阅推荐

基于知识图谱产品定制知识订阅推荐。对于组织知识管理和营销类知识的应用,可以基于用户或者物品进行知识推荐。对于基于咨询和教育类的应用可以基于内容或者知识进行推荐。根据不同的业务场景,可以基于混合推荐方法进行推荐。

继续阅读