天天看点

全域数据一体化构建 ⑤ | 智能检索平台

作者:北明数科

近年来,数字经济作为全球经济的重要内容,已成为全球经济发展的主线,并在逐步推动产业界和全社会的数字转型。随着移动互联网的发展,数据服务的形式开始增多,业务维度更加复杂,传统的数据库Mysql、Oracle或者非关系型数据库Mongo作为基础存储的企业要想实现业务数据的全文检索,该如何实施呢?在保持基础数据库不变的同时,新增全文检索,更好、更快地从亿万数据中获取检索服务。

01 产品简介

智能检索是基于开源的分布式搜索引擎elasticsearch优化封装形成的一套一站式搜索服务平台。

底层通过扩展elasticsearch分布式分片技术,可以支撑上百个数据计算节点以上的集群规模并提供横向无感扩容。

基于NLP技术的中文分词器,提供强大的语义搜索功能,支持按行业做语义搜索适配以及分词器插件式集成开发。

提供针对海量数据的采集、处理、查询配置、算法调参、性能监控、服务授权等可视化操作,面向用户提供包括文本语义搜索、地理空间搜索、文件内容搜索等丰富的检索服务。

全域数据一体化构建 ⑤ | 智能检索平台

02 产品架构

智能检索是为数据中台提供一个全域数据检索的能力,将存储在数据仓库里的数据同步到全文检索库,为上层应用提供丰富的数据检索能力。

在架构上延用数据中台的数据汇聚能力,在数据汇聚能力中增强一些文本分词的处理,同时利用数据服务平台为上层应用提供强大的数据检索能力。

全域数据一体化构建 ⑤ | 智能检索平台

产品架构图

03 产品功能

1、索引资源管理

索引资源管理的功能主要为用户提供索引统一管理界面,包括如下具体功能:

  • 新增索引,可通过手动添加或使用excel模板批量导出的方式添加索引。其中手动创建时,可以通过选择对应的索引模板来创建,或是选择已有数据源中某张表来创建对应的索引。
  • 修改索引,可编辑已有的索引,修改索引信息。
  • 删除索引,可通过单个删除或批量删除的方式删除索引。
  • 查看索引详情,可查看已有索引的详细信息。
  • 索引数据预览,可预览指定索引存储的数据内容。
  • 查询索引,可通过索引名称、所属分类、别名、数据来源、业务模块等信息,快速检索目标索引。
全域数据一体化构建 ⑤ | 智能检索平台

2、搜索管理

搜索是全文检索的核心功能。用户在搜索的过程中,涉及分词、语义分析、搜索权限校验的过程,搜索管理模块里可以对过程的规则进行管理。

  • 模板管理

为用户提供模板统一管理界面,从模板列表界面可以查看模板名称、模板匹配名称、优先级、索引别名。

全域数据一体化构建 ⑤ | 智能检索平台
  • 分词器管理

内置多种分词器类型,完成分词器的安装后,可对分词器进行增删改查和测试操作。分词器用户对搜索关键词进行分词。例如,输入“张三的职业是程序员,他热爱编码和户外运动”,使用分词器分词的结果为:张三,的,职业,是,程序员,他,热爱,编码,和,户外运动。

全域数据一体化构建 ⑤ | 智能检索平台
  • 词典管理

用户可以自定义词典,为语义分析提供依据。例如,添加同义词词典,设置同义词词条,在进行语义分析时,输入词语A,可关联查询其同义词词语B。

在词典管理模块里,可进行词典的增删操作,以及词条管理操作。

全域数据一体化构建 ⑤ | 智能检索平台
  • 词条管理

当用户需要在词典添加或删除词条时,可通过词条管理进行设置。词典文件为.txt的词典可通过词条管理进行导入、新增或删除;为http链接的词典不可编辑。

全域数据一体化构建 ⑤ | 智能检索平台
  • 分析器管理

系统支持对输入条件进行语义分析。分析器设置包括分词器、分词过滤器、字符过滤器三个部分,配置分析规则。

3、运营统计

运营统计主要用于从不同维度,统计资源、搜索、服务的使用信息。

  • 热门资源:展示指定时间段内,索引资源对应的搜索次数,并按搜索次数进行倒序排序。
  • 热门搜索词:展示指定时间范围内,搜索次数较多的关键词。
  • 热门服务:展示指定时间范围内服务调用次数较多的应用服务。
  • 搜索有效量:展示查询成功次数、失败次数。
  • 搜索返回量:展示指定时间范围内搜索返回的数据量。
全域数据一体化构建 ⑤ | 智能检索平台

4、资产管理

索引资产模块,提供业务类型、数据来源类型两种维度归类展示索引信息。

  • 来源分类:按照来源对索引进行分类管理,提供树形目录来展示不同来源的索引。
全域数据一体化构建 ⑤ | 智能检索平台
  • 业务分类:按照业务模块对索引进行分类管理,支持按照自定义业务分类来展示索引信息,每个分类目录代表一个业务模块。
全域数据一体化构建 ⑤ | 智能检索平台

5、应用服务

  • 一键查询:支持精确查询和模糊查询。
  • 组合查询:支持单条件(等于、介于、包含、不等于、大于、不小于、小于、不大于、为空、不为空)和多条件关系查询(与、或、非)。
  • 递进查询:支持对已查询出的结果中进行再次查询。
  • 批量查询:支持同时对多个关键词进行查询。
  • 语义搜索:支持NLP语义分析功能,“理解”短语的含义(不仅仅使用术语频率),并搜索适当的主题。
  • 地理空间搜索:支持地图圈选,距离聚合,网格聚合,边界聚合功能。
  • 结果分析:支持对搜索结果进行打分,按指定字段排序,按业务类型分类功能。方便用户快速获取想要的搜索结果。

6、集群监控

集群监控模块用于对ES集群健康状态和集群信息的监控。自动采集集群信息,并可视化显示。

全域数据一体化构建 ⑤ | 智能检索平台

7、智能搜索

智能搜索模块,支持展示热搜排名和行业数据表数量统计。可根据业务分类和关键词进行搜索,支持对结果进行二次搜索。

  • 热词排名:由高到低展示搜索次数前10位的关键词和搜索次数且支持刷新排行操作。
  • 行业数据表数量统计:按业务类型统计所占比例和索引总数。
  • 检索块:根据业务分类及查询条件,分页检索ES中的满足条件的索引,返回所有字段描述和数据以及索引名和业务分类,匹配到的数据高亮展示。
全域数据一体化构建 ⑤ | 智能检索平台
  • 检索列表:根据索引名和查询条件,分页检索ES中数据,返回所有字段描述和数据,以及检索需要的时间。

04 产品优势

全域数据一体化构建 ⑤ | 智能检索平台
全域数据一体化构建 ⑤ | 智能检索平台

05 应用场景

  • 网站群检索

面向政府门户网站群数据的搜索引擎提供下属机构的网站信息,为公众提供全面、完整、及时的当地政府公开政务信息的“一站式检索”服务。

  • 文档检索

面向企业机构中存在很多文档类数据材料、知识库等数据形式,提供OCR、文档解析等技术将数据归并入库并对外提供文档内容检索;

  • 跨库数据检索

面向智慧城市领域多元的城市部件、城市事件、城市体征提供统一的智能关联分析搜索服务;

  • 海量数据处理

面向公安的海量侦察数据提供准实时的数据存储服务并提供高性能的多元的检索服务。

进入北明数科官网,了解数字化转型更多详细内容,预约免费演示!

北明数科荣获第一届中国大数据大赛“数据治理”赛道优秀奖

全域数据一体化构建 ④ | 物联感知平台

全域数据一体化构建 ③ | 知识图谱

继续阅读