天天看點

全域資料一體化建構 ⑤ | 智能檢索平台

作者:北明數科

近年來,數字經濟作為全球經濟的重要内容,已成為全球經濟發展的主線,并在逐漸推動産業界和全社會的數字轉型。随着移動網際網路的發展,資料服務的形式開始增多,業務次元更加複雜,傳統的資料庫Mysql、Oracle或者非關系型資料庫Mongo作為基礎存儲的企業要想實作業務資料的全文檢索,該如何實施呢?在保持基礎資料庫不變的同時,新增全文檢索,更好、更快地從億萬資料中擷取檢索服務。

01 産品簡介

智能檢索是基于開源的分布式搜尋引擎elasticsearch優化封裝形成的一套一站式搜尋服務平台。

底層通過擴充elasticsearch分布式分片技術,可以支撐上百個資料計算節點以上的叢集規模并提供橫向無感擴容。

基于NLP技術的中文分詞器,提供強大的語義搜尋功能,支援按行業做語義搜尋适配以及分詞器插件式內建開發。

提供針對海量資料的采集、處理、查詢配置、算法調參、性能監控、服務授權等可視化操作,面向使用者提供包括文本語義搜尋、地理空間搜尋、檔案内容搜尋等豐富的檢索服務。

全域資料一體化建構 ⑤ | 智能檢索平台

02 産品架構

智能檢索是為資料中台提供一個全域資料檢索的能力,将存儲在資料倉庫裡的資料同步到全文檢索庫,為上層應用提供豐富的資料檢索能力。

在架構上延用資料中台的資料彙聚能力,在資料彙聚能力中增強一些文本分詞的處理,同時利用資料服務平台為上層應用提供強大的資料檢索能力。

全域資料一體化建構 ⑤ | 智能檢索平台

産品架構圖

03 産品功能

1、索引資源管理

索引資源管理的功能主要為使用者提供索引統一管理界面,包括如下具體功能:

  • 新增索引,可通過手動添加或使用excel模闆批量導出的方式添加索引。其中手動建立時,可以通過選擇對應的索引模闆來建立,或是選擇已有資料源中某張表來建立對應的索引。
  • 修改索引,可編輯已有的索引,修改索引資訊。
  • 删除索引,可通過單個删除或批量删除的方式删除索引。
  • 檢視索引詳情,可檢視已有索引的詳細資訊。
  • 索引資料預覽,可預覽指定索引存儲的資料内容。
  • 查詢索引,可通過索引名稱、所屬分類、别名、資料來源、業務子產品等資訊,快速檢索目标索引。
全域資料一體化建構 ⑤ | 智能檢索平台

2、搜尋管理

搜尋是全文檢索的核心功能。使用者在搜尋的過程中,涉及分詞、語義分析、搜尋權限校驗的過程,搜尋管理子產品裡可以對過程的規則進行管理。

  • 模闆管理

為使用者提供模闆統一管理界面,從模闆清單界面可以檢視模闆名稱、模闆比對名稱、優先級、索引别名。

全域資料一體化建構 ⑤ | 智能檢索平台
  • 分詞器管理

内置多種分詞器類型,完成分詞器的安裝後,可對分詞器進行增删改查和測試操作。分詞器使用者對搜尋關鍵詞進行分詞。例如,輸入“張三的職業是程式員,他熱愛編碼和戶外運動”,使用分詞器分詞的結果為:張三,的,職業,是,程式員,他,熱愛,編碼,和,戶外運動。

全域資料一體化建構 ⑤ | 智能檢索平台
  • 詞典管理

使用者可以自定義詞典,為語義分析提供依據。例如,添加同義詞詞典,設定同義詞詞條,在進行語義分析時,輸入詞語A,可關聯查詢其同義詞詞語B。

在詞典管理子產品裡,可進行詞典的增删操作,以及詞條管理操作。

全域資料一體化建構 ⑤ | 智能檢索平台
  • 詞條管理

當使用者需要在詞典添加或删除詞條時,可通過詞條管理進行設定。詞典檔案為.txt的詞典可通過詞條管理進行導入、新增或删除;為http連結的詞典不可編輯。

全域資料一體化建構 ⑤ | 智能檢索平台
  • 分析器管理

系統支援對輸入條件進行語義分析。分析器設定包括分詞器、分詞過濾器、字元過濾器三個部分,配置分析規則。

3、營運統計

營運統計主要用于從不同次元,統計資源、搜尋、服務的使用資訊。

  • 熱門資源:展示指定時間段内,索引資源對應的搜尋次數,并按搜尋次數進行倒序排序。
  • 熱門搜尋詞:展示指定時間範圍内,搜尋次數較多的關鍵詞。
  • 熱門服務:展示指定時間範圍内服務調用次數較多的應用服務。
  • 搜尋有效量:展示查詢成功次數、失敗次數。
  • 搜尋傳回量:展示指定時間範圍内搜尋傳回的資料量。
全域資料一體化建構 ⑤ | 智能檢索平台

4、資産管理

索引資産子產品,提供業務類型、資料來源類型兩種次元歸類展示索引資訊。

  • 來源分類:按照來源對索引進行分類管理,提供樹形目錄來展示不同來源的索引。
全域資料一體化建構 ⑤ | 智能檢索平台
  • 業務分類:按照業務子產品對索引進行分類管理,支援按照自定義業務分類來展示索引資訊,每個分類目錄代表一個業務子產品。
全域資料一體化建構 ⑤ | 智能檢索平台

5、應用服務

  • 一鍵查詢:支援精确查詢和模糊查詢。
  • 組合查詢:支援單條件(等于、介于、包含、不等于、大于、不小于、小于、不大于、為空、不為空)和多條件關系查詢(與、或、非)。
  • 遞進查詢:支援對已查詢出的結果中進行再次查詢。
  • 批量查詢:支援同時對多個關鍵詞進行查詢。
  • 語義搜尋:支援NLP語義分析功能,“了解”短語的含義(不僅僅使用術語頻率),并搜尋适當的主題。
  • 地理空間搜尋:支援地圖圈選,距離聚合,網格聚合,邊界聚合功能。
  • 結果分析:支援對搜尋結果進行打分,按指定字段排序,按業務類型分類功能。友善使用者快速擷取想要的搜尋結果。

6、叢集監控

叢集監控子產品用于對ES叢集健康狀态和叢集資訊的監控。自動采集叢集資訊,并可視化顯示。

全域資料一體化建構 ⑤ | 智能檢索平台

7、智能搜尋

智能搜尋子產品,支援展示熱搜排名和行業資料表數量統計。可根據業務分類和關鍵詞進行搜尋,支援對結果進行二次搜尋。

  • 熱詞排名:由高到低展示搜尋次數前10位的關鍵詞和搜尋次數且支援重新整理排行操作。
  • 行業資料表數量統計:按業務類型統計所占比例和索引總數。
  • 檢索塊:根據業務分類及查詢條件,分頁檢索ES中的滿足條件的索引,傳回所有字段描述和資料以及索引名和業務分類,比對到的資料高亮展示。
全域資料一體化建構 ⑤ | 智能檢索平台
  • 檢索清單:根據索引名和查詢條件,分頁檢索ES中資料,傳回所有字段描述和資料,以及檢索需要的時間。

04 産品優勢

全域資料一體化建構 ⑤ | 智能檢索平台
全域資料一體化建構 ⑤ | 智能檢索平台

05 應用場景

  • 網站群檢索

面向政府門戶網站群資料的搜尋引擎提供下屬機構的網站資訊,為公衆提供全面、完整、及時的當地政府公開政務資訊的“一站式檢索”服務。

  • 文檔檢索

面向企業機構中存在很多文檔類資料材料、知識庫等資料形式,提供OCR、文檔解析等技術将資料歸并入庫并對外提供文檔内容檢索;

  • 跨庫資料檢索

面向智慧城市領域多元的城市部件、城市事件、城市體征提供統一的智能關聯分析搜尋服務;

  • 海量資料處理

面向公安的海量偵察資料提供準實時的資料存儲服務并提供高性能的多元的檢索服務。

進入北明數科官網,了解數字化轉型更多詳細内容,預約免費示範!

北明數科榮獲第一屆中國大資料大賽“資料治理”賽道優秀獎

全域資料一體化建構 ④ | 物聯感覺平台

全域資料一體化建構 ③ | 知識圖譜

繼續閱讀