Lucene架構

2019-01-20 22:15:35

先整體上看一下Lucene的架構設計圖（見下圖），先看上層應用，首先是資訊采集的過程，檔案系統、資料庫、網際網路以及手工輸入的檔案都可以作為資訊采集的對象，也是要搜尋的文檔的來源，采集網際網路上的資訊一般使用網絡爬蟲。完成資訊采集之後到Lucene層面有兩大任務：索引文檔和搜尋文檔，索引文檔的過程完成由原始文檔到反向索引的建構過程，搜尋文檔用以處理使用者查詢。應用層的第三部分就是使用者接口，使用者輸入查詢關鍵字，Lucen完成文檔搜尋任務，經過分詞、比對、評分、排序等一系列過程之後傳回使用者想要的文檔。

一次完整的搜尋從使用者輸入要查詢的關鍵詞開始到系統根據使用者輸入的關鍵字傳回相關資訊。一次檢索大緻可分為4步：

第一步：查詢分析

正常情況下使用者輸入正确的查詢，例如輸入“python”這個關鍵詞，使用者輸入正确完成一次搜尋，但是搜尋需求通常都是全開放的，任何的使用者需求都是有可能的，很大一部分還是非常口語化和個性化的，有時候還會存在拼寫錯誤，假如不小心把”python“達成“pythno”，這個時候就需要用自然語言處理技術來做拼寫糾錯等處理，以正确了解使用者需求。

第二步：分詞技術

這一步利用自然語言處理技術将使用者輸入的查詢語句進行分詞，如标準分詞會把“lucene，全文檢索架構”分成lucene｜全｜文｜檢｜索｜框｜架，空格分詞會分成：lucene，｜全文檢索架構｜，二分法會變成：lucene｜全文｜文檢｜檢索｜索框｜架構｜，還有簡單分詞等多種分詞方法。

第三步：關鍵字檢索

送出關鍵詞後在反向索引庫中進行比對，反向索引就是關鍵詞和文檔之間等對應關系，就像給文檔貼上标簽。比如文檔集中含有lucene關鍵詞的有文檔1，文檔6，文檔9，含有全文檢索的有文檔1、文檔6，那麼做與運算，同時含有lucene和全文檢索的文檔的就是1和6，在實際的搜尋中會有更複雜的文檔比對模型。

Lucene架構

繼續閱讀

spring源碼：spring生命周期中重要的接口類

前後端分離-跨域

使用JSONP實作單點退出

緩存在大型分布式系統中的最佳應用

分布式幂等問題解決方案三部曲綱要一背景二什麼是幂等三解決方案三部曲四總結

lucene 關鍵字高亮

Maven項目的依賴、繼承、聚合關系1.父項目的搭建2.子項目的搭建(繼承關系)3.子項目的搭建(聚合關系)4.優雅的使用聚合關系管理jar包版本

Android消息提示框Toast，有java基礎學android

京東大佬整理的億級流量架構核心技術，助力智能時代，成就非凡前言目錄簡介書簽展示後記

架構之道之軟體管理過程的多團隊Scrum

「一定要看」：程式員如何把控自己的職業世界發展趨勢人才需求Google評分卡認識自己打好基礎學習效率小結

關注feed流推拉

專家訪談：搜尋開源力量：Lucene技術前景

阿裡巴巴分布式服務架構Dubbo介紹引言SOA化服務架構DubboDubbo的主要特點

Dubbo：來自于阿裡巴巴的分布式服務架構 Dubbo：來自于阿裡巴巴的分布式服務架構