繼續回答星球水友提問。==沈哥,我們有個業務,類似于“标題分詞檢索”,并發量非常大,大概20W次每秒,資料量不是很大,大概500W級别,而且資料不會頻繁更新,平均每天更新一次,請問有什麼好的方案麼?==
這是一個典型的,短文本分詞搜尋的問題,簡單聊聊自己的經驗。
常見的文字檢索方案有哪些?
(1)資料庫LIKE法将标題資料存放在資料庫中,使用like來查詢,方案非常簡單,能支援簡單的模糊搜尋,但不支援分詞。畫外音:顯然不适用于本例。
(2)資料庫全文檢索法将标題資料存放在資料庫中,建立全文索引來檢索,方然依然簡單,利用了資料庫的能力,不用額外開發,但性能較低。畫外音:本例的并發肯定扛不住。
(3)開源方案索引外置法搭建lucene,solr,ES等開源搜尋工具,建立索引,支援分詞,支援資料量和吞吐量的水準擴充。
該方案能夠很好的滿足本例的需求。但是,殺雞焉用牛刀,本例有一些業務特性:文本短,更新不頻繁,如果利用好這兩個特點,能有更巧妙的方案。畫外音:任何脫離業務的架構設計,都是耍流氓。 針對“更新不頻繁”的特性,可以使用“分詞+DAT”方案。畫外音:分詞就不多說了。
什麼是DAT?DAT是double array trie的縮寫,是trie樹的一個變體優化資料結構,它在保證trie樹檢索效率的前提下,能大大減少記憶體的使用,經常用來解決檢索,資訊過濾等問題。畫外音:更具體的,可以Google一下“DAT”,DAT的缺點是,需要提前建立索引,索引不能實時更新。
為什麼用trie樹的變種DAT,是否可以直接使用trie樹呢?trie樹的優點是,索引可以實時更新;不足是,占用記憶體非常大。
本例索引無需實時更新,無法利用trie樹的優點。但是,如果300W短文本建立好trie樹記憶體能裝下,則可以使用trie樹,否則隻能使用DAT。
普及,什麼是trie樹?trie樹,又稱單詞查找樹,經常用于搜尋引擎詞頻統計,短文字檢索,輸入法輸入提示等。畫外音:什麼資料結構适合什麼業務場景,一定要爛熟于胸。
它的特點是,能利用字元串的公共字首來減少查詢時間,最大限度地減少無謂的字元串比較,其查詢時間複雜度隻與樹的高度有關,與查詢資料量級無關,是以查詢效率非常高。畫外音:“時間複雜度與查詢數量級無關”這個太屌了。

例如:上面的trie樹就能夠表示{and, as, at, cn, com}這樣5個标題的集合,可以用來做這5個字元串的詞頻統計,或者檢索。畫外音:檢索時,節點存儲命中該item的doc_list<doc_id>。
分詞之後,是不是需要多次掃描trie樹? 是的。分詞之後,每個item都要掃描一次trie樹,得到的doc_list<doc_id>的交集,就是最終命中每個item的檢索結果。 針對“短文本”“500W資料”“不頻繁更新”這些特性,還能使用“分詞+記憶體hash”方案。
這個方案需要先對索引進行初始化:對所有短文本進行分詞,以詞的hash為key,doc_id的集合為value。
查詢的過程也很簡單:對查詢字元串進行分詞,對每個分詞進行hash,直接查詢hash表格得到doc_list<doc_id>,再對每個分詞的檢索結果進行交集。
舉個栗子進行說明。
例如:doc1 : 我愛北京doc2 : 我愛到家doc3 : 到家美好
先對短文本進行分詞:doc1 : 我愛北京 -> 我,愛,北京doc2 : 我愛到家 -> 我,愛,到家doc3 : 到家美好 -> 到家,美好
對分詞進行hash,建立hash表:hash(我) -> {doc1, doc2}hash(愛) -> {doc1, doc2}hash(北京) -> {doc1}hash(到家) -> {doc2, doc3}hash(美好) -> {doc3}
這樣,所有短文本初始化完畢,與trie樹類似,查詢時間複雜度與文本資料量也沒有關系。畫外音:隻與被分詞後有多少資料量,即hash桶個數有關。
查詢的過程是這樣的:
假如使用者輸入“我愛”,分詞後變為{我,愛},對各個分詞的hash進行記憶體檢索hash(我)->{doc1, doc2}hash(愛)->{doc1, doc2}然後進行合并,得到最後的查找結果是{doc1, doc2}。
這個方法的優點是,純記憶體操作,能滿足很大的并發,時延也很低,占用記憶體也不大,實作非常簡單快速,而且備援索引很容易水準擴充。畫外音:做索引高可用也不難,建立兩份一樣的hash索引即可。
它的缺點也很明顯,索引全記憶體,沒有落地,還是需要在資料庫中存儲固化的短文本資料,如果記憶體資料全丢失,資料恢複起來會比較慢。
總結短文本,高并發,支援分詞,不用實時更新的檢索場景,可以使用:(1)ES,殺雞用牛刀;(2)分詞+DAT(trie);(3)分詞+記憶體hash;等幾種方式解決。
思路比結論重要,希望大家有收獲。
本文轉自“架構師之路”公衆号,58沈劍提供。