天天看點

10 分鐘 純 Python 搭建全文搜尋引擎# 代碼所在# 思考# 結果

作者:大魚的魚塘

連結:https://brucedone.com/archives/838

有一個群友在群裡問個如何快速搭建一個搜尋引擎,在搜尋之後我看到了這個

10 分鐘 純 Python 搭建全文搜尋引擎# 代碼所在# 思考# 結果

<h1 toutiao-origin="h2"># 代碼所在</h1>

Git:https://github.com/asciimoo/searx

官方很貼心,很友善的是已經提供了docker 鏡像,基本pull下來就可以很友善的使用了,執行指令

然後就可以使用了,正常檢視docker的狀态,就可以正常的使用了

<h1 toutiao-origin="h2"># 思考</h1>

怎麼樣,是不是很友善,我們先看看源碼是怎麼樣實作的

10 分鐘 純 Python 搭建全文搜尋引擎# 代碼所在# 思考# 結果

我們打開裡面的代碼,其實本質就是将request之後的結果做一個大的聚合,至于資料來源,我們可以是來于DB,或者檔案,我們可以看一下他的核心代碼

<h1 toutiao-origin="h2"># 結果</h1>

每個response的時候我們都要以輕松的定制傳回的資料(可以是網絡,可以是資料庫,可以是檔案),那我們進一步想一下,如果我們可以hack response 結果,那我們完全可以将自己爬來的資料做為傳回結果。如果是1024之類的,完全可以打造自己的“愛好”小引擎,代碼我就不貼了,大家可以自己動手自己玩玩。結合jieba分詞,可以更好玩一點。

繼續閱讀