搜尋引擎選擇： Elasticsearch與Solr

Elasticsearch簡介*

Elasticsearch是一個實時的分布式搜尋和分析引擎。它可以幫助你用前所未有的速度去處理大規模資料。

它可以用于全文搜尋，結構化搜尋以及分析，當然你也可以将這三者進行組合。

Elasticsearch是一個建立在全文搜尋引擎 Apache Lucene™ 基礎上的搜尋引擎，可以說Lucene是當今最先進，最高效的全功能開源搜尋引擎架構。

但是Lucene隻是一個架構，要充分利用它的功能，需要使用JAVA，并且在程式中內建Lucene。需要很多的學習了解，才能明白它是如何運作的，Lucene确實非常複雜。

Elasticsearch使用Lucene作為内部引擎，但是在使用它做全文搜尋時，隻需要使用統一開發好的API即可，而不需要了解其背後複雜的Lucene的運作原理。

當然Elasticsearch并不僅僅是Lucene這麼簡單，它不但包括了全文搜尋功能，還可以進行以下工作:

分布式實時檔案存儲，并将每一個字段都編入索引，使其可以被搜尋。
實時分析的分布式搜尋引擎。
可以擴充到上百台伺服器，處理PB級别的結構化或非結構化資料。

這麼多的功能被內建到一台伺服器上，你可以輕松地通過用戶端或者任何你喜歡的程式語言與ES的RESTful API進行交流。

Elasticsearch的上手是非常簡單的。它附帶了很多非常合理的預設值，這讓初學者很好地避免一上手就要面對複雜的理論，

它安裝好了就可以使用了，用很小的學習成本就可以變得很有生産力。

随着越學越深入，還可以利用Elasticsearch更多進階的功能，整個引擎可以很靈活地進行配置。可以根據自身需求來定制屬于自己的Elasticsearch。

使用案例：

維基百科使用Elasticsearch來進行全文搜做并高亮顯示關鍵詞，以及提供search-as-you-type、did-you-mean等搜尋建議功能。
英國衛報使用Elasticsearch來處理訪客日志，以便能将公衆對不同文章的反應實時地回報給各位編輯。
StackOverflow将全文搜尋與地理位置和相關資訊進行結合，以提供more-like-this相關問題的展現。
GitHub使用Elasticsearch來檢索超過1300億行代碼。
每天，Goldman Sachs使用它來處理5TB資料的索引，還有很多投行使用它來分析股票市場的變動。

但是Elasticsearch并不隻是面向大型企業的，它還幫助了很多類似DataDog以及Klout的創業公司進行了功能的擴充。

Elasticsearch的優缺點**:

優點

Elasticsearch是分布式的。不需要其他元件，分發是實時的，被叫做”Push replication”。
Elasticsearch 完全支援 Apache Lucene 的接近實時的搜尋。
處理多租戶（multitenancy）不需要特殊配置，而Solr則需要更多的進階設定。
Elasticsearch 采用 Gateway 的概念，使得完備份更加簡單。
各節點組成對等的網絡結構，某些節點出現故障時會自動配置設定其他節點代替其進行工作。

缺點

隻有一名開發者（目前Elasticsearch GitHub組織已經不隻如此，已經有了相當活躍的維護者）
還不夠自動（不适合目前新的Index Warmup API）

Solr簡介*

Solr（讀作“solar”）是Apache Lucene項目的開源企業搜尋平台。其主要功能包括全文檢索、命中标示、分面搜尋、動态聚類、資料庫內建，以及富文本（如Word、PDF）的處理。Solr是高度可擴充的，并提供了分布式搜尋和索引複制。Solr是最流行的企業級搜尋引擎，Solr4 還增加了NoSQL支援。

Solr是用Java編寫、運作在Servlet容器（如 Apache Tomcat 或Jetty）的一個獨立的全文搜尋伺服器。 Solr采用了 Lucene Java 搜尋庫為核心的全文索引和搜尋，并具有類似REST的HTTP/XML和JSON的API。Solr強大的外部配置功能使得無需進行Java編碼，便可對其進行調整以适應多種類型的應用程式。Solr有一個插件架構，以支援更多的進階定制。

因為2010年 Apache Lucene 和 Apache Solr 項目合并，兩個項目是由同一個Apache軟體基金會開發團隊制作實作的。提到技術或産品時，Lucene/Solr或Solr/Lucene是一樣的。

Solr的優缺點

Solr有一個更大、更成熟的使用者、開發和貢獻者社群。
支援添加多種格式的索引，如：HTML、PDF、微軟 Office 系列軟體格式以及 JSON、XML、CSV 等純文字格式。
Solr比較成熟、穩定。
不考慮建索引的同時進行搜尋，速度更快。

建立索引時，搜尋效率下降，實時索引搜尋效率不高。

Elasticsearch與Solr的比較*

當單純的對已有資料進行搜尋時，Solr更快。

當實時建立索引時, Solr會産生io阻塞，查詢性能較差, Elasticsearch具有明顯的優勢。

随着資料量的增加，Solr的搜尋效率會變得更低，而Elasticsearch卻沒有明顯的變化。

綜上所述，Solr的架構不适合實時搜尋的應用。

實際生産環境測試*

下圖為将搜尋引擎從Solr轉到Elasticsearch以後的平均查詢速度有了50倍的提升。

Elasticsearch 與 Solr 的比較總結

二者安裝都很簡單；
Solr 利用 Zookeeper 進行分布式管理，而 Elasticsearch 自身帶有分布式協調管理功能;
Solr 支援更多格式的資料，而 Elasticsearch 僅支援json檔案格式；
Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，進階功能多有第三方插件提供；
Solr 在傳統的搜尋應用中表現好于 Elasticsearch，但在處理實時搜尋應用時效率明顯低于 Elasticsearch。

Solr 是傳統搜尋應用的有力解決方案，但 Elasticsearch 更适用于新興的實時搜尋應用。

其他基于Lucene的開源搜尋引擎解決方案*

直接使用 Lucene

說明：Lucene 是一個 JAVA 搜尋類庫，它本身并不是一個完整的解決方案，需要額外的開發工作。

優點：成熟的解決方案，有很多的成功案例。apache 頂級項目，正在持續快速的進步。龐大而活躍的開發社群，大量的開發人員。它隻是一個類庫，有足夠的定制和優化空間：經過簡單定制，就可以滿足絕大部分常見的需求；經過優化，可以支援 10億+ 量級的搜尋。

缺點：需要額外的開發工作。所有的擴充，分布式，可靠性等都需要自己實作；非實時，從建索引到可以搜尋中間有一個時間延遲，而目前的“近實時”(Lucene Near Real Time search)搜尋方案的可擴充性有待進一步完善

Katta

說明：基于 Lucene 的，支援分布式，可擴充，具有容錯功能，準實時的搜尋方案。

優點：開箱即用，可以與 Hadoop 配合實作分布式。具備擴充和容錯機制。

缺點：隻是搜尋方案，建索引部分還是需要自己實作。在搜尋功能上，隻實作了最基本的需求。成功案例較少，項目的成熟度稍微差一些。因為需要支援分布式，對于一些複雜的查詢需求，定制的難度會比較大。

Hadoop contrib/index

說明：Map/Reduce 模式的，分布式建索引方案，可以跟 Katta 配合使用。

優點：分布式建索引，具備可擴充性。

缺點：隻是建索引方案，不包括搜尋實作。工作在批處理模式，對實時搜尋的支援不佳。

LinkedIn 的開源方案

說明：基于 Lucene 的一系列解決方案，包括準實時搜尋 zoie ，facet 搜尋實作 bobo ，機器學習算法 decomposer ，摘要存儲庫 krati ，資料庫模式包裝 sensei 等等

優點：經過驗證的解決方案，支援分布式，可擴充，豐富的功能實作

缺點：與 linkedin 公司的聯系太緊密，可定制性比較差

Lucandra

說明：基于 Lucene，索引存在 cassandra 資料庫中

優點：參考 cassandra 的優點

缺點：參考 cassandra 的缺點。另外，這隻是一個 demo，沒有經過大量驗證

HBasene

說明：基于 Lucene，索引存在 HBase 資料庫中

搜尋引擎選擇： Elasticsearch與Solr

Elasticsearch簡介*

Elasticsearch的優缺點**:

優點

缺點

Solr簡介*

Solr的優缺點

Elasticsearch與Solr的比較*

實際生産環境測試*

Elasticsearch 與 Solr 的比較總結

其他基于Lucene的開源搜尋引擎解決方案*

繼續閱讀

apache (httpd)不支援中文路徑問題先解除安裝yum安裝的httpd再用源碼安裝，重裝httpd再安裝支援中文的插件遇到問題

搭建httpd服務

windows下配置Apache的vhost初次接觸，強烈歡迎拍磚，指出錯誤

Apache與PHP環境下配置本地虛拟主機

Linux 7 中配置Apache服務，及禁止ip通路，删除apache廣告頁面。

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch

搜尋引擎選擇： Elasticsearch與Solr

Elasticsearch簡介*​

Elasticsearch的優缺點**:

優點

缺點

Solr簡介*

Solr的優缺點

Elasticsearch與Solr的比較*

實際生産環境測試*​

Elasticsearch 與 Solr 的比較總結

其他基于Lucene的開源搜尋引擎解決方案*

繼續閱讀

Elasticsearch簡介*

實際生産環境測試*