天天看點

【轉】幾種C/C++開發的開源搜尋引擎

(1)CLucene

CLucene是Lucene的一個C++端口,Lucene是一個基于java的高性能的全文搜尋引擎。CLucene因為使用C++編寫,是以理論上要比lucene快。

項目首頁: http://clucene.wiki.sourceforge.net/

(2)Xapian

Xapian是一個用C++編寫的全文檢索程式,他的作用類似于Java的lucene。盡管在Java世界lucene已經是标準的全文檢索程式,但是C/C++世界并沒有相應的工具,而Xapian則填補了這個缺憾。

Xapian的api和檢索原理和lucene在很多方面都很相似,但是也有一些地方存在不同,具體請看Xapian自己的文檔:http://www.xapian.org/docs/

Xapian除了提供原生的C++程式設計接口之外,還提供了Perl,PHP,Python和Ruby程式設計接口和相應的類庫,是以你可以直接從自己喜歡的腳本程式設計語言當中使用Xapian進行全文檢索了。

  • 項目首頁: http://xapian.org/

    (3)DataparkSearch

    DataparkSearch 搜尋引擎是一個 C 語言的全功能的開源基于Web的搜尋引擎,

    支援來自 http, https, ftp, nntp, and news URLs, htdb virtual URL 的資料,内嵌支援資料庫、 text/html, text/xml, text/plain, audio/mpeg (MP3), and image/gif 等格式資料。

    項目首頁: http://www.dataparksearch.org/

    (4)PonySE

    PonySE是一個高速的, 靈活的, 小型web搜尋引擎, 使用C/C++開發. PonySE的每一個子產品都盡量獨立, 這意味着你可以單獨使用其中的一個你覺得有用的子產品。

    項目首頁: http://gforge.osdn.net.cn/projects/ponyse/

    (5)FirteX

    FirteX 是一個功能強大、高性能、靈活的全文索引和檢索平台。 FirteX 的主要目标是研究文本索引的快速建構 (Index Construction) ,動态文檔集的索引維護 (Index Maintenance) ,短語查詢 (Phrase Query),Top-k 查詢的快速處理 (Top-k Query Process) 以及各種檢索模型( IR Model )等。高性能和靈活的架構也使 FirteX 可以應用在産品搜尋,桌面搜尋,站内搜尋,新聞搜尋, Blog 搜尋,學術搜尋以及大規模搜尋引擎等領域中。

項目首頁:http://www.firtex.org/