《大規模元搜尋引擎技》—導讀

2021-11-08 06:11:58

近年來，網際網路(world wide web，簡稱web)已經成為最大的資訊源, 開發先進的搜尋工具一直是網際網路(internet)技術的一項關鍵研究和開發工作。由于google和yahoo!等主流搜尋引擎的普及，目前在web上的搜尋工具中，搜尋引擎是人們最為熟知的。雖然這些主流搜尋引擎非常成功，但也存在許多嚴重的局限性。例如，每個搜尋引擎僅能覆寫web上全部可用内容的一小部分；其基于爬蟲的技術很難完全達到所謂的深層網（deep web,也稱為深網），雖然這方面最近取得了很大的進展并且緊跟web内容的變化和擴充而發展。

本書所介紹的大規模元搜尋引擎技術具有克服這些主流搜尋引擎局限性的潛力。元搜尋引擎是一個支援統一通路一些現有搜尋引擎的搜尋系統。本質上，元搜尋引擎将接收到的查詢發送給其他的搜尋引擎，當這些被調用的搜尋引擎傳回結果之後，元搜尋引擎将這些結果聚集為一個排序清單并展現給使用者。雖然開發元搜尋引擎的最初動力是其結合多個搜尋引擎的搜尋範圍的能力，但它還有更多的益處，如可以獲得更好、更新的結果，能夠通路深層網。

本書重點關注大規模元搜尋引擎（large-scale metasearch engine）的概念。這種元搜尋引擎連接配接成千上萬個搜尋引擎。建構和維護大規模元搜尋引擎需要先進的元搜尋引擎技術，使其一些關鍵部件具有高度可擴充性和自動化解決方案。本書的目的就是廣泛而深入地介紹大規模元搜尋引擎技術，對作為web搜尋的競争技術的大規模元搜尋引擎技術的可行性進行了強有力的論證。本書将詳細讨論大規模元搜尋引擎的主要部件：搜尋引擎選擇，這一部件用于識别最有可能為任何給定查詢提供有用結果的各個搜尋引擎；搜尋引擎加入，這一部件與各個搜尋引擎進行互動，包括從元搜尋引擎發送查詢給本地搜尋引擎以及從不同的搜尋引擎傳回的響應頁面中提取搜尋結果；結果合并，這一部件将不同搜尋引擎傳回的結果合并為一個排序清單。大規模元搜尋引擎技術包括高度準确和可擴充的搜尋引擎選擇算法、高度自動化的搜尋引擎加入技術和高效的結果合并方法。

本書可作為web資料管理和資訊檢索等web技術相關課程的部分内容，也可作為web搜尋領域的研究人員和開發人員的參考書。

緻謝

對資料管理系列叢書編輯m. tamer zsu博士表示衷心的感謝，他仔細閱讀了全部書稿，并提出了非常有價值及建設性的建議，這些建議對改進本書有很大的幫助。感謝hongkun zhao和can lin，他們閱讀了部分書稿并提出寶貴意見。還要感謝本書的編輯diane cerra在寫作過程中給予的幫助。

meng weiyi和clement t.yu

2010年11月

‖目　錄

叢書前言

譯者序

前　言

作者簡介

[第1章　緒言

　　1.1　web上查找資訊

　　　　1.1.1　浏覽

　　[1.2　文字檢索概述

　　　　1.2.1　系統體系結構

　　　　1.2.2　文檔表示

　　　　1.2.3　文檔-查詢比對

　　　　1.2.4　查詢處理

　　 [ 1.3　搜尋引擎技術概述

　　　　1.3.1　web的專門特性

　　　　1.3.2　web爬蟲

　　　　1.3.3　利用标簽資訊

　　　　1.3.4　利用連結資訊

[第2章　元搜尋引擎體系結構

　　[2.3　挑戰環境

　　　　2.3.1　異構及其影響

第3章　搜尋引擎選擇

　　3.1　粗糙表記方法

　　3.2　基于學習的方法

　　3.3　基于樣本文檔的方法

　　3.4　統計表記方法

　　　　3.4.1　d-wise

　　　　3.4.2　cori net

　　　　3.4.3　ggloss

　　　　3.4.4　潛在有用文檔數目

　　　　3.4.5　最相似文檔的相似度

　　　　3.4.6　搜尋引擎表記生成

第4章　搜尋引擎加入

　　4.1　搜尋引擎連接配接

　　　　4.1.1　搜尋引擎的html表單标簽

　　　　4.1.2　搜尋引擎自動連接配接

　　4.2　搜尋結果抽取

　　　　4.2.1　半自動包裝器生成

　　　　4.2.2　自動包裝器生成

第5章　結果合并

　　5.1　基于完全文檔内容的合并

　　5.2　基于搜尋結果記錄的合并

　　5.3　基于結果本地排序的合并

　　　　5.3.1　基于輪轉的方法

　　　　5.3.2　基于相似度轉換的方法

　　　　5.3.3　基于投票的方法

　　　　5.3.4　基于機器學習的方法

第6章　總結與後續研究

參考文獻

《大規模元搜尋引擎技》—導讀

繼續閱讀

《推薦系統》--混合推薦、解釋及如何評估推薦系統混合推薦方法推薦系統的解釋評估推薦系統案例分析：移動網際網路個性化遊戲推薦

《推薦系統》--基于知識的推薦概述知識表示法和推理與基于限制推薦系統互動與基于執行個體的推薦系統互動小結

前端性能優化之函數防抖

B+樹索引搜尋（Index Seek）與索引掃描（Index Scan）

ElasticSearch（ES）反向索引原理

下方進我的商品櫥窗看看真便宜。今晚8點，淘寶天貓618正式開賣。記者從淘寶天貓處獲悉，從首頁展示到搜尋推薦提升，從榜單推

es的幾個騷操作

技術解密｜阿裡雲多媒體 AI 團隊是憑借什麼拿下 CVPR2021 5冠1亞的？頂級挑戰賽戰績顯赫四大挑戰的關鍵技術探索基于視訊了解技術打造多媒體 AI 雲産品

mPaaS 月度小報 | 3月發生的大事件

Android WebView 緻安卓應用閃退，mPaaS 助你規避這波 Bug

算法專家解讀 | 開放搜尋教育搜題能力和實踐

解讀 WebRTC 音頻 NetEQ 及優化實踐為什麼要 “白話” NetEQ?丢包、抖動和優化的了解NetEQ 及相關子產品NetEQ 内部子產品NetEQ 相關子產品優化點總結

企業上雲的智能指揮官——混合雲管理平台

快手搜尋推薦算法的原理。在快手搜尋中，除了熱門推薦外，還有一個龐大的流量池。這個流量池不僅限于頭部作者，普通作者的作品也

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

MovieTaster-使用Item2Vec做電影推薦 MovieTaster-使用Item2Vec做電影推薦