天天看點

簡言之-梁斌的搜尋引擎書

作者:儒雅蠍子老師

現在回頭看看你讀過的那本入門級搜尋引擎書,其中涉及許多從當時的角度寫的第一人稱陳述,不要介意。這幾天第一次讀梁斌老師的《走進搜尋引擎》這本書,這本書寫得很基礎,語言也很好了解,書的内容也不難了解,都是同類型的白話。對于那些沒有基礎的人來說,不得不說這是一本很好的入門書。到目前為止,這本書已經被讀了好幾遍。第一章介紹了搜尋引擎的基本背景知識,并通過介紹搜尋引擎的曆史來回顧搜尋引擎的發展。現在外面是雷鳴般的,你可以記錄下大學裡的美好一天,第二章關于搜尋引擎,還有搜尋引擎,主要系統劃分和架構知識點。這很容易了解。語言簡潔明了,搜尋引擎由哪些部分組成,每個部分扮演什麼角色,在搜尋引擎中扮演什麼功能等等。第三章介紹搜尋引擎下載下傳系統的背景知識、設計原理和技術,以及網絡圖書館的設計等。第四章介紹了PageRank等分析系統子子產品的計算原理和實作細節,這些子子產品用于提取資訊,檢查網頁,中文分詞。第五章介紹了全文檢索、文檔編号、前表和反轉表的基本概念,并全面介紹了搜尋引擎核心的索引技術。第6章介紹查詢系統的兩個主要功能子產品。第7章通過回答搜尋引擎的常見問題,介紹了搜尋引擎系統之間的關系,并展望了搜尋引擎未來的發展,對于本書的總結或完成本書對我們的讀者有一些建議。

以下是基于每章内容對本書知識的詳細總結。經過近一個月的學習,網際網路上也是搜尋引擎或資訊檢索的大量資訊,是以對這方面的認識也增加了很多,包括閱讀一些論文和一些書籍,搜尋引擎的基本原理有一定的了解,搜尋引擎是資訊檢索的典型應用, 可以說,資訊檢索是一個領域,搜尋引擎也是一個很大的方向,這涉及到太多的知識或方向。上面已經較長的描述了之前看到的大多數資訊檢索書籍。這本梁斌的書可以說是我的入門書,主要是書中的語言簡明扼要,通俗易懂,畢竟我讀的時候導師向我推薦的那本書太難了,涉及到的很多細節都不是很了解。現在從劉婷的搜尋引擎練習書中找到自己的想法,畢竟時間過得很快,很快就會打開問題,那麼面對的是畢業設計和小論文的發表。直到現在還沒有想法,沒辦法,整天讀論文也是有目的地尋找自己感興趣的方法或知識點。在下面的具體描述下,第一章介紹了我們公認的三種搜尋引擎服務:目錄搜尋引擎,全文搜尋引擎,元搜尋引擎。關于目錄搜尋引擎,我的了解是更多的是人工幹預,成本也比較大,早期的雅虎網站是目錄搜尋引擎,當然也有優勢,查詢速度比較快,準确率也比較高,畢竟網站幫你分類很好,使用者想找什麼類型的資訊, 通過網站的導航來搜尋自己的資訊,困難在于手動更新相當緩慢。關于全文搜尋引擎,典型的是谷歌、百度等大型搜尋引擎,谷歌Pagerank和百度超鍊分析方法是基于全文搜尋,這樣大量的搜尋資訊,更新起來比較及時,不需要人工幹預,當然也有缺點,就是使用者需要從大量資訊中選擇自己的資訊, 并且可能會出現一些主題漂移或其他缺點。

最後是元搜尋引擎,這種搜尋引擎也是一個重要的品類,也是一個非常特殊的品類。這種搜尋引擎沒有自己的資料,它是通過使用者的查詢同時發送給多個搜尋引擎,然後由多個搜尋引擎發送的結果通過自己的算法來處理後排回報給使用者,其優點是傳回了大量資訊, 缺點是不能充分利用原有搜尋引擎的功能,使用者需要做更多的篩選,這裡涉及到一個資料融合的過程,也就是說,當收到很多搜尋引擎傳回的結果時,必須對排序過程進行相關的排序,這裡的排序是按照一定的算法進行的, 很多研究者正在研究這類算法的效率、實用性、魯棒性等問題,關于資料融合,吳小姐有那位導師最後給我的那本書,我還沒有來翻譯,最近或者畢業前應該嘗試自己翻譯,自己的要求就會開始翻譯,整本書的翻譯可能需要很長時間, 反正可能邊學邊翻譯,是以裡面不會有困難,可能有一些專業的話需要看網際網路上看的特殊資訊,我大概前幾天就讀過那本書,覺得涉及的公式很多,就是實踐環節中的資料量比較大, 通過實驗或知識點進行更多驗證。

關于搜尋引擎發展的曆史隻是他們自己的了解,從第一個搜尋引擎開始了解,其實就是各大搜尋引擎門戶的開始,如何開始這樣的相關問題。第一章還介紹了國内比較有名的搜尋引擎,對國内幾個比較知名的搜尋引擎還是不錯的,至少搜尋結果都滿意了,百度的出價排名有點不尋常,這也是可以了解的,現在自從學習搜尋引擎每次檢索自己的資訊都會不自覺地觀察那個搜尋引擎的品質, 搜尋引擎準确率高,這種感覺好,有利于以後搜尋引擎資訊的評估。

第二章從搜尋引擎架構的詳細說明開始,搜尋引擎的哪些部分,每個部分是如何工作的,什麼角色扮演。簡而言之,搜尋引擎由四個系統組成:下載下傳,分析,索引和查詢系統。我了解到,下載下傳系統通過網絡抓取到網際網路上抓取了大量的網頁資訊,這裡來談談網絡抓取算法,一般用什麼樣的算法進行網抓,哪些要保證抓取的效率,速度一定要快,然後如何抓取更多的頁面, 當然,這裡涉及的頁面也是有用的網頁,沒有使用的頁面抓取下來或沒有使用。現在有一個lucene爬行動物算法改進的想法,直接修改源代碼,由大師兄弟自己動手編寫的網絡爬蟲本書,有時間看,但以上設計到知識點比較複雜。一般我讀過的論文或書中介紹的方法都是,根據地圖的深度優先或寬度第一的原則進行網絡爬行。一般來說,很多爬行動物同時爬行,現在都是分布式網絡爬行動物一起工作,這麼高效率,在網絡爬行器工作中也會涉及相關算法,即網絡爬行算法,選擇好的網絡爬行算法可以更好的抓取速度更快,爬蟲下來,通過分析網頁中的關鍵詞, 這裡通過分析系統完成工作。分析過程中還會涉及很多知識點,即如何使頁面被切開,根據什麼樣的标準進行切片,頁面上的一般資訊是标題、标題、副标題資訊中涉及的資訊是有用的資訊,在下一個索引中會用到這裡的資訊,然後将關鍵資訊進行分類,彙總到搜尋引擎資料庫中, 即,内部的索引庫。分析完成後,建立相關索引,到索引庫友善以後查詢,最後,使用者送出自己的查詢關鍵字,然後搜尋引擎通過查詢索引庫将結果回報給使用者。以上隻是一個一般的過程,實際查詢比較複雜,每個系統都有自己的算法,用自己的原理實作也将在後面的章節中介紹。

第三章開始講解下載下傳系統,從網絡爬蟲開始,讀了幾篇關于網絡爬蟲的論文,大部分代碼不是很了解,原理是了解,這感覺還是要慢慢學,有點積累。網絡爬蟲按照一定的算法或規定來抓取網絡上的資訊資源,在爬行動物的原則上我的了解是,爬行動物就像我們設定的程式一樣,首先通路網站不會打擾别人,這當然說有些拟人化,這其實和别人差不多,你去别人家裡擷取資訊, 當然,盡量不要打擾主站,是以我們應該遵循一些原則,在另一邊伺服器忙的時候不抓取web資源,通路資源也是允許通路的,不是未經授權的web資源,這些準則都是一些最低限度的尊重。是以你可以看到,網際網路上有一個針對網絡爬蟲的ROBOTS協定,它規定了本網站的哪些内容是允許你通路的,哪些内容是不允許抓取的,什麼時候可以來收集資訊,什麼時候不能來抓取。也就是說,相當于禮貌,這在現實生活中非常重要,當然在網絡上也很重要。

還有關于網際網路的,本身就是一個弓形,頁面上有很多連結,所有連結都指向自己的反向連結,有自己的出發連結到其他頁面稱為轉發連結,我們都知道一個網頁有很多連結指向它的點,即頁面很重要, 沒有多少頁面指向它以表明該頁面不是很重要。網絡爬蟲當然會抓取重要的頁面,是以如何過濾掉那些不重要的頁面是我們設計師的關鍵問題。我們知道網際網路呈現了弓的結構,是以我們盡量讓我們的爬行動物從弓的左側開始攀爬,這樣我們就可以穿越整個網際網路,收集到越來越有用的資訊,以保證收集到的資訊更加全面。

網頁一般分為目錄型網頁和權威網頁,基于目錄的網頁主要是為使用者準備的,幫助使用者了解網站的資訊,通過目錄型網頁我們可以連結到權威網頁,權威網頁一般在中間的弓形或右邊,這類網頁的反向連結較多,是以這類網頁的重要性通常被認為比較高。爬行動物的爬行原理或稱為爬行政策大概可以分為兩種,第一種是深度優先政策,第二種是寬度優先政策,從我讀過的論文來看,寬度優先政策相對高效,這具體還需要考慮所使用的環境或領域,在不同的地方或範圍使用不同的爬行政策。當然,在抓取時也要注意不能重複抓取同一頁,否則爬行動物的效率會變得很低,但是如何保證爬行動物不會重複抓取同一頁,這涉及到幾種方法,我覺得最好有MD5簽名方法,給每個頁面不同的簽名, 這樣我們就可以識别出那些頁面都是一樣的,這裡當然是每個頁面唯一要計算的URL簽名,因為每個頁面隻有URL是唯一的。這裡涉及的計算也是研究人員随着時間的推移而學到的,一些研究結果幾十年的人可能隻是一個公式。

這裡的簽名函數還涉及哈希函數,使用我們所知道的哈希表來完成相關的轉換工作。下面我們來看看抓網的優先政策,我們先抓取什麼樣的網頁,當然,一般意義上的重要網頁需要我們及時優先抓取,重要性的衡量标準很多,比如連結歡迎度、連結重要性、平均連結深度等等。這裡可以自己定義,定義更多,這是很權威的,更多的是比較公正的,當相應的量計算非常大的時候。連結歡迎的定義是由反向連結的數量和品質決定的,數量越多,品質越好,當然,我們認為連結的歡迎度是比較高的,至于連結的重要性和受歡迎程度是相似的,連接配接頁面的品質或連結重要性的權威性也越高。而平均連結深度是由寬度優先政策規則保證的,這就涉及到一個頁面重新進入的問題,什麼樣的頁面需要我們的抓取工具傳回進行重新抓取,我們的新聞頁面需要我們的抓取工具根據無限期的時間來抓取,因為這種頁面更新相對較快,隻有頻繁的抓取才能保證資訊的有效性和時間新。正常頁面更新頻率符合 Poisson 分布。這就是機率論中的知識。網上抓取的時候我們的爬行動物也應該注意禮貌問題,一般的網站都有相應的ROBOTS協定,用來限制抓取活動,什麼樣的頁面可以抓取,什麼樣的頁面你不能抓取,有我的網站裡面可以進來,哪裡你不能進來。特别是,桌面搜尋引擎,使用者計算機内的檔案,該檔案夾是可通路的,哪些檔案夾不能自由通路。這些已經寫在ROBOTS協定中。是以還有時間抓取網站,這應該尊重網站管理者,詢問,通路不能導緻另一邊的伺服器停機。

我們來談談網絡庫,它是爬行動物在抓取頁面後在索引庫中建構的Web資料庫。衆所周知,爬行動物抓取的頁面必須及時儲存到我們的磁盤中,然後将其編入索引以供将來使用者查詢。看到很多關于爬行動物爬行速度的論文,當然,在現實生活中,我們的搜尋引擎必須保證使用者查詢結果的高效、快速傳回,隻有這樣使用者才會願意使用這樣的搜尋引擎。那麼在搜尋引擎的四個系統中,讀寫問題也是影響速度的關鍵問題,如何提高讀寫速度來提高我們搜尋引擎的效率,難免會出現這樣的問題,更新問題,如何更新,以何種方式更新才能達到最快的速度, 以滿足使用者的需求。本書講了三種方法:日志結構、基于哈希的結構,一種是哈希日志,看名字救援能區分哈希日志肯定是最好的,其實哈希日志就是講哈希結構和日志結構結合的優點,更友善提高速度,友善使用者使用。我們讨論了資料結構類中的哈希表,并且我們知道對哈希函數的生成或計算有了更好的了解。這裡是與找一個散列函數相關的,當然也涉及作業系統内部的檔案讀寫和磁盤讀寫的問題,具體細分的很多東西,之前總覺得所學的知識是沒什麼用的,比如作業系統,感覺完全是純粹的理論,雖然最終課程設計時實作了部分算法, 但仍然覺得實際生活沒有多大用處,但現在看來不一樣了,但是我們還沒有涉足過這塊或這個領域。在檔案存儲件内部也有資料結構的B-tree的使用,當研究仔細檢查資料結構時,現在看來是好的、有用的地方。至少閱讀這些文章或書籍不會感到那麼難。

最後,回顧一下搜尋引擎下載下傳系統,總結三點,抓全,抓得快,成本低,是我們搜尋引擎的一般原則,現在大型商用搜尋引擎要考慮的更多。有動态Web支援,定向抓取,靜态Web抓取,開發的第三代搜尋引擎涉及智能搜尋引擎,即更加面向使用者,更加人性化的東西。

接下來我們将開始學習的第四章,第四章是一個大章,涉及很多知識,第四章是關于分析系統的,下載下傳系統将下載下傳的網頁進行分析,以友善以後建立索引。

搜尋引擎四大系統中的第二個系統是分析系統,主要涉及資訊提取、頁面減重、中文分詞和分頁排名算法計算。下面按照每章的具體内容詳細總結我自己的想法。

在我們談論資訊提取之前,說html語言,我們都知道html語言是一種專門的程式設計語言,用于在www伺服器上建立檔案,在我們的網頁上有一個文本可以幫助使用者更好地了解超連結的方向,我們稱之為錨文本,錨文本通常以圖檔和文本的形式出現, 超連結文本就是我們所說的錨文本。錨文本的作用是友善使用者查詢,網頁上的資料就是我們通常所說的半結構化資料。這與普通文本檔案不同。它包含一些與純文字不同的資料資訊。上面的錨文本知識也隻是要了解,關于搜尋引擎的組成起着很小的作用,基本上每本關于搜尋引擎的書或者每篇論文都會提到這部分内容。關于網頁的資訊提取和結構化處理,顧名思義,資訊提取是從我們的爬行動物從網上抓取的網頁中提取有價值的資訊,是以關鍵問題是我們如何有效地提取其中包含的有價值資訊,供我們使用,供使用者使用。首先,頁面結構的目标是5,包括錨文本,标題,正文标題,正文,正文連結。網頁的這五個屬性對于我們的資訊檢索至關重要。具體描述這五個部分沒有說,看看就明白了。

一般來說,當我們使用原始網頁時,我們遵循兩步法,首先建立html标簽樹,然後通過投票識别正文中的文本,然後根據深度優先方法組織文本。這部分看起來不太舒服,我的了解是這樣的:就是把頁面标題或錨文本的正文部分提取出來,也就是剛才說的五個屬性,一個接一個地從頁面中提取出來,然後辨別為頁面的摘要,相當于摘要的功能,當然, 本身不能稱為摘要。它隻是用來說明此頁面上的資訊,此頁面所說的内容。想對我們的使用者說些什麼。建立标簽樹的過程使用堆棧的存儲結構在我們已經學到的資料結構中,這是比較容易了解的,我們都知道網頁中的html符号都是成對的,是以給我們的堆棧非常友善的存儲,我們知道堆棧是先進的,正是利用堆棧的這個特性, 我們可以處理并建立正确的标簽。友善我們以後處理。下一步是通過投票擷取我們的文本。

一般網頁出現三種類型的文本塊:主體文本塊、目錄文本塊、圖檔文本塊。就像我們現實生活中的投票一樣,大多數人認為這是身體部位,是以出錯的機率相對較低。具體的方法我簡單來說,就是我們先設定,如果一個文本塊是多少分,越長的分數就會相應越高,然後根據文本塊出現在頁面位置的左邊或者右邊或者中間或者哪裡,根據不同的位置給出不同的分數。最後,計算每個文本塊的分數,從最高到最低排列,然後選擇得分最高的文本,我們認為它是正文。

接下來,我們來談談頁面,一般人不會關心網際網路,那個頁面是原創的,有些類似的頁面我們通常不會太關注,原因很簡單,隻要我們能滿足我們查詢的需求,不管是不是原來的網頁和我們的使用者關系真的不是很大。但對于搜尋引擎來說不一樣,頁面相同或相似,這意味着我們的搜尋引擎必須重複一次,一個頁面就好了,如果頁面很多那麼我們的搜尋引擎就無法處理,這樣既浪費時間又處理得很慢,真的很麻煩。是以我們的方法排除了同一個頁面,最好保留最原始的頁面。關于重新檢查頁面的方法,我說,是判斷過程分為幾個部分,實際上,四種情況,兩種頁面内容和格式是相同的,兩頁内容相同但格式不同,兩頁有一些重要内容是相同的,格式是相同的,兩頁的重要内容是相同的,但格式不同。目前,我們正在考慮這四種情況。這裡有一種IMITCH方法,就是從網頁中提取高頻詞,然後對幾個網頁進行高頻詞比較,即提取那些能盡可能表示頁面主要内容的詞來比較特征詞。另一個是 stringle 算法,前面提到的方法幾乎就是提取多個特征詞來顯示與 iatch 算法的差別,我們是用這兩種方法來檢查頁面的。當然,其中涉及一些公式,我不會在這裡列出它們。綜上所述,我想簡單總結一下,即總結一下,頁面檢查必須采取的三個步驟是特征詞提取,相似度計算評估相似,其次是消除重複網頁,網絡搜尋工作在分析系統中是不可或缺的一部分,其中涉及效率的問題也更為重要, 如何節省時間,節省空間,降低查詢成本。這些都是我們的研究所學生現在應該考慮的問題。

經過我們的網頁複查工作,還有中文分部的工作,這項工作也很重要,但也比較複雜。目前,國内外的研究人員也在絞盡腦汁地思考各種處理分化的方法,首先介紹什麼是漢語分化,漢語不像英語那樣有明顯的分化符号,漢語就沒有,而漢語涉及各種分化問題,漢語含糊不清實。相應的處理複雜度上升了,我們現在一般都有的方法就是通過字典來處理分詞,歧義有好幾個,有交叉、組合、混合。這裡的人臉可以有三種基本的分詞方法,分别是最大正向比對、最大負比對、雙方同時比對。那麼還有一個依靠統計原理進行分詞,使用者輸入中文搜尋詞很多,我們隻能通過日常生活中的人們經常使用一些詞來推測,我讀過一些關于分詞的論文,這裡提到的兩種方法大多,這裡也是考慮研究, 想想我們可以用來進行高效分産的更好方法。

最後一點是對pagerank算法的研究,這部分我之前也研究過,對于算法的各種改進算法,其實原來最原始的算法有很多缺點,我們後期的讀者也在這個基礎上提出了自己很多改進算法,效果也很好, 這篇文章也有很多東西需要研究和探索。

下面是總結和介紹第五章,索引系統存儲了大量的網頁,我們知道索引系統必須提供給使用者少于第二級的檢索時間,是以快速檢索,快速存儲,存儲是我們的最低要求。當涉及到索引時,索引也是資訊,或稱為資訊的資訊,或描述資訊的資訊。就像每本書中的索引一樣,索引可以幫助我們更快地閱讀參考書目并找到我們想要的資訊。此處使用了四種類型:反向索引、倒排表、臨時反轉檔案和最後倒排檔案。對于這四個的定義,讓我從反向索引開始,這是一個抽象的概念,不像最後四個,反向索引的三種不同表示形式。最後三個都是關于存儲的,臨時大小和最終大小之間略有不同。其餘的幾乎是一樣的。全文搜尋現在是搜尋引擎的主要搜尋方法,全文搜尋是資訊檢索領域的一場革命,它細化了資訊檢索的粒度,讓我們能夠更好地查詢到我們想要的資訊。提供了多視角、全方位的全新資訊檢索體驗,是以現在主流搜尋引擎都在用這種資訊檢索方式。

當然,全文搜尋也有相關的問題,比如搜尋結果的順序不合理,現在隻能搜尋标題,造成這些問題的原因是我們沒有考慮到文檔的内容。顧名思義,全文檢索是對整個文檔或網頁内容的搜尋,現在我們隻是檢索其中的一些資訊,例如标題或摘要或其他内容。是以,全文搜尋的本質概括為兩個:文檔的全文參與索引,搜尋結果可以提供搜尋詞在文檔中出現的位置資訊。這既考慮了文本内容的一緻性,也考慮了位置資訊的相關性,這可以滿足我們使用者的搜尋需求。在搜尋過程中我們的使用者輸入幾個關鍵詞,然後我們的搜尋引擎根據這些關鍵詞進行全文搜尋,最後把結果整理回給我們的使用者咨詢。關于文檔的編号,讓我總結一下我自己的了解,即每個文檔在網絡上都應該是唯一的,有自己唯一的編号,是以我們給每個文檔一個編号,就像我們的學生使用的學校編号一樣,一個被我們的爬行動物抓取然後給出相應編号的網頁。檔案編号和我們日常生活中的數字的不同之處在于,它們不需要被賦予意義,這就是為什麼我們要求提供這份檔案的編号,以及為什麼我們将該編号賦予該文檔。這個數字也是為了友善我們後續操作。當然,這種變化不是随便給出的,也是為了滿足相應的條件,每個文檔在其相對生命周期中隻能有一個編号,任意兩個不同的文檔都不能是同一個編号。為了便于計算,我們的文檔數量越短越好,友善使用計算機存儲,浪費的空間更少。下面對倒排指數的計算具體存儲方面不作歸納,每種計算方法都不同,有其簡單友善的一面,也有其資料結構的基本參考。用于建立索引的索引清單類似于 C + 中的索引清單,在數學上,與函數引用一樣,作業系統中磁盤的計劃或存儲基于此。總的來說,第五章設計到知識點還是比較多的,相對來說,還有很多比較困難的地方我沒有吃過,還要多看幾篇文章,慢慢消化,再進一步把方法中涉及的部分寫出來。現在還讀幾本書,或者更多的入門書,讀完每一次收獲都是不一樣的。

第6章是最後一步,搜尋引擎的最終目标是然後使用者輸入自己的查詢關鍵字,然後我們的搜尋引擎通過關鍵字進行搜尋。在搜尋引擎的四個系統中,第四個系統稱為查詢系統,查詢系統直接面向我們的使用者,在收到我們使用者的查詢請求後,通過搜尋、排序和彙總計算工作,将計算結果組織成搜尋結果頁面傳回給我們的使用者。而我們的搜尋引擎必須保證整個查詢過程必須快,并且必須能夠向使用者提供傳回的結果,以使使用者滿意。如果隻是将結果快速傳回給我們的使用者,則無法保證對結果感到滿意,這當然是不夠的。在查詢系統中涉及的概念是資訊熵,資訊熵是資訊的量化過程,大學資料結構引入了哈弗曼碼,該碼通過計算不同詞語的頻率來建構霍夫曼樹或哈弗曼碼,通常高頻詞彙編碼比較短,低頻詞彙編碼比較較長, 但是直覺的東西還是無法解釋很多事情,下面的例子來說明資訊熵的概念,我們在生活中有很多例子,其中雙方同意遇到幾個類似的問題,在不考慮資訊安全的前提下,如何保證對方已經收到你的資訊, 一般你發短信給你的好朋友,隻有他回複了你的短信,你可以肯定他收到了你給他的資訊,但是你怎麼知道你收到了他給你的資訊,這是一個無限循環的問題,對于我們的留言編碼有很多種,對于上面的問題不能很好回答。

在我們的數學中,或者在計算機網絡中我們已經學會了溝通,包含的資訊越多,那麼我們的資訊就越有價值,機率論就分為很多種情況,當然,對溝通的需求消耗也比較大。資訊熵隻是解釋了機率與資訊的關系,即變量的不确定性越大,那麼熵值越大,需要的資訊量就越大,從中我們知道資訊熵是一個重要的概念。下面我想介紹一下搜尋和查詢的差別,本章的約定有一個前提,其實查詢對應一個搜尋,使用者端的查詢就是搜尋引擎對應的搜尋。也就是說,查詢的結果是搜尋引擎搜尋頁面,當然查詢詞和搜尋詞也是不同的,普通使用者向查詢系統送出的詞稱為查詢詞,然後當我們的查詢詞送出到我們的搜尋系統時就變成了搜尋詞。最後的概念是自動文本摘要,顧名思義,即從文本中提取的可以表示摘要的全文含義,使用者隻需要浏覽摘要就可以大緻了解文本的主要内容,使用者隻需要檢視自己的查詢詞和摘要在文檔中的相關性,就可以知道文檔是否是自己想要的文檔。

本章的第二部分涉及幾種搜尋模型,這些模型在開始時在許多書籍中都有介紹。這部分涉及很多公式,能了解的很少,很多已經成型,從最簡單的布爾模型,并不是說模型就是布爾模型,在這兩種情況下,也比較簡單,不需要太多了解很多情況,很多搜尋引擎首先使用布爾模型,然後使用向量空間模型進一步查詢關聯, 和使用者查詢相似性。至于如何生成搜尋結果頁面,我在這裡沒有詳細介紹,現在有一些我不明白的東西,是以等我了解足夠深入,以充分了解這部分知識。好好寫完,再寫出來,說實話老師要我寫這篇雙周報告,其實我寫出來我也知道不給你看,就是給我看,大論文寫作涉及幾十萬字之後,還要自己完成。通常時間的積累可以反映出價值,也許我平時寫的語氣也有點口語化。我後來試着改變它,寫得像我自己的總結,也要按照論文的寫作規範來寫。我會注意這種方法的訓練。以上各部分的總結都是膚淺的,後續我還會繼續寫得更深一點,因為每個概念都必須了解,隻有這樣才能更好的打下基礎,才能有友善的後續開發。這個總結我已經讀了不下5遍,每次讀完感覺還行,雖然寫得不是很好,但畢竟是我幾個月的總結和思考結果都介紹過了,然後會繼續鞏固結果,繼續閱讀更多的論文和好書, 隻有不斷提高自己的知識,或者号召去拓展自己的知識,才能更好地面對更大的挑戰。我相信自己的能力,别人能做到,我也能做到!!!正如史先生所說,現在什麼都不懂,那麼必須懂最後,欺騙自己是沒有意思的,大學奮鬥了四年,隻有今天的成績,我還是會努力為将來打好基礎,準備福,再做好學術研究,我喜歡這種工作。

繼續閱讀