搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引

作為一名 Web 站點開發人員，使您的 Web 站點得到搜尋引擎的關注是獲得成功的關鍵因素之一。在這個共分四部分的系列中，您将學習對 Web 站點進行有機優化所需的基礎知識。在這個系列的第 3 部分中，您将學習如何讓 Web 站點的頁面進入搜尋索引。

Web 搜尋是熱點，而且越來越熱門。四分之三的 Web 使用者經常進行搜尋，64% 的 Web 使用者以搜尋作為尋找資訊的主要方法（參見參考資料中相關研究的連結）。這些使用者會找到您的站點嗎？您的 Web 站點會錯過機會嗎？

在本系列的前兩部分中，Jennette Banks 概述了搜尋營銷（第 1 部分）以及關鍵詞規劃和優化的基礎知識（第 2 部分）。

在第 3 部分中，我們重點介紹讓 Web 站點的頁面進入搜尋索引所需的知識。搜尋索引是 Google 和 Yahoo!® 這樣的搜尋引擎在使用者進行搜尋時使用的資料庫。如果 Web 頁面沒有被編入搜尋引擎的索引，那麼引擎就不會找到它，是以将頁面添加到索引中是取得 SEO 成功的關鍵一步。

我的站點上有多少頁面進入了索引？

如果想知道您的站點上有多少頁面進入了索引，那麼先做個簡單的測試。進入 Google 或者您喜歡的其他搜尋引擎，搜尋您公司的名稱。如果公司名稱是一個常見名稱（比如 AAA Plumbing 或 Acme Industries），那麼再加上地區（AAA Plumbing Peoria）或公司最出名的産品（Acme Industries sheet metal），看看您的站點是否被找到了。

如果發現一個 Web 站點根本沒有被編入搜尋索引中，那麼通常有兩個原因：

站點是新的。如果 Web 站點是剛剛建立的，而且在搜尋索引中沒有其他站點連結到它，那麼搜尋引擎還沒有發現它。在這種情況下，隻需讓其他某些站點連結到您的站點。
站點被禁止了。如果搜尋引擎認為您的站點采用了不道德的（即黑帽）SEO 做法，就可能會從它們的索引中删除您的所有頁面。如果您發現自己處于這種糟糕的境地，那麼找一位搜尋營銷專家來對站點進行分析并找出違反道德的地方，在糾正問題之後，向搜尋引擎請求予以 “寬恕”。

如果幸運的話，在搜尋引擎中輸入公司名稱時，至少會找到您 Web 站點上的一個頁面。通常情況是任何特定的搜尋引擎隻将您的部分頁面編入了索引中，但是如果幾乎所有頁面都被編入了索引，就更好了。沒有編入索引的頁面越多，您站點的潛在通路者就越有可能轉向您的競争對手（如果他們的頁面已編入索引）。

包含率

首先，計算包含率（inclusion ratio），也就是被搜尋引擎編入索引的頁面占總頁面數的百分比。當然，理想的包含率是 100%，但是稍微低一些也可以讓人滿意。如果頁面中隻有不到 50% 被包含在搜尋索引中，那麼就要認真對待了。

為了計算包含率，将搜尋引擎索引中的頁面數除以您站點上的頁面總數。如果您的 Web 站點相當小，那麼估算站點的頁面總數可能很容易，但是對于大型站點，有時候很難查明有多少個頁面。對于大型站點，可以使用幾種方法估算頁面數：

詢問 Web 管理者。Web 管理者以前肯定被問到過這個問題，他很可能已經做過研究。
統計内容管理系統中的文檔數量。通常，每個文檔會建立一個獨特的頁面，是以這會給出頁面數的估計值。
使用工具：OptiSpider™ 或 Xenu 等程式會檢查站點并報告找到了多少個頁面（參見參考資料）。

對 Web 站點的規模進行估算之後，就要查明站點中有多少頁面被編入了索引。Google、Yahoo! Search 和 MSN Search 都提供了 “site:” 操作符，它會報告您需要知道的資訊。輸入 site:，後面加上您的域名（比如 site:kodak.com），檢視傳回的結果。更友善的工具是 Marketleap 的免費工具 Saturation Reporting Tool（參見參考資料），它會顯示任何站點在每個搜尋索引中的頁面數。

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引

回頁首

爬行器路徑

如果計算包含率的結果很糟糕，那麼該怎麼辦呢？首先，我們回顧一下搜尋引擎如何将頁面編入索引。搜尋引擎使用專門設計的稱為爬行器（spider 或 crawler）的程式來檢查站點上的頁面。

爬行器收集每個頁面的 HTML，并記錄到其他頁面的連結，這樣以後它就可以去收集這些頁面的 HTML。您可以想像到，經過足夠長的時間之後，爬行器最終會找到 Web 上的每個頁面（至少是每個連結到其他頁面的頁面）。獲得頁面，找到頁面上的所有連結，然後獲得連結到的那些頁面，這個過程稱為 “在 Web 上爬行”。

因為爬行器是這樣工作的，建立對每個頁面的連結可以簡化讓站點被編入索引的任務 —— 我們将這些技術稱為爬行器路徑（spider path）。您的站點已經包含路徑，而且可能已經有了最重要的爬行器路徑類型：站點地圖。如果站點隻包含少量頁面，那麼站點地圖可以列出并連結到站點上的每個頁面。

但是，站點地圖不應該超過 100 個連結，是以比較大的站點地圖必須連結到分類頁面，這些頁面再連結到站點上的其他頁面。最大型的 Web 站點通常劃分成針對各個國家的分站，這就需要特殊的站點地圖，稱為國家地圖（country map），其中列出每個國家的名稱并連結到各個國家站點的首頁。爬行器非常喜歡這種技術。（參見參考資料中大型站點地圖的示例。）

隻有爬行器到了您的站點上，站點地圖才會發揮作用，但是還有更加主動的使頁面被編入索引的方法。Google 和 Yahoo! 都提供包含程式（inclusion program），專門用來使頁面被編入索引。Google 的 beta 程式稱為 Sitemaps（參見參考資料），它是免費的，提供幾種向 Google 爬行器通知頁面位置的方法。甚至可以請求 Google 對您的一部分頁面進行更頻繁的索引更新。Yahoo! 提供一個付費的包含程式 SiteMatch（參見參考資料），它承諾在 48 小時内對您的頁面重新編制索引。（Google 對時間沒有做出承諾。）

RSS feed 提供了另一種方法，可以在頁面釋出時使頁面迅速地被編入索引。使用 Ping-O-Matic!（參見參考資料）通知搜尋引擎在 RSS feed 有了新條目，新條目常常會在一兩天内被編入索引。

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引

回頁首

清理爬行器路徑

徒步旅行的隊伍要讓開路者去探索和标出前進路線，但是開路者必須經常清理這些路徑，使路徑不會損毀或荒廢。爬行器路徑也是一樣的；除非經常檢查它們，否則很可能就會阻塞了。

如果您忽視了爬行器的工作方式，爬行器路徑就很容易成為爬行器陷阱。對人來說很好的頁面卻可能阻礙爬行器。爬行器是自動的，是以不會像人類通路者那樣填寫系統資料庫單。如果連結到站點上的頁面所需的操作不僅僅是沿着 HTML 錨标記走，那麼這個連結可能會對爬行器隐藏。

這意味着 JavaScript、Flash、frames 和 cookie 也會造成問題。如果您的 Web 頁面沒有這些技術就根本無法顯示，那麼頁面就不會被爬行器編入索引。另外，如果使用者需要這些技術才能使用連結，那麼爬行器就無法沿着連結前進。

爬行器隻檢視 HTML 代碼，就像有視力障礙的使用者所用的螢幕閱讀器一樣。要想體會一下爬行器看到了什麼，可以在檢視頁面時禁用浏覽器對 cookie、JavaScript 和圖形的支援，或者使用文本模式的 Lynx 浏覽器或 Lynx Viewer（參見參考資料）。如果頁面可以使用 Lynx 完整地顯示，那麼它們很可能能夠被編入索引。根本不顯示或者顯示得很不完整的頁面不容易被搜尋引擎找到。

即使您避免使用這些惹麻煩的技術，仍然可能會給爬行器造成阻礙。爬行器對 HTML 代碼的正确性要求非常嚴格 —— 浏覽器就要寬容多了。在浏覽器中看起來很好的頁面卻可能阻礙爬行器，這會使爬行器看不到或誤解整個頁面或部分頁面。HTML 檢驗服務（參見參考資料）和 Firefox 浏覽器可以發現這些錯誤。

還必須注意爬行器對每個頁面的内容大小限制。大多數爬行器隻對頁面中的前 100,000 個字元編制索引。這個數字聽起來似乎很大，但是如果在頁面中添加 JavaScript 程式和樣式表，或者把整個使用者手冊放進一個 PDF 檔案中，那麼很快就會達到這個限制。是以，可以考慮将手冊分割為每章一個 PDF，并将所有 JavaScript 和樣式表代碼轉移到外部檔案中。

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引

回頁首

歡迎爬行器

清理了爬行器路徑之後，必須確定爬行器是受歡迎的。最明顯的建議是，當爬行器到達時，確定站點正在運作，能夠做出響應。因為不知道爬行器什麼時候會通路您的站點，頻繁地停機（即 “維護時間窗”）會有風險，如果爬行器在站點停機時到來，它就會認為站點是失效的，進而轉到其他站點去。

如果站點的響應速度非常慢，這幾乎和完全失效一樣糟糕，因為爬行器是按進度計劃運作的。對于緩慢的站點，它們編入索引的頁面更少，而且再次通路的頻率更低，因為在同樣的時間内它們能夠在其他地方處理更多的頁面。

即使您的站點通常不停機而且速度很快，仍然有可能由于錯誤地編寫了機器人指令（robots instruction）而将爬行器拒之門外。可以使用 robots.txt 檔案讓爬行器避開某些頁面、目錄或整個站點，是以如果站點的指令編寫錯了，就可能趕走爬行器。另外，每個頁面都可以有一個 robots 标記，它訓示爬行器是否将這個頁面編入索引，以及是否沿着其中的連結前進（參見參考資料。）

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引

回頁首

留住爬行器

即使您的站點歡迎爬行器，也不能保證它以後不會遺棄這個站點。

會阻礙爬行器的一個問題是對頁面使用長的動态 URL。許多動态 URL 需要用參數來選擇要顯示的内容，比如來自 Canada 産品目錄的産品 2372 的法文說明。爬行器很反感這些動态站點，因為參數的組合幾乎是無窮的 —— 爬行器不希望在站點中迷路。當爬行器看到 URL 超過 1,000 個字元或者其中的參數超過兩個時，它們往往會跳過這些頁面。

如果您的站點存在這些有問題的 URL，就必須參考 Web 伺服器的文檔，研究如何改變 URL 的形式以使爬行器滿意。例如，Apache 使用 “mod_rewrite” 功能（參見參考資料）修改 URL，其他 Web 伺服器也有相似的功能。

所謂的 “會話辨別符” 也會吓走爬行器。一些程式員在 URL 中建立一個參數，用來捕捉關于目前通路者的資訊（常常用 “id=” 加上惟一的字母數字編碼來辨別）。爬行器很讨厭這種技術，因為它導緻成百上千的不同 URL 顯示同樣的内容。程式員應該将這一資訊存儲在 Web 應用伺服器的會話層或者 cookie 中。（但是，正如前面讨論的，顯示頁面應該不需要 cookie，否則爬行器無法将它編入索引。）

分析了動态頁面之後，還要注意另一個可能給頁面造成麻煩的問題。重定向這種技術告訴浏覽器和爬行器請求的 URL 已經改變了。例如，如果您的公司改名了，它可能也會改變 Web 站點的域名，是以重定向可以将來自舊 URL 的所有通路者轉到新的 URL。但是，對于爬行器有效的重定向方法隻有一種：伺服器端重定向，也稱為 301 重定向（參見參考資料）。其他重定向技術對浏覽器是有效的，比如元重新整理重定向和 JavaScript 重定向，但是爬行器無法沿着這些重定向的路徑前進，這會使重定向的頁面不被編入搜尋索引。

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引

回頁首

結束語

顯然，頁面必須先被編入索引，然後搜尋引擎才能找到它們，但是大多數頁面沒有被編入索引。在 1999 年，所有 Web 頁面中大約有 16% 被搜尋引擎編入了索引，但是幾年之後，這個比例大大下降了：在 2001 年，估計隻有 0.03% 的頁面被編入了索引。

既然這個比例如此低，您的站點中很可能有許多頁面沒有被編入索引，是以這些頁面不可能被搜尋到。您現在知道應該如何解決這個問題了。

但是，僅僅進入搜尋索引還不夠。在這個 SEO 系列的第 4 部分中，我們将讨論大型 Web 站點特有的一些搜尋營銷問題，比如如何對動态頁面進行優化、如何跨多國站點工作以及如何讓大型團隊進行協同工作。

參考資料

學習

您可以參閱本文在 developerWorks 全球站點上的英文原文。
Nielsen//NetRatings statistics：了解網上購物和搜尋引擎方面的統計資料。
“Local Search Brings Consumers Home”：閱讀 ClickZ Network 上 Robyn Greenspan 的文章，了解有多少線上使用者利用搜尋尋找資訊。
Cadillac Web 站點：檢視這個大型站點地圖示例，其中包含連結到站點上其他頁面的分類頁面。
Ford Motor Company：這個 Web 站點在站點地圖中使用了國家地圖技術。
Search Engine World 的 Robots.txt Tutorial：學習如何編寫 robots.txt 檔案。
Web Robots Pages：學習如何編寫 robot 标記。
Apache Module mod_rewrite：用這個基于規則的重寫引擎來動态地重寫 URL。
學習如何進行 301 重定向。
Accessibility and Distribution of Information on the Web：參閱 NEC Research Institute 的 Steve Lawrence 和 Lee Giles 在 1999 年所做的研究，其中指出當時有 16% 的頁面被編入了索引。
BrightPlanet Deep Web 白皮書（2001 年）：了解編入索引的頁面數量比過去減少的情況。
Search Engine Marketing Inc.：關于提高站點的搜尋流量的步驟，請參閱本文作者所寫的 IBM Press 新書。
Safari 書店：尋找關于相關主題的圖書。
Web development 專區的技術庫：尋找關于各種基于 Web 的解決方案的文章和教程。

獲得産品和技術

OptiSpider（$98）或 Xenu（免費應用程式）：查明站點中有多少個頁面。
Marketleap 的免費工具 Saturation Reporting Tool：查明任何站點在每個搜尋引擎中編入的頁面數。
Google Sitemaps：請試用這個包含程式的免費 beta 版本。
Yahoo! Small Business SiteMatch：請研究這個付費的包含程式，它承諾在 48 小時内對您的頁面重新編制索引。
Ping-O-Matic!：它會通知搜尋引擎在 RSS feed 有了新條目。
Lynx 浏覽器：用這個文本模式的浏覽器體會一下頁面閱讀器（和搜尋引擎爬行器）如何看待您的站點。
Lynx Viewer：如果不想下載下傳 Lynx 浏覽器，可以使用這個工具。
W3C Markup Validation Service：用這個免費服務來檢查 HTML 和 XHTML Web 文檔是否符合 W3C Recommendations 和其他标準。

讨論

developerWorks blog：加入 developerWorks 社群。

作者簡介

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引
搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引	搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引	Bill 負責一個 Search Engine Marketing Strategists 團隊，他們幫助财富二百強公司用全球化視角管理企業的 SEM 規劃。Bill 目前被認為是企業和國際 SEM 政策方面最出色的專家，他是受到高度好評的 Search Engine Marketing, Inc.（由 IBM Press 出版）一書的合作作者。Bill 獲得了馬裡蘭大學（東京校區）的亞洲研究和日語 B.A. 學位，以及加利福尼亞州立大學（洛杉矶）的國際商務學士學位。他還是海軍陸戰隊的退伍兵。

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引
搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引	搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引	Search Engine Marketing, Inc. 一書的合作作者 Mike Moran 是一位 IBM Distinguished Engineer，他在 IBM Research、Lotus 和其他 IBM 軟體方面從事搜尋技術研究已經超過了 20 年。他在 1989 年上司了開發第一個商業語言學搜尋引擎的産品團隊，并獲得了搜尋和檢索技術方面的四項專利。他上司過 ibm.com 最初的搜尋引擎營銷政策的開發，以及與 ibm.com 的站點搜尋技術的內建。除了搜尋技術之外，他還在内容管理、個性化和 Web 尺度方面的 ibm.com 項目中發揮先鋒作用。Mike 目前是 ibm.com Web Experience 的經理，負責站點的設計、資訊架構、技術架構和運作。

搜尋引擎優化基礎，第 3 部分: 讓 Web 頁面進入搜尋引擎索引

繼續閱讀

趕工心得（一）

web OS —— goowy.com

（C# 程式設計指南）

你幸福嗎? 會的

緻意—程式員

十大酷炫屌的圖像懸停特效

前後端分離之跨域問題

在一個非套接字上嘗試了一個操作

門戶通專訪月光部落格：第一部落格是如何打造成的

門戶通專訪草根站長九天狼：做站貴在堅持

專家訪談：搜尋開源力量：Lucene技術前景

何為全棧工程師？你是否應該成為一名全棧工程師？

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

linux下的完美網銀們（google chrome, ubuntu10.04）

配置網頁内容通路

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch