天天看點

淺談Google蜘蛛抓取的工作原理(02)

Sitemap

網站地圖是包含您希望在 Google 中的頁面完整清單的文檔。您可以通過谷歌搜尋控制台(索引>網站地圖)向 Google 送出網站地圖,以便讓 Googlebot 知道要通路和爬行哪些頁面。網站地圖還告訴谷歌,如果有任何更新在您的網頁上。

注意:網站地圖并不能保證Googlebot在爬行您的網站時會使用它。爬行者可以忽略您的網站圖,并繼續以其決定的方式爬行網站。盡管如此,沒有人因為有網站圖而被懲罰,在大多數情況下,它被證明是有用的。一些 CMS 甚至會自動生成站點圖、更新它并将其發送到 Google,使您的 SEO 流程更快、更輕松。如果您的網站是新的或大的(有超過500個網址),請考慮送出網站圖。

索引說明

在爬行和索引頁面時,Google 會遵循某些說明,例如Robots.txt、Noindex标簽、robots元标簽和X-Robots标簽。

Robots.txt 是一個根目錄檔案,限制一些頁面或内容元素從谷歌。一旦Googlebot發現你的頁面,它就會檢視Robots.txt檔案。如果發現頁面被Robots.txt限制爬行,Googlebot 将停止從該頁面中爬行和加載任何内容和腳本。此頁面不會顯示在搜尋中。

Noindex标簽、robots元标簽和X-Robots标簽是用于限制爬行者爬行和索引頁面的标簽。Noindex标簽限制所有類型的爬行器對頁面進行索引。使用robots元标簽來指定如何爬行和索引特定頁面。這意味着您可以阻止某些類型的爬行者通路頁面,并保持頁面對其他頁面的開放。X-Robots标簽可用作HTTP 标頭響應的元素,該響應可能會限制頁面索引或浏覽頁面上的爬行者行為。此标簽允許您針對單獨類型的爬行機器人(如果指定)。如果沒有指定機器人類型,說明将适用于所有類型的爬行者。

注意:Robots.txt檔案并不能保證頁面被排除在索引之外。Googlebot将此文檔視為建議而不是訂單。這意味着谷歌可以忽略Robots.txt并索引一個頁面進行搜尋。如果您想確定頁面不會被索引,請使用Noindex标簽。

所有頁面都可用于爬行嗎?

不。某些頁面可能無法用于爬行和索引。讓我們仔細看看這些類型的頁面:

受密碼保護的頁面。Googlebot 模拟了匿名使用者的行為,該使用者沒有任何憑據通路受保護的頁面。是以,如果頁面受到密碼保護,它不會被爬行,因為 Googlebot 将無法通路它。

索引說明排除的頁面。這些頁面來自Robots.txt,帶有Noindex标簽、robots元标簽和X-Robots标簽。

孤兒頁面。孤兒頁面是網站中任何其他頁面中未連結的頁面。Googlebot是一個蜘蛛機器人,這意味着它通過跟蹤它找到的所有連結來發現新的頁面。如果沒有指向頁面的連結,則頁面将不會被爬行,也不會在搜尋中出現。

有些頁面被限制故意爬行和索引。這些通常是不打算在搜尋中顯示的頁面:具有個人資料、政策、使用條款、頁面測試版本、存檔頁面、内部搜尋結果頁面等的頁面。

但是,如果您想讓您的頁面可供爬行并帶來流量,請確定您不會保護帶有密碼、思維連結(内部和外部)的公共頁面,并仔細檢查索引說明。

要檢查 Google 搜尋控制台中網站頁面的可爬行性,請轉到Index >Coverage 報告。注意标記 Error(未索引)和 Valid with warning(索引,但有問題)。

淺談Google蜘蛛抓取的工作原理(02)

注意:如果您不希望 Googlebot 查找或更新任何頁面(一些舊頁面,您不再需要的頁面),請将其從站點地圖中删除,如果您有頁面,請設定404 Not Found 狀态,或用Noindex标簽标記它們。

我的網站何時會出現在搜尋中?

很明顯,在您建成網站後,您的網頁不會立即出現在搜尋中。如果你的網站是絕對新的,Googlebot将需要一些時間來找到它在網絡上。請記住,在某些情況下,這種"某些"可能需要長達 6 個月的時間。

如果 Google 已經了解了您的網站,并且您進行了一些更新或添加了新頁面,那麼網站在 Web 上的外觀變化速度取決于抓取預算。

抓取預算是Google 在爬行您的網站上花費的資源量。Googlebot 需要的資源越多,搜尋速度就越慢。

抓取預算配置設定取決于以下因素:

網站人氣。網站越受歡迎,谷歌在爬行上願意花費的爬行點就越多。

更新速率。更新頁面的頻率越高,您的網站獲得的爬行資源就越多。

頁數。頁面越多,爬行預算就越大。

處理爬行的伺服器容量。托管伺服器必須能夠按時響應爬行器的請求。

請注意,爬行預算并非均等地用于每個頁面,因為某些頁面會消耗更多資源(因為 JavaScript 和 CSS 過重,或者因為 HTML 雜亂無章)。是以,配置設定的爬行預算可能不足以像您預期的那樣快速爬行所有頁面。

除了嚴重的代碼問題外,爬行不良和非理性爬行預算支出的一些最常見的原因是重複内容問題和結構不良的 URL。

重複内容問題

重複内容有好幾頁内容大多相似。這可能發生的原因有很多,例如:

以不同的方式到達頁面:有或沒有www,通過http或https;

動态網址-當許多不同的URL導緻相同的頁面:

頁面版本的 A/B 測試。

如果不修複,重複的内容問題會導緻 Googlebot 多次爬行同一頁面,因為它會認為這些都是不同的頁面。是以,爬行資源被浪費在徒勞的,Googlebot 可能無法找到其他有意義的網頁,您的網站。此外,重複内容會降低頁面在搜尋中的位置,因為 Google 可能會認為您的網站的整體品質較低。

事實是,在大多數情況下,你不能擺脫大多數的東西,可能會導緻重複的内容。但是,您可以通過設定規範的URL來防止任何重複的内容問題。規範标簽表示哪個頁面應被視為"主",是以指向同一頁面的 URL 的其餘部分将不會索引,您的内容也不會重複。您還可以在機器人的幫助下限制機器人通路動态網址.txt檔案。

網址結構問題

人機算法都對使用者友好型 URL表示贊賞。Googlebot也不例外。Googlebot可能會感到困惑,當試圖了解長和參數豐富的網址。是以,更多的爬行資源被花費。為了防止這種情況,使您的網址使用者友好。

確定您的 URL 清晰,遵循邏輯結構,具有适當的标點符号,并且不包括複雜的參數。換句話說,您的網址應該看起來像這樣:

http://example.com/vegetables/cucumbers/pickles

但事實是,如果您是大型(100萬以上網頁)或中型(10,000以上網頁)網站的所有者,且其内容(每天或每周)頻繁更改,才需擔心這一點。在其餘情況下,您隻需要正确優化您的網站進行搜尋,并按時修複索引問題。

總結

Google的主要爬行者,Googlebot,在複雜的算法下運作,但你仍然可以"導航"它的行為,使其有利于您的網站。此外,大多數爬行過程優化步驟重複了我們都熟悉的标準 SEO 步驟。

繼續閱讀