天天看點

淺談Google蜘蛛抓取的工作原理(01)

首先,Google 蜘蛛尋找新的頁面。然後,Google 對這些頁面進行索引,以了解它們的内容,并根據檢索到的資料對它們進行排名。爬行和索引是兩個不同的過程,但是,它們都由爬行器執行。

什麼是爬行器?

爬行器(也稱搜尋機器人,蜘蛛)是谷歌和其他搜尋引擎用來掃描網頁的軟體。簡單地說,它"爬"網頁從一頁到另一頁,尋找谷歌還沒有在其資料庫新增或修改的内容。

任何搜尋引擎都有自己的爬行器。至于谷歌,有超過15種不同類型的爬行器,谷歌的主要爬行器被稱為Googlebot。Googlebot同時執行爬行和索引,下面我們将仔細看看它是如何工作的。

爬行器如何工作?

這裡沒有URL的中央系統資料庫,每當建立新頁面時都會更新。這意味着谷歌不會自動"提醒"他們,但必須在網上找到它們。Googlebot 不斷在網際網路上徘徊,搜尋新頁面,并将它們添加到谷歌現有頁面的資料庫中。

一旦 Googlebot 發現新頁面,它将在浏覽器中呈現(可視化)頁面,加載所有 HTML、第三方代碼、JavaScript 和 CSS。此資訊存儲在搜尋引擎的資料庫中,然後用于索引和對頁面進行排名。如果一個頁面已被索引,它被添加到谷歌索引—— 一個超級巨大的谷歌資料庫。

淺談Google蜘蛛抓取的工作原理(01)

爬行器如何檢視頁面?

爬行器在最新版本的Google浏覽器中呈現一個頁面。在完美的場景中,爬行者會以您設計群組裝頁面的方式"展示"頁面。在真實的情況下,事情可能會更加複雜。

移動和桌面渲染

Googlebot可以"看到"你的頁面與兩個子類型的爬行者:桌面Googlebot和智能手機Googlebot。需要此部門為桌面和移動 SERP 索引頁面。

幾年前,谷歌使用桌面爬行器通路并渲染了大部分頁面。但随着移動第一概念的引入,情況發生了變化。谷歌認為,世界變得足夠對移動友好,并開始使用智能手機Googlebot來抓取、索引和排名移動和桌面SERP網站的移動版本。

盡管如此,實施移動先發制人索引結果卻比預期的要困難。網際網路是巨大的,大多數網站似乎對移動裝置的優化不佳。這使得谷歌使用移動第一的概念來爬行和索引新網站和那些老網站,成為完全優化的移動。如果一個網站不友善移動,它是由桌面Googlebot第一手抓取和渲染。

即使您的網站已轉換為移動先索引,您仍将有一些頁面由 Googlebot 桌面抓取,因為 Google 希望檢查您的網站在桌面上的表現。谷歌沒有直接說,如果與手機版本有很大不同,它将為您的桌面版本提供索引。不過,假設這一點是合乎邏輯的,因為谷歌的主要目标是為使用者提供最有用的資訊。谷歌幾乎不想盲目地遵循移動第一的概念來失去這些資訊。

注意:在任何情況下,您的網站将被移動Googlebot和桌面Googlebot通路。是以,重要的是要照顧你的網站的兩個版本,并考慮使用響應式布局,如果你還沒有這樣做。

如何知道谷歌是否以移動第一的概念抓取和索引您的網站?您将在谷歌搜尋控制台收到特别通知。

淺談Google蜘蛛抓取的工作原理(01)

HTML 和 JavaScript 渲染

Googlebot 在處理和渲染笨重代碼方面可能會遇到一些問題。如果您的頁面代碼混亂,爬網程式可能無法正确呈現它并考慮您的頁面為空。

至于JavaScript渲染,你應該記住,JavaScript是一種快速發展的語言,Googlebot 有時可能無法支援最新的版本。確定您的JS與Googlebot 相容,否則您的頁面可能會呈現錯誤。

注意您的JS加載時間。如果腳本加載需要超過 5 秒,Googlebot 将不會渲染和索引該腳本生成的内容。

注意:如果你的網站充滿了大量的JS元素,并且你不能沒有它們,谷歌建議 server-side rendering(伺服器側渲染)。這将使您的網站加載速度更快,并防止 JavaScript 錯誤。

要檢視頁面上的哪些資源會導緻渲染問題(并實際檢視您是否有任何問題),請登入 Google Search Console帳戶,轉到URL 檢查,輸入要檢查的 URL,單擊測試實時 URL按鈕,然後單擊"View Tested Page"。

淺談Google蜘蛛抓取的工作原理(01)

然後轉到"More Info"部分,單擊頁面資源和JavaScript 控制台消息檔案夾,檢視 Googlebot 未能呈現的資源清單。

淺談Google蜘蛛抓取的工作原理(01)

現在,您可以向網站管理者顯示問題清單,并要求他們調查和修複錯誤。

什麼影響爬行者的行為?

Googlebot 的行為并不混亂——它是由複雜的算法決定的,這些算法可以幫助爬行者浏覽網絡并設定資訊處理規則。

然而,算法的行為不是你什麼也做不了,希望得到最好的結果。讓我們仔細看看什麼影響爬行者的行為,以及如何優化頁面的爬行。

内部連結和反向連結

如果Google已經知道您的網站,則Googlebot會不時檢查您的首頁上是否有更新。 是以,将指向新頁面的連結放置在網站的權威頁面上至關重要。 理想情況下,在首頁上。

您可以用一個塊來豐富您的首頁,該塊将具有最新的新聞或部落格文章,即使你有單獨的新聞頁面和部落格。這将使Googlebot找到你的新頁面更快。這個建議可能看起來相當明顯,盡管如此,許多網站所有者仍然忽視它,這導緻了糟糕的索引和低倉位。

在爬行方面,反向連結的工作相同。是以,如果你添加了一個新的頁面,不要忘記外部促銷。您可以嘗試客人發帖、發起廣告活動或嘗試任何其他方式,讓 Googlebot 檢視新頁面的 URL。

注意:連結應該遵循,讓Googlebot 跟随他們。雖然谷歌最近表示,沒有跟随連結也可以用作爬行和索引的提示,我們仍然建議使用dofollow。隻是為了確定爬行者确實看到頁面。

單擊深度

單擊深度顯示頁面離首頁有多遠。理想情況下,網站的任何頁面應在 3 次點選内到達。更大的點選深度會減慢爬行速度,并且幾乎不會使使用者體驗受益。

您可以使用Web 網站稽核員檢查您的網站是否與點選深度有關。啟動該工具,然後轉到站點結構>頁面,并注意點選深度列。

淺談Google蜘蛛抓取的工作原理(01)

如果您看到某些重要頁面離首頁太遠,請重新考慮網站結構的安排。良好的結構應該是簡單和可擴充的,是以你可以添加盡可能多的新頁面,你需要沒有負面影響的簡單性。

淺談Google蜘蛛抓取的工作原理(01)