淺談Google蜘蛛抓取的工作原理(01)

首先，Google 蜘蛛尋找新的頁面。然後，Google 對這些頁面進行索引，以了解它們的内容，并根據檢索到的資料對它們進行排名。爬行和索引是兩個不同的過程，但是，它們都由爬行器執行。

什麼是爬行器？

爬行器（也稱搜尋機器人，蜘蛛）是谷歌和其他搜尋引擎用來掃描網頁的軟體。簡單地說，它"爬"網頁從一頁到另一頁，尋找谷歌還沒有在其資料庫新增或修改的内容。

任何搜尋引擎都有自己的爬行器。至于谷歌，有超過15種不同類型的爬行器，谷歌的主要爬行器被稱為Googlebot。Googlebot同時執行爬行和索引，下面我們将仔細看看它是如何工作的。

爬行器如何工作？

這裡沒有URL的中央系統資料庫，每當建立新頁面時都會更新。這意味着谷歌不會自動"提醒"他們，但必須在網上找到它們。Googlebot 不斷在網際網路上徘徊，搜尋新頁面，并将它們添加到谷歌現有頁面的資料庫中。

一旦 Googlebot 發現新頁面，它将在浏覽器中呈現（可視化）頁面，加載所有 HTML、第三方代碼、JavaScript 和 CSS。此資訊存儲在搜尋引擎的資料庫中，然後用于索引和對頁面進行排名。如果一個頁面已被索引，它被添加到谷歌索引—— 一個超級巨大的谷歌資料庫。

爬行器如何檢視頁面？

爬行器在最新版本的Google浏覽器中呈現一個頁面。在完美的場景中，爬行者會以您設計群組裝頁面的方式"展示"頁面。在真實的情況下，事情可能會更加複雜。

移動和桌面渲染

Googlebot可以"看到"你的頁面與兩個子類型的爬行者：桌面Googlebot和智能手機Googlebot。需要此部門為桌面和移動 SERP 索引頁面。

幾年前，谷歌使用桌面爬行器通路并渲染了大部分頁面。但随着移動第一概念的引入，情況發生了變化。谷歌認為，世界變得足夠對移動友好，并開始使用智能手機Googlebot來抓取、索引和排名移動和桌面SERP網站的移動版本。

盡管如此，實施移動先發制人索引結果卻比預期的要困難。網際網路是巨大的，大多數網站似乎對移動裝置的優化不佳。這使得谷歌使用移動第一的概念來爬行和索引新網站和那些老網站，成為完全優化的移動。如果一個網站不友善移動，它是由桌面Googlebot第一手抓取和渲染。

即使您的網站已轉換為移動先索引，您仍将有一些頁面由 Googlebot 桌面抓取，因為 Google 希望檢查您的網站在桌面上的表現。谷歌沒有直接說，如果與手機版本有很大不同，它将為您的桌面版本提供索引。不過，假設這一點是合乎邏輯的，因為谷歌的主要目标是為使用者提供最有用的資訊。谷歌幾乎不想盲目地遵循移動第一的概念來失去這些資訊。

注意：在任何情況下，您的網站将被移動Googlebot和桌面Googlebot通路。是以，重要的是要照顧你的網站的兩個版本，并考慮使用響應式布局，如果你還沒有這樣做。

如何知道谷歌是否以移動第一的概念抓取和索引您的網站？您将在谷歌搜尋控制台收到特别通知。

HTML 和 JavaScript 渲染

Googlebot 在處理和渲染笨重代碼方面可能會遇到一些問題。如果您的頁面代碼混亂，爬網程式可能無法正确呈現它并考慮您的頁面為空。

至于JavaScript渲染，你應該記住，JavaScript是一種快速發展的語言，Googlebot 有時可能無法支援最新的版本。確定您的JS與Googlebot 相容，否則您的頁面可能會呈現錯誤。

注意您的JS加載時間。如果腳本加載需要超過 5 秒，Googlebot 将不會渲染和索引該腳本生成的内容。

注意：如果你的網站充滿了大量的JS元素，并且你不能沒有它們，谷歌建議 server-side rendering(伺服器側渲染)。這将使您的網站加載速度更快，并防止 JavaScript 錯誤。

要檢視頁面上的哪些資源會導緻渲染問題（并實際檢視您是否有任何問題），請登入 Google Search Console帳戶，轉到URL 檢查，輸入要檢查的 URL，單擊測試實時 URL按鈕，然後單擊"View Tested Page"。

然後轉到"More Info"部分，單擊頁面資源和JavaScript 控制台消息檔案夾，檢視 Googlebot 未能呈現的資源清單。

現在，您可以向網站管理者顯示問題清單，并要求他們調查和修複錯誤。

什麼影響爬行者的行為？

Googlebot 的行為并不混亂——它是由複雜的算法決定的，這些算法可以幫助爬行者浏覽網絡并設定資訊處理規則。

然而，算法的行為不是你什麼也做不了，希望得到最好的結果。讓我們仔細看看什麼影響爬行者的行為，以及如何優化頁面的爬行。

内部連結和反向連結

如果Google已經知道您的網站，則Googlebot會不時檢查您的首頁上是否有更新。是以，将指向新頁面的連結放置在網站的權威頁面上至關重要。理想情況下，在首頁上。

您可以用一個塊來豐富您的首頁，該塊将具有最新的新聞或部落格文章，即使你有單獨的新聞頁面和部落格。這将使Googlebot找到你的新頁面更快。這個建議可能看起來相當明顯，盡管如此，許多網站所有者仍然忽視它，這導緻了糟糕的索引和低倉位。

在爬行方面，反向連結的工作相同。是以，如果你添加了一個新的頁面，不要忘記外部促銷。您可以嘗試客人發帖、發起廣告活動或嘗試任何其他方式，讓 Googlebot 檢視新頁面的 URL。

注意：連結應該遵循，讓Googlebot 跟随他們。雖然谷歌最近表示，沒有跟随連結也可以用作爬行和索引的提示，我們仍然建議使用dofollow。隻是為了確定爬行者确實看到頁面。

單擊深度

單擊深度顯示頁面離首頁有多遠。理想情況下，網站的任何頁面應在 3 次點選内到達。更大的點選深度會減慢爬行速度，并且幾乎不會使使用者體驗受益。

您可以使用Web 網站稽核員檢查您的網站是否與點選深度有關。啟動該工具，然後轉到站點結構>頁面，并注意點選深度列。

如果您看到某些重要頁面離首頁太遠，請重新考慮網站結構的安排。良好的結構應該是簡單和可擴充的，是以你可以添加盡可能多的新頁面，你需要沒有負面影響的簡單性。

淺談Google蜘蛛抓取的工作原理(01)

什麼是爬行器？

爬行器如何工作？

爬行器如何檢視頁面？

移動和桌面渲染

HTML 和 JavaScript 渲染

什麼影響爬行者的行為？

内部連結和反向連結

繼續閱讀

vue （vue2.0）使用總結(從大體結構總結)

無元件上傳圖檔到資料庫中，最完整解決方案

vue搭建過程及出現問題

【MySQL資料庫】資料庫索引事務1.索引2.事務

/\B(?=(?:\d{3})+$)/g 一條令人費解的正規表達式

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

适用于JavaScript的ECMAScript 2020規範向前發展

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

JS生成uuid的四種方法

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

layui多任務上傳添加進度條

hdu7108哈希