天天看點

搜尋引擎篇:網站根目錄 “robots.txt” 檔案寫法

robots.txt聲明網站中哪些目錄不讓搜尋引擎收錄。

robots.txt寫法。添加sitemap連結。

搜尋引擎會優先讀取sitemap.xml檔案,如果沒有就逐個抓取URL。

基本文法

User-agent:定義禁止搜尋引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜尋引擎

Disallow:不允許收錄

Allow:允許收錄

全站屏蔽所有蜘蛛:

網站改版之前,為了避免蜘蛛抓取錯誤或臨時的連結,可以采用全站屏蔽蜘蛛的操作,在根目錄建立robots.txt,添加如下内容:

User-agent:*
Disallow:/
           

屏蔽某個目錄、檔案:

案例:屏蔽所有蜘蛛抓取根目錄下的inc檔案夾及裡面的所有内容,根目錄下的wap目錄下的index.html檔案。robots.txt檔案添加如下内容:

User-agent:*
Disallow:/inc/
Disallow:/wap/index.html
           

屏蔽某個目錄,但抓取目錄下的檔案或檔案夾

①案例:屏蔽所有蜘蛛抓取根目錄下的wap檔案夾,但抓取裡面字尾名為html的檔案

User-agent:*
Disallow:/wap/
Allow:/wap/*.html
           

注意:上面的寫法,wap帶“/”代表根目錄下的wap目錄下的内容。并不會禁止比如根目錄下waptest的檔案夾及檔案夾所有内容。

②案例:禁止抓取根目錄下所有前面帶“wap”字元的檔案夾及檔案

User-agent:*
Disallow:/wap
禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html。
           

③案例:保護隐私檔案夾或檔案

在别讓網站的robots成為最大的安全漏洞一文說到,禁止搜尋引擎抓取某些私密檔案夾的同時,也暴露了網站的目錄結構,猜出網站背景管理系統、背景等。

比如:禁止抓取/include,就可以寫成如下,當然前提是你的根目錄裡面沒有前面帶這些字元的檔案夾或檔案給蜘蛛抓取。

User-agent:*
Disallow:/inc
           

屏蔽動态URL

網站有些動态頁面可能會和靜态頁面相同,造成重複收錄。

①案例:用robots屏蔽動态URL

User-agent:*
Disallow:/*?*
           

②案例:僅允許通路“.html”為字尾的URL

User-agent:*
Allow:.html$
Disallow:/
           

屏蔽死連結

網站改版、删除文章後,原來的URL如果已經被搜尋引擎索引,出現404錯誤。一般的做法如下:

①檢視網站日志,找出這些死鍊,用百度送出死鍊工具送出,慢慢的會删除這些死鍊;

②如果這個連結已經更換,也可以用301跳轉到新的連結,301跳轉後原頁面和新頁面處理辦法;

③robots禁止蜘蛛抓取死鍊,寫法同上,最好帶完整路徑

User-agent:*
Disallow:http://www.buymashop.com/sitemap.html
           

屏蔽不參與排名的頁面連結

比如會員中心、登陸界面、聯系我們等。這些雖然有實際用途,蜘蛛一樣會爬取這些頁面連結,這些頁面也會分權,是以為了集中權重,一些完全不參與排名的頁面應該用robots屏蔽。也可以在該頁面的之前添加聲明,指向該頁面的連結加上nofollow标簽。

<a rel="nofollow" href="/member/login">登陸</a>
           

sitemap索引在robots.txt的位置

sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原則,再按照網站地圖爬取。

Sitemap: http://www.buymashop.com/sitemap.xml
Sitemap: http://www.buymashop.com/sitemap.html           

繼續閱讀