天天看點

如何給網站加上robots.txt、robots.txt有什麼用?

一、什麼是Robots.txt?

Robots.txt 是存放在站點根目錄下的一個純文字檔案。雖然它的設定很簡單,但是作用卻很強大。它可以指定搜尋引擎蜘蛛隻抓取指定的内容,或者是禁止搜尋引擎蜘蛛抓取網站的部分或全部内容。

當搜尋蜘蛛通路這個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋蜘蛛就會先讀取這個檔案的内容是以Robots.txt 檔案應該放在網站根目錄下,并且該檔案是可以通過網際網路進行通路的。

二、檔案寫法

User-agent: * 這裡的*代表的所有的搜尋引擎種類,*是一個通配符

Disallow: / 這裡定義是禁止爬尋站點所有的内容

Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄

Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止通路/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。

Disallow: /? 禁止通路網站中所有包含問号 (?) 的網址

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖檔

Disallow:/ab/adc.html 禁止爬取ab檔案夾下面的adc.html檔案。

Allow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄

Allow: .htm$ 僅允許通路以".htm"為字尾的URL。

Allow: .gif$ 允許抓取網頁和gif格式圖檔

Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

繼續閱讀