一、什麼是Robots.txt?
Robots.txt 是存放在站點根目錄下的一個純文字檔案。雖然它的設定很簡單,但是作用卻很強大。它可以指定搜尋引擎蜘蛛隻抓取指定的内容,或者是禁止搜尋引擎蜘蛛抓取網站的部分或全部内容。
當搜尋蜘蛛通路這個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋蜘蛛就會先讀取這個檔案的内容是以Robots.txt 檔案應該放在網站根目錄下,并且該檔案是可以通過網際網路進行通路的。
二、檔案寫法
User-agent: * 這裡的*代表的所有的搜尋引擎種類,*是一個通配符
Disallow: / 這裡定義是禁止爬尋站點所有的内容
Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄
Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止通路/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。
Disallow: /? 禁止通路網站中所有包含問号 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖檔
Disallow:/ab/adc.html 禁止爬取ab檔案夾下面的adc.html檔案。
Allow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許通路以".htm"為字尾的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖檔
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖