robots 協定介紹

2023-04-13 03:35:04

robots.txt怎麼寫

　　1、允許所有搜尋引擎通路

　　User-agent: *

　　Disallow:

　　或者

　　User-agent: *

　　Allow: /

　　在這裡大家要注意下，可以最直接的建一個空檔案 “robots.txt”然後放到網站的根目錄。

　　2、禁止所有搜尋引擎通路

　　User-agent: *

　　Disallow: /

　　或者

　　User-agent: *

　　allow:

　　3、禁止所有搜尋引擎通路網站中的幾個部分，在這裡我用a、b、c目錄來代替

　　User-agent: *

　　Disallow: /a/

　　Disallow: /b/

　　Disallow: /c/

　　如果是允許，則是

　　Allow: /a/

　　Allow: /b/

　　Allow: /c/

　　4、禁止某個搜尋引擎的通路，我用w來代替

　　User-agent: w

　　Disallow: /

　　或

　　User-agent: w

　　Disallow: /d/*.htm

　　在Disallow:後面加 /d/*.htm的意思是禁止通路/d/目錄下的所有以”.htm”為字尾的URL，包含子目錄。

　　5、隻允許某個搜尋引擎的通路，我用e來代替

　　User-agent: e

　　Disallow:

　　在Disallow：後面不加任何東西，意思是僅允許e通路該網站。

　　6、使用”$”限制通路url

　　User-agent: *

　　Allow: .htm$

　　Disallow: /

　　意思是僅允許通路以”.htm”為字尾的URL

　　7、禁止通路網站中所有的動态頁面

　　User-agent: *

　　Disallow: /*?*

　　8、禁止搜尋引擎F抓取網站上所有圖檔

　　User-agent: F

　　Disallow: .jpg$

　　Disallow: .jpeg$

　　Disallow: .gif$

　　Disallow: .png$

　　Disallow: .bmp$

　　意思是隻允許引擎抓取網頁，禁止抓取任何圖檔（嚴格來說，是禁止抓取jpg、jpeg、gif、png、bmp格式的圖檔。）

　　9、隻允許搜尋引擎E抓取網頁和.gif格式圖檔

　　User-agent: E

　　Allow: .gif$

　　Disallow: .jpg$

　　Disallow: .jpeg$

　　Disallow: .png$

　　Disallow: .bmp$

　　意思是隻允許抓取網頁和gif格式圖檔，不允許抓取其他格式圖檔

robots 協定介紹

繼續閱讀

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

體二極管的原理及應用

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

shell排序基本思想及其複雜度分析

sort()函數到底是怎樣進行數字排序的