IP代理 #資料采集 #機器學習/深度學習 #深度學習資料 #機器視覺深度學習 #大資料深度學習 #機器智能深度學習 #深度學習資料集

IP代理

2021-09-10 23:50:00

代理操作

概念：代理伺服器
代理伺服器的作用
- fiddler就是一個典型的代理伺服器的抓包工具。
- 代理伺服器就是用來轉發請求和響應。可以讓代理伺服器轉發請求進而更換請求的原始ip位址。
代理和爬蟲之間的關聯？
- 爬蟲程式可能會在短時間内對指定的伺服器發起高頻的請求。伺服器端會将該高頻請求的ip禁掉。
代理的匿名度
- 透明：對方伺服器知道你使用了代理也知道你的真實ip
- 匿名：知道你使用了代理，但是不知道你的真是ip
- 高匿：不知道你使用了代理，更不知道你的真是ip
代理的類型
- http：隻能代理http協定的請求
- https：代理https協定的請求
如何擷取代理伺服器？
- 免費：幾乎不能用
  - 西祠代理
  - 快代理
  - goubanjia
- 付費：
  - 代理精靈： http://http.zhiliandaili.cn/

對 https://www.xicidaili.com/nn/3網站進行高頻的請求發送，讓其将本機ip禁掉，使用代理機制解禁

from lxml import etree
url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
    new_url = format(url%page)
    page_text = requests.get(url=new_url,headers=headers).text
    tree = etree.HTML(page_text)
    #在xpath表達式中不可以出現tbody标簽，否則會出問題
    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
    for tr in tr_list:
        ip_addr = tr.xpath('./td[2]/text()')[0]
        all_data.append(ip_addr)
print(len(all_data))

使用代理機制解除ip被禁的情況

import requests

#1.建構一個代理池
ips_list = []
url = 'http://t.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=52&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=2'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
ip_list = tree.xpath('//body//text()')
for ip in ip_list:
    dic = {'https':ip}
    ips_list.append(dic)
ips_list

import random

#使用代理池操作
url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
    new_url = format(url%page)
    #proxies={'http':'ip:port'}
    page_text = requests.get(url=new_url,headers=headers,proxies=random.choice(ips_list)).text
    tree = etree.HTML(page_text)
    #在xpath表達式中不可以出現tbody标簽，否則會出問題
    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
    for tr in tr_list:
        ip_addr = tr.xpath('./td[2]/text()')[0]
        all_data.append(ip_addr)
print(len(all_data))

IP代理

代理操作

繼續閱讀

python爬蟲第1章 urllib庫（一） urllib庫概述python爬蟲第1章 urllib庫（一） urllib庫概述

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

【DrissionPage】DrissionPage是一個基于python的網頁自動化工具。它既能控制浏覽器，也能收發數

第二章 K8s ingress控制器

華彙項目後評價系統助力政企項目“後評價”時代

【示波器】基于FPGA的數字示波器設計實作

電池巡檢單元通用型4節電池電壓和溫度監測:☞4節電池的電壓監測、4路電池的溫度監測、1路繼電器輸出、CAN-BUS級聯通

利用PLC-Recorder的錄波和虛拟變量功能，實作PLC采集資料的後處理或複雜計算1、用Ana打開待分析的資料檔案，獲得原始的資料和曲線2、添加虛拟變量3、退出配置視窗即可得到總流量曲線4、小結

資料的采集

自動快捷使用資料采集器采集某網站資料---後裔采集器

專業PLC資料采集軟體PLC-Recorder通過ADS通訊進行倍福TwinCAT2和TwubCAT3資料采集的介紹一、通道配置二、變量配置三、通過左側的按鈕進行啟停控制四、調用離線分析軟體，進行後續資料分析五、小結

資料采集過程介紹簡介資料的總體采集過程如下：

工廠流水線資料采集方案工廠流水線資料采集方案2、資料采集層

2020年9月，星閃聯盟正式成立。從正式啟動标準化工作到首次商用僅用了兩年多的時間，成為史上發展最快的近距離無線技術。華

flume實時寫資料到HA模式下的hdfs

K-近鄰算法以及圖像分類應用