2023爬蟲學習筆記 -- 多線程操作

2023-08-07 18:46:04

一、定義一個程式開始時間

程式開始時間=time.time()

二、建立幾個網址，模拟目标網站

網址清單=['http://www.baidu.com','http://www.sogou.com','http://www.163.com']

三、建立一個函數通路網站，模拟爬取資料操作（耗時操作）

頭={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
def 通路網站(url):
    網站内容=requests.get(url=url,headers=頭).text
    time.sleep(2)
    print(網站内容[1:20])

四、調用函數，并擷取時長，每次程式運作時間在6-7秒之間

for 網址 in 網址清單:
    通路網站(網址)
print("總耗時長：",time.time()-程式開始時間)

五、總耗時長

2023爬蟲學習筆記 -- 多線程操作

六、換成多線程操作

1、前三步和上面一樣

程式開始時間=time.time()
網址清單=['http://www.baidu.com','http://www.sogou.com','http://www.163.com']
頭={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
def 通路網站(url):
    網站内容=requests.get(url=url,headers=頭).text
    time.sleep(2)
    print(網站内容[1:20])

2、建立一個線程，并将所有子線程放進去

線程池=[]
for 網址 in 網址清單:
    線程=Thread(target=通路網站,args=(網址,))
    線程池.append(線程)
    線程.start()

3、讓子線程執行完畢，主程式再結束，并擷取程式運作時間

for t in 線程池:
    t.join()
print("總耗時長：",time.time()-程式開始時間)

4、總耗時長在2-3秒之間，是上面的三倍

2023爬蟲學習筆記 -- 多線程操作

2023爬蟲學習筆記 -- 多線程操作

繼續閱讀

安卓學習筆記（九）網絡程式設計網絡程式設計

安卓學習筆記（一） Activity篇

Boss直聘Python爬蟲實戰

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

django短信驗證碼的後端實作

天池龍珠計劃Python訓練營-task2筆記清單元組字元串字典集合序列

2022秋招cpp相關面試總結（長期更新）1、記憶體對齊2、類的占用空間死鎖elf優化bin檔案c語言和c++中const差別sizeof原理malloc一塊記憶體free怎麼找到頭尾

2022秋招面試總結（cpp+java+測開）百度測開一面位元組後端一面蝦皮後端一面蝦皮後端二面

python兩種方法解決線程沖突問題線程沖突起因解決方案

nagios服務端搭建

C++ 多線程用條件變量确定線程的執行順序而不是使用 sleep(1)

C#多線程——前台線程和背景線程

Apache 虛拟主機搭建過程

線程同步，可重入鎖，synchronized

sort()函數到底是怎樣進行數字排序的

判斷浏覽器類型與版本以及ios安卓判别