使用python實作簡單爬蟲

2023-08-07 17:20:48

近日學習了python語言，簡單實作了一個爬蟲，爬取了慕課網課程簡介上的圖檔，并儲存到本地。以下是實驗代碼：

# -*- coding: utf-8 -*-
"""
Spyder Editor

"""
import re
import os
import urllib.request  #在python3.6環境中實作


f_soure = urllib.request.urlopen('http://www.imooc.com/course/list')
#爬取目标位址
mybytes = f_soure.read()

mystr = mybytes.decode('utf8')

result = re.findall(r'http:.+\.jpg',mystr)
#列印輸出并對正則結果進行字元串切割
print(len(result[]))
print(result[].index('.jpg'))
print(result[][:])

l = []
for i in result:
    l.append(i[:])

print (l)
#重新生成圖檔url位址，讀出并儲存到本地
k=
for url in l:
    f = open('F:\\python_test\\%d.jpg'%(k),'wb+')
    rep = urllib.request.urlopen(url)
    f.write(rep.read())
    f.close()
    k+=        

print ('success')

在實驗過程中，發現使用python自帶的os子產品，當urllib.request.urlopen(url)方法傳回的類file對象時，使用此對象的read方法會出現讀取不完全現象。代碼如下：

# -*- coding: utf-8 -*-
"""
Spyder Editor

"""
import re
import urllib.request


f_soure = urllib.request.urlopen('http://www.imooc.com/course/list')

mybytes = f_soure.read()

mystr = mybytes.decode('utf8')

result = re.findall(r'http:.+\.jpg',mystr)

print(len(result[]))
print(result[].index('.jpg'))
print(result[][:])

l = []
for i in result:
    l.append(i[:])

print (l)
k=
#使用os子產品進行寫入
for url in l:
    f = os.open('F:\\python_test\\%d.jpg'%(k),os.O_CREAT|os.O_RDWR)
    rep = urllib.request.urlopen(url)
    iter_f = iter(rep)
    for line in iter_f:
        os.write(f,line)    

    os.close(f)
    k+=        

print ('success')

使用python實作簡單爬蟲

如果有大神知道為什麼這樣，還請解惑~~

使用python實作簡單爬蟲

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入