使用python实现简单爬虫

2023-08-07 17:20:48

近日学习了python语言，简单实现了一个爬虫，爬取了慕课网课程简介上的图片，并保存到本地。以下是实验代码：

# -*- coding: utf-8 -*-
"""
Spyder Editor

"""
import re
import os
import urllib.request  #在python3.6环境中实现


f_soure = urllib.request.urlopen('http://www.imooc.com/course/list')
#爬取目标地址
mybytes = f_soure.read()

mystr = mybytes.decode('utf8')

result = re.findall(r'http:.+\.jpg',mystr)
#打印输出并对正则结果进行字符串切割
print(len(result[]))
print(result[].index('.jpg'))
print(result[][:])

l = []
for i in result:
    l.append(i[:])

print (l)
#重新生成图片url地址，读出并保存到本地
k=
for url in l:
    f = open('F:\\python_test\\%d.jpg'%(k),'wb+')
    rep = urllib.request.urlopen(url)
    f.write(rep.read())
    f.close()
    k+=        

print ('success')

在实验过程中，发现使用python自带的os模块，当urllib.request.urlopen(url)方法返回的类file对象时，使用此对象的read方法会出现读取不完全现象。代码如下：

# -*- coding: utf-8 -*-
"""
Spyder Editor

"""
import re
import urllib.request


f_soure = urllib.request.urlopen('http://www.imooc.com/course/list')

mybytes = f_soure.read()

mystr = mybytes.decode('utf8')

result = re.findall(r'http:.+\.jpg',mystr)

print(len(result[]))
print(result[].index('.jpg'))
print(result[][:])

l = []
for i in result:
    l.append(i[:])

print (l)
k=
#使用os模块进行写入
for url in l:
    f = os.open('F:\\python_test\\%d.jpg'%(k),os.O_CREAT|os.O_RDWR)
    rep = urllib.request.urlopen(url)
    iter_f = iter(rep)
    for line in iter_f:
        os.write(f,line)    

    os.close(f)
    k+=        

print ('success')

使用python实现简单爬虫

如果有大神知道为什么这样，还请解惑~~

使用python实现简单爬虫

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

sort()函数到底是怎样进行数字排序的

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入