一个网络爬虫实验

<code>import</code> <code>requests</code>

<code>import</code> <code>re </code><code>#启动两个必备模块#</code>

<code>class</code><code>=</code><code>spider(</code><code>object</code><code>): </code><code>#先设定一个类，类名叫spider，他的父类是object#</code>

<code> </code><code>def</code> <code>getsource(</code><code>self</code><code>,url): </code><code>#这个类有个属性叫getsource，它需要一个变量url# </code>

<code> </code><code>html</code><code>=</code><code>requests.get(url) </code><code>#用过request.get获得所瞄准页码的源代码#</code>

<code> </code><code>return</code><code>(html.text)</code>

<code> </code><code>def</code> <code>changepage(</code><code>self</code><code>,url,total_page): </code><code>#这个类有个属性叫changepage#</code>

<code> </code><code>now_page</code><code>=</code><code>int</code><code>(re.search(pageNum</code><code>=</code><code>"(\d+)"</code><code>,url,re.S).group(</code><code>1</code><code>))</code>

<code> </code><code>#当前的页数---这里获得的是一个纯数字的，它是从url上获得的，写这个命令的目的是定位头数字，前面加上了int等于把这个结果改编成int形式#</code>

<code> </code><code>page_group</code><code>=</code><code>[] </code>

<code> </code><code>for</code> <code>i </code><code>in</code> <code>range</code><code>(now_page,total_page</code><code>+</code><code>1</code><code>):</code>

<code> </code><code>link</code><code>=</code><code>re.sub(pageNum</code><code>=</code><code>"(\d+)"</code><code>,pageNum</code><code>=</code><code>i,url,re.S)</code>

<code> </code><code>#这个语句的目的是把url里的数从now_page换到total_page+1，这样的walk一遍，达到翻页的目的，这里link会生成好几个url#</code>

<code> </code><code>page_group.append(link)</code>

<code> </code><code>return</code><code>(page_group)</code>

<code> </code><code>#把生成的那些url放到了page_group这个空列表里#</code>

<code> </code><code>def</code> <code>geteveryclass(</code><code>self</code><code>,source):</code>

<code>#这个属性叫geteveryclass，作者他是要把一节课所有的相关介绍内容都一把抓下来，然后再细细分掉#</code>

<code> </code><code>everyclass</code><code>=</code><code>re.findall()</code>

<code> </code><code>return</code><code>(everyclass)</code>

<code> </code><code>def</code> <code>getinto(</code><code>self</code><code>,everyclass):</code>

<code>#这里生成了一个空的字典映射#</code>

<code> </code><code>info[</code><code>"title"</code><code>]</code><code>=</code><code>re.search()</code>

<code>#通过字典映射的提取功能，来从上面那一把抓里提取出相关的东西，对应的生成物就是属于了info这个列表里的title这个key的value。注意！生成的东西是一个列表#</code>

<code> </code><code>info[</code><code>"content"</code><code>]</code><code>=</code><code>re.search()</code>

<code> </code><code>timeandlevel</code><code>=</code><code>re.search()</code>

<code>#这俩目标有相同的定位符，因为是列表，就一会使用序号单独分开#</code>

<code> </code><code>info[</code><code>"classtime"</code><code>]</code><code>=</code><code>timeandlevel[</code><code>0</code><code>]</code>

<code> </code><code>info[</code><code>"classlevel"</code><code>]</code><code>=</code><code>timeandlevel[</code><code>1</code><code>]</code>

<code> </code><code>info[</code><code>"classnumber"</code><code>]</code><code>=</code><code>re.search()</code>

<code> </code><code>return</code><code>(info)</code>

<code> </code><code>def</code> <code>saveinto(</code><code>self</code><code>,classinto):</code>

<code> </code><code>f</code><code>=</code><code>open</code><code>(</code><code>"e:/pythonaaa/b/study & test/1919.txt"</code><code>,</code><code>"a"</code><code>)</code>

<code> </code><code>for</code> <code>each </code><code>in</code> <code>classinto:</code>

<code> </code><code>f.writelines(</code><code>"title:"</code><code>+</code><code>each</code><code>"title"</code><code>+</code><code>"\n"</code><code>)</code>

<code> </code><code>f.writelines(</code><code>"content:"</code><code>+</code><code>each</code><code>"content"</code><code>+</code><code>"\n"</code><code>)</code>

<code> </code><code>f.writelines(</code><code>"classtime:"</code><code>+</code><code>each</code><code>"classtime"</code><code>+</code><code>"\n"</code><code>)</code>

<code> </code><code>f.writelines(</code><code>"classlevel:"</code><code>+</code><code>each</code><code>"classlevel"</code><code>+</code><code>"\n"</code><code>)</code>

<code> </code><code>f.writelines(</code><code>"classnumber:"</code><code>+</code><code>each</code><code>"classlevel"</code><code>+</code><code>"\n"</code><code>)</code>

<code> </code><code>f.close()</code>

<code>classinto</code><code>=</code><code>[]</code>

<code>url</code><code>=</code><code>"http://www.jikexueyuan.com/course/?pageNum=1"</code>

<code> </code><code>jikespider</code><code>=</code><code>spider()</code>

<code>#这次行动的实例化名称叫jikespider，他属于spider这个类#</code>

<code> </code><code>all_links</code><code>=</code><code>jikespider.changepage(url.</code><code>20</code><code>)</code>

<code>#在翻页的那个属性里，我们要翻到第20页#</code>

<code> </code><code>for</code> <code>link </code><code>in</code> <code>all_links: </code><code>#把这20个页单独拆开#</code>

<code> </code><code>print</code><code>(</code><code>"正在处理画面"</code><code>+</code><code>link)</code>

<code> </code><code>html</code><code>=</code><code>jikespider.getsource(link)</code>

<code>#获得了每一个页的源代码#</code>

<code> </code><code>everyclass</code><code>=</code><code>jikespider.geteveryclass(html)</code>

<code>#获得了这20页的每一个课程的所有介绍#</code>

<code> </code><code>for</code> <code>each </code><code>in</code> <code>everyclass: </code><code>#又把这20页里每一个课程单独拆开#</code>

<code> </code><code>info</code><code>=</code><code>jikespider.getinfo(each) </code>

<code>#对应的每一节课的名称、介绍、等级、时长、人数都做成了一个字典，一一对应，生成了这样的一个info字典映射#</code>

<code> </code><code>classinto.append(info)</code>

<code>#classinto这个空列表已经被info的内容装满#</code>

<code> </code><code>jikespider.saveinfo(classinfo)</code>

<code>#行动以classinfo为变量启动了saveinfo这个属性#</code>

==================================分割线===========================================

1）很多网站虽然显示出来很光鲜靓丽，但是源代码很是混乱，黏黏糊糊成一团，看起来非常恶心，但是这样不空格不回车的代码，在“夹逼正则”的时候非常好夹，因为没有那些看不见的/n和/t,看到正则的定位符就可以下手。

2）有些网站源代码写得很清晰，这样反而在“大锤敲缝”的定位上不太好把握，因为定位<html><div><hL<li>这种网页语言标志符是没用的，要定位就定位有特征的字符。

3）这个代码写得很棒，思路也很清晰，就好像控制一个机器人去桌子边拿一杯水，他先给予机器人几个能力，比如：能走路，知道哪里是桌子，识别水杯，能水杯口向上的抓住水杯，返回。先把这几个能力写明白、写清楚。然后启动这个机器人去做这个事情。这个代码的思路值得学习，但是难点就是变量的不断更替上，有一点跟不上，就会绊住。

本文转自苏幕遮618 51CTO博客，原文链接:http://blog.51cto.com/chenx1242/1730164

一个网络爬虫实验

继续阅读

基金恒市值定投源码

#为什么台风“卡努”的预报路径成迷#关于台风预报路径“卡努”成迷小编分析可能有以下几个原因：1.台风路径难以准确预测：台

python爬虫第1章 urllib库（一） urllib库概述python爬虫第1章 urllib库（一） urllib库概述

【DrissionPage】DrissionPage是一个基于python的网页自动化工具。它既能控制浏览器，也能收发数

第二章 K8s ingress控制器

华汇项目后评价系统助力政企项目“后评价”时代

【示波器】基于FPGA的数字示波器设计实现

电池巡检单元通用型4节电池电压和温度监测:☞4节电池的电压监测、4路电池的温度监测、1路继电器输出、CAN-BUS级联通

利用PLC-Recorder的录波和虚拟变量功能，实现PLC采集数据的后处理或复杂计算1、用Ana打开待分析的数据文件，获得原始的数据和曲线2、添加虚拟变量3、退出配置窗口即可得到总流量曲线4、小结

数据的采集

自动快捷使用数据采集器采集某网站数据---后裔采集器

专业PLC数据采集软件PLC-Recorder通过ADS通讯进行倍福TwinCAT2和TwubCAT3数据采集的介绍一、通道配置二、变量配置三、通过左侧的按钮进行启停控制四、调用离线分析软件，进行后续数据分析五、小结

数据采集过程介绍简介数据的总体采集过程如下：

工厂流水线数据采集方案工厂流水线数据采集方案2、数据采集层

2020年9月，星闪联盟正式成立。从正式启动标准化工作到首次商用仅用了两年多的时间，成为史上发展最快的近距离无线技术。华

flume实时写数据到HA模式下的hdfs