记第一次爬虫 python3.6+pyquery

爬取深市上市公司信息

从安装python开始最基本的语法到开始在网上爬取信息才过去一周，好多东西还没有系统的学习，没有太深的见解，还需继续努力。

1. 开发环境的配置

所安装的python版本是3.6，关于各种库的安装，参考了《Python3网络爬虫开发实战》。

所涉及的库：

Selenium

其是自动化测试工具，可以实现驱动浏览器执行特定动作。

下载地址
Chrome 谷歌浏览器（现在的chromedriver可以支持到69版本）
ChromeDriver

chromeDriver下载地址

找到浏览器对应的版本下载，解压后将chromedriver.exe 移动到Python 安装目录下的Scripts 目录下。
pyquery 网页解析工具，pip install pyquery 即可

对于数据的存储采用的是将数据存放到.csv 文件中。

2. 所爬网址分析

对于上市公司的信息，证监局制定了几个网站，我采用的是巨潮资讯网址主要是为了学习初步简单的爬虫，也可以用其他的网站。这个网页的信息是公司代码和名称的列表。

记第一次爬虫 python3.6+pyquery

我的思路是先试着爬取这个页面下800多个公司的信息，得到了这些公司的代码（000001），再去右上方的位置输入并搜索。最后发现

搜索之后的网址是：http://www.cninfo.com.cn/cninfo-new/snapshot/companyDetailCn?code=000001，发现所有的公司信息页面的Url只是最后的code=？不同，所以可以拿着代码分别去展示公司信息的页面爬取。

from selenium import webdriver
from pyquery import  PyQuery as pq
from  selenium.webdriver.support.wait import  WebDriverWait
from  selenium.webdriver.support import  expected_conditions as EC
from  selenium.webdriver.common.by import By
import csv
browser = webdriver.Chrome()

wait =WebDriverWait(browser, ) #等待时间
def id_get():
    # 中国证监会网址首页
    browser.get('http://www.cninfo.com.cn/cninfo-new/snapshot/companyListCn')


# 从网页中爬出来 上市公司代码 和公司名 存到csv中
    doc = pq(browser.page_source)

    item = doc('.company-list')
    lis= item.children()
    #print(lis)
    #获取信息

    with open('data.csv', 'w', encoding='utf-8', newline='') as csvfile:
        writer=csv.writer(csvfile)
        writer.writerow(['id', 'name'])
        for tag in lis.items():
            print(len(tag.text()))
            str1,str2 = str(tag.text()).split('\xa0')
            #print(str[0:6])
            writer.writerow([str1, str2])

doc中参数是根据网页的代码，所要爬取的信息在ul class=”“company-list>li…/li><.ul 中。

3. 信息的存取

记第一次爬虫 python3.6+pyquery

可以看到，公司的成立日期，邮箱等等都在table 中，类似的直接定位到 tr class=“evenrowcolor” 上，

def info_get(id):

    print('正在爬取公司的代码是：', id)
    #输入代码查询网页
    try:
        purl = 'http://www.cninfo.com.cn/cninfo-new/snapshot/companyDetailCn?code='+id
        browser.get(purl)

        wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '.cn'))
        )
        #定位节点
        '''input = browser.find_element_by_id('hdy-input')
                                input.send_keys('')

                                button = browser.find_element_by_class_name('search-button')
                                button.click()'''
        doc = pq(browser.page_source)

        # 获取公司名
        name = doc('.middle-name')

        #print(name.text())

        # 定位到td所在点
        information = doc('.evenrowcolor .text-align-left')
        # 成立日期 邮箱 网址 电话
        date = information.eq(1)
        mail = information .eq(3)
        internet = information.eq(5)
        phone = information.eq(7)

        info2 = doc('.oddrowcolor .text-align-left')
        address = info2.eq(5)

       # 存入文件和爬取id时相似print(name.text(), date.text(), mail.text(), internet.text(),  phone.text(), address.text())

    except TimeoutError:
        info_get(id)

所注意的是，class=“evenrowcolor” 不是只有一个标签，所以首先定位到这些td上，并且成立日期，1987/12/22 这两个标签都不能直接区分出来，所以用date = information.eq(1) 来选择所需的节点。

正在爬取公司的代码是： 
平安银行股份有限公司 // [email protected].com.cn www.bank.pingan.com (+)- 广东省深圳市罗湖区深南东路号
正在爬取公司的代码是： 
万科企业股份有限公司 // [email protected].com www.vanke.com (+)- 广东省深圳市盐田区大梅沙环梅路号万科中心
正在爬取公司的代码是： 
深圳市振业(集团)股份有限公司 // [email protected] www.zhenye.com (+)- 广东省深圳市罗湖区宝安南路号振业大厦B座-层
正在爬取公司的代码是： 
神州高铁技术股份有限公司 // [email protected].com www.shenzhou-gaotie.com (+)- 北京市海淀区高梁桥斜街号院号楼层
正在爬取公司的代码是： 
中国宝安集团股份有限公司 // [email protected] www.chinabaoan.com (+)-、- 广东省深圳市笋岗东路号宝安广场A座-层
正在爬取公司的代码是：

问题：虽然很简单，但对于库的使用不够熟练，并且这个网页的节点并不是都有id或class来区分它们，需遍历相同的节点。在代码中经常print出当前所定位的网页代码可以帮助你更快的找到正确的节点。

记第一次爬虫 python3.6+pyquery

爬取深市上市公司信息

1. 开发环境的配置

2. 所爬网址分析

3. 信息的存取

继续阅读

一文让你了解Python，人生苦短，我选Python！

selenium+pyquery爬取京东美食并存入mongodb数据库

拜师——python基础入门—第4大节课—集合 {} 特点，创建和删除，交集并集差集运算——day19第53课时：集合 {} 特点创建和删除交集并集差集运算

【Python入门】你值得拥有的这八个学习网站与实战项目一、画图工具二、编辑工具三、实战项目

Socks5代理和HTTP代理IP，你选哪个？怎么选？

【python机器学习】常用库之科学计算包Numpy 科学计算包（Numpy）

python入门第二课练习

Python基础之数据结构（元组，列表，字典）

selenium+pyquery爬取京东商品

Python入门：Python内置的异常机制

使用selenium和pyquery来爬取淘宝ipad商品信息使用selenium爬取淘宝ipad商品信息

Python代码保护 | pyc 混淆从入门到工具实现

为什么Python是机器学习的最佳选择？带你揭秘Python关于Python技术储备

我，阿里的程序员，工作5年，揭秘阿里员工的真实收入和工作经历关于Python技术储备

安装tensorflow1.12出现illegal hardware instruction python错误1、问题2、定位问题3、问题解决4、验证

硕博连读，985院校在夹缝中求生，众多强者中面试Python成功上岸前言一、Python入门二、数据库三、爬虫四、数据分析五、web开发（前/后端）