python基于scrapy框架爬取当当图书信息

ä¸ãåå»ºå¹¶è¿æ¥mysqlæ°æ®åº

C:\Users\Administrator>cd /d C:\Windows\System32
C:\Windows\System32>net start mysql80

python基于scrapy框架爬取当当图书信息

3ãç¼è¾è¡¨æ ¼ï¼æ·»å æ³è·åçä¿¡æ¯åç§°

python基于scrapy框架爬取当当图书信息

äºãåå»ºscrapyç¬è«å·¥ç¨

python基于scrapy框架爬取当当图书信息

ä¸ãç¬åéè¦çé¡µé¢ä¿¡æ¯

1ãè·ååå§é¡µé¢çç½åï¼ä¹å°±æ¯start_urlsçå¼

python基于scrapy框架爬取当当图书信息

name = 'book_info'
  allowed_domains = ['dangdang.com']
  start_urls = ['http://category.dangdang.com/cp01.54.17.00.00.00.html']

2ãç¨xpathè§£æå½åç½é¡µï¼æ¥æ¾å¾ä¹¦ä¿¡æ¯æå¨çæ ç¾æ

python基于scrapy框架爬取当当图书信息

info_list = response.xpath('//ul[@class="bigimg"]/li')

3ãå¨æ ç¾æ ä¸æåéè¦çä¿¡æ¯

for li in info_list:
        item = DangdangspiderItem()
         item['title'] = li.xpath('./a/@title').get()
         item['link'] = li.xpath('./a/@href').get()
         item['comment'] = li.xpath('.//a[@class="search_comment_num"]/text()').get()
         price = li.xpath('.//span[@class="search_now_price"]/text()').get()
         item['price'] = price.strip('Â¥')
         public_info = li.xpath('.//p[@class="search_book_author"]//text()').getall()
         public_info = ','.join(public_info)
         item['author'] = public_info.split('/')[0].strip().strip(',')
         item['public_time'] = public_info.split('/')[1].strip().strip(',')
         item['publictor'] = public_info.split('/')[2].strip().strip(',')
         item['detail'] = li.xpath('./p[@class="detail"]/text()').get()
         yield item

4ãå¨pipelinesä¸å°æ°æ®ä¿åå¨mysqlæ°æ®åºä¸

def process_item(self, item, spider):
    title = item['title']
    print("æ£å¨å¤ç%sçä¿¡æ¯" % title)
    link = item['link']
    comment = item['comment']
    price = item['price']
    detail = item['detail']
    author = item['author']
    public_time = item['public_time']
    publictor = item['publictor']
    isbn, img_url_list = self.parse_single_book(link)
    book_dir_path = self.get_img(img_url_list, title)
    isbn_img_path = book_dir_path + '\isbn_img'
    barcode.generate('code128', code=isbn, writer=ImageWriter(), output=isbn_img_path)
    data = (title, price, author, comment, public_time, isbn, link, publictor, detail)
    connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='root', db='dangdang',
                                 charset='utf8mb4')
    cursor = connection.cursor()
    sql = "insert into book_info_list(Title,Price,Author, Comment, Public_time, ISBN, Link,Publictor,Detail) values (%s, %s, %s, %s, %s, %s, %s, %s, %s);"
    try:
        print('æ£å¨ä¿åæ°æ®')
        cursor.execute(sql, data)
        connection.commit()
        print('ä¿åæå')
    except Exception as err:
        print(err)
    cursor.close()
    connection.close()
    return item

4ãè®¾ç½®ç¿»é¡µ

æ¬æ¬¡åªæåå3é¡µçä¿¡æ¯

for i in range(2, 4):
    url = 'http://category.dangdang.com/pg' + str(i) + '-cp01.54.02.00.00.00.html'
    yield Request(url, callback=self.parse)

5ãæ°å»ºstart.pyæä»¶ç¨ä»¥è¿è¡å·¥ç¨

from scrapy import cmdline
cmdline.execute('scrapy crawl book_info'.split())

python基于scrapy框架爬取当当图书信息

python基于scrapy框架爬取当当图书信息

python基于scrapy框架爬取当当图书信息

python基于scrapy框架爬取当当图书信息

ä¸ãåå»ºå¹¶è¿æ¥mysqlæ°æ®åº

3ãç¼è¾è¡¨æ ¼ï¼æ·»å æ³è·åçä¿¡æ¯åç§°

äºãåå»ºscrapyç¬è«å·¥ç¨

ä¸ãç¬åéè¦çé¡µé¢ä¿¡æ¯

1ãè·ååå§é¡µé¢çç½åï¼ä¹å°±æ¯start_urlsçå¼

2ãç¨xpathè§£æå½åç½é¡µï¼æ¥æ¾å¾ä¹¦ä¿¡æ¯æå¨çæ ç¾æ

3ãå¨æ ç¾æ ä¸æåéè¦çä¿¡æ¯

4ãå¨pipelinesä¸å°æ°æ®ä¿åå¨mysqlæ°æ®åºä¸

4ãè®¾ç½®ç¿»é¡µ

5ãæ°å»ºstart.pyæä»¶ç¨ä»¥è¿è¡å·¥ç¨

继续阅读

MySQL的4种隔离级别？出现问题

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

NOSQL安全攻击

mybatis_入门程序Mybatis入门

mysql使用source命令导入.sql文件

登录plsql 报错 the account is locked --用户被锁

SequoiaDB巨杉数据库C++驱动概述

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

python基于scrapy框架爬取当当图书信息

ä¸ãåå»ºå¹¶è¿æ¥mysqlæ°æ®åº

1ãå©ç¨cmdå½ä»¤è¿å ¥Windowsç³»ç»ï¼å¹¶å¯å¨mysqlæ°æ®åº

2ãå©ç¨MySQL Workbenchå·¥å ·åå»ºæ°æ®åºå¹¶æ°å»ºä¸ä¸ªTableåè¡¨ç¨æ¥å­å¨æ°æ®

3ãç¼è¾è¡¨æ ¼ï¼æ·»å æ³è·åçä¿¡æ¯åç§°

äºãåå»ºscrapyç¬è«å·¥ç¨

ä¸ãç¬åéè¦çé¡µé¢ä¿¡æ¯

1ãè·ååå§é¡µé¢çç½åï¼ä¹å°±æ¯start_urlsçå¼

2ãç¨xpathè§£æå½åç½é¡µï¼æ¥æ¾å¾ä¹¦ä¿¡æ¯æå¨çæ ç­¾æ 

3ãå¨æ ç­¾æ ä¸æåéè¦çä¿¡æ¯

4ãå¨pipelinesä¸­å°æ°æ®ä¿å­å¨mysqlæ°æ®åºä¸­

4ãè®¾ç½®ç¿»é¡µ

5ãæ°å»ºstart.pyæä»¶ç¨ä»¥è¿è¡å·¥ç¨

继续阅读

ä¸ãåå»ºå¹¶è¿æ¥mysqlæ°æ®åº

1ãå©ç¨cmdå½ä»¤è¿å¥Windowsç³»ç»ï¼å¹¶å¯å¨mysqlæ°æ®åº

2ãå©ç¨MySQL Workbenchå·¥å·åå»ºæ°æ®åºå¹¶æ°å»ºä¸ä¸ªTableåè¡¨ç¨æ¥åå¨æ°æ®

3ãç¼è¾è¡¨æ ¼ï¼æ·»å æ³è·åçä¿¡æ¯åç§°

äºãåå»ºscrapyç¬è«å·¥ç¨

ä¸ãç¬åéè¦çé¡µé¢ä¿¡æ¯

1ãè·ååå§é¡µé¢çç½åï¼ä¹å°±æ¯start_urlsçå¼

2ãç¨xpathè§£æå½åç½é¡µï¼æ¥æ¾å¾ä¹¦ä¿¡æ¯æå¨çæ ç¾æ

3ãå¨æ ç¾æ ä¸æåéè¦çä¿¡æ¯

4ãå¨pipelinesä¸å°æ°æ®ä¿åå¨mysqlæ°æ®åºä¸

4ãè®¾ç½®ç¿»é¡µ

5ãæ°å»ºstart.pyæä»¶ç¨ä»¥è¿è¡å·¥ç¨