天天看点

爬虫框架--Scrapy学习笔记二Scrapy项目文件目录简述

Scrapy项目文件目录简述

前言:通过学习笔记一的总结,大致上已经对Scrapy框架的数据流程以及组件的分工有了了解。这次来真正的创建一个Scrapy项目,来具体的看一看这些组件都被放置在哪些py文件中。(ps:就是找找它们住的地方!)

爬虫框架--Scrapy学习笔记二Scrapy项目文件目录简述

创建一个Scrapy项目

scrapy startproject Scrapy_web

在终端输入上述命令后,会创建一个名字叫Scrapy_web的scrapy项目。接着输入

cd Scrapy_web

进入该项目目录运行下面的命令来创建一个新的spider

scrapy genspider dmoz_spider doubanmovie

解释下名词:在这个 dmoz_spider 是你的py文件的名字,后面的doubanmovie 是 spider 的name,当你用

scrapy crawl ***

命令来运行爬虫时,* 就是你这里输入的doubanmovie

真是生成的Scrapy文件与Scrapy 项目图 对比

爬虫框架--Scrapy学习笔记二Scrapy项目文件目录简述

将运行命令后生成的Scrapy文件,与文章刚开始贴出来的项目图做,对比,鲜明的了解下一个Scrapy项目吧。(ps:spiders文件夹下生成的是一个名字叫dmoz_spider.py的爬虫测试dome,与项目文件图中的jd_spider.py不同,它们就是你要些的爬虫了!:)

结束语

简单的看过scrapy的项目文件过后,是不是对Scrapy框架多了一层了解了。接下来我会写一个关于scrapy框架测试的小dome,来爬取豆瓣top250的电影,来对Scrapy的实现运用做下测试。