æ¡æ¶è®¾è®¡è¯´æ
å¼æ¥ç¬åæ¹å¼
æ°æ®æ¸æ´æºå¶
æ°æ®åå¨æºå¶
å®æï¼ç¬åè±ç£çµå½±
æ¡æ¶çåè½æ©å±

1. æ¡æ¶è®¾è®¡è¯´æ

æ¬ç¯æç« è®²è¿°çç¬è«æ¡æ¶ç°ç± 4 ä¸ªæä»¶ç»æï¼åå«æ¯åå§åæä»¶ __init__.pyãåè½æä»¶ pattern.pyãspider.pyãstorage.pyãæä»¶è¯´æå¦ä¸ï¼

åå§åæä»¶ __init__.py ç¨äºè®¾ç½®æ¡æ¶ççæ¬ä¿¡æ¯åå¯¼å¥æ¡æ¶çåè½æä»¶ï¼
æ°æ®æ¸æ´æä»¶ pattern.py ç¨äºå®ä¹æ°æ®æ¸æ´ç±»ï¼æ¸æ´æ¹å¼ä¸ Scrapy æ¡æ¶ç¸ä¼¼ï¼
æ°æ®ç¬åæä»¶ spider.py ç¨äºå®ä¹æ°æ®ç¬åç±»ï¼ç¬åæ¹å¼æ¯æå¼æ¥å¹¶åãURL å»éååå¸å¼ï¼
æ°æ®åå¨æä»¶ storage.py ç¨äºå®ä¹æ°æ®åå¨ç±»ï¼ç®åæ¯æå³ç³»åæ°æ®åºãéå³ç³»åæ°æ®åºãCSV æä»¶åå¨æ°æ®åæä»¶ä¸è½½åè½ã

# project: pyReptile
    # author:  Xy Huang
    __version__ = '1.0.0'
    # å¯¼å¥åè½æä»¶
    from .storage import *
    from .spider import *
    from .pattern import *

pyReptile æ¡æ¶çè®¾è®¡åçæ¯ä» Scrapy æ¡æ¶å SQLAlchemy æ¡æ¶åå°å¯åçï¼å·ä½çè¯´æå¦ä¸ï¼

æ°æ®ç¬åæ¹å¼ç± URL å°åçæ°æ®æ ¼å¼å³å®ï¼å¦æ URL å°åçæ°æ®æ ¼å¼ä¸ºåè¡¨ï¼pyReptile å°±ä¼æ§è¡å¼æ¥å¹¶åï¼å¹¶å°ææè¯·æ±çååºåå®¹ä»¥åè¡¨æ ¼å¼è¿åï¼å¦æä¼ å¥ç URL å°åæ¯åç¬¦ä¸²æ ¼å¼ï¼å³åä¸ç URL å°åï¼ï¼pyReptile å°±ç´æ¥è¿åç¸åºçååºåå®¹ï¼å¹¶ä¸è¿æ¯æ URL å»éååå¸å¼ç¬è«åè½ã
æ°æ®æ¸æ´éç¨ Scrapy æ¡æ¶çæ¸æ´æ¨¡å¼ï¼ä½¿ç¨æ¹å¼ä¸ Scrapy æ¡æ¶æä¸å®çç¸ä¼¼ä¹å¤ï¼ç®åä»æ¯æ CssSelector å Xpath å®ä½æ¹å¼ã
æ°æ®å¥åºæ¯æå³ç³»åæ°æ®åºãéå³ç³»åæ°æ®åºå CSV æä»¶åå¨ï¼å³ç³»åæ°æ®åºç± SQLAlchemy æ¡æ¶å®ç°ï¼éå³ç³»åæ°æ®åºç®åä»æ¯æ MongoDB æ°æ®åºãpyReptile ç®åå¥åºæ¹å¼ï¼åªéå°ç¬åçæ°æ®ä»¥åå¸æ ¼å¼ä¼ å¥å³å¯å®ç°å¥åºæä½ã

2. å¼æ¥ç¬åæ¹å¼

import asyncio
    import aiohttp
    import redis

    # è®¾ç½®é»è®¤åæ°
    TIMEOUT = 40
    REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
    # å®ä¾åå¯¹è±¡ï¼ç¨äºåéHTTPè¯·æ±
    loop = asyncio.get_event_loop()

    # å®ä¹è£é¥°å¨ï¼å®ç°URLå»éæåå¸å¼å¤ç
    def distributes(func):
    def wrapper(self, url, **kwargs):
        redis_host = kwargs.get('redis_host', '')
        if redis_host:
            port = kwargs.get('port', 6379)
            db = kwargs.get('db', 1)
            redis_db = redis.Redis(host=redis_host, port=port, db=db)
            redis_data_dict = 'keys'
            if not redis_db.hexists(redis_data_dict, url):
                redis_db.hset(redis_data_dict, url, 0)
                return func(self, url, **kwargs)
            else:
                return {}
        else:
            return func(self, url, **kwargs)
    return wrapper

    # å®ä¹ç¬è«ç±»
    class Request(object):
    # å®ä¹å¼æ¥å½æ°
    async def httpGet(self, url, **kwargs):
        cookies = kwargs.get('cookies', {})
        params = kwargs.get('params', {})
        proxy = kwargs.get('proxy', '')
        timeout = kwargs.get('timeout', TIMEOUT)
        headers = kwargs.get('headers', REQUEST_HEADERS)
        # å¸¦ä»£çIP
        if proxy:
            async with aiohttp.ClientSession(cookies=cookies) as session:
                async with session.get(url, params=params, proxy=proxy, timeout=timeout, headers=headers) as response:
                    result = dict(
                        content=await response.read(),
                        text=await response.text(),
                        status=response.status,
                        headers=response.headers,
                        url=response.url
                    )
                    return result
        # ä¸å¸¦ä»£çIP
        else:
            async with aiohttp.ClientSession(cookies=cookies) as session:
                async with session.get(url, params=params, timeout=timeout, headers=headers) as response:
                    result = dict(
                        content=await response.read(),
                        text=await response.text(),
                        status=response.status,
                        headers=response.headers,
                        url=response.url
                    )
                    return result

    # å®ä¹å¼æ¥å½æ°
    async def httpPost(self, url, **kwargs):
        cookies = kwargs.get('cookies', {})
        data = kwargs.get('data', {})
        proxy = kwargs.get('proxy', '')
        timeout = kwargs.get('timeout', TIMEOUT)
        headers = kwargs.get('headers', REQUEST_HEADERS)
        if proxy:
            async with aiohttp.ClientSession(cookies=cookies) as session:
                async with session.post(url, data=data, proxy=proxy, timeout=timeout, headers=headers) as response:
                    result = dict(
                        content=await response.read(),
                        text=await response.text(),
                        status=response.status,
                        headers=response.headers,
                        url=response.url
                    )
                    return result
        else:
            async with aiohttp.ClientSession(cookies=cookies) as session:
                async with session.post(url, data=data, timeout=timeout, headers=headers) as response:
                    result = dict(
                        content=await response.read(),
                        text=await response.text(),
                        status=response.status,
                        headers=response.headers,
                        url=response.url
                    )
                    return result

    # å®ä¹GETè¯·æ±æ¹å¼
    @distributes
    def get(self, url, **kwargs):
        tasks = []
        if isinstance(url, list):
            for u in url:
                task = asyncio.ensure_future(self.httpGet(u, **kwargs))
                tasks.append(task)
            result = loop.run_until_complete(asyncio.gather(*tasks))
        else:
            result = loop.run_until_complete(self.httpGet(url, **kwargs))
        return result

    # å®ä¹POSTè¯·æ±æ¹å¼
    @distributes
    def post(self, url, **kwargs):
        tasks = []
        if isinstance(url, list):
            for u in url:
                task = asyncio.ensure_future(self.httpPost(u, **kwargs))
                tasks.append(task)
            result = loop.run_until_complete(asyncio.gather(*tasks))
        else:
            result = loop.run_until_complete(self.httpPost(url, **kwargs))
        return result

    # å®ä¾åRequestå¯¹è±¡
    request = Request()

å½æ° httpGet æ¯å®ä¹ Aiohttp çå¼æ¥ GET è¯·æ±å½æ°ï¼å½æ°åæ° url ä»¥åç¬¦ä¸²æ ¼å¼è¡¨ç¤ºï¼ä»£è¡¨è¯·æ±å°å URLï¼å¯éåæ° kwargs ä»£è¡¨èªå®ä¹çè¯·æ±è®¾ç½®ï¼å¦è¯·æ±å¤´ãä»£ç IPãCookies ä¿¡æ¯ãè¶æ¶åè¯·æ±åæ°çã
å½æ° httpGet ä¼å¯¹åæ° proxy è¿è¡å¤æï¼å¦æåæ° proxy éç©ºï¼Aiohttp å¨åé GET è¯·æ±çæ¶åï¼åå¨è¯·æ±éæ·»å åæ° proxyï¼ç±äºåæ° proxy çç¹æ®æ§ï¼å¦æåæ° proxy ä¸ºç©ºå¹¶ä¸å¨è¯·æ±éæ·»å åæ° proxyï¼Aiohttp ä¼æç¤ºå¼å¸¸ä¿¡æ¯ï¼å æ¤å½æ°éè¦å¯¹åæ° proxy è¿è¡å¤æå¤çãæåï¼å½æ°ä¼å°ååºåå®¹ä»¥åå¸æ ¼å¼è¿åã
å½æ° httpPost æ¯å®ä¹ Aiohttp çå¼æ¥ POST è¯·æ±å½æ°ï¼å½æ°åæ° url å kwargs ä¸å½æ° httpGet çåæ°åè½ä¸è´ï¼å½æ°çåè½å®ç°è¿ç¨ä¸å½æ° httpGet çç¸ä¼¼ï¼åºå«å¨äºä¸¤èç HTTP è¯·æ±æ¹å¼åæä¸åã
å½æ° get æ¯å®ä¹ç¬è«ç±» Request ç GET è¯·æ±æ¹å¼ï¼å½æ°åæ° url çæ°æ®æ ¼å¼å¯ä¸ºåç¬¦ä¸²æåè¡¨æ ¼å¼ï¼å¯éåæ° kwargs ä»£è¡¨èªå®ä¹çè¯·æ±è®¾ç½®ï¼å¦è¯·æ±å¤´ãä»£ç IPãCookies ä¿¡æ¯ãè¶æ¶åè¯·æ±åæ°çï¼åæ° kwargs ä¹æ¯å½æ° httpGet çåæ° kwargsã
å½æ° get ç»è¿è£é¥°å¨ distributes è¿æ»¤ï¼è£é¥°å¨ä»å½æ° get è·å Redis æ°æ®åºè¿æ¥åæ°ï¼å¦ææ²¡ææ°æ®åºè¿æ¥åæ°ï¼åå¾ä¸æ§è¡å½æ° getï¼å¦æåå¨æ°æ®åºè¿æ¥åæ°ï¼åè¿æ¥ Redis æ°æ®åºå¹¶å¤æåæ° url æ¯å¦è®°å½å¨ Redis æ°æ®åºï¼è¥å·²è®°å½ï¼ä¸åæ§è¡å½æ° getï¼åä¹æ§è¡å½æ° getã
å½æ° get å¯¹åæ° url è¿è¡å¤æï¼å¦æ url æ¯åè¡¨ï¼åå¯¹åè¡¨è¿è¡éåï¼æ¯æ¬¡éåè°ç¨å½æ° httpGetï¼ä¼ å¥å½åç URL å°åå¹¶æ·»å å°ä»»å¡åè¡¨ï¼ç¶åå°ä»»å¡åè¡¨äº¤ç»å¯¹è±¡ loop å¤çï¼å¯¹ææä»»å¡åéå¼æ¥å¹¶åç HTTP è¯·æ±ï¼æåå°ææè¯·æ±çååºåå®¹ä»¥åè¡¨æ ¼å¼è¿åãå¦æ url æ¯åç¬¦ä¸²ï¼åç±å¯¹è±¡ loop è°ç¨å½æ° httpGetï¼åé HTTP è¯·æ±å¹¶è¿åååºåå®¹ã
å½æ° post æ¯å®ä¹ç¬è«ç±» Request ç POST è¯·æ±æ¹å¼ï¼å½æ°åæ° url å kwargs ä¸å½æ° get çåæ°åè½ä¸è´ï¼å½æ°çåè½å®ç°è¿ç¨ä¸å½æ° get çç¸ä¼¼ï¼åºå«å¨äºä¸¤èè°ç¨ç Aiohttp å¼æ¥å½æ°åæä¸åã

from spider import request
    # GETè¯·æ±
    from spider import request

    # GETè¯·æ±
    url = 'http://httpbin.org/get'
    # url = ['http://httpbin.org/get']
    params = {
        'pyReptile': 'spiderGet'
    }
    cookies = {
        'pyReptile': 'spiderCookies'
    }
    # URLå»éæåå¸å¼ï¼è®¾ç½®Redisæ°æ®åºè¿æ¥åæ°
    redis_host = '127.0.0.1'

    r = request.get(url, params=params, cookies=cookies, 
    redis_host=redis_host)
    print(r.get('text', ''))
    # print(r[0]['text'])

    # POSTè¯·æ±
    url = 'http://httpbin.org/post'
    # url = ['http://httpbin.org/post']
    data = {
        'pyReptile': 'spiderPost'
    }
    cookies = {
        'pyReptile': 'spiderCookies'
    }
    r = request.post(url, data=data, cookies=cookies)
    print(r.get('text', ''))
    # print(r[0]['text'])

3. æ°æ®æ¸æ´æºå¶

from bs4 import BeautifulSoup
    import lxml
    from lxml.html.soupparser import fromstring as soup_parse

    class DataPattern(object):
        def cssSelector(self, response, selector, **kwargs):
            parser = kwargs.get('parser', 'html.parser')
            tempList = []
            soup = BeautifulSoup(response, parser)
            temp = soup.select(selector=selector)
            for i in temp:
                tempList.append(i.getText())
            return tempList

        def xpath(self,response,selector, **kwargs):
            parser = kwargs.get('parser', 'html.parser')
            try:
                soup = soup_parse(response, features=parser)
            except:
                soup = lxml.html.fromstring(response)
            temp = soup.xpath(selector)
            tempList = []
            for i in temp:
                tempList.append(i.text)
            return tempList

    dataPattern = DataPattern()

æ°æ®æ¸æ´ç±» DataPattern å®ä¹äºå½æ° cssSelector() å xpath()ï¼ä¸¤ä¸ªå½æ°çåæ°è¯´æå¦ä¸ï¼

åæ° response ä»£è¡¨ HTTP è¯·æ±çååºåå®¹ï¼
åæ° selector ä»£è¡¨ç®æ æ°æ®çå®ä½æ¹æ³ï¼å®ä½æ¹æ³éç¨ 5CssSelector æ Xpath è¯æ³ï¼
å¯éåæ° kwargs æ¯èªå®ä¹è®¾ç½®ï¼å¦åæ° parser å¯èªå®ä¹éæ© HTML è§£æå¨ï¼è¥æ å¯¹åæ° parser è¿è¡è®¾ç½®ï¼åé»è®¤ä½¿ç¨ Python æ ååºç HTML è§£æå¨ââhtml.parserã

ä»å¯éåæ° kwargs è·ååæ° parserï¼å¦æ parser çåæ°å¼ä¸ºç©ºï¼åé»è®¤ä½¿ç¨ html.parser ä½ä¸ºè§£æå¨ï¼å°åæ° response çåæ°å¼è¿è¡ HTML è§£æå¹¶çæ soup å¯¹è±¡ã
ç±åæ° selector å¯¹ soup å¯¹è±¡è¿è¡å®ä½åæ¥æ¾ï¼ä»ä¸æ¾åºç¬¦åæ¡ä»¶çæ°æ®å¯¹è±¡ tempã
éåå¾ªç¯å¯¹è±¡ tempï¼è·åå¯¹è±¡ temp çæ°æ®åå®¹å¹¶åå¥åè¡¨ tempListï¼åå°åè¡¨ä½ä¸ºå½æ°è¿åå¼ã
å°æ°æ®æ¸æ´ç±» DataPattern è¿è¡å®ä¾åï¼çæå¯¹è±¡ dataPatternï¼ç¨äºå¼åèçè°ç¨ã

from pattern import dataPattern
    from spider import request
    url = 'https://movie.douban.com/subject/3168101/comments'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)
        AppleWebKit/537.36 (KHTML, like Gecko)
        Chrome/70.0.3538.67 Safari/537.36'
    }
    r = request.get(url, headers=headers)

    # cssSelector   
    title = dataPattern.cssSelector(r['text'], '#content > h1')
    print(title)
    selector = 'div.comment> p > span'
    comment=dataPattern.cssSelector(r['text'],selector,parser='html5lib')
    print(len(comment))

    # xpath
    title = dataPattern.xpath(r['text'], '//*[@id="content"]/h1')
    print(title)
    selector = '//*[@id="comments"]//p//span'
    comment = dataPattern.xpath(r['text'], selector, parser='html5lib')
    print(len(comment))

4. æ°æ®åå¨æºå¶

from sqlalchemy import *
    from sqlalchemy.orm import sessionmaker
    from sqlalchemy.ext.declarative import declarative_base
    from pymongo import MongoClient
    import csv
    import os
    Base = declarative_base()

    # å®ä¹æ°æ®åå¨ç±»DataStorage
    class DataStorage(object):
        def __init__(self, CONNECTION, **kwargs):
            self.databaseType = kwargs.get('databaseType', 'CSV')
            # æ ¹æ®åæ°databaseTypeéæ©åå¨æ¹å¼ï¼é»è®¤CSVæä»¶åå¨
            if self.databaseType == 'SQL':
                # æ ¹æ®åæ®µåå»ºæ å°ç±»åæ°æ®è¡¨
                self.field()
                tablename = kwargs.get('tablename', self.__class__.__name__)
                self.table = self.table(tablename)
                self.DBSession = self.connect(CONNECTION)
            elif self.databaseType == 'NoSQL':
                self.DBSession = self.connect(CONNECTION)
            else:
                self.path = CONNECTION

        # å®ä¹æ°æ®è¡¨åæ®µ
        def field(self):
            # self.name = Column(String(50))
            pass

        # è¿æ¥æ°æ®åºï¼çæDBSessionå¯¹è±¡
        def connect(self, CONNECTION):
            # è¿æ¥å³ç³»åæ°æ®åº
            if self.databaseType == 'SQL':
                engine = create_engine(CONNECTION)
                DBSession = sessionmaker(bind=engine)()
                Base.metadata.create_all(engine)
            # è¿æ¥éå³ç³»åæ°æ®åº
            else:
                info = CONNECTION.split('/')
                # è¿æ¥Mongoæ°æ®åº
                connection = MongoClient(
                    info[0],
                    int(info[1])
                )
                db = connection[info[2]]
                DBSession = db[info[3]]
            return DBSession

        # å®ä¹æ å°ç±»
        def table(self, tablename):
            class TempTable(Base):
                __tablename__ = tablename
                id = Column(Integer, primary_key=True)
            # å°ç±»å±äºè¿è¡å¤æï¼ç¬¦åsqlalchemyçåæ®µåå®ä¹å°æ°æ®æ å°ç±»
            for k, v in self.__dict__.items():
                if isinstance(v, Column):
                    setattr(TempTable, k, v)
            return TempTable

        # æå¥æ°æ®
        def insert(self, value):
            # å³ç³»åæ°æ®åºçæ°æ®æå¥
            if self.databaseType == 'SQL':
                self.DBSession.execute(self.table.__table__.insert(), value)
                self.DBSession.commit()
            # éå³ç³»åæ°æ®åºçæ°æ®æå¥
            elif self.databaseType == 'NoSQL':
                # å¤æåæ°valueçæ°æ®ç±»åï¼éæ©åæ¡æ°æ®è¿æ¯å¤æ¡æ°æ®æå¥
                if isinstance(value, list):
                    self.DBSession.insert_many(value)
                else:
                    self.DBSession.insert(value)

        # æ´æ°æ°æ®
        def update(self, value, condition={}):
            # å³ç³»åæ°æ®åºçæ°æ®æ´æ°
            if self.databaseType == 'SQL':
                # æ´æ°æ¡ä»¶åªè®¾ç½®äºåä¸ªæ¡ä»¶
                if condition:
                    c = self.table.__dict__[list(condition.keys())[0]].in_(list(condition.values()))
                    self.DBSession.execute(self.table.__table__.update().where(c).values(), value)
                # å¨è¡¨æ´æ°
                else:
                    self.DBSession.execute(self.table.__table__.update().values(), value)
                self.DBSession.commit()
            # éå³ç³»åæ°æ®åºçæ°æ®æ´æ°
            elif self.databaseType == 'NoSQL':
                self.DBSession.update_many(condition, {'$set': value})

        # æä»¶ä¸è½½
        def getfile(self, content, filepath):
            with open(filepath, 'wb') as code:
                code.write(content)

        # æ°æ®åå¥CSVæä»¶
        def writeCSV(self, value, title=[]):
            # åæ°titleä¸ºç©ºåè¡¨ï¼åå°åå¸çkeysè¿è¡æåºå¹¶ä½ä¸ºCSVçæ é¢
            if not title:
                title = sorted(value[0].keys())
            # å¤ææä»¶æ¯å¦åå¨ï¼
            pathExists = os.path.exists(self.path)
            with open(self.path, 'a', newline='') as csv_file:
                csv_writer = csv.writer(csv_file)
                # æä»¶ä¸åå¨ï¼ååå¥æ é¢
                if not pathExists:
                    csv_writer.writerow(title)
                # å°æ°æ®åå¥CSVæä»¶
                for v in value:
                    valueList = []
                    for t in title:
                        valueList.append(v[t])
                    csv_writer.writerow(valueList)

æ°æ®åå¨ç±» DataStorage å®ä¹ 8 ä¸ªæ¹æ³ï¼åå«æ¯åå§åæ¹æ³ __init__()ãç±»æ¹æ³ field()ãconnect()ãtable()ãinsert()ãupdate()ãgetfile() å writeCSV()ï¼æ¯ä¸ªæ¹æ³æå®ç°çåè½è¯´æå¦ä¸ã

å¦æåæ° databaseType è®¾ä¸º SQLï¼åè¯´ææ°æ®åå¨æ¹å¼ä¸ºå³ç³»åæ°æ®åºãåå§åæ¹æ³ä¼ä»å¯éåæ° kwargs éè·ååæ° tablenameï¼å¦æåæ° tablename ä¸åå¨ï¼åç±åç±»çååä½ä¸ºæ°æ®è¡¨çè¡¨åï¼ç¶åè°ç¨ç±»æ¹æ³ field()ï¼ä»ç±»æ¹æ³ field() éè·åèªå®ä¹çåæ®µå±æ§ï¼ç¨äºå®ä¹æ°æ®è¡¨æ å°ç±»ï¼åè°ç¨ç±»æ¹æ³ table() æ¥åå»ºæ°æ®è¡¨æ å°ç±»ï¼å¹¶ä»¥ç±»å±æ§ table è¡¨ç¤ºï¼æåè°ç¨ç±»æ¹æ³ connect() è¿è¡æ°æ®åºè¿æ¥ï¼å°æ°æ®åºè¿æ¥å¯¹è±¡è¿åå¹¶ä»¥ç±»å±æ§ DBSession è¡¨ç¤ºã
å¦æåæ° databaseType è®¾ä¸º NoSQLï¼åè¯´ææ°æ®åå¨æ¹å¼ä¸ºéå³ç³»åæ°æ®åºãåå§åæ¹æ³åªè°ç¨ç±»æ¹æ³ connect() å¹¶æåæ° CONNECTION ä¼ å¥ï¼å®ç°æ°æ®åºè¿æ¥ï¼å°æ°æ®åºè¿æ¥å¯¹è±¡è¿åå¹¶ä»¥ç±»å±æ§ DBSession è¡¨ç¤ºã
å¦æåæ° databaseType è®¾ä¸º CSV ææ²¡æè®¾ç½®åæ° databaseTypeï¼åè¯´ææ°æ®åå¨æ¹å¼ä¸º CSV æä»¶åå¨ãåå§åæ¹æ³å°åæ° CONNECTION èµå¼ç»ç±»å±æ§ pathï¼ç±»å±æ§ path ä»£è¡¨ CSV æä»¶è·¯å¾ä¿¡æ¯ã

(7) ç±»æ¹æ³ getfile() å®ç°æä»¶ä¸è½½åè½ï¼åæ° content ä»£è¡¨æä»¶åå®¹ï¼åæ° filepath ä»£è¡¨æä»¶æä¿åçç»å¯¹è·¯å¾ã

ç»¼åä¸è¿°ï¼ç±»æ¹æ³ field()ãconnect() å table() ä¸»è¦ç¨äºåå§åæ¹æ³__init__()ï¼ä¸ºåå§åæ¹æ³__init__() åå«æä¾æ°æ®è¡¨åæ®µãæ°æ®åºè¿æ¥å¯¹è±¡ DBSession åæ°æ®è¡¨æ å°ç±» TempTableï¼ç±»æ¹æ³ insert() å update() æ¯å®ç°æ°æ®åºçæ°æ®æä½ï¼å¦æ°æ®çæ°å¢æä¿®æ¹ï¼ï¼getfile() å writeCSV() åå«å®ç°æä»¶ä¸è½½åè½å CSV æä»¶åå¨æ°æ®åè½ã

ä¸ºäºéªè¯æ°æ®åå¨ç±» DataStorage çåè½æ¯å¦æ£ç¡®ï¼å¨ storage.py æä»¶ç®å½ä¸åå»ºä¸ä¸ªæµè¯æä»¶ storageTest-CSV.pyãstorageTest-NoSQL.py å storageTest-SQL.pyï¼åå«éªè¯ä¸ç§æ°æ®åå¨æ¹å¼ã

from storage import *
    if __name__ == '__main__':
        CONNECTION = 'data.csv'
        # å¾åå¨æ°æ®personInfo
        personInfo = [{'name': 'Lucy', 'age': '21', 'address': 'åäº¬å¸'},
                      {'name': 'Lily', 'age': '18', 'address': 'ä¸æµ·å¸'}]
        # å®ä¾åæ°æ®åå¨ç±»DataStorage
        database = DataStorage(CONNECTION)
        # è°ç¨writeCSV()å®ç°CSVæä»¶åå¨
        # database.writeCSV(personInfo)
        database.writeCSV(personInfo, title=['name', 'age', 'address'])

åé CONNECTION æ¯ CSV æä»¶è·¯å¾ä¿¡æ¯ï¼å¨å®ä¾åæ°æ®åå¨ç±» DataStorage çæ¶åä¼ å¥åé CONNECTION å³å¯å°æ°æ®åå¨æ¹å¼éä¸º CSV æä»¶åå¨ï¼æ é¡»è®¾ç½®åæ° databaseTypeãå®ä¾åå¯¹è±¡ database è°ç¨ writeCSV() æ¹æ³å³å¯å®ç° CSV æä»¶åå¨æ°æ®åè½ã

from storage import *
    if __name__ == '__main__':
        CONNECTION = 'localhost/27017/test/storage_db'
        # å®ä¾åæ°æ®åå¨ç±»DataStorage
        database = DataStorage(CONNECTION, databaseType='NoSQL')
        # æå¥å¤æ¡æ°æ®
        personInfo = [{'name': 'Lucy', 'age': '21', 'address': 'åäº¬å¸'},
                      {'name': 'Lily', 'age': '18', 'address': 'ä¸æµ·å¸'}]
        database.insert(personInfo)
        # æå¥åæ¡æ°æ®
        value = {'name': 'Tom', 'age': '21', 'address': 'åäº¬å¸'}
        database.insert(value)
        # æ´æ°æ°æ®
        condition = {'name': 'Lucy'}
        updateInfo = {'name': 'Lucy', 'age': '22', 'address': 'å¹¿å·å¸'}
        database.update(updateInfo, condition)

åé CONNECTION æ¯ MongoDB çè¿æ¥æ¹å¼ï¼å¨å®ä¾åæ°æ®åå¨ç±» DataStorage çæ¶åï¼ä¼ å¥åé CONNECTION å¹¶è®¾ç½®åæ° databaseType ä¸º NoSQL å³å¯éæ©éå³ç³»åæ°æ®åºçæ°æ®åå¨åè½ãå®ä¾åå¯¹è±¡ database è°ç¨ insert() å update() æ¹æ³ï¼åå«å®ç°å¤æ¡æ°æ®æå¥ãåæ¡æ°æ®æå¥åæ°æ®æ´æ°åè½ã

from storage import *
    # å®ä¹æ°æ®è¡¨personinfo
    class PersonInfo(DataStorage):
        def field(self):
            # å®ä¹æ°æ®è¡¨åæ®µ
            # self.name = Column(String(50))
            self.name = Column(String(50), comment='å§å')
            self.age = Column(String(50), comment='å¹´é¾')
            self.address = Column(String(50), comment='å°å')

    # å®ä¹æ°æ®è¡¨schoolinfo
    class SchoolInfo(DataStorage):
        def field(self):
            # å®ä¹æ°æ®è¡¨åæ®µ
            # self.name = Column(String(50))
            self.school = Column(String(50), comment='å¦æ ¡')
            self.name = Column(String(50), comment='å§å')

    if __name__=='__main__':
        CONNECTION = 'mysql+pymysql://root:1234@localhost/storage_db?charset=utf8mb4'
        person = PersonInfo(CONNECTION, databaseType='SQL')
        school = SchoolInfo(CONNECTION, databaseType='SQL')
        # å¯¹personInfoè¡¨æå¥å¤æ¡æ°æ®
        personInfo = [{'name': 'Lucy', 'age': '21', 'address': 'åäº¬å¸'},
                      {'name': 'Lily', 'age': '18', 'address': 'ä¸æµ·å¸'}]
        person.insert(personInfo)
        # å¯¹schoolInfoè¡¨æå¥åæ¡æ°æ®
        schoolInfo = {'name': 'Lucy', 'school': 'æ¸åå¤§å¦'}
        school.insert(schoolInfo)

        # å¯¹personInfoè¡¨æ´æ°æ°æ®
        condition = {'id': 1}
        personInfo = {'name': 'Lucy', 'age': '22', 'address': 'å¹¿å·å¸'}
        person.update(personInfo, condition)
        # å¯¹schoolInfoè¡¨æ´æ°æ°æ®
        schoolInfo = {'name': 'Lucy', 'school': 'åäº¬å¤§å¦'}
        school.update(schoolInfo, condition)

ä¸è¿°ä»£ç åå«å®ä¹äºæ°æ®åå¨ç±» PersonInfo å SchoolInfoï¼ä¸¤èéè¿éåç±»æ¹æ³ field() æ¥å®ç°è¡¨åæ®µçå®ä¹ãå¨æä»¶ä¸çè¿è¡å½æ° __main__ åå«å¯¹ç±» PersonInfo å SchoolInfo è¿è¡å®ä¾åï¼ç±äºåç±»ç»§æ¿äºç¶ç±» DataStorage çåå§åæ¹æ³ï¼å æ¤æ°æ®åå¨ç±» PersonInfo å SchoolInfo å¨å®ä¾åçæ¶åä¼å®ä¹æ°æ®è¡¨æ å°ç±»ååå»ºæ°æ®è¡¨è¿æ¥å¯¹è±¡ï¼æåå®ä¾åå¯¹è±¡ person å school åå«è°ç¨ insert() å update() æ¹æ³ï¼å®ç°æ°æ®çå¥åºåæ´æ°å¤çã

è¿è¡ä¸è¿°ä»£ç ï¼å¹¶æå¼æ°æ®åº storage_db æ¥çæ°æ®è¡¨ schoolinfo å personinfo çæ°æ®ä¿¡æ¯ï¼å¦å¾æç¤ºã

5. å®æï¼ç¬åè±ç£çµå½±

å®æ pyReptile æ¡æ¶å®è£åï¼å¨ D çä¸åå»ºæä»¶å¤¹ doubanSpiderï¼å¹¶å¨æä»¶å¤¹éåå«åå»º fields.py å spider.py æä»¶ãæä»¶å¤¹ doubanSpider æ¯é¡¹ç®çæä»¶ç®å½ï¼å¦å¾æç¤ºã

from pyReptile.storage import *
    # å®ä¹çµå½±ä¿¡æ¯è¡¨çåæ®µ
    class MovieComment(DataStorage):
        def field(self):
            # å®ä¹æ°æ®è¡¨åæ®µ
            self.movieId = Column(String(50), comment='çµå½±ID')
            self.user = Column(String(50), comment='ç¨æ·å')
            self.comment = Column(String(3000), comment='è¯è®ºåå®¹')

    # å®ä¹çµå½±è¯è®ºè¡¨çåæ®µ
    class MovieInfo(DataStorage):
        def field(self):
            # å®ä¹æ°æ®è¡¨åæ®µ
            self.movieId = Column(String(50), comment='çµå½±ID')
            self.name = Column(String(50), comment='çµå½±åç§°')
            self.summary = Column(String(3000), comment='å§æç®ä»')

from pyReptile import request, dataPattern
    from fields import MovieComment, MovieInfo
    import time

    # åºæ¬è®¾ç½®
    CONNECTION = 'mysql+pymysql://root:1234@localhost/
    spiderdb?charset=utf8mb4'
    # å®ä¾åæ°æ®åå¨ç±»ï¼å®ä¹æ å°ç±»ä»¥ååå»ºæ°æ®è¡¨
    movieComment = MovieComment(CONNECTION)
    movieInfo = MovieInfo(CONNECTION)

    # ç¬åçµå½±ä¿¡æ¯
    def get_movie(movieId):
        # URLä»¥åç¬¦ä¸²æ ¼å¼ä¼ å¥
        r = request.get(movieUrl % (movieId))
        name = dataPattern.cssSelector(r['text'], 'h1 > span')[0]
        summary = dataPattern.cssSelector(r['text'],'#link-report')[0].strip()
        movieDic = dict(movieId=movieId, name=name, summary=summary)
        # æ¥è¯¢æ°æ®è¡¨æ¯å¦å·²åå¨æ°æ®
        queryMovie = movieInfo.DBSession.query(movieInfo.table).filter_by(movieId=movieId).all()
        # åå¨æ°æ®åä½æ´æ°å¤ç
        if queryMovie:
            condition = {'movieId': movieId}
            movieInfo.update(movieDic, condition)
        # ä¸åå¨å°±æå¥æ°çæ°æ®
        else:
            movieInfo.insert(movieDic)

    # ç¬åçµå½±è¯è®º
    def get_comment(movieId):
        # URLä»¥åè¡¨æ ¼å¼ä¼ å¥
        urlList = []
        for page in range(10):
            urlList.append(commentUrl % (movieId, str(page * 20)))
        valueList = []
        responseList = request.get(urlList)
        for response in responseList:
            commentList = dataPattern.cssSelector(response['text'], 'div.comment > p > span')
            userList = dataPattern.cssSelector(response['text'], 'span.comment-info > a')
            for comment, user in zip(commentList, userList):
                valueList.append(dict(movieId=movieId, user=user, comment=comment))
                # æ°æ®å¥åº
                movieComment.insert(valueList)
    if __name__ == '__main__':
        # å¼å§æ¶é´
        localTime = time.localtime(time.time())
        beginTime = time.strftime("%H:%M:%S", localTime)
        print('ç¨åºå¼å§æ¶é´ï¼' + beginTime)
        # ç¬è«ç¨åº
        movieUrl = 'https://movie.douban.com/subject/%s/?from=showing'
        commentUrl = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P'
        movieId = '3168101'
        get_movie(movieId)
        get_comment(movieId)
        # ç»ææ¶é´
        localTime = time.localtime(time.time())
        endTime = time.strftime("%H:%M:%S", localTime)
        print('ç¨åºç»ææ¶é´ï¼' + endTime)

(1) pyReptile æ¡æ¶åè½çåå§åæ¯è®¾ç½® SQLAlchemy è¿æ¥ MySQL çè¿æ¥åå®¹ï¼ç± pymysql æ¨¡åå®ç°è¿æ¥ï¼æ°æ®åå¨å¨æ°æ®åº spiderdbï¼å°æ°æ®åºçè¿æ¥åå®¹ä»¥åæ°çå½¢å¼ä¼ å¥æ°æ®åå¨ç±» MovieComment å MovieInfoï¼çæå®ä¾åå¯¹è±¡ movieComment å movieInfoã

é¦åå¯¹çµå½±ä¿¡æ¯é¡µç URL å°ååé HTTP è¯·æ±ï¼å ä¸ºåªç¬åæä¸é¨çµå½±ï¼æä»¥ URL å°åæ¯ä»¥åç¬¦ä¸²æ ¼å¼è¡¨ç¤ºï¼
ä»ååºåå®¹éæåçµå½±åç§°åå§æç®ä»ï¼å°æåçæ°æ®è½¬æ¢æåå¸æ ¼å¼ï¼åå¸ç key æ¯æ°æ®è¡¨çè¡¨åæ®µï¼å³æ°æ®åå¨ç±» MovieInfo å®ä¹çç±»å±äºï¼åå¸ç value æ¯æåçæ°æ®åå®¹ï¼
æåç±å¯¹è±¡ movieInfo å¤æçµå½± ID æ¯å¦å·²åå¨ï¼è¥åå¨ï¼åå¯¹æ°æ®è¡¨çæ°æ®è¿è¡æ´æ°å¤çï¼åä¹åå¯¹æ°æ®è¡¨æ°å¢æ°æ®ã

ååé¡µççµå½±è¯è®ºé¡µå±æ 10 æ¡ä¸åç URL å°åï¼å æ¤ URL å°åæ¯ä»¥åè¡¨çå½¢å¼ä¼ å¥è¯·æ±å½æ° get()ï¼pyReptile æ¡æ¶å¯¹å¶æ§è¡å¼æ¥å¹¶åç HTTP è¯·æ±ï¼
å°ååé¡µçååºåå®¹è¿è¡éåï¼æ¯æ¬¡éåä¼æåå½åé¡µé¢çç¨æ·ååè¯è®ºåå®¹ï¼åå°ç¨æ·ååè¯è®ºåå®¹è½¬æ¢æåå¸æ ¼å¼ï¼å¹¶ä¸åå¥åè¡¨ valueListï¼è¯¥åè¡¨ä¿åäºååé¡µææçç¨æ·ååè¯è®ºåå®¹ï¼
æåç±å¯¹è±¡ movieComment å¯¹åè¡¨ valueList æ§è¡æ°æ®å¥åºå¤çã

æåæå¼æ°æ®åº spiderdbï¼åå«æ¥çæ°æ®è¡¨ movieinfo å moviecomment çæ°æ®ä¿¡æ¯ï¼å¦å¾æç¤ºã

ç¬è«ç±» Request éè¦æ·»å Selenium æ Splash çåè½ã

實戰 Python 網絡爬蟲：Python 開發個人爬蟲架構

1. æ¡æ¶è®¾è®¡è¯´æ

2. å¼æ¥ç¬åæ¹å¼

3. æ°æ®æ¸æ´æºå¶

4. æ°æ®åå¨æºå¶

5. å®æï¼ç¬åè±ç£çµå½±

6. æ¡æ¶çåè½æ©å±

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

實戰 Python 網絡爬蟲：Python 開發個人爬蟲架構

1. æ¡æ¶è®¾è®¡è¯´æ

2. å¼æ­¥ç¬åæ¹å¼

3. æ°æ®æ¸ æ´æºå¶

4. æ°æ®å­å¨æºå¶

5. å®æï¼ç¬åè±ç£çµå½±

6. æ¡æ¶çåè½æ©å±

繼續閱讀

1. æ¡æ¶è®¾è®¡è¯´æ

2. å¼æ¥ç¬åæ¹å¼

3. æ°æ®æ¸æ´æºå¶

4. æ°æ®åå¨æºå¶

5. å®æï¼ç¬åè±ç£çµå½±

6. æ¡æ¶çåè½æ©å±