天天看點

python爬蟲實戰2-擷取當當網近30日好評榜前500本書籍-使用BeautifulSoup

所有的一切都跟上一篇文章是一樣的,不同的是不用寫長長的正規表達式啦,上一期傳送門https://blog.csdn.net/u010376229/article/details/114042780

這次我們需要用到BeautifulSoup,隻需簡單的學習一下就剋不用寫正規表達式啦,而且更加清楚

def get_books_info_of_current_page(page):
    html = get_html("http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page))
    soup = BeautifulSoup(html, 'lxml')
    lis = soup.find("ul", class_="bang_list").find_all("li")  # 找到<ul class="bang_list">下所有的li元素
    get_book_info_and_write_to_txt(lis)
           
def get_book_info_and_write_to_txt(lis):
    for li in lis:
        book_info = {
            "range": li.find('div', class_="list_num").string,
            "img": li.find("div", class_="pic").a.img.get("src"),
            "title": li.find("div", class_="name").a.get("title"),
            "recommend": li.find("div", class_="star").find("span", class_="tuijian").string,
            "author": li.find("div", class_="publisher_info").a.get("title") if li.find("div", class_="publisher_info").a else "無",
            "price": li.find("div", class_="price").span.string
        }
        write_item_to_file(book_info)
           

不過用這種方法用的時間比較久,取500條資料用時14s左右,用正則隻需要10s左右