python爬蟲爬取微信_python爬蟲對搜狗抓取微信搜尋資訊不全問題

2023-07-30 17:38:44

剛開始學習python爬蟲，想實作對搜狗公衆号搜尋結果的爬取

發現問題是抓到的資訊沒有直接在浏覽器通路的URL資訊完整。

以下是基本實作，代碼很簡單，爬取到的頁面中沒有“最近文章”（在浏覽器中直接通路有“最近文章”内容）

請高手們指點一二，謝謝！

#-*- coding: utf-8 -*-

import urllib2

import sys

import urllib

from bs4 import BeautifulSoup

reload(sys)

sys.setdefaultencoding('utf8')

url = 'http://weixin.sogou.com/gzh?openid=oIWsFt5l9RDYeAjdXZBYtGzbH0JI'

print url

i_headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0"}

req = urllib2.Request(url, headers=i_headers)

content = urllib2.urlopen(req).read()

soup = BeautifulSoup(content)

print soup

siteUrls = soup.findAll(attrs={'class':'img_box2'})

print siteUrls

file_object = open('test.htm','w+')

file_object.write(content)

file_object.close()

繼續閱讀