天天看點

網絡爬蟲、request子產品

自動抓取網際網路資訊的程式;

利用網際網路資料進行分析、開發産品

步驟:

1.通過網絡連結擷取網頁内容

2.對獲得的網頁内容進行處理

requests子產品是一個簡潔且簡單的處理HTTP請求的工具

支援非常豐富的連結通路功能,包括URL擷取,HTTP會話,Cookie記錄等

requests網頁請求:

get()  對應HTTP的GET方式

post() 對應HTTP的POST方式,用于傳遞使用者資料

requests對象屬性

status_code  HTTP請求的傳回狀态,200表示連結成功,400表示失敗

text HTTP相應内容的字元串形式,即url對應的頁面内容。

# -*- coding:utf-8 -*-
import requests

def get_html_text(url):
    """
    傳回url的文本
    :param url:
    :return:
    """
    r = requests.get(url,timeout = 30)
    #print(r.status_code)
    return r.text


def main():
    city_name = input('請輸入城市拼音:')
    url = 'http://pm25.in/' + city_name
    url_text = get_html_text(url)
    #print(url_text)
    aqi = """
    <div class="span12 data">
        <div class="span1">
          <div class="value">
            """
    index = url_text.find(aqi)
    begin_index = index + len(aqi)
    end_index = begin_index +2
    aqi_val  = url_text[begin_index:end_index]
    print('空氣品質為{}'.format(aqi_val))
if __name__ == '__main__':
    main()
           

繼續閱讀