天天看點

【Python爬蟲】百度百科Hello,爬蟲

Hello,爬蟲

直接貼代碼

import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup


def baike( word ) :
       def test_url( soup ) :      		# 檢測是否收錄該詞條,傳回 True or False
              result = soup.find( text=re.compile("百度百科未收錄該詞條") )
              if result :
                     return False
              else:
                     return True

       def summary( soup ) :
              # h1标簽的文本(百科的主标題)
              word = soup.h1.text   # 此處word含義轉變 , 不要弄混
              # h2标簽的文本(百科的副标題)
              if soup.h2 :
                     word += soup.h2.text

              print( word )

               #(百科的簡介)
              if soup.find( class_="lemma-summary" ) : 
                     print( soup.find( class_="lemma-summary" ).text )

       def start( word ):
              keyword = urllib.parse.urlencode( {"word" : word} )  	# 解析,用于組成URL
              
              response = urllib.request.urlopen( "http://baike.baidu.com/search/word?%s" % keyword )
              html = response.read()
              soup = BeautifulSoup( html , "html.parser" )

              if test_url( soup ) :
                     summary( soup )
  
       try :
              start( word )
       except AttributeError :
              print("百度百科未收錄該詞條")


if(__name__ == "__main__") :
       content = str( input("請輸入關鍵詞  :  ") )
       baike(content)
           

運作 ↓ :

>>>
請輸入關鍵詞 : 蘿莉 ←

蘿莉(ACGN界用語)

蘿莉,來源于中國台灣作家趙爾心翻譯的俄裔美國作家的小說《洛麗塔》,或指小說中的女主角14歲的洛麗塔,後在日本引申發展成一種次文化,用來表示可愛的嬌小女性。被世人公認最早的蘿莉角色是1982年推出的《甜甜仙子》中的MOMO公主。蘿莉語出納博可夫的小說《洛麗塔》(曾被改編成電影,中文片名是《一樹梨花壓海棠》)中同名的女主角,其劇情描寫中年男子愛上了年齡與自己有所差距的少女的故事。中文版于1964年台灣皇冠出版公司出版,趙爾心翻譯 ,是蘿莉一詞的最初使用者。
>>>
           

import easygui 簡單做個圖形化視窗 :

【Python爬蟲】百度百科Hello,爬蟲
【Python爬蟲】百度百科Hello,爬蟲

import tkinter做個視窗:

【Python爬蟲】百度百科Hello,爬蟲

 ※ 後記

♥ 這個爬蟲很基礎

♠ 最基礎的爬蟲坑也多,希望上面的代碼可以幫到你一點點

♣ tkinter比Java的Swing元件簡單,且代碼量小,可以玩玩,不要深究

♦ 完整的代碼可以私信我