Hello,爬蟲
直接貼代碼
import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup
def baike( word ) :
def test_url( soup ) : # 檢測是否收錄該詞條,傳回 True or False
result = soup.find( text=re.compile("百度百科未收錄該詞條") )
if result :
return False
else:
return True
def summary( soup ) :
# h1标簽的文本(百科的主标題)
word = soup.h1.text # 此處word含義轉變 , 不要弄混
# h2标簽的文本(百科的副标題)
if soup.h2 :
word += soup.h2.text
print( word )
#(百科的簡介)
if soup.find( class_="lemma-summary" ) :
print( soup.find( class_="lemma-summary" ).text )
def start( word ):
keyword = urllib.parse.urlencode( {"word" : word} ) # 解析,用于組成URL
response = urllib.request.urlopen( "http://baike.baidu.com/search/word?%s" % keyword )
html = response.read()
soup = BeautifulSoup( html , "html.parser" )
if test_url( soup ) :
summary( soup )
try :
start( word )
except AttributeError :
print("百度百科未收錄該詞條")
if(__name__ == "__main__") :
content = str( input("請輸入關鍵詞 : ") )
baike(content)
運作 ↓ :
>>>
請輸入關鍵詞 : 蘿莉 ←
蘿莉(ACGN界用語)
蘿莉,來源于中國台灣作家趙爾心翻譯的俄裔美國作家的小說《洛麗塔》,或指小說中的女主角14歲的洛麗塔,後在日本引申發展成一種次文化,用來表示可愛的嬌小女性。被世人公認最早的蘿莉角色是1982年推出的《甜甜仙子》中的MOMO公主。蘿莉語出納博可夫的小說《洛麗塔》(曾被改編成電影,中文片名是《一樹梨花壓海棠》)中同名的女主角,其劇情描寫中年男子愛上了年齡與自己有所差距的少女的故事。中文版于1964年台灣皇冠出版公司出版,趙爾心翻譯 ,是蘿莉一詞的最初使用者。
>>>
import easygui 簡單做個圖形化視窗 :
import tkinter做個視窗:
※ 後記
♥ 這個爬蟲很基礎
♠ 最基礎的爬蟲坑也多,希望上面的代碼可以幫到你一點點
♣ tkinter比Java的Swing元件簡單,且代碼量小,可以玩玩,不要深究
♦ 完整的代碼可以私信我