擷取新浪網的連結資訊

2011-07-08 21:50:00

sgmllib.py 包含一個重要的類: SGMLParser。SGMLParser 将 HTML 分解成有用的片段，比如開始标記和結束标記。一旦它成功地分解出某個資料為一個有用的片段，它會根據

所發現的資料，調用一個自身内部的方法。為了使用這個分析器，您需要子類化 SGML- Parser類，并且覆寫這些方法。

SGMLParser類裡面包含了很多内部方法，開始讀取html後，遇到相應的資料就會調用其對應的方法，最重要的方法有三個：

start_tagname(self, attrs)
end_tagname(self)
handle_data(self, text)

tagname就是标簽名稱，比如當遇到<pre>，就會調用start_pre，遇到</pre>，就會調用 end_pre，attrs即為标簽的參數，以[(attribute, value), (attribute, value),

...]的形式傳回，我們要做的就是在其子類重載自己感興趣标簽對應的函數。

from sgmllib import SGMLParser
import urllib
import urllib2
import socket
socket.setdefaulttimeout(210)


class URLLister(SGMLParser):
def reset(self):
        self.url=[]
        SGMLParser.reset(self)


def start_a(self,attrs):
        href=[v for k,v in attrs if k=='href']
if href:
            self.url.extend(href)


parser=URLLister()


myurl='http://www.sina.com.cn'
request=urllib2.Request(myurl)
opener=urllib2.build_opener()
page=opener.open(request)


if page.code==200:
    predata=page.read()
    parser.feed(predata)
print parser.url,"\n"

擷取新浪網的連結資訊

繼續閱讀

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

403 Forbidden，You don't have permission to access / on this server.Forbidden

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

詳解STM32單片機的堆棧

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入