天天看點

Python通用新聞網站正文抽取器:GNE

GeneralNewsExtractor(GNE)是一個通用新聞網站正文抽取子產品,輸入一篇新聞網頁的 HTML, 輸出正文内容、标題、作者、釋出時間、正文中的圖檔位址和正文所在的标簽源代碼。GNE在提取今日頭條、網易新聞、遊民星空、 觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百個中文新聞網站上效果非常出色,幾乎能夠達到100%的準确率。

安裝

# 以下兩種方案任選一種即可

# 使用 pip 安裝
pip install --upgrade gne

# 使用 pipenv 安裝      

提取正文

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '網站源代碼'
result = extractor.extract(html)
print(result)      

參考