寫在前面
- 例如,下文中将要提到的行政區劃編碼與行政區劃中文名。
- 針對基礎資料,如果處理不好,可能會對算法結果産生意想不到的影響。
- 其中,行政區劃翻譯表中缺少地級市等行政編碼,直接導緻證件軌迹統計補全等問題,進而影響算法的準确性等
行政區劃
- 2017年12月中華人民共和國縣以上行政區劃代碼
1. 析取資料
import requests
import pandas as pd
from bs4 import BeautifulSoup
text = requests.get(u'http://www.mca.gov.cn/article/sj/tjbz/a/2018/201803131439.html').text
soup = BeautifulSoup(text,'lxml');
result = []
for item in soup.find_all('tr',attrs={"height":"19", "style":"mso-height-source:userset;height:14.25pt"}):
ele = item.find_all('td',attrs={"class":"xl7013492"})
if ele[0].getText() is not None and ele[0].getText()!='':
result.append([ele[0].getText(), ele[1].getText()])
xzqh = pd.DataFrame(result)
xzqh.columns = ['xzqh_code','ch_name']
2. 具體效果
3. 下載下傳位址