天天看點

行政區劃編碼映射關系-資料處理

寫在前面

  • 在算法研發過程中,通常需要各類的基礎資料。
  • 例如,下文中将要提到的行政區劃編碼與行政區劃中文名。
  • 針對基礎資料,如果處理不好,可能會對算法結果産生意想不到的影響。
  • 其中,行政區劃翻譯表中缺少地級市等行政編碼,直接導緻證件軌迹統計補全等問題,進而影響算法的準确性等

行政區劃

  • ​​2017年12月中華人民共和國縣以上行政區劃代碼​​
1. 析取資料
import requests
import pandas as pd
from bs4 import BeautifulSoup

text = requests.get(u'http://www.mca.gov.cn/article/sj/tjbz/a/2018/201803131439.html').text
soup = BeautifulSoup(text,'lxml');

result = []
for item in soup.find_all('tr',attrs={"height":"19", "style":"mso-height-source:userset;height:14.25pt"}):
    ele = item.find_all('td',attrs={"class":"xl7013492"})
    if ele[0].getText() is not None and ele[0].getText()!='':
        result.append([ele[0].getText(), ele[1].getText()])
    
xzqh = pd.DataFrame(result)
xzqh.columns = ['xzqh_code','ch_name']      
2. 具體效果
3. 下載下傳位址
  • ​​行政區劃資料及擷取代碼​​