天天看點

「2020年七普資料整理」省市縣三級各行業門類人口

作者:立方資料學社

人口資料是我們在各項研究中最常用的資料之一。人口資料的主要來源是大陸每十年進行一次的人口普查,最近一次的人口普查是2020年進行的第七次人口普查,簡稱七普!很多小夥伴對七普資料翹首以盼,最近《2020中國人口普查分縣資料》終于出版了,有些公衆号也釋出了該資料的PDF版本,為了友善大家使用我們在PDF的基礎上處理成了excel和shp格式的資料分享給大家!

我們之前分享了《2020中國人口普查分縣資料》的表1——人口基本情況、表2——分年齡、性别的人口、表3——各年齡組人口占總人口的比重、有65歲及以上老年人的戶數、戶口登記在外鄉鎮街道人口、表4——人口受教育狀況和表5——各職業大類人口。(表1-表5的具體介紹均可檢視之前推送的文章)

本次分享的是表6——各行業門類人口!該表統計了大陸省市縣三個行政等級的各行業門類人口數,具體名額包括:

  1. 16歲及以上人口
  2. 各種行業人口總計
  3. 農、林、牧、漁業
  4. 采礦業
  5. 制造業
  6. 電力、熱力、瓦斯及水生産和供應業
  7. 建築業
  8. 批發和零售業
  9. 交通運輸、倉儲和郵政業
  10. 住宿和餐飲業
  11. 資訊傳輸軟體和資訊技術服務業
  12. 金融業
  13. 房地産業
  14. 租賃和商務服務業
  15. 科學研究和技術服務業
  16. 水利環境和公共設施管理業
  17. 居民服務修理和其他服務業
  18. 教育
  19. 衛生和社會工作
  20. 文化體育和娛樂業
  21. 公共管理社會保障和社會組織
  22. 國際組織

為了友善大家使用,我們花了大量的時間對資料進行了整理,形成了excel和shp兩種格式的檔案!整理出的資料缺失港澳台地區。對于資料整理的細節我們會在下文詳細介紹!以下為資料的詳細介紹:

01 資料預覽

下面我們來預覽下資料,首先是excel格式的資料,如下圖!省市縣三級的所有名額在一個excel中,省市縣的資料通過不同顔色分割,友善大家可以在excel中按照顔色選取不同等級的資料!每個名額的機關也标注在列名中!

「2020年七普資料整理」省市縣三級各行業門類人口

下面我們再來看看shp格式的資料!分為三個shp檔案,分别為省份的各行業門類人口、地級市的各行業門類人口、區縣的各行業門類人口!

1.省份的各行業門類人口

我們以全國各省份的制造業人口和建築業人口兩個名額為例來預覽下,資料不包括港澳台,剩下的所有省份均有資料,如下圖:

「2020年七普資料整理」省市縣三級各行業門類人口

全國各省份的制造業人口

「2020年七普資料整理」省市縣三級各行業門類人口

全國各省份的建築業人口

2.地級市的各行業門類人口

我們以全國各地級市的金融業人口和房地産業人口兩個名額為例來預覽下,資料不包括港澳台,剩下的所有地級市均有資料,如下圖:

「2020年七普資料整理」省市縣三級各行業門類人口

全國各城市的金融業人口

「2020年七普資料整理」省市縣三級各行業門類人口

全國各城市的房地産人口

3.區縣的人口各行業門類人口

我們以全國各區縣的科學研究和技術服務業人口和文化、體育和娛樂業人口兩個名額為例來預覽下,資料不包括港澳台,剩下的所有區縣均有資料,如下圖:

「2020年七普資料整理」省市縣三級各行業門類人口

全國各區縣的科學研究和技術服務業人口

「2020年七普資料整理」省市縣三級各行業門類人口

全國各區縣的文化、體育和娛樂業人口

02 資料整理說明

本資料來源于《2020中國人口普查分縣資料》,想得到最終的excel和shp資料,需要做兩個工作,第一個是将資料電子化,形成excel格式的資料,第二個是将excel資料矢量化,得到shp格式的資料!

對于将PDF電子化,主要是要選擇合适的視圖軟體,在這兒推薦wps(識别數字比較準确)和全能掃描王(識别漢字比較準确),在識别後要對識别錯誤的資料進行修改,比如錯誤的符号,錯誤的字母等,最後還要對資料進行檢查,比如可以通過總人口是否等于男性人口+女性人口來檢查這三列資料有沒有錯誤!

我們重點來看一下第二步——将excel資料矢量化,得到shp格式的資料!對于将excel矢量化成shp資料,我們需要首先找到一個高精度的全國省市縣的行政區劃shp資料,在經過對比後,我們使用了‘銳多寶的地理空間’公衆号分享的行政區劃shp資料!有了行政區劃資料,下一步的重點工作是将excel資料根據公共列(省名稱、城市名稱、區縣名稱)連結到行政區劃shp資料裡面,這一步會有很多錯誤,需要一一檢查,我們依次來看一下!

1.将省份層級的excle資料矢量化形成shp資料

由于大陸隻有34個省級行政單元,excel資料和shp資料裡面的省份名稱是完全對應的,我們不用經過任何處理,使用arcgis中的連接配接功能,以省份名稱為連接配接列,直接連結就能得到最終的資料!該資料除了港澳台地區以外,沒有任何缺失值!

2.将地級市層級的excle資料矢量化形成shp資料

大陸有300多個地級市行政單元,這300多個行政單元的名稱都是唯一的,沒有重複,是以也可以直接連接配接得到最終的資料!該資料除了港澳台地區以外,沒有任何缺失值!

3.将區縣層級的excle資料矢量化形成shp資料

相比于省份層級和地級市層級,區縣等級的處理要複雜得多,需要大量的工作!主要包括如下幾個方面:

①大陸的區縣名稱并不是唯一的,比如全國有四個城市有鼓樓區,有兩個城市有朝陽區,有兩個城市有寶山區,全國重複的區縣名稱大約有60個,對于這些區縣,如果直接根據區縣名稱進行連接配接會出錯,需要一一進行處理,這兒的處理方式是将區縣前面的城市和省份加上,這樣區縣名稱就是唯一的啦,就可以進行連接配接了!

②我們使用的‘銳多寶的地理空間’公衆号分享的行政區劃shp資料雖然精度很高,但是依然有一些和基于《2020中國人口普查分縣資料》整理的excel資料不對應的區縣!這兒分為兩種情況,第一種是有些已經調整的區劃,行政區劃shp資料裡面沒有跟着調整,對于這樣的問題,我們以以excel資料為準,對行政區劃shp資料進行調整,包括:

  • 河北省邢台市進行了行政區劃大調整,橋西區改為了信都區,橋東區改為了襄都區等,在這兒就不一一列舉了,對行政區劃shp資料進行相應調整;
  • 海西蒙古族藏族自治州直轄改為海西蒙古族藏族自治州大柴旦行政委員會
  • 南沙市改為南沙群島
  • 煙台蓬萊市和長島縣合并為蓬萊區
  • 成都新津縣改為新津區
  • 江西省龍南縣改為龍南市

另外,在《2020中國人口普查分縣資料》中還統計有大約100個地區在行政區劃shp資料裡面沒有包括,比如比如石家莊高新技術産業開發區、河北唐山蘆台經濟開發區、唐山市漢沽管理區、荊州經濟技術開發區濟南高新技術産業開發區等!我們觀察下來這些資料基本都是開發區、産業園區,而行政區劃shp資料裡面沒有統計這些開發區、産業園區!對于這些開發區也很難找到精确的行政邊界,是以在最終的shp資料中我們直接忽略了這些資料。excel版本的資料中是包括了這些開發區、産業園區的,大家如果想要使用這些資料請使用excel資料,特此說明!

03 資料擷取

「2020年七普資料整理」省市縣三級各行業門類人口
「2020年七普資料整理」省市縣三級各行業門類人口

繼續閱讀