最新2023!中国城市统计年鉴面板数据无缺失填充版(1990-2022年)

一、数据介绍
数据名称:中国城市数据库
数据来源:《中国城市统计年鉴》、地方统计局
数据年份:1990-2022年
数据范围:300个地级市(包括直辖市)
样本数量:平衡面板9900条(300*33=9900)
二、整理方法
- 第一,识别年鉴。利用NLP算法识别《中国城市统计年鉴》,并转为面板数据
- 第二,完善数据。对比主流数据库、地方统计局,进一步完善城市数据
- 第三,统一地区。匹配民政部编码,统一使用2019年编码和地区名称
- 第四,统一单位。对不同单位的情况,进行单位换算
- 第五,匹配位置。利用高德地图API,得到地区的经纬度
- 第六,人工验证。得到所有指标的面板数据,并人工抽样验证
- 第七,平衡面板。将非平衡面板转为平衡面板数据
- 第八,线性插值。利用线性趋势对中间缺失进行填充,得到线性插值版
- 第九,ARIMA填补。利用时间趋势,对剩余缺失进行预测,得到ARIMA填补版
- 最终,保留原始版本、线性插值版、ARIMA填补版
三、数据指标
共计189个指标,部分如下:

有效值概览:

【注】本文数据来源于公众号:Paper数据分析
