空间计量:地理加权归回模型-(GWR)-参数估计

发布时间:2020-06-30 阅读 5323

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

   

作者: 陈凤 (西安交通大学)
Email: chenfengscsfdx@163.com


目录


1. 地理加权回归模型简介

空间数据在地理学、经济学、环境学、生态学以及气象学等众多领域中广泛存在。根据 Tobler 提出的 「地理学第一定律」:任何事物之间都是空间相关的,距离越近的事物之间的空间相关性越大。因此,不同于传统的截面数据,空间数据的空间相关性会导致回归关系的空间非平稳性 (空间异质性)。为了探索空间数据的空间非平稳性, Brunsdon 等 (1996) 首次提出了 地理加权回归模型,设定如下:

其中,βj(u,v) (j=0,1,,p)「空间地理位置函数」

以某城市的房屋价格 Y 和房屋面积 X 为例, 如果不考虑房屋的地理位置信息,可以建立一个简单的线性回归模型:

其中,β 为房屋的单位面积均价。实际中,处于不同位置的房屋价格可能会相差甚远,但是模型 (2) 却不能反映出这种异质性。因此,为了能够描述不同位置房屋价格的差异性,我们可以建立如下模型:

其中,β(u,v) 是地理位置的函数。相比于模型 (2),模型 (3) 可以反映房屋价格随地理位置的变化而变化的规律。

上述例子说明有必要对空间数据建立地理加权回归模型来探索空间数据的非平稳性。

2. 地理加权回归模型的参数估计方法

根据 Tobler 地理学第一定律,距离越近的事物之间的相关性越大。故对于一个给定的地理位置(u0,v0),可以采用局部加权最小二乘来估计 βj(u0,v0) (j=0,1,,p),即

其中,{wi(u0,v0)}i=1n 是在地理位置 (u0,v0) 处的空间权重。令 β(u0,v0)=(β0(u0,v0),β1(u0,v0),,βp(u0,v0))T, 则 β(u0,v0) 在 (u0,v0) 处的局部最小二乘估计值为

其中,

令 (u0,v0)=(ui,vi),i=1,2,,n,则可以由公式 (5) 得到回归函数 β(u,v)在所有观测位置处的局部估计值。

注1: βj(u,v) (j=0,1,,p) 可以在任意位置处被估计。因此,GWR 模型也可以作为空间数据的插值工具。 注2: 在 (u0,v0) 处,β(u0,v0) 的 GWR 估计值和如下线性模型的最小二乘估计是等价的:

3. 常用的核函数

在核光滑方法中,常用的核函数如下:

3.1. Gussian kernel function

其中,h 为窗宽,dij 为点 (ui,vi) 和 (uj,vj) 之间的距离。

3.2. Bi-square kernel function

$$w_i(u_j,v_j)=K_h(d_{ij})=\left\{ \begin{array}{rcl} \left[1-\left(\frac{d_{ij}}{h}\right)^2\right]^2, & \left|d_{ij}\right|h. \end{array}\right. $$

给一个h(ui,vi)处自变量的观测值对(u0,v0)处因变量的权重wi(u0,v0)如下所示。 image.png

3.3. K-nearest neighbor kernel function

给定Kdik(ui,vi)到第K个邻近点的距离,则

$$w_i(u_j,v_j)=K_h(d_{ij})=\left\{ \begin{array}{rcl} \left[1-\left(\frac{d_{ij}}{d_{ik}}\right)^2\right]^2, & \left|d_{ij}\right|d_{ik}. \end{array}\right. $$

对于任意的观测点来说,K近邻核函数总是保持有K个观测点的空间权重不为零,如下所示。 image.png

4. 窗宽h的选择准则

在地理加权回归模型中,常用的最优窗宽选取准则有交叉确认方法、广义交叉确认方法以及AICc信息准则。这三种准则的定义分别如下所示。

4.1. 交叉确认方法(Cross-validation (CV) criterion)

交叉确认方法的具体过程如下:给定一个 h, 去掉第 i 组观测值 (Yi,Xi),用剩下的 (n1) 组数据在给定的 h下进行地理加权回归参数估计,然后得到在 Xi 处的拟合值Y^(i)(h)。令

则最优窗宽 h0 的选取如下:

4.2. 广义交叉确认方法(Generalized cross-validation (GCV) criterion)

其中,L(h)“帽子” 矩阵,令

则最优窗宽 h0 的选择标准为:

4.3. AICc信息准则(Corrected Akaike information criterion (AICc))

令 Y^(h)=L(h)Y, ε^=YT(InL(h))T(InL(h))Y,则有

最优窗宽 h0 的选取如下:

AICc 准则选择最优窗宽如下所示: image.png 注:模拟实验以及经验表明,CV 和 GCV 准则一般会趋于确定一个稍微偏小的窗宽h0,而较小的窗宽会使得回归函数的估计值偏差减小,但是方差会增大。因此,会出现过拟合现象。但是对于 AICc 在很多情况下可以较好的克服过拟合现象,即趋于确定一个更合理的窗宽。

4. 在 R 软件运行地理加权回归模型

在R软件中,可以调用 Rpacakge-GWmodel (Lu, B. B, et al. 2014) 来实现地理加权回归模型的参数过程。以都柏林 2014 年的选举数据为例,下面介绍 GWR 在 R 中的实现过程:

# 1. 加载 Rpacakge:
library("GWmodel")

# 2. 加载数据
data(DubVoter)

# 3. 选择最优窗宽
Dub<cbind(Dub.voter\$DiffAdd,Dub.voter\$LARent,Dub.voter\$SC1,Dub.voter\$Unempl,Dub.voter\$LowEduc,Dub.voter\$Age18_24,Dub.voter\$Age25_44,Dub.voter\$Age45_64,Dub.voter\$GenEl2004)
DubCoord<-cbind(Dub.voter\$X,Dub.voter\$Y) %地理位置
DIS<-gw.dist(dp.locat=DubCoord)% 计算距离矩阵
bw1<bw.gwr(GenEl2004~DiffAdd+LARent+SC1+Unempl+LowEduc+Age18_24+Age25_44+Age45_64, approach="AICc",adaptive=TRUE, data=Dub.voter, 
            kernel = "bisquare",dMat=DIS) %选择bi-square函数作为核函数,使用AICc准则选择最优窗宽

# 4. 拟合GWR模型
gwr.res1<gwr.basic(GenEl2004~DiffAdd+LARent+SC1+Unempl+LowEduc+Age18_24+Age25_44+Age45_64, data=Dub.voter, bw=bw1,adaptive=TRUE,kernel = "bisquare", dMat=DIS)

# 5. 将局部估计值画在对应的地图上面
library("RColorBrewer")
Mcolor<-1;mypalette <- colorRampPalette(brewer.pal(9, "Greys"))(200)
map.na=list("SpatialPolygonsRescale", layout.north.arrow(),
            offset=c(329000, 261500), scale=4000,col=1)
map.scale.1=list("SpatialPolygonsRescale",layout.scale.bar(),
                 offset=c(326500, 217000), scale=5000,col=1,
                 fill=c("transparent","black"))
map.scale.2=list("sp.text",c(326500, 217900),"0",cex=0.9,col=1)
map.scale.3=list("sp.text",c(331500, 217900),"5km",cex=0.9,col=1)             
map.layout<-list(map.na,map.scale.1,map.scale.2,map.scale.3)
mypalette.9<-brewer.pal(9,"Greys")
spplot(gwr.res1$SDF, "LowEduc",key.space="right",
       col.regions=mypalette.6, at=c(-8,-6,-4,-2,0,2,4),
       sp.layout=map.layout)

在都柏林 2014 年选择数据中,使用 AICc 准则确定的最优窗宽为 115,其中变量 LowEduc 的回归系数的局部估计值如下: Dublin.jpg

5. 参考文献

  • Brunsdon, C. E, Fotheringham, A. S. and Charlton, M. E., 1999. Some notes on parametric significance test for geographically weighted regression. Journal of Regional Science, 39 (3): 497–524. [PDF]
  • 梅长林, 王宁. 近代回归分析方法 [M]: 北京:科学出版社, 2012.
  • Lu, B. B., Harris, P., Charlton, M. and Brunsdon, C., 2014. The GWmodel R package: further topics for exploring spatial heterogeneity using geographically weighted models. Geo-spatial Information Science, 17 (2): 85–101. [PDF]

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD