xtewreg:面板数据存在衡量偏误-测量偏误时如何估计?

发布时间:2021-03-03 阅读 3259

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 谢雁翔 (南开大学)
邮箱: xyxmask1995@163.com


目录


编者按:测量误差」 (Measurement Error,亦称「衡量偏误」) 是内生性的主要来源之一。相对于另外两种文献中经常提及的内生性来源——「遗漏变量」、「互为因果」,大家对「测量误差」的关注非常有限。在实证研究过程中,若解释变量存在测量误差,往往会使得研究者无法一致地估计解释变量的系数。

在此前的推文 第三种内生性:衡量偏误(测量误差)如何检验-dgmtest? 中,我们介绍了如何检验是否存在衡量偏误。今天这篇推文,将为大家分享如何应对衡量偏误问题,即「模型中核心变量存在衡量偏误时的估计方法」。

在连玉君老师此前的一份幻灯片中,也提及了本文的方法,参见 内生性:来源及处理方法-幻灯片下载

本文部分内容参考如下内容,特此致谢!

Timothy Erickson, Robert Parham, Toni M. Whited, 2017, Fitting the Errors-in-variables Model Using High-order Cumulants and Moments, Stata Journal, 17(1): 116–129. -PDF-, -PDF2-

第三届“Stata 中国用户大会”-Stata 在公司投融资研究中的应用-覃家琦. -Link-

1. 引言

1.1 托宾 Q 理论

托宾 (Tobin) 于 1969 年提出了著名的投资(托宾) q 理论,他指出新增资产预期利润的净现值与重置成本的比率将是决定投资的重要因素,这便是著名的托宾 q 值,由此便引出了企业资产的边际 q 值。随后,Summers (1981)和 Hayashi (1982) 进一步发展了托宾 q 理论并推导出托宾 q 理论的具体投资函数,即投资与资本存量的比率是 q 的增函数。自此,托宾 q 理论逐步成为投资理论的一个重要分支。为检验托宾 q 理论 , 对于边际 q 值的计算至关重要, 边际 q 值的高低在一定程度将决定公司所拥有的投资机会的多寡,但其本身却具有不可观测性。

1.2 边际 Q 还是平均 Q ?

为解决这一问题, Furstenberg (1977) 、Lindenberg 和 Ross (1981) 、 Lang 和 Litzenberger (1989) 、Chung 和 Pruitt (1994) 等学者分别提供了使用平均 q 值来代替边际 q 值的详细计算方法,即公司市场价值对其资产重置成本的比率。但 Hayashi (1982) 指出上述替代是有条件的,若企业拥有一定的市场势力而非完全的价格接受者, 平均 q 值就会高于边际 q 值。由此会产生内生性问题。

内生性问题的来源主要有 「遗漏变量」「互为因果」「测量误差」。然而,相对于另外两种问题,现有文献对于 「测量误差」 (Measurement Error,也称为「衡量偏误」) 的关注非常有限。在实证研究分析中,Erickson 和 Whited (2000) 指出证券市场有效性的缺乏会使托宾 q 值不可避免地存在严重的衡量偏误,连玉君等 (2007, 2008) 也指出在中国股市仅接近甚至尚未达到弱势有效的背景下,平均 q 值的衡量偏误,将导致统计推断失效。

假设存在以下一元线性回归模型为真实模型:

y=α+βx+u,x=x+ε,E[ε]=0

通常,由于无法直接观测到真实值 x ,故会以观测值 x 作为真实值 x 的度量,从而有 :y=α+βx+v。但因为存在测量偏误 ε,即:

因为潜在的 Cov(x,ε)0 会导致 y=α+βx+v 违反经典假设,从而得到有偏估计。对于测量误差的检验,详见连享会推文 「第三种内生性:衡量偏误(测量误差)如何检验-dgmtest?」。

1.3 高阶矩的争论

鉴于托宾 q 理论在投资理论与实证中的重要地位,JFE 的联合主编 Toni Whited 教授从 1992 年就对平均 q 值的度量误差问题进行了持续的关注,并发表了一系列论文对此问题进行缓解。最后,在 2002 年提出了高阶矩(high-order moments)方法,并相继推出了 Stata 命令 ewregxtewreg ,专门用来处理托宾 q 在投资理论中的度量误差问题。然而 Almeida et al. (2010) 对 EW 提出高阶矩(high-order moments) 方法进行了否定,认为与简单 IV 法和 AB 动态面板估计相比,EW 方法估计效果最差。对此,EW (2012) 基于 Almeida 的数据和程序,对比了 Higher Order Moments GMM (HGMM), Dynamic Panel Data, IV 三种方法,并认为在正确的设定下,三种方法都表现良好,但高阶矩估计最容易检测出测量偏误。 Stata 官方在 2017 年对 xtewreg 进行了更新。

2. 模型与估计

借鉴 Erickson 和 Whited (2002) 和 Erickson、Jiang 和 Whited (2004) 提出的 EIV 模型以及高阶矩和累积量估计。

2.1 模型

假设存在一组可观测的向量序列 (yi,xi,zi), i=1,,n 有:xi (xi1,,xiJ) 、 zi(1,zi1,,ziM) 同时假设存在一组不可观测的向量序列 (ui,εi,χi) ,有 χi(χi1,,χiJ) 、 εi(εi1,,εiJ) 借鉴经典的 EIV 模型中的多元估计,存在未知参数 α(α0,α1,,αM) 和 β(β1,,βJ),使得 (yi,xi,zi) 与 (ui,εi,χi) 相关。即:

(1)式中包含 J 个回归变量 χi,根据(2)式,其由测度存在偏误的变量 xi 替代,同时(1)式中包含 M 个完美测度无偏误的回归变量 zi。在(2)式中,我们假设 xi 与 χi 之间是单位斜率关系且不存在截距项,进而估计(1)式。此外,我们对(1)式和(2)式中的变量做出如下假设:① (ui,εi,χi,zi),i=1,,n, 是独立同分布的向量序列;② ui 和 εi,χi, zi 的各阶矩均为有限的; ③ (ui,εi) 独立于 (χi,zi), 且 (ui,εi) 中的个体元素相互独立;④ E(ui)=0E(εi)=0;)E{(χi,zi)(χi,zi)} 是正定的.

在进行估计之前,将完全测量的变量进行了部分划分,并根据总体残差重写了模型。xi 在 zi 上的总体线性回归的 1×J 残差为 xiziμx, 其中:

zi 上 χi 的总体线性回归对应的 1×J 残差为:

之所以出现 μx 是因为(2)式以及 εi 和 zi 的独立性,进而有:

从(2)式的两边减去 ziμx 得到:

与此类似, yi 对 zi 的总体线性回归的残差形式是 yiziμy,

式(1)中 ui 和 zi 相互独立,意味着:

因此,从式(1)的两边都减去 ziμy ,有:

2.2 估计方法

累积量和矩估计量都是基于两步估计法,第一步是用最小二乘估计值替代:

在(3)式和(5)式,第二步是使用样本累积量或矩 yiziμ^y 和 xiziμ^x 的关系估算 β

关于此步骤的实际操作,应将所有可能误测的变量归为向量 χi 而不是向量 zi正确的分类很重要,即使一个或多个错误计量的变量将导致统计推断丧失主要的经济意义。如果将任何错误度量的回归变量归类为完全度量,则 OLS 估计值 μ^x 和 μ^y 将产生偏误。 在这种情况下,(3)式和(5)式将被错误指定。

2.3 矩(Moments)

高阶矩估计基于(3)式和(5)式得出的矩条件,通过将这两个方程的乘方取幂,将结果相乘,然后取双方的期望。 所得方程将数据的可观测高阶矩和交叉矩表示为 β 的非线性函数和不可观测变量的矩。 这些方程式将这些高阶矩视为参数。这些矩方程的一般形式为:

其中,v(v0,v1,,vJ) and m(m1,,mJ) 是非负整数的向量, V(v:j=0Jvj=r0),M(m:j=1Jmjj=0Jrj,mjrj,j=1,,J), 可以得到:

然后,可以使用上述矩条件的子集构造一个广义矩估计(GMM),其中权重矩阵只是(6)式左侧可观测矩的协方差矩阵,并对其进行调整以考虑样本中 μx 和 μv 估算值的变化问题。正如在 Erickson 和 Whited(2002)更详细地解释的那样,由此很自然的考虑基于直到一定阶数 N=r0+r1++rJ 的矩的方程组,因此 xtewreg 命令考虑了基于阶数为 3、4、5 等高阶矩的方程组。

描述(6)式的一个简单示例,可用于构造一个估计量。考虑单个回归度量存在偏误的情况,因此 J=1。 首先,将(5)式平方并将结果乘以(3)式,取双方的期望,得到:

类似地,如果将(3)式平方并将结果乘以(5)式,然后取期望值,则可以得出:

如果 β0 且 E(ηi3)0, 然后将(7)式除以(8)式得到一个 β 的一致估计:

通过用样本矩代替总体矩,可以从(9)式推导出一个估计量。

2.4 累积量 (Cumulants)

正如 Erickson,Jiang 和 Whited(2014)所示,累积量估计为矩估计的渐近估计,它们具有方便的闭合形式。 以下估算方法的形式来自 Erickson,Jiang 和 Whited(2014)。 令 K(s0,s1,,sJ) 为 yiziμy 中的 s0 阶和 xijziμxj 中的 sj 的累积量。累积量估计基于 Geary(1942)的结果,即对于任何 (s0,s1,,sJ) 包含两个或多个正元素,累积量之间存在以下关系:

无穷多个方程式由(10)式给出,对于每个课允许的向量 (s0,s1,,sJ)。有方程:

表示(10)式的系统 M 方程组)。 如果 M=J 且 detKx0, 那么 β 就有可能求解。

考虑到 β, 的估计量可能过度识别,即 MJ。 假设 Ky^ 和 Kx^ 是 Ky 和 Kx 的一致估计,且令 W^ 是对称正定矩阵。则 β^ 的估计量为: