温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
作者: 庄子安 (中山大学)
邮箱: 1484712416@qq.com指导老师: 连玉君 (中山大学,arlionn@163.com)
目录
你可能听说过固定效应模型,你也可能听说过有序 Logit 模型,那你有听说过固定效应有序 Logit 模型吗?本文将详细介绍固定效应有序 Logit 模型,以及该模型在 Stata 中的命令 feologit
的使用方法。
在 多元 Logit 模型 中,如果各个类别变量是有序的,但各个类别变量之间的差距
未知,此时应该使用 有序 Logit 模型。
例如,在做性格测试问卷调查时,选项通常为「非常同意 (SA)」, 「同意 (A)」, 「不同意 (D)」和「非常不同意 (SD)」。「非常同意 (SA)」到「同意 (A)」的距离不一定等于「同意 (A)」到「不同意 (D)」的距离:
同理,教育程度也是一个多类别变量,包括「小学」, 「初中」, 「高中」, 「本科及以上」。同样,我们无法界定不同学历之间的 差距 是否相同。
另外,如果数据为 面板数据,为了研究每个个体难以观测的不随时间变化的差异,例如个人消费习惯、企业文化、国家社会制度等,应结合采用固定效应模型。
因此,当数据特征为面板数据且被解释变量为有序类别变量时,应该采用 固定效应有序 Logit 模型 :
panel data + ordered response = Fiexed effect ordered logit model
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。
A. Anna Cristina D’Addio (2007): 工作满意度 (Job Satisfication) 的影响因素研究
该文献研究了当个体之间对工作满意度水平度量可能存在差异时,影响工作满意度的因素,即在前人对工作满意度影响因子的基础上加入了个体效应。
作者使用的数据源于 1995-1999 年欧洲共同体住户小组(ECHP)调查。这些数据按年收集,涉及家庭结构、家庭和家庭成员的收入和就业等几个问题,并提供了关于社会变化和个人行为动态的独特信息。
被采访者需要对自己的工作打一个分,范围为 1-6,作为实证模型的被解释变量。被解释变量有序但类别间的「距离」无法界定,且为面板数据,因此可以使用 固定效应有序 Logit 模型。
类似的文献还有:Anna Cristina D’Addio (2007),Liliana Winkelmann and Rainer Winkelmann (1998),Ada Ferrer-i-Carbonell and Paul Frijters(2004)。
B. Anne Boring (2014):学生对教师评价中的性别偏见 (Gender Biases)
该文旨在研究 SET(Student Evaluation of Teachers) 中的性格差异问题,即不同性别的学生在给不同性别的老师做评价时是否会受到性别的外生影响。
作者使用了一个来自法国大学的独特数据库来研究学生对教师的评价存在性别偏见。从 2008 年起,学生需每年完成 SET 测评,该测评要求学生从四个维度评价教师:课程内容、作业和测验、授课风格、课程广度。学生对此需分别打出一个范围为0-4
的分数,分数越高代表越满意。实证中,为了研究性别差异,最终使用了 固定效应有序 Logit 模型 。
固定效应有序 logit 模型使用潜在变量
其中,
其中,
另外,该模型还假设残差项
因此,个体
由等式 (2) 可知,概率不仅取决于
固定效应有序 Logit 模型使用的估计方法是以 CML estimator 为基础的。在 Stata 中,clogit
就是使用该估计方法。类似的,feologit
也是以 clogit
为基础的。其原理很简单,就是通过条件极大似然估计摆脱
那么在
其中,
可见, (3) 式中的条件概率不取决于
通过极大化 (4) 式即可得到
BUC estimator
(Baetschmann, Staub, and Winkelmann [2015])结合了使用不同截断点
其中,BUC estimator
原理为最大化 CML estimator
,因为它隐含了如下的约束条件:
CML estimator
来估计 举个例子:
考虑一个个体被观察两次。我们首先复制份该个体的观察值,然后每一份都在不同的截断点二分。假如一份副本 在截断点 3 二分,那么有 ,则下一份副本 在截断点 4 二分,有 。
在前面的模型设定中,我们提到过每个个体的阈值 BUC estimator
中也遵循该设定。但在学术研究中,标准的固定效应有序 Logit 模型中假设不同个体的阈值是相同的:
因此模型设定中的 (2) 式转变为:
如同我们在 2.1
节中所说,该公式无法单独识别出
在前面的 BUC estimator
中,每个副本内是使用同一个截断点,但在 BUC-
可以看到,
考虑
2.2.2
中相同的例子:
假设副本中的第一个观察值在截断点 3 二分,第二个观察值在截断点 4 二分。那么 ,相应的 。
于是,我们可以将上述的两个估计方法进行比较:
BUC | BUC - τ | |
---|---|---|
每个个体副本个数 | ||
样本总数 |
但在实际运用中,feologit, threshold
中,只使用一部分使用不同截断点的副本,默认为每个个体 10 个。当然,用户也可以使用 clones()
来改变数量。另外,截断点是随机挑选出来的,受随机数 seed(#)
影响。
例如:
假如
,那么自变量 的增加会减少最小截断点处的 并增加最大截断点处的 。
假如自变量
和 的变化使得潜在变量 不变,进而导致因变量 不变,那么 compensating variation 可以由相应的 得出:增加 1 单位的 和增加 单位的 具有相同的效果。
在 Logit 模型中,胜算比 (Odds) 是一个很重要的指标,它表示某一件事发生的概率与其互补事件发生的概率的比值。在本文阐述的模型中,根据
假设第
因此,系数
第
每增加 1 个单位,除了最小截断点处的所有截断点处的胜算比都会变为原来的 倍。
feologit
命令的选项 or
可以将结果呈现为
. use nlswork.dta, clear
. recode hours (0/6 = 1) (7/29 = 2) (30/186 = 3), gen(hourscat)
. feologit hourscat age union msp nev_mar tenure ln_wage,or nolog group(idcode)
note: multiple positive outcomes within groups encountered.
Fixed-effects ordered logistic regression
N. of obs. (inc. copies) = 6874
N. of observations = 6168
N. of panel units = 1148
Wald chi2(6) = 145.74
Prob > chi2 = 0.0000
Log conditional likelihood = -2398.5032 Pseudo R2 = 0.0616
(Std. Err. adjusted for 1,148 clusters in idcode)
------------------------------------------------------------------
| Robust
hourscat | Odds Ratio Std. Err. z P>|z| [95% CI]
---------+-------------------------------------------------------
age | 0.973 0.008 -3.16 0.002 0.957 0.990
union | 2.160 0.284 5.86 0.000 1.670 2.794
msp | 0.472 0.069 -5.15 0.000 0.355 0.628
nev_mar | 2.103 0.585 2.68 0.007 1.220 3.626
tenure | 1.134 0.022 6.56 0.000 1.092 1.177
ln_wage | 0.986 0.128 -0.11 0.912 0.764 1.271
-----------------------------------------------------------------
在实际应用中,我们更加关注概率值的边际效用,即一个解释变量
为了计算上式,常见方法为使用样本均值,计算出来的 Marginal Effects 称为平均边际效应 (ME at the average):
其中,