Stata:因变量是类别变量时采用什么方法估计?

发布时间:2020-10-09 阅读 3922

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程主页 https://gitee.com/arlionn/Course

作者:连玉君 (中山大学)
E-Mail: arlionn@163.com


目录


1. 问题背景

多数情况下,我们的被解释变量都是连续变量,但也有些情况下,我们会对分类变量感兴趣,比如,出门时选择何种交通工具?大学毕业时是否继续读研?等等。那么,此时,该用何种模型来分析比较合适呢?

分类变量可以被进一步分为多种类型,要根据情况来选择合适的模型。

2. 0/1 变量

例如,是否结婚? 是否生二胎? 是否买越野车 ……,被解释变量都是非此即彼的二元选择问题。此时,最为常用的是 LogitProbit 模型,二者虽然形式上有差异,在系数解释、概率预测方面的差异却很小。

若使用 Stata 进行估计,语法也很简单。

sysuse auto, clear 
logit foreign price weight mpg  // Logit 估计
probit foreign price weight mpg // Probit 估计

更为详细的介绍,请参阅:

3. 类别数目较小的分类变量

例如,被解释变量为「y = 出行交通工具选择」:1 步行;2 电动车;3 汽车;4 地铁。显然,各个类别虽然用数字加以区分,但数字之间并无大小区分,只起到了「标记」作用。

类似的例子还有很多,例如:

  • y = 上市公司的融资方式」:1 内部融资;2 债务融资;3 权益融资 (这是比较规范的例子)
  • y = 上市公司的融资方式」:1 内部融资;2 银行贷款;3 公司债券;4 定向增发;5 公开二次发行 (这是比较糟糕的例子)
  • y = 高管激励方式=」:1 货币薪酬;2 股票期权;3 绩效奖金

此时可以使用 多元 Logit/Probit 模型 (Multinomial Logit/Probit regression) 进行估计,对应的 Stata 命令是 mlogitmprobit。Stata 帮助文件和电子手册提供了详细的范例和说明。

本质上,可以把多元 Logit 视为多个二元 Logit,同时附加一些约束条件,例如,要求各种选择的概率之和为 1,且每一组二元 Logit 模型的干扰项之间彼此存在一定相关性。

如下是相关参考资料:

4. 类别数目较多的情形

类别数较多时,比如,超过 10 组甚至 20 组,直接进行分析的难度较大。退一步来讲,此时组间的差异分析也不容易进行,经济含义比较难以说清楚。

一个比较稳妥的处理方式是,根据相关的理论和经验分析对现有的分类进行适当合并,使分析对象相对集中一些。

例如,可以把「A. 银行短期贷款;B. 银行长期贷款;C. 商业票据;D. 可赎回债券」等融资方式都归类为「1. 债务融资」,进而与「2. 内部融资」和「3.权益融资」放在一起进行对比分析。 从理论上讲,上述小类 (A, B, C, D) 虽然也有差别,当相对于大类 (1, 2, 3) 之间的差异而言,这些差别的重要性就会大大降低。从大类层面进行分析便于我们抓住问题的本质。

5. 具有序别特征的分类变量

有时候,我们是无法明确区分「类别变量」和「序别变量」的。例如,「HY - 幸福感」 —— 取值为 1-5,5 代表“非常幸福”。

你可以把 HY 视为类别变量,使用 mlogit 模型来分析 HY=5HY=4 的人群有哪些差别。此时,数字 45 只是用来标记两类人群的,并不存在 4<5 的关系。

你也可以把 HY 视为序别变量,用 有序 (Ordered) Logit / Probit 分析幸福感的提升 (由 1 → 2 或 4 → 5) 受哪些因素的影响。此时,4<5

相对而言,后者用的多一些,但也有文章同时从上述两个角度进行分析,因为二者并不存在孰优孰劣的问题。

上述两个模型的 Stata 命令为 mlogitologit。如下是两个不错的例子:

除了上述提到的 Logit / Probit 族模型外,在某些情况下,也会考虑使用 计数模型 (Count Data model, help poisson, help nbreg) 来分析诸如 专利个数交通违章次数 等有「计数」特征的变量。

6. 参考资料

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD