FAQs答疑-2021寒假-Stata初级班-Day1-连玉君

发布时间:2021-01-28 阅读 238

连享会·课程答疑


Stata 初级班-Day1,任课老师:连玉君

Update: 2021/1/25 11:51

Stata 连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course


目录


Q1. 变量相关系数矩阵计算中,它们的显著性是如何计算出来的?

A:

Q2. 另一个可能暂时与本课程无关,但想请教连老师,一般channel test怎么做比较合适?是做中介效应检验吗?

A: 参见推文

Q3. label var是对变量进行说明,那label value值标签在什么情况下使用呢?

A: 你上面那个呢是对单变量增加一个文字的说明,label value是我们有一个类别变量,里边可能有好坏两类区分,我们现在对它分别取值为1和0或者1和2。简单的来讲,就是对于这种文字型的变量,我们把它转成数值型,但是为了阅读的方便,在这个数值的表面呢,给它映射出来一个文字,它本质上仍然是一个数字的变量。

Q4. 在一句命令当中,:和,应该如何使用,比如讲义538行的logout。

A:

  logout, save("$Out/Table1_sum") word replace: ///
    tabstat price wei len mpg turn foreign,      ///
    stat(mean sd p50 min max) format(%7.2f) column(statistic) 

查看帮助文件中的语法格式要求即可:

Syntax

    logout, [options : command]

Q5. 怎么解读avplot命令的图,讲义603行。

A: help avplot

Q6. 第945-946行等价于的命令能再解释一下吗,谢谢

A:

  *--------  
  *-1.3.1.2 命令和选项的缩写
  
    sysuse "nlsw88.dta", clear
    summarize wage grade collgra ttl_exp tenure, detail
	
	*-等价于
    su w gr* ttl-ten, detail

Q7. 因变量y自变量x1和x2皆是0-1变量,其中x1取值为1的观测值较少。做一般线性回归时,结果是正常的没有任何变量被omit掉;但是做logit/probit时,x1就会被omit掉,因为系统自动omit掉了所有x1=1的观测值,请问这种情况应该怎么办呢?

A: lianxh logit probit

  • 专题:Stata命令
    • [详解 Logit/Probit 模型中的 completely determined 问题](https://www.lianxh.cn/news/a03aa1b7e3

2e0.html)

Q8. 同时有纵向合并和横向合并时先做纵向还是横向更方便呢?

A: 这个没什么方便不方便的问题,根据我个人的习惯,是先进行横向合并就是先把它并成两大块,然后再纵向合并,当然你反过来做也没有任何影响,因为他们两个本身没有任何排斥的条件在里边。我顺便说一句,就是如果我要更新国泰安的数据,有两种做法,一种呢是我手头已经有2018年以前的数据了,我进一步的更新2019年的数据,那我就把2019年的数据全下一遍,根据我上课讲的那个模式,全部都把它合并到一起,然后再追加到我现有的数据的尾巴上去,但其实这个做法呢,反倒不如我采用第二种方式。我的第二种方式就干脆我从头收集一遍数据,从最早的1990年的数据一直搜集到2019年,因为工作量呢跟第1种方式相比,还反而省了一个纵向合并的动作。因为现在网速都很快嘛,我从国泰安下载所有的数据跟下载某一年的数据工作量是完全一样的。

Q9. 请问对变量进行对数处理时,括号里加1与否,应该如何判断呀?如:gen lnwage = ln(wage+1) 或 不加1,如何判断哪个更合理,还是都可以?

A: 你有没有想过他们为什么要加1呀?那通常的是wage那个变量有极个别的观察值取值是0,取对数的时候就会导致它的结果变成一个缺失值,所以他就会加个1。可是也有一些情形,原始的变量是以亿为单位的,最大值是五亿最小值是0啊,也有一些是一亿两亿三亿之类的这种数字,你加个1那结果就会差很多了是吧?嗯,那我建议呢,就是像以亿为单位的这种数据呢,你干脆就先把它转成以元为单位的啊,那些0呢还是0,然后1亿呢就是10了多少多少次方这样过去是吧,然后再把转完以后的以元为单位的数据呢统一再加个1,甚至你加个10,这时候问题也不大啊,你取对数以后其实这个亿为单位和元为单位无非就是8倍啊,10倍的这个差别嘛,那结果就不会差。有些情形下你那个数据最小值呢是-5啊,这时候你可能加的就不是1了,然后加一个5.1或者是5.001啊,就是反正最小值也从负数轻微的超过0,这时候所有的变量都可以取,对数背后一个基本的逻辑呢,就是取完对数以后,原来那个数和对数的这个数呢,仍然是一个单调的线性关系啊,所以你想去定性的判断变量和变量之间的相关系数或者相关性的话,就结论的推论是不受影响的,但是如果你特别关注这个系数的具体的数值的大小就不行了。

Q10. 跟年月日的数据处理类似,时分秒的时间怎么处理?

A: 逻辑上,我大概知道,但是我没有碰过这种特别高频的数据啊,所以细节呢我就不太确定,你到时候可以做一个很小的sample,比如说只有10行8行数据。里边涉及到你要问的问题,你可以都在我们这个课程群里边,助教会尽量的帮你去解答,因为其实原理上都差不多了。

help date, help datetime translation

Q11. 请问在样本量特别大的时候,用encode destring等一系列命令进行变量转化的时候,系统会提示two many values,这种情况如何处理?对于大样本变量的转化有什么方法?

A:

张1 --> 1
张2 --> 2 

Q12. 无法通过sysuse调用数据是什么原因?

A: sysuse 只能调用 help dta_examples 清单里的数据文件。

比如,educ99gdp.dta 存放在 「D:\stata16\ado\base\e」

Q13. 非平衡面板使用固定效应回归,使用Bootstrap,因变量选择了滞后一期的变量(没有用l.var而是单独生成了一个变量),Bootstrap过程中部分出现红×,是正常现象吗?这样的话取1000期,可能不到1000期BS,这个问题可以解决吗?

A:

那个Bootstrap的原理我不知道你了解不了解,在高级班讲面板门限的时候我会稍微提一下啊。抽样的是从你现有的样本里边有放回的,抽出N个观察值来。有放回呢就会导致你抽取的这些观察值里面有重复的,如果样本不是很大,模型里面又包含了很多滞后项,就会导致新抽出来的样本在做回归的时候有很多缺失值,就导致这一个样本就没有办法跑出一个正常的回归结果,那实际上呢,就会提示一个红色的叉号给你,就这轮结果就作废了,所以你也不用太纠结了,你大不了就把这个抽样的次数设成2000次啊,那有效的这个次数应该就会超过你的1,000次。你可以预估一下大概有多少是出现红叉的,稍微处理一下就好了。

Q14. 请问老师,1 TOP期刊在回归中会将宏观经济取对数,结果用弹性的含义解释吗?2 例如,做人均可支配收入对身体素质影响的研究,对原始数据取对数处理后有很多好处,但是结果的解释也有一定的难度,那么应该如何取舍权衡?

A: 第一个问题:是的,可以参考伍德里奇的计量经济学课本相关研究;第二个问题:看具体的研究内容,其实对于低收入人群来说,研究增长率没有什么太大意思。

Q15. 老师好,我想研究研报里面的一些信息对于日股票收益的影响,可能一家公司一天发布两份报告,用xtset stkcd date的时候 stata显示repeated time values within panel, 可是我不想去掉重复值,请问要怎么处理呀?谢谢

A: 我觉得这个地方不是你想不想去掉重复值的问题,那两个信息呢严格意义上来讲也不叫重复值,可能一家公司上午发布了一次,下午发布发布了一次,这下午发布的那次股价的信息里面又包含了后半天的一些交易信息,这两个不是对等的一个东西啊,你有一个处理办法,你就可以把两个加起来取平均啊,或者呢,你认为下午的收盘价相对于上午的收盘价包含了更多的信息,你就只留下午的那份价格啊,不能活稀泥,当然要是分析得更细致的话,日内的这些变动你可以考虑他们两个的差呀什么之类的,再做出一个新的指标来,这跟上课讲的重复值完全不是一回事儿。

Q16. 老师好,请问:针对两个以上的自变量对y分别进行回归,不同回归下的总数不同,这种情况是否可以?还是说一定要需要统一,取交集的数据呀?

A: 这个没有严格的要求,因为在很多金融学的文献里面,我们也确实按照你这种方式来去测试嘛,第1列放X1作为一个核心的变量,第2列呢又放了个X2,第3列呢,把X1、X2同时放进去,这三列里面对应的样本数呢,可能会有一些差别,通常不会特别大,因为有时候有一些变量确实是因为收集的困难,没有办法保证跟X1里边一样的样本数解释的时候呢,稍微小心一点就好了,就是两个的系数对比的时候,你就不要大张旗鼓地说这个第1列比第2列大多少多少啊,因为他们这个样本数都已经发生变化了。你当然了,你为了堵审稿的嘴,你可以取他们的交集再做一个结果出来,你就发现说,其实结果,代表我缺了那些观察值或者多了那些观察值,它基本上是一个随机的,并不是非随机有自我选择的问题。

Q17. 可否永久修改stata的默认路径?

A: 这个没问题呀,你就把你要修改的默认路径写在profile那个文档里面就可以了。

Q18. 请问连老师,处理数据时先缩尾再标准化还是先标准化再统一缩尾?另外回归的时候系数不显著,那么系数前面的符号还有意义吗?

A:

先缩尾再标准化,不然离群值的影响还存在。 例如总资产取对数后,在一定程度上已经克服离群值影响,不需要其他任何处理。对于较大数据集,截尾比较适合。而对于像省级面板数据,推荐缩尾,毕竟样本没那么大。专利数据,经济研究,管理世界很多都是采用专利加1取对数,采用基本回归。当然直接用原始数据,采用计数模型也可以。

意义不大,与0没有显著区别,没有太大价值。

Q19. 每一次打开stata,需要重新设置cd和global吗?

A: 是的,否则当前路径为stata的默认路径,位于左下角。global也需要重新设置。

Q20. 消费文化的pdf和dofile打不开怎么办?

A: 三行命令要选中一起执行。应该是路径设置不正确,请仔细检查下路径设置。

Q21. sum的table中Std.Dev.显示过大怎么办?是数据处理的有问题吗?如何判断是否有问题?

A: 存在离群值,需要处理下,或者取对数。

Q22. search的命令与help、findit有什么区别?

A: help是查看帮助文档,search类似于模糊搜索,findit精确搜索,甚至可以findit对应的数据和do。

Q23. 在做多期did平行趋势检验的时候,样本既有处理组又有控制组。如果从样本第一期开始,就有样本成为处理组。请问这种情况下,平行趋势检验的第0期怎么选择呢。

A:

Q24. j(year)是自动拆分保留了原来变量名中不一致的数字吗?如果inc_a,inc_b,inc_c这种,是否也可以自动识别?

A: reshape命令只要有相同的部分,都可以转换,后面 inc_a inc_b inc_c,这种在后面加个string也可以转化,reshape long inc_,i(id) j(x) string //x 为任意变量

Q25. 为什么执行后续命令的时候要先执行global那几条命令,global那几条命令具体是什么含义

A: global是全局暂元,主要用于化简代码,老师在后续课程中会介绍。

Q26. 如果有离群值,应该根据什么原则来删除或取代?

A: 根据行规,一般1% 99%分位缩尾,样本量大也可以采用截尾处理。

Q27. 如果想把记录了日程的log文件夹设定为“D盘下的xx文件夹”(该文件夹与stata程序的文件夹内),应该在cap cd `c(sysdir_stata)'do 的基础上如何更换?

A: 以D盘为例,cap cd "D:\Statalearning\personal\do"

cap cd "D:\Statalearning\personal\do"  //自己定义的log路径
if _rc{
   mkdir D:\Statalearning\personal\do  //检测后发现无 do 文件夹,则自行建立一个
}

local fn = subinstr("`c(current_time)'",":","-",2)
local fn1 = subinstr("`c(current_date)'"," ","",3)
log    using D:\Statalearning\personal\do\log-`fn1'-`fn'.log, text replace
cmdlog using D:\Statalearning\personal\do\cmd-`fn1'-`fn'.log, replace

Q28. 相关分析与回归分析结果相反,不同回归方法跑出来回归系数相反,是不是代表数据不稳健

A: 相关分析可能会和回归不同,特别是采用fe模型时,毕竟相关系数是两个变量之间的相关系数,而回归其他变量拟合存在影响。如果二者符合,就汇报相关系数,毕竟可以凑字数。不符合的话,怎么检查数据可能都不行,可以不汇报。

Q29. 存放自己的数据,直接打开数据就可以了吗?

A: 是的,一般使用import命令导入外部数据。如import excel "XXX.xls"。

Q30. stata结果窗口中的回归结果如何直接复制到do文档?

A: 选中后复制粘贴即可,在dofile中选中回归结果,按ctrl+/可以批量添加注释。

Q31. twoway就是用来画图的吗?

A: 是的。具体用法详见help文档。

Q32. 用stata/SE无法重现?

A: 我本人用的是stata/SE 15.0,可以重现。可能是文件存放与路径配置的问题。

Q33. 请问mac系统相对应“ctrl + D” 的运行do-file的快捷键是什么?

A: Command + control + D

  • 整理人:张馨月 韩煦 王舒瑶

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh