王菲菲, 中国人民大学应用统计科学研究中心研究员, 中国人民大学统计学院副教授, 北京大学光华管理学院统计学博士。主要从事文本挖掘及其商业应用、社交网络分析、大数据建模等方面的研究,成果见诸 Journal of Econometric, Journal of Business and Econometric Statistics, Journal of Machine Learning Research, 中国科学(数学) 等国内外高水平期刊上。主持并参与了国家自科基金项目、教育部社科重大项目、国家重点研发项目等多个课题。曾获中国人民大学教师青年基本功大赛二等奖、课外优秀指导教师奖和线上教学优秀奖等。
3. 课程详情
文本数据是一种常见的非结构化数据类型,在经济管理领域的应用越来越广泛。本次公开课涉及如下三个主题:
文本分析在经济金融领域中的应用
文本分析的常用方法介绍
基于 R 语言的文本分析代码实现
具体而言:
首先,介绍既往的经管类文献中是如何使用文本数据的,为听众进行后续研究打开思路;
其次,介绍文本分析的标准流程和常用方法,包括分词、关键词提取、文本可视化展示、文本主题模型等;
最后,将以 Wang et al. (2021, JBES) 为例,展示如何基于用户评论数据研究产品好评率,基于该数据展示文本数据的具体分析过程,并给出基于 R 语言的实现方法。
4. 主要参考文献
Blei, D., Ng, A., and Jordan, M. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research. 3:993–1022. -Link-, -PDF-, -cited-
Wang, F., Liu, J., and Wang, H. (2021). Sequential Text-Term Selection in Vector Space Models. Journal of Business and Economic Statistics. 39(1):82-97. -Link-, -PDF-, -PDF2-
因果推断的新纪元:「联邦因果推断」和「政策学习」
评估已经实施的政策固然重要,
但更重要的是如何优化未来的政策,如何保证政策公平性。 解决方案:
o S1:用「双重机器学习/非参」估出每一个个体的反事实和处理效应;
o S2:通过「中介效应」和「路径分析」研究政策效果的产生机制;
o S3:分析该政策的可推广性/迁移性,以及政策的公平性