目录
王菲菲, 中国人民大学应用统计科学研究中心研究员, 中国人民大学统计学院副教授, 北京大学光华管理学院统计学博士。研究兴趣包括:文本挖掘及其商业应用、社交网络分析、大数据建模等,成果见诸 Journal of Econometrics, Journal of Business and Econometric Statistics, Journal of Machine Learning Research, 管理学报等。主持国家自然科学基金青年项目和面上项目各 1 项、全国统计科学研究重大项目 1 项。曾获中国人民大学优秀科研成果奖、课外优秀指导教师奖等。
随着互联网技术的发展,新闻、网页、日志、博客等文本信息都出现了爆发式增长,对文本数据的分析需求也随之变得越来越迫切。文本挖掘,作为数据挖掘的重要组成部分,已经成为将信息转化为知识的不可或缺的工具,并且在经济、管理等领域有着越来越广泛的应用。文本分析在经管研究中的火爆程度可以从如下论文中窥豹一斑。
例如,在金融和会计领域,Loughran and McDonald (2011) 发表于 Journal of Finance 上的有关文本分析技术的综述性文章,短短十余年,Google 引用已 4800 余次。二人于 2016 年发表于 Journal of Accounting Research 的另一篇介绍文本分析在会计和金融领域应用的综述性文章目前已被引用 1700 余次。两位学者在近十年中基于文本分析方法发表的文章遍布 JFE,JF, JAR, JFQA 等顶刊,获得了广泛的关注。二者在 2020 年发表于 Annual Review of Financial Economics 的综述文章 Textual Analysis in Finance (-PDF-) 对相关文献和方法进行了系统梳理。在最近的研究中,García et al. (2023, JFE) 展现了文本情感分析的重要性。
那么,文本信息有哪些特点? 文本挖掘有哪些通用方法和套路?文本分析如何与你目前的研究内容相结合? 这些恰恰是本次课程尝试帮各位解决的疑问。
我们将细致梳理文本挖掘在经济管理等领域中的应用场景和挑战,力求帮助大家熟悉并掌握文本挖掘的框架和体系,能够在实际场景中使用文本挖掘的各种方法,并对方法背后的原理有清晰、深入的理解。具体内容如下:
A. 顶天+立地
此次课程以 TOP 期刊的论文为指引,通过案例教学的方式帮助学生掌握文本分析的思路、流程和常用方法。各个模型都辅以 R 代码讲解和复现,以便各位将文本分析与自身的研究兴趣相结合,将文本分析方法移植或嫁接到自己的研究中。
B. 方法覆盖面广,经典与前沿并重
课程覆盖了文本分析的几个重要领域,比如「情感分析」、「主题模型」等。课程覆盖的方法既包括经典方法,如「向量空间模型」,「TF-IDF 编码」,「潜在狄利克雷分配模型」 (Latent Dirichlet Allocation)等;又结合人工智能领域的新发展,介绍一些主流的 AI 算法和模型,如「词嵌入」(Word Embeddings)、「循环神经网络」(Recurrent Neural Network),「长短期记忆模型」(Long Short Term Memory) 等。
本课程实操部分均采用 R 代码实现。因此,你需要花点时间学一下 R 的基础知识。请相信我,学习 R 没你想象的那么困难,你只需要老老实实地对着 R4DS 操作一下就可以很快上手了。
R 入门和基础
R 文本分析
其他:
温馨提示: 课程大纲中涉及的文献和资料,可以 <在线查看>,(或) <打包下载>
T1. 文本挖掘简介 (3 小时)
本节分为两部分。首先介绍文本数据的特点,并概括总结既往的经管类文献中是如何使用文本数据的,为听众进行后续研究打开思路;其次将介绍文本挖掘的方法论,并介绍中英文两种文本分析的预处理方法,包括分词、关键词提取、文本可视化展示等。具体的内容安排如下:
T2. 文本情感分析 (3 小时)
情感分析 (Sentiment Analysis)是文本挖掘中的经典研究方法,它指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。随着互联网的快速发展,网络上产生了大量的用户评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,通过分析网络上评论信息的感情倾向和主观色彩就可以进一步了解大众舆论对于某一事件或某一主题的具体看法。自 2000 年初以来,情感分析已经成长为自然语言处理中最活跃的研究领域之一。
情感分析的方法大体可以分为两类。
因此,本节将对上述两种情感分析方法分别进行详细介绍,具体来说:
T3. 主题模型 (3 小时)
以 LDA 模型 (Latent Dirichlet Allocation) 为基础的主题模型 (Topic Models)是文本分析的利器,主要用于文本分类。LDA 模型自 2003 年一经提出就引起了学者们的广泛关注。在 LDA 提出之前,常用的文本结构化方法是 one-hot。什么是 one-hot 编码呢?想象你有一个新华字典,里面一共出现了 V 个词,将这个字典中的词从头到尾逐一编号,因此每个词就有了一个编号。假设有一个三个字组成的句子“我 爱 你”,one-hot 编码就是用一个 V 维的 0-1 向量来表示这句话,向量的每个位置会对应一个新华字典中的词,如果这个词出现就标记为 1,反之为 0。这种表示方法会得到一个高维稀疏的向量,因此不利于后续建模。
主题模型可以如何改进呢?它假设所有文本其实表达了 K 个主题,每个文本在 K 个主题上的表达权重是不同的,因此可以用一个 K 维的向量来表示这条文本。通过这种方式,可以将文本表示为一个主题所占权重的 K 维向量,从而实现文本的降维表示 (因为 K 往往小于 V)。与此同时,找到的 K 个主题可以帮助总结概括文本集合的含义,帮助读者更好的理解文本内容。
本节将对主题模型进行详细介绍,具体包括:
T4. 文本深度学习 (3 小时)
深度学习是一种复杂的机器学习算法,在近年来得到了非常广泛的应用,并显示出强劲的生命力,在很多领域取得了非凡的成果,效果远超先前的相关技术。在文本分析领域,深度学习也取得了很好的效果,例如 ChatGPT 就是集深度学习之大成的典型。本节将介绍深度学习在文本分析领域的一些应用,主要涉及两部分内容:
4A. 词嵌入
什么是词嵌入呢?前面我们介绍过,最简单的文本结构化表示方法就是 one-hot 编码,也就是用一个 0-1 的高维稀疏向量来表示文本。而词嵌入 (word embedding)方法是将每个词用一个稠密的实值向量表示。如果两个词语的语义比较接近,那么这两个词之间的向量距离很近 (用余弦来衡量)。 词嵌入方法现在已经成为情感分析、文本摘要、语言翻译或其他文本分析任务的基础。
下图给出了理想情况下一些词对应的向量的示意图。MAN 的词向量和 WOMAN 的词向量之间的距离,等于 UNCLE 和 AUNT 两个词对应的向量之间的距离,也等于 KING 和 QUEEN 两个词对应的向量之间的距离,因为上述每对单词之间的差别就在于性别。KINGS 的词向量减去 KING 的词向量加上 QUEEN 的词向量就等于 QUEENS 的词向量,因为 KINGS 和 KING 之间的差异以及 QUEENS 和 QUEEN 之间的差异都是复数和单数之间的差异。因此在本节中我们将首先为大家介绍词向量模型,也就是词向量是怎么来的,以及现在常用的一些词向量调用方法。
4B. 深度学习模型
目前针对文本数据的深度学习模型,包括前馈神经网络 (Feedforward Neural Network,FNN)、循环神经网络 (Recurrent Neural Network,RNN)、长短期记忆模型 (Long Short Term Memory,LSTM)、卷积神经网络 (Convolutional Neural Network,CNN)、基于 Transformer 的双向编码器表示 (Bidirectional Encoder Representations from Transformers,BERT)。我们将介绍这些模型的原理及其在在 R 中的实现和解读。
T5. 文本分析:论文精讲 I (3 小时)
学习了这么多文本分析方法,能干什么呢?让我们来做一个综合训练。我们的目标文章是:
这篇文章从「文本分析」视角重新测度了企业创新能力。创新在经济发展中具有核心地位,然而对于创新的衡量却缺乏标准化体系,现行方法主要着眼于研发投入和专利数量等特定指标,但是难以衡量更广泛意义上的创新行为。为了解决这一问题,作者以分析师报告为基础,通过对分析师报告的内容建立主题模型,挖掘其中和创新有关的主题,然后以此作为企业创新性的测度。基于主题模型的结果,作者还使用回归建模的方法做了很多后续分析,这也是经管文章中应用主题模型的常用套路,即首先得到主题分布,然后使用主题分布进行后续建模。因此本节将首先详细介绍这篇文章的思路、想法、主要结果。
受这篇文章启发,我们将其应用在中国情境下。具体来说,我们针对中国上市公司的企业现状,通过对 2021 至 2022 年间的券商研究报告文本进行主题建模,得到衡量企业创新行为的文本创新得分,并进一步探究了该得分对中国上市公司业绩表现的影响。最后,我们将通过示例数据带领大家复现上述文章。
通过对这篇文章的复现,你会学到什么?
T6. 文本分析:论文精讲 II (3 小时)
第二篇综合实践的文章选的是:
这篇文章提出了一个新方法,具有广泛的应用场景。简单来说,这篇文章给出了一个方法论,用于探究【文本数据】是否会影响某个【连续型因变量】。例如:
在课程中,我们将具体展示如何基于这篇文章的方法探究产品好评率的影响因素。我们将给出该问题的具体分析过程,复现文章中的方法。与此同时,我们也会给出简化版的代码,方便大家在其他研究问题上快速应用该方法进行研究。
或 长按/扫描二维码报名:
方式 1:对公转账
方式 2:微信扫码支付
温馨提示: 微信转账时,请务必在「添加备注」栏填写「汇款人姓名-单位」信息。
听课软件:支持 手机,ipad ,平板以及 windows/Mac 系统的笔记本,但不支持台式机
特别提示:
本次课程实行实名参与,具体要求如下:
或扫码填写助教申请资料:
课程主页: https://www.lianxh.cn/