数据库分享:年报文本语气数据库

发布时间:2023-05-23 阅读 686

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:赵雨鑫 (吉林大学)
邮箱2471814525@qq.com

编者按:本文整理自 中国研究数据服务平台 (CNRDS)年报文本语气数据库 (ARTD),特此致谢!


目录


1. 数据库简介

年报文本语气数据库 (Annual Report’s Tone Database,ARTD) 是基于上市公司 2007 年以来的年报文本信息,并根据已有中文语调研究成果,采用多种方法计算上市公司年报文本的语气建立而成的数据库。

数据库设计了积极词汇数、消极词汇数、年报语调等多个字段。由于目前主流研究均基于年报文本中的正、负面词汇数量以及比例来判断年报的整体语调 (曾庆生等,2018;王华杰和王克敏,2018),因此,情感词典的建立及其准确性对年报文本语气的判断过程显得至关重要。

ARTD 采用包括 LM 词典和台湾大学情感词典在内的前沿词典,运用多种方法计算年报文本语气,为该领域的深度研究提供了数据支撑。ARTD 对年报文本语气判断方法如下:

一是参照曾庆生等 (2018) 的研究,以 Loughran 和 McDonald (2011) 提供的金融情感英文词汇列表为基础,依据有道词典和金山词霸对 LM 词典中的英文词汇进行了翻译。与曾庆生等 (2018) 保留一个英文词汇对应多个中文单词的情况不同,本数据库只保留与该英文词汇表达的中文情感最相关的中文词汇,最终的词汇列表包括 2080 个消极词,1076 个积极词。由此计算:

  • LM_TONE1 = (积极词汇数 - 消极词汇数) / 年报词汇数
  • LM_TONE2 = (积极词汇数 - 消极词汇数) / (积极词汇数 + 消极词汇数)

LM_TONE 值越大,表示当年年报文本信息语气越积极。

二是参照王华杰和王克敏 (2018) 的研究,使用台湾大学制作的《中文情感极性词典》,将诸如“积极”、“进步”、“高效”等积极属性词语集作为积极情绪词语列表;将诸如“低迷”、“暗淡”、“不利”等消极属性词语集作为消极情绪词语列表。基于此,计算文本信息语气:

  • NTUSD_TONE = (积极词汇数量 - 消极词汇数量) / (积极词汇数量 + 消极词汇数量)

NTUSD_TONE 值越大,表示当年年报文本信息语气越积极。

2. 数据库特色

准确、权威的情感判断词典:ARTD 制作参考了诸多发表在权威期刊上的文献,并借鉴已有研究成果中使用的权威词典,设计了多个字段,对年报语调进行了多层次的展示。

独家数据、内容全面:随着财经类文本语气研究成为热点,为了减少学者搜集和整理数据的成本,ARTD 提供了多年度完整的年报文本信息,为该领域研究提供了数据支持。

3. 数据库字段说明

  • 股票代码:上市公司股票代码;
  • 会计年度:年报所属会计年度;
  • 年报字数:年报全文总字数;
  • 年报词汇数:年报文本词汇数量;
  • 年报句子数:年报文本句子数量;
  • LM 词典积极词汇数:基于 LM 词典计算年报文本中的积极词汇数;
  • LM 词典消极词汇数:基于 LM 词典计算年报文本中的消极词汇数;
  • 台大词典积极词汇数:基于台湾大学《中文情感极性词典》计算年报文本中的积极词汇数;
  • 台大词典消极词汇数:基于台湾大学《中文情感极性词典》计算年报文本中的消极词汇数;
  • 基于 LM 词典的 TONE: LM_TONE1 = (积极词汇数 - 消极词汇数) / 年报词汇数,LM_TONE2 = (积极词汇数 - 消极词汇数) / (积极词汇数 + 消极词汇数);
  • 基于台大词典的 TONE:NTUSD_TONE = (积极词汇数量 - 消极词汇数量) / (积极词汇数量 + 消极词汇数量),NTUSD_TONE 值越大,表示年报文本信息语气越积极。

4. 研究现状

目前关于年报文本语气的相关研究主要的观点有:

一、中国是一个重视“意会”的高语境社会,语气能够提供除年报中文字和数字等结构化数据之外的增量信息,能够反应公司未来的业绩,积极的语调传递出管理层对公司前景的信心,为投资者做预测时提供参考。同时,上市公司管理层也可能通过语调来粉饰公司业绩,隐藏负面消息。因此,积极的语调可能是管理层操纵的结果。

二、年报文本语气具有一定的信息含量,能够导致股票价格在短期内变化。如果年报文本积极语调真实程度较低,此时语调越积极反而会加剧资本市场上的信息不对称程度,使得股价崩盘风险增加。

三、年报文本语气除了对资本市场会产生影响外,对分析师、审计、融资等都会有影响。在分析年报文本语气可能产生的影响时,积极语调的真实性十分重要,语调真实与否可能会产生截然相反的结果。

5. 参考资料

  • 曾庆生, 周波, 张程等. 年报语调与内部人交易:“表里如一”还是“口是心非”?[J]. 管理世界, 2018, 34(09):143-160. -PDF-
  • 王华杰, 王克敏. 应计操纵与年报文本信息语气操纵研究[J]. 会计研究, 2018, 366(04):45-51. -PDF-
  • 周波, 张程, 曾庆生. 年报语调与股价崩盘风险——来自中国A股上市公司的经验证据[J]. 会计研究, 2019, 385(11):41-48. -PDF-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 文本, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh