
New! 搜推文,找资料,用
lianxh
命令:
安装:ssc install lianxh, replace
使用:lianxh 合成控制
lianxh DID + 多期, w


作者: 许梦洁 (Frankfurt School of Finance and Management)
E-mail: m.xu@fs.de
1. 问题提出
还是年报问询函的研究,需要从问询函文本中提取交易所要求回复的日期,同时还需要从公司回复的文本中提取公司实际上回复的日期。因此需要对两类文本分别进行分析。
2. 解决思路
通过观察,发现问询函中含有交易所要求回复的日期的句子通常是这样的:
“请你公司就上述问题做出书面说明,并在 8 月 9 日前将有关说明 材料报送我部,并对外披露。”
“请你公司就上述问题做出书面说明,涉及需披露的,请及时履行披露义务,并在2015年5月6日前将有关说明材料报送我部,同时抄送派出机构。”
相应的提取规则就很简单啦:
要求回复日期提取规则 = re.compile('[在于](.*月.*日)前', re.M)
查询结果 = re.findall(b, 问询函文本)
要求回复日期 = 查询结果[0].strip()
而公司的回函通常在整个回函的最后一行署上回函日期:
eg1: 万科的回函

eg2: 全新好的回函

所以,回函日期的提取规则为:
回函日期提取规则 = re.compile('(^.*年.*月.*日)', re.M)
查询结果 = re.findall(b, 回函文本)
回函日期 = 查询结果[-1].strip()
3. 代码
以提取回函时间为例,完整的遍历一个文件夹下所有TXT和DOC文件,提取其中文字并使用正则表达式提取回函时间的代码为:
import os
import docx2txt
import re
content_list = []
def readdocx(filepath):
content = docx2txt.process(filepath) #打开传进来的路径
docucode = filepath.split('/')[-1]
content_list.append([docucode.split('.')[0],content])
def readtxt(filepath):
content = open(filepath, "r").read() #打开传进来的路径
docucode = filepath.split('/')[-1]
content_list.append([docucode.split('.')[0],content])
def eachFile(filepath):
pathDir = os.listdir(filepath) #获取当前路径下的文件名,返回List
for s in pathDir:
newDir=os.path.join(filepath,s) #将文件命加入到当前文件路径后面
if os.path.isfile(newDir) : #如果是文件
doctype = os.path.splitext(newDir)[1]
if doctype == ".txt": #判断是否是txt
readtxt(newDir)
elif doctype == ".docx":
readdocx(newDir)
else:
pass
else:
eachFile(newDir) #如果不是文件,递归这个文件夹的路径
eachFile("/Users/深交所回复/")
f = open("/Users/深交所回函时间.txt",'w')
a = 1
for doc in content_list:
回函日期提取规则 = re.compile('(^.*年.*月.*日)', re.M)
查询结果 = re.findall(b, 回函文本)
if a:
print([doc[0],查询结果[-1].strip()])
f.write(','.join([doc[0],查询结果[-1].strip()])+'\n')
4. 结果
回函编码 | 回函时间 |
---|---|
CDD00060941539694HF | 2017年5月9日 |
CDD000711538301452HF | 二〇一九年四月三日 |
CDD000160518921313HF | 2018 年 10 月 24 日 |
CDD00066240310540HF | 2016 年 11 月 30 日 |
CDD00001841921743HF | 二〇一七年六月八日 |
CDD000767516771355HF | 二〇一八年十二月五日 |
CDD00085036747HF | 2015 年 12 月 1 日 |
CDD00070642758829HF | 2017 年 8 月 30 日 |
CDD000995523321387HF | 2018 年 12 月 24 日 |
CDD00061039434429HF | 年 月 日 |
CDD00053343479922HF | 2017 年 12 月 25 日 |
CDD00015540186516HF | 二〇一六年十一月九日 |
CDD00091237491HF | 2016 年 3 月 14 日 |
CDD000803515551281HF | 二〇一八年九月二十七日 |
CDD00051840669600HF | 2017 年 1 月 16 日 |
CDD00095843607935HF | 2018 年 1 月 9 日 |
CDD000917516581436HF | 2019 年 2 月 26 日 |
CDD00098239987494HF | 二〇一六年十月十四日 |
CDD000566511201229HF | 二〇一八年七月三十一日 |
XXB_CDD_000829天音控股回复 | 2015 年 6 月 25 日 |
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 正则 文本分析
安装最新版lianxh
命令:
ssc install lianxh, replace
- 专题:计量专题
- 连享会, 2026, 连享会 - 课程主页, 连享会 No.17.
- 专题:工具软件
- 李岸瑶, 2022, Word技巧:如何使用正则表达式高效替换, 连享会 No.890.
- 专题:Markdown-LaTeX
- 连玉君, 2021, 用VScode正则表达式转换Markdown和LaTeX链接, 连享会 No.839.
- 专题:文本分析-爬虫
- 修博文, 2024, 爬取政府工作报告文本-Python, 连享会 No.1354.
- 刘聪聪, 2020, Stata文本分析之-tex2col-命令-文字变表格, 连享会 No.328.
- 孙晓艺, 2024, 文本分析:正则表达式之位置匹配, 连享会 No.1350.
- 杜思昱, 2021, textfind:文本分析之词频分析-TF-IDF, 连享会 No.548.
- 梁海, 2020, Python:爬取东方财富股吧评论进行情感分析, 连享会 No.440.
- 梁淑珍, 2022, Stata:正则表达式教程, 连享会 No.968.
- 游万海, 2020, Stata: 正则表达式和文本分析, 连享会 No.35.
- 游万海, 2020, Stata爬虫-正则表达式:爬取必胜客, 连享会 No.287.
- 游万海, 2021, 用正则表达式整理文献:正文与文末一一对应, 连享会 No.547.
- 经菠, 2021, ldagibbs-基于LDA的文档分类模型-latent-Dirichlet-allocation-T305, 连享会 No.593.
- 赵汗青, 2021, Stata文本分析:lsemantica-潜在语义分析的文本相似性判别, 连享会 No.640.
- 连享会, 2021, 下载:金融领域中文情绪词典, 连享会 No.673.
- 连享会, 2020, 在 Visual Studio (vsCode) 中使用正则表达式, 连享会 No.10.
- 连享会, 2020, 正则表达式语言 - 快速参考, 连享会 No.81.
- 专题:Python-R-Matlab
- 梁淑珍, 2022, Python:文本分析必备—搜狗词库, 连享会 No.1078.
- 王卓, 2022, Python文本分析:将词转换为向量-Word2Vec, 连享会 No.1134.
- 许梦洁, 2020, Python: 使用正则表达式从文本中定位并提取想要的内容, 连享会 No.91.
- 专题:专题课程
- 连享会, 2023, 文本分析:从文本到论文, 连享会 No.1259.
- 连享会, 2022, 连享会:助教入选通知-2022文本分析与爬虫, 连享会 No.908.
- 连享会, 2023, 连享会:助教入选通知-2023王菲菲-文本分析, 连享会 No.1284.
- 专题:公开课
- 连享会, 2023, 公开课:王菲菲-文本分析在经济金融领域的应用, 连享会 No.1230.


资源共享
- 连享会资料 ……
- 在线视频:lianxh-class.cn
- Stata 33 讲,100 万+ 播放,Stata 入门必备,公开课
- 直击面板数据模型,10 万+ 播放,白话面板模型,公开课
- … more …
- 论文复现和数据
- 主题分类
- 热门推文

尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

关于我们
- Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
- 扫码加入连享会微信群,提问交流更方便
