专利数据使用中存在的问题

发布时间:2022-09-19 阅读 1120

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:董涵敏 (华中科技大学)
邮箱hanmindong@hust.edu.cn

编者按:本文主要摘译自下文,特此致谢!
Source:Lerner J, Seru A. The use and misuse of patent data: Issues for finance and beyond[J]. The Review of Financial Studies, 2022, 35(6): 2667-2704. -PDF-


目录


1. 引言

创新是企业生存和发展的根本之道。为观察和理解创新,越来越多的金融、会计和其他管理类研究中使用了专利数据。

通过统计引用金融学三大刊 (Journal of FinanceThe Journal of Financial EconomicsThe Review of Financial Studies) 且包含 "patent citation[s]" 的论文,作者发现它们的占比从 20 世纪 90 年代的 0.1% 上升到 2010-2019 年的 1.7% 和 2018-2020 年的 2.6%。

然而,专利和引文存在截断 (truncation) 和授权人异质性等问题。如果没有很好地理解专利及其数据的特征,由此得出的推论和解释可能存在系统性偏误。为避免上述问题,本文尝试寻找解决方法,并讨论机器学习解决专利和引文偏误的可行性。

2. 专利数据库介绍

美国专利与商标局 (U.S. Patent and Trademark Office,USPTO):美国第一个最基本的数据库,并且涵盖了 1976 年至今授权的专利,主要存在的问题是申请人没有唯一的标识符,专利授权人的名称频繁更换。

NBER 专利引用数据集:该数据库由 Bronwyn Hall、Adam Jaffe 和 Manuel Trajtenberg (HJT) 创建,并且容易获取 1963 年至 1999 年授予的每项实用新型专利的关键信息。其主要特征如下:

主要贡献——匹配专利授权人:

  • 将每项专利的第一受托人与 Compustat CUSIP 标识符相连结;
  • 对于 20 世纪 80 年代中期被授予的专利,匹配率约为 65%;
  • 根据主要营运子公司,整合了 1989 年 Who Owns Whom 的数据。

更新版本——最新版本由 Bronwyn Hall 和 Jim Bessen 在 2006 年带头编制:

  • 更新到了 2006 年底的专利和引用、每个专利的授权人和除实用新型以外的专利;
  • 通过去除后缀和模糊匹配,将授权人与更加“永久的”Compustat 标识符 GVKEY 进行匹配识别;
  • 记录授权人公司随后被收购的时间和主体;
  • 存在问题:没有重新审视 HJT 使用 1989 年数据中母公司和子公司之间的映射关系。

自 2006 年完成以来,仍在被持续更新和加强:

  • 合理化授权人的名字;
  • 更新与公共受让人的链接;
  • 分析早期的专利。

3. 专利数据使用的主要问题

3.1 截断问题

文献通常使用申请年份,而非授权年份进行分析,这样做存在两个问题:一是从申请到授权存在时间差异;二是受技术领域和专利局的影响。通过下图可以发现,

  • 1975 到 2006 年专利申请量稳步上升 (C 图);
  • 从 2001 年开始成功申请的数量大幅下降 (B 图);
  • 引用数量的分布接近于早期专利数量分布——新专利被授权的时间较短,专利申请后需要较长的时间来获取引用 (D 图)。

针对上述问题,文献中常用的解决方法是加入时间固定效应进行调整基于时间和技术类别的调整。其中,加入时间固定效应进行调整是根据特定时期内企业专利信息重新计算专利数量。

其中,AdjPatentft 表示 f 公司在第 t 年调整后的授权专利数量,nft 表示 f 公司在第 t 年申请授权的专利数量,Nt 表示第 t 年申请授权的专利总数;AdjCitationft 表示 f 公司在第 t 年调整后的引文数量,Citationi 表示 f 公司的专利 i 在第 t 年的引用量,nft 是 f 公司在第 t 年申请的专利总数,Nt 表示第 t 年申请授权的专利总数。

基于时间和技术类别的调整

其中,nfkt 是 f 公司在第 t 年申请的 k 类专利,Nkt 是第 t 年申请的 k 类专利的总数,M 是专利分类的总数,在 HJT 分类中为 6。

该方法的优点是,控制截断问题,调整专利申请政策变化和技术波动带来的变化;缺点是早期高被引专利占比较大,且容易受到某一特定行业重大创新的影响。

3.2 专利授权人的异质性

过去的几十年来,专利的申请和授权数量激增。根据美国 2006 年的数据统计,1975 年至 2006 年间专利申请数量增加了四倍,授权数量增加了三倍。然而,业内人士认为,专利申请的增加是因为专利权的提高,因此它不能体现创新能力的改变。

同时,这种增加的趋势因技术类别和地区而异,简单的时间或技术调整无法体现这些差异。例如,一些专利会因为其特定的技术地位而被引用,但这不能反映根本的创新。具体来看:

技术类别的差异:下图展示了 HJT 计算机通信和化学分类下的专利数量,可以发现 20 世纪 80 年代至 21 世纪初,计算机通信的专利申请数量大幅上升。从专利引用来看,计算机通信公司的分布是左倾的,引用次数随时间变化逐渐减少。

地区差异:下图展示了特拉华州与加利福尼亚州和马萨诸塞州的专利授权人的变化。可以发现,1990-2000 年间,特拉华州的专利数量只增加了几个百分点,而其他两个州的专利数量增加了 2.5 倍;在加利福尼亚州和马萨诸塞州的专利更有可能被引用。

差异的来源可能是不同州的产业结构和政策存在较大差异,加利福尼亚州和马萨诸塞州可能拥有更多的计算机通信公司。各州的产业结构也会随时间变化,因此考虑企业的创新时也要考虑不同地区的行业和政策差异。

4. 企业层面的分析结果

研究数据

  • NBER 中 2006 年之前授予的专利和引用数据;
  • 我们的数据集:从专利记录中提取 2012 年之前授予的专利和引用数据 (很多 2006 年前后申请的专利在 2007-2012 年间被授予)。

研究设计

  • 计算我们的数据集和 NBER 数据集在同一公司和给定年度的差异,构建“专利偏差”和“调整偏差”;
  • 利用上市公司样本和回归分析将“偏差”与公司特征相联系;
  • 研究样本包括 1807 家上市公司的专利信息。

4.1 上市公司未经调整和调整偏差随时间的变化

下图展示了随时间变化的专利偏差,可以发现:

  • 专利:通过时间或技术固定效应调整后的数据仍具有较大偏差;
  • 引用:偏差较小,可能因为新专利引用的滞后性,2006 年左右的引用偏差被低估;
  • 使用历史数据进行固定效应调整后的数据也不能完全反映专利和引用的时变动态。

4.2 上市公司未经调整和调整偏差随技术类别的变化

下图展示了不同技术类别的专利偏差和引用偏差,可以发现:

  • 专利:调整后出现了“负偏差”,表明固定效应未能充分反映计算机通信专利的快速发展和其他专利的相对占比下降;
  • 引用:调整后的偏差有所下降但仍存在;
  • 在 NBER 数据集的末期,授权专利在企业内部和企业之间可比性降低。

4.3 上市公司未经调整和调整偏差随地区的变化

下图展示了不同地区的专利偏差和引用偏差,可以发现:

  • 专利:专利偏差主要集中在加利福尼亚州、纽约州、德克萨斯州和华盛顿州。这些州集中了许多计算机通信公司,因此有着较大的专利申请量;
  • 引用:引用偏差主要集中在加利福尼亚州、纽约州和德克萨斯州。

4.4 回归分析

下图展示了使用 OLS 估计的结果,可以发现:公司规模、市场账面价值比率、研发与销售投入、杠杆率、现金率、资产报酬率和买卖价差均与专利和引用偏差正相关。具体而言,

  • 规模较大和研发投入较多的公司,申请授权的专利会更加负责,因此获得专利授权和被引用的时间可能更长;
  • 专利和引文偏差很大程度由企业层面的影响因素决定;
  • 未调整偏差和调整偏差的回归结果相似,常见的调整方法难以减少专利偏差和引用偏差;
  • 偏差与地区和技术有关,且难以被固定效应缓解。

综上所述,公司层面的专利数据因截断问题存在偏差。这些偏差与企业规模、杠杆率、现金资产比率、技术、区域等特征密切相关,文献中常用的方法和固定效应的加入也无法缓解。

5. 解决方案:稳健性检验和机器学习

5.1 稳健性检验

我们建议通过一些额外的稳健性检验,来提高专利数据的有效性:

  1. 从企业、行业和经济层面分析企业的专利和引文偏差,并考虑不同来源数据和调整方法,来计算专利和引文偏差。
  2. 考虑两组与公司、行业或经济层政策变化的稳健性检验,分别和不包含最近几年的专利数据。
  3. 考虑两组与技术分类有关的稳健性检验,在样本中分别包含和不包含专利授权或引用激增 (如计算机通信行业) 的行业 。
  4. 考虑两组与地理位置有关的稳健性检验,在样本中分别包含和不包含专利授权或引用激增的地区。
  5. 考虑两组与企业特征有关的稳健性检验,在样本中分别包含和不包含专利授权或引用激增 (如市净率较高、规模较大) 的企业。
  6. 考虑两组与企业进出有关的稳健性检验,在样本中分别包含和不包含在样本期内退出的企业。
  7. 考虑两组与企业标识有关的稳健性检验,评估专利授权人的名字与公司标识符是否一致,在样本中分别包含和不包含匹配置信度较低的企业。
  8. 考虑两组与企业战略行为有关的稳健性检验,通过媒体报道、专利转让和重新分配来评估企业的战略专利和引用,在样本中分别包含和不包含这些做法的企业。

需要注意的是,没有论文是完美的。这些标准有助于帮助研究人员、编辑和审稿人进行判断,不满足所有条件的论文也值得发表,但对于存在严重缺陷的论文应当拒绝。

5.2 机器学习的应用

我们进行两组机器学习预测,相关的资料可以在「附录」和「GitHub」上找到。关于专利偏差,具体设定如下:

  • 训练集:使用 1976-2001 年间申请的专利作为机器学习的训练数据;
  • 预测集:2002-2006 年每个公司每年获得的每个类别的专利数量;
  • 解释变量:公司在过去 6 年申请的专利数量、截至 2006 年底获得的专利数量、专利数量的技术分类和一系列财务数据;
  • 将预测值和截至 2012 年底记录的实际专利进行比较。

关于引用偏差,具体设定如下:

  • 训练集:使用 1976-1992 年间申请的专利作为机器学习的训练数据;
  • 预测集:1993-2002 年,每个公司申请专利后 1年内被引用的次数;
  • 解释变量:公司在过去 6 年申请的专利数量、截至 2006 年底获得的专利数量、专利数量的技术分类、专利预测数量和一系列财务数据;
  • 将预测值和截至 2012 年底记录的实际引用进行比较。

通过 RMSE、R2 和皮尔逊积矩相关系数比较不同方法估计的专利和引用数量,可以发现机器学习方法的预测均优于前文提到的时间和技术调整数据,这体现了利用机器学习调整专利和引用偏差的可能性。

5.3 未来研究方向

  • 系统性地解决截断偏误;
  • 评估哪些公司层面的信息可以有效预测和评估公司层面的专利和应用。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 论文复现, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh