Semantic scholar:一款基于机器学习的学术搜索引擎

发布时间:2020-11-27 阅读 14034

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 李占领 (中南财经政法大学)
E-mail: lizhanling888@163.com


目录


1. Semantic scholar 简介

2015 年 11 月 2 日,微软联合创始人 Paul Allen 旗下的艾伦人工智能研究所 (Allen Institute for Artificial Intelligence,AI2)发布了一款名为 Semantic Scholar 的免费学术搜索引擎,目标是「破除混沌(cut through the clutter)」,帮助科研用户从浩如烟海的文献中快速筛选有用信息,减少检索时间,提升工作效率。

Semantic Scholar 利用机器学习技术,可以从文献文本中挑选出最重要的关键词或短语,确定文献的研究主题,也可以从文献中提取图表,呈现在文献检索页面,能够帮助使用者快速理解文献的主要内容。对于科学研究人员来说,Semantic Scholar 的较大用处是可以帮助他们快速获得重要文献,因为该引擎可以辨别一篇文章引用的参考文献是否具有重要的参考价值.

Semantic scholar 从最初收录的计算机科学领域的 300 万篇文献,经过 4 年多的发展,截止 2020 年 5 月 8 日,已收录文献 1.87 亿篇,涵盖经济、管理等 19 个领域的文献。 下面,本文以检索美国著名经济学家,全世界引用率较高的经济学家之一,尤金·法玛(Eugene F. Fama)教授发表的学术论文为例,介绍 Semantic scholar 的常规信息检索功能和特色功能。

2. 常规信息检索功能

Semantic scholar 搜索引擎网址:https://www.semanticscholar.org/

检索页面如下图:

在搜索框内,输入「Eugene F. Fama」,点击「More Filters」,可以看到如下页面:

同时把「Eugene F. Fama」分别放入微软学术和谷歌学术进行检索,以比较三者之间检索结果的区别,具体检索结果如下:

在微软学术的检索结果页面出现了 136 篇文献,显示的被引用次数为 252802,而在谷歌学术中得到了约 40900 条文献,数量虽然很多,但大量的文献不是学术论文类型,假若使用者利用该引擎进行检索作者发文情况时,稍显不便。在 Semantic scholar 与前两个学术搜索引擎相比,其提供了丰富的二次检索功能,初步检索出的相关文献是 183 篇。

以《Risk, Return, and Equilibrium: Empirical Tests》为例,看看 Semantic scholar 提供了哪些信息。

  • View PDF(本文提供了 pdf 版本可以下载,但不是所有的文献都能下载 pdf 版本)
  • Abstract(摘要)
  • Tables(图表和主题)
  • Citations(被引用情况)
  • References(参考文献)
  • Related Papers(相关文献)
  • Cite(提供了 BibTex、EndNote、MLA、APA、Chicago 等格式)

3. 特色功能

3.1 被引用情况分类

Semantic Scholar 提前为使用者对引用的文献进行了分类,引用情况共分为高影响力引用次数,引用方法,引用背景和引用结果四类。

该分类为我们追踪文献的后续引用情况提供了极大的便利。

  • 若想模仿作者的研究话题进行后续深入研究,可以点击「Highly Influential Citations」链接,选择其中提供的文献
  • 如果仅想模仿作者的研究方法,可以点击「Cite Methods」链接中的文献进行阅读。
  • Semantic Scholar 还提供了相关主题的文献,能够节约检索者的时间。

3.2 论文附件和重现资料检索

部分文献还提供了补充资料,为了介绍该部分的功能,本文选取了《A Convolutional Encoder Model for Neural Machine Translation》单独进行示例:

  • Supplemental Code 模块,可以下载 Github 代码,方便使用者进行结果的重现;
  • Explore Further 模块,提供了更多与本文所讨论主题相关的论文,同 Related Papers 模块的功能相似。
  • 检索页面还提供了推特 Twitter Mentions 的数据。

3.3 学者影响力评价

点击「Influence」就可以找到 Fama 教授学术影响力评价图,具体如下:

学者影响力图主要包括学者所发表的文献数量、H指数、总被引次数、高影响力引用次数、学者本人所受其他学者影响情况、受学者本人影响的情况等内容,

其中「Highly Influential Citations(高影响力引用次数)」,该指标是Semantic Scholar基于对引用文献的分析,包括被引文献在施引文献中的被引次数、每次被引时的位置,以及所引用内容与上下文之间的关系等,利用深度学习技术,建立模型,据此判定施引者对所引用文献的态度,确定引用的价值,该指标具有重要的参考价值。

4. 结束语

更多关于 Semantic scholar 的功能、使用技巧或问题详见链接 Semantic-Scholar-FAQs

https://www.semanticscholar.org/faq

参考文献

  • Miwa, M., & Bansal, M. (2016). End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures. [PDF], -Link-

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD