网站首页 > 医学论文> 文章内容

2018年国际顶尖学术会议上发表的机器学习和NLP相关论文的数据统计

※发布时间:2019-3-9 6:19:22   ※发布作者:habao   ※出自何处: 

  剑桥大学数据科学家Marek Rei在个人博客上发布了2018年国际顶尖学术会议上发表的机器学习和NLP相关论文的数据统计。数据显示,无论是顶会论文发表数量还是会议出席人数,都表明AI领域仍处于快速的增长期,“AI寒冬”并未到来。

  近日,剑桥大学数据科学家Marek Rei在个人博客上更新了2018年国际顶尖学术会议上发表的机器学习和NLP相关论文的数据统计。

  虽然2018年“AI寒冬”的不绝于耳,但Marek Rei的这份数据显示,去年在AI相关领域,无论是顶会论文发表数量还是会议出席人数,都表明AI领域仍处于快速的增长期,2018年的统计数据打破了此前的多项纪录。

  最值得注意的是,今年的NeurIPS会议的门票在开票后仅11分38秒即告售罄,堪比春运火车票,令无数准备参会或围观大牛的热心观众唏嘘不已。

  本文提供了关于这些统计数字的更精细的分类数据信息,一起来看看哪些作者和机构在特定的学术会议上发表的论文数最多。

  上述会议/期刊基本涵盖了全球最知名、级别最高的机器学习自然语言语言技术出处。与2017年的数据相比去掉了SemEval,因为该会议主要关注共享作者的论文,本次统计也没有将合作的数据收录在其他会议中。

  今年的统计数据中新收录了AAAI,这是一个规模较大的会议,之前的统计中未收录。 NeurIPS(前NIPS)去年进行了更名,但为了保持一致性,在之前年份的数据内容中一律统一使用新名称。

  统计数据的抓取和分析是通过一系列脚本自动完成的,多年来,这些自动脚本一直在不断改进。论文列表是通过在线程序抓取的,通常也附带有作者信息。组织机构名称需要直接从PDF中提取,这可能会导致一些错误。为此我已经采取各种方法来检测和映射不同类型的机构名,来尽量避免这些错误。

  这篇文章重点介绍了近年来发表论文数量最多的作者和机构,但这里要指出,不能将发表论文的数量作为研究领域中一味追求或励的目标,而且论文数量的快速增长,并不代表研究质量的快速提高。

  写出一篇具有开创性意义的论文,要比发表10篇很快就被人遗忘的论文更了不起。此文的目的是为了给相关领域的人员提供一个更广的视角,也可能为心怀优秀创意的新研究人员提供一些灵感。

  关注每位作者在不同年份发表的论文数量,按照两年为单位,Chris Dyer仍然显得一枝独秀,Yue Zhang和 Ming Zhou紧随其后。

  先来看看2012-2018年间统计收录的会议上的会议论文。大多数机器学习会议上发表的论文数量都呈现持续增长态势,其中发表在AAAI和NeurIPS上的论文超过1000篇。 EMNLP和NAACL也逐年连创新高。ACL和COLING则变化不是很大。 EACL今年休会,TACL和CL的论文数量多年来保持相对平稳。

  接下来,看看2018年在这些会议上发表过论文的作者情况。有三位研究人员分别发表了22篇论文,论文数量排名并列第一,分别是:周明(微软),格雷厄姆纽比格(卡内基梅隆大学)和谢尔盖莱文(大学伯克利分校) 。紧随其后的是张潼(曾供职腾讯AI,最近离职),孙茂松(大学)和Iryna Gurevych(达姆施塔特工业大学)。

  再来看看2012-2018之间的发表论文总数,Chris Dyer(DeepMind)以97篇排名榜首。紧随其后的是周明(微软)、Yoshua Bengio(大学),张岳(西湖大学)和Noah A.Smith(大学)。大千世界的怪事大多数作者明显更倾向于在自然语言处理或机器学习的核心会议,Percy Liang可能是个例外,在期刊和会议上发表的论文数量基本差不多。

  还可以查看不同年份每位作者的论文数量。可以看到,Chris Dyer在2015-2016年间发表的论文数量增长惊人。

  接下来是关于论文第一作者的统计数据。论文的第一作者通常是那些实际操作、实验并撰写论文的大部分内容的人,是反映作者对论文贡献度的重要指标之一。

  在这项统计中,位列榜首的是Yi Tay(南洋理工大学),他是一名三年级博士生,在2018年的学术会议上表了10篇一作论文,令人印象深刻。第二名为朱泽园(Zeyuan Allen-Zhu),去年表6篇一作论文。排在之后的分别是Mikel Artetxe,Jiatao Gu(大学),Dinghan Shen(杜克大学)和Nathan Kallus(康奈尔大学)去年表5篇一作论文。

  再来看看发表论文总数,李纪为(香侬科技)发表了 22 篇一作论文。其后是朱泽园(微软)、Young-Bum Kim(亚马逊)、Ryan Cotterell(剑桥大学)和 Ivan Vulić(剑桥大学)。

  接下来是企业和研究机构发表论文的统计数据。与前两年一样,CMU在2018年发文数仍然位居第一,自然语言处理和机器学习主题之间的论文数量差距相对均匀。从企业方面来看,谷歌和微软仍然是行业的领导者,大学、斯坦福大学、大学、麻省理工学院和大学伯克利分校都位列机构之列。

  从2012年至2018年的整个时段来看,排名实际上没有太多变化。CMU仍然处高居第一,微软和谷歌得而排名则换了个。普林斯顿大学、INRIA和杜克大学似乎专注于机器学习领域,几乎没有在NLP领域发表文章。相比之下,大学、中科院和大学似乎更重视NLP方向,没有在NeurIPS /ICML上发表什么文章。

  从时间分布来看,CMU在过去几年内一直保持高产,并且仍在继续增长。谷歌和微软一直在争夺企业界的榜首,但目前谷歌似乎取得了领先地位。、北大等中国大学目前的论文发表数量正在迅猛上涨。

  最后是关于论文作者和组织机构发表论文主题的一些分类。我收集了与指定作者/组织机构相关的所有论文,全部小写处理,加上标记,然后传递给LDA,再用t-SNE进行可视化,显示出了他们的论文内容与图中其他人内容的相似关系。结果如下:

  

关键词:会议论文发表