斯坦福大学人工智能年度报告:中国拥有世界第二多的人工智能论文,第一不是美国。
2019-12-01

    编者按:本文选自《网易智能》(ID:smartman 163),选自斯坦福大学,作者:小氪,36氪授权转载。最近,斯坦福大学发布了《2018年全球人工智能报告》,该报告从学术研究、工业、开源软件和公众兴趣等方面介绍了2018年人工智能技术的发展,并记录了计算机视觉、自然语言理解等领域的技术进步。据报道,该报告致力于追踪、整理、提取和可视化人工智能相关数据,已成为决策者、研究人员、高管、记者和公众全面了解人工智能的基础,以便对复杂的人工智能领域形成更直观的印象。01。报告概述了今年的报告实现了两个目标:第一,更新了去年的指标。其次,分析了全球背景下人工智能技术的发展。前者是实现报告使命的关键,也就是为AI对话奠定基础,意味着继续推进技术进步。但后者也是必不可少的。没有全球视角,就没有人工智能故事。2017年的报告主要关注北美的活动,反映了该项目中有限的全球伙伴关系,而不是固有的偏见。今年,我们开始缩小全球差距。我们认识到,要使报告足够全面,还有很长的路要走,需要进一步的合作和外部参与。然而,我们可以断言,人工智能是一项全球性的技术。在2017年,Scopus数据库中83%的人工智能论文来自美国之外。其中,28%来自欧洲,在所有地区所占比例最高。在世界各地的大学,尤其是中国清华大学,人工智能和机器学习(ML)课程的入学人数正在增加。2017年,AI ML课程的学生总数是2010年的16倍。不仅美国、中国和欧洲取得了进展,韩国和日本在2014年也是人工智能专利的第二和第三大生产国,仅次于美国。此外,南非还主办了第二届印地巴深层学习会议,这是世界上最大的ML教学活动之一,吸引了来自20多个非洲国家的500多名参与者。人工智能的多样性不仅仅是地理上的。今天,超过50%的人工智能伙伴关系是盈利的,包括来自美国公民自由联盟(ACLU)、牛津未来人类研究所(Oxford Institute for Future of Humanity)和联合国开发计划署的项目。与此同时,人们越来越意识到性别和民族多样性对人工智能发展的重要性。例如,我们看到诸如AI4ALL和妇女参与机器学习(WiML)之类的组织数量增加,这鼓励了弱势群体的参与。02。激活指数和技术性能指数本文主要介绍大会报告的第一部分——数据:激活指数和技术性能激活指数反映了学术界、企业、企业家和公众参与人工智能活动的情况。从学习人工智能的大学生人数到申请AI工作的女性比例,再到AI初创企业的风险投资增长,这些数据都是包罗万象的。技术性能指标是指人工智能性能随时间的变化。例如,我们可以测量AI答案的质量和计算机在测试中检测对象的速度。2018年的全球人工智能报告为去年的许多指标(如机器人安装和人工智能会议的出席)增加了额外的国家粒度。此外,我们还增加了许多新的度量和研究领域,如专利、机器人操作系统的下载、GLUE度量和COC排名。总的来说,我们看到了去年主要成就的延续:几乎所有地方的人工智能活动都在增加,技术性能也在全面提高。然而,今年的一些特别有趣的结果值得特别关注。这包括自然语言方面的重大进展和课堂上的性别差异有限。03。活动研究一。2018年人工智能论文发表综述。与1996年相比,下表显示了2018年学术论文年发表率的增长。这张图表比较了科学研究、计算机科学和人工智能(AI)各个领域的论文增长。从1996年到2017年,AI论文的年增长率超过了CS,这表明AI论文的增长不仅仅是由于人们对计算机科学的兴趣。图1:1996到2017年按学科分列的人工智能论文的年增长率。下图显示了按地区每年发表的人工智能论文的数量。欧洲一直是最大的人工智能论文生产国,在2017年Scopus数据库中,28%的人工智能论文来自欧洲。同时,尽管2008年前后在中国发表的人工智能论文数量有所波动,但2007年至2017年间,在中国发表的人工智能论文数量增加了150%。图2:从1996年到2017年,按地区分类每年发表的人工智能论文数量3。下表按子域分类显示了Scopus数据库中发表的AI论文的数量。这些子类别不是相互排斥的。在2017年发表的人工智能论文中,56%来自机器学习和概率推理,而2010年为28%。2014年至2017年的大部分时间里,论文的出版速度都快于2010年至2014年。最值得注意的是,神经网络(CAGR)的复合年增长率在2014年仅为3%,在2017年仅为37%。图3:从1998年到2017年,按子领域每年发表的人工智能论文有4篇。下图显示了在arXiv上发表的AI论文的数量,根据每篇论文的主要子类别进行分类。ArXiv是一个收集物理、数学、计算机科学、生物学和数学经济学论文预印件的网站。右轴表示arXiv上所有AI论文的总和(用灰色虚线表示)。关于arXiv的AI论文总数和许多子类别的论文数量都在增加。这些论文,无论是同行评议还是被AI会议接受,都表明AI作者倾向于传播他们的研究,这也表明了该领域的竞争力。自2014年以来,计算机视觉(CV)和模式识别一直是arXiv中最大的人工智能子类别。在2014年之前,这个类别的增长与人工智能和机器学习密切相关。除了显示出对计算机视觉(及其常见应用程序)日益增长的兴趣外,它还显示了其他人工智能应用程序(如计算、语言和机器人)的增长。图4:从2010年到2017年,按arXiv的子类别分类的AI论文数量是5。美国、欧洲和中国的相对活动指数(RAI)如下图所示,按区域活动关注程度分类。RAI通过与AI的全球研究活动比较来近似区域专业化。RAI被定义为一个国家的出版物相对于AI出版物的全球份额的比例。1.0值表明,一个国家的人工智能研究活动与全球人工智能活动是一致的。高于1.0的值意味着更多的关注,而低于1.0的值意味着更少的关注。中国的人工智能论文主要集中在工程学和农业科学上,而美国和欧洲的人工智能论文则倾向于人文学科、医学和健康科学。与2000年的数据相比,2017年的数据表明,这三个地区的专业化程度都有所提高,中国的重点正在向农业转移。这符合我们的预期,因为中国是世界上最大的粮食生产国,并且倾向于将重点放在人工智能的应用上。图5:从2000年到2017年,每个地区的人工智能研究重点是6。以下五个图表显示了Scopus数据库中与政府、企业和医疗机构合作的人工智能论文的数量。其中,前三幅地图直接比较了中国、美国和欧洲按机构关注点分类的人工智能论文数量,而后两幅地图显示了不同地区的企业和政府发表的论文数量。2017年,中国政府发表的人工智能论文数量几乎是中国企业的四倍。2007年以来,中国政府发表的人工智能论文数量增长了400%,而同期企业发表的人工智能论文数量仅增长了73%。在美国,公司论文占所有AI论文的相对大部分。2017年,美国公司发表AI论文的比例比中国公司高6.6倍,比欧洲公司高4.1倍。图6:从1998年到2017年,中国机构每年发表的人工智能论文数量是7篇:从1998年到2017年,美国机构每年发表的人工智能论文数量是8篇:从1998年到2017年,欧洲机构每年发表的人工智能论文数量是9篇:从2009年到2017年,人工智能论文数量在增长。2009年至2017年,全国各地区企业并购时间为10:10。地方政府发表的人工智能论文的增长7.下图显示了AI作者的区域加权引用(FWCI)。地理加权参考文献是AI作者在该区域中收到的参考文献的平均数量除以所有AI作者的参考文献的平均数量。在这个图中,FWCI被重建,这意味着引用的数量相对于世界平均数被显示。基于1的FWCI的重新计算表明,这些出版物被引用的次数是世界平均数的两倍。如果FWCI为0.85,则论文的引文率比世界平均水平低15%。尽管每年在欧洲发表的人工智能论文数量最多,但欧洲的FWCI仍相对稳定,与世界平均水平相当。相比之下,中国已经大幅提高了其FWCI。2016年,中国AI作者的引文率比2000年高44%。然而,美国的总引文率仍然高于其他地区,比全球平均水平高83%。图11:从1998年到2016年,人工智能作者的地理加权引文8。下图显示了国际流动对人工智能论文的出版率和引文率的影响。我们研究了四种类型的流动:静止流、暂时流、迁移流入和流出流。久坐的作者是活跃的研究者,他们在家乡以外没有发表文章。临时作家在他们家乡的意想不到的地区发表文章不超过两年。移徙作者在两年或更长时间内对其他地区作出贡献。图12:从1998年到2017年,中美洲和欧洲三个地区的AI作者论文的出版率和地理加权引文对上图中X轴上的相对出版率产生影响,即每个类别的作者平均出版物数除以t中的平均出版物数整个地区。Y轴表示地理加权的参考,即,每个迁移作者接收的参考的平均数量除以整个区域中参考的平均数量。如果作者论文中至少30%涉及人工智能,那么他就被认为是“人工智能作者”。在美国、中国和欧洲,临时作者的出版率最低。此外,移民作者的FWCI在这三个地区最高。因此,他们往往有更多的引文和更频繁的作者。在这三个地区中,中国是久坐型AI作者比例最高的国家(76%),其次是欧洲(52%)和美国(38%)。虽然我国久坐作者的比例相对较大,但中国非久坐作者的出版率往往高于其他地区的非久坐作者。换言之,尽管相对而言,中国作家很少在地理上流动,但他们往往比其他地方的移民作家更有生产力。9。AAAI论文的下列数字显示了在2018年AAAI会议上提交并被国家分类机构接受的论文数量。2018年AAAI会议于2018年2月在美国路易斯安那州新奥尔良举行。2018年提交给AAAI的论文约70%来自美国或中国。虽然中国的论文贡献率最高,但美国和中国接受的论文数量几乎相同,分别为268篇和265篇。因此,美国相关论文的选题率为29%,而中国为21%。德国和意大利论文的选题率最高,达到41%。图13:在AAAI 2018第二届大会上提交和选择的论文。高等学校人工智能课程注册1。下图显示了参加人工智能和机器学习(ML)课程的本科生的百分比。虽然选择人工智能课程的本科生比例略高于ML课程(平均人工智能为5.2%,ML为4.4%),但进入ML课程的本科生数量增长较快。这表明机器学习作为人工智能的一个子领域正变得越来越重要。图14:在2010到2017年间,AI和ML课程的本科生比例是2。以下是美国人工智能课程的图表,显示了美国几所顶尖计算机科学大学的人工智能和ML课程招生人数的增长。2017年,AI课程的学生人数比2012年增加了3.4倍,而2017年,ML课程的学生人数比2012年增加了5倍。2017年,加州大学伯克利分校的ML课程的学生人数是2012年的6.8倍。图15:2012到2017年间在AI和ML课程中注册的学生的增长。以下两个人工智能课程图表显示了在美国以外的几所主要计算机科学大学中注册的人工智能和ML课程。2017年,清华大学AI ML课程的入学人数比2010年增长了16倍,是非美国大学以外增长最快的。在所研究的所有学校中,我们发现,人工智能课程的招生增长相对依赖于学校,并不特别受地理位置的影响。图16:2010-2017年间美国境外AI ML课程的招生人数增加。人工智能会议摘要1.下图显示了大型AI会议的出席率和出席率相对于2012年大型AI会议的增长。大型人工智能会议是指在2017年超过2000人参加的会议。参加的人工智能会议最多的是NeurIPS(前NIPS)、CVPR和ICML。他们的出勤率自2012年以来增长最快。NeurIPS和ICML参与者增长最快:NeuRIPS在2018年增长了3.8倍,在2012年增长了5.8倍。这表明人们仍然对ML作为AI的子集非常感兴趣。同时,集中于象征性推理的会议继续显示出相对较小的增长率。图17:从1984年到2017年,参加大型人工智能会议的人数2。下图显示了小型AI会议的出席率和出席率相对于2012年小型AI会议的增长。小型人工智能会议是指在2017年与不到2000人参加的会议。ICLR在2018年的出勤率是2012年的20倍。今天这种增长可能更多地集中在人工智能的深度和学习结果上。图18:从1995年到2017年,参加小型人工智能学术会议的人数为3。下图显示了WiML(一个专门支持妇女机器学习的组织)主办的年度会议的出席情况,以及参加AI4All活动的校友人数。AI4All是一种旨在提高AI多样性和包容性的威慑。WiML和AAI4All在过去几年中项目注册数量有所增加,WiML参与者在2014年增加了600%,AI4ALL校友在2015年增加了900%。这些增长表明,人工智能部门仍在努力吸引妇女和弱势群体。图19:参与人工智能和ML学习的妇女和弱势群体的数量正在增加。下图显示了从ROS.org.下载的机器人操作系统(ROS)的二进制包的数量。ROS是一种广泛使用的机器人软件栈的开源软件,被许多商业制造商和学术研究人员使用。左轴显示月平均总下载时间,而右轴仅显示来自唯一IP地址的平均月下载时间。自2014年以来,总下载量和独立下载量分别增加了352%和567%。这表明人们对机器人技术和机器人系统的使用越来越感兴趣。由于独立下载的数量增长快于下载总数,因此我们可以推断ROS用户更多,而不仅仅是ROS用户更频繁。2012年以来,在ROS最大的五个地区之中。org页面浏览量,美国和欧洲具有最高的ROS页面浏览量。中国是所有大区域增长最快的国家,2017年的游客数量是2012年的18倍。图20:机器人操作系统(ROS)的下载数量在2011年到2018年间有所增加。第五,AI创业和投资1。下图显示了在给定年份中由风险投资支持的活跃的美国私营初创企业的数量。蓝色线(左轴)只显示AI初创企业,而灰色线(右轴)显示所有风险投资支持的初创企业,包括AI初创企业。这个图表显示了每年一月份初创企业的总数。从2015年1月到2018年1月,活跃的人工智能初创企业增长了2.1倍,而所有活跃的初创企业增长了1.3倍。在很大程度上,活跃创业企业的增长保持相对稳定,而人工智能创业企业的数量则呈指数增长。图21:从1995年1月到2018年1月,美国的AI初创公司的数量增加了。下表显示了风险投资公司(VC)在美国所有融资阶段为活跃的初创企业提供的年度资本额。蓝色线(左轴)只显示对AI初创企业的支持,而灰色线(右轴)显示对所有风险资本支持的初创企业的支持,包括AI初创企业。这些数据是年度数据,不同于上图中逐年累积的数据。从2013年到2017年,支持AI初创企业的风险投资基金增加了4.5倍,而支持初创企业的所有资本流动增加了2.08倍。从1997年到2000年,风险投资的繁荣可以用互联网泡沫来解释。2014年和2015年的小幅繁荣反映了一段时间内相对较高的经济增长。图22:从1995年到2017年,AI初创公司每年接受风险资本6、AI人才和专利。下表显示了AI技能领域每年所需的空缺数量和人工智能所需空缺的相对增长。人工智能技能不是相互排斥的。虽然ML是最重要的技能要求,但深度学习(DL)正在以最快的速度增长。从2015年到2017年,需要DL技能的职位空缺增加了35倍。图23:2015年至2017年间,需要人工智能技能的职位空缺2。申请人的性别差异显示了2017年申请AI职位的男性和女性比例。这些数据是根据所需的技能收集的,并不相互排斥。在美国,平均来说,男性求职者占所有AI求职者的71%,因为机器学习需要最多的求职者,这主要是由机器学习求职者驱动的。另外,与其他类别相比,机器人学、深入学习和机器人性别差异较大。图24:2017年,按性别分列的AI职位申请3。下图显示了人工智能专利的数量和增长,主要由发明人所在的地区决定。人工智能专利的聚集使用IPC代码,属于认知和意义理解以及人机接口技术领域。随着时间的推移,追踪专利非常困难。2014年,大约30%的人工智能专利起源于美国。其次是韩国和日本,占总数的16%。在顶尖的发明者中,韩国和台湾的增长速度最快,2014年的人工智能专利数量几乎是2004年的5倍。图25:从2004年到2014年,AI专利7和AI采用1按发明人的区域划分。下图按区域显示了AI的嵌入式功能,显示了McKinsey。