AI顶会论文“趋势”：对新方法的过度关注，与现实问题的脱节-技术圈

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：AI科技评论

作者 | 蒋宝尚

编辑 | 陈彩娴

近日，马里兰大学的研究员Hannah Kerner在《MIT科技评论》上分享了她最近在NeurIPS的投稿经历：

“作者为原创的、具有强烈动机的问题提供了一个解决方案，但这个解决方案只是一个应用程序，所以，对于机器学习社区来说，该工作带来的意义有限。”

Hannah Kerner通过这句评审意见，窥探出当前机器学习社区的通病：对新方法的过度关注，导致忽视了真正重要的东西—现实世界的问题。

在这篇《MIT科技评论》文章中，Hannah Kerner直接抛出了一个问题：如果用机器学习解决实际应用问题带来的意义有限，那么我们又应该实现什么目标呢？

Kerner表示，虽然许多“应用向”论文中提出了新的概念和影响广泛的结论。但是，仅仅是“application”一词，评审员就会带有些许“歧视”，导致这类研究在AI顶级会议上被边缘化。

基于这个问题，作者引经据典，论证了这么一个事实：对新方法的过度关注，与现实问题的脱节，方法小幅改进论文的泛滥，其实对AI社区发展弊大于利。

具体而言，作者先借用斯坦福大学「人工智能百年研究」的首份报告:《2030 年的人工智能与生活》对人工智能的目标下了定义；随后，用2012年经典论文《Machine Learning that Matters》论证机器学习社区与现实的区别越来越大；然后，用一系列事实说明了“指标应用错误”的深度学习现状；最后，通过分析机器学习领域的基准数据集与现实完全脱节的现状，论证弊大于利的事实。

整篇文章逻辑清晰，论述合理，尤其是2012年经典论文《Machine Learning that Matters》抛出的问题，直到现在还能够引人深思。

人工智能已偏离目标

在《2030 年的人工智能与生活》报告中提到：人工智能是致力于让机器变得智能的学科，而智能就是使实体在其环境中有远见地、适当地实现功能性的能力。人工智能开发人员正在改进、推广和扩大从当下的智能手机中所建立起来的智能。事实上人工智能领域是一个不断努力推动机器智能向前发展的过程。

而当前，在机器学习领域，“向前发展”往往意味着新算法和新程序，对于深度学习来说，则意味着一个新的网络架构。但是，这种度量方法可能带来的是：简单的增量提升的论文、机器学习学术研究中的奇怪趋势，以及学者争相刷榜。

其中，「简单的增量提升的论文」的论证来自Yoshua Bengio个人博客中的反思文章《Time to rethink the publication process in machine learning》，在文章中Bengio提出：

当前，机器学习领域的研究几乎完全进入了“会议发表”模式，实际上在计算机科学领域，这种模式已经非常常见。会议论文基本上没有像传统期刊论文那样 clean up 的机会，也很少像传统期刊论文那样，能在多次的修订之后提升内容质量。

所以说，表面上看，我们的生产力更高了，但是这种迫于压力的“生产力提高”对论文质量和内容深度造成了破坏。许多可能包含错误、不够严谨或者只是做了简单的增量提升的论文都赶在 Deadline 之前提交了上去。

「机器学习学术研究中的奇怪趋势」的论证来自， ICML 2018 开幕之前，卡耐基梅隆大学的助理教授 Zachary C. Lipton 与斯坦福大学博士 Jacob Steinhardt 共同发表的一篇名为《Troubling Trends in Machine Learning Scholarship》的文章中，表述的机器学习学术研究中看到的四项奇怪的趋势：

无法在解释和猜测之间做出明确的区分；
当实证实验中得到了改进时，无法确认改进的真正来源，比如过于强调性能提升来源于神经网络架构的非必须的改动，而实际上性能提升是来源于充分的超参数调试；
数学性：使用了很多数学概念和公式只为了混淆概念或者看起来高大上，而不是真的为了做出明确的表达，比如会混淆技术性和非技术性的概念；
语言词汇的滥用，比如用一些时髦的、内涵口语化的词汇，或者给已有的技术词汇增加额外的含义。

「学者争相刷榜的论证」来自于MIT科技评论文章《The field of natural language processing is chasing the wrong goal》，文章中提到的现象：自然语言处理领域正在为了比SOTA提升一两个点而努力。

重要的机器学习

《Machine Learning that Matters》这篇论文来自于ICML 2012，作者在文中指出了目前机器学习研究太过于注重测试数据，如UCI等，而忽略了数据的实际应用领域；同时，目前使用的性能评价指标像AUC、ROC曲线，完全忽略了数据本身的应用背景，提供的是一个数值上的对比，很难保证这个数值在实际应用中有任何意义。例如在植物学领域，80%的准确度也许是一个很不错的结果了，但是即使有99%的准确度显示某类蘑菇是无毒的，我们或许也不敢吃这类蘑菇。性能评价应该结合具体的应用背景才能有其实际的价值。

总体而言有以下几点：

1、特别关注标准数据集，不强调结果在现实世界中的作用和意义，也不强调培养年轻研究者formulate and define features的能力，使年轻研究者无法独立处理新的课题。

2、使用抽象的标准评价研究成果，如准确率，而忽略了问题本身特殊的细节，常常出现跨领域的数值比较。

3、在数据集上运行机器学习算法是很容易的，但是“发现一个机器学习可以提供解决方法、决定应该收集哪些数据、提取或抽取相关特征、选择一个合适的学习算法、选择一个评价方法、对实验结果进行专业的解释、发表成果并劝导人们采用你的方法解决问题并最终有效果”才是有意义的。虽然很困难，但是其中的每一个步骤都是对机器学习之外的世界产生影响而必须的工作。

总结：弊大于利

基于以上观察，在文章中，Kerner表示，当前机器学习模型是根据一些大型、精选的数据集进行衡量，这些数据集往往没有噪音且定义、数据标签明确。所以，深度学习在“世界基本稳定”假设下，往往能很好的解决一些问题。

但是在现实世界中，这些数据标签类别会随着时间的推移，或者地理和文化背景变化而变化。而恰恰应用型机器学习研究人员并没有努力开发新的方法解决现实世界数据的困难，而是一直在创建自己的基准数据集。

这些努力的目标，其实都是为了将现实的问题纳入其他机器学习项目的衡量标准中，但是特定领域的数据集在描述真实场景方面可能并不比现有的数据集好，因此这种趋势带来的结果可能弊大于利。

下载1：动手学深度学习

在CVer公众号后台回复：动手学深度学习，即可下载547页《动手学深度学习》电子书和源码。该书是面向中文读者的能运行、可讨论的深度学习教科书，它将文字、公式、图像、代码和运行结果结合在一起。本书将全面介绍深度学习从模型构造到模型训练，以及它们在计算机视觉和自然语言处理中的应用。

下载2：CVPR / ECCV 2020开源代码

在CVer公众号后台回复：CVPR2020，即可下载CVPR 2020代码开源的论文合集

在CVer公众号后台回复：ECCV2020，即可下载ECCV 2020代码开源的论文合集

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2300+人，旨在交流顶会（CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易，请给CVer点赞和在看！

AI顶会论文“趋势”：对新方法的过度关注，与现实问题的脱节

添加附言

相关文章推荐