吴恩达：未来十年，人工智能将向以数据为中心转变-技术圈

来源：AI前线

作者：Eliza Strickland

译者：平川

策划：凌敏

本文最初发布于 IEEE Spectrum。

吴恩达在人工智能领域可谓声名显赫。2000 年底，他与斯坦福大学的学生一起开创了使用图形处理单元（GPU）训练深度学习模型的先河，并在 2011 年共同创立了谷歌大脑，然后在百度担任了三年的首席科学家，帮助这家科技巨头创立了人工智能小组。因此，很多人都相信他所说的，人工智能将迎来下一个重大转变。本文是他某次接受 IEEE Spectrum 独家采访的内容整理。

目前，他的主要精力都放在其公司 Landing AI 上。该公司构建了一个名为 LandingLens 的平台，帮助制造商利用计算机视觉改善视觉检测。他还成为了他所谓的以数据为中心的人工智能运动的布道者，他说这可以为人工智能领域的大问题提供“小数据”解决方案，涉及模型效率、准确性和偏见。

本文主要内容包括：

真正的大模型将走向何方；
他未听取的职业建议；
定义以数据为中心的人工智能运动；
合成数据；
为什么 Landing AI 要求客户做这项工作。

IEEE Spectrum：在过去十年左右的时间里，深度学习的巨大进步是以越来越大的模型处理越来越多的数据为基础。有人认为，这种发展模式是不可持续的。您是否同意这种说法，深度学习不能再以这种方式继续发展下去？

吴恩达：这个问题很大。我们已经看过了 NLP（自然语言处理）中的基础模型。我对 NLP 模型变得越来越大感到兴奋，同时也对在计算机视觉领域构建基础模型的潜力感到兴奋。我认为，视频中仍有很多讯息可以利用：受限于计算带宽和视频处理成本，我们还无法为视频构建出不再依赖文本分词的基础模型。因此我认为，这个扩展深度学习算法的引擎，虽然已经运行了大约 15 年，但仍然有活力。话虽如此，那也只适用于某些问题，还有其他一系列问题需要小数据解决方案。

IEEE Spectrum：当您说您希望有一个计算机视觉的基础模型时，您指的是什么？

吴恩达：这是由 Percy Liang 和我在斯坦福的一些朋友们创造的一个术语，指的是非常大的模型，在非常大的数据集上训练，可以针对特定的应用进行调优。例如，GPT-3 就是一个基础模型 [用于 NLP] 的例子。基础模型作为开发机器学习应用的一个新范式，有很大的应用前景，但同时也面临着挑战，即如何确保它们合理、公平、没有偏见，特别是如果我们中的许多人将以它们为基础进行构建。

IEEE Spectrum：在什么情况下才会有人针对视频构建一个基础模型？

吴恩达：我认为有一个可扩展性问题。处理视频中的大量图片所需的计算能力非常大，我想这就是为什么基础模型会首先出现在 NLP 中。许多研究人员正在研究这个问题，我认为我们已经看到了在计算机视觉领域开发这种模型的早期迹象。我相信，如果有一家半导体制造商给我们提供 10 倍的处理能力，那么我们就很容易找到 10 倍的视频来构建这样的视觉模型。

话虽如此，在过去十年里，经常出现的情况是，深度学习发生在面向消费者的公司。这些公司拥有庞大的用户群，有时是数十亿用户，他们也因此拥有非常庞大的数据集。虽然这种机器学习范式为消费类软件带来了巨大的经济价值，但我发现，适用于这种规模的方法对其他行业并不适用。

IEEE Spectrum：听您这么说很有意思，因为您早期就是在一家面向消费者而且有数百万用户的公司工作。

吴恩达：十多年前，当我提议启动谷歌大脑项目，利用谷歌的计算基础设施来构建非常大的神经网络时，是有争议的。一个非常资深的人把我拉到一边，警告我说，启动谷歌大脑对我的职业生涯不利。我想，他是觉得行动不能只停留在扩大规模上，而应该把重点放在架构创新上。

在许多行业中，巨型数据集根本不存在，所以我认为，关注点必须从大数据转向好数据。有 50 个精心设计的样本就足以向神经网络解释你想让它学习什么。

我记得，在我和我的学生发表第一篇 NeurIPS 研讨会论文，提倡使用 CUDA（一种在 GPU 上进行处理的平台）进行深度学习时，一位与众不同的 AI 资深人士对我说：“CUDA 编程真的很复杂。作为一种编程范式，这么做工作似乎太多。”我设法说服了他；但另一个人我却没能说服。

IEEE Spectrum：我希望他们现在都信服了。

吴恩达：我认为是这样。

在过去一年里，当我与人们谈论以数据为中心的人工智能运动时，我一直在回想 10 或 15 年前在与人们谈论深度学习和可扩展性时的情景。在这一年里，我一直听到同样的杂音：“这没有什么新东西”和“这似乎是一个错误的方向”。

IEEE Spectrum：您是怎么定义以数据为中心的 AI 的？为什么您将其视为一场运动？

吴恩达：以数据为中心的 AI 是一门系统地设计数据以促成人工智能系统构建的学科。人工智能系统必须在代码中实现一些算法，比如说神经网络，然后在数据集上训练它。过去十年的主流范式是下载数据集，并专注于改进代码。得益于这种范式，在过去十年中，深度学习网络有了显著的改善，以至于对于很多应用程序来说，代码——神经网络架构——基本上是一个已解决的问题。因此，对于许多实际应用来说，将神经网络架构固定下来，转而寻找改善数据的方法，会更有成效。

当我开始谈论这个问题时，有许多从业者举手说，“是的，我们已经做了 20 年了”。现在，是时候把一些人一直凭直觉在做的事情，变成一门系统的工程学科了。

与一家公司或一群研究人员相比，以数据为中心的人工智能运动的规模要大得多。我和我的合作者在 NeurIPS 上组织了一个以数据为中心的人工智能研讨会，前来参加的作者和演讲者的数量让我感到非常高兴。

IEEE Spectrum：您经常谈到，有些公司或机构只有少量的数据可供利用。以数据为中心的人工智能如何为他们提供帮助？

吴恩达：你应该听说过，很多视觉系统的构建使用了数百万张图片，我曾经用 3.5 亿张图片构建了一个面部识别系统。为数以亿计的图片构建的架构在只有 50 张图片时是行不通的。

但事实证明，如果有 50 个非常好的样本，那么你就可以构建一些有价值的东西，比如缺陷检测系统。在许多行业，根本不存在非常大的数据集，所以我认为，关注点必须从大数据转移到好数据。有 50 个精心设计的样本就足以向神经网络解释你想让它学习什么。

IEEE Spectrum：您说用 50 张图片训练一个模型的意思是对一个现有的、在非常大的数据集上训练的模型进行微调，还是说一个全新的模型，只是它被设计成只从小数据集学习？

吴恩达：让我描述一下 Landing AI 的作用。在帮助制造商实现视觉检测时，我们经常使用我们自己的 RetinaNet。它是一个预训练的模型。话虽如此，预训练只是整个拼图的一小部分。更大的难题是提供工具，使制造商能够挑选合适的图片集 [用于调优]，并用同样的方式标记它们。我们看到，有一个非常实际的问题，横跨视觉、NLP 和语音，即使是人类标注者也没法一致地给出适当的标签。对于大数据应用，常见的反应是：如果数据嘈杂，我们就获取大量的数据，然后由算法来均化处理。但是，如果你能开发一些工具来标记数据不一致的地方，并给出一个非常有针对性的方法来改善数据的一致性，那么这将是构建一个高性能的系统更有效的方法。

收集更多的数据往往是有帮助的，但如果你什么时候都设法收集更多的数据，那可能是一项非常昂贵的活动。

例如，如果你有 1 万张图片，其中 30 张属于一个类别，而这 30 张图片的标签不一致，我们所做的其中一件事就是构建工具，帮助你发现不一致的数据子集。那样，你就可以非常迅速地重新标注这些图片，提升图片一致性，进而提升性能。

IEEE Spectrum：这种对高质量数据的关注是否能帮助解决数据集偏见，如果能在训练前更多地挑选数据？

吴恩达：帮助非常大。已经有许多研究人员指出，数据偏见是导致系统偏见的众多因素之一。人们在数据设计方面已经付出了许多努力。在 NeurIPS 研讨会上，Olga Russakovsky 就这个问题做了一个非常好的演讲。我也非常喜欢 NeurIPS 大会上 Mary Gray 的演讲，她提到，以数据为中心的人工智能只是解决方案的一部分，但不是全部解决方案。像 Datasheets for Datasets 这样的新工具似乎也是拼图的重要组成部分。

以数据为中心的人工智能为我们提供的其中一个强大的工具是设计数据子集的能力。想象一下，训练一个机器学习系统，发现它在大部分数据集上的表现都还可以，但只是对数据的一个子集有偏见。如果你为了提高在那个数据子集上的性能，试图改变整个神经网络的架构，这相当困难。但是，如果你能对数据的一个子集进行设计，你就能以更有针对性的方式解决这个问题。

IEEE Spectrum：准确地说，您所说的数据设计是指什么？

吴恩达：在人工智能领域，数据清理很重要，但数据清理的方式往往需要大量的手动工作。在计算机视觉中，有人可能通过 Jupyter 笔记本将图片可视化，也许会发现问题，也许会修复它。

但对于那些让我们可以拥有一个非常大的数据集的工具，那些可以快速有效地定位存在标签噪声的数据子集的工具，我感到非常兴奋。或者是快速将你的注意力吸引到 100 个类中的某一类，从中收集更多的数据会让你受益。收集更多的数据往往是有帮助的，但是如果你什么时候都设法收集更多的数据，那可能是一项非常昂贵的活动。

例如，我曾经指出，当背景中有汽车噪音时，语音识别系统的表现很差。了解了这一点，我就可以在有汽车噪音时收集更多的数据，而不是什么时候都设法收集更多的数据，那样成本又高又耗时。

IEEE Spectrum：使用合成数据怎么样，通常这是一个好的解决方案吗？

吴恩达：我认为，合成数据是以数据为中心的人工智能工具箱中的一个重要工具。在 NeurIPS 研讨会上，Anima Anandkumar 做了一个关于合成数据的精彩演讲。我认为，合成数据的重要用途不仅仅是作为一个预处理步骤来增加学习算法的数据集。我希望看到更多的工具，让开发者可以把合成数据生成作为机器学习迭代开发闭环的一部分。

IEEE Spectrum：您是说合成数据可以让我们在更多的数据集上试验模型吗？

吴恩达：不是这样。举个例子。比方说，你试图检测智能手机外壳的缺陷。智能手机上有许多不同类型的缺陷。那可能是划痕、凹痕、坑痕、材料变色或其他类型的瑕疵。如果你训练了模型，然后通过误差分析发现它总体上表现很好，但在坑痕上表现很差，那么合成数据生成让你可以更有针对性地解决这个问题。你可以只针对坑痕类别生成更多的数据。

在消费类软件互联网中，我们可以训练少数几种机器学习模型来服务 10 亿用户。但在制造业，你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。

合成数据生成是一个非常强大的工具，但也有许多简单一些的工具，我经常会先试一下。比如说数据增强，改善标签一致性，或者只是要求工厂收集更多的数据。

IEEE Spectrum：为了使这些问题更加具体化，您能通过一个例子来更具体地说明下这些问题吗？当一家公司找到 Landing AI 并说它在视觉检测方面存在问题时，您如何让他们参与进来并努力实现部署？

吴恩达：当客户找到我们时，我们通常会就他们在检测方面遇到的问题进行交谈，并查看一些图片，以验证该问题是否可以通过计算机视觉来解决。假如可以，我们会要求他们将数据上传到 LandingLens 平台。我们经常基于以数据为中心的人工智能方法论向他们提供建议，并帮助他们对数据进行标注。

Landing AI 的其中一个重要目标是让制造企业可以自己完成机器学习工作。我们的很多工作都是为了确保软件快速且易于使用。我们通过机器学习开发的迭代过程为客户提供建议，比如如何在平台上训练模型，何时以及如何改进数据的标注，从而提高模型的性能。我们会一直提供培训和软件支持，直到他们将训练好的模型部署到工厂的边缘设备上。

IEEE Spectrum：你们如何处理不断变化的需求？如果产品发生变化或工厂的照明条件发生变化，模型能跟得上吗？

吴恩达：这和制造商有关系。在许多情况下都会有数据漂移。但也有一些制造商，一条生产线运行了 20 年，几乎没有什么变化，所以他们不觉得未来 5 年内会有什么变化。稳定的环境使事情变得相对简单。对于其他制造商，我们提供工具，在发生重大数据漂移问题时进行标记。

我发现，赋予制造业客户纠正数据、重新训练和更新模型的能力真的很重要。因为如果有什么变化，而且现在是美国时间凌晨 3 点，我希望他们能够立即调整他们的学习算法，以保证运营。

在消费类软件互联网中，我们可以训练少数几个机器学习模型来服务 10 亿用户。但在制造业，你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。这里的挑战是，如果没有 Landing AI ，你如何做到这一点，是雇用 10000 名机器学习专家吗？

IEEE Spectrum：所以您是说，为了使其可扩展，您必须赋能客户来做大量的训练及其他工作。

吴恩达：是的，完全正确！这是涉及全行业的人工智能问题，不仅仅是在制造业。看看卫生保健领域。每家医院的电子健康记录格式都略微不同。每家医院该如何训练自己定制化的人工智能模型？指望每家医院的 IT 人员发明新的神经网络架构是不现实的。

摆脱这种困境的唯一方法是构建工具赋能客户，为他们提供工具来设计数据和表示领域知识，使他们能够构建自己的模型。这就是 Landing AI 希望在计算机视觉领域达成的目标，人工智能领域需要其他团队在其他领域完成类似的目标。

IEEE Spectrum：关于您所做的工作或以数据为中心的人工智能运动，您认为还有什么需要人们了解的吗？

吴恩达：在过去十年中，人工智能最大的转变是向深度学习转变。我认为，在这个十年里，最大的转变很有可能是向以数据为中心的人工智能转变。随着现如今神经网络架构的成熟，我认为，对于很多实际的应用来说，瓶颈将是我们能否有效地获得我们所需的数据，开发出效果良好的系统。

以数据为中心的人工智能运动在整个社区有着巨大的活力和动力。我希望有更多的研究人员和开发人员能够加入进来，为之努力。

原文链接：

https://spectrum.ieee.org/andrew-ng-data-centric-ai?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTE3MzMzODUsImZpbGVHVUlEIjoiS3JrRVZMek5SS0NucGpBSiIsImlhdCI6MTY1MTczMzA4NSwidXNlcklkIjoyNTY1MTE5Nn0.TTm2H0sQUhoOuSo6daWsuXAluK1g7jQ_FODci0Pjqok