YannLeCun当人工智能系统不需要监督学习时，下一场 AI 革命就来了

图灵奖得主、Meta AI 首席科学家 Yann LeCun 近日在接受 IEEE Spectrum 采访时表示，自监督学习可以用来构建元宇宙，甚至可能打造人类水平的 AI。</preface>

当 Yann LeCun 发表演讲时，他经常会在幻灯片上展示一幅法国大革命时期的名画。画中的战争场景上写着一行字。“革命是不会被监督的。”

Meta（前 Facebook）副总裁兼首席人工智能科学家 LeCun 认为，当人工智能系统不再需要监督学习时，我们就会迎来下一场人工智能革命。 它们用不着再依赖精心标记的数据集来提供真实来源，不需要靠这些数据集来理解世界并执行指派的任务。

LeCun 说，人工智能系统需要在尽可能减少来自人类的帮助的前提下，学习关于世界的知识。在发送给 IEEE Spectrum 的一份电子邮件答疑中，他谈到了自监督学习如何能创造出富有常识、更强大的 AI 系统。

2 月 23 日，他在一个名为“实验室内部：用 AI 打造元宇宙”的虚拟Meta AI活动中探讨了这一主题。这场活动有来自马克·扎克伯格，Meta 公司的一些人工智能科学家的演讲，以及 LeCun 和 Yoshua Bengio 关于通向人类水平的人工智能之路的讨论。以下是 LeCun 在上述电子邮件中针对 IEEE Spectrum 的几个问题给出的答案。

IEEE Spectrum：你曾说过，监督学习的局限性有时会被误认为是深度学习的天然局限。哪些限制可以通过自监督学习来克服？

Yann LeCun： 监督学习在相对封闭的领域中效果很好，这种情况下你可以收集大量标记好的数据，而且在部署中遇到的输入类型与训练时使用的输入类型没有太大区别。

要收集大量在某些层面上没有偏见的标记数据是很难的。我说的不一定是社会偏见，**而是系统不应该使用的一些数据中的相关性。**一个著名的例子是，当你训练一个系统来识别奶牛，而所有的样本都是在草场上的奶牛，那么系统将用草作为奶牛存在的背景线索。但是，如果你现在展示一头在海滩上散步的奶牛，它就可能很难识别出这头牛了。

自监督学习（SSL）让我们可以训练一个系统，以独立于任务的方式，学习各种输入的良好表征。因为 SSL 训练使用的是未标记的数据，所以我们可以用上非常大的训练集，让系统学习到更强大、更完整的输入表征。

然后系统只需要少量标记数据就可以在任何有监督的任务上获得良好的性能表现。这大大减少了纯监督学习所需要的标记数据量，并让系统更加健壮、更擅长处理与标记的训练样本不一样的输入。它有时还能降低系统对数据中偏见的敏感性 —— 关于这一改进，我们将在未来几周内公开的研究中分享我们的更多见解。

在现实人工智能系统中正在发生的事情是，我们正迈向越来越大的架构，这些架构在大量的无标签数据上用 SSL 进行预训练。这些架构可以用于各种各样的任务。例如，Meta AI 现在有语言翻译系统，可以处理几百种语言，但它仅仅是一个神经网络！我们也有多语言语音识别系统。这些系统可以处理很多我们缺乏相关数据的语言，更不用说有注释的数据了。

IEEE Spectrum：其他领军人物表示，人工智能的发展方向是通过更好的数据标记来改善监督学习。 Andrew Ng 最近和我交流了以数据为中心的人工智能主题，Nvidia 的 Rev Lebaredian 则谈到了自带所有标签的合成数据。那么 AI 领域对于未来发展方向这一主题是否存在分歧？

LeCun：我不认为我们在哲学上有什么分歧。SSL 预训练是 NLP 中非常标准的做法。它在语音识别中显示了出色的性能改进潜力，而且它开始在视觉领域发挥越来越大的作用。然而，“经典”的监督学习仍有许多尚待开发的应用，因此，只要有可能，我们当然应该充分利用合成数据和监督学习。与此同时，Nvidia 也正在积极研究 SSL。

早在 2000 年代中期，Geoff Hinton、Yoshua Bengio 和我就都相信，**我们想要训练非常大和非常深的神经网络，唯一方法是通过自监督（或无监督）学习。**那时 Andrew Ng 开始对深度学习产生了兴趣。他当时的工作也集中在我们现在称之为自监督的方法上。

IEEE Spectrum：自监督学习为什么能通向拥有常识的人工智能系统这一目标？ 常识能在多大程度上带我们走向人类水平的人工智能？

LeCun：我认为，一旦我们搞清楚了如何才能让机器像人类和动物一样学习世界的运作方式，人工智能产业就会取得重大进展。

人类和动物主要是通过观察世界和自身在世界中的行动来认识世界和学习知识的。我们理解世界是如何运作的，因为我们已经理解了世界的各种内在模型，使我们能够填补缺失的信息，预测将要发生的事情，并预测我们行动的效果。我们的世界模型让我们能够感知、解释、推理、提前计划和行动。

那么机器该如何学习哪些世界模型呢？

这可以归结为两个问题。我们应该用怎样的学习范式来训练世界模型？世界模型应该使用什么架构？ 对于第一个问题，我的答案是 SSL。一个例子是让机器看一段视频，按下停止播放键，然后让机器学习一段表述，告诉机器视频中接下来会发生什么事情。在这样做的过程中，机器可能会学习大量关于世界是如何运作的背景知识，也许这很像是人类和动物的婴儿在生命的最初几周和几个月里的学习方式。

对于第二个问题，我的答案是一种新型的深度宏观架构，我称之为分层联合嵌入预测架构（H-JEPA）。在这里详细解释的话内容就有点太长了，但我们想说的是，JEPA 的目标不是要预测视频片段的未来帧，而是学习视频片段的抽象表示和片段的未来发展信息，这样系统有了对前者的理解基础，就能很容易预测后者。

这一目标可以通过使用非对比性 SSL 方法的一些最新发展成果来实现，我和我的同事最近提出的一种名为 VICReg（方差、不变性、协方差正则化）的方法就会有很大用途。

IEEE Spectrum：几周前，你回应了 OpenAI 的 Ilya Sutskever 的一条推文，他推测今天的大型神经网络可能已经具备了一点意识。你的回答是一个响亮的“不”。在你看来，要想构建一个可以称得上具备意识的神经网络，需要哪些条件？那样的系统会是什么样子的？

LeCun：首先，意识是一个定义非常不明确的概念。一些哲学家、神经科学家和认知科学家认为它只是一种幻觉，我的看法也非常接近这种观点。

但我对导致意识幻觉的原因有一个猜测。我的假设是，我们的前额叶皮层有一个单一的世界模型“引擎”。这个世界模型是可以根据手头的情况进行配置的。我们在一艘帆船上掌舵时，我们的世界模型会模拟空气和水在船上的流动场景。我们制造一张木桌时，我们的世界模型会想象切割木片和把它们组装起来的结果，等等。

在我们的大脑中需要有一个模块，我称之为配置器，它会为我们设定各种目标和子目标，并配置世界模型以模拟手头的情况，还能激励我们的感知系统提取相关信息并抛弃其余信息。如果存在这样一个监督配置器，那可能就是给我们带来意识幻觉的原因所在。

但有趣的是：我们之所以需要这个配置器，是因为我们只有一个单一的世界模型引擎。如果我们的大脑大到足以包含许多世界模型，我们就不需要意识了。因此，从这个意义上说，意识是我们大脑局限性的一个效果。

IEEE Spectrum：自监督学习将在元宇宙的构建过程中发挥什么作用？

LeCun：深度学习在元宇宙有许多具体的应用，其中一些例子包括 VR 和 AR 眼镜的运动追踪、捕捉和重新合成身体运动和面部表情等。

人工智能驱动的新一代创意工具会有很大的市场机遇，它们将让每个人都能在元宇宙中创造新的东西，在现实世界中也一样。但是，元宇宙还有一个“完全是 AI 的应用：虚拟 AI 助手。 我们应该有虚拟的人工智能助手在日常生活中帮助我们，回答我们的任何问题，并帮助我们处理每天涌入的信息洪流。

为此，我们需要这样的人工智能系统拥有对（物理或虚拟）世界如何运作的一些理解、推理和计划的能力，以及某种程度的常识。 简而言之，我们需要弄清楚如何构建能够像人类一样学习的自主 AI 系统。 这将需要很长的时间。但 Meta 在这一领域已经做好了长期作战的准备。