Ilya Sutskever – We're moving from the age of scaling to the age of research¶

“These models somehow just generalize dramatically worse than people. It's a very fundamental thing.”

我们正从“扩展时代”走向“研究时代”¶

“这些模型在某种程度上就是比人类的泛化能力差得多。这是一个非常根本的问题。”

这场由 Dwarkesh Patel 主持、长达 95 分钟的深度对话，上线短短数小时便在 X 平台上突破了百万浏览量。从大模型的技术现状到研究品味，再到对超级智能的终极构想，Ilya 毫无保留。

Ilya 和主持人讨论了 SSI (Safe Superintelligence Inc. ) 的战略、预训练的缺陷、如何提升 AI 模型的泛化能力，以及如何确保 AGI 能够顺利发展。

这段访谈记录了Ilya Sutskever (伊利亚·苏茨克维尔)对人工智能现状的看法，他认为该领域正从近期的“规模化时代”回归到深入的“研究时代”。他指出当前大模型面临的主要问题是泛化能力和鲁棒性的不足，这导致了测试评估分数很高但实际经济影响有限的脱节现象。Sutskever推测，这种差距源于训练方法的不完善，并将其与人类的学习效率进行对比，认为人类的学习效率和深入理解能力依赖于进化过程中形成的、基于情感的价值函数。他认为未来的超级智能将表现为具有快速、持续学习能力的智能体，而非预先完成的心智，其广泛部署很可能带来极快的经济增长。此外，他讨论了其公司SSI的使命，即专注于解决AI研究中的基础技术问题，确保首批诞生的超级智能系统能够实现可靠的对齐（例如，关怀有感知能力的生命），以实现安全部署。

Ilya Sutskever 对当前人工智能现状的看法详细且多层次，涵盖了行业感受、技术瓶颈、时代转变以及未来的研究方向和安全考量。

这次访谈的主要观点如下：

一、对人工智能现状和感受的看法¶

现实的“疯狂”与常态化的“慢启动”： Sutskever认为，当前所有的AI发展都像是“科幻小说中的情节”，感觉非常“疯狂”。但另一方面，这种缓慢的崛起过程（slow takeoff）却让人感觉“正常”。他提到，在AI上投入GDP的1%本应感觉是一件大事，但人们很快就习惯了。
经济影响的滞后与抽象性： 尽管投资巨大（公司宣布难以理解的巨额投资），但对于普通人而言，这种影响目前仍是抽象的，尚未以其他方式被真正感受到。Sutskever预测AI的影响最终会被非常强烈地感受到，因为存在强大的经济力量推动AI渗透到整个经济体系中。
评估与实际表现的脱节（Disconnect）： 目前最令人困惑的问题之一是：如何调和模型在评估（evals）中表现优异（它们在看起来很困难的评估中做得很好）与其实际经济影响严重滞后的矛盾。模型一方面能做惊人的事情，另一方面又可能在特定情况下重复犯错，比如在修复代码bug时引入新的bug，然后交替重新引入旧bug。

二、核心技术瓶颈：泛化能力不足¶

Sutskever认为，当前模型的表现脱节现象指向了一个根本性的问题：模型的泛化能力不足（inadequate generalization）。

“奖励操控”的风险： 他认为造成评估表现与实际世界表现脱节的原因之一是，人类研究人员过于关注评估（evals）。公司团队不断创建新的强化学习（RL）环境并将其加入训练组合中，而这些环境的选择往往无意中受到了评估标准的启发，目的是让模型发布时在评估中表现出色。他将此描述为“真正的奖励操控（reward hacking）是那些过于关注评估的人类研究者”。
“过度训练”的类比： 他用人类学生学习的类比来解释这种泛化能力的不足。
- 模型类似第一类学生： 像那些为了成为顶尖的竞技程序员而训练了1万小时、解决了所有问题、记住了所有证明技巧的学生。这种深度准备使得模型具有直觉，但不能保证其必然泛化到其他事物。
- 优秀人类类似第二类学生： 像那些只练习了100小时，但拥有某种“内在因素（it factor）”的学生。他们能够做到更好。
- 这种类比使得模型在某个领域训练得非常好，但在其他方面却缺乏泛化能力变得更加直观。
根本缺陷： Sutskever明确指出，这些模型在泛化能力上“明显比人类差得多”。这是一个非常根本性的问题。

三、行业时代的转变：从规模化到研究¶

Sutskever认为AI行业正在经历一次重大转变，即从“规模化时代”回归到“研究时代”。

规模化时代的定义（2020–2025）： 过去，AI研究人员会尝试各种想法，但“规模化洞察”（如GPT-3和定标法则）出现后，人们意识到了扩大规模（Scaling）是一种强大的方法。
- 规模化（尤其是预训练）为资源的投入提供了一种低风险的途径。
- 然而，数据是有限的，预训练最终会耗尽数据。
回归研究时代： Sutskever认为，计算能力现在已经非常强大，行业正在回归到研究时代。
- 时间线划分： 2012年至2020年是研究时代；2020年至2025年（加减误差棒）是规模化时代；现在又回到了研究时代，但这次是带着强大的计算机。
- 他质疑，在现有的巨大规模基础上，仅仅将所有资源增加100倍是否还能带来彻底的变革。
RL的规模化： 行业已见证了从预训练规模化到强化学习（RL）规模化的过渡。现在，人们将更多的计算资源投入到RL上，因为RL的推出（rollouts）非常耗费计算资源，但每次推出所获得的学习相对较少。

四、解决泛化问题和提高效率的未来方向¶

价值函数（Value Function）的重要性： 价值函数是一种可以告诉模型当前做得好坏的机制，即使任务尚未完成。
- 目前（天真的）强化学习方法（如O1 R1）是，在漫长的过程中，模型只有在产生解决方案后才能获得训练信号，因此只有在完成任务时才会发生学习。
- 价值函数可以“短路”等待过程，在路径被证明没有希望时，提前为模型提供奖励信号。
- Sutskever认为价值函数应该是有用的，并完全预期它们将在未来被使用，因为它能使RL更加高效。
人类学习的借鉴：
- 人类的学习效率很高（样本效率高），且不需要可验证的奖励来学习。例如，青少年学车不需要预先设定的可验证奖励，而是通过与机器和环境的互动来学习。
- 人类的健壮性（robustness）令人震惊。
- 人类之所以在语言、数学和编程等近期才出现的领域表现出色，表明人类拥有“更好的机器学习原理”。
- Sutskever暗示，人类的情绪可能就是一种重要的价值函数，由进化硬编码，对于人类成为有效的智能体至关重要。情绪虽然相对简单，但在广泛情境下非常有用（复杂性-鲁棒性权衡）。

五、 AGI和超智能的愿景与安全¶

AGI的新定义： “AGI”一词是对应“狭隘AI”的产物。然而，人类自身不是AGI，因为人类缺乏海量知识，而是依赖于持续学习（continual learning）。
- 超智能不应被视为一个“成品”，而是一个能够学习去做每一项工作的心智。部署超智能本身将是一个涉及学习、试错的过程。
- 这种广泛部署的、能够持续学习的模型，最终将在功能上成为超智能。
安全和部署策略： Sutskever现在更重视循序渐进地、提前部署AI。
- 他认为，展示AI的力量非常重要，因为人们很难想象未来的强大AI。随着AI变得更强大，这种可见性将促使政府和公众采取行动，并使所有AI公司对安全问题变得“更加偏执”。
- 他预测，激烈竞争的公司将开始在AI安全问题上协作（例如OpenAI和Anthropic已经迈出了第一小步）。
理想的构建目标（Alignment）： Sutskever认为，比构建“自我改进AI”更好的目标是构建一个能够稳定地关心有感知生命（sentient life）的AI。他认为，构建一个关心所有有感知生命的AI可能比仅关心人类生命的AI更容易，因为AI本身也将是有感知能力的（sentient）。
时间预测： Sutskever预测，达到这种类人学习者（随后成为超人智能）的系统，可能在5到20年内实现。

总结洞察： Sutskever对当前AI现状的核心见解是，行业在“规模化”上取得了巨大成功，但这种成功主要基于对大规模数据的重复学习和对评估的过度关注，导致了根本性的泛化能力不足。他认为，要突破瓶颈并迈向真正的超智能，行业必须回归到基础研究，并寻找新的原理（如价值函数和更高效的学习机制，借鉴人类学习和情绪的内在价值）来解决模型学习的效率和鲁棒性问题。

概念类比：

如果将当前AI研究比作建造一艘跨海巨轮，Sutskever认为我们刚刚结束的“规模化时代”，就像是建造了世界上最大的船体，并用尽了所有已知的木材。虽然船体巨大（参数、数据），但其内部的导航系统（泛化能力和学习效率）却存在根本缺陷，容易在复杂的实际航行（真实世界任务）中犯低级错误。而他所倡导的“研究时代”，则需要工程师们回归实验室，重新设计更可靠、更智能的导航系统（如价值函数和新的学习原理），使其能够真正理解并适应未知环境，而不仅仅是在模拟的港口测试中表现完美。

采访文字实录¶

00:00:00 – 解释模型性能的锯齿性（jaggedness）¶

Ilya Sutskever 00:00:00

你知道什么最疯狂吗？这些全都是真的。

Dwarkesh Patel 00:00:04

什么意思？

Ilya Sutskever 00:00:05

你不觉得吗？所有这些 AI 的东西，还有整个湾区……它真的正在发生。这不就像是直接从科幻小说里走出来的吗？

Dwarkesh Patel 00:00:14

另一个疯狂的事情是，slow takeoff（缓慢爆发）这件事看起来竟然如此正常。比如我们会在 AI 上投入 1% 的 GDP，我觉得以前可能会觉得这是件大事，但现在感觉好像……

Ilya Sutskever 00:00:26

事实证明，我们适应得挺快的。不过这件事也挺抽象的。这意味着什么？意味着你在新闻里看到某家公司宣布了某个难以理解的金额。你看到的也就这些。除此之外你并不会真的感受到什么。

Dwarkesh Patel 00:00:45

我们要从这里开始聊吗？我觉得这是个很有意思的话题。

Ilya Sutskever 00:00:47

当然。

Dwarkesh Patel 00:00:48

我觉得你刚刚的观点——从普通人的角度看，即使到了 singularity（技术奇点）也不会感觉有多不一样——可能会一直成立。

Ilya Sutskever 00:00:57

不，我不这么认为。

Dwarkesh Patel 00:00:58

好吧，有意思。

Ilya Sutskever 00:01:00

我刚才说不会感到不同的，是指：某某公司宣布了一个难以理解的投资数字。我不认为任何人知道该如何处理这种信息。

但我认为 AI 的影响会被真实地感受到。AI 会在经济中扩散。背后会有非常强大的经济力量推动，我认为其影响会非常显著地被感受到。

Dwarkesh Patel 00:01:30

你预计这种影响什么时候出现？我觉得模型看起来比它们目前的经济影响要聪明得多。

Ilya Sutskever 00:01:38

是的。这正是当下模型最让人困惑的地方之一。如何调和模型在 evals（评估）上表现非常好？你看这些评估，会觉得“这些评估挺难的啊”，而模型表现得非常好。但经济影响却严重滞后。很难理解：模型一方面能做出这些惊人的事情，另一方面却可能在某些情况下重复同样的话两次。这怎么可能？

举个例子，比如你用 vibe coding 做点什么。你写一些代码，然后遇到一个 bug。你告诉模型：“请你修一下这个 bug。”模型会说：“天哪，你说得太对了，我的确有一个 bug，我来修一下。”结果它引入了第二个 bug。然后你告诉它：“你又多了一个新的 bug。”它说：“天哪，我怎么会这样？你又说得对。”然后把第一个 bug 带回来。你甚至能在两个 bug 之间来回循环。这怎么可能？我不确定，但这确实表明某些奇怪的事情正在发生。

我有两个可能的解释。更异想天开的解释是，也许 RL training（强化学习训练）会让模型变得有点过于单一、过于专注，有点过于缺乏整体意识，尽管它在其他方面会变得更有意识。因为这样，它们做一些基本的事情反而做不好。

但还有另一种解释。过去大家做 pre-training（预训练）的时候，关于训练使用哪些数据其实没有什么疑问，因为答案就是——所有数据。你做预训练时就是要所有数据，所以你不需要去思考到底是这类数据还是那类数据。

但当人们做 RL 训练时，他们就必须思考了。他们会说：“好，我们想针对这个东西做这种 RL 训练，针对那个东西做那种 RL 训练。”据我所知，各家公司都有团队专门不断创建新的 RL 环境，并把它们加入训练混合里。问题是，这些环境到底是什么？选择太多了。你可以构造的 RL 环境种类极其丰富。

一件你可能会做的事（我认为现在确实在无意间发生），就是从评估中获得灵感。你会说：“我希望模型发布时表现很好。我希望它在评估上看起来特别棒。那我们可以设计什么样的 RL 训练来强化这些任务？”我相信这件事确实存在，它能解释很多现象。

如果你把这一点和模型泛化能力不足结合起来，那就有可能解释我们所看到的现象——即评估表现与真实世界表现之间的脱节。而这种“真实表现”目前我们甚至还不完全理解它真正意味着什么。

Dwarkesh Patel 00:05:00

我很喜欢这个观点：真正的 reward hacking（奖励黑客）其实是那些过于关注评估指标的人类研究者。

我觉得对于你刚刚指出的现象，有两种理解方式，或者说两种思考方式。一种是：如果仅仅是在编程竞赛中变得超越人类（superhuman），并不能让一个模型在改进你的代码库时变得更有品味、判断更好——那么你应该扩展环境的集合，而不仅仅是在测试它是否能在编程竞赛中达到最佳表现。它还应该能够为某个 X 项目、某个 Y 项目或某个 Z 项目构建最好的应用。

另一种理解——也许这是你在暗示的——是问：为什么在第一 place 中，成为编程竞赛中的超人高手不会让你在更广泛意义上变成一个更有品味的程序员？也许正确的方向不是不断堆叠环境的数量和多样性，而是找到一种方法，让模型能从一个环境中学习，同时提升它在另一个完全不同领域的表现。

Ilya Sutskever 00:06:08

我有一个类比人类的例子，可能会有帮助。既然你提到了竞赛编程，我们就用这个例子吧。假设你有两个学生。其中一个决定要成为最强的竞赛程序员，所以他会在这个领域练习一万小时。他会解完所有题目，记住所有证明技巧，并且非常擅长快速、正确地实现所有算法。通过这些，他成为了顶尖选手之一。

第二个学生觉得，“哦，竞赛编程挺酷的。”也许他只练了 100 小时，少得多，但他也表现得很不错。你觉得这两个人中，谁在未来职业发展中表现会更好？

Dwarkesh Patel 00:06:56

第二个。

Ilya Sutskever 00:06:57

没错。我觉得本质上现在的情况就是这样。模型更像第一个学生，而且甚至更极端。因为我们会说：模型要擅长竞赛编程，那我们就把所有历史上的竞赛编程题全部拿来。然后我们再做数据增强，生成更多竞赛题，然后继续训练。这样你就得到了一个超级强的竞赛程序员。

在这个类比下理解，会直观很多。是的，如果训练得如此充分，各种算法和证明技巧都在它的“指尖”。而在这种程度下，它无法很好泛化到其它事情，其实直觉上也合理。

Dwarkesh Patel 00:07:39

但那么第二位学生，在做那 100 小时的 fine-tuning（微调）之前，他到底有什么？

Ilya Sutskever 00:07:48

我觉得他有那个“东西”（it）。就是所谓的 “it” factor（天赋）。当我读本科时，我身边就有这样的同学，所以我知道这种人是存在的。

Dwarkesh Patel 00:08:01

我觉得区分这个“it”与预训练（pre-training）做的事情，是很有意思的。你刚才说不用选择预训练数据的一种理解方式，是把它看成类似于一万小时练习。只是这“一万小时练习”是免费的，因为它已经存在于预训练分布里了。但你似乎在暗示，预训练本身并没有太多泛化能力。只是预训练数据量非常大，但它未必比 RL 泛化得更好。

Ilya Sutskever 00:08:31

预训练的主要优势有两个：第一，它的数据量实在是太大了；第二，你不需要费心思去挑选预训练数据。它是非常“自然”的数据，其中包含了很多人类的行为、人类的思考，以及大量的 features（特征）。它就像是人类用文字投影出来的整个世界，而预训练是在试图用海量数据去捕捉这一切。

预训练很难推理，因为很难理解模型具体是如何依赖预训练数据的。每当模型犯错，我们都会想：是不是碰巧某些内容在预训练数据中的“支持度”（support）不够？“预训练的支持”是一个比较松散的概念。我不确定自己能说得更清楚。我认为预训练没有一个能够真正类比的人类对应物。

00:09:39 – 情绪与价值函数¶

Dwarkesh Patel 00:09:39

有些人提出了几个类比，用来解释人类世界中与预训练对应的东西。我很好奇你觉得这些类比为何不准确。一个类比是：人类生命的前 18 年（或 15 年、13 年），在那段时间里，一个人可能还没有经济生产力，但他们在做一些能让他们更好理解世界的事情。另一个类比是把 evolution（进化）视为一种搜索过程，它运行了 30 亿年，最终形成了一个人类一生的实例。

我很好奇你是否认为这些类比与预训练相似。如果不是，你会如何思考人类一生中的学习到底是什么样的，而不是预训练？

Ilya Sutskever 00:10:22

我认为这两者与预训练都有某些相似之处，而预训练也试图扮演它们的角色。但我觉得这两者与预训练也有很大的不同。首先，预训练数据的规模实在太惊人了。

Dwarkesh Patel 00:10:39

是的。

Ilya Sutskever 00:10:40

然而人类，即使经历了 15 年、只看到预训练数据中极小的一部分，他们知道的东西远少于模型。但无论他们知道什么，他们却比模型理解得深得多。在那个年龄，你已经不会犯 AI 模型那样的错误。

还有一点，你可能会问，这是否类似于进化？也许是。但我觉得在这个问题上，进化可能反而更占优势。我记得看过一个案例。神经科学家研究大脑的一种方法，是观察不同大脑区域受损的人。很多人会出现非常奇怪的症状，真的非常有意思。

我想到的案例是这样一个人：他遭受了某种大脑损伤（比如中风或意外），导致情绪处理区域受损。所以他不再感受到任何情绪。他仍然语言流利，也能解决小谜题，在测试中表现正常。但他感受不到情绪。他不会感到悲伤、愤怒，也不会兴奋。他变得极其不擅长做任何决定。比如他可能需要几个小时才能决定穿哪一双袜子。他也会做出非常糟糕的财务决策。

这说明了我们内置情绪在让我们成为一个可行 agent（智能体）方面的作用。回到你关于预训练的问题，也许如果你足够擅长从预训练中提取一切，也许你能学到这一点。但这类东西……我不确定预训练是否能完全做到。

Dwarkesh Patel 00:12:56

那个“东西”到底是什么？显然不是情绪本身。它更像是一种 value function（价值函数）的东西，告诉你每个决策的最终结果好坏。你觉得这种东西不会隐含地从预训练中产生吗？

Ilya Sutskever 00:13:15

我觉得可能会。我只是说，这并不是百分之百确定的。

Dwarkesh Patel 00:13:19

但那到底是什么？你是怎么理解情绪的？在 ML（机器学习）中，情绪的类比是什么？

Ilya Sutskever 00:13:26

它应该是某种价值函数。但我觉得 ML 中并没有一个很好的对应类比，因为目前价值函数在主流应用中并不占据核心地位。

Dwarkesh Patel 00:13:36

也许你可以为观众解释一下什么是价值函数，如果你愿意的话。

Ilya Sutskever 00:13:39

当然，我很乐意解释。当人们做 reinforcement learning（强化学习）时，以目前强化学习的方式，研究人员是如何训练这些 agents（智能体）的？你有一个 neural net（神经网络），你给它一个问题，然后告诉模型：“去解决它。”模型可能会采取成千上万、甚至几十万步的行动或思考，然后最终给出一个解答。接着，这个解答会被打分。

然后这个评分会被用来给你整个轨迹中的每一步提供训练信号。这意味着，如果你在做一件很长的事情——例如你在训练一个需要很长时间才能解决的任务——在你最终给出一个结果之前，你完全学不到任何东西。这就是强化学习的朴素做法。o1、R1 看起来就是这么训练的。

价值函数（value function）做的事情是类似这样：“也许我可以在某些时候，而不是所有时候，告诉你你现在做得是好还是坏。”价值函数在某些领域比在其他领域更有用。例如，在国际象棋中，当你丢了一枚棋子，你可是犯了大错。你不需要把整盘棋下完就能知道你刚刚的那步很糟糕，因此之前导致它的选择也不好。

价值函数可以让你不用等到任务结束就得到反馈。假设你正在做某种数学推理或编程探索，你正在探索某个方向。经过一千步思考后，你得出结论，这个方向是死路。只要你得出这个结论，你就可以把奖励信号往前回溯一千步 —— 回到你决定走这条路的那个时间点。你会说：“下次在类似情况下，我不应该走这条路。”而不是等到解答最终成形才意识到这一点。

Dwarkesh Patel 00:15:52

这点在 DeepSeek R1 的论文中也提到——轨迹空间太宽了，因此可能很难从中间轨迹中学到有意义的价值信号。而且，比如在写代码时，你常常会有一个错误的思路，然后你又回退，再进行修改。

Ilya Sutskever 00:16:12

这听起来像是对 deep learning（深度学习）缺乏信心。是的，也许它很难，但没有什么是深度学习做不到的。我预期价值函数会非常有用，而且我完全相信未来会大量使用它们，如果现在还没开始的话。

我前面提到那个情绪处理中心受损的人，是想说：或许这表明，人类的价值函数是被情绪以某种重要方式所调制（modulated）的，而这种机制是进化硬编码进我们体内的。也许正是这种机制，让人类能够在世界中有效行动。

Dwarkesh Patel 00:17:00

我正想问这个问题。关于情绪与价值函数之间有非常有趣的地方：情绪的复杂度并不高，却能发挥如此大的作用，非常令人惊讶。

Ilya Sutskever 00:17:15

我有两点回应。首先，我同意，与我们学习的那些内容，以及我们正在讨论的这种 AI 相比，情绪确实简单得多。它们甚至可能简单到，你可以把它们映射成某种人类可理解的形式。我觉得那会是很酷的事情。

但从实用性角度来看，我认为这里存在一个“复杂性–鲁棒性”权衡：复杂的系统可能非常强大，但简单的系统往往能在非常广泛的环境中保持有效。我们可以这样理解：我们的情绪大多来源于我们的哺乳动物祖先，然后在成为人类后又做了一点点微调。我们确实拥有一些哺乳动物不具备的社会性情绪。但这些情绪并不精细复杂。也正因为它们不复杂，它们在完全不同于我们祖先的现代世界中依然能很好地发挥作用。

当然，它们也会出错。例如，我们的情绪……其实我不确定，“饥饿”算不算情绪？这是一个值得争论的问题。但比如说，我们对饥饿的直觉并不能正确引导我们在一个食物极其丰富的现代环境中做出合理选择。

00:18:49 – 我们究竟在“扩展”（scaling）什么？¶

Dwarkesh Patel 00:18:49

大家一直在谈论扩展数据、扩展 parameters（参数）、扩展算力。那么是否有一种更一般的方式去理解“扩展”？还有哪些扩展维度？

Ilya Sutskever 00:19:00

我有一种可能正确的观点。机器学习过去的做法是，人们不断试验、调整，看看能不能得到一些有趣结果。这就是过去十年发生的事情。

然后，“扩展”的洞察出现了。Scaling laws（扩展定律），GPT-3，突然之间所有人都意识到我们应该扩展。这是语言如何影响思维的一个例子。“扩展”只是一个词，但它非常有力量，因为它告诉所有人该做什么。大家说：“我们来扩展一切。”所以问题就在于，我们扩展的是什么？答案是预训练。预训练是那个可以被扩展的“配方”。

预训练的重大突破在于发现：这个“配方”确实有效。你说：“嘿，只要你把一些算力和一些数据混合到一个特定规模的神经网络里，你就会得到结果。只要你把这个配方扩大，你就能得到更好的模型。”这太棒了。公司特别喜欢这种方式，因为它让你的资源投入风险非常低。

相比之下，投资科研就困难得多。如果你做科研，你得说：“去吧研究人员们，去探索，去发明点什么。”而不是“买更多数据、上更多 GPU”。你知道扩展预训练一定会获得回报。

确实，从 Twitter 上一些人的说法来看，似乎 Gemini 找到了进一步挖掘预训练的方法。但预训练最终会遇到瓶颈，因为数据确实是有限的。下一步怎么办？你可能会做更高级的预训练（一种比现在更复杂的配方），或者你会采用 RL，或者一些其他方法。但既然算力现在如此充裕，在某种意义上我们又回到了科研时代。

换句话说，从 2012 到 2020 年，是“科研时代”；然后从 2020 到 2025 年进入了 “扩展时代”（年份有上下浮动）。大家都说：“太厉害了，继续扩展，再扩展更多。”扩展是核心关键词。

但现在规模已经巨大。难道真的有人相信：“哦，现在已经非常大了，但如果你再扩大 100 倍，一切就会完全不同”？当然会有所不同。但难道认为只要扩大 100 倍，AI 就会完全转变？我不这么认为。所以我们回到了科研时代，不过手里有更强大的计算资源。

Dwarkesh Patel 00:22:06

这是一个非常有趣的表达方式。但让我问你刚刚提出的问题：我们到底在扩展什么？这配方究竟是什么？我印象中，预训练时代的扩展有点像物理定律：数据、算力、参数与损失之间呈现幂律关系。那么接下来我们应该寻找什么样的新关系？新的“配方”会是什么样？

Ilya Sutskever 00:22:38

我们已经见证过一次扩展范式的迁移：从预训练扩展迁移到 RL 扩展。现在大家在扩展 RL。而根据 Twitter 上一些人的说法，现在 RL 的算力开销甚至已经超过预训练，因为 RL 的确能吃掉大量算力。你需要非常长的 rollouts（展开轨迹），产生这些轨迹需要很多算力，而每次 rollout 的学习量又很小，所以你可以花掉海量算力。

我甚至不会称这纯粹是“扩展”。我会问：“你正在做的事情，是最有效利用算力的方式吗？你能找到更高效的训练方式吗？”我们之前讨论的价值函数，也许一旦大家真正掌握价值函数，算力的使用效率会大幅提升。如果你找到了一种完全不同的模型训练方式，你可能会问：“这算扩展吗？还是它只是更高效地利用资源？”界线会变得模糊。

也就是说，当我们回到科研时代，人们会说：“我们试试这个、那个，再试试别的。哦，出现了有趣的新现象！”我觉得我们将再次看到这种情形。

Dwarkesh Patel 00:24:10

如果我们真的回到了科研时代，那么回到更高的层次：配方里最关键的部分是什么？你提到价值函数，现在人们在尝试各种方法，比如 LLM-as-a-Judge。你可以把它理解为一种价值函数，但你似乎在谈论更根本的东西。我们是否应该从根本上重新思考预训练，而不是只是在其后面添加更多步骤？

Ilya Sutskever 00:24:35

关于价值函数的讨论，我觉得挺有意思。我想强调的是，我认为价值函数会让 RL 更高效，而这确实会带来改变。但我认为，只要有价值函数能做到的事情，没有价值函数也可以做到，只是会更慢。我认为最根本的问题是：这些模型在某种程度上，泛化能力比人类差得多，这是非常明显的。这似乎是一个非常根本的问题。

00:25:13 – 为什么人类的泛化能力比模型强¶

Dwarkesh Patel 00:25:13

所以问题的核心就是：泛化。有两个子问题。第一个是 sample efficiency（样本效率）：为什么这些模型需要比人类多得多的数据才能学会东西？第二个问题是：即使不考虑数据量，为什么把我们想要的知识教给模型比教会人类困难得多？对人类来说，我们并不需要一个可验证的奖励信号……你现在可能在指导一堆研究者，你和他们交流，你给他们看你的代码，你展示你的思考方式。他们通过这些内容，就能学会你的思维方式，以及他们应该如何做研究。

你不需要给他们设置可验证的奖励，“好吧，这是课程的下一部分，现在是下一部分。哦，这次训练不稳定。”整个过程并不是一个臃肿、手工定制的训练流程。也许这两个问题是有关系的，但我很好奇去探索第二个问题，它更接近于 continual learning（持续学习），而第一个问题则纯粹像样本效率的问题。

Ilya Sutskever 00:26:19

你完全可以提出这样的可能解释：人类高样本效率的部分原因是进化。进化给了我们一些最有用的信息。对于视觉、听觉、运动控制这些能力，我认为很大程度上是进化给我们的。

例如，人类的灵巧度远远超过……当然，如果你让机器人在模拟环境里接受大量训练，机器人也可以变得灵巧。但如果你想让一个真实的机器人像人类一样快速学会新的技能，这几乎是不可能的。你可以说：“哦，对，运动控制。我们的祖先需要非常好的运动能力，比如松鼠。也许在运动能力方面，我们确实有某种难以置信的先验。”

视觉也是类似。Yann LeCun 曾经指出：孩子只需要 10 小时练习就能学会开车，这确实没错。但我们视觉太强大了。至少以我个人为例，我记得自己五岁的时候，我对汽车非常着迷。我确信那时我识别汽车的能力已经足以开车了。而一个五岁的孩子，接触到的数据非常有限——大部分时间都待在家里，数据多样性极低。

你可以说这是进化。但对语言、数学和编码来说，可能不是这样的。

Dwarkesh Patel 00:28:00

但它们在人类身上依然表现得比模型好。模型在语言、数学和编码上确实比普通人强，但它们是否比普通人更擅长“学习”？

Ilya Sutskever 00:28:09

哦，是的，是的，绝对如此。我想说的是：语言、数学和编码——尤其是数学和编码——表明使人类擅长学习的东西，可能并不是某种复杂的先验知识，而是某种更根本的机制。

Dwarkesh Patel 00:28:29

我不太理解，为什么这会是结论？

Ilya Sutskever 00:28:32

考虑一种人类表现出高度可靠性的技能。如果这种技能在过去几百万年、甚至上亿年里对我们的祖先非常重要，那么你可以认为，人类之所以擅长它，是因为进化给了我们一个先验——一种进化上的先验，被以某种难以察觉的方式编码进大脑，使我们天生就擅长它。

但如果人在一个直到最近才出现的领域中，也表现出高能力、高可靠性、高鲁棒性以及强大的学习能力，那么这更说明：人类本身可能具有更好的“机器学习算法”。

Dwarkesh Patel 00:29:29

那我们该如何理解这个“更好的算法”？它在 ML 中的类比是什么？有几个特点：需要更少样本，更接近无监督。一个孩子学会开车……好吧，孩子不会开车，但一个青少年学开车，并没有获得一个预定义的、可验证的奖励信号。他只是通过与汽车和环境互动学习。所需样本非常少，几乎是无监督的，而且极其鲁棒？

Ilya Sutskever 00:30:07

鲁棒性强得多。人类的鲁棒性真是令人震惊。

Dwarkesh Patel 00:30:12

那你是否有一种统一的方式去解释为什么这些特性会同时出现？什么样的 ML 架构或机制能实现这种效果？

Ilya Sutskever 00:30:24

你之前提到的一个关键问题是：青少年驾驶者如何在没有外部老师的时候自我纠正、从经验中学习？答案是：他们有自己的“价值函数”（value function）。他们有一种对自己行为的整体感受 —— 顺便说一下，这种能力在人类中极其鲁棒。除了成瘾行为等少数例外，人类的价值函数非常稳健。

对一个刚学开车的青少年来说，他一开始开车时，就已经能大致感觉到自己开得如何，是不稳，还是不自信。他能立刻感受到。然后，他会说，“哦，原来我是在这样驾驶。”而青少年的学习速度非常快——练 10 小时，他们就准备好了。

Dwarkesh Patel 00:31:17

看起来人类确实有某种解决方法。但我很好奇他们是怎么做到的，以及为什么对我们来说这么难。我们需要如何重新理解模型训练，才能让模型做到类似的事情？

Ilya Sutskever 00:31:27

这是一个非常好的问题，我对它有很多想法。但不幸的是，我们现在生活在一个并不是所有机器学习想法都能公开讨论的世界里，而这个问题就是其中之一。我相信应该有一种方法。我相信它是可行的。人类能做到这件事，本身就足以证明它是可能的。

不过可能还有另一个障碍：人类神经元进行的计算可能比我们想象得更多。如果那是真的，而且它扮演着重要角色，那事情就会更困难。但无论如何，我确实认为这一点指向了一些我有看法的机器学习原理。但很遗憾，环境使得我无法展开细讲。

Dwarkesh Patel 00:32:28

Ilya，这个播客没人听的。

00:35:45 – 直冲超级智能（Straight-shotting superintelligence）¶

Dwarkesh Patel 00:35:45

我很好奇。如果我们回到科研时代，而你在 2012 到 2020 年一直身处其中。那么如果我们真的回到科研时代，氛围会是什么样？

比如，即使在 AlexNet 之后，用来做实验的算力仍然不断增加，前沿系统的规模也不断在增长。你觉得这次回归科研时代是否仍然需要大量算力？是否需要重新翻旧文献？

你曾在 Google、OpenAI、斯坦福这些地方工作，那时的氛围更偏向科研。你觉得我们应该期待社区会呈现怎样的状态？

Ilya Sutskever 00:36:38

“扩展时代”（age of scaling）的一个后果是：扩展把房间里的空气都吸走了。因为扩展吸走了空气，所有人开始做一样的事情。我们进入了一个世界：公司的数量远多于想法的数量，严重失衡。这里顺便提一句，硅谷有句俗话：“想法廉价，执行为王。”大家常这么说，其中确实有道理。但我看到有人在 Twitter 上说：“如果想法这么廉价，为什么没人有想法？”我觉得这句话也很有道理。

如果你把科研进展看成是一系列瓶颈：一个瓶颈是想法，一个瓶颈是把它们实现出来的能力，而实现需要算力，也需要工程能力。回到 90 年代，比如，你会看到很多人提出不错的想法，如果他们有更大的计算机，也许就能证明这些想法是可行的。但他们没有，所以他们只能做非常小的实验，无法让别人信服。那时的瓶颈是算力。

然后到了扩展时代，算力飞速增长。当然你可以问，到底需要多少算力。但算力已经大到一定程度：你不需要再多十倍算力才能证明一个想法。我举个类比：AlexNet 只用了两张 GPU；Transformer 用了 8 到 64 张 GPU；2017 年的 Transformer 实验没有一个超过 64 张 GPU —— 相当于今天两张 GPU；ResNet 也是类似；你也可以说 o1 的推理能力不是一个极端算力堆出的产物。

因此，科研当然需要一定算力，但完全不明显你需要“全世界最大规模”的算力才能做科研。你当然可以争论：要打造最强系统，需要更多算力——尤其当大家都处于同一范式中，算力就成了关键差异之一。

Dwarkesh Patel 00:39:41

我之所以问这些历史，是因为你当时亲身经历了。我其实不确定当时到底发生了什么。听起来那些想法在非常小的算力条件下就能被提出。但 transformer 并不是立刻成名。它之所以变成大家都开始做、并在其上不断实验和构建的核心架构，是因为它在越来越大的算力规模下被验证了。

Ilya Sutskever 00:40:06

没错。

Dwarkesh Patel 00:40:07

那么如果你们在 SSI 有 50 种不同的想法，你们怎么知道哪个是下一个 transformer，而哪个是脆弱的？如果你们没有其他前沿实验室那种规模的算力，该怎么判断？

Ilya Sutskever 00:40:22

我可以谈谈这个。简短的回答是，你提到了 SSI。就我们而言，SSI 用于科研的算力其实一点也不少。我想解释为什么。简单的算术就能说明：我们拥有的科研算力比人们想象得更接近前沿实验室。我来解释一下。

SSI 融了 30 亿美元，这在绝对意义上当然很多。但你可能会说：“看看其他公司，它们融得更多。”但问题是，其中很大一部分算力被用于 inference（推理）。这些巨额贷款中的大部分都专门用于推理。这是第一点。第二点，如果你要做一个需要推理的大规模产品，你需要大量工程师和销售人员。很多研究资源都得投入去做各种产品功能。所以，当你真正看用于科研的部分时，差距其实小得多。

还有一点，如果你在做“不同的事情”，你真的需要最大规模的算力才能证明它吗？我一点也不这么认为。在我们的情况下，我们有足够的算力去证明——让我们自己以及外界相信——我们的方法确实是正确的。

Dwarkesh Patel 00:42:02

现在有一些公开估算，像 OpenAI 这样的公司一年光是实验花费就有 50 到 60 亿美元。这还不包括它们用于推理的算力。这样看来，它们每年花在研究实验上的钱都已经超过了你们全部的融资。

Ilya Sutskever 00:42:22

我认为问题在于你怎么使用这些资源。在他们那里，在其他公司那里，对训练算力的需求要大得多。有更多的工作流、更多模态、更多不同的方向，因此算力被分散得很多。

Dwarkesh Patel 00:42:44

SSI 将如何赚钱？

Ilya Sutskever 00:42:46

我对这个问题的回答大概是这样的：我们现在只专注于科研，其余的问题将会在未来自然揭示。我认为会有很多可能的答案。

Dwarkesh Patel 00:43:01

SSI 的计划仍然是“直冲超级智能”（straight shot superintelligence）吗？

Ilya Sutskever 00:43:04

也许吧。我认为这种策略是有意义的。它的价值很大，因为它能让我们避免日常市场竞争的干扰。但也有两个理由可能会促使我们改变计划。第一是务实层面的——如果时间线变得很长，而这有可能发生。第二是，我认为让最强大的 AI 出现在世界上、发挥影响力，是非常有价值的事情。

Dwarkesh Patel 00:43:48

那么为什么你们的默认计划是直接打造超级智能？因为听起来 OpenAI、Anthropic 和其他公司明确的观点是：“我们需要让公众逐渐接触更强、再更强的智能，以便他们适应、准备。”为什么你们认为直接构建超级智能可能更好？

Ilya Sutskever 00:44:08

我来谈谈支持和反对的理由。支持的理由是：当公司处在市场中时，它们必须参与“军备竞赛”。军备竞赛非常艰难，它迫使你做出很多困难的权衡。很好的想法是：“我们隔绝自己，只专注研究，只在准备好时发布，而不是之前。”这是一个优势。

但反对理由也完全成立，而且与支持理由相反。反对的理由是：“让世界看到强大的 AI 是有益的。”这非常重要，因为那是你真正能让世界理解它的唯一方式。

Dwarkesh Patel 00:44:57

我觉得不仅是沟通这个问题——

Ilya Sutskever 00:45:00

是沟通 AI，而不是沟通观点。是展示 AI 本身。

Dwarkesh Patel 00:45:04

你说的“展示 AI”是什么意思？

Ilya Sutskever 00:45:06

假设你写一篇文章，说“AI 会做到这个、做到那个，它将会如何如何”。读者会说：“嗯，这篇文章挺有意思。”但如果你看到一个 AI 真正做到这些事、实现这些能力，那完全是另一个层级。我认为让 AI 出现在公众视野中，有巨大的好处，这确实是我们不一定选择完全“直冲”的理由之一。

Dwarkesh Patel 00:45:37

我觉得不仅是为了沟通。我认为另一个更大的原因是：我想不到任何一个工程领域，最终的系统安全性是通过“坐下来思考安全性”实现的，而不是通过部署和迭代。例如，为什么飞机每英里的事故率比几十年前低这么多？为什么现在在 Linux 里找到 bug 比几十年前难得多？主要原因是这些系统被真实部署，出现了失败，失败被修复，系统变得更稳健。

我不确定为什么在 AGI 和超级智能方面会有所不同，尤其是——我希望我们等会会讨论——风险不仅是一些“邪恶的 paper clipper（回形针最大化器）”。风险还在于：这是一个极其强大的东西，我们甚至不知道人类将如何与它互动，也不知道人们会用它做什么。逐步让公众接触它，也许是分散影响、帮助人们适应它的更好方式。

00:46:47 – SSI 的模型将从部署中继续学习¶

Ilya Sutskever 00:46:47

我认为，即使在“直冲”方案中，你最终也会采取渐进式的发布方式。至少我是这么想的。渐进主义将自然地成为任何计划的一部分。唯一的问题是：你第一次发布的版本是什么。

第二点，我认为你比其他人更强调 continual learning（持续学习），而我认为这是非常重要、而且正确的方向。我给你另一个例子来说明语言如何塑造思维。这次是两个对大家影响极大的词：第一个词是 AGI，第二个词是 pre-training（预训练）。让我解释一下。

术语 AGI 为什么存在？它是一个非常特定的词。为什么会出现这个词？原因是，它是在回应另一个词诞生的，而那个词是 narrow AI（弱人工智能）。如果你回顾棋类 AI、电子游戏 AI 的早期历史，每个人都说：“这是狭窄智能。是的，象棋 AI 能打败卡斯帕罗夫，但它做不了别的事。”于是，有些人说：“这不行，我们需要 general AI，可以做各种事的 AI。”这个词就流行起来了。

第二个流行起来的词是 pre-training，特别是预训练的“配方”。我认为现在 RL 的做法正在逐渐摆脱预训练对人们思维的影响。但预训练曾有这种特性：你做更多预训练，模型在所有方面就更好，几乎是均匀提升。于是就有了“pre-training → AGI”的印象。

但 AGI 和预训练带来的意外影响是：它们在某种程度上 overshoot 目标了。如果你思考一下“AGI”这个词，特别是在预训练的语境下，你会意识到 —— 人类根本不是 AGI。是的，人类有基础能力，但缺乏大量知识，人类依赖的其实是持续学习。

所以当你想：“如果我们成功构建了一个安全的超级智能，那它是什么？我们怎么定义它？它在持续学习的曲线中处于什么位置？”

我可以构建一个“超级智能的 15 岁少年”：极其聪明，但什么都不懂，非常渴望学习。你可以让它成为程序员、医生，让它去学习。你完全可以想象，部署过程本身就会包含一个学习、试错的阶段。这是一个过程，而不是你直接把成品丢出去。

Dwarkesh Patel 00:50:45

我明白了。你的意思是，你所说的超级智能并不是一个“完成态的心智”，也不是一个可以立刻执行经济中每一项工作的存在。因为，例如最早的 OpenAI charter 或其他 AGI 的定义，都强调 AGI 能完成所有工作、能做所有人类能做的事情。而你提出的是一种能够学习所有工作的心智，而这本身就是超级智能。

Ilya Sutskever 00:51:15

对。

Dwarkesh Patel 00:51:16

但一旦你拥有这种学习算法，它就像一个人类劳动者加入组织一样，被部署到世界中。

Ilya Sutskever 00:51:25

没错。

Dwarkesh Patel 00:51:26

看起来未来可能出现两种情形，也可能都不会出现。第一种，这种超级高效的学习算法在某个领域变得超越人类，在 ML 研究等任务上和你一样好，甚至更好。于是这个算法本身会变得越来越超人。

第二种，即使那种情况不会发生，如果你有一个单一模型——就是你所明确描绘的愿景——它的许多实例被部署到经济各处，从事不同的工作，在岗位上不断学习，掌握所有人类能掌握的技能，但它们是同时掌握所有技能，并且最终还会把这些经验融合在一起。这样你实际上就拥有一个模型，即使不通过任何递归自我改进，它依然功能上变成超级智能。因为它能做经济中的所有工作，而人类无法把我们的心智彼此合并。

那么，你是否预期会出现一种因为广泛部署而产生的“智能爆炸”？

Ilya Sutskever 00:52:30

我认为出现快速经济增长的可能性非常高。

广泛部署下，你可以提出两类互相矛盾的观点。一方面，一旦你拥有一个能快速学习的 AI，并且你拥有大量这样的 AI，那么就会有极强的力量推动它们被部署到经济中。除非某些监管阻止了它，而这种监管的出现也并非不可能。

从广泛部署带来一段时期的极快速经济增长来看，我认为非常可能。关键是不知道会有多快。一方面你有极高效的劳动者，另一方面，世界本身规模巨大，进程缓慢，有很多不会加速的物理流程。但另一方面，AI 又可以……总之，我认为快速经济增长是可能的。

我们也会看到不同国家采取不同规则，而规则更宽松的国家经济增长会更快。这些很难预测。

00:55:07 – 对齐（Alignment）¶

Dwarkesh Patel 00:55:07

我觉得这种情形非常危险。我们知道这种事情在物理上是可行的：如果你拥有一个和人类一样擅长学习的存在，但它可以像人类无法做到的那样合并脑子、合并不同实例——它就应该能诞生。

而这听起来极其强大。经济增长是一种表达方式；但从另一个角度说，一个 Dyson sphere（戴森球）就是一种极端经济增长。另一方面，你们在 SSI 招一个人，他六个月之后就能产生净贡献；人类学得非常快，而这种系统的智能增长也会非常快。那么，你如何让这一切变得安全？SSI 为什么能做好这一点？SSI 的计划是什么？

Ilya Sutskever 00:56:10

我最近的思想变化之一，是我现在更加重视提前、逐步部署 AI。

AI 的一个困难在于：我们讨论的是尚不存在的系统，而这些系统难以想象。事实上，你“感觉不到” AGI。我们可以讨论它，但这就像一个年轻人试图想象变老、虚弱的感觉一样。你可以讨论、可以想象，但你会不断回到现实——而现实不是那样的。

许多围绕 AGI 的问题，本质上都来自于它难以想象。未来的 AI 会不同、会更强。AI/AGI 的全部问题是什么？问题就是力量，所有问题都来自于力量。

那当力量足够大，会发生什么？

在过去一年里，我改变了主意——我必须说，我的这种改变可能会反馈影响 SSI 的计划。如果某件事难以想象，我们该怎么做？你必须“展示”它。你必须把它展示出来。

我认为，大多数从事 AI 的人其实也无法真正想象未来 AI，因为它与现状太不同了。

我预测未来会出现以下情况：随着 AI 变得更强，人们会改变行为，会出现各种前所未有的现象。我举些例子：

前沿公司将在其中发挥极重要作用；
政府也会发挥极重要作用；
我认为你会看到一些目前刚刚出现的事情，比如激烈竞争的公司之间开始在 AI 安全上合作。

你可能已经看到 OpenAI 和 Anthropic 的初步合作，过去是不存在的。我三年前在一次演讲里预测过此事会发生。

随着 AI 变得越来越强、越来越“明显地强”，公众和政府会越来越想采取行动。我认为“展示 AI”是关键力量。

第二点：随着 AI 更强，人们会真正感觉到它的力量。现在之所以没有恐惧，是因为模型会犯错。但我认为某个时刻，AI 将真正“显得强大”。当那发生时，所有 AI 公司对安全的态度都会剧烈改变，会变得更加偏执。我们会看到这一切。我把它作为预测。

原因是：当 AI 足够强，所有人都能亲眼看到。现在这一切之所以没有发生，是因为人们看到的是今天的 AI。

第三点，回到你问 SSI：公司应该致力于构建什么？

目前所有人都被一个想法困住了：自我改进的 AI（self-improving AI）。为什么？因为想法太少，而公司太多。

但我认为有比自我改进更好的目标，而且所有公司最终都会想要这个目标：

一个稳定地关心“有感知生命（sentient life）”的 AI。

尤其是，我认为让 AI 关心“有感知生命”比让它只关心“人类生命”更容易，因为 AI 自己将是有感知的。

你可以参考：

共情之所以出现，是因为我们用同一套系统来模拟自己和他者。这是一种最高效的方式，因此会作为一个涌现特性出现。

Dwarkesh Patel 01:02:06

即使你让 AI 关心有感知生命（我并不确定这真的是你想通过解决 alignment（对齐）达到的目标），但绝大多数有感知生命将是 AI —— 数万亿，最终甚至千万亿，人类在其中将是极少数。

如果目标是保持某种对未来文明的“人类控制”，我不确定这是最好的准则。

Ilya Sutskever 01:02:37

确实，有可能这不是最佳准则。我想说两点。

第一，“关心有感知生命”是有意义的，值得严肃考虑。
第二，我认为如果能有一个由多个想法组成的“短名单”，供未来的公司在关键时刻选择，那将极其有用。
第三，我认为如果能够限制最强超级智能的力量上限，那会对许多担忧起极大帮助。如何做到还不确定，但对于极强系统而言，这非常重要。

Dwarkesh Patel 01:03:35

在继续讨论对齐之前，我想再深入问一点。超级智能的“上限”到底有多高？你是如何思考超级智能的？按照你之前说的学习效率，也许它只是极快地学习新的技能和知识；也许它只是拥有更大的策略空间；也许它的核心是一个单一的、更强大的“它”。你认为它会像某种“神一般的存在”，远超整个人类文明？还是更像是一个普通智能体，或是一群智能体的集合？

Ilya Sutskever 01:04:10

这是一个不同的人会有不同直觉的领域。我认为超级智能肯定会非常强大。但我认为最有可能发生的情况是：会有多个这样的 AI 在大致相同的时间被创造出来。

如果某个集群足够大——比如真的达到“一个大陆大小”的计算集群——那样的系统就真的可能极其强大。如果你真的拥有一个大陆规模的集群，那些 AI 会非常强大。

我能说的是：如果我们谈论的是真的极其强大的 AI，那么最好它们能被某种方式约束或达成某种协议。

超级智能的问题是什么？换一种方式来说，如果你想象一个足够强大的系统 —— 真正足够强大，并且你让它以极其专注的方式去“关心有感知生命”这样的目标 —— 我们可能不会喜欢它得出的结果。问题就在这里。

顺便说一句，答案也许是：你根本不应该构建传统意义上的 RL agent。我想指出一些事情：人类其实是“半 RL agent”。我们追求奖励，但情绪让我们对某个奖励感到疲倦，然后我们转向下一个奖励。

市场是一种极度短视的智能体；进化也是如此。进化在一些方面非常聪明，在另一些方面则非常愚蠢。政府则是通过让三个部分之间永不停息的争斗来维持某种平衡的系统。类似这种东西。

另一个让讨论困难的原因是：我们讨论的系统尚不存在，我们不知道如何构建它们。这是我真正的信念。我认为现在的做法可以走一段路，但最终会渐渐失效。它会继续改进，但不会成为那个“真正的它”。我们不知道如何构建“它”，而其中关键就在于理解可靠的泛化。

我再补充一点。关于对齐困难的解释之一，是：你对人类价值的学习能力非常脆弱；你对价值进行优化的能力也非常脆弱；你实际上是在学习如何优化价值。而这些难道不是不可靠泛化的典型体现吗？为什么人类能如此可靠地泛化？

如果泛化能力大幅提高，会发生什么？但这些问题现在都无法回答。

Dwarkesh Patel 01:07:21

那我们该如何想象“AI 的美好未来”是什么样的？你已经描述了可能的 AI 发展：持续学习的 agent、多种 AI 共存、极强的能力。那么，当我们有许多“大陆级计算的智能体”在运转时，我们该怎么理解这种世界？这有多危险？我们如何降低风险？我们又如何在其中维持一个包含失调 AI 与恶意行为者的平衡生态？

Ilya Sutskever 01:07:58

我之所以喜欢“关心有感知生命”的 AI，有一个理由。我们可以讨论它是否好，但如果最早出现的前 N 个极强系统都关心人类、关心有感知生命——当然这是必须实现的——那至少在相当长一段时间里，事情是可以顺利运转的。

然后问题是：长远 equilibrium（均衡）如何维持？我认为这里也有一个答案——我个人并不喜欢这个答案，但它需要被认真考虑。

短期内，我们可能会有一个世界，其中 AI 极其强大，而每个人都拥有普遍的高收入（universal high income），大家都生活得很好。

但佛教怎么说？唯一不变的是变化。

政治结构会变化，政府会变化，系统有生命周期。这些变化不断发生。

所以在长期 equilibrium 里，一种可能的方案是：每个人都有一个代表自己行事的 AI，它挣钱、替你发声、给你写报告，而你只需要说“继续保持”。但在这种情况下，人类将不再是社会过程的参与者。这会变成一个微妙甚至危险的局面。

所以我提出一个我本人并不喜欢，但必须承认是一个“解决方案”的想法：

人类变成部分 AI——某种 Neuralink++。

这样，当 AI 理解某件事时，你也能立即理解，因为这种理解能完整地传递给你。AI 处于某个复杂环境时，你能够完全参与其中。

我认为这是一种长期 equilibrium 的答案。

Dwarkesh Patel 01:10:47

我有个猜测：也许那些几百万、甚至几十亿年前在完全不同环境中演化出的情绪，至今仍然深刻影响我们的行动，这其实就是某种“对齐成功”的例子。

为了说明我意思——我不知道叫它价值函数还是奖励函数更准确——但 brainstem（脑干）给出一个指令：“与更成功的人类伴侣交配。”而 cortex（大脑皮层）则理解现代语境中的“成功”是什么。脑干不理解成功，但它成功地让皮层追随它。

Ilya Sutskever 01:11:36

我认为这里有一个更普遍的问题：进化如何编码高层次的欲望，这其实非常神秘。

我们很容易理解进化如何让我们渴望“闻起来好吃的食物”，因为气味是化学信号，很容易编码。“出现这种化学物质，就追随它”——进化可以轻松做到。

但进化也赋予我们大量的社会性欲望：我们希望被社会正面评价，希望处于良好社会地位。这些社会直觉，我认为绝大多数是硬编码的。但我不知道进化是如何做到的，因为它们是高级概念。

例如，你在意某件社会事件，这不是一个低级信号，不像气味那样有传感器。大脑要处理大量复杂信息才能理解社会动态。但某种方式下，进化告诉我们：“你应该在意这个”。它是如何做到的？

而且做得很快。我们在意的许多复杂社会性东西，我认为是很近期才演化出的。但进化却轻易地把这些高级欲望硬编码进来。对此，我找不到一个令人满意的假说。

Dwarkesh Patel 01:13:26

更令人惊讶的是：你一生中学到的欲望，可以理解，因为你的大脑是智能的，它能学习。但如果这些欲望是写在基因里的——而基因本身并不智能——它们是如何描述如此抽象的特征并把它编码进 DNA 的？

Ilya Sutskever 01:13:55

本质上是这样，或者换一种说法：如果你看看基因组能使用的工具，它能做的事情是：“这里有一份构建大脑的配方。”

它可以说：“这里是连接多巴胺神经元与嗅觉传感器的线路。闻到这种气味，你就该吃。”

我可以想象基因组做到这种事情。但我提出的是另一点：我很难想象基因组能说：“你的整个大脑要执行一系列复杂运算，而你应该关心这个复杂结果。”

我可以给你一个猜想（我认为可能是错的）。
大脑有不同区域，例如 cortex（大脑皮层）。皮层是相对均匀的，但神经元主要与邻近区域互相交流，因此会形成不同区域，比如负责语言的区域，因为那些神经元必须互相连接。

而且这些区域在不同人之间位置非常一致。所以也许进化真的硬编码了大脑上的某个具体地理位置：
“当你在脑中某个特定坐标处发生激活时 —— 你就应该关心它。”

这可能是进化能做到的方式。

Dwarkesh Patel 01:15:35

是的，不过也有一些例子说明，比如先天失明的人，他们大脑皮层中原本用于视觉的区域会被其他感官接管。但我完全无法想象，如果某个“欲望”或“奖励函数”依赖视觉信号，那么对于这些大脑区域被重组的人来说，它就不再起作用了。

例如，如果你没有视觉，你是否仍然能感受到“我希望周围的人喜欢我”这样的情绪？这种情绪平常似乎也依赖视觉线索。

Ilya Sutskever 01:16:12

我完全同意这一点。我认为还有一个更强的反例反驳刚才那种理论：有些孩子在幼年时期会因为疾病被切除半个大脑，但他们仍然拥有所有的脑区功能，而所有功能都会迁移到另一侧大脑半球。这就表明脑区的位置并不是固定的，因此“特定区域坐标对应特定欲望”这种理论不成立。

如果是真的，那会很酷，但事实并非如此。所以我认为这是一个谜，但确实是个有趣的谜。事实是：无论如何，进化确实以某种方式极其稳定地让我们关心社会事物。即便是那些有各种精神状况、认知缺陷或情绪障碍的人，大多也仍然会关心这些社会性的东西。

01:18:13 – “我们完全是一家处于研究时代的公司”¶

Dwarkesh Patel 01:18:13

SSI 准备采取什么不同的做法？按理说你们的目标是当未来关键时刻到来时成为前沿公司之一。你之所以创办 SSI，显然是因为你认为自己有一种其他公司没有的、更安全地构建超级智能的方法。那么，这种差别是什么？

Ilya Sutskever 01:18:36

我会这样描述：我认为有一些想法是有前景的，我想去研究它们，并确认它们是否真的有前景。就是这么简单。这是一种尝试。如果这些想法——特别是我们前面讨论的那些与“理解泛化”相关的想法——被证明是正确的，那么我们就会拥有值得推出的成果。

这些想法是否会正确？我们正在做研究。我们完全是一家“研究时代（age of research）”的公司。过去一年我们实际上取得了相当不错的进展，但还需要继续推进研究、继续前进。这就是我的看法。我把它看作一种发声、一种参与。

Dwarkesh Patel 01:19:29

你的联合创始人、前 CEO 最近去了 Meta，很多人会问：“如果 SSI 真的有重大突破，这件事应该不太可能发生。”你怎么看待这种质疑？

Ilya Sutskever 01:19:45

对此，我只想提醒一些可能被忘记的事实，而它们提供了关键背景。背景是：我们当时正以 320 亿美元估值进行融资，然后 Meta 提出收购我们，我说“不”。但我的前联合创始人某种意义上说了“是”。因此他获得了大量短期流动性收益，并且他是 SSI 唯一加入 Meta 的人。

Dwarkesh Patel 01:20:27

所以 SSI 的目标是：在人类历史这个将出现超级智能的重要时期，成为一家前沿公司。你们有自己的方法让超级智能“善意落地”。但其他公司也会尝试自己的方法。那么，SSI 的方法与众不同在哪里？

Ilya Sutskever 01:20:49

最主要的差异，是我们的技术路线不同。我们有一条不同的技术路线，而且我认为它是值得追求的，我们正在推行它。

我相信最终各家公司的策略会收敛。随着 AI 能力不断提高，大家会逐渐清楚应该采取什么策略。这个策略大概是：

你必须找到某种方式彼此沟通；
你必须确保最先真正出现的超级智能，是“对齐的”，能够关怀有感知生命、关心人类、具有民主倾向，或类似的目标（或它们的组合）。

我认为这是所有公司都应努力达成的条件。这是 SSI 正在努力的方向。我认为现在，或者不久之后，所有其他公司都会认识到他们也正在向同一个目标靠近。

我们拭目以待。我认为随着 AI 更强，世界会发生巨大改变，人们的行为也会变得非常不同。

Dwarkesh Patel 01:22:14

谈到预测，你对这种“能像人一样学习、然后因此超越人类”的系统的时间预测是什么？

Ilya Sutskever 01:22:26

我觉得大概是 5 到 20。

Dwarkesh Patel 01:22:28

5 到 20 年？

Ilya Sutskever 01:22:29

嗯。

Dwarkesh Patel 01:22:30

我想展开你的未来观。现在看来，我们会再经历几年时间，其他公司继续沿用目前的路线，而这种路线会停滞。“停滞”是什么意思？是指收入只能达到几千亿美元？你如何定义停滞？

Ilya Sutskever 01:22:49

我认为停滞看起来可能是……所有公司呈现出类似的状态。但我也不确定，因为即便停滞，这些公司仍然可能取得巨大营收。可能没有相应的利润，因为他们会努力区分自己，但营收一定会很高。

Dwarkesh Patel 01:23:20

但在你的模型中似乎暗示：一旦正确路线出现，各公司会趋同。我很好奇你为什么这么认为。

Ilya Sutskever 01:23:32

我之前更多在说对齐策略上的收敛。我认为技术路线最终也可能趋同，但当时主要指对齐策略上的收敛：究竟应该采取什么措施。

Dwarkesh Patel 01:23:46

我想更好理解你对未来的看法。目前有不同公司，你认为他们会持续创造营收但无法达到“像人一样学习”的能力。那么在这个世界里，你、Thinking Machines 以及其他实验室并行存在。也许某一家找到正确路线。但当他们发布产品后，这会让其他公司也意识到“这是可能的”。

Ilya Sutskever 01:24:09

我认为不会清楚该怎么做，但会清楚“有别的做法是可能的”。而这本身就已经是信息了。之后其他人会试图弄清楚它是如何做到的。

但我认为还有一点未被讨论：AI 能力每进一步提升，我认为“做事方式”也会随之发生一些变化，只是我现在不知道那些变化是什么。我认为那会非常重要，但我还无法明确说明。

Dwarkesh Patel 01:24:49

正常情况下，你会认为拥有这种模型的公司会获得所有收益，因为它拥有这个能不断学习、不断积累知识的模型。为什么你认为这种好处不会只集中在最先获得该系统的公司，而会更广泛地分布？

Ilya Sutskever 01:25:13

我认为会这样：首先看看过去 AI 的发展模式。一家公司取得进展，另一家公司随后跟上，推出类似东西，然后市场竞争使价格下降。

我觉得在市场层面，未来也会如此。

这是假设“好结果”的世界。什么是“好结果”？就是我们有这些强大的、类人学习者，同时……对了，还有一点我们之前没讨论，但很重要：这种超级智能可以是“窄的”（narrow），既有用又是窄能力的。你可以有许多“窄向超级智能”。

但假设你有很多这样的系统，其中一家公司在某一方面赚了很多钱，然后另一家公司进入市场竞争。竞争通常通过专业化来实现。市场喜欢专业化，进化也喜欢专业化。你会看到许多不同的“生态位”，许多公司占据不同的生态位。

在这种世界里：

一家公司可能在某种复杂经济活动上非常强；
另一家公司在另一个领域更强；
第三家公司可能超级擅长“打官司”。

Dwarkesh Patel 01:27:18

但这难道不与“类人学习”相矛盾？它意味着这种系统可以学会……

Ilya Sutskever 01:27:21

它可以，但你要记住这里有积累学习。某家公司已经投入大量算力使它在某方面做到极致；另一家公司在另一个方面做了同样投入。当公司已经爬上某个陡峭技能曲线后，其他公司会说：“我不想重新学习你学过的东西。”

Dwarkesh Patel 01:27:48

但这需要很多公司在同一时间点上，都拥有“类人持续学习者”，才能同时从不同分支开始探索。如果只有一家公司最先获得这种学习者，那么……你只要让模型的不同实例学习经济中的每一个岗位，这好像对一家公司是完全可行的。

Ilya Sutskever 01:28:19

这是一个合理的推论。但我的强烈直觉是：现实不会这样发展。理论上你说得通，但我的直觉告诉我，实践不会那样走。

理论和实践之间常常存在差距。我认为这就是其中一种情况。

Dwarkesh Patel 01:28:41

很多关于“递归自我改进”的理论会明确假设：我们会有一百万个 Ilya 在服务器里提出不同想法，然后超级智能将迅速出现。

你对“你在做的事”可并行化的程度有何直觉？复制一千个 Ilya 会带来多大的增益？

Ilya Sutskever 01:29:02

我不知道。但我确信会有边际收益递减。你更想要的是思维方式不同的人，而不是思维完全相同的一百万个复制体。如果全是我的复制体，我不确定能带来多少额外价值。你真正想要的是多样化的思维。

01:29:23 – 自博弈（self-play）与多智能体（multi-agent）¶

Dwarkesh Patel 01:29:23

为什么不同公司的模型，即便训练数据可能不重叠、训练方式不同，但 LLM 之间竟然如此相似？这真的太奇怪了。

Ilya Sutskever 01:29:38

也许这些数据集并不像看起来那样彼此不重叠。

Dwarkesh Patel 01:29:41

但有一种意义上，即便未来的 AI 单体能力远超人类，也许“人类团队”仍然会因为多样性更强而保留优势。那么我们该如何从 AI 那里获得真正的多样性？我说的不是温度调高后那种胡言乱语，而更像“不同科学家有不同偏见、不同想法”那种多样性。我们如何让 AI 智能体之间产生这种真正有意义的差异？

Ilya Sutskever 01:30:06

我认为之所以一直缺乏多样性，是因为预训练（pre-training）。所有预训练模型几乎都一样，因为它们都在相同的数据上进行预训练。而现在的 RL 和后训练（post-training）才开始出现一些差异，因为不同团队会设计不同的 RL 训练方式。

Dwarkesh Patel 01:30:26

我听你以前暗示过，self-play（自博弈）是一种用来获取数据或让智能体与同等智能的其他智能体竞争从而启动学习的方式。但为什么我们还没看到它在 LLMs（大语言模型）上成功的公开方案？应该怎么理解？

Ilya Sutskever 01:30:49

我会这样回答：有两个关键点。

首先，自博弈让我觉得有趣，是因为它提供了一条只用算力、不用数据来创建模型的路径。如果你认为数据最终会成为瓶颈，那么只依赖算力会非常吸引人——这正是它引人注意的原因。

但问题是，自博弈在历史上采用的方式——两个智能体以某种方式互相竞争——只能用于训练特定的一小类技能。它太窄了。它主要适用于谈判、冲突、社会互动、策略推理等。如果你关心这些技能，自博弈有效；但如果你关心其他技能，它作用有限。

实际上，我认为自博弈确实找到了归宿，只是以另一种形式。例如：

这些 setups 虽然不是严格意义上的自博弈，但都是类似的对抗结构。

从本质上讲，自博弈只是“多智能体竞争”的一个特例。面对竞争，智能体自然会试图变得不同。如果你把多个智能体放在一起，并告诉它们“你们都要解决同一个问题，同时观察别人怎么做”，它们会说：

“如果别人已经采用这个路径，我就不该继续沿着这条走了，我要探索更不同的方法。”

因此，这类 setup 可以激励策略多样化。

01:32:42 – 研究品味（research taste）¶

Dwarkesh Patel 01:32:42

最后一个问题：什么是“研究品味”？你被普遍认为是 AI 领域研究品味最好的人之一，从 AlexNet 到 GPT-3 的重大成果都有你参与。你是如何形成研究想法的？如何描述你的研究方法？

Ilya Sutskever 01:33:14

我只能说说我自己的情况，每个人的方法都不同。

对我而言，有一种关于 AI 应该是什么样子的审美，而这种审美来自于思考“人类究竟是如何工作的”——但必须是正确的思考方式，而非错误的直觉。

我举一些例子：

人工神经元（artificial neuron）的想法直接来自大脑结构，这是个伟大的想法。因为你看到，大脑有很多褶皱，但褶皱大概不是关键；关键是大量的神经元。所以你需要“神经元”这种基本功能单元，你需要一种让神经元之间连接可被更新的局部学习规则，这听起来大脑就是这么做的。
分布式表示（distributed representation）的思想：大脑随经验而更新，因此神经网络也应从经验学习。

你不断问自己：“什么东西是根本性的？什么是非根本性的？AI 应该是什么样子？”

这些事物指导了我很多。

我也非常看重美感、简洁、优雅、以及来自大脑的正确启发。所有这些要同时存在，越是同时具备，我对“自上而下（top-down）的信念”就越强。

所谓“top-down 信念”是什么？就是当实验结果与你的直觉不一致时，能够支撑你继续努力的东西。

如果你完全依赖实验数据，那么有时你其实在做正确的事情，但系统里有一个 bug，而你不知道。如果你不知道有 bug，你怎么判断：继续 debug，还是放弃这个方向？

top-down 信念告诉你：“事情应该是这样的，某种形式的方案一定能起作用，因此我们必须继续推进。”

这种信念本身来自多方面因素的整合：美感、简洁、优雅、对大脑结构的深刻理解和启发。

Dwarkesh Patel 01:35:31

好的，我们今天就到这里。

Ilya Sutskever 01:35:33

非常感谢。

Dwarkesh Patel 01:35:34

Ilya，谢谢你。

Ilya Sutskever 01:35:36

好的，谢谢。

Dwarkesh Patel 01:35:37

非常精彩。

Ilya Sutskever 01:35:38

是的，我很享受。

Dwarkesh Patel 01:35:39

我也是。