科学新闻-大模型：一条通往通用人工智能的道路 _188bet亚洲体育

作者：张钹来源：发布时间：2024-9-10 0:8:17

大模型：一条通往通用人工智能的道路

人工智能（AI）有今天的蓬勃发展，要追溯到人工神经网络的诞生。

人工神经网络诞生于20世纪40年代，当时主要作为鉴别器（分类）、生成器来使用，但遇到了很大的困难。直到2014年，这个问题才在一定程度上得到解决。特别是2017年Transformer被提出来后，生成式人工智能就像打开了闸门，发展迅猛。

关于大模型和生成式人工智能，我有三方面思考。

第一，如何从大模型走向通用人工智能？这条路应该怎么走，会走到什么地方？

第二，大模型发展下去，会对产业和人类职业产生什么影响？

第三，人工智能产业未来将走向何方？

人工智能向通用人工智能迈进一步

为什么要下大力气发展生成式人工智能？理查德•费曼有一句名言：“如果我们不能创造它，就不可能理解它。”我们认为通过生成式人工智能，有机会打开理解（智能）世界的大门。

如何理解生成式模型？我们可以从生成式模型的特征来分析，其具有“三大一缺点”。“三大”是指强大的生成能力、强大的迁移或推广能力、强大的交互能力，“一缺点”是指“幻觉”。

具体来说，强大的生成能力是指语言模型能够在开放领域生成多样化、连贯且类似人类的文本。这种能力超出了人们的预期，被认为是模型达到一定规模后出现的“涌现”现象。

强大的迁移能力是指模型能够在给定少量样本的情况下，将知识迁移到不同领域，完成新的任务。这种能力也需要在模型达到一定规模后才会出现。

强大的交互能力是指模型能够与人类进行自然语言对话，这在过去是难以实现的。但现在，这种对话不受领域限制，使得人机交互更加流畅。

“幻觉”是大模型的一个主要缺点，指模型可能会生成看似合理但实际上并不真实或无意义的输出。

那么，通过预训练、推理和对齐三个步骤得到的ChatGPT，是怎么做到具有强大的生成能力和迁移能力的？主要有三个原因。

第一，它使用了巨大的人工神经网络。这个神经网络大到什么程度？有四个维度。首先，它的层数很多（或很深），有96层；其次，它的输入宽度很广，GPT-3的宽度达到了2048个tokens（标记），GPT-4 Turbo达到12.8万个tokens并支持同时输入300多页的文本；再次，参数规模巨大，GPT-3.5有1750亿个参数；最后，所需算力巨大。

第二，它拥有巨大的训练文本。据报道，OpenAI训练GPT-3文本量有45TB，谷歌则达到50TB。

第三，自监督学习。“下一个标记预测”（Next token prediction）机制可以让模型从未标记的数据中学习。

靠这三项技术，ChatGPT拥有了三大能力。实际上，OpenAI利用大模型和人工智能对齐构造了一个连续向量的语义空间，这造就了ChatGPT的强大生成能力。它的这种工作流程，改变了传统的自然语言处理方式，使机器能像人类一样“思考”。

ChatGPT迈出的这一步，取得了两个重大突破。一个是能够生成人类水平的文本，“会说人话”；另一个是实现了人机自然语言流畅对话，且对话不受领域限制。我认为这两大突破很重要，推动人工智能技术向着通用人工智能迈进了一步。

构造与数字世界交互的智能体

以前的人工智能都受限于三个“特定”：只能在特定的领域内工作、受限于特定算法、完成特定的预设任务。这三个“特定”使其受限于某一应用领域。

生成式模型完全改变了这种情况。它使用通用的转换器模型，在开放领域内生成和完成多种任务，且不受领域限制。这表明人工智能正在向第三代人工智能发展，也证明了行为主义道路是可行的。

我们目前正在进行的第二步工作，是在GPT-4基础上构造一个智能体，使其能够与数字世界交互。

为此必须实现两件事。一是要使它能够接受多模态，把感知部分加进去，变成多模态生成。通过多模态的生成，可以解决感知问题，形成“感知—思考—行动—环境—感知”的闭环。

OpenAI研发的CLIP模型实现了图像和文本的对比学习。大模型解决了文本的语义处理问题，如果把图像和文本关联起来，机器也能处理图像内容。CLIP模型已经展示了非常好的效果，无论是在图像分割还是识别上，都实现了重大突破。

过去机器只能对图像进行分类，很难实现真正的感知。大模型把图像和文本关联后，这一问题得到很好地解决，现在机器可以真正识别物体。

二是要增加交互能力。大模型可以与环境尤其是数字环境进行交互。通过结合这两点，我们可以实现构建智能体的目标。也就是说，机器可以与外部工具和环境结合，发挥问题求解能力。它不仅可以回答问题，还可以帮助解决问题，解释和执行复杂指令，制订计划来达成预定目标。

与数字环境结合后，机器还可以通过反馈学习，判断自己的行动正确或错误——这是ChatGPT等第一代模型无法做到的。我们期望GPT-4可以达到这个目标，类似ReAct和CogVLM也在朝这个方向发展，不仅可以推理，还可以采取行动。

仅具备推理能力或行动能力都无法完全解决问题，必须是推理和行动能力的结合。对于较复杂的推理问题，GPT-4可以很好地处理。比如，让GPT-4计算一个脑筋急转弯题目：小李有10只碗，为开派对向小张借5只、向小赵借5只，派对后小李把碗还给他们，那么小李还剩多少碗？GPT-4起初误解为0只，后来推理出还剩10只。这类复杂推理只有GPT-4能完成。针对复杂问题求解，如鸡兔同笼题，它也能很好解决。

不过，目前GPT-4最多只能与数字世界交互，我们最终必须使其能与物理世界交互。要与世界沟通和采取行动，需要一个关键环节——机器人。因此，“具身智能”（Embodied AI）的出现很关键，它可以构建一个完整的智能体：既有感知能力，又有像人类一样的思考和行动能力。如果能实现这一步，其结果将是难以想象的。因此，现在就必须将机器人技术纳入进来。

因此，埃隆•马斯克做了人形机器人。我认为，机器人不一定要做成人形，因为很多地方只是使用了手或脚的功能，不必把硬件搞得非常复杂。所以我主张，只要有一定的硬件作为基础，就能进行进一步的“强化学习”研究。强化学习是今后人工智能的方向，如果强化学习再进步，我们就有机会将智能机器做到从外部驱动走向内部驱动——这就非常接近人类智能了。

人工智能难以替代人类

人工智能继续发展下去，会给人类社会带来什么影响？

《高盛全球投资研究》中有一张图，展示了人工智能发展带来的各种变化以及对各行业的影响。其中一点可以看出，人工智能发展下去，一定会推动经济的发展。

高盛的分析显示，人工智能每年可带来1.3%的全球经济增长，发达国家可能达到1.5%，188bet亚洲体育:大约0.9%。这组数字或许不够准确，但人工智能促进经济发展的趋势是确定的。因此，188bet亚洲体育:要发展经济，就必须推动人工智能技术发展。

那么，人工智能究竟会对我们的产业、各个行业产生什么影响？

有人担心人工智能会代替人类工作。但高盛的这份报告通过对各行各业的分析，得出的结论是，人工智能对大多数行业有利。因为大部分工作将是人机互补或协同，结果是工作质量和效率的提升。

为什么大模型难以完全替代人类？因为当前人工智能模型存在天花板。

现在的大模型所有工作都要依靠外部提示，并不能主动作为。而且它在外部的提示下，仅能用概率预测的办法完成任务。人类则完全相反，所有工作基本上都是在内部意图的驱动控制下（或意识的控制下）完成的。

从这点不同可以发现大模型的三个天花板。第一，质量不可控，大模型的质量无法人为控制，输出质量不稳定；第二，生成结果可能正确，但也存在错误，因而不可信；第三，不够“鲁棒”，输出很依赖输入提示词，相同的内容在不同提示词下可能会产生不同解，给出不同回答。

我认为，当前大模型存在的三大问题是根本性的缺陷，随着模型规模的增加也难以解决。

2007年图灵奖得主Joseph Sifakis也有类似的观点。他认为智能化有三个层次，目前来讲，智能机器大多数情况下只能作为辅助；接下来第二步是走向自动化，把部分监控任务交给机器；最后是实现自主化，把所有控制、监控都交给机器。他认为自主化很难，最主要的原因就是刚才谈到的机器“不可信”。

总体而言，人工智能研究最主要的方向，就是把机器作为人类最好的助手。当然，可能会有相当一部分工作被它代替，但并不是所有领域都是如此。

大模型为通用人工智能创造可能

早在2015年，我们就提出发展第三代人工智能的思想，其中最主要有三点。第一，必须建立具有可解释性与鲁棒性（稳健）的人工智能理论与方法；第二，发展安全、可控、可信、可靠和可扩展的人工智能技术；第三，推动人工智能的创新应用与产业化。综合来看，这与上述我们的分析和结论比较相似。

迄今为止，具有可解释性与鲁棒性（稳健）的人工智能理论与方法还没有完全建立起来，这也是人工智能发展缓慢和曲折的原因。现在，大模型技术的发展让我们有了建立这一理论和方法的可能。另外，在人工智能创新应用和产业化方面，我们特别强调人类知识这一要素的作用。

人工智能发展可以分为三个阶段。第一代人工智能试图通过建立语义符号系统来模拟人类思考，包括推理、决策、诊断、设计、规划和创作等能力。这体现了符号主义和行为主义的主张，即构建一个语言和符号的理想空间，在这个空间内模拟人类思考。但是这种模型存在一个重大缺陷，即“符号接地”问题。系统都是人为定义的，若无法与物理世界联系，自然就与外部环境脱节。

第二代人工智能试图通过构建特征向量的连续空间来实现感知，可以利用大量数据进行训练。但其最大问题是与认知层面脱节，仅能对物体进行区分，无法真正理解和认知。

为克服第一代和第二代人工智能的局限，我们在第三代人工智能中提出构建“准语义向量连续空间”，也就是大模型构建的空间。打通了这几种空间，才可能建立一个真正的智能体，实现思考、感知和行动的统一。大模型的出现使这一目标看起来可能实现，但仍有很多问题有待解决，需要做大量工作。

总之，大模型为实现真正的通用人工智能提供了可能性，但距离最终目标还有一定差距。

最后，就人工智能的发展，我再谈一些思考。

尽管人工智能目前正处于稳步发展甚至可以说是快速发展阶段，对各行各业产生着巨大影响，但也要认清，我们还面临许多不确定性——人工智能的发展往往是不可预测和不可控的。例如，目前对某些现象的解释仍停留在“涌现”这一概念上，这实际上意味着我们尚未完全理解其背后的机制。

我认为，中小型企业要打开视野，将人工智能科学研究、技术创新与产业发展紧密结合。智谱AI在这方面做得相当出色。产学研结合的模式有助于产业的健康发展，特别是在188bet亚洲体育:。

现在是抓住机遇发展人工智能产业的关键时期。过去，人工智能产业受到特定领域和任务的限制，难以实现大规模发展。现在，我们有机会开发通用的硬件和软件。总的来说，通向通用人工智能的道路是很艰难的，但无论如何，大模型指出了一条宽广的道路。■

（作者系188bet亚洲体育:科学院院士、清华大学人工智能研究院名誉院长，记者赵广立根据其在智谱AI 2024年度技术开放日上的演讲整理）

《科学新闻》 (科学新闻2024年4月刊封面)

发E-mail给：

| 打印 | 评论 |