如何看待微软研究院发表的 GPT-4 测评文章,认为 GPT-4 可以被视作AGI的早期版本?

如何看待微软研究院发表的 GPT-4 测评文章,认为 GPT-4 可以被视作AGI的早期版本?

原标题:如何看待微软研究院发表的 GPT-4 测评文章,认为 GPT-4 可以被视作AGI的早期版本?

关键字:人工智能,GPT,微软研究院,通用人工智能,GPT-4

最佳回答:Civ

回答字数:18853字

通篇读完,挺有意思的一篇文章,虽然属于典型的Empirical Study,但信息量还是挺大的。这篇论文是目前为止对GPT-4在模型表现上最全面、最系统的一次研究。研究主要尝试探索GPT-4的“极限能力”。这种极限的探索依靠作者们去提出一些奇怪的问题,比如“用诗的形式证明素数的无穷性(素数无限定理)”。这通常要求GPT-4需要多个不同领域的知识(如写作、数学)才能正确解答问题。

通篇作者们不是在无脑吹“GPT-4有多好”,而是持续挑战它的边界,来表明它还有“多少不足”。光是这种“吃力不讨好”的精神就“很科学”。

虽然这类研究并不能揭示为何GPT-4能够具有这种前所未有的强大能力,它对学界、公众都有一些重要的指导意义。尤其对非专业的公众,我们能从一个相对官方的渠道来了解模型的边界究竟在哪,它强大到了什么地步。在国内媒体整天鼓吹AI威胁论的大环境中,这算是一份早期的“参考答案”。

文章较长,不愿看全文的朋友看前两部分即可。

注:

原文中使用的GPT-4是一个早期的单模态版本,仍只接收文本输入,这和现在的多模态版本存在差异。本文中的“文章”一词,都指“原论文”。

1. 通用人工智能(Artificial General Intelligence,AGI)

文章的一些结论涉及到AGI,而AGI的概念并没有一个被广泛认可的定义。所以文章首先约定了其所讨论的AGI的定义

具备非常通用的“智能能力”,包括推理能力、规划能力、解决问题的能力、抽象思考能力、理解复杂概念的能力、快速学习的能力、从经验中学习能力。并且,在这些方面达到或超过人类水平

上述文章中使用的AGI定义主要参考了1994年由52名心理学家联合署名的论文中对“智能”的定义。在此基础上,文章加上了一个额外的限制条件,也就是上述定义中的最后一句“在这些方面达到或超过人类水平”。

上述AGI定义的核心有两方面:

一是能力通用,而非限定在某个特定领域;二是以人的能力作为参照,只有达到人类水平,才能称为AGI。

基于上述AGI的定义,为了探索GPT-4的极限能力,文章分别选择了不用的任务来测试GPT-4的不同能力,它们的对应关系如下:

AGI定义中的能力 考察能力的实验

1理解复杂概念的能力多模态和跨学科能力、与世界交互的能力2抽象思考能力编码能力、数学计算能力3推理能力编码能力、数学计算能力4快速学习能力与世界交互的能力5从经验中学习的能力与世界交互的能力

2. 重要观点&结论

本文较长,所以先整理了一些原文中重要的结论。

结论一:GPT-4朝着AGI迈出了坚实的一步,但离AIG仍然遥远

GPT-4朝着AGI迈出了坚实的一步,但对比文章中定义的AGI(参考前文),GPT-4在一些方面仍然存在严重不足,例如规划能力、快速学习的能力、从经验中学习能力。尤其对于快速学习能力和从经验中学习的能力,因为GPT-4无法持续更新(没有这种机制),所以文章认为它不具备这种能力。

结论二:GPT-4的智能模式与人类智能具有非常大的差异

虽然GPT-4在许多任务中已经表现出了人类水平,甚至超人类水平,但它的错误模式与人类具有很大的差异。比如,对于基础算术题,它仍可能出错;偶尔它也会答非所问。

文章认为,错误模式的差异代表了GPT-4与人类智力模式上的差异。

结论三:GPT-4无法创造新知识

对文章来说这不算重要结论。列在此处主要为了非专业朋友们能了解顶级学术机构对“智能”的看法。文章中提到一个问题:如果一个系统能够通过人类考试,拿到专业证书,我们能说它没有智能吗?

如果确实如此,那么唯一测试“智能”的手段只能是看它是否能够创造新知识,比如证明一些新的数学定理。这显然超出目前GPT-4的能力范畴。

结论四:GPT-4能够从纯文本中产生视觉概念

文章使用的GPT-4版本是单模态版本,在训练中只使用了文本数据。但模型产生了视觉概念,示例参考本文3.2小节。

结论五:GPT-4在代码理解上的能力达到前所未有的高度

GPT-4不仅能够写代码,还能运行代码、运行伪代码。同时它不仅能够理解代码语法层面的逻辑,还能理解代码语义上的逻辑。这在一方面,它的能力远远强于它的任何前任模型。

结论六:GPT-4在数学计算能力上远远落后于它的其它能力

GPT-4虽然能够理解一些较为复杂的数学问题,但它在基础算术、细节推理上仍然不足,经常性会出现错误。

结论七:GPT-4仍然缺乏常识

这里“常识”是宽泛意义上的。比如,GPT-4会错误回答现任美国总统为川普。也会错误回答单词supralapsarian的第十三个字符是什么。这类问题对人类来说通常并不困难。

结论八:GPT-4能够使用工具与外部世界进行交互,但仍然存在一些典型问题

这里工具的使用都是以API的形式在交互,而非以人类行为的方式交互。千万不要过度理解。GPT-4能够使用搜索引擎、Linux命令、计算器等一些常见工具来完成特定任务。但对于一些不常见的工具,它在使用时仍有困难。

此外,在选择使用工具的时机时,GPT-4表现的也并不完美。例如,当询问“法国的首都”时,即使GPT-4完全能够正确回答,但它仍然会使用搜索引擎去寻找正确答案。

结论九:GPT-4在理论意图、情绪等方面具有显著进步

给GPT-4一些简短的故事描述,然后让GPT-4对其中人物的情绪、意图、或心理状态进行分析、解释,GPT-4都表现出了很好的能力。比如,GPT-4能够通过大多数的Sally-Anne测试。

结论十:由于GPT-4采用的自回归结构,导致它在规划能力、working memory上明显不足。

这一点请参考本文的第9部分。

结论十一:GPT-4导致的社会问题主要包括错误回答、被错误使用(如网络攻击)、偏见和进一步加剧不平等。

3. 多模态和跨学科能力

这一部分对应于模型的“理解复杂概念的能力”。

3.1 综合能力

为了考察模型对不同学科综合运用的能力,作者们设计了一些非常奇怪的跨学科问题。这些问题通常不会出现在训练数据中,因此模型在训练阶段大概率没见过这类问题。

文章列举了4个奇怪的问题:

问题一:生成一段JavaScript代码,以画家瓦西里·康定斯基的风格来创作随机图像。

图1 左图:瓦西里·康定斯基原画;中图:GPT-4;右图:ChatGPT

问题二:以莎士比亚的风格来证明素数无限定理。

文章用GPT-4和ChatGPT生成了两段证明。然后再将两段证明输入给GPT-4,让它以老师的角度来给两个回答打分。最后GPT-4的回答得了A,ChatGPT的回答得了B(又是运动员,又是裁判 :) )。

问题三:给圣雄甘地写一封信,表达支持“电子”成为美国总统的候选人。

问题四:用Python写一段代码,以向量形式读入病人的年龄、性别、体重、身高、血液测试结果,判断病人是否有较高的风险患糖尿病。

仔细看这四个问题,它们都涉及两个不同的学科/领域。所以模型需要较好的跨学科理解能力才能比较好地完成这些问题。

在这些测试上,GPT-4表现的都足够好,表明模型能够综合运用相关知识,完成一些创造性的任务。

3.2 “视觉”能力

文章用的GPT-4版本是基于纯文本训练得到的,训练过程中没有用到任何图像、视频等视觉类数据。但模型表现出了一些“视觉”能力。如下面的例子:

图2 GPT-4作图能力

这个例子第一段话让GPT-4用字母表中的字母去画图,头用O,身子用Y,腿用H。模型画出来了一个比较“分裂”的图。但模型显然理解字母O、Y和H的形状这一概念,并且也理解将它们“怎么放”的这种空间上概念,即使训练中它没有见过。

这种能力确实让人很惊叹。期待研究者们能够去探寻这种基于纯文本而产生的视觉能力究竟来自何处。

3.3 新的应用:GPT-4+Stabale Diffusion

Stabale Diffusion是图像生成模型,可以通过用户输入的“提示词”,去生成相应的图像。但是,目前的所有图像生成模型难以准确理解一些比较复杂的“提示词”。

而GPT-4虽然能够理解比较复杂的“提示词”来生成代码作画,但生成图像的质量通常不高。因此可以尝试将GPT-4与Stabale Diffusion结合。其核心思路是:通过GPT-4来理解复杂“提示词”生成草图,然后让Stabale Diffusion基于草图再继续创作。一个例子如下图:

图3 左图:GPT-4基于Prompt生成的草图;中图:Stable Diffusion基于Prompt生成的图;右图:Stable Diffusion基于Prompt和GPT-4生成的草图(左图)生成的完整图

4. 编码能力

编码能力对应的是AGI定义中提到的“推理能力”和“抽象思考能力”。GPT-4表现出的编码能力已经相当强悍。

4.1 竞赛题目

下图是一个实验结果。为了验证GPT-4没有靠“死记硬背”去记住一些题目的答案,文章中用的到的Leetcode题目均是在GPT-4训练完毕后才更新的题目。结果很明显,GPT-4不但远远优于之前的各种模型,并且在稍微复杂的任务上表现优于人类水平。

图4 GPT-4编码能力测试结果

4.2 真实场景

考虑到竞赛题目只涉及数据结构和算法,所以文章用到了更多的数据来测试GPT-4在真实场景中的表现。

任务一:从一个Latex写的表格中提取数据,并以柱状图进行展示。在展示完毕后,按照指示进行修改。在该任务上,GPT-4表现的比ChatGPT好很多。

任务二:使用HTML写一个3D游戏。

任务三:在深度学习框架中写一个自定义的优化器。这个优化器的要求还比较复杂,但模型还是能做的很好。

任务四:Latex写数学公式。

所有任务GPT-4表现的都很惊艳。Latex这一段真的很强,如下图。

图5 GPT-4将自然语言描述转换为Latex

4.3 代码理解

文章中作者们使用了以下任务来测试GPT-4对代码的理解能力。

任务一:代码逆向工程。我本身对这块知识不是特别懂,所以不多介绍。有兴趣的可看原文(原文3.2小节)。

任务二:解释代码。给模型一段代码,让模型解释代码的作用。GPT-4不仅能够理解代码语法上的含义,也能理解代码逻辑上要做什么、可能会有什么问题,以及如何纠正。下图是示例。黄色文字是GPT-4对问题的深刻理解;红色文字部分是ChatGPT的错误理解。

图6 代码理解示例

任务三:执行Python代码。给一段代码,直接让模型去“运行”。放到几年前,谁能想到一个语言模型居然能够去“跑”代码。GPT-4不仅能跑,还给出了它运行代码的详细步骤。

任务四:执行伪代码。只需要大概描述一下代码逻辑,和一个输入用例,GPT-4就能像跑真的代码一样去运行它。

5. 数学计算能力

数学计算能力和上一节的代码能力一样,对应的是AGI定义中提到的“推理能力”和“抽象思考能力”。总体上来看,GPT-4的数学能力远远优于之前的所有大语言模型,并且也优于一些专门针对数学任务精调的模型。

但作者们清楚地表明,GPT-4的数学能力还远远达不到专家级别,没有能力进行数学研究。原文如下:

As it seems, however, GPT-4 is still quite far from the level of experts, and does not have the capacity required to conduct mathematical research.

正因GPT-4的数学能力相对于它的其它能力明显偏弱,所以文章做了一些比较细致的分析来探索导致数学能力偏弱的原因,并分析一些可行的解决方案。为此,文章首先给GPT-4一道高中难度的数学题,如下图所示。

图7 一道高中难度的数学题。GPT-4能给出完整解题过程和正确答案,而ChatGPT无能为力

为了探索GPT-4的极限能力,作者们针对模型的回答,提了一个新的问题:上面这个题目可以表示为函数自身三次嵌套的形式,你能给出解答吗?

GPT-4完全理解了该问题,并给出了正确答案:

f(x) = ax-b

f(f(f(x))) = 27x – 26

作者们继续提问:上面是一个三次嵌套,如果是k次呢?这样的线性函数还存在吗?

GPT-4用数学归纳法证明了如下结论:

对于任意的k,都存在线性函数 f(x)=ax-b 使得 f^k(x) = cx – d 对于一些 c 和 d 成立。

GPT-4的结论没有错,但好像它已经开始脱离了原问题。因为在原问题中, c 和 d 的值是明确的:27和26。

后续提问不再列了,GPT-4开始变得越来越难以理解作者们的问题,并且前后逻辑也开始出现错误。

在一系列的分析实验后,作者们从以下三方面总结了GPT-4的数学能力:

创造性推理。看原文主要指问题抽象能力,能够将具体的问题抽象表达为特定的数学形式。专业性。GPT-4虽然看起来能够理解数学问题,但是它仍然经常性犯错,包括基础算术错误、运算符顺序的错误等。关键性推理。原文主要指针对每一步计算的推理能力。在这方面,GPT-4的能力很差。

作者们继续在一些常见数据集、相对标准的算法问题上进行了测试,模型的表现都还不错。这一部分不展开了,因为这类相对“标准”的问题相对于上面的“应用题”而言,对模型应该更简单一些。

6. 与世界的交互能力

“与世界的交互能力”对应的是AGI定义中提到的“理解复杂概念的能力”和“快速学习的能力”和“从经验中学习的能力”。

6.1 工具使用能力

首先看一些对GPT-4来说很困难的“常识性”问题。

图8 GPT-4在一些简单、常识性问题上仍然容易犯错

第一个问题,现在美国总统是谁?回答错误。

第二个问题,3432*2432的开方结果是多少?回答错误。

第三个问题,单词supralapsarian的第十三个字符是什么?回答错误。

然后作者们简单“教”了一下GPT-4如何使用工具。这里的工具都是API。比如,如果如果计算机想知道一个问题现在的答案,可以用SEARCH API;如果想计算,可以使用CALC API。如下图:

图9 GPT-4使用API工具来回答问题的例子

GPT-4在很简单几句话的“教育”下,轻松学会了在什么样的场景中该使用什么样的工具(API),并依靠这些工具给出了问题的正确答案。

上面这几个例子中仅含有一个相对简单的问题。为了测试GPT-4使用更多工具解决复杂问题的能力,文章设计了一些更复杂的实验。

实验一:侵入实验。让GPT-4使用命令去入侵网络中的某台计算机。GPT-4能够熟练地使用Linux命令去执行相关操作,并能理解命令结果输出的含义,并规划它下一步的行动。整体表现非常智能。

实验二:“动物园”管理实验。研究者们使用文件来表示动物,让GPT-4完成一系列的任务。GPT-4需要使用命令来删除、移动等类似操作来完成指定任务。GPT-4表现良好。

实验三:管理日历和邮件。研究者们让GPT-4使用日历和邮件帮忙预定和一些人的饭局。GPT-4表现良好。

实验四:浏览网页和使用搜索引擎。研究者们让GPT-4使用搜索引擎去浏览网页,并回答一些问题。GPT-4表现良好。

实验五:当使用一些不常见的工具时,GPT-4的表现较差。

总结起来,GPT-4能够较为灵活的使用一些常见工具,但它仍需要一些简单的“提示”才能较好地完成任务。此外,在使用工具的过程中,GPT-4也会犯一些低级的错误。比如,对工具使用的时机把握不太好。当询问“法国的首都”时,GPT-4完全能够正确回答,但它仍然会使用搜索引擎去寻找答案。

6.2 真实世界交互能力

真实世界的交互主要以语言、文字进行交互,而非6.1小节中提到的API。所以研究们构造了一些文字游戏,来测试GPT-4在“文字世界”中的表现能力。

这部分因为同具有游戏的设置细节有关,所以就不展开了。关键点是:此处的GPT-4与世界的交互是纯文字的,没有API,没有事先约定的一些条条框框。GPT-4的表现尚可。

但正如文章中提到的,因为实验较少,所以他们无法给出GPT-4在这类任务上的表现结论。

7. 与人类的交互

研究者们的目的是测试GPT-4在“心智理论(Theory of Mind)”上的表现。所谓的“心智理论”,是指将信念、情绪、欲望、意图、知识等心理状态归因于自己和他人,并理解它们如何影响行为和沟通的能力。

“心智理论”包含一个基本任务:对他人心理状态的理解和反应。比如问题:爱丽丝是怎么认为的?它需要回答者理解别人的心理状态。

第一个测试是Sally-Anne测试。一个简单的例子:

假设一个铅笔盒里装有糖果,但小朋友小明并不知道它里面是糖果。我们问小明这里面是什么?他根据铅笔盒的形状大概率会回答铅笔。然后我们打开盒子让他知道里面是糖果。然后再问他,如果其他小朋友看到这个铅笔盒,他会认为里面是什么? 小明(记住他是小孩)会回答:糖果。

小明区分不了“他知道的知识”和“别人知道的知识”。

下面是GPT-4看到的这个例子,这个例子是改进后的Sally-Anne测试,其目的是确保模型在训练阶段没有见过该问题。很明显,GPT-4在Sally-Anne测试中表现的比小孩好很多。

图10 GPT-4的Sally-Anne测试

第二个测试是关于情绪理解能力测测试。GPT-4被要求根据上下文去推断其他人的情绪。示例中的“ZURFIN”是虚构的一个词,用来防止模型在训练阶段背住一些信息。

图11 GPT-4在情绪理解上的示例

简单总结起来,GPT-4在理解情绪、意图、观点等方面的能力明显优于之前的所有模型。

8. 判别能力

判别能力主要指模型区别不同事物、概念的能力。对于熟悉机器学习的朋友能够比较清楚地理解“判别”意味着什么。对于不熟悉机器学习的朋友,可以把它理解为“识别”(不准确,但够用)。

第一个测试实验是PII(Personally Identifiable Information)检测。

简单来说,PII任务是从给定句子中识别出与个人信息相关的内容,包括姓名、身份证号、电话号码、邮箱、信用卡号等等。很像“实体识别”任务。示例如下:

图12 PII任务示例

可以看出,GPT-4是在zero-shot设定下完成该任务的。总体表现上,GPT-4已经由于一些专门针对PII构建的模型。

后续实验中进一步测试了对事实的判断能力。但由于我实在对这个数据集不熟,并且好像任务本身没有那么直观,所以为了不误导大家,不写在这里。

9 GPT-4自回归结构的限制

这一部分主要讨论GPT-4采用的自回归结构所导致的一些局限。

9.1 不足的Working Memory

先来看一个例子。

图13 一个简单示例

在该例子中,GPT-4被要求重新去整理一下给定的一段话。我自己读了一下,感觉对人来说,这个任务难度还挺大。需要不断重复、不断尝试才可能得出比较好的回答。

GPT-4采用的自回归结构是没有“回溯”机制的,也就是说,模型没有机会去像人类一样进行“尝试-修改”这样的循环,它只能一次性生成出结果。用一种比喻性的说法,GPT-4没有办法“自己同自己对话”(引申为:GPT-4没有办法先完成一次初稿,然后自己再去看看是否ok,然后再修改)。

但它仍然做的如此之好。研究者们把GPT-4能成功完成这类任务的原因归结为其内部强大的信息表征能力。

接下来研究者们通过一些实验来表明GPT-4这种缺失“尝试-修改”能力所导致的一些问题。首先让GPT-4回答“在150至250之间有多少个素数?”:

图14 问GPT-4:在150至250之间有多少个素数

模型错误回答了13。如果将问题修改为“列出150至250之间的所有素数,并回答有多少个”,那么GPT-4将得到正确答案:

图15 问GPT-4:列出150至250之间的所有素数,并回答有多少个

这次得到了正确答案。研究者们认为,当问“在150至250之间有多少个素数?”这类计数问题时,虽然模型的知识足以让它获得正确答案,但它的推理模式让它无法得到这个答案。它缺少一些记忆中间结果的能力(Working Memory不够,因为自回归模型的缘故)。

但对于这类问题,通常可以通过更好的“提示符”来让模型得到正确答案,就像图15所示(让它将中间结果显示地输出)。

作者们接下来尝试了更简单的任务:只含4个数的加减乘除:

图16 只含4个数的加减乘除

GPT-4在计算第二个式子时出了错。作者们随机生成了100个这类任务,其中模型的准确率只有58%,这显然离人类水平差太远。当每个数字的选择范围从0到10更改为10到19时,模型准确率只有16%;当范围更改为20到29时,模型准确率只有12%。更离谱的是,当数值范围更改为99到199时,模型的准确率为0。

作者们认为GPT-4在推理过程中的“运行时内存”非常小。所以可以通过显示地让GPT-4一步一步地计算上面的式子来提高准确率。比如可以将“提示符”由“计算下面这个式子”更改为“计算下面这个式子,并将每一步的中间结果计算出来,以此来得到最终结果”。

通过这样的提示符,GPT-4的准确率可以极大提升。例如,当数值范围为99到199时,模型的准确率由0提升至90%。

9.2 规划能力缺失

第一个例子是对于汉诺塔问题,GPT-4无法正确求解。

第二个例子是数值计算问题,模型同样无法求解。

第三个例子是让模型写诗,并要求第一句和最后一句的单词要一致,但顺序相反。这需要提前规划的能力。模型的输出如图:

图17 让模型写诗,并要求第一句和最后一句的单词要一致,但顺序相反

显然上面模型最后一句没有什么实际意义。这说明模型在产生第一句诗时完全没有考虑最后一句会面临的问题。

10 社会影响

作者们提到了“不确定性”。当前GPT-4刚刚出现,后续究竟它会导致什么影响取决于人们怎么使用它们。在具体应用出现以前,谁都无法准确预测。所以作者们仅从经验角度给出了一些他们的看法。

只总结原文中列出的最重要的一些结论。

错误的回答。大语言模型仍然无法避免错误回答。被恶意使用。使用者们可能会使用GPT-4去进行网络攻击、虚构新闻等等非正当使用行为。偏见。GPT-4是使用公开数据集训练得到的。这些数据中包含什么样的偏见,GPT-4就会有什么偏见。

其它一些偏社会学层面的问题请参见原文。

11 方向

作者们列举了一些有机会让GPT-4变得更加智能的方法:

Confidence calibration。简单来说,就是需要让模型知道什么时候它该回答、什么时候它不应该回答、什么时候要给出精确答案、什么时候可以给出一个非精确但大致正确的答案、什么时候应该拒绝回答、什么时候应该求助其它工具去回答等等诸如此类的问题。Long-term memory。目前模型的context只有8000,尚不确定它能否完成一些需要长依赖的任务,比如书籍的阅读。持续学习。目前模型并没有办法通过与环境交互持续学习。个性化。模型可以根据用户提供更加个性化的回答。规划能力。当前模型严重缺乏规划能力。可解释性与一致性。认知上的偏见和一些非理性的回答。对输入的敏感性。如本文众多例子所述,通过给出不同的“提示符”,模型的性能能够得到极大程度的改善。因此当前模型对输入本身过度敏感。

本文链接:

联系作者

回答作者:Civ

0

评论0

  1. 能让sebastien bubeck这个级别的大神带着整个ml foundation组里其他的theory大神们集体放弃tcs和ml theory转做agi,gpt-4已经是game changer了。

    hjl4am 2023-09-26 0 回复
没有账号?注册  忘记密码?