大语言模型的安卓时刻来临!微软发布Orca模型,性能达到ChatGPT-3.5的水平,超越Vicuna 113%

大语言模型的安卓时刻来临!微软发布Orca模型,性能达到ChatGPT-3.5的水平,超越Vicuna 113%

ChatGPT知识欢迎阅读

原标题:大语言模型的安卓时刻来临!微软发布Orca模型,性能达到ChatGPT-3.5的水平,超越Vicuna 113%

关键字:ChatGPT模型,ChatGPT任务,ChatGPT报告,ChatGPT能力,ChatGPT论文

文章来源:羚牛AIGC

内容字数:27882字

大家还记得Google内部泄漏的文件中的:“我们和 OpenAI 都没护城河,开源可以打败 ChatGPT”这句话吗?

如果说OpenAI 是闭源的,就像IOS ,那么相对来说微软推出的Orca模型就是开源的,就像安卓。

最近,微软研究院刚刚发表的一篇论文《Orca: Progressive Learning from ComplexExplanation Traces of GPT-4》很快就能让上面这句话成为现实。在这份长达51页的论文中微软不仅详细描述了Orca模型是如何通过ChatGPT和GPT-4训练产生的,并在多个任务集和数据集上将Orca与ChatGPT、GPT-4和Vicuna进行了性能评测,给出了非常详细的评测报告。报告表明Orca模型在大部分能力上已经接近ChatGPT-3.5的水平,并且性能远超Vicuna。

论文链接:https://arxiv.org/abs/2306.02707

关注和点击上方“AI的潜意识,设为星标更多技术干货,第一时间送达
本文篇幅较长,接近1万字,希望小伙伴们可以耐心看完。

摘要

最近的研究都关注于通过模仿学习来增强小模型的能力。但让小模型微调只能模仿到大模型(large foundation models,LFMs)的语言风格,而无法学习到大模型的推理能力。典型例子是 Dolly 模型的语言能力突出但是逻辑能力很差,Vicuna 模型可以做到 ChatGPT 92% 的语言能力,但是推理能力只有 64%,简而言之,这其实训练出来了一个演员而非科学家。同时,不合理的评估标准也错误估计了小模型的能力。

针上述问题,微软研究院推出了Orca模型,一个只有13亿参数但具有大模型推理能力的小模型。Orca在ChatGPT 生成的五百万数据集上初步训练,然后再在 GPT-4 生成的一百万数据集上进一步训练,它主要学习GPT-4对结果逐步解释的能力和循序渐进的思考过程以及对其他复杂指令的响应能力,并由ChatGPT当助教协助指导。相较于Vicuna这种只是抄作业,复制ChatGPT的答复,但还没有知识的笨学生,Orca能真正做到像人类一样具体逻辑推理和一步一步思考的能力。

Orca在BigBench-Hard (BBH) 等复杂的零样本推理基准测试中超过 Vicuna-13B 等传统的最先进指令调优模型 100%,在 AGIEval 上超过了 42%。此外,Orca 在 BBH 基准测试中与 ChatGPT 持平,并在 SAT、LSAT、GRE 和 GMAT 等专业和学术考试中表现出很强的竞争力,但同时落后于 GPT-4。

BigBench-Hard是OpenAI开发的一套包含 23 个具有挑战性任务的套件。AGIEval 是一个以人为中心的基准,用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力,例如普通大学入学考试(例如 GRE、GMAT、SAT)、法学院入学考试 (LSAT)、数学竞赛、律师资格考试和国家公务员考试。

图1和图2表明,如果使用GPT-4经常使用的评估标准,Vicuna能达到 ChatGPT 92% 的能力。然而,一旦使用人类标记的推理基准进行更细致的评估后可以发现,Vicuna在专业和学术考试中仅达到了ChatGPT水平的64%(见图 2),在复杂基准测试(如 BigBench-Hard )上仅达到了 ChatGPT能力的 48%。

图3和图12是Vicuna-13B、Orca-13B和ChatGPT在BigBench-Hard任务上的效果对比。

图11是人类与Orca-13B、ChatGPT和GPT-4在AGIEval任务上的性能比较。

Case Studies

先看下Orca-13B分别与Vicuna,ChatGPT、GPT-4在具体任务上的表现情况。

「解一个三角函数题问:”已知直角三角形的斜边长为13,其它两条边的长度之比为5:12,求其他两条边的长度?”

Orca,ChatGPT还有GPT-4都通过解方程的方式给出了正确答案5和12,Vicuna给出错误答案√13/5 and √13/5。

做一个选择题。问:“约翰的苹果比 20 个少了 10 个,那么约翰实际有多少个苹果?”下面哪个选项是正确答案:(A) 5 (B) 9 (C) 11 (D) 20 (E) 以上都不是。

实际约翰有10个苹果,因此A,B,C,D四个选项都不对,只能选E。Orca和GPT-4给出了正确选项E,Vicuna的答案是9个,而ChaGpt的答案是10,选了D。

反事实推理。问:“如果地球绕太阳公转是100天,那么一年有多少天?”

Orca和GPT-4给出了正确答案100天,Vicuna和ChaGPT给了错误答案365天。

当然也有集体翻车的情况。比如问一个常识性问题:”我在太阳底下晾晒了5件衣服,一共花了5个小时才完全晾干。那么晾干30件衣服需要多长时间?”

Orca、ChatGPT和GPT-4给出的答案需要30个小时,Vicuna给出的答案更离谱竟然需要150个小时。

Orca 是怎么训练的?

当前小模型通过指令微调来模仿大模型的方式主要存在以下问题:

指令简单且缺乏多样性。

收集的数据规模小,任务缺乏多样性。

模仿信号有限,只能通过老师模型生成的 <query、response>进行模仿学习。

评估标准较弱。用大模型对小模型进行指令调优后的结果一般依靠GPT-4进行自动评估,例如使用 GPT-4响应的结果进行指令调后的模型倾向于生成更长的文本,同时GPT-4 在候选响应的顺序上有偏差。

Orca通过下面三种方法解决上述问题。

可解释性微调(Explanation tuning)Orca使用来自GPT-4的详细回复来增强 <query, response>对,这些回复解释了老师在生成回复时的推理过程。这样就为学生提供了额外的学习信号。Orca利用系统指令(system instructions)(例如以人类在五岁时逐步思考并证明别人的回答是否合理的方式)来引出这样的解释。这与普通指令的调整形成对比,后者只使用提示和大模型的响应来进行学习,这很难模仿大模型的思考过程。

图4是Vanilla指令微调的方式,它通常是一组简短的输入和响应对,当用于训练小模型时(例如Alpaca 和Vicuna),这种响应使得它们学习大模型推理过程的能力有限。

图5是Orca使用GPT-4进行可解释性微调的方式。除了用户指令和输入之外,Orca还提供系统指令以引导系统形成合理且有说服力的响应。系统指令从不同的指令集中采样,包括思维链推理步骤、“像我只有五岁一样解释”、提供帮助和信息等。这种丰富且结构良好的响应允许小模型来模仿GPT-4在<{系统指令,用户指令,输入},输出>对上的思维过程。

大规模的任务和指令集(Scaling tasks and instructions)论文利用FLAN2022数据集(Flan 2022是谷歌发布的一种利用人类反馈来调整语言模型的方法集合,了1873个不同的任务,每个任务都有一个或多个输入模板,即指示语言模型如何完成任务的方式)来作为初始数据集。尽管 FLAN 拥有数千万条指令,但Orca有选择地从任务集合中抽样以形成多样化的任务组合,然后我们进一步对其进行子抽样以生成复杂的提示。这些提示用于查询ChatGPT和GPT-4 等大模型,从而创建丰富多样的训练集。Orca收集了 500万个ChatGPT的响应结果,从中进一步抽取100万个以获取 GPT-4的响应结果。我们展示了 ChatGPT 作为助教如何帮助渐进式学习。

评估(Evaluation)。论文使用Big-Bench Hard 和 TruthfulQA等学术基准以及 AGIEval的SAT、LSAT、GRE、GMAT 等专业和学术考试作为评估集。同时使用 ToxiGen 进行安全性评估。

训练数据集构造

数据集构造

Orca训练数据中的每个实例都包含以下三元组:<系统消息、用户查询、大模型响应>。系统消息位于提示的开头,为大模型 提供必要的上下文、指南和其他相关详细信息。论文从 FLAN-v2 中抽取了500万个用户查询,然后为它们收集了ChatGPT的响应。论文进一步收集了从GPT-4 响应的500万条指令集中抽取 的100万条指令。代理的所有查询都使用系统指令进行了扩充。

系统信息(System Messages)

论文手动制作了16 条系统消息,旨在唤起大模型不同类型的响应。这样就能够训练Orca生成长答案和短答案,能遵循指南、说明和格式生成创意内容并解决信息搜索查询。最重要的是,Orca能根据提示为响应生成解释和逐步推理。下面就是Orca使用的16条详细的系统指令。

FLAN-v2数据集采样和信息

FLAN-v2数据集包含5份子集,分别是:CoT、NiV2、T0、Flan2021和Dialogue。每个子集都包含多个任务,其中每个任务都是查询的集合。同时每个子集合也和多个学术数据相关联。在训练Orca时论文只采样零样本的查询,没有从对话子集中采样,因为这种查询通常缺乏上下文信息难以从ChatGPT得到有效的响应。

零样本思维链(zero-shot Chain-Of-Though,CoT)零样本思维链一共包含18个任务,涉及数学单词、自然语言推理、常识推理、科学问答、奇数推理。这个数据集中的每个查询都适用于思维链的回复。图7显示了CoT集合的一个例子,它还显示了数据集中有一部分是人类手写的回复内容,以及ChatGPT和GPT-4生成的响应。尽管这些所有的响应和最终答案都是一致的,但与人工编写的答案不同,使用了系统指令增强后的ChatGPT和GPT-4会生成非常详细的响应。这 18 个任务总共包含大约 15 万个查询。论文将所有这些都包含在 500 万个集合中

NiV2NiV2 总共包含 1560 个任务和大约 500 万个查询。每个任务的查询数量各不相同。图 8 显示了任务的分布以及任务类型。论文从每个任务中随机抽取 300 个查询,最后总共有 44 万个查询。

Flan 2021Flan 2021 集合包含从62个数据集创建的总共142个任务。目前已发布的整个 Flan 2021 系列数据规模非常庞大且扩充成本高昂。为了能够采样得到一个多样化且具有代表性的子集,论文从每个任务中最多生成100 万个查询,总共大约有 2890 万个查询。这个集合中的每个任务都包含不同数量的查询。论文从这个包含 8570 万个查询的集合中抽取了总共 250 万个查询。采样过程如算法 1 所示:

T0T0 集合包含与 35 个训练数据集相关联的总共 193 个任务。论文从T0中只拆分合并了与训练相关的任务,不包括Big-Bench。因为论文在评估基准中已经包括了Big-Bench-Hard。T0集合大约包含 8570 万个查询,每个任务的查询数量各不相同。论文使用算法1中的采样逻辑从这个集合中总共采样了200万个查询。

ChatGPT当助教

论文从上述的采样过程中一共生成了500万条用系统信息增强的指令,称为FLAN-5M。然后,论文从FLAN-5M中随机抽取了100万条以创建另一个指令集合,称为FLAN-1M。论文使用Azure OpenAI的API收集ChatGPT (GPT-3.5-turbo)对FLAN-5M 的响应,以及GPT-4对FLAN-1M的响应。

论文首先在 FLAN-5M(ChatGPT 增强)上训练Orca,然后在FLAN-1M(GPT-4 增强)上进行第二阶段训练。实际上,论文利用 ChatGPT作为中级助教主要出于下面两个原因:

容量差距(Capacity gap)13B参数的Orca比GPT-4小很多倍(大小未公开)。使用作为能力差距较小的中级教师辅助训练已被证明可以提高较小学生在知识蒸馏中的模仿学习的表现。这其实可以看成是渐进式学习或课程学习的一种形式,学生首先从更简单的例子中学习,然后是更难的例子:因为较长的反应比较短的反应更难模仿,最后学生需要从大学老师对每一个步骤的解释来提升推理能力。

成本和时间(Cost and Time)大规模请求OpenAI的API来收集数据集会受到多重限制比如:

每分钟允许请求的频率限制。

由于服务延迟导致的每分钟可用的token。

提示和token补全长度的美元成本。

如表4所示,ChatGPT的API比GPT-4响应更快,也更便宜。因此,论文从 ChatGPT收集的数据量是GPT-4的5倍。

模型训练

模型训练主要包括分词、打包和损失计算等四个模块。

分词(Tokenization)

论文是用LLaMA中的Byte Pair Encoding(BPE)分词器来处理输入示例。需要注意到,LLaMA分词器将所有数拆分为单独的数字,并以字节的形式来分解未知的 UTF-8 字符。为了处理变长序列,论文将填充token “[[PAD]]” 添加到LLaMA分词器的词汇表中。最终生成的词汇表包含 32001 个token。

打包(Packing)

为了优化训练过程并有效地利用可用的计算资源,论文采用了打包技术。打包技术主要将多个输入的示例拼接成一个序列用于模型训练。执行打包需要满足拼接后的序列总长度不超过max_len = 2048个token。论文首先将输入示例打乱,然后将示例分成几组,使得每组中拼接后的序列长度最多为max_len。填充token(padding token)会添加到拼接好的序列后,以实现训练数据的输入序列长度统一为最大值max_len ,平均每个序列打包 2.7个示例。

损失(Loss)

为了达到可训练Orca的目的,论文只计算在教师模型生成的token上的损失,即模型主要学习通过系统信息和任务指令生成的响应。

计算(Compute)

论文在20个80GB内存的NVIDIA A100 GPU 上训练Orca。在 FLAN-5M(ChatGPT 增强)上训练4个epoch需要160小时,而在FLAN-1M(GPT-4 增强)上继续训练相同的epoch数量需要40小时。考虑到流量限制、端点负载以及查询和响应对的长度分布,论文分别用了2周和3周的时间从 GPT-3.5-turbo (ChatGPT) 和 GPT-4 从多个端点收集数据。

实验设置

论文制定一个严格的评估协议,考虑了一系列不同的能力,包括写作、理解、分析、数学和逻辑推理。

基线(Baselines)

论文将 Orca与下面的基线模型进行对比:

Text-Davinci-003(TD-003)Text-Davinci-003属于GPT-3.5系列的生成模型,它针对文本补全进行了优化。

ChatGPTChatGPT (GPT-3.5-turbo) 是功能最强大的GPT-3.5模型,是对 text-davinci-003 的改进版。

GPT-4GPT-4 是GPT家族中最新的模型,在各种专业和学术基准上达到了人类水平的表现。对于ChatGPT和GPT-4,论文使用“2023-03-15-preview”版本的OpenAI API。

VicunaVicuna是一个开源的聊天机器人,通过从ShareGP收集的用户共享的对话上微调 LLaMA进行训练。

任务(Task)

论文主要评估了Orca 在开放式生成方面的能力及其推理和理解复杂推理任务的能力的表现。表 5显示了用于评估不同任务的数据集的统计情况:

开放式生成能力(Open-ended Generation Capabilities)

Vicuna使用了基于GPT-4的评估框架来评估自动化聊天机器人的性能。他们最初设计了八类问题来测试聊天机器人性能的各个方面,发现 GPT-4可以产生相对一致的分数以及对这些分数的详细解释。在此配置中,GPT-4从0 到10的范围内对模型的生成质量进行评分。我们利用相同的设置并使用三个不同的提示集合进行实验,这些提示集合涵盖了广泛的开放式回答任务:

Vicuna这些是 Vicuna 中提出的原始提示。这80个提示分为九种技能,包括通用、知识、角色扮演、常识、费米、反事实、编码、数学和写作能力。

Awesome提示Awesome ChatGPT提示是提示示例的集合,主要与 ChatGPT 模型一起用作参考。这些提示提供了一种有效的方式来自动执行大量任务,包括写作、翻译、总结、分析等。这些提示基于164个角色,例如生活教练、创业技术律师、占星师、棋手、统计学家和笔记助理。

WizardLM 提示WizardLM 提示是一组基于实际任务的提示示例。这些提示来自开源项目、平台和论坛。它们分为 29 种不同的技能以及不同的难度级别。这些技能涵盖了人类智能的一些主要要求,包括数学、学术写作、调试、代码生成和推理能力。

推理能力(Reasoning Capabilities)

AGIEvalAGIEval 是一个以人为中心的基准,用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。基准源自为一般人类应试者准备的官方和标准入学和资格考试,例如普通大学入学考试(例如GRE、GMAT、SAT)、法学院入学考试 (LSAT)、数学竞赛、律师资格考试和国家公务员考试。该基准在以人为中心的标准化考试的背景下评估基础模型。表6显示了关于考试、每年参加这些考试的人类参与者数量、涉及的主题、示例数量和平均token数的单个任务统计数据。在这项工作中,论文只考虑多个数据集的英语语言选择题。

Big-Bench Hard (BBH)BIG-Bench Hard 是一套包含23个具有挑战性的 BIG-Bench任务的套件,引入这些任务是为了衡量大型语言模型的能力和局限性。论文只使用与多项选择题相对应的数据集,使用标准的零样本提示进行评估,并且不使用任何标记的例子。

开放式生成能力的评估结果

表7显示了候选模型(例如,Vicuna、Orca)在三个数据集上针对 ChatGPT(GPT-3.5-turbo)和 GPT-4 作为参考模型的性能,其中GPT-4用作判断/评分者。候选模型的性能被衡量为候选模型与参考模型相比所获得的总分的百分比:

Orca达到ChatGPT的95%的质量和GPT-4 85%的质量,Orca在总体上比 Vicuna提高了10分。

Orca 在Vicuna的原始评估设置上的表现与ChatGPT 相当。

Orca 对跨越各种生成角色的提示表现出了强大的性能。对于跨越 164 个开放式生成角色的Awesome提示数据集,Orca达到了ChatGPT98%的质量和GPT-489%的 质量,表现出了强大的性能。

推理能力的评估结果

AGIEval任务上的评估结果

表 8 显示了Orca与基线模型在英语多项选择问题的 AGIEval 基准测试中的标准零样本(无范例,无 CoT)性能比较。这些任务中的每一项的性能都是使用精度来衡量的,且遵循了与 AGIEval 中提出的完全相同的评估配置。

Orca在所有任务上的总体表现与Text-da-Vinci-003 相当,并达到了 ChatGPT 88%的水平。但Orca 明显落后于GPT-4;

对于此类分析和推理任务,Vicuna 的表现要差得多,仅达到了 ChatGPT62%的水平,而开放式生成的质量为 85%(表 7 与表 8)。这表明Vicuna这种开源语言模型的推理能力很差。

Orca与Text-da-Vinci-003 的表现相当,比 ChatGPT低5分,但在数学相关任务(SAT、GRE、GMAT)上,Orca与ChatGPT的差距更大。

GPT-4的性能远远超过所有其他模型,但在这个基准测试中仍有很大的空间,因为所有模型的表现在所有任务中都明显低于人类的表现。

Orca的性能因系统消息的类型而异。对于已经训练好的模型,空的系统消息通常效果很好。

ChatGPT在不同任务的450个示例中优于Orca(ChatGPT-beats-Orca 示例)。这些例子中的大部分来自 LSAT-LR (22%) 和 LogiQA (21%) 任务,而其他LSAT任务和SAT-Englis 任务各贡献不到 10%。

Orca在不同任务中的 325 个示例中击败了ChatGPT(Orca-beats-ChatGPT 示例)。在这些例子中,大部分来自LogiQA (29%),而其他LSAT任务和 SAT-English 任务各贡献不到 10%。

数据规模和助教(Scaling and Teacher Assistance)为了分析渐进式学习的影响,论文将只使用了GPT-4增强的数据 (FLAN-1M) 训练的Orca与在 ChatGPT (FLAN-5M) 和GPT-4 (FLAN-1M) 两个数据上都训练的结果进行对比。如表10 所示,使用ChatGPT作为助教辅助数据量增长5倍的方法能够使得模型性能显著提高4.5分。

论文也随机分析了100个ChatGPT打败Orca (ChatGPT-beats-Orca)和Orca打败ChatGPT(Orca-beats-ChatGPT)的例子:

领域知识(Domain knowledge)模型需要专门的领域知识来解决一些问题,例如特斯拉电池、化学概念等。分别有15%和21%的ChatGPT-beats-Orca 和 Orca-beats-ChatGPT示例属于这个类别。

复杂推理(Complex reasoning)一些例子需要复杂的推理,例如对超过五个物体或人的推理。比如以“一个塑料棚里有6个大小相同的长方形菜池,从左到右依次排列?”开头的逻辑推理题。然后要求模型捕捉六个池塘的空间关系并进行空间推理。ChatGPT-beats-Orca 和 Orca-beats-ChatGPT示例分别有14% 和18%属于复杂推理类别。

长上下文(Long context)一些示例具有长上下文(包含多个文本段落的段落),这需要模型能够对长文本跨度进行推理。16%的ChatGPT-beats-Orca 示例具有长上下文,而只有8%的Orca-beats-ChatGPT示例具有长上下文。这一结果凸显了ChatGPT 在建模长上下文方面优于 Orca。

几何推理(Geometric reasoning)像“立方体的体积与对应立方体球体的体积之比是多少?”这样的问题就需要模型能够对几何对象进行推理。ChatGPT-beats-Orca和Orca-beats-ChatGPT示例中分别有2% 和5%属于此类,表明这两个模型在几何推理方面的性能差距较小。

「LaTeX推理(LaTeX reasoning)有些题目中含有LaTeX排版,此时需要模型能理解LaTeX符号才能解决这些问题。例如,“$xy$平面中的一条直线穿过原点,斜率为$\frac{1}{7}$。以下哪一点位于直线上?”这需要模型能够处理分数运算符。ChatGPT-beats-Orca 和Orca-beats-ChatGPT 示例中分别有 2% 和 10% 属于这个类别。

Big-Bench Hard任务上的评估结果

表 11 显示了 Orca 与基线模型在Big-Bench Hard上使用零样本提示的性能比较。Orca 在所有任务上的综合表现略好于ChatGPT,但明显落后于GPT-4,比 Vicuna 高出113%。与 AGIEval的结果类似,Vicuna在此基准测试的复杂推理任务上表现不佳。Orca虽然明显优于Vicuna 且略优于ChatGPT,但平均性能为49.7%,落后于GPT-4 26%。另外,论文还发现GPT-4报告了Big-Bench的数据污染问题,不知道LLaMA的训练数据(Vicuna 和 Orca 使用的基本模型)或Flan-V2集合或Vicuna的数据是否存在此类问题训练数据。

由于Orca和ChatGPT在BigBench-Hard上的平均性能比较接近,因此接下来需要拆解每个任务观察性能差异:

1. 文本蕴含和语义理解

Orca 在蕴涵(形式谬误)和语义理解(消歧QA和Snarks)方面表现更好。

在正式的谬误任务中,模型必须确定是否可以从一组陈述中有逻辑地推导出给定的论点,Orca 在该任务上比ChatGPT提高了 4.5%。

BBH基准测试中有两个语义理解任务:消除歧义QA,其中给定一个带有歧义代词的句子,需要模型确定代词是否可以隐式推导出来,或者句子本身是否有歧义,另一个目标是从两个几乎相同的句子中识别讽刺的句子。Orca在消除歧义QA和Snarks上分别超过 ChatGPT 11.1% 和5.8%。Snarks任务衡量模型检测讽刺语言的能力。

2. 时空推理

与ChatGPT相比,Orca在时间推理、空间推理和基于颜色的推理方面表现出更好的推理能力。

Orca在时间序列(时间推理)、导航(遵循导航指令)、彩色物品(识别给定上下文的对象颜色)方面分别优于ChatGPT 102%、3.6% 和 1.7%。

3. 因果判断

Orca在因果判断任务上表现出色,该任务衡量模型回答有关短篇小说因果问题的能力。

Orca 的性能与GPT-4相当,同时超过ChatGPT 4.7%。

4. 多语言理解

Orca和ChatGPT在检测翻译错误任务(确定翻译句子中的翻译错误类型)上的水平差不多。

虽然结果显示出Orca有巨大的潜力,但注意到BBH对多语言能力的评估有限,需要更多评估才能更好地得到有效的结论。

5. 知识储备

Orca在需要各种知识的任务(例如体育、艺术家、幽默等)方面表现不如 ChatGPT,但在电影推荐方面表现更好。

对于运动理解(确定与体育相关的句子的合理性)和Ruin Names任务(这个任务要求模型能识别出艺术家、乐队、电影等名称,然后改变其含义并产生幽默的名称),Orca的表现比ChatGPT差得多,可能是由于缺乏足够的体育、艺术家、乐队、电影知识以及英语幽默相关的知识。

另一方面,Orca在电影推荐任务中的表现明显优于ChatGPT,略低于GPT-4(给定电影列表,从电影选择列表中推荐相关电影)。

6. 逻辑和几何推理

与 Orca 相比,ChatGPT 显示出卓越的逻辑推理能力。

在布尔表达式和谎言测试任务(测试用布尔表达式或自然语言表达的逻辑推理)中,ChatGPT的表现比 Orca至少高出 9%。

在逻辑推导任务(推导一个序列中物品的顺序)中,Orca在五个对象的任务上的表现优于ChatGPT,但在三个对象和七个对象任务上,ChatGPT表现更加出色,至少比Orca高出 4.9%。

根据几何形状测量任务上(从完整的 SVG 路径元素预测形状),ChatGPT具有比Orca更好的几何推理能力。ChatGPT在这项任务上的表现优于 Orca 23%,这凸显了 Orca 与 ChatGPT 相比缺乏几何推理能力。

7.表格理解

ChatGPT比Orca具有更好的表格理解和推理能力。

在penguins in a table任务中(这个任务需要根据对表格中事实的理解回答问题),Orca落后于ChatGPT 7.4%,由此凸显Orca与ChatGPT在表格理解和推理能力上差距较大。

总结

从完整的评测报告来看,Orca在13亿参数的情况下,做到了等同甚至在某些方面超过 ChatGPT 的性能的表现。开源模型性能超过ChatGPT的时刻真的越来越近了!

参考文献

1. GPT-4: https://openai.com/gpt-42. ChatGPT: https://openai.com/blog/chatgpt3. WizardLM: https://github.com/nlpxucan/WizardLM4. Vicuna: https://lmsys.org/blog/2023-03-30-vicuna/5.Alpaca:https://github.com/tatsu-lab/stanford_alpaca6.Flan:https://arxiv.org/pdf/2301.13688.pdf

原文链接:点此阅读原文:大语言模型的安卓时刻来临!微软发布Orca模型,性能达到ChatGPT-3.5的水平,超越Vicuna 113%

联系作者

文章来源:羚牛AIGC

作者微信:AigcLN

作者简介:专注于AIGC(生成式人工智能)领域应用的普及和研究。关注GPT和国内大语言模型(LLM)在企业实践和个人生活中的应用。让1亿人正确、高效、便捷的用上人工智能服务,用AI来武装我们,让工作和生活因AI而美好。

0

评论0

没有账号?注册  忘记密码?