ChatGPT 模型有哪些缺陷和不足,改进的方向?

ChatGPT 模型有哪些缺陷和不足,改进的方向?

原标题:ChatGPT 模型有哪些缺陷和不足,改进的方向?

关键字:人工智能,神经语言程序学,对话系统

最佳回答:JioNLP团队

回答字数:7348字

这两天,ChatGPT模型真可谓称得上是狂拽酷炫D炸天的存在了。

讲真,NLP这块,这两年把 Bert 引领的预训练 + finetune 的技术模式榨干之后,业界凉了许多。ChatGPT 真的是给 NLP 这堆快要烧尽的火又添了一桶油。

ChatGPT 确实非常牛逼,令很多人感觉到,人工智能模型分为两类———一类是ChatGPT,另一类是人工智障

很多人都在讨论如下问题:

ChatGPT 会取代搜索引擎吗?
ChatGPT 是不是要让程序员都失业啊?
ChatGPT 出来了,google 和百度两家是不是要凉啊?

你看,还上热搜了:

趁大家都在兴头上,我来浇一盆凉水。分析一下 ChatGPT 到底有哪些不足?

如果还有小伙伴没有看过 ChatGPT 原理的,来看看这篇

大家在玩 ChatGPT 的过程中依然遇到了一些问题和现象

一、ChatGPT 突然就卡壳了

很多小伙伴在和 ChatGPT 交互过程中,会遇到模型突然卡壳的情况。个人认为,这可能是模型以一个极低的概率,输出了终止符导致的。

GPT-n系列模型都是基于自回归方式构建的,在输出对话结果的过程中,是依次按序输出每一个字符的,并设定了终止符<eos>,如果在某一个时刻,模型输出了该字符,则表明输出句子完毕。

毕竟,ChatGPT 依旧是基于概率统计原理构建的模型,必然存在一定极其微小的概率,突然就输出到了一个 <eos> 字符,导致终断输出了。

不过好在 ChatGPT 的多轮对话能力非常强大,只要给出继续的指令,它就能连续输出。

二、ChatGPT 出现了事实性错误

宫廷玉液酒

我们都是知道,这是赵丽蓉和巩汉林的小品台词,用户在这里输入“宫廷玉液酒”,其意图也是想和 ChatGPT 对暗号,看看能不能说出“一百八一杯”,用来测试到底是不是中国大陆的人。

显然 ChatGPT 并没有理解这个对暗号的指示,而是把它当作一个概念解释进行展示了。这并不是事实上真实存在的中国白酒,所以, ChatGPT 已经在一本正经地胡说八道了。

换句话说,ChatGPT 模型无法分清真实和虚构。

它不知道宫廷玉液酒是什么,但是名字和其它一些中国白酒比较像,然后照猫画虎地编了一段白酒的介绍。

电线是谁发明的?

电线怎么成了图灵发明的了?这是事实性错误。

ChatGPT 模型可以马上改口反悔,说出正确的答案,电是特斯拉发明的。

这说明,模型训练过程中,语料确实包含了真实的、正确的信息的。但是在推理阶段,它还是犯错了。

而且这样的错误,伴随着大量的用户测试,也越来越多。大家发现它并不是一个100%稳妥可靠的知识库。

这基本可以得出结论:ChatGPT 无法完全替代搜索引擎

它更适用于一些务虚的任务,比如写小说、写诗歌、搞辩论、写汇报材料、写公文材料(别打我)

三、ChatGPT 没有与实时信息的关联

ChatGPT 虽然有自我意识,但是信息更新停留在了 2021年,它无法连接搜索引擎,将最新、最实时的信息反馈给用户。

这同样说明,ChatGPT 无法替代搜索引擎。反而更适合作为搜索引擎入口的一个非常好的优化

一般像 google 或者百度搜索引擎,需要用户自己输入搜索文字,然后自行浏览网页,找出答案。这个过程还有优化空间,也就是不要让人再找了,直接把结果反馈出来

ChatGPT 有一个很好的功能,它可以润色文字。

ChatGPT可以大大提升打工人的内卷能力

ChatGPT 最适合的一个方向是,能够将搜索引擎上的信息润色、组织成最适合人阅读的形式,直接反馈给用户,而不用用户再去寻找哪一条搜索结果最适合。

Google 做的已经很好了,不是么?

所以可以得出结论,ChatGPT 非但不能替代 Google 和百度,反而,Google 和百度可以研发 ChatGPT 进一步优化搜索引擎,甚至可以把失去的搜索份额重新夺回来。

四、ChatGPT 没有思考能力

Google 前段时间有员工声称感觉到模型具备了意识。

这我感觉不应当叫做缺陷,因为它学习的并非真实的世界,而是那个 reward 模型。

模型并不理解什么叫小猫,也并不真正理解什么叫楼房。它没有触觉、没有知觉。

当然,它也无法观察世界,进行思考和创新。所以,我一直在想,什么时候,模型能够带上传感器,能够真实地感觉一下这个世界,那时的模型应该才能够有更加精准的意识。

甚至,带上一些人类不具备的传感器能力,比如,红外线和紫外线传感器,是不是就能够探知一些人类很难想象的另一个世界。

五、ChatGPT 的其它缺陷

我在知乎上看到有一些用户在苛责 ChatGPT 偶尔也会宕机,也会输出一些低质量的歌词、诗歌、小说等等。

这些缺陷并不是真正的困难和难点,个人认为是太过苛责 ChatGPT 了。

GPT-3 的局限性原因分析

一、有多少人工就有多少智能

在 ChatGPT 出来之前,NLP 业界可谓说已经到了一个冰点了。大家普遍都意识到了当前人工智能技术的一个巨大的缺点,那就是太过依赖标注数据

比如,拿比较成熟的机器翻译模型为例,你没有上千万的双语预料对,那训练出来的模型是充满bug,不堪一用的。此外,语言是不断演化的,你的模型的语料也需要不断更新,以适应人们的需求。

再比如,天池平台上的 AI 竞赛,有非常多的比赛任务,数据量就只有几万条,几十万条。而任务本身又是极具挑战性的开放性问题,这就造成了很多参赛团队和选手都在一个很窄的赛道里拼命地卷。实在太缺数据了呀!!

人工标注数据,不论你标注了几百条,还是上百万条,抑或辛辛苦苦标了上亿条,只要你方法没变,依然是人工来做,那本质就没变

这就类似于人力车和蒸汽机的区别,属于代差。

ChatGPT 虽然出产自 OpenAI——一家财大气粗的 AI 科技公司,该模型的最核心部分,也就是利用NLP+强化学习打造的奖励与惩罚reward模型,实际上也是由大量的人工进行标注训练的。

我喜欢将奖励与惩罚reward模型称为 reward 母体,因为和《黑客帝国》里的 母体 matrix 的概念、作用太相似了。

ChatGPT 模型的能力上限,很大程度就是由这个 reward模型决定。它的拟合能力越接近真实的世界,ChatGPT 也就越能够完成令人惊艳的推理、判断、感知操作。

就像我们需要巨量的语料去完成机器翻译任务一样,reward模型也同样需要巨量的语料来拟合真实世界。这个代价是十分巨大的。

reward 模型拟合不好的地方,就是人们观察到 ChatGPT 模型效果糟糕的地方。那是下一个缓慢爬坡的过程。

二、对标注人员的高要求

惯常认知里,AI模型的数据标注员是个低端的职业。制作一个猫狗分类器,标注员的主要工作就是对每一张图片包含了猫、还是狗进行一个分类,小学生都能做。

然而,ChatGPT 模型里,它所能完成的工作甚至达到了,做高等数学题这种程度。模型输出的结果是否真实可靠,需要reward模型进行评价和反馈。这时候,如果数据标注员没有高等数学知识,我想很难保证模型的精准。

有人猜测,ChatGPT吸纳了 Stack Overflow 里大量的优质答案作为数据,但 Stack Overflow 本身也是由人工一点点构建起来的巨型大厦。

高要求,也就意味着,评价困难。模型质量的提升也较为困难。

三、再大的模型也不是无限

GPT-n 系列模型一代比一代大,从最早大家觉得几个亿的参数和几个G 的文本数据量就叫大模型。到了现在,GPT-3 和 3.5 里,模型参数达到了上千亿,数据量也达到了上万亿规模。

我们也看到了 ChatGPT 里并非存得下全世界的所有知识,而用户提问则是对全世界所有知识的一个采样,那绝对是一个无限的范围。

吾生也有涯,而知也无涯。以有涯随无涯,殆已!

换在模型上,则是:

模型也有涯,而知也无涯。以有涯随无涯,殆已!

作为一个模型,能够做到这种程度,我必须给100分,因为它已经克服了太多的 NLP 之前的难题,诸如多轮对话的连贯性、指代消岐、讽刺、正话反说等等

我们夸一个小孩聪明,只需要他回答出一个精彩的答案;我们夸一个模型牛逼,却需要它方方面面都给出精彩的答案。

毕竟 ChatGPT 只是一个有限的模型,它不是全宇宙知识汇聚的神。不能要求它掌握全世界知识,一旦出错就把 ChatGPT 贬为人工智障。

但确实,一个需要发展的方向是,如何让模型能够持续更新知识,查询知识。牵着搜索引擎和互联网的牛鼻子,而非把整头牛都抱在怀里。

欢迎关注我的公众号JioNLP,一个NLP抱团取暖的地方,开源软件JioNLP 在Github,目前star数1.7k

本文链接:

联系作者

回答作者:JioNLP团队

0

评论0

  1. 在此前《大型语言模型的涌现能力》、《ChatGPT进化的秘密》两篇文章中,符尧剖析了大型语言模型的突现能力和潜在优势,大模型所带来的“潜在的”范式转变,并拆解了ChatGPT演进的技术路线图。

    在本文中,作者以终为始分析了大模型的智能极限及其演进维度。不同于刻舟求剑式只追求复现ChatGPT的经典互联网产品思维,而是指出了OpenAI组织架构和尖端人才密度的重要性,更重要的是,分享了模型演化与产品迭代及其未来,思考了如何把最深刻、最困难的问题,用最创新的方法来解决。

    (以下内容经授权后由OneFlow发布,原文:https://yaofu.notion.site/e1cd16d1fae84f87aeddf872c838e07c)

    作者|符尧
    爱丁堡大学博士生
    yao.fu@ed.ac.uk

    2022 年 12 月,ChatGPT 横空出世。OpenAI 用一个核弹级的成果改变了科学研究和工程应用的范式。在中国,ChatGPT 受到了广泛的关注与深刻的讨论。

    在过去的一个月里,我走访各大高校、研究院、大厂、创业公司和风投。从北京到上海到杭州到深圳,跟所有头部的玩家们全部聊了一遍。The Game of Scale 在中国已然拉开,风暴中心的玩家们,在已知国内技术和生态与世界前沿的巨大鸿沟下,如何做成这件事?谁能做成这件事?

    秦失其鹿,天下共逐之。

    ——— 《史记·淮阴侯列传》

    1. 三种不同的答案

    我每接触到一个创业公司,都会问同一个问题:”ChatGPT 在那里,你们想做什么?“ 我大概能收到三种不同的答案。

    1.1 做中国的 ChatGPT

    第一个答案很明确,要做中国的 ChatGPT。因为它就在那里,所以想要复现,想要国产化。这是很经典的产品导向中文互联网思维。这种思路也是过去二十年,中文互联网常见的商业模式:首先硅谷做出来一个东西,然后我们把它抄过来。

    但这里的问题是,首先,ChatGPT 可不像打车软件,复现难度完全不可同日而语。光从人的角度看,GPT 的产生,是这个世界上最顶尖的科学家和工程师们从 2015 年开始就不断研究的结果。

    OpenAI 的首席科学家 Ilya Sutskever 深刻地相信 AGI 一定能实现。作为图灵奖得主 Geoffery Hinton 的大弟子,从 2007 年就开始研究深度学习。他的 citation 有 37 万,发过的文章精准踩中了过去十年 Deep Learning 的所有关键节点。即使是如此强大的团队,从 GPT 2 到 GPT 3.5 也花了四年的时间,它的科学与工程的难度可想而知。

    同时,初代 ChatGPT,是 OpenAI 在 GPT 3.5 的基础模型上,花了两星期时间对着 dialog 做 finetuning 之后随手扔出来的 demo。这里真正强的并不是 ChatGPT 这一个产品,而是底下的 GPT 3.5 基础模型。这个模型还在不断地演化,GPT 3.5 系列在 2022 年更新了三个大版本,每个大版本都显著强于前一个版本;同样地,ChatGPT 发布两个月一共更新了四个小版本,每个小版本都在单个的维度上比前一个版本有着明显的改进。OpenAI 的所有模型都在持续不断的演化,随时间推移越来越强。

    这也就意味着,如果只盯着当前 ChatGPT 这一个产品,无异于刻舟求剑。当 ChatGPT 出现的时候,它对已有的语音助手们形成了降维打击;如果看不到基础模型的演化,即使花个一两年辛辛苦苦做出一个类似的东西,那时候 OpenAI 的基础模型也在继续变强,如果他们接着产品化,以新的更强的基础模型 finetune 到一个更强的产品,难道要再被降维打击一次吗?

    刻舟求剑的做法是行不通的。

    1.2 做中国的 OpenAI

    第二种答案是,要做中国的 OpenAI。给出这个答案的玩家,跳出了经典中文互联网产品思维。他们不止看到单个产品,而且还看到了这个产品背后,基础模型不断演化的强大驱动力,来源于尖端人才的密度和先进的组织架构。

    尖端人才的密度:不是一个人集资源带队然后把任务按层级打包分配给底下的人,而是一群顶级的集 science 和 engineering 于一身的人们共同协作;

    先进的组织架构:Language 团队与 Alignment 的团队相互合作迭代,然后底下 scaling 团队和 data 团队帮忙提供基础设施,每个 team 都非常小,但目标明确路径清晰,高度集中资源,朝着 AGI 进发。

    所以,如果要做这件事情,不只要看到产品,还要看到它背后的人才团队和组织架构。按稀缺程度排名的话,人 > 卡 > 钱。

    但这里的问题是,不同的土壤对创新的鼓励程度是不一样的。在 OpenAI 刚创立的 2015 年,它的投资者们都相信 AGI ,即使当时看不到什么盈利的点。现在 GPT 做出来了,国内的投资者们也都信了 AGI,但相信的点或许也不一样:到底是信 AGI 能挣钱,还是信 AGI 能推动人类发展?

    更进一步地,即使 OpenAI 就产生在这里,明天就出现,但他们跟微软达成的 deal,能否跟国内的云计算厂商达成呢?大模型的训练和推理都需要极大的成本,需要一个云计算引擎作为支撑。微软可以倾尽所有,让整个 Azure 给 OpenAI 打下手,这个换到国内,阿里云有可能给一个创业公司打下手吗?

    组织架构很重要,只有尖端的人才和先进的组织架构才能推动智能的不断迭代与进化;但它同样需要跟所在的土壤做适配,寻找可以 flourish 的方法。

    1.3 探索智能的极限

    第三种答案是,要探索智能的极限。这是我听到的最好的答案。它远超刻舟求剑式的经典互联网产品思维,也看到了组织架构和尖端人才密度的重要性,并且更重要的是它看到了未来,看到了模型演化与产品迭代,思考着如何把最深刻,最困难的问题用最创新的方法来解决。

    这就涉及到了思考大模型的极限思维。

    2. 极限思维

    观察现在的 ChatGPT / GPT-3.5 ,它明显是一个中间状态,它还有很多可以加强,并且马上就能加强的点,包括:

    更长的输入框:开始的时候,GPT 3.5 的上下文最长到八千个 token;现在的 ChatGPT 上下文建模的长度似乎已经过万。并且这个长度明显可以接着增长,在融入 efficient attention 和 recursive encoding 的方法之后,context length 应该可以接着 scale 到十万,甚至百万的长度;

    更大的模型,更大的数据:模型的大小还没有到极限,MoE 可以接着把模型 scale 到 T 的量级;数据的大小还没有到极限,人类反馈的数据每天都在增长;

    多模态:在增加了多模态数据(音频,图片),特别是视频数据之后,总体与训练数据的大小可以再增大两个量级,这个可以让已知的能力接着按 scaling law 线性增加,同时还有可能继续出现新的涌现能力。比如可能模型在看过各种几何形状的图片,以及看过代数题之后,或许会自动学会做解析几何;

    专业化:现有的模型在文科上大概相当于研究生水平,但在理科上相当于高中或大一大二的学生水平;已有的工作已经证明我们可以把模型的技能点从一个方向挪到另一个方向,这就意味着即使不做任何 scaling,我们依然可以在通过牺牲其他方面能力的情况下,把模型朝着目标方向推进。比如牺牲掉模型的理科能力,把它的文科能力从研究生推到专家教授的水准。

    以上四点只是现阶段可以看到的,马上就可以加强但暂时还没有加强的点,随着时间的推移和模型的演化,会有更多可以被 scale 的维度进一步体现出来。这意味着我们需要有极限的思维,要思考当我们把能够拉满的维度全部拉满的时候,模型会是什么样子。

    2.1 能够拉满全部拉满

    模型的输入框可以接着加长,模型的大小可以继续增大,模型的数据可以继续增多,多模态的数据可以融合,模型的专业化程度可以继续增高,所有这些维度可以继续往上拉,模型还没有到极限。极限是一个过程,在这个过程中模型的能力会怎样发展呢?

    Log-linear 曲线:一部分能力的增长会遵循 log-linear 的曲线,比如说某项任务的 finetuning。随着 finetune 数据的指数增长,模型所对应的 finetune 的任务的能力会线性增长。这部分能力会可预测地变得更强;

    Phase change 曲线:一部分能力会随着 scaling 继续涌现,比如说上文中的模型做解析几何的例子。随着可以被拉满的维度被不断拉满,新的,难以预测的涌现能力会接着出现;

    多项式曲线?当模型强到一定程度,与人类 align 到一定程度之后,或许一些能力的线性增长,所需要的数据,会突破指数增长的封锁,而降低到多项式的量级。也就是说,当模型强到一定程度之后,它或许不需要指数级的数据,而是只需要多项式级的数据,就可以完成泛化。这可以从人类的专业学习中观察到:当一个人还不是领域专家的时候,ta 需要指数级的数据来学习领域的知识;当一个人已经是领域专家的时候了,ta 只需要很少量级的数据就自己迸发出新的灵感和知识。

    所以,在极限思维下,把所有能拉满的维度全部拉满,模型注定会越来越强,出现越来越多的涌现能力。

    2.2 反推中间过程

    在思考清楚极限的过程之后,就可以从极限状态往后反推中间过程。比如说,如果我们希望增长输入框的大小:

    • 如果希望把模型的输入框从千的量级增长到万的量级,可能只需要增加显卡数量,进行显存优化就能实现;

    • 如果希望接着把输入框从万的量级增长到十万的量级,可能需要 linear attention 的方法,因为此时加显存应该也架不住 attention 运算量随输入框长度的二次增长;

    • 如果希望接着把输入框从十万的量级增长到百万的量级,可能需要 recursive encoding 的方法和增加 long-term memory 的方法,因为此时 linear attention 可能也架不住显存的增长。

    以这种方式,我们可以反推不同阶段的 scaling 需要怎样的技术。以上分析不止适用于输入框的长度,也适用于其他因素的 scaling 的过程。

    这样的话,我们可以得到清晰的从现阶段的技术到 scaling 极限的每个中间阶段的技术路线图。

    2.3 按模型演化进程产品化

    模型在不断演化,但产品化不需要等到最终那个模型完成 — 每当模型迭代出来一个大的版本,都可以产品化。以 OpenAI 的产品化过程为例:

    • 2020 年,初代 GPT 3 训练完成,开放 OpenAI API;• 2021 年,初代 Codex 训练完成,开放 Github Copilot;• 2022 年,GPT-3.5 训练完成,以 dialog 数据 finetune 成 ChatGPT 然后发布。

    可以看到,在中间阶段的每一个重要版本,模型的能力都会增强,都存在产品化的机会。

    更加重要的是,按照模型演化进程产品化,可以在产品化的阶段适配市场。学习 OpenAI 的组织架构来推进模型演化本身,但产品化可以按照本土市场的特征来做。这种方式或许可以既学到 OpenAI 的先进经验,又避免水土不服的问题。

    3. 人工智能显著超过人类的能力

    到目前为止,我们讨论了要用模型演化的视角来分析模型,要用极限的思维讨论模型的演化历程。现阶段马上可以加强的点包括了输入框的长度,更大的模型和数据,多模态数据和模型的专业化程度。现在让我们再把视野放得更长期些,思考在更大的时间和空间中,模型如何进一步地往极限推。我们讨论:

    并行感知:一个人类研究员一次顺序地读四五篇论文已经是极限,但模型输入框变长之后,可以在极短的时间内并行阅读一百篇论文。这意味着,模型对外部信息的感知能力远超人类一个数量级;

    记忆遗传:人类的演化过程中,子代只继承父代的基因,但不继承父代的记忆,这意味着每一次生殖都需要重启一次;在模型的演化过程中,子代可以继承父代的记忆,并且这个继承的程度可控:我们可以设置子代继承 100%,50%,20% 的记忆,或清空记忆,这意味着父代的经验和技能可以不断累积;

    加速时间:人类相互交流的速率是受到人类说话的物理速度限制的,而模型相互交流的速率可以远快于人类,这意味着模型可以通过相互交流来解决人类数据随时间线性增长的问题;人类演化的过程受到物理时间的限制,模型的演化可以比人类的物理时间快上几个数量级,这意味着模型的进步速度可以远快于人类;

    无限生命:一个人的生命有限,百年之后终归尘土,但模型的权重只要不丢失,就可以不断地演化。

    从这些角度来说,人工智能超过人类并不是一件难以想象的事情。这就引发了下一个问题:

    如何驾驭远超人类的强人工智能?

    这个问题,是 Alignment 这项技术真正想要解决的问题。

    4. Alignment 对齐

    当前阶段,模型的能力,除了 AlphaGo 在围棋上超过了最强人类之外,其他方面的 AI 并没有超过最强的人类(但 ChatGPT 在文科上或许已经超过了 95% 的人类,且它还在继续增长)。在模型还没超过人类的时候,Alignment 的任务是让模型符合人类的价值观和期望;但当模型继续演化到超过人类之后,Alignment 的任务就变成了寻找驾驭远超人类的智能体的方法。

    4.1 Alignment 作为驾驭远超人类的智能体的方法

    一个显然的问题是,当 AI 超过人类之后,还可以通过人类反馈让 ta 更强 / 更受约束吗?是不是这个时候就已经管不了了?

    不一定,即使模型远超人类,我们依然又可能驾驭 ta,这里的一个例子是运动员和教练之间的关系:金牌运动员在 ta 的方向上已经是最强的人类了,但这并不意味着教练就不能训练 ta。相反,即使教练不如运动员,ta 依然可以通过各种反馈机制让运动员变得更强且更有纪律。

    类似地,人类和强人工智能的关系,在 AI 发展的中后期,可能会变成运动员和教练之间的关系。这个时候,人类需要的能力并不是完成一个目标,而是设定一个好的目标,然后衡量机器是否足够好地完成了这个目标,并给出改进意见。

    这个方向的研究还非常初步,这个新学科的名字,叫 Scalable Oversight。

    4.2 Alignment 与组织架构

    在通往强人工智能的路上,不只是需要人类与 AI 对齐,人类与人类,也需要高度对齐。从组织架构的角度,alignment 涉及到:

    Pretraining 团队与 instruction tuning - alignment 团队之间的对齐

    这两者应该是一个相互迭代的过程,pretraining 团队不断地 scale 基础模型,alignment 团队为基础模型做 instruction tuning,同时用得到的结果反向指导 pretraning 团队的方向。

    Pretraining / Alignment 团队与 Scaling / Data 团队的对齐

    scaling 负责为 pretraining / alignment 做好基础设施,data 做好高质量数据与人类反馈数据。

    创业公司与 VC 的对齐

    AGI 是一个困难的事情,需要长期投入,这需要各个方面的人都有足够的耐心和足够高的视野。烧一趟热钱后催产品化然后占满市场的逻辑在大模型时代应该已经不复存在了。大模型的游戏要求 ta 的玩家们有足够高的视野与格局,模型的演化会让有足够耐心的,踏实做事人们在长期得到丰厚的回报,也会让只看短期刻舟求剑的人们一次又一次被降维打击。

    5. 结语

    在 2017 年,我刚刚入行 NLP 的时候,花了很大的力气做可控生成这件事情。那个时候所谓的 text style transfer 最多就是把句子情感分类改一改,把 good 改成 bad 就算是完成了 transfer。

    2018 年我花了大量的时间研究如何让模型从句子结构的角度修改句子的风格,一度误认为风格转换是几乎不可能完成的事情。而今 ChatGPT 做风格转换简直信手拈来。那些曾经看似不可能完成的任务,曾经极其困难的事情,今天大语言模型非常轻松地就能完成。

    在 2022 年一整年,我追踪了从 GPT-3 到 GPT-3.5 的全部版本迭代,亲眼看到它一步步地从弱到强不断演化。这个演化速度并没有变慢,反而正在加快。那些原先看来科幻的事情,现在已经成为现实。谁会知道未来会怎样呢?

    彼黍离离,彼稷之苗。行迈靡靡,中心摇摇。彼黍离离,彼稷之穗。行迈靡靡,中心如醉。 ——— 《诗经 · 黍离》

    其他人都在看

    ChatGPT进化的秘密ChatGPT数据集之谜GPT-3/ChatGPT复现的经验教训ChatGPT的一小步,NLP范式转变的一大步比快更快,开源Stable Diffusion刷新作图速度OneEmbedding:单卡训练TB级推荐模型不是梦GLM训练加速:性能最高提升3倍,显存节省1/3

    欢迎Star、试用OneFlow最新版本:

    hjl4am 2023-09-27 0 回复
没有账号?注册  忘记密码?