ChatGPT 背后的 OpenAI 是家怎样的公司?

ChatGPT 背后的 OpenAI 是家怎样的公司?

原标题:ChatGPT 背后的 OpenAI 是家怎样的公司?

关键字:互联网,人工智能,OpenAI,AI技术,ChatGPT

最佳回答:知乎科技

回答字数:7191字

OpenAI 是怎么做出 ChatGPT 的,在那里工作又是一种怎样的体验?我们采访了参与 ChatGPT 训练工作的 @Trinkle ,请他为我们讲了讲 ChatGPT 背后的工作,以及他是如何一路学习成长并进入 OpenAI 工作的。

在 OpenAI 工作是怎样的体验?

Q:你是怎么成为 ChatGPT 的训练师的?

Trinkle:去年大环境特别好,我投了很多的岗位,然后很幸运地成为了 OpenAI 的一员。因为 OpenAI 基本上都是 PhD(博士)起步,我是 Master(硕士),而且刚一毕业就去了。

大学的时候我就搞了一些开源的项目,更多是偏向于强化学习的一些训练。这也是 OpenAI 为我破例的很大原因。

Q:ChatGPT 的训练师都包括哪些工作?

Trinkle:有的人偏重于数据收集,我个人更偏重于基础架构方面的,就是在整个强化学习(一种计算机算法)的训练里,对系统进行一些优化,比如说如何才能够让它跑得更快,让它用最少的 GPU 最快地跑完强化学习的训练。

Q:ChatGPT 需要大量的数据,传言整个训练团队多达 40 人,这是真的吗?

Trinkle:并没有。真正核心训练的只有十几个人。

Q:这样小的规模是怎样能够进行这么大规模的模型开发的?

Trinkle:招了一些特别牛的人,反正那些人都比我牛,真的能够做到一个人起到十个人的作用。

Q:OpenAI 的工作环境怎么样?

Trinkle:OpenAI 的工作氛围比较轻松,首先公司人少,管理很扁平化。人少就意味着沟通的效率提高了,大家可以很直接地进行沟通,内部都是透明公开的,而且很少开会。如果公司人很多的话,各种政治斗争,各种潜规则就会很麻烦。

OpenAI 给与员工的自由度相对来说也很高,没有很多条条框框的限制,也不会强迫员工去做一些不情愿的工作,你可以做一些自己想做的事情,甚至于工作时间、工作时长、工作节奏都可以由员工自己安排。

Q:OpenAI 工作量大吗?

Trinkle:工作量还是很大的,我个人还是经常加班的。其实公司方面并不会给工作施加压力,不过一方面是心里过意不去,另一个方面是大家都很热爱这件事情,觉得这个事情能够做成,很有信心,希望把这件事情做好,所以选择主动加班。

「ChatGPT 是如何训练出来的?」

Q:ChatGPT 的数据来源是哪里?

Trinkle:来自于网上公开的数据,利用爬虫直接爬下来的,像有一些高质量的问答社区一类的。

(Q:嗯?我们好像被点了??)

Q:ChatGPT 的中文对话是怎么训练的?

Trinkle:最开始那个版本,主要是我跟组里另外一个人贡献了一些对话,然后送去训练,当然了,这只占很少一部分。

我觉得更多的在于最前面的预训练的模型所带来的性能的提升。虽然大部分的是英文,但是有很多的语言混合在一起,那里面是有一定的中文语料的。

Q:和 Google 的 LaMDA,和它相比,ChatGPT 有哪些不同?相比其他大模型和对话机器人,成功的关键是什么?

Trinkle:ChatGPT 采用的是 RL——强化学习的方法来训练的。强化学习是从环境里面获取数据的,数据有可能是动态的。

它有环境,它会根据不同的交互产生不一样的行为,然后针对不一样的行为,再去针对性的学习。

而 Google 没有采用强化学习,而是给定一个 Label(标签),让它直接学。它的数据是静态的。

成功的关键取决于数据。数据质量更好,就会更成功。

Q:目前网上晒出的 ChatGPT 的试用中表现出的缺陷,比如准确性、想象力、预测等,这些是什么原因造成的?

Trinkle:我觉得是这样,想象力的根源在于神经网络的一些随机性,而不是在于一些真正有一个东西叫创造力。

没有的,其实很简单,只要你设置一个参数就好了,然后这个参数如果越大,然后它的随机性就越高,然后越小的话就越确定好的。

我觉得目前的缺陷是中文的数据量不够造成的。你可以测一下,如果相同的问题用英文问,你得到回答,结果质量会比中文更好。

AI 会对人类造成灾难性后果吗?

Q:有没有一些你觉得未来可能是在 AI 上面跟完全无法取代人的,就是无法攻克的?

Trinkle:我觉得理论上来说应该没有,因为人脑其实也是一个神经网络,然后 AI 只是模拟是一个过程,大家都是神经网络,其实没有什么区别。

最后可以做到完全和人一样,就相当于你可以很廉价去生产一些生产力,然后如果社会的生产力发展了,那么整个社会的科技水平会得到进一步的提升。

Q:这也涉及到知乎上提到的一个问题,AI 会不会大规模取代一些人的工作,比如说程序员?

Trinkle:我觉得不会的,是因为你可以这样想,你如果有一个 idea。放在之前的话,你可能要招很多人,然后去开一个公司,才能让你实现 idea。但是如果有了 AI,你可能只要花几个钱,雇一堆 AI,让人家帮你写帮你实现,你这样可以更快去迭代一些新的 idea,这个生产力是不一样的。

人应该从重复性的机械性的劳动中解放出来,然后去做一些更有价值有意义的事情,甚至说,人也可以躺平,这都没有问题。

比如雇几个 AI 帮你干活,雇他们可能没几个钱。他们就相当于印钞机,你就可以躺了。我觉得就算是普通人也完全可以用 AI,因为只要后面成本下来,这是完全没有问题的。

Q:科幻小说里边,然后也经常提到 AI 的奇点问题,有没有说 AI 最终就是取代人类,摆脱人类控制,你会有这种想法吗?

Trinkle:目前还没有,因为现在只是单纯的输入输出,相当于一个程序。它还暂时不能被改造成病毒。距离电影里面那种具有独立思维的模式还差得很远。

Q:那 ChatGPT 目前对您生活产生了什么实际影响吗?

Trinkle:我经常用它来 Debug。比如有一个问题不知道,就直接 ChatGPT 上提问,相比于 GOOGLE,它更简单、更方便、更迅速。

在工作之外,日常生活里,有一次我想检测一下它的世界观、比如哲学观,就问了一些问题。

我感觉它非常唯物主义以及非常现实主义,你可以测试一下试试看。

Q:之前还有一个新闻,谷歌工程师跟 AI 聊天,结果聊到崩溃,你怎么看待这件事情?

Trinkle:十分扯淡,字面意义上的扯淡。以当前的技术水平,还不能认为 AI 具有感情,不知道他是怎么得出这个结论的。

高三开始玩知乎的天才少年

Q:最早是怎么开始使用知乎的?

Trinkle:高三时候,当时是为了想要获得一些有用的信息。

Q:使用知乎对你的学术或职业方向有过什么影响吗?

Trinkle:在知乎上看到「有哪些建议需要给什么大学生忠告」之类的问题,就考虑去学习 React。

正好在 2020 年的时候,我开发了一个专门查询美国签证预约时间的网站。一开始用 PHP 写,后来觉得 React 是未来,还是需要学习一下,说不定什么时候可能要用到。

所以后来就去学了 React,跟另外一个小伙伴一起把这个网站重构了一下。

Q:你是从什么时候发现自己有数学方面的天赋?

Trinkle:我小学一年级的时候就开始搞奥数了,然后我做数学会比别人快很多,字面意思快很多,就不用思考,然后直接做。

Q:能介绍下你选择从事计算机专业的过程吗?

Trinkle:初中一年级开始编程,高二不顾父母反对(我妈嫌弃计算机专业是一个万金油专业)参加全国信息学竞赛,发挥失常,得了铜牌。

高考想去清华计算机,搞跪了没去成,大一达成全系绩点前十成就,顺利转入计算机系。

大二加入了朱军老师实验室,首次接触到强化学习。

随团队参加 AI 比赛,获得国际比赛冠军。大四开发了深度强化学习开源平台「天授」,至今已累计获得 5700 颗星。

在国外读研究生毕业,收到 OpenAI 面试,成为公司里第一位硕士毕业应届生员工。

(Q:我……)

之前了解过 ChatGPT 能力来源的读者应该知道,GPT-3.5 一大优化方向便是强化学习,而使得 Trinkle 进入 OpenAI 的一大原因也是他在强化学习方向的工作积累。2020 年,他便在《目前最好用的大规模强化学习算法训练库是什么?》问题下贴过自己的开源项目「天授」,欢迎大家前往围观了解:

他在 ChatGPT 发布后的回答:

在 ChatGPT 发布后的这两个多月里,知乎相关讨论也已经累计高达 8.8 万,总浏览量超过了 2.1 亿,欢迎大家前往话题页了解最新进展及技术讨论:

访谈撰写:李渔

本文链接:

联系作者

回答作者:知乎科技

0

评论0

  1. OpenAI就不多说了,网上到处都是资料——我又没和它打过交道,说什么都是无的放矢。

    至于ChatGPT嘛……技术上的事还是可以说一说的。

    一、滥觞

    ChatGPT技术的起源,其实有两个根;这两个根到了ChatGPT是融为一炉了,但想要说清楚,还是分开来说比较好。

    1、理工科的力大砖飞——统计学

    这个故事还是要从google输入法说起。

    其实google输入法的设计思路我已经讲过很多次了。

    简单说,过去我们研究语言,总是从词性-语法开始。名词、动词、形容词、介词……然后搭配主谓宾定状补,再加上倒装句疑问句反问句等等语法结构——如果是英语,还得加上各种时态变化……

    这些研究的确很厉害,几句话把人类语言理的清清楚楚……唯一的缺憾就是例外稍微有那么一点点的……太多了。

    后来计算机传入我国,“汉字输入”就成了最大的难题。毕竟键盘只有26个字母键,而不同的汉字呢,仅常用字超过6000,不太常用的加起来起码五六万……

    最容易想到的,就是……拼音?

    可是,汉语的声母-韵母数量有限,同时又都是单音节。也就是一共也就数百种不同的发音,加上四声音调也不过数千,重码实在太多……

    那么,能不能基于主谓宾定状补这个语法系统、再搭配上汉语词性,提高输入精确度呢?

    总之,长话短说:传统的、基于人类理性搞出来的语言学-语法学,不能说是毫无价值,但还是在这个领域遭遇了惨败。仅基于词组的输入法能够略微提高精确度……

    这个时候,Google弄了个奇怪的思路。

    这个思路大致上这样的:假如我是外星人,看到地球各国的语言文字(却无法和我们直接交流),我会怎么分析?还能主谓宾定状补吗?

    既然不能;那么,能不能基于统计学,胡乱捅它一竿子呢?

    具体来说是这样:找尽可能多的中文资料;然后,统计第一个字是“我”时,下一个字的出现概率(比如,“我的”“我想”“我去”,它们的出现概率各不相同);然后,再统计前两个字确定后、第三个字的出现概率……

    将来,用户敲字时,根据每个位置的出现概率以及用户敲出来的音节,自动调整候选字次序,会不会……有点好用呢?

    极其出乎意料的,这个生硬的“力大砖飞”套路成功了。

    事实上,当时Google统计到了第七个字(六阶马尔科夫链);对比后发现,只需统计到第三个字就足够了(二阶马尔科夫链),轻松碾压过去的一切成果——继续往后统计,表格体积会飞速膨胀、但效果却不明显。

    这个成功鼓舞了理工死宅们。他们顺理成章的开起了脑洞:既然这样能行,那么,“对对联”是不是“已知上联,求下联对应字出现的概率”?律诗是不是也能这么玩?

    啊,直接拼概率对出来的玩意儿生硬、怪异?

    那么,改进一下,同时统计一下上联/下联内部、第一个字之后出现第二个字的概率,是不是就完美了?

    没错,这就是当年轰动一时的“人工智能对联系统”以及“电脑作诗系统”。

    类似的,做中-英文翻译,中文出现一些词,英文是不是也会关联的出现一些词?

    那么,能不能基于统计模型,完成语言的自动翻译呢?

    这种系统,怎么说呢……只能算一个很酷,但也很傻的小玩具。

    没人敢想,将来它会发达到这样个样子……

    2、工程师的生搬硬套、满嘴胡话——神经网络

    我们人类最感兴趣的奥秘之一,可能就是大脑的秘密了。动不动右脑开发动不动大脑只用了5%之类的……不客气的说,这些大多数只是伪科学。

    不过,大脑的秘密,我们至今所知的确极其有限——有限的意思,大概也就是比完全无知好那么一点点罢了。

    总之,根据其中的一点点信息——神经细胞会生长出树突和轴突,用它们连接彼此;树突和轴突会增加,也会消失;电信号可以通过生物电原理在轴突构成的神经上面传递——工程师们又开始“生搬硬套”“满嘴胡话”了。

    毫无根据的,他们这样猜测:

    1、每个神经细胞都会从连接到自己的诸多神经细胞那里接受信息

    2、每个神经细胞都会把接收到的信息经过一定处理、然后以电信号的方式传递给其他神经细胞

    然后,戏肉来了:

    3、我们知道,演化论(进化论)是极其成功的科学理论;而这个理论的核心是“反馈思想”

    4、神经细胞轴突/树突的产生和萎缩可能是“反馈”造成的——比如说,当一个判断成功时,所有给出了“会成功”这个判断(对应于生物电高电平)的神经细胞得到奖励,使得接受信号的神经细胞增强和它的联系;反之,当一个判断失败时,联系就被削弱。

    5、基于演化论一样的原理,当大量神经细胞被反复如此训练后,这些细胞构成的网络就获得了智能。

    换句话,我们可以认为每个神经细胞是一个数学函数,这个函数可能长这样:

    f(x, y, z)=ax+by+cz

    其中,xyz是给这个神经细胞输入信号的另外三个神经细胞;而系数a、b、c的取值增大/减小就改变了细胞x、y、z传来的信号的权值——比如,x的判断总是对的,那就把a增加;而y的判断经常错,那就把b减小;z的判断对错各半,那么c就保持不变。

    当然,你也可以把公式搞的更复杂一些,或者形式变一变;但基本思路就是这样了。

    这就是人工神经网络。

    如你所见,这是毫无根据的瞎猜。

    其实已经有不少证据,证明神经细胞并不是这样工作的——比如说,单个神经细胞就能做异或,而单层人工神经网络,哪怕你搞几百几千个节点,它也做不了异或。

    但是,这个玩意儿极其成功。上世纪七八十年代,它甚至在足球博彩预测上超过了人类,发现了“某强队在雨天表现不佳”等人类都未曾发现的信息。

    不过,限于机能,以及“做不了异或”的紧箍咒,人工神经网络热闹了一阵,之后就沉寂下去了。

    二、发展

    人工神经网络再一次引起轰动,是2016年,alpha go突然在围棋方面击败围棋世界冠军、九段大师李世乭之后;然后才发现李世乭已经失去世界第一人称号,新的世界第一人是中国围棋大师柯洁……于是,17年,柯洁哭了。

    alpha go是google旗下的DeepMind公司出品。DeepMind是一家英国公司。

    哪怕全世界都对人工神经网络失去了兴趣,但仍然有一部分人没有停下探索的脚步;DeepMind就是这样一群撞了南墙不回头的理工死宅们组成的公司。

    首先,他们改良了神经网络,不再是当年那种简单的单层神经网络,而是由海量节点构成的多层神经网络DNN——理论早已证明,多层神经网络是可以实现异或的。

    其次,他们通过数学工具,把神经网络对应的计算抽象为“张量”,然后专门设计了加速张量计算的专用处理器TPU。这种处理器可以更有效的完成人工神经网络所需的计算工作(后来显卡公司也加入了战场,现在大多公司的神经网络用的是nVidia的显卡)。

    从此,神经网络之后发展迅猛。

    比如,现在它已经不是早期简单的DNN了,CNN、RNN、RvNN……梯度下降、反向传播……

    随之而来的,人工神经网络的工作/训练效率越来越高、规模越来越大……

    跑题了。

    总之,既然神经网络发展的如火如荼,电脑对对联、电脑作诗……是不是也可以升个级呢?

    你看,已经证明了,神经网络其实是一种自动拟合系统——你给数据和标准结果,它自动“变”成一个拟合函数,使得输入数据就能得到预期结果……

    那么,给了上联,下联的每个字应该是什么,是否也可以通过神经网络训练出来呢?

    类似的,做中-英文翻译,中文出现一些词,英文也会关联的出现一些词,这是否也可以通过神经网络训练出来呢?

    更进一步的,其实……从(切片后的)语音流到文本流,这不也是同一个原理吗?

    不过,还是前面的问题:怎样让神经网络输出的一系列字看起来更像一句话、而不是散碎的出现频率统计查询结果呢?

    这就是seq2seq模型。

    这个模型很好用。

    很轻松的,搞出来的AI对联、AI作诗已经……哦,怎么说呢,虽然基于神经网络搞出来的小玩具更惊人、更好玩了,但我们已经不再在意它了。

    一个,除了惊人的alpha go/zero,更惊人的GAN(对抗生成网络)在图形图像方面成果更加震撼;另一个嘛……

    但,相关研究仍然在突飞猛进中。

    在seq2seq模型的基础上,研究者又提出了“注意力”机制。

    这就好像我们看书一样:我们并不会平均的注意每一个字,而是会把注意力集中在某些“关键”上面;如果不给一句话里面的关键词更高的权值,翻译显然不会精准。

    seq2seq经过这么一番发展完善,就成了Transformer模型:

    啊,又跑题了?

    并没有。

    虽然我一直围绕着对联、律诗、翻译说事;但如果你有技术天分,应该已经发现了——其实,这些都是一回事!

    它们的基础结构,都是类似的。

    没错,包括问答。

    如果我说到对联、律诗,你还反应不过来;那么当我提到翻译时,你其实已经应该触类旁通了——对呀,输入和输出的字数并不需要是严格相等的!

    基于神经网络的可塑性,如果我拿来训练的不是对联、律诗、翻译文本,而是问题和答案……

    三、小成

    其实,如果你到了alpha go才知道神经网络,已经太迟太迟了……

    早在alpha go成名前好几年,神经网络已经发展的如火如荼了;这种发展甚至使得美国人如坐针毡、生怕被AI统治了……

    于是,2015年,OpenAI成立了:

    OpenAI 是美國一個人工智能(AI)研究實驗室,由營利組織 OpenAI LP 與母公司非營利組織OpenAI Inc所組成,目的是促進和发展友好的人工智能(英语:Friendly artificial intelligence),使人类整体受益。OpenAI成立于2015年底,总部位于加利福尼亞州旧金山,组织目标是通过与其他机构和研究者的“自由合作”,向公众开放专利和研究成果。

    OpenAI一直偏向于“力大砖飞”,它的GPT3堆了夸张的1750亿个参数,效果令人震惊。

    如今如日中天的Chat-GPT(Generative Pre-trained Transformer)是GPT的一个对话特化版本。

    正如GPT的名字所隐含的,它的背后其实还是Transformer模型,只是参数极多、训练数据规模骇人而已。

    当然,这意思并不是说,你随便找个Transformer的开源实现、然后灌入数据,一切都会有的……这不太可能,神经模型训练时还是会有很多很多意外的,比如一不小心就陷入某个解出不来、或者学习效率总是很低很低……这些都是需要专人分析、改进的。

    另外,既然这玩意儿其实就是模仿人类说话,那么训练数据的质量显然至关重要……

    昨天看到的,直接笑傻了:

    你看,起码在“拟人”程度上,它似乎并不比ChatGPT差太多——但这样的AI,大概并不是你想要的。

    hjl4am 2023-09-28 0 回复
没有账号?注册  忘记密码?