GPT-4有一个32k版本,会比普通的GPT-4性能提升多少呢?

GPT-4有一个32k版本,会比普通的GPT-4性能提升多少呢?

原标题:GPT-4有一个32k版本,会比普通的GPT-4性能提升多少呢?

关键字:性能,硬盘分区,性能测试,版本比较,GPT

最佳回答:Trisimo崔思莫

回答字数:1584字

8K、32K大致可以理解为【上下文窗口长度】,

我们举个简单的例子,如果你和ChatGPT之间一轮对话长度为500单词,粗略地表示为500 tonkens,

那么GPT-4-8K,大致可以保持16轮的对话,包括你的输入和GPT的输出。之后它会逐渐忘记之前说过的话,而且错误率会大增,漏洞百出,出现明显的幻觉。

——现在想起来,在ChatGPT中 GPT-4 model 被设置为3小时25条。 这个25条可能就是GPT-4-8K维持性能的极限。OpenAI鼓励用户在有限条数内结束话题,而不是无限延长话题。

而GPT-4-32K,就可以保持64轮-80轮左右对话。

*上下文窗口长度并没有精确的参数,它其实本质上对应的是逻辑复杂度,微软系的Token计算是基于神经网络深度的,如果你只是纯粹聊天,逻辑复杂低,那么上下文窗口长度是可以拉长的,而不是完全基于单词数。而且GPT每次输出的词汇量长度也不一样。

LLM模型的主要的功耗开销,其实来自于复杂推理,跟单词数并不完全挂钩,所以想GPT-3.5虽然也输出了很多单词,但你可以看出来,它输出的都是套话和空话,也就是说它更倾向于输出来自于Transformer的原始响应,而不是深度推理,没有多少实质性的帮助,这种模式下,其实功耗开销是很少的。

在信息、逻辑密度非常高的对话下,同样是每轮500单词,GPT-4-8K,连16条都撑不住。逻辑复杂度对应到功耗,并非是个线性值,提升的3倍的复杂度,它的计算资源开销远超3倍。随着对话长度的增强,GPT必须每次都维持在高层神经网络推理,这对功耗是一种很大的考验。如果你刷新了话题,可以让逻辑密度陡然降低,所以不要去长时间的对话,要把一个话题切分成几个话题。

我试想过一种方案——就是基于“小结”的上下文技术,比如每十条对话进行一次逻辑压缩,尽可能剪掉多余的非主要逻辑和细节。在GPT每次新的输出时,去回溯访问“小结”而不是全部上文,这样可以让上下文窗口大大延长,同时也不会损失太多核心记忆。

本文链接:

联系作者

回答作者:Trisimo崔思莫

0

评论0

  1. 目前似乎还没有详尽的 8k 和 32k 的性能对比报告。

    不过题主似乎在预设 32k 理应比 8k 在模型性能上更好,但个人怀疑这并不一定,8k 和 32k 不是 Pro 和 Pro Max 的关系。因为长上下文可能意味着采用了稀疏注意力等提升效率的方法,这可能会牺牲模型的性能。

    有流言称 32k 版本是在 8k 基础上进行微调的。

    hjl4am 2023-10-09 0 回复
没有账号?注册  忘记密码?