GPT-4 从模型架构、模型训练到成本的所有细节被曝光,哪些信息值得关注?

GPT-4 从模型架构、模型训练到成本的所有细节被曝光,哪些信息值得关注?

原标题:GPT-4 从模型架构、模型训练到成本的所有细节被曝光,哪些信息值得关注?

关键字:人工智能,热点话题,OpenAI,GPT-4,AI大模型

最佳回答:她的糖

回答字数:4239字

这下OpenAI真Open了

参数数量:GPT-4 比 GPT-3 大 10 倍以上,大约有 1.8 万亿个参数,分布在 120 个层中。专家混合模型(Mixture of Experts, MoE):OpenAI 使用了 MoE 模型,共有 16 个专家在模型中,每个专家约有 1110 亿个 MLP 参数。每次向前传递都会路由到两个专家中。注意力机制共享的参数大约有 550 亿。推理(Inference):每次向前传递推理(生成 1 个 token)只使用约 2800 亿个参数和约 560 TFLOPs。这与一个纯密集模型的向前传递需要的约 1.8 万亿参数和约 3700 TFLOPs 形成了对比。数据集:GPT-4 在约 13 万亿个 token 上进行了训练。这些并不是唯一的 token,它们也将 epochs 计算为更多的 token。文本数据为 2 epochs,代码数据为 4 epochs。从 ScaleAI 和内部获取了数百万行的微调指令数据。GPT-4 32K:在预训练阶段,有一个 8k 的上下文长度(seqlen)。GPT-4 的 32k seqlen 版本是基于预训练后的 8k 进行微调的。批大小(Batch Size):在集群上,批大小在几天内逐渐增加,但最终,OpenAI 使用的批大小为 6000 万。由于不是每个专家都能看到所有的 token,所以这只是每个专家的 750 万 token 的批大小。并行策略:为了在他们的所有 A100s GPUs 上实现并行,他们使用了 8 路张量并行,这是 NVLink 的限制。除此之外,他们还使用了 15 路管道并行(可能使用了 ZeRo Stage 1,块级 FSDP)。训练成本:OpenAI 的 GPT-4 训练 FLOPS 是大约 2.15e25,在大约 25000 个 A100s 上运行了 90 到 100 天,MFU 在 32% 到 36% 之间(极低的利用率部分是由于需要从检查点重新开始的故障数量极多)。如果他们在云中的成本是每小时约 1 美元/A100,那么这次运行的训练成本将是约 6300 万美元(现在,预训练可以用约 8192 个 H100 在约 55 天内完成,成本为 2150 万美元,每小时 2 美元/H100)。专家混合模型的权衡:选择使用的专家数量是需要权衡的(例如:MoE 在推理上非常难处理,因为并不是每个 token 的生成都会利用模型的每个部分。这意味着当其他部分被使用时,一些部分可能会处于休眠状态。在服务用户时,大大降低了利用率),一个原因是更多的专家更难以在许多任务上泛化。更多的专家也可能更难以实现收敛。对于如此大规模的训练运行,OpenAI 选择在专家数量上更保守(研究人员已经证明,使用 64 到 128 个专家可以比 16 个专家获得更好的损失,但这只是纯研究)。GPT-4 推理成本:GPT-4 的成本是 175B 参数的 Davinchi 的 3 倍。这主要是由于 GPT-4 需要更大的集群和达到的利用率较低(它的成本估计是每 1000 个 token 0.0049 美分,用 128 个 A100 推理 GPT-4 8k seqlen,每 1000 个 token 0.0021 美分,用 128 个 H100 推理 GPT-4 8k seqlen。值得注意的是,我们假设有相当高的利用率,并保持批量大小较高)。多查询注意力(Multi-Query Attention):OpenAI 正在使用 MQA,这样只需要 1 个 head,可以显著减少 KV 缓存的内存容量。即使是这样,32k seqlen 的 GPT-4 肯定无法在 40GB A100s 上运行,8k 的则受到最大 bsz 的限制。连续批处理(Continuous batching):OpenAI 实现了可变批大小和连续批处理。这样可以在一定程度上允许最大延迟并优化推理成本。视觉多模态(Vision Multi-Modal):这是一个与文本编码器不同的视觉编码器(该架构与 Flamingo[2] 类似),具有交叉注意力。它在文本预训练后,通过另外约 2 万亿个 token 进行微调(对于视觉模型,OpenAI 本想从头开始训练,但是它还不够成熟,所以他们决定先从文本开始以降低风险。视觉模型的主要目标之一就是能够读取网页并转录图片和视频中的内容,为自主智能体提供服务。他们训练的数据包括联合数据(渲染的 LaTeX/文本),网页截图,YouTube 视频采样帧,并围绕它运行 Whisper 以获得转录)。推测解码:OpenAI 可能在 GPT-4 的推理过程中使用了推测解码(不确定 100%)。其思想是用一个更小更快的模型预先解码几个 token,然后将这些 token 作为一个单独的批次输入到一个大型的 oracle 模型中。如果小模型对其预测是正确的 – 大型模型同意,那么我们就可以在一个批次中解码几个 token。但是,如果大型模型拒绝了草拟模型预测的 token,那么其余的批次将被丢弃,我们继续用大型模型。关于新的 GPT-4 质量降低的阴谋理论,可能只是因为他们让 oracle 模型接受来自推测解码模型的低概率序列。推理架构:推理在一个由 128 个 GPUs 组成的集群上运行。这些集群分布在不同地点的多个数据中心中。它使用 8 路张量并行和 16 路管道并行。每个由 8 个 GPUs 组成的节点只有约 1300 亿个参数。为什么没有 FSDP?:可能的原因之一是他们获得的一些硬件基础设施是旧的一代。在本地计算集群中这是非常常见的,因为组织通常会通过几个波次升级基础设施,以避免完全停止运行。数据集混合:他们在 13T 个 token 上进行了训练。CommonCrawl 和 RefinedWeb 都是 5T。去除因多次迭代而产生的 token 重复,我们得到了一个更为合理的未说明 token 数量:这就是秘密数据。此时,我们已经听到了一些关于部分数据来自 twitter,reddit 和 youtube 的传言。有一些猜测包括:LibGen(400 多万本书),Sci-Hub(8000 多万篇论文),GitHub 的全部内容。

转载 侵删

本文链接:

联系作者

回答作者:她的糖

0

评论0

没有账号?注册  忘记密码?