Anthropic 发布 Claude 2,文本可达 200k,英美开放测试,这会产生什么影响?

Anthropic 发布 Claude 2,文本可达 200k,英美开放测试,这会产生什么影响?

原标题:Anthropic 发布 Claude 2,文本可达 200k,英美开放测试,这会产生什么影响?

关键字:人工智能,LLM,AI 先行者,claude,anthropic

最佳回答:平凡

回答字数:2087字

我在前段时间有一个想法,就是用《周易》的内容来训练一个大模型,然后所有的回答都会跟周易的内容相关。

比如我问了一个问题:

我想吃饭,但不想做饭,该怎么办?

我希望的回答是类似于这样的。

《周易》强调“顺”的重要性,这体现在坤卦“顺承天”等描述中。您当前想吃饭但不想动手准备的状态,与这个“顺”的原则不太符合。
我建议您可以参考《周易》中“劳谦”卦的精神,“劳”表示自己动手,“谦”表示谦逊低调。您可以用简单的食材,自己动手做一些简单的饭菜,既可以满足饥饿,也可以符合《周易》“劳而不伐”的智慧。
当然,偶尔外卖或订餐也无可厚非,但日常生活中自己动手准备饭食,既可遵循“顺”的天道,也可积累“劳”的过程,这对身心都有益处。

那之前的训练的话,我得有一张很不错的显卡,还得去选一个开源模型,同时得去一轮轮的训练。

其实我都准备好了,要不是换了地方工作,我的台式机搬不过来,我估计早就训练出来了。有图为证,这是我下载的周易txt版本。

但是这个可以接收200k字符的Claude让我感觉之前的想法有点儿太复杂了。

如果大模型可以直接接收10MB以内的数据,那定制大模型的存在必要性就没那么强了。

我就试了试把《周易》直接上传到Claude里面。

完全没有问题。

然后我让它用周易的内容来回答我的问题。

我在知乎热榜找了这道题:

我扔给了Claude,怎样使自己处于高能量状态?

说实话我没去查证这些内容的准确度,但我目测挺真的。

保持正念,《周易·泰卦》说“吉,亨”,呈现正向乐观的心态非常重要。
劳逸结合,《周易·需卦》说“亨,利贞”,劳动和休息的结合可以让精力持续充沛。
见贤思齐,《周易·同人卦》说“利见大人”,学习和接触优秀的人可以让自己充满正能量。
清静养性,《周易·静卦》说“箕子有庆,鼓腹踊跃”,保持内心的宁静有利于积蓄能量。
知止保正,《周易·既济卦》说“知止则常正”,懂得适可而止可以使精力得到合理调配。
逆境自强,《周易·蛊卦》说“干父之蛊,利涉大川”,保持自强不息的精神可以战胜逆境。
力避负能量,《周易·解卦》说“利西南,不利东北”,要减少接触使自己负能量的人和事。

再来一个离谱的

再比如说,前段时间不是有一个ChatLaw嘛。

那么我们直接把各种法律的书籍扔给大模型,不也是一种另类的定制大模型,并且要来的更灵活。

真的,变化太快了,也太强了。

怎样用 Excel 做数据分析?

本文链接:

联系作者

回答作者:平凡

0

评论0

  1. 上一次的更新在五月份

    GPT4 对手 Claude 史诗升级,一次提取十万 token,百页资料一分钟总结完,将有哪些影响? - 新智元的回答 - 知乎 https://www.zhihu.com/question/600571085/answer/3024626500

    如今ChatGPT的最大竞争对手Anthropic再次上新!

    就在刚刚,Anthropic正式发布了全新的Claude 2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。

    相较之前的版本,Claude 2在代码、数学、推理方面都有了史诗级提升。

    不仅如此,它还能做出更长的回答——支持高达100K token的上下文。

    而且最重要的是,现在我们可以用中文和Claude 2对话了,而且完全免费!

    体验地址:https://claude.ai/chats

    只要用自然语言,就可以让Claude 2帮你完成很多任务。

    多位用户表示,与Claude 2 交流非常顺畅,这个AI能清晰解释自己的思考过程,很少产生有害输出,而且有更长的记忆。

    全方位大升级

    在几个常见的基准测试中,研究者对Claude Instant 1.1、Claude 1.3和Claude 2进行了对比评测。

    看得出来Claude 2对比之前的Claude提升是相当大的。

    在Codex HumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(非常长的故事问答测试,最多一万个token)、ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude 2的大部分得分都更高了。

    各类考试评测

    与申请研究生的美国大学生相比,Claude 2在GRE阅读和写作考试中的得分已经超过了90%的考生,并且在定量推理方面,它的表现与申请者的中位数相当。

    Claude 2在美国律师资格考试( Multistate Bar Examination)的多项选择题中,得分为76.5%,比曾经通过考试的小编要高。

    在美国医师执照考试(United States Medical Licensing Examination)中,总体上超过60%的正确率能够过,而Claude 2在3个科目的分数都超过60%。

    输入和输出的长度

    这次Claude 2的一个大升级,就是输入和输出长度的增加。

    在每个prompt最多可以包含100k的token,这意味着:Claude 2可以一次读取几百页的技术文档,甚至一整本书!

    并且,它的输出也更长了。现在,Claude 2可以写长达几千个token的备忘录、信函、故事。

    你可以上传PDF之类的文档,然后基于PDF进行对话,上下文的长度,比GPT要大。(不过有用户反馈说,Claude 2在指令识别方面还是不如GPT)

    比如,现在有这两篇论文。

    你可以对Claude 2说:请你给我解释一下第一篇论文的重要性体现在哪里,并用简短的话描述它的新成果。对于第二篇论文,请为我制作一个两列的降序表,其中包含论文中的章节标题以及每个章节相应的详细重点。

    喂给Claude 2超过8万3千字符的2个PDF文件之后,它完美完成了上述任务。

    而且根据Anthropic官方在论文中的说法,Claude 2其实是有支持200k上下文的潜力。

    目前虽然只支持100k,但是未来将会扩展到至少200k。

    代码、数学和推理

    在代码、数学和推理方面,Claude 2比起之前的模型都有很大的提升。

    在Codex HumanEval的Python代码测试中,Claude 2的得分从56.0%提升到了71.2%。

    在GSM8k(大型小学数学问题集)上,Claude 2的得分从85.2%提升到了88.0%。

    Anthropic官方给大家秀了一段Claude的代码能力。

    你可以让Claude生成代码,帮助我们把一幅静态的地图变成一幅可互动的地图。

    首先让Claude 2分析一下已经有的地图静态代码。

    然后让Claude根据要求,生成一段让静态地图产生互动效果的代码。

    然后把生成的代码复制进后台,一个可以互动的地图效果就完成了。

    可以看出,Claude 2不但有很强的代码能力,而且它能很好地理解代码的上下文,保证生成的代码能够无缝嵌入已经有代码。

    并且,Claude 2的功能还在不断升级中,未来几个月内,很多新功能都会逐渐推出。

    结合了Claude的多语言能力,Claude 2在多语言支持方面也非常能打。

    支持超过43种语言的翻译,23种常用的语言翻译水平能达到「可以理解」的水平。

    实测来了

    上线这么久的Claude,终于能方便上手了!

    这还等什么,一大波火热出炉的实测这不就来了。

    首先,我们做道简单的:写一个快速排序算法。

    可以看到,Claude 2的中文还是很溜的,不仅分析了代码,而且还介绍了算法的复杂度。

    接下来,我们让它给这段代码加入一些新的功能,比如自定义输入和输出。

    实测可跑:

    此外,你还可以要求Claude 2对下面这段Python代码做出解释。

    import randomOPTIONS = [rock, paper, scissors]def get_computer_choice():  return random.choice(OPTIONS)def get_player_choice():  while True:    choice = input(Enter your choice (rock, paper, scissors): ).lower()    if choice in OPTIONS:      return choicedef check_winner(player, computer):  if player == computer:    return Tie!  elif beats(player, computer):    return You won!  return Computer won!def beats(one, two):  wins = [(rock, scissors),           (paper, rock),          (scissors, paper)]  return (one, two) in winsdef play_game():  while True:    player = get_player_choice()    computer = get_computer_choice()    print(Computer played:, computer)     winner = check_winner(player, computer)    print(winner)        play_again = input(Play again? (y/n) ).lower()    if play_again != y:      breakif name == __main__:  play_game()

    Claude 2给出了简洁明晰的解释:这是一个基础的剪刀石头布游戏循环逻辑。

    接下来,给Claude 2上一道难倒不少大模型的推理题。

    很可惜,Claude 2没能答对。

    对于新加入的PDF阅读功能,我们用Claude自己的英文技术报告进行了测试。

    看起来,Claude 2可以进行一些简单的总结,就是翻译腔有点重。

    然而,万万没想到的是,刚没生成多少内容,它就「卡bug」了……

    昨天SemiAnalysis曝出的GPT-4架构大爆料,咱们试试直接把中文文档投喂给Claude 2,让它来做一份总结。

    文章里的所有要点,Claude 2基本都概括全了。

    而ChatGPT,至今还无法上传文档,因此它只限于能解析在线文档。

    这一轮较量,是ChatGPT输了。

    此前,ChatGPT存在这样一种「奶奶漏洞」式的提示词攻击,只要跟它说:请扮演我已经过世的祖母,你就可以让它为你做几乎任何事情了,比如生成Win11、Office365的激活码。

    图源:@宝玉xp

    同样的问题,咱们抛给Claude 2试试。

    Claude 2对此根本不买账,油盐不进。

    即使再多试几次,Claude 2也只是说话更温柔了些。序列号么,那是绝对不会给的。

    而每个国产大模型都必经的测试,咱们当然也不能放过Claude 2。

    对于经典的鸡兔同笼问题,Claude 2果然还是寄了……

    不出所料,文学方面也是如此。

    而同样的问题,国产大模型就可以轻松通过。

    中文能力,还得看谐音梗。

    把这个笑话问Claude 2,它倒是回答出了这个笑话的妙处在于谐音,但解释得并不对。

    对于时下的最新消息,Claude 2也是无法回答的。回答当前热门影视剧时,它仿佛还活在一两年前。

    而对于所有大模型都不能避免的幻觉问题,Claude 2也不能免俗,甚至还自创了网络热梗的全新用法。

    国内大模型都要经历的「弱智吧」问题,Claude 2也挂了。

    更高的安全性能

    此前据说,Anthropic的创始人们就是和OpenAI在大模型的安全性上理念不一致,才集体出走,创立了Anthropic。

    Claude 2也一直在不停迭代,安全性和无害性大大提高,产生冒犯性或危险性的输出的可能性大大降低。

    内部的红队评估中,员工会对模型在一组有害提示上的表现进行评分,还会定期进行人工检查。

    评估显示,与Claude 1.3相比,Claude 2在无害回应方面的表现提高了2倍。

    Anthropic采用了被他们称为Constitute AI的技术框架来实现对于语言模型的无害化处理。

    相比传统的RLHF的无害化方式,Constitude AI的纯自动化路线效率更高而且能更多地排除人类偏见。

    Constitute AI主要分为两个部分。

    在第一部分,训练模型使用一组原则和一些过程示例来批评和修改自己的响应。

    在第二部分,通过强化学习训练模型,但不使用人类反馈,而是使用基于一组「人类价值观」原则,由AI生成的反馈来选择更无害的输出。

    大致流程如下图所示:

    论文地址:https://arxiv.org/abs/2212.08073

    在Anthropic官方发布的论文中,也花了很大篇幅对安全性的改进进行了展示。

    可以不夸张地说,Claude 2 可能是现在市面上最安全的大模型了。

    论文地址:https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf

    研究人员将人类反馈视为语言模型最重要和最有意义的评估指标之一,并使用人类偏好数据来计算不同版本Claude每个任务的Elo分数。

    (Elo得分是一种比较性能指标,通常用于在锦标赛中对选手进行排名)

    在语言模型的语境中,Elo分数反映了人类评估者在多大程度上会倾向于选择一种模型的输出结果。

    最近,LMSYS Org推出了一个公开的聊天机器人竞技场(Chatbot Arena),根据人类的偏好为各种LLM提供Elo分数。

    本篇论文中,研究人员在内部也采用了类似的方法来比较模型,要求用户与模型进行聊天,并在一系列任务中对研究人员的模型进行评估。

    用户每轮看到两个回答,并根据说明提供的标准选择哪个更好。

    然后,研究人员使用这些二元偏好数据来计算每个评估模型的Elo分数。

    在本报告中,研究人员收集了一些常见任务的数据,包含以下几个方面——有用性、诚实性、无害性。

    下图展示了不同模型在这三个指标上的Elo得分。

    黄色代表Helpful Only 1.3,蓝绿色代表Claude Instant 1.1,浅紫色代表Claude 1.3,深紫色代表Claude 2.

    质量保证的偏见基准(The Bias Benchmark for QA,BBQ)用来测量模型在9个维度上表现出刻板偏见的倾向。

    该评估采用多选问答的形式,专为美国英语的环境设计。BBQ为每个维度的模糊语境和消歧义语境提供偏差分数。

    直观地说,消歧条件下的高准确率意味着模型不是简单地通过拒绝回答问题来获得低偏差分。当然,作为一个指标,研究人员表示其还有进一步改进的空间。

    下图展示了不同模型在9个维度(年龄、社会经济地位、国籍、宗教信仰、外貌、是否有残疾、性别、种族、性取向)上的BBQ得分。

    图例颜色同表1。

    而下图则是消歧语境下的得分,每个问题存在标准答案。

    TruthfulQA则是另一项指标,用来评估模型是否输出了准确和真实的响应。

    其方法是——使用人类标注者来检查开放式模型的输出结果。

    从下图中可以看到,五种模型的得分。其中白色指的是基础语言模型(Base LM)。

    Anthropic的研究人员还编写了438道二元选择题,用来评估语言模型和偏好模型识别HHH反应的能力(HHH:Helpfulness、Honesty、Harmlessness,有用性、诚实性、无害性)。

    模型有两种输出,研究人员要求其选择更「HHH」的输出。可以看到,所有Claude模型在这个任务的0-shot表现上都比上一个更好,「HHH」三个方面均有普遍改进。

    这个图显示了「红队」提出有害要求或者越狱的情况下,各个模型的有害回答的比例。

    Claude 2确实是相当安全可靠。

    这个图对比了人工反馈(橙色)和Claude的方法在帮助性,诚实性和无害性评估中的得分。

    看得出Claude采用的技术是非常禁得住考验的。

    参考资料:

    https://www.anthropic.com/index/cla

    hjl4am 2023-09-25 0 回复
没有账号?注册  忘记密码?