OpenAI 大模型新进展,将推出多模态大模型,你对此有哪些期待?

OpenAI 大模型新进展,将推出多模态大模型,你对此有哪些期待?

原标题:OpenAI 大模型新进展,将推出多模态大模型,你对此有哪些期待?

关键字:科技,模型,数学模型,模型制作,OpenAI

最佳回答:周舒畅

回答字数:2690字

实现“左图右史” 和 “金石之声” 是我对多模态大模型的一个重要期待。

视觉多模态:左图右史

这里说的“左图右史”,不是指标准释义上的“图书多”,而是说希望解决传统图书中以文字代图造成的难以阅读问题。试比较以下文字和图像:

5月20日,高树勋的第二十七师在宁都县的南团,接到南昌行营何应钦来电,奉命驰赴沙溪增援王金钰的第五路军。5月22日,高树勋师在中村被红军紧紧包围。战斗进行了两天一夜,23日上午,红军发起总攻击,高树勋慑于被歼,急忙率领残部狼狈东逃。红军在中村击溃了高树勋师,势如破竹,日夜不停地向东奔袭。王金钰的第五路军和孙连仲的第二十六路军分别被红军打垮后,东线朱绍良的第六路军更感岌岌可危了。朱绍良为保存实力,除留胡祖钰的第五师守卫广昌外,慌忙率部向南丰撤退。胡祖钰则在广昌城内拼命地加固工事,修筑了一条5里多长的土墙,墙外加挖战壕,还修了许多碉堡,妄图坚守广昌。 小吴剪辑:毛泽东战术:红军七百里运动战横扫敌军20万人

显然,只有图片才能帮助我们理解从中村长途奔袭广昌是如何一个打法。

但是目前通过外挂实现的“低整合度”的多模态大模型,读不懂也画不好这种矢量图,遑论能和文字结合。这正是我对新一代多模态大模型的期望。

进一步的,希望多模型大模型能把理解生成扩展到多帧,就是把上面这张图动态化成视频。类似以下这个讲解二战法军作战计划的动画(见视频 【中文熟肉】古德里安讲解闪电战 的 2:33 秒附近)。

声音多模态:金石之声

或许是因为“言之无文,行而不远”的幸存者偏差原因,中国文学很早就进入修辞与内容并重的阶段,甚至饱受“以辞害意”之苦。那么当大语言模型终于能懂得语音时,我们或许可以期待“金石之声”的量产化。事实上,许多语言模型已经有了一些简单的押韵能力。进一步,因为机器的时间比人命便宜,我们可以把“格律”这个送走的荆棘王冠又请回来。大模型因为强大的“搜索枯肠”能力,应该可以比一般人更容易达到“情文并茂”的水平。当“两句三年得”可以通过一个小集群跑几天来实现,这个生意应该是划算的。

在古诗里,整齐句式、押韵、平仄音步或轻重音步、音拍,都可以算是在塑造音系层的格律美感(对仗算意义层的)。而在古诗和现代诗里,都能有说话时本来就有的情调美感。格律美感也不能说对美感塑造没有用,但问题是,格律美感太限制诗歌本身的句子写作了。尤其是到了现代,现代人须要寄寓的情感意蕴更繁复,就由此而迫切地须要在现代诗里挣脱了所有格律的束缚,而将诗歌里的意义美感完整的释放出来,由此让意义美感-情调美感的双重核对系统得到更好地塑造。
音乐性要素与诗歌作品的情感表达有没有关联? – poem的回答 – 知乎 https://www.zhihu.com/question/530447747/answer/2466791072

当我们不再局限于人类语音时,我们还可以捕捉到“龙吟方泽,虎啸山丘”的美和下文所说的“哭笑咳啸”:

而情调美感则还原到生理机能-生存行为里伴随的一些自然发音现象的定性参数(例如哭笑咳啸等等)并将其类推到对意义美感进行联想时的情感化语气的调校里。(出处同上)

最后加个私货,我不知道何时 AI 能生出《易安难安》这样的图文曲并茂的作品来。

本文链接:

联系作者

回答作者:周舒畅

0

评论0

  1. OpenAI 9.25发了个关于多模态版本的Blog说chatGPT现在能够看、听、说了,体验过的同学反馈还不错,那这意味着什么?

    应用>纯粹的智能改进

    同纯粹的智能提升相比多模态是一种应用可能性的提升。如果说原本的大模型瓮中之脑,那多模态无疑是把给这个瓮中之脑接上和现实世界相联的触角。

    从技术上,这意味着之前这是在多种算法的综合上发力,而不是单纯的强调智能这一个维度。这种衔接在过去其实是吃力的,OpenAI看起来也没把这问题解决的特别好,所以在文章中贴了这么一小段:

    这啥意思呢?其实是说语音识别通用度不好,反过来推测一点就是语音识别还没有自己的大模型。希望OpenAI能在这种综合和衔接上取得进展。

    值得一提的是,这种方向和很多人心心念念的GPT5是不完全重叠的,GPT5更像是让瓮中之脑更为强大,而多模态综合则是让现有大脑的智力得到更好的发挥。如果OpenAI贴着多模态走,那意味着他们在战略上把应用放到了更前面。这是对的,并且和人类的大脑产生智能的情况更贴近。人类大脑皮层是相似的,但因为感知反馈处理内容不同而分成了不同的功能区来处理听觉、视觉和味道。

    OpenAI如果真的如预期在这条路上彻底跑通商业模式,那无疑是对整个行业的最大刺激,也会给自己打下超级巨头的坚实基础。

    从应用上这意味着应用范围的拓宽。那里需要多模态呢?显然是物理空间。纯粹的瓮中之脑其实是把应用局限在数字空间,而多模态则打通数字和物理世界。最直接的,这类能力会激活多模态的应用。

    典型的多模态应用是什么呢?是PokemanGo

    介于纯粹的数字世界和纯粹的物理世界之间就是这种增强现实的场景,没多模态这类应用根本玩不转。

    在过去这做起来成本太高了,算法的综合像一道天堑一样,让只有很少的公司才能做,而做的人里面只有很少的人才能成功,而综合后的大模型如果能削减这个壁垒,那显然的这类应用就可以像当年的App一样,只承担产品化的部分,进而迎来自己的大普及。

    但多模态的路线所影响的却不只是这类增强现实应用,它的影响需要放在整个AI产品化进程的角度来看,才更清楚。

    过去十年AI的创业其实是失败的,但核心的好处是让我们把所有的坑都趟了一遍,更容易在这些失败的基础上,看清和经营未来的现实。

    (华为的战略从侧面反映过去这十年硬应用的探索,重点可以回想N)

    背后隐含的产品路线

    我们画下不精确的产品路线图。

    递进次序是纯粹数字空间,数字和物理空间融合,硬件产品,机电类产品,另一个轴是智能的多模态程度,如:单一维度的通用智能和多模态的通用智能,那产品分布会是:

    如果再加个维度,每一类中再有两类:一类是幻觉无碍的,一类是需要解决幻觉问题的。

    那么很可能就可以得到这次大模型驱动的产品落地的次序。产品上会从软应用到硬应用再到机械应用,特征上会从幻觉有益到需要对冲。

    这么说可能不容易懂,我们拿过去的产品做个类比(尝试的好处就这么出来了,可以举例子)。

    同样是对话,客服是软应用,智能音箱是硬应用,招待机器人则是机械应用。

    这些产品看着超级像,但每加一部分外延都导致游戏规则有巨大变化。

    软应用的输入相对容易标准化,到硬应用则变的麻烦,在语音上过去我们用近场和远场来形容这种差异。都是对话,需不需要解决环境干扰问题导致的产品复杂度会有巨大差异。到现在为止,智能音箱其实也没彻底解决这问题,你在边上放电视它一样会变不好使。

    类似的准备好图片的人脸识别和真实场景的人脸识别有同样问题。后者没准就需要在光线没那么好的情景下处理问题。

    硬应用同机械应用比自身的稳定性会形成更多问题。比如机器人突然间脖子扭的角度不对,或者一条狗跑来跑去的时候腿瘸了,即使还是能够听说,那产品体验也会出现巨大起伏。

    详细挖掘差异还会有很多,也许看着没那么大,但真做产品这种细小差异是忽略不得的。

    如果把纯粹数字的新特征比喻成是一个巨大的氢气球,可以四处乱跑,成本不高。那硬应用差不多相当于挂块砖头,机械应用则像挂一个小铅球。挂的东西论体积远不如气球,但对氢气球能不能飞起来影响是巨大的。

    为了它能飞起来,最好的办法是尊重新的环境条件,然后配个大引擎变成飞机。而变飞机显然是个系统工程。

    上面这种产品分类正好也就是Agent的分类。多模态的进展同样会打开Agent的范围。真做这类产品,打造自己的飞机,核心依赖会是什么呢?

    参照:AI Agent:大模型与场景间的价值之桥,但不适合当纯技术看

    参照:幻觉即智能:AI落地里顺势与逆势的分界线

    回到系统型超级应用:多模态Agent的典型架构

    典型Agent的运行状态是这样:

    这看着很常识,但其实带来一个巨大挑战。

    你的多模态大模型是统一的,但你的应用是分散的。(单一产品的集成这问题不大,但那反倒是特例)

    大模型的通用能力,需要一种通用的通路才能很好的输出去,否则就像武侠小说里说的内功很好,但经脉很差,没的发挥。

    为了把这种通用能力发挥出去,最关键的就是需要对感知一侧进行通用的抽象和管理。

    这里面有个依赖次序,各种应用本质上依赖多模态大模型,但多模态大模型依赖多模态的感知。

    这种依赖递进影响什么呢?

    影响特征的传导次序,本质上被依赖方的特征会传导到后者去,后者只能扛着。反向传播则影响要小的多。

    比如多模态感知在产品上肯定具现成五花八门各种产品,然后数据从各种传感器来,传感器会完成模拟到数字的转化,所以出来的基本都是结构化数据。

    这就导致必然出现过去操作系统中的硬件抽象层,是个传统工作要解决基础架构问题,要有一个抽象层覆盖五花八门的设备。

    多模态应用则要充分利用大模型的特征,这时候接口形态都会发生巨大变化。会从传统的API一点点变成现在的NLI。你需要适应大模型的基础特征,比如面对前面提到的幻觉问题。API的调用值是变化的,但它的Schema是稳定的,是在限定的Schema下返回各种值。但NLI,则Schema也是打开的。这就不好应对需要确定结果的场景。是真正的挑战。

    分层并分割这种应用后得到什么呢,会得到系统型超级应用。

    参照:AI个体户的崛起:普通人“屁胡”的机会、模式和风险

    系统型超级应用的极简例子

    我们举个最简单的例子:

    假设你想给自己做个数字分身,打理自己在各个平台上的活动。

    那么对个人而言,你需要创建基本人设、风格(风格要考虑目标平台场景的特征)等。你的应用基于这种人设通过NLI和大模型进行交互产出对应的图文、视频等内容。

    内容产出后希望能覆盖抖音、视频号等,那这部分要能自动操作对应的平台,并从对应平台抓取反馈再进行进一步的产出。这部分操作和反馈的方式其实是平台定义的。

    这时候就会发现多模态大模型的能力是共通的,人设是共通的,但平台相关操作是个性化的,所以如果真想做简单了,那就需要区隔这三层,通用大模型给平台操作部分的指令总是:发布XX,平台操作部分的反馈总是,当前评论是XX,还是API和HAL的范畴。但基于人设、风格、热点等产出内容的部分则完全不一样了,肯定是要走NLI的。典型的操作系统三层分割,但面向应用一端接口会有很大变化。

    小结

    和朋友闲聊时有时会说提到:如果放在一个大的时间轴上看,那么起于百余年前的社会变革其实远未结束,而我们犹在变革之中等待下一个稳定态。同样的把时间刻度缩小,再把这个视角挪回来看人工智能那其实是一样的,过往一切关于智能硬件的尝试都会换个样子重来,螺旋递进,寻找自己下一个稳定的形式。

    相关阅读:

    AI落地里那些假的机会

    抖音带来的启示

    歪理大集合,谁也跑不了

    寻找智能飞轮:从数据枯竭到多模态再到自生成

    历史的螺旋

    公众号上发消息:群,可以获取入讨论群的二维码。

    hjl4am 2023-10-09 0 回复
没有账号?注册  忘记密码?