ChatGPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?

ChatGPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?

原标题:ChatGPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?

关键字:人工智能,OpenAI,ChatGPT

最佳回答:知乎用户

回答字数:1199字

以后OpenAI可以不用开发别的App,所有新的功能都直接往ChatGPT里面塞,慢慢做成支持文字语音,图像和视频的生态,而且相比别的AI应用,ChatGPT真的是做到了完全没使用门槛,因此未来用户量也会更多。总而言之,走向AGI,只需要一个ChatGPT就够了。

不得不说,这次更新展示的图像理解能力太强了,简单的几张图展示了物体分类,物体检测和文本识别等功能。夸张一点地说,图像理解没了,只需要问一下ChatGPT就都能给你回答出来。

以前深度学习任务面临碎片化的问题,不同任务,例如分类和检测,需要不同的模型,而这个问题被ChatGPT给解决了,不管底层实现,对一个普通开发者来说,他不需要关心部署几个模型,调用几个API,只需要用一句句自然语言的提问就能让得到需要的结果。从这个角度来看,ChatGPT解决了深度学习碎片化的问题。

另外关于AI助理的进化,目前已经从文本级别进化到文本加语音,未来也肯定会进化到图像和视频和3D形象,结合SD生成助理的2D形象,结合Nerf或GAN生成3D形象,因此未来ChatGPT不光是一个虚拟助理,还可以是AI教师,AI女友,数字化的亲人,数字化的自己。

总之,对AI的未来越来越看好,因为有像OpenAI这样的公司; 对普通AI研究者的未来越来越不看好,因为在没卡没数据还不够聪明的情况下,差距越来越大,能做出顶级的AI应用的机会越来越小了。

可能这一波AI浪潮下的主战斗已经结束,胜负已分,后面的都是无关紧要的小战役了。

本文链接:

联系作者

回答作者:知乎用户

0

评论0

  1. 这是是AI的又一个进步,生成式AI的上限依然很高。

    OpenAI即将发布的多模态模型代表了AI的发展方向与过去有本质的区别,过去我们通过AI去自动化或优化搜索功能,或者实现人脸识别,或者实现推荐功能(即使是搜索、推荐功能,因为场景的不同,模型其实有很大的区别),AI是一个一个的竖井式功能。Open AI引领AI的发展方向式AGI(通用人工智能),AI越来越像人一样听、看、说,未来是否有味觉,也说不定,一个大模型适应很多的大部分用通用场景。

    从openAI公布信息来看:

    OpenAI正开始在 ChatGPT 中推出新的语音和图像功能。他们提供了一个新的,更直观的界面类型,允许您进行语音对话或显示聊天 GPT 您正在谈论什么。

    未来两周内:

    1.语音功能将在IOS和Android上推出

    2.图像功能在所有平台提供

    3.功能向ChatGPT Plus和Enterprise用户提供

    详细内容可以查阅:

    孟奇奎:AI还在快速进化:chatGPT可以看到、听到和说话

    hjl4am 2023-09-26 0 回复
没有账号?注册  忘记密码?