如何评价最新的ChatGPT支持图像和语音?

如何评价最新的ChatGPT支持图像和语音?

原标题:如何评价最新的ChatGPT支持图像和语音?

关键字:GPT,OpenAI,大模型,多模态,多模态大模型

最佳回答:AI智能矩阵

回答字数:1183字

OpenAI 在昨日宣布将在 ChatGPT 中推出新的语音和图片功能,除了可以直接跟 ChatGPT 对话了,还能拍照给 ChatGPT 看,已经完全把视觉、听觉和说话的能力都赋予给 ChatGPT 了。

接下来两周内,这个功能将会陆续开放给 Plus 和 Enterprise 的用户,

• 语音功能将在 iOS 和 Android 上推出。

• 图片功能网页和手机平台都能使用。

以下为各功能简单介绍

▋与 ChatGPT 对话(语音功能)

https://www.zhihu.com/video/1689947557713981440

■ 使用方式

前往 ChatGPT 手机 App 的“设定”→“新功能”,点击加入语音对话,在主画面右上角点击耳机按钮,选择你喜欢的声音,目前有 5 种可以选择,分别是:

• Breeze(高音女声)

• Juniper(中音女声)

• Sky(低音女声)

• Ember(高音男声)

• Cove(低音男声)

Demo 的英文效果不错,可以叫它讲睡前故事、陪你聊天都可以,但不知道中文表现如何。

▋ChatGPT 看图理解(图片功能)

https://www.zhihu.com/video/1689947594405675008

这个功能可以让你拍一张或多张照片给 ChatGPT,它能理解图片,并给出回应。

例如:

拍照问它怎么把脚踏车座椅调低、拍照问它冰箱有什么食物可以做晚餐、或是分析复杂的统计图表。

甚至手机 App 上还多了画图工具,可以直接把照片的重点圈起来让ChatGPT识别。

本文链接:

联系作者

回答作者:AI智能矩阵

0

评论0

  1. 以后OpenAI可以不用开发别的App,所有新的功能都直接往ChatGPT里面塞,慢慢做成支持文字语音,图像和视频的生态,而且相比别的AI应用,ChatGPT真的是做到了完全没使用门槛,因此未来用户量也会更多。总而言之,走向AGI,只需要一个ChatGPT就够了。

    不得不说,这次更新展示的图像理解能力太强了,简单的几张图展示了物体分类,物体检测和文本识别等功能。夸张一点地说,图像理解没了,只需要问一下ChatGPT就都能给你回答出来。

    以前深度学习任务面临碎片化的问题,不同任务,例如分类和检测,需要不同的模型,而这个问题被ChatGPT给解决了,不管底层实现,对一个普通开发者来说,他不需要关心部署几个模型,调用几个API,只需要用一句句自然语言的提问就能让得到需要的结果。从这个角度来看,ChatGPT解决了深度学习碎片化的问题。

    另外关于AI助理的进化,目前已经从文本级别进化到文本加语音,未来也肯定会进化到图像和视频和3D形象,结合SD生成助理的2D形象,结合Nerf或GAN生成3D形象,因此未来ChatGPT不光是一个虚拟助理,还可以是AI教师,AI女友,数字化的亲人,数字化的自己。

    总之,对AI的未来越来越看好,因为有像OpenAI这样的公司; 对普通AI研究者的未来越来越不看好,因为在没卡没数据还不够聪明的情况下,差距越来越大,能做出顶级的AI应用的机会越来越小了。

    可能这一波AI浪潮下的主战斗已经结束,胜负已分,后面的都是无关紧要的小战役了。

    hjl4am 2023-09-26 0 回复
没有账号?注册  忘记密码?