ChatGPT 开发商考虑对 AI 内容加水印,数字水印是什么?

ChatGPT 开发商考虑对 AI 内容加水印,数字水印是什么?

原标题:ChatGPT 开发商考虑对 AI 内容加水印,数字水印是什么?

关键字:人工智能,科技,ChatGPT,ChatGPT概念,#ChatGPT

最佳回答:三姨君

回答字数:4047字

在一年前,外界对于生成式人工智能(AI)可能“作恶”的猜测,如今很遗憾地几乎成为了事实。诸如社交平台上有用户借助AI生产假视频,声称某地邮轮上存在器官移植手术室的消息,就引来了一大波流量,甚至一度冲上热搜榜。而这大半年以来,警方侦破不法分子利用生成式人工智能(AIGC)造谣、诈骗的相关报道更是络绎不绝。

AI可以用来生成虚假、复杂的信息这件事,使得“深度伪造”(Deepfake)已然成为了互联网世界切实的新威胁。即便抛开利用AI进行违法犯罪活动,单纯是通过AI的力量进行不道德竞争也开始泛滥成灾,大量由AIGC驱动的假消息俨然成为了让广告主头疼的纤芥之疾。

有鉴于此,谷歌、OpenAI等AI大厂也开始八仙过海各显神通,并试图借助各式各样的手段来对抗虚假信息和深度伪造。比如,在过去一年里最为流行的策略——“AI水印”。

此前在今年夏季,谷歌、亚马逊等七家大型科技公司承诺采取AI安全措施,包括部署水印,以确保算法生成的内容可以与人类作品区分开来。然而近期来自美国马里兰大学研究团队公布的研究结果却表明,AI水印可能是无效的。

目前在互联网上大规模使用的数字水印技术其实是一个典型的主动防御手段,例如包括我们三易生活在内的创作者会在原创文字、图片、视频中加入带有标识的水印,以此来证明相关内容的来源。简单来说,数字水印是一个在互联网上证明身份的有效工具。故而AI厂商将水印与AIGC结合在一起,用水印来帮助用户了解哪些内容是AI生产,这确实相当合理。

要知道在经过了这一年来的数轮技术迭代,现阶段通过ChatGPT生成的文字内容,使用Stable Diffusion、Midjourney Bot创作的图像,借助Runway、pika labs产出的视频,几乎都已经能够实现以假乱真的效果,没有熟练使用这些工具的普通用户想要轻易分辨哪些内容是由AI创作的根本不现实。甚至诸如抖音、微信这样背靠互联网大厂的超级App,其实也做不到主动辨识,而只能让创作者自己申报内容是否属于借助AI创作的。

水印技术应用在AIGC领域的优势,就在于部署门槛更低、且检出率也有保障,最起码在谷歌等科技巨头看来是这样的。传统意义上的水印是将信息添加到元数据中,但它却非常脆弱,去除的方法也多种多样,涂抹、剪切、缩放、压缩、加噪、滤波都很有效,而谷歌却宣称他们的AI水印工具“SynthID”会更加坚固。

事实上,SynthID是使用两个神经网络创建。其中一个使用原始图像,然后生成一张看起来几乎相同的图像,但有些像素经过了微妙的修改,创建出一个人眼看不见的嵌入图案。第二个神经网络则负责捕捉这些图案,并告诉用户它是否检测到水印。按照谷歌DeepMind研究副总裁Pushmet Kohl的说法,SynthID的设计方式意味着即便相关内容被截屏、编辑,水印仍可以被检测到。

总的来说,AI水印就是把信号嵌入到AI所生成的内容中,让算法能从一小段token中检测出来。那么问题就来了,马里兰大学的研究团队在其发布的论文《Researchers Tested AI Watermarks—and Broke All of Them | WIRED》中谈及,当前的水印方法很容易被规避,攻击者不仅可以移除水印,还能在真实的图像中添加假水印。同时这个团队还开发出了一种“几乎无法”从图像中去除的水印技术,且不会完全损害图像的知识产权。

简单来说,马里兰大学这个研究团队发现现有AI水印技术的鲁棒性存在问题,低扰动(不可见)水印基本没用、高扰动(可见)水印也可以被操纵。对此研究人员表示,可以使用扩散净化攻击来破解水印。其中的原因也很简单,因为水印的隐匿性和鲁棒性是互斥的,就好像百米飞人绝不可能是肥胖症患者一样。

反过来,如果使用明显的水印、即对内容进行重大更改的技术,则可以通过易于移除水印的模型替代对抗攻击来破解。不仅仅是马里兰大学这个团队,还有来自加州大学圣巴巴拉分校和卡内基梅隆大学合作的一项类似研究中,也出现了相同的金结论,研究人员发现通过“模拟攻击”,AI生成图像中的水印可以轻易去除,通过破坏性的调整亮度、对比度,或压缩乃至旋转图像来去除,或是通过建设性的高斯模糊等技术去除。

显而易见,在技术层面通过给AIGC内容打水印来辨别它们是有一定局限性的,但遗憾的是,这项技术依旧是当下业界最有效的。比如GPT-Zero这类无监督的检测底层逻辑,就是利用AI生成的内容,在统计学意义上比人类输出的文本困惑度更低,而困惑度指的是AI模型在解读相关内容时会不会觉得很难懂,困惑度越高就证明内容越有可能是人类创作的。

问题在于,大模型训练阶段的目标就是模仿人类,造成的结果就是GPT-Zero检测的“假阳性率”极高,以至于在普遍使用这项技术的美国大学校园里,学生会被GPT-Zero的误判折腾地“欲仙欲死”。此外,HC3这类基于预训练的检测是通过标注大量的数据,来训练一个有监督分类器的工具,但这类工具的缺陷就在于只能应用在某一个大模型的特定版本、不具备通用性。

相比这两类工具,水印的优势就在于部署门槛低,只需预先在大模型中加入几行代码即可,而且检出率也更有保障。

本文链接:

联系作者

回答作者:三姨君

0

评论0

  1. 好问题,mark

    hjl4am 2023-10-09 0 回复
没有账号?注册  忘记密码?