奥飞寺明敏克西
量子比特|公众号QbitAI
网络魔镜之下,所有AI美女都变成了鬼魂。
快来看看它的牙齿。
当图像饱和度全面提高时,AI人像的牙齿会变得非常怪异,边界也变得模糊。
整体画面色彩正常,但麦克风部分就更奇怪了。
与真人照片相比,应该是这样的。
牙齿清晰,图中色块均匀。
这个工具已经开放了,大家可以用照片来尝试一下。
AI生成的视频中的某一帧无法逃脱此方法。
缺失牙齿的照片也可以揭示问题。
但是顺便说一句,这个工具是由Claude 创建的。用AI破解AI,一个奇妙的闭环。
有一种说法。最近,AI人像过于逼真,引发了不少讨论。例如,在一组流行的“TED演讲视频”中,没有一个是真人。
不仅人脸无法辨别,就连以前人工智能的缺点——书写,现在也可以完全作假。
更重要的是,生成这样的AI肖像的成本并不高。仅需5分钟即可完成,每20秒1.5美元(约10元人民币)。
现在网友们也坐不住了,纷纷开始AI打假大赛。
近5000人前来讨论这两张照片哪个是真人。
给出的理由多种多样。有些人觉得文字和图案细节很抽象,而另一些人则认为人物的眼睛是空洞的……
最先进的人工智能生成肖像的规则正在逐渐被弄清楚。
不看细节已很难分辨
综上所述,调整饱和度可能是最快的识别方法。
这样AI群像曝光更彻底。
但是有一个问题。如果图像是使用JPEG 算法压缩的,则此方法可能不起作用。
例如,确保照片是真实照片。
不过,由于图像压缩和光照问题,人物的牙齿也有点模糊。
于是网友们还列出了更多判断人像是否是AI合成的方法。
第一种方法,简单来说,就是依靠人类的知识和判断。
由于AI学习图像的方式与人类不一致,因此不可避免地无法100%从人类的角度掌握视觉信息。
结果是人工智能生成的图像常常与现实世界不一致,这为图像识别提供了起点。
使用开头的图像作为示例。
整体来看,人物皮肤过于光滑,看不到毛孔。这种过于完美的功能只会增加不真实感。
当然,这种“不切实际的感觉”并不完全等同于“假”。毕竟经过微晶磨皮处理过的照片里是看不到毛孔的。
但这并不是唯一的判断因素。图中AI留下的与常识的偏差可能不止一处。
其实如果你看这张图下面的细节,你可以看到一个比较明显的特征—— 铭牌上方挂钩的奇特连接方法。
还有一些麦克风在高饱和模式下显示出缺陷。放大后,肉眼就能直接看到线索。
更隐蔽的是,毛发末端有几根毛发处于不合理的位置,但这样的特征恐怕需要列文虎克级别的视力才能看到。
然而,随着世代技术的进步,能发现的特征变得越来越隐蔽,这是必然趋势。
另一种方法是阅读文本。尽管人工智能正在逐步克服字体描绘中的“鬼符号”问题,但要正确渲染具有正确实际含义的文本仍然存在一些困难。
例如,有网友发现,照片中人佩戴的徽章上,谷歌标志下方最后一行的两个字母是“CA”,意思是加利福尼亚州,而前面的一长串应该是城市名称。
但事实上,加州没有一个城市的名字这么长。
除了这些物体本身的细节外,光影等信息也可以用来判断真伪。
这张图片是从一个视频中提取出来的,它所在的视频中有这么一帧。
在麦克风的右侧,有一个非常奇怪的影子。该阴影对应于角色的一只手。显然这里的AI处理是有所欠缺的。
说到视频,由于前后内容的一致性,AI 比静态图像更容易暴露缺陷。
还有一些不被认为是“常识错误”的特征,但它们也反映了AI在生成图像时的一些偏好。
比如这四张图,都是AI合成的“普通人”。你发现什么共同点了吗?
有网友表示,这四张图片中的人都没有笑脸,这似乎体现了AI生成图片的一些特征。
这些图片确实如此,但这种判断方法很难形成体系。毕竟不同的AI绘图工具有不同的特点。
总之,为了应对AI的逐步推进,一方面我们可以加大“列文虎克”的力度,另一方面也可以引入增加饱和度等图像处理技术。
但如果这样的“量变”积累得越来越多,用肉眼判断就会越来越困难,图像饱和度可能有一天会被AI打破。
因此,人们也在改变对“逐模型”方法的思考和思考,利用AI生成的图像来训练检测模型,并从图像中分析更多的特征。
例如,AI生成的图像在光谱、噪声分布等方面有很多特征,这些特征是肉眼无法捕捉到的,但AI可以清晰地看到它们。
当然,也不排除检测方法滞后,跟不上模型变化,或者模型开发者甚至专门从事对抗性开发的可能。
例如,在上面讨论的图片中,AI 检测工具只有2% 的概率是由AI 合成的。
但AI欺诈和AI检测之间的博弈过程本身就是一场“猫捉老鼠的游戏”。
因此,除了检测之外,模型开发者可能还需要承担一些责任,比如给AI生成的图像添加隐形水印,让AI欺诈无处可藏。
AI魔高一尺
值得一提的是,上述引起恐慌的AI肖像多是由最近流行的Flux生成/参与制作的。
大家甚至开始认为,如果效果太好,难以辨别,那就是Flux做的。
由Stable Diffusion原班人马打造,发布仅10天就在网络上引起轩然大波。
这些假TED演讲的漂亮照片都是它制作的。
也有人用Flux和Gen-3制作精美的护肤品广告。
以及多角度的各种合成效果。
解决AI画师、AI生成图片中的中文文字等问题。
这直接导致人类在辨别AI图画时不再能直接看手和文字。他们只能根据线索猜测。
助焊剂应加强手头、文字等指标的培训。
这也意味着,如果现在的AI继续在纹理细节、颜色等训练上下功夫,等到下一代AI绘图模型出来时,人类的识别方法可能会再次失效……
此外,Flux 是开源的,可以在笔记本电脑上运行。现在很多人都处于忘记中途的状态。
从稳定扩散到通量花了两年时间。
从“威尔·史密斯吃面条”到“Tedx音箱”,用了1年时间。
真不知道未来人类还要想出什么招数来区分AI世代……
参考链接:
[1]https://x.com/ChuckBaggett/status/1822686462044754160
[2]https://www.reddit.com/r/artificial/comments/1epjlbl/average_looking_people/
[3]https://www.reddit.com/r/ChatGPT/comments/1epeshq/这些_are_all_ai/
[4]https://x.com/levelsio/status/1822751995012268062
– 超过-
量子比特QbitAI·今日头条签约
关注我们,第一时间了解前沿技术动态
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。