AI能“生”万物吗?

Sora诞生半年后,它的“挑战者”纷至沓来,连“等不及”又“追不上”的英伟达也亲自下场。迄今为止,S

Sora诞生半年后,它的“挑战者”纷至沓来,就连“等不及”、“追不上”的英伟达也亲自下场。

目前,Sora仅发布了演示版,尚未开放使用,而快手克灵、智浦轻影、维度已率先打开体验之门,触达大众。

虽然“一键生成”的初体验并不完美,但却激起了内容行业的一池泉水。我们身边的很多短剧、广告、动画都开始使用AI作为“效率伙伴”。人工智能生成技术,从不久前的文生图片到如今的文生视频、土生视频、视频生成视频,“AIGC宇宙”不断扩大。

AI是中国神话中的“神笔马良”吗?它能激发多少想象力和创造力?

e3a1ee77a0ff4cb896a40032f7af7b57~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725683682&x-signature=YZtPuxzILDdapASFnkFSdLf8RVA%3D

“文盛视频”,如何“活”

“文盛视频一鸣惊人。”六个月来,Sora从大型厂商到独角兽的崛起,无不说明了行业对“一代”的重视。

视频生成,简单来说就是利用生成式人工智能技术,将文本、图片等多模态输入转换为视频信号。

目前视频生成主要有两条技术路线。一是扩散模型,分为两类。一是基于卷积神经网络的扩散模型,如Meta的EmuVideo、腾讯推出的VideoCrafter等;另一种是基于Transformer架构的扩散模型,比如OpenAI的Sora。快手的科灵AI,圣数科技的Vidu等。 另一种是自回归路线,例如Google的VideoPoet,Phenaki等。

37804bbcea464e398e6b8bbe2d764dda~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725683682&x-signature=XZbcCVE%2FyZDcdUwqR%2F5m2pHR6Ls%3D 2024年7月26日,中国科技公司智普AI向全球用户发布了自主研发的人工智能生成视频模型青影(Ying)。图为用户登录界面

目前,基于Transformer架构的扩散模型是视频生成模型的主流选择,也称为“DiT”(Di是Diffusion的缩写,T是Transformer的缩写)。

将文本“扩散”作为视频? “这里的扩散指的是一种建模方法。”北京大学信息工程学院助理教授、博士生导师袁莉举了一个生动的例子——

米开朗基罗在雕刻著名的大卫雕像时,说过这样的话:雕塑原本是在石头里的,我只是去掉了不需要的部分。 ”这句话形象地描述了‘扩散’的建模过程,原来的纯噪声视频就像一块未经雕琢的石头,如何敲这块大石头,敲掉多余的部分,直到敲成轮廓清晰的‘大卫’,这个方式就是‘扩散’。”袁立说道。

袁立进一步解释道:“Transformer是一个遵循‘尺度规则’,执行破碎石头过程的神经网络。它可以处理输入的时空信息,通过了解其内部复杂关系来理解现实世界,并使得模型具有推理能力,不仅可以捕捉视频帧之间的微妙联系,还可以确保视觉连贯性和时间平滑性。”

“效率伙伴”,有多快

一只天真的北极熊被闹钟叫醒,收拾好行李,乘坐直升机,转乘高铁,转乘出租车,登上轮船,跨越山河湖海,历尽艰辛,历尽千辛万苦,终于到达南极与企鹅见面……

这部名为《一路向南》 的一分半钟的动画短片由视频生成模型Vidu 完成。原本一个月的工作量,有了AI这个“效率伙伴”的加入,只用了一周时间就产出了优秀作品——件,效率是过去的四倍。

这让北京电影节AIGC 短片单元最佳影片获得者、艾尼美实验室AI 负责人陈流芳感叹:视频生成技术让高水平的动画不再是只能做的“烧钱游戏”。大工作室都敢玩。

AI动画《一路向南》的创作团队只有三人:导演、分镜师、AIGC技术应用专家。使用传统工艺制作需要20 名员工。经测算,仅生产成本就降低了90%以上。

正如快手视觉生成与交互中心负责人万鹏飞所说,视频生成的本质是从目标分布中采样计算像素。这种方法可以以较低的成本实现较高的内容自由度。

进入Vidu的视频生成页面,笔者也体验到了“一键生成”的自由。上传一张照片并将其设置为“起始帧”或“参考人物”,在对话框中输入想要生成的场景的文字描述,点击“生成”,一段聪明又刺激的短视频就会生成自动生成。从进入页面到完成下载,不到1分钟。

023b6ff71c0a488887a9cae13fe16b4a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725683682&x-signature=TaFBC%2Fwb71MyIereWuHgrVeZ6d4%3D 发送图片到国内视频模特Vidu,会自动生成动画视频。图为视频截图

“‘人人都是设计师’、‘人人都是导演’的时代将会到来,就像‘人人都有麦克风’的时代一样。”智浦AI首席执行官张鹏表示。

《世界模拟器》有什么剧情吗?

视频生成只会颠覆内容行业吗?这显然不是OpenAI的初衷。 “生成视频”只是“开胃菜”。

在Sora诞生之前,OpenAI并没有将其定位为AIGC实现工具,而是将其定位为复制物理世界的“容器”——世界模拟器。在这个容器中,现实世界的物理规律、环境行为、交互逻辑的运行,就像《黑客帝国》所描绘的虚拟世界一样,冲击着我们的想象力和感官。

然而物理世界是三维的,目前的模型如Sora只是基于二维运算,并不是真正的物理引擎,因此没有对物理世界进行深度模拟。

“多年来我一直说‘看’世界就是‘理解’世界。但现在我愿意将这个概念更进一步,‘看’不仅仅是‘理解’,而是‘做’”斯坦福大学讲座教授李飞飞公开表示,空间智能的底线是连接“看”和“做”,有一天,人工智能会做到这一点。

当“看到”不等于“做”时,人工智能的创造就无法停止。最近,新的技术路线不断涌现。你们在不同的路线上互相追逐,共同前进,推进这个由向量和模型构建的智能世界。

未来的“世界观”仍然是一个尚未揭晓的谜团。正如美国物理学家费曼所说:“我无法创造一个我不理解的世界。”但这并不意味着你了解了一个世界,就一定能够创造一个世界。

此刻,仍是颠覆的前夜。这就是为什么当我们向技术探索者询问有关未来的问题时,我们会得到截然不同的答案。或许“不确定性”正是这个时代的福气。

半月谈记者:张满子/编辑:范中秀

*本文为《半月谈》 2024年第16期内容

原标题《“文生视频”离“AI生万物”有多远》

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

综合资源

三亚乐玛婚纱摄影|用心和责任,帮你把回忆变成诗

2024-8-31 12:33:43

综合资源

三亚乐玛婚纱摄影如果您打算拍婚纱照,请来这里

2024-8-31 12:35:35

购物车
优惠劵
搜索