AI能“生”万物吗？

Sora诞生半年后，它的“挑战者”纷至沓来，连“等不及”又“追不上”的英伟达也亲自下场。迄今为止，S

Sora诞生半年后，它的“挑战者”纷至沓来，就连“等不及”、“追不上”的英伟达也亲自下场。

目前，Sora仅发布了演示版，尚未开放使用，而快手克灵、智浦轻影、维度已率先打开体验之门，触达大众。

虽然“一键生成”的初体验并不完美，但却激起了内容行业的一池泉水。我们身边的很多短剧、广告、动画都开始使用AI作为“效率伙伴”。人工智能生成技术，从不久前的文生图片到如今的文生视频、土生视频、视频生成视频，“AIGC宇宙”不断扩大。

AI是中国神话中的“神笔马良”吗？它能激发多少想象力和创造力？

e3a1ee77a0ff4cb896a40032f7af7b57~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725683682&x-signature=YZtPuxzILDdapASFnkFSdLf8RVA%3D

“文盛视频”，如何“活”

“文盛视频一鸣惊人。”六个月来，Sora从大型厂商到独角兽的崛起，无不说明了行业对“一代”的重视。

视频生成，简单来说就是利用生成式人工智能技术，将文本、图片等多模态输入转换为视频信号。

目前视频生成主要有两条技术路线。一是扩散模型，分为两类。一是基于卷积神经网络的扩散模型，如Meta的EmuVideo、腾讯推出的VideoCrafter等；另一种是基于Transformer架构的扩散模型，比如OpenAI的Sora。快手的科灵AI，圣数科技的Vidu等。另一种是自回归路线，例如Google的VideoPoet，Phenaki等。

37804bbcea464e398e6b8bbe2d764dda~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725683682&x-signature=XZbcCVE%2FyZDcdUwqR%2F5m2pHR6Ls%3D 2024年7月26日，中国科技公司智普AI向全球用户发布了自主研发的人工智能生成视频模型青影（Ying）。图为用户登录界面

目前，基于Transformer架构的扩散模型是视频生成模型的主流选择，也称为“DiT”（Di是Diffusion的缩写，T是Transformer的缩写）。

将文本“扩散”作为视频？ “这里的扩散指的是一种建模方法。”北京大学信息工程学院助理教授、博士生导师袁莉举了一个生动的例子——

米开朗基罗在雕刻著名的大卫雕像时，说过这样的话：雕塑原本是在石头里的，我只是去掉了不需要的部分。 ”这句话形象地描述了‘扩散’的建模过程，原来的纯噪声视频就像一块未经雕琢的石头，如何敲这块大石头，敲掉多余的部分，直到敲成轮廓清晰的‘大卫’，这个方式就是‘扩散’。”袁立说道。

袁立进一步解释道：“Transformer是一个遵循‘尺度规则’，执行破碎石头过程的神经网络。它可以处理输入的时空信息，通过了解其内部复杂关系来理解现实世界，并使得模型具有推理能力，不仅可以捕捉视频帧之间的微妙联系，还可以确保视觉连贯性和时间平滑性。”

“效率伙伴”，有多快

一只天真的北极熊被闹钟叫醒，收拾好行李，乘坐直升机，转乘高铁，转乘出租车，登上轮船，跨越山河湖海，历尽艰辛，历尽千辛万苦，终于到达南极与企鹅见面……

这部名为《一路向南》的一分半钟的动画短片由视频生成模型Vidu 完成。原本一个月的工作量，有了AI这个“效率伙伴”的加入，只用了一周时间就产出了优秀作品——件，效率是过去的四倍。

这让北京电影节AIGC 短片单元最佳影片获得者、艾尼美实验室AI 负责人陈流芳感叹：视频生成技术让高水平的动画不再是只能做的“烧钱游戏”。大工作室都敢玩。

AI动画《一路向南》的创作团队只有三人：导演、分镜师、AIGC技术应用专家。使用传统工艺制作需要20 名员工。经测算，仅生产成本就降低了90%以上。

正如快手视觉生成与交互中心负责人万鹏飞所说，视频生成的本质是从目标分布中采样计算像素。这种方法可以以较低的成本实现较高的内容自由度。

进入Vidu的视频生成页面，笔者也体验到了“一键生成”的自由。上传一张照片并将其设置为“起始帧”或“参考人物”，在对话框中输入想要生成的场景的文字描述，点击“生成”，一段聪明又刺激的短视频就会生成自动生成。从进入页面到完成下载，不到1分钟。

023b6ff71c0a488887a9cae13fe16b4a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725683682&x-signature=TaFBC%2Fwb71MyIereWuHgrVeZ6d4%3D 发送图片到国内视频模特Vidu，会自动生成动画视频。图为视频截图

“‘人人都是设计师’、‘人人都是导演’的时代将会到来，就像‘人人都有麦克风’的时代一样。”智浦AI首席执行官张鹏表示。

《世界模拟器》有什么剧情吗？

视频生成只会颠覆内容行业吗？这显然不是OpenAI的初衷。 “生成视频”只是“开胃菜”。

在Sora诞生之前，OpenAI并没有将其定位为AIGC实现工具，而是将其定位为复制物理世界的“容器”——世界模拟器。在这个容器中，现实世界的物理规律、环境行为、交互逻辑的运行，就像《黑客帝国》所描绘的虚拟世界一样，冲击着我们的想象力和感官。

然而物理世界是三维的，目前的模型如Sora只是基于二维运算，并不是真正的物理引擎，因此没有对物理世界进行深度模拟。

“多年来我一直说‘看’世界就是‘理解’世界。但现在我愿意将这个概念更进一步，‘看’不仅仅是‘理解’，而是‘做’”斯坦福大学讲座教授李飞飞公开表示，空间智能的底线是连接“看”和“做”，有一天，人工智能会做到这一点。

当“看到”不等于“做”时，人工智能的创造就无法停止。最近，新的技术路线不断涌现。你们在不同的路线上互相追逐，共同前进，推进这个由向量和模型构建的智能世界。

未来的“世界观”仍然是一个尚未揭晓的谜团。正如美国物理学家费曼所说：“我无法创造一个我不理解的世界。”但这并不意味着你了解了一个世界，就一定能够创造一个世界。

此刻，仍是颠覆的前夜。这就是为什么当我们向技术探索者询问有关未来的问题时，我们会得到截然不同的答案。或许“不确定性”正是这个时代的福气。

半月谈记者：张满子/编辑：范中秀

*本文为《半月谈》 2024年第16期内容

原标题《“文生视频”离“AI生万物”有多远》

{{userData.name}}已认证

AI能“生”万物吗？

三亚乐玛婚纱摄影｜用心和责任，帮你把回忆变成诗

三亚乐玛婚纱摄影如果您打算拍婚纱照，请来这里