全卷已上线并免费提供!
智东西网7月26日报道今天凌晨,大型独角兽智浦AI正式发布视频生成工具青影,可支持文森特、土生的6秒视频。即日起PC端、手机端、小米端均可使用。该终端免费向所有C端用户开放。
我们先来看看效果。以下是官方发布的几款Vincent和图胜视频案例,涵盖人像、动物、3D卡通等场景:
从演示来看,虽然清晰阴影的生成效果相比Sora等人还有提升空间,但整体流畅度和动作幅度都非常不错,无论是人物表情、动作、光影变化,还是镜头的移动,没有明显的滞后和突兀,运动幅度控制得恰到好处。看起来不像PPT,或者太夸张了。
另外,虽然生成完全免费,但生成视频需要排队。智浦AI提供两种加速排队订阅方式,包括一日5元和一年199元。
青影API今日也同步上线。企业和开发者可以通过调用API来体验和使用青影的文声、图声视频能力。据称,这也是国内首个推出的视频生成API。
据智普AI首席执行官张鹏介绍,青影基于自主研发的基础视频生成模型CogVideoX,可以融合文本、时间、空间三个维度。该模型参考Sora算法进行设计,采用DiT架构。与上一代CogVideo模型相比,推理速度提升6倍。
智普AI成立于2019年6月,源于清华大学计算机系知识工程实验室,专注于研发新一代认知智能大模型。智普AI一直以标杆OpenAI全模型产品线为线索,陆续开发了包括文本、代码、图像、代理等在内的自研模型和产品矩阵。本次发布的青影基于CogVideoX,将其大模型矩阵进行了扩展:另一种模式。
值得一提的是,这也是国内以语言模型起家的大型模型独角兽。在视频生成产品——首次推出之前,该赛道主要由字节跳动、快手等短视频公司以及爱视科技、盛数科技等专注于视频生成模式的初创公司主导。
青影的具体特点是什么?其底层模式在哪些方面进行了创新?具体效果如何?智兮兮立即开始实际测试,发现了以下几点:
1.简短的提示文字更有效,但在复杂的指令下会丢失细节。
2、人手仍然是重灾区,容易出现屏幕闪烁的情况。
3、生成速度很快,但排队等待时间仍然达到1-2分钟。
4、与图胜视频相比,文森视频更加稳定。
一、半分钟生成6秒视频,复杂指令、内容连贯
青影具有四大特点:生成速度快、遵循复杂指令能力强、内容连贯性高、画面调度范围大。
首先,在生成速度上,青影AI据称能够在30秒内生成一段6秒、帧率为16fps、分辨率为1440*960的视频。
实时演示视频生成(动画加速)
其次,在复杂的命令遵从能力方面,智普AI开发了自研的视频理解模型,为视频数据生成高度一致的文本描述,从而构造大量高质量的视频文本对,提高命令遵从性。
复杂指令演示
青影的第三个特点是内容的连贯性,可以更好地还原物质世界中的一些运动过程。
比如,以杜甫这幅熟悉的画为基础,清晰的影子让杜甫不仅动起来,而且非常自然、流畅地端起一杯咖啡。
内容一致性
最后,在画面调度方面,青影采用融合文本、时间、空间的Diffusion Transformer架构,生成遵循特定运动规则的动态视频。
智浦AI大胆发布了数十个演示,其中很多效果令人惊叹,比如这个:木头上长出两朵奇怪的透明塑料花。
“透明塑料花”在现实生活中并不存在,清莹的想象力和审美力在这个案例中得到了展现。
又比如这样:彼得兔开着车走在路上,脸上的表情充满了喜悦和喜悦,尽收眼底。
青影画的兔子表情丰富,五官没有扭曲,前后景都添加了景深处理。
青影对于肖像案例也把握得很好,比如这个提示词:油画风格,美丽少女的侧脸,光线穿过树形成斑驳的影子,柔和的光线落在她的脸上。
整个画面光影对比鲜明,但缺少“油画”、“斑驳阴影”等细节。
二、实测上手有惊艳也有翻车,付费加速有些鸡肋
虽然官方demo不错,但是清影好用还是要自己去尝试才知道。打开青影网页,可以看到它有两个功能:文声和图声视频。
清影网页
在Vincent Video中,我可以选择视频风格,包括卡通3D、黑白老照片、油画等;我还可以选择情感氛围,包括热烈和谐、热闹、激动、荒凉、孤独等;相机的移动方式有水平、垂直、推入和缩小四种。
在图胜视频中,我可以给图片添加文字描述。如果我不知道写什么,可以留空,或者让系统随机生成一个提示词。
两种模式
首先,我尝试了一组动物场景的提示词。第一个是:猫爬架上的一只蓝猫,正在吃主人递过来的芝士汉堡。现场情感气氛热烈、融洽。
看得出来,青影准确地听懂了提示词,整体效果非常好。提示语中的细节,包括猫的品种、汉堡的种类、“递过去”的动作,都表达得很准确,人手也没有翻倒。
第二个提示词是:一只橘猫把老鼠推离了桌子,情绪气氛热烈。
青影这次的表现很一般。哪怕无缘无故的给老鼠绑了一只小老鼠,“推离桌子”的动作却根本没有体现出来。

前两个提示词都是现实场景,第三个提示词有些“魔幻现实”:一只白猫开着车穿过繁忙的城市街道,背景是高楼大厦和行人,情感气氛紧张和令人兴奋的。
青影对这个提示词的理解和呈现还是比较准确的,背景动态场景的运动幅度和一致性都比较高,但稳定性还是有所欠缺,画面会出现抖动。
对于第二组提示词,我尝试了人物场景。首先我们来试试经典的吃面场景:一个男人坐在桌边吃面,情感氛围苍凉孤独。
在这个经典的谜题上,青影的表现还算不错,乍一看并没有什么问题。但仔细一看,男子用勺子吃面条,面条的形状有些僵硬。
第二个提示词是:一个女孩坐在米色的沙发上,专心钩织一顶浅蓝色的帽子。情感气氛热烈、融洽。
我在这个提示中添加了颜色细节,清晰的阴影得到了准确的表现。女孩的钩针动作也比较写实,但她的手却很“鬼”。
第三个提示词是:水彩瞳孔美丽特写,写实风格,超清,情感氛围苍凉孤独。
青影生成的视频基本符合我的预期,但在特写镜头中,人物的皮肤和头发显得有些“油腻”。
最后,我尝试让青影自己生成提示词,它直接编译了这么长一段:下雨天的咖啡馆,以窗户为媒介拍摄英式咖啡馆的内部,清晰地拍摄出英国咖啡馆的内部。咖啡馆,并捕捉咖啡馆内的场景。温暖的气氛,然后放大,聚焦在窗户上拍打的雨滴。细节上,注重捕捉顾客的谈话和微笑,以及雨水打在窗户上形成的光影效果,营造出舒适、宁静的氛围。
不幸的是,青影给自己挖了坑。生成的视频不能称为视频,称其为动画图片就有点尴尬了。图片只是平移、放大了一圈,并没有体现出提示文字中的大部分内容。
体验完文盛视频后,我又尝试了图盛视频。
首先,上传图片时,青影会提醒我裁剪图片,而且只能裁剪成固定比例的横向图片,这就造成了一定的限制。上传图片后,我输入了提示词:花瓣随风摇曳。
生成效果比较准确,但是提示词本身并不算太难。
然后我上传了一张静物图,这次没有输入提示词,看看青影会如何发挥自如。
这张图中有很多独立的物体。青影并没有让它们整体动起来,而是给每个“小团子”添加了不同的动感,让整体画面更加生动活泼。
第三张图片中,我上传了一个戴着墨镜的人的肖像,提示是:男孩,把墨镜摘下来。
这个提示词非常难,涉及到“无中生有”的部分。青影成功地表演了“摘墨镜”的动作,但他摘了下来,但摘得并不彻底。人脸上还挂着墨镜,视频后半段人体出现不自然的扭曲。
如果没有要求它凭空生成面孔怎么办?我上传了一张拿着相机的人的照片,提示词改为:男孩转身面对镜头。
结果青影这次换了一张脸,不过没了眼白就有点吓人了……不过,如果忽略脸的话,这次产生的效果就更加反转了,人物的头发也飘扬了起来。风吹过,他手中的装备也发生了变化。外貌和人手也有些不自然。
经过一番体验,青影生成的一些视频效果让我感到惊讶。例如,在第一个小猫吃汉堡的例子中,文本理解非常准确。也有一些严重的颠覆,比如咖啡店和橘子猫的例子,所有的错误都是在那里犯的。比较大。
总体来说,青影在生成速度上确实更快一些。虽然与宣传的30秒还有偏差,但1分钟左右就可以生成视频。在运动范围、语义理解等方面,就看运气了,但这也是所有视频生成工具的通病。与市场上其他公开的工具相比,青影在生成时间和清晰度方面仍有改进的空间。还有一点遗憾的是,它不支持长宽比的选择。
值得一提的是,青影目前的视频生成完全免费,无需会员订阅,也没有数量限制。不过在队列生成的过程中,清影提醒我可以加快速度。点击加速按钮,可以看到它提供了两种订阅方式:5元加速一天,或者199元加速一年。
加快排队速度
不用说,价格还是很实惠的,但是为什么加速后我的排队时间一点都没有减少呢?唯一的变化是从“排队”变成了“加速排队”。也许成本太便宜了,大家加速就相当于不加速(doge)。
三、自研端到端视频模型,首个API同步上线
青影基于智普AI自研底层模型CogVideoX。具有内容连贯、可控性高的特点。
在内容连贯性方面,智浦AI自主研发了高效的三维变分自编码器结构,称为3D VAE。它可以将原始视频空间压缩到2%的大小,大大降低了视频扩散生成模型的训练成本和难度。加上3D RoPE(旋转位置编码)模块,有利于捕捉时间维度上帧与帧之间的关系,建立食物之间的关系。长期依赖。
在可控性方面,智浦AI开发了端到端的视频理解模型,用于生成与海量视频数据内容相契合的详细描述文本,从而增强模型的文本理解和指令跟随能力。使生成的视频与用户输入更加一致,并理解长而复杂的指令。
在模型结构上,CogVideoX采用融合文本、时间、空间三个维度的Transformer架构。它抛弃了传统的Cross-Attention模块,融合了文本和视频两种不同的模态空间。对齐可以实现更好的模式交互。
CogVideoX特点
张鹏表示,在CogVideoX的开发过程中,智普AI曾经验证了Scaling Law在视频生成方面的有效性和可靠性。未来,团队将继续扩大数据和模型规模,同时寻找更多突破性方法。创新的模型架构。
智浦AI再次实现对标OpenAI全模型产品线。
智普AI对标OpenAI全模型产品线
算力方面,青影在北京亦庄AI公共算力平台上进行了培训。在数据层面,智浦AI已与B站、华策影视等展开合作。
张鹏表示,视频生成模式虽然刚刚起步,但已经收到了很多行业和客户的需求,涉及电商产品推广、影视特效等领域。
即日起,青影AI也在智普AI大模型开放平台上线了API。企业和开发者可以通过调用API来体验和使用CogVideoX的文声、图声视频能力。据称,这也是国内首次上线。第一个视频生成API。
随着青影能力的加入,智普AI旗下的AI助手青眼App的综合功能进一步完善,涵盖了对话、图片、代码、代理和视频。
智浦AI还准备了One more thing——视频生成视频能力。但准确来说,这相当于手动生成视频的能力:基于智浦AI最近开源的视频理解模型CogVLM2-Video,用户可以上传视频并提取详细的文字描述,然后将文字输入到青影中达到“视频产生视频”的效果。
视频催生视频
用户评论
逃避
哎呀,这智浦AI的视频清理效率也太慢了吧,等了2分钟才看到猫,有点失望啊。
有16位网友表示赞同!
鹿叹
刚刚试了试,确实6秒的视频要等2分钟,不过猫猫确实可爱,值得等待。
有5位网友表示赞同!
高冷低能儿
智能清理功能居然这么慢,人手清理估计更快吧,哈哈。
有5位网友表示赞同!
遗憾最汹涌
6秒视频等2分钟,这AI效率也太低了吧,猫猫可爱是可爱,但等的时间太长了。
有17位网友表示赞同!
娇眉恨
智浦AI的视频清理效率确实有待提高,不过猫猫的表情真的很治愈。
有10位网友表示赞同!
哥帅但不是蟋蟀
等了2分钟才看到猫,这AI清理效率真的让人头疼,下次还是自己动手吧。
有10位网友表示赞同!
月下独酌
6秒的视频等2分钟,效率太低了,但猫猫的萌态真的让人等值得。
有16位网友表示赞同!
淡抹丶悲伤
智浦AI的视频清理测试让我有些失望,2分钟等一个6秒视频,人手处理估计更快。
有11位网友表示赞同!
回忆未来
猫猫确实很可爱,但是这AI的清理速度,下次我还是自己来。
有15位网友表示赞同!
七级床震
2分钟等6秒视频,这AI的效率真的让人难以接受,猫猫可爱是可爱,但时间太长了。
有18位网友表示赞同!
墨染年华
智浦AI的视频清理效率太低了,等了2分钟才看到猫,下次还是选择其他方式吧。
有17位网友表示赞同!
来瓶年的冰泉
猫猫很可爱,但是这AI的清理速度,我真的等不下去了,下次自己动手。
有20位网友表示赞同!
〆mè村姑
6秒视频等2分钟,效率太低,不过猫猫的表情真的很吸引人,让人愿意等待。
有16位网友表示赞同!
颓废i
智浦AI的视频清理效率有待提高,虽然猫猫可爱,但是等的时间太长了。
有9位网友表示赞同!
执笔画眉
2分钟等6秒视频,这AI的清理速度让人无法接受,猫猫可爱是可爱,但时间太长了。
有8位网友表示赞同!
迁心
猫猫真的很可爱,但是智浦AI的视频清理效率,我真的接受不了,下次还是自己来。
有13位网友表示赞同!
莫名的青春
6秒视频等2分钟,效率太低,但是猫猫的萌态真的很治愈,让人愿意等待。
有18位网友表示赞同!
有恃无恐
智浦AI的视频清理测试让我感到失望,2分钟等一个6秒视频,人手处理更快。
有16位网友表示赞同!
青瓷清茶倾城歌
猫猫可爱是可爱,但是这AI的清理速度真的让人头疼,下次自己来吧。
有11位网友表示赞同!