选自arXiv
作者:Omid Poursaeed,Vladimir G. Kim等。
机心编译参与:恶魔
与创作者手绘动画相比,木偶动画的制作是一个非常繁琐的过程。我们需要把一个动作分解成几个环节,一帧一帧的拍摄,然后连续的以电影的形式放映。最近,Adobe和康奈尔大学提出了一种叫做“变形木偶模板”的动画制作方法,可以基于少量的卡通人物样本生成新的人物动作。类似于木偶动画的制作方法。
最近,来自Adobe和康奈尔大学的研究人员提出了一种基于学习的动画方法——,它可以基于卡通人物的少量图像样本生成新的动画。
在传统动画中,每一帧都是创作者自己绘制的,因此输入的图像缺乏共同的结构、配准或标签。研究人员将动画角色的动作变化解释为一个分层的2.5D模板网格的变形,并设计了一种新的架构来学习和预测可以匹配模板和目标图像的网格变形,从而实现从角色多样的动作集合中抽象出一个共同的低维结构。研究人员将微渲染和网格感知模型结合起来,以对齐通用模板,即使只有少数卡通人物可以用于训练。
除了动作之外,因为阴影、面外运动、画面的艺术效果,卡通人物的外貌也会略有不同。研究人员使用图像翻译网络来捕捉这些细微的变化,并改善网格渲染结果。他们还建立了一个端到端的模型,以生成更高质量的新卡通人物。该模型可用于合成中间帧并创建数据驱动的变形。模板拟合在检测图像配准中的效果明显优于目前通用的技术。
Adobe的新方法生成的图像的1024 1024版本的例子。
卡通动画的难点。
传统的角色动画制作过程比较复杂,需要众多创作者的共同努力,每一帧动作的绘制都要非常细致地完成。
在《起风了:1000日的创作记录》中,宫崎骏其人透露这几秒钟的镜头耗时1年零3个月。
在观察多个动作序列后,人类很容易想象出这个角色在其他姿势下的细节,但对于算法来说就没那么容易了:关节关节、艺术效果和视角变化都会在图像外观上产生很多细微的差异,这大大增加了提取底层角色结构的复杂度。人类的自然图像仍然可以依靠大量的标签或者数据来提取共同的结构,但是这种方法并不适合卡通人物,因为他们的拓扑结构、几何以及画风都不是那么一致。
Adobe的解决方案
为了解决这个问题,Adobe提出了一种基于少量图像样本,借助“可变形木偶模板”生成动画角色新外观的方法。
研究人员首先假设所有角色的姿态都可以通过扭曲变形模板来生成,并开发了一个变形网络,以及这个网络的编码图像和解码模板的变形参数。然后,这些参数在可区分渲染层中使用,以渲染与输入帧匹配的图像。重建损失可以在所有阶段传播回来,以便学习如何为所有训练帧注册模板。
然而,虽然渲染结果的姿态是合理的,但这个结果仍然有些不如创作者绘制的图像,因为他们只是扭曲了一个参考输入,未能捕捉到阴影和艺术效果等因素造成的轻微外观差异。为了进一步提高渲染结果的视觉质量,研究人员使用图像翻译网络来合成最终的外观。
本研究使用了学术界和工业界常用的分层2.5D可变形模型,并与许多传统手绘动画风格相匹配。这样相对于需要大量专业知识才能使用的3D建模模板,用户会轻松很多。如果用户想要创建一个木偶,请选择单个帧,然后将前景角色分成几个身体组件,然后使用标准的三角测量工具将其转换为网格。
在六个动画角色的制作任务中,研究人员使用70%-30%的训练-测试分流比来评估这种新方法:
首先评估模型重建对输入帧的效果,发现输出结果比目前的最优光流和自编码技术更准确。
其次,对配准模板估计的配准质量进行评价,发现其效果优于图像配准方法。
最后证明了该模型可以用于数据驱动动画,即合成的动画帧由训练时得到的角色外观决定。研究人员已经构建了一个根据用户指定的变形合成中间帧并制作动画的原型应用程序,并根据角色进行合理的变形后生成新的图像。与传统的基于能量的计算机图形学优化技术相比,这种数据驱动的方法在人物姿态上更真实,更接近创作者的绘画水平。
方法
这项研究的目标是学习一个变形模型,并基于一组未标记的图像生成卡通人物。首先,用户通过划分参考帧来创建分层变形模板木偶;然后训练一个两阶段的神经网络:第一阶段,学习如何扭曲木偶模板来重新设计角色的外形,从而将变形的木偶与输入序列中的每一帧进行匹配;第二阶段,对变形木偶的渲染结果进行改进,实现了上一个2D扭曲阶段无法呈现的纹理变化和动作效果。
分级变形木偶
图1:变形木偶。a)为每个身体部位创建单独的网格,并标记关节(见图中圆圈);b)连接这些网格,最终网格的UV图像包括分割纹理贴图的翻译版本。
与3D建模不同,层次2D木偶使用起来简单得多,甚至没有经验的用户也可以使用它们。首先,用户选择一个参考帧来提供不同身体部位的轮廓及其序列,然后使用标准的三角剖分算法为每个部位生成网格,并在两个部位重叠区域的质心处创建关节点;运行中点网格子分割后,可以调整更多细节,得到更细的网格。
变形网络
获得变形后的网络模板后,可以学习如何对模板进行变形,以匹配目标角色图像的新姿态。
图2显示了培训架构:
图2:培训架构。编码器-解码器网络学习网格变形,条件生成针对网络改进渲染图像以捕捉纹理变化。
变形网络的输入是指初始网格和具有新姿态的目标角色图像。编解码网络通过卷积滤波器将目标图像编码到瓶颈层,然后通过全连接层解码成顶点位置偏移。以这种方式,网络可以识别输入图像中的姿态,并推断出适当的模板变形来生成该姿态。
改善外观网络
虽然变形网络可以捕捉到大部分关节,但仍有一些细微的外观变化(如艺术风格、阴影效果和平面外运动)无法通过上述步骤实现。
因此,研究人员推出了“外貌改善网络”,对变形的图像进行提炼。架构和训练步骤类似于条件生成对抗网络。生成器会优化渲染图像,使其更加自然。
实验结果及应用
图Adobe方法的输入图像、渲染结果和最终结果,以及PWC-Net [55]和DAE [52]的结果。(输入图像中的前三个字符由Zuzana Studena绘制,第四个字符由Adobe Character Animator绘制。)
表1:目标图像和生成图像之间的平均L2距离。该表显示了使用PWC-Net [55]和变形自动编码器[52]的Adobe方法的渲染图像和生成图像的比较结果。最后一栏显示了六个不同角色的平均L2距离。
图4:将Adobe方法的输出结果渲染为1024 1024图像的示例。
原文链接:https://arxiv.org/pdf/1910.02060v1.pdf