机器之心专栏
作者:字节跳动智能创意团队
字节跳动的智能创意团队开发了业界首个通用视频过渡推荐方案AutoTransition。目前,AutoTransition衍生技术已成功应用于字节跳动多家智能编辑业务。
随着短视频的快速发展和普及,每天都有大量用户通过视频记录和分享自己的生活。对于缺乏专业剪辑和视频剪辑知识的普通用户来说,视频制作和剪辑的门槛很高。近日,字节跳动智能创作团队开发了业内首个通用视频转场推荐方案AutoTransition,致力于解决当前视频剪辑学习成本高、剪辑效率低的问题。该成果已入选欧洲计算机视觉大会(ECCV 2022)。
AutoTransition兼顾了灵活性和高性能,是视频剪辑中最常用的编辑元素。通过将转场推荐任务建模为多模态匹配和检索问题,从大量视频数据中自动学习转场匹配关系,实现对任意视音频输入的高质量转场推荐效果。通过AutoTransition,用户可以一键快速生成高质量的转场视频,大大提高了编辑效率。与手动编辑和第三方软件解决方案相比,AutoTransition具有以下显著优势:
与基于一系列预定义策略或随机选择的编辑方法相比,它可以有效地从海量数据中学习专业的编辑知识,并基于对视频和音频的理解推荐高质量的转场。
与人工编辑相比,该模型可以在极短的时间内完成推荐,显著提高编辑效率,推荐结果可以达到甚至超过专家编辑的效果。
由于其出色的可扩展性,AutoTransition可以很容易地与其他视频处理技术(如视频精彩片段提取、视频聚类和排序等)相结合。)实现更全面的视频剪辑能力,帮助视频工作者进一步提高视频剪辑效率。
目前,AutoTransition衍生技术已成功应用于字节跳动多家智能编辑业务。团队表示:首个视频转场数据集和AutoTransition代码已经开源,目的是吸引更多同行关注这一新领域,共同推动智能视频剪辑的快速发展。
论文链接:https://arxiv.org/abs/2207.13479
在介绍具体方法之前,我们先来体验几组实际由自动转移产生的转场效果。
可以看出,转场式可以完美匹配视频和背景音乐,视频看起来自然流畅,整体效果不输专业人士的剪辑效果。注意:最好打开声音播放体验!
实施方案
为了达到“推荐”的合理转场效果,需要对每种转场类型进行评分,判断与当前视频连接位置的契合程度。因此,该团队将转场推荐建模为多模态检索问题,并计算输入视频/音频模态与转场特效之间的特征相似度,以获得不同转场类型的排名。为了实现这一步,需要有一系列能够代表每一种过渡类型的特征向量。
如何获得这样的一系列特征?为此,该团队训练了一个网络来对视频过渡进行分类,以实现这一点:
视频过渡类别分类网络训练过渡嵌入作为过渡的特征表示。
将前一层team线性分类器的网络输出作为每种过渡类型的特征嵌入表示(即过渡嵌入)。通过对这些特征的t-SNE可视化,可以观察到转场之间的视觉效果差距符合特征空的分布,即转场越相似,特征越接近。如下图所示,左滑、右滑、下滑过渡(类别号分别为8、11、9)相互接近。这说明team方法学习到的转换表征具有良好的语义特征和区分度。
然后,团队提出了多模态过渡匹配网络,完成了对原始剪辑素材特征的端到端提取和对上述学习到的过渡特征的检索。视频转场的使用需要依靠对画面内容的理解和对视频美感的判断,这样才能保证画面能够流畅衔接,不显得突兀。为了让模型理解视频中的复杂元素,团队结合了视频的图像和音频模式,以及整个视频中多个转场的上下文信息,通过Transformer建模融合在一起。
具体来说,首先,团队提取图像和音频各自的特征。慢快速和谐滤波器作为视频和音频的骨干网络,也可以很容易地被其他网络取代,以提取相应的特征。同时,将同一视频中的几个连续转场输入到网络中进行训练,以便更好地模拟转场之间的相互依赖关系。
最后,为了减轻数据中噪声的过度拟合,团队使用基于余量的三元组损失来优化过渡特征和视频连接处的特征之间的相似关系。
m是预设的裕度参数,A、P、N分别代表当前样本、正样本和负样本的归一化特征。Phi(,)是一个相似性度量函数,在实验中是定向量的内积形式。
多模态转换匹配网络。
算法评估
通过详细的客观和主观评价,充分验证了自体移植的有效性。下表是该方法与基于分类模型的方法的比较。结果表明,新方法在查全率和平均排名方面明显优于比较法。
同时,团队还分析了不同模态输入对转场推荐效果的影响。通过下表的比较,可以看出,对视频和音频模式进行综合建模,并考虑转场的序列上下文,有助于提高推荐性能。
在主观评价方面,团队邀请了多位视频剪辑专家和普通用户,基于专家剪辑和随机转场对结果进行对比。从下图的统计结果可以看出,在最佳结果的投票率上,模型推荐结果的平均分与专家结果持平,甚至超过了专家结果。在编辑时间上,模型的平均推荐时间仅为1.5秒,相比人工编辑大大提高了编辑效率(300倍)。上述结果充分显示了自动转移在效果和性能上的优势。
AutoTransition是字节跳动智能创作团队提出的通用视频转场推荐方案,可以高效自动生成媲美专业编辑的视频效果。AutoTransition的出色表现凸显了智能视频编辑的巨大潜力。未来,该团队将把这一方案扩展到更多的视频编辑元素,包括但不限于视频动画、视频贴纸和裁剪变换等。,还将尝试将其与其他视频处理技术相结合,实现更全面的视频编辑功能。
剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com