机器之心专栏
作者:崇谋
来自腾讯ARC实验室的研究人员提出,在真实场景中使用无监督的度量学习来训练可调的图像超分辨率任务。
真实世界超分辨率是指从包含真实退化的低分辨率图像中恢复出高分辨率图像。真实世界图像的可调超分辨率是一项具有挑战性的任务,因为退化过程复杂且未知,可调交互机制很难通过监督训练来完成。
对于可调图像超分辨率,以前的工作主要是研究经典的退化仿真数据,也就是说,我们知道退化类型和退化强度。虽然这种设计在模拟数据中有很好的表现,但在真实场景中的应用仍然存在很多问题:
经典的模拟退化难以模拟复杂的真实世界退化,训练好的网络对真实世界数据的重建效果较差。同时,在这种设置下训练出来的可调交互机制对真实世界数据的调节效果也会大打折扣。
虽然可以用高阶退化来模拟现实世界中的低清晰度图像,但是这种模拟退化下的退化强度是未知的,很难通过监督训练来构建这种可调的交互机制。
近年来,无监督比较学习在底层视觉领域引起了越来越多的关注。这种方法方便了复杂退化特征的提取,为腾讯ARC实验室的研究人员提供了一个思路:是否有可能通过对比,在真实场景中无监督地构建一个图像超分辨率的可调交互机制?
论文:mm-realsr:用于真实世界超分辨率的基于度量学习的交互式调制
地址:https://arxiv.org/pdf/2205.05065.pdf
开放源代码:https://github.com/TencentARC/MM-RealSR
Colab演示:https://colab . research . Google . com/drive/1 pihk 4g 2 ukdbyxiuskusl 9 wdwqvzaz 1 q
这项工作的核心是利用度量学习,通过比较不同样本的退化强度,无监督地构造高阶模拟退化中退化强度的度量空。measurement 空中的退化分数并不代表真实的退化强度,但可以反映退化强度的相对大小。本文提出的方法(MM-RealSR)通过度量空之间的降质分数来构建真实场景下图像超分辨率的可调交互机制。
本文提出将复杂的退化空空间分成两个度量空空间,即广义噪声和广义模糊。因为这两个退化因素在真实场景中是最常见的,也是最受关注,最需要调整的。MM-RealSR在真实场景中可以达到下图1所示的调整效果。与近年来的其他可调复原方法相比,MM-RealSR不仅实现了真实场景中图像的可调超分辨率,而且使整体重建结果更加自然。
图一。真实场景中MM-RealSR的可调超分辨率效果
审查和比较现有的可调整回收方案
如图2所示,首先,现有方案针对的图像退化设置是低阶的,需要知道退化类型和强度。本文提出的方案面向真实场景,退化过程是高阶的,退化类型和强度未知。
2.建议方案与现有方法的比较。
MM-RealSR结构
本文重点介绍了真实场景中最常见的两种退化因素,广义噪声和广义模糊,并对这两种退化因素进行了广义定义,如图3所示。噪声包括高斯噪声、泊松噪声、JPEG压缩等。模糊包含各向同性、各向异性和随机尺寸变换等模糊因素。
图3。降解因子的定义
针对这两个退化因子,本文提出的无监督退化估计模块如图4所示。该模块通过度量学习,将难以量化的真实世界退化强度映射到两个独立的度量空。通过比较不同退化强度的大小,构建了度量空之间的距离关系。在本文中,使用附加的锚损失函数来限制度量空的分布。虽然measurement 空中的退化分数不能反映真实的退化强度,但可以反映退化强度的相对关系。本文通过无监督退化估计模块和图像超分辨率模块的联合训练,构建退化评分和重建结果之间的可调关系。
图4。基于度量学习的无监督退化估计模块
本文提出的总体模型结构如图5所示。它由退化估计模块、状态变量生成模块和重构模块组成。其中,状态变量生成模块将预测的退化分数转换成一组状态变量,通过仿射变换将这组状态变量注入图像重建模块,起到调整重建结果的作用。实验表明,本文提出的方法兼顾了较好的重建效果和可调整性。
图5。基于度量学习的可调真实图像超分辨率网络
损失函数
在本文中,使用L1、感知和GAN恢复损失函数来保证图像重建的质量,并且使用边缘排序损失函数来训练噪声度量空和模糊度量空。损失测量函数的表达式:
为了控制度量空之间的分数分布,本文还提出了锚损失函数:
与现有的真实世界图像超分辨率工作Real-ESRGAN类似,本文使用高阶退化仿真数据作为训练数据。更多细节请参考论文。
实验结果
研究人员测试了真实世界低质量数据的重建效果:
可以看出,在具备交互能力的基础上,本文提出的方法的超分辨率性能达到了SOTA的水平,主观效果更加美观自然。
研究人员测试了无监督降级评分员对真实世界数据的评分能力:
可以看出,无监督退化评分器可以更好地评估真实场景中的退化强度。
研究人员在真实世界的数据上测试了网络的交互重建能力:
可以看出,与现有方法相比,MM-RealSR在交互重建能力上有更好的表现。其交互范围更大,重建效果更好。
摘要
本文提出在真实场景中,可调整的维数主要是广义噪声和广义模糊。通过无监督的度量学习,首次实现了真实场景下可调的图像超分辨率。该方法具有良好的调节能力和超分辨率性能。
掌握“声纹识别技术”:前20小时给我,后9980小时……
推出中文课程《声纹识别:从理论到编程实践》,由Google声纹团队负责人王泉博士主讲。
视频内容为12小时。重点介绍了基于深度学习的声纹识别系统,包含了大量学术界和工业界的最新研究成果。
同时,课程配有32个课后小测验、10个编程练习和10个大作业,保证你在课程结束时可以自己从零开始构建一个完整的声纹识别系统。