Siggraph编译基于特征变化的通用风格迁移模型-巅峰下载

正文概述

本文编译自siggraph上的论文“Universal Style Transfer via Feature Transforms”，作者为Joe van den Heuvel, James Cunliffe, Eddie Parker, Authors Info & Y Li, C Fang, J Yang, Z Wang, X Lu, MH Yang。风格迁移(Universal Style Transfer)的关键问题是如何提取有效果的风格特征并且让输入的内容图像去匹配这种风格。传统的风格迁移模型存在需要大量耗时、调参的问题，原因在于：
通过计算原图和风格图的content loss和style loss来保障迁移的效果，这导致对于每个风格都需要专门训练对应的网络，而训练是十分耗时的。
对于style和content loss，我们仍然需要通过对layer的尝试参数，来得到一个和style较为匹配的表述才能有较好的效果；且针对不同的style这一步骤需要重新训练，所以需要大量调参的过程。可以看出问题主要出在风格上，因此如何不单独对风格进行训练，从而实现style transfer是一个很重要的问题，本文对应提出一种encoder/decoder的方式，来进行不需要训练的style transfer。该方法的关键成分是嵌入到图像重建网络中的一对特征变换，即增白和着色。白化和着色变换反映了内容图像的特征协方差与给定风格图像的直接匹配，这与神经风格迁移中基于Gram矩阵的代价优化具有相似的模式。文章中通过生成高质量的风格化图像来证明其算法的有效性，并与许多最近的方法进行了比较。我们通过对白化特征的可视化和简单的特征着色合成纹理来分析该方法。
01
主要方法
论文主要的思想分为三点：多种形式的解码器训练+WCT层的风格融合+连贯的精细化处理。本文首先训练多个解码器，将图像输入预训练好的VGG网络，提取不同的relu_n层结果作为编码输出，针对conv层结果训练Decoder进行解码，从而针对不同的relu1….relu5层设计出多个解码器，来对VGG卷积层结果进行还原。
WCT层分为白化和上色两部操作，白化操作会使用式子从原图中提取出原图的内容形式，上色操作会将风格图的风格和内容形式进行拼合组成新的结果（有特定的计算式子，无需训练）。经过上面的两点可以得到图中的“编码-WCT-解码”的结构，但是该怎么选取编码的relu层是个问题，不同的conv层各有其特点，因此为了有好的效果，我们设计出下图的精细化处理流程，先粗后细。

02
具体实现
由以上过程，可以发现唯一需要训练的是第一步中的5个解码器，而训练过程和风格化图是没关系的，所以本模型无需针对每个风格单独训练模型，快速且方便，不过还有三个疑问：
解码器具体是怎么训练的？
WTC的过程和效果是怎样的？
精细化处理的结构是否合理？首先，我们使用一个预训练的VGG-19作为编码器，对图片进行编码，保持编码器的权重不变，设计解码网络，利用损失函数设计解码器，这样得到的编解码器实际上是对图片进行一个恒等变换。损失函数分为两部分，一是像素重建损失，即生成图片与输入图片的均方误差；二是特征损失，即生成图与输入图在VGG-19的特征空间中的特征的均方误差。具体损失函数如下所示：

其中Ii, Io为输入图像和重建输出，Φ为提取Relu_X_1特征的VGG编码器，λ是平衡这两种损失的权重。经过训练后，解码器是固定的(即不会被微调)，用作特征反演器。针对另一个问题，WTC是在前人的基础上提出的，在将内容图和风格图经过编码过程后，先经过白化操作，式子如下图，先计算出内容图c的协方差矩阵的对角矩阵D、协方差矩阵的正交矩阵E,然后计算内容提取结果。

下图是对编码到conv4经过白化再解码的结果，可发现内容图提取了主体结构，而去除了风格色。

之后是上色操作，上色是白化操作的逆操作，只不过求逆时是计算风格图经过Encoder后的协方差矩阵的对角矩阵D、协方差矩阵的正交矩阵E参与计算进行还原，这样相当于在恢复原图时把风格图的风格融合到其中，下图是合成的效果，后面的五个分别是从提取relu1到relu5进行还原的效果，可以发现更低层次的relu会保留更多的细节，但是风格化效果较差。

最后是对精细化过程的思考，承接之前的结论，我们发现越小的relu层可保存更多的细节，越大的relu层有更好的风格化效果，所以这里思考，如果使用一种循环的方式不断进行效果处理会怎样呢？针对这一思考，我们提出了分别是由粗到细、由细到粗的两种结构，发现效果如下，左图为由粗到细的过程，其拥有比右图更佳的风格化效果。

实验部分训练了五个重构解码器，用于VGG-19 Relu_X_1 (X=1,2，…，5)层的特征。它在Microsoft COCO数据集上进行训练。同时，我们也将现有的其他主流的风格迁移的模型用来做对比实验，通过调整每个模型的参数，使其达到最佳水平，结果如下图。可以发现，相比其他的模型，本文提出的风格迁移模型在各种不同风格的迁移任务中都有最佳的表现，能够捕获风格图像中视觉上显著的模式(例如，第六排的砖墙)。此外，在结果中，内容图像中的关键组件(例如，桥梁，眼睛，嘴巴)也被很好地风格化，而其他方法只将模式转移到相对光滑的区域(例如，天空，脸部)。在这项工作中，我们提出了一种通用的风格迁移算法，它不需要对每个单独的风格进行学习。通过训练用于图像重建的自编码器来展开图像生成过程，将前馈传递中的美白和着色变换集成在一起，以匹配内容和风格中间特征之间的统计分布和相关性。我们还提出了一个多级样式化管道，它考虑了样式的所有级别的信息，以改进结果。此外，该方法对纹理合成同样有效。实验结果表明，该算法在泛化到任意样式方面取得了较好的效果。

03
结语
本文的模型结构较为清晰，且上色速度较快，并且通过对模型的适当利用，可以是适用于多种任务，且效果不错，包括：单图片双风格的合成
双风格合成单风格
以及有参数调控的纹理生成。* 项目目前已开源，读者可以自行尝试不同风格的迁移任务。https://github.com/Yijunmaverick/UniversalStyleTransfer

喜欢 0

分享到：

相关推荐

发表评论 取消回复

发表评论取消回复