Neural Style Transfer
概述
计算机视觉新流行的一种算法:Neural Style Transfer。卷积神经网络的出现带来的对图像特征,特别是抽象特征的提取,使得风格和内容的分离成为了可能。
原理
首先来看看架构图:
从架构图可以看到,input有三个:\(y_s\)风格图片,\(y_c\)内容图片,还有一个生成图片。在更新过程中,CNN网络参数被更新,输出图片也会被更新。
至于损失函数,则为: \[ J(G) = \alpha J_{content} + \beta J_{style} \] alpha和beta的主要作用是平衡风格和内容的博弈。
具体的内容损失函数的计算: \[ J_{content} = || a^{[l][c]} - a^{[l][g]} || ^ 2 \] 在CNN的某一层,我们拿到内容图和输出图的feature map,计算其损失函数(相近度),损失函数越低越好。
难点在于风格的损失函数,我们怎么定义风格呢?所谓风格,应该是在某一层feature map,所有channels之间的correlation。我们用一个gram matrix来描述一张图片所有的channels之间的correlation相关性。
而gram matrix则是,假设某个feature map有多个channels,两两channels之间某个长宽位置固定的点相乘,然后计算所有位置相乘之后求和。最后就可以得到一个矩阵。我们就用这个矩阵来表示style。
我们对输出图和style图都取gram matrix,然后计算: \[ J_{style} = || M^{[l][s]} - <^{[l][g]} || ^ 2 \] 虽然我们可以只取一层求损失函数,但为了使得风格更加饱满,我们可以在每一层都计算损失函数,最后求和: \[ J_style(S, G) = \sum_{\lambda} \lambda^{t} J^{t}(S, G) \]
Problme
- 风格迁移可能需要很多forward和backward的传到,速度非常慢;
解决方法是,另外训练一个神经网络来执行风格迁移。