大牛Big GAN
-
论文链接 https://arxiv.org/pdf/1809.11096.pdf
亮点:
将正交正则化的思想引入 GAN,通过对输入先验分布 z 的适时截断大大提升了 GAN 的生成性能,在 ImageNet 数据集下 Inception Score 比当前最好 GAN 模型 SAGAN 提高了 100 多分(接近 2 倍)。
-
主要方法
增大Batch Size
一定程度增大Batch Size能提高效果。增大Batch Size的过程中,每层的通道数也做了相应的增加,一味增加反而性能会降低。
结构图
如左图所示将噪声向量 z 通过 split 等分成多块,然后和条件标签 c 连接后一起送入到生成网络的各个层中,对于生成网络的每一个残差块又可以进一步展开为右图的结构。可以看到噪声向量 z 的块和条件标签 c 在残差块下是通过 concat 操作后送入 BatchNorm 层,其中这种嵌入是 共享嵌入,线性投影到每个层的 bias 和 weight。
截断技巧
通过对从先验分布 z 采样,通过设置阈值的方式来截断 z 的采样,其中超出范围的值被重新采样以落入该范围内。这个阈值可以根据生成质量指标 IS 和 FID 决定。
通过实验可以知道通过对阈值的设定,随着阈值的下降生成的质量会越来越好,但是由于阈值的下降、采样的范围变窄,就会造成生成上取向单一化,造成生成的多样性不足的问题。
在一些较大的模型不适合截断,在嵌入截断噪声时会产生饱和伪影,如上图 (b) 所示,为了抵消这种情况,文章通过将 G 调节为平滑来强制执行截断的适应性,以便 z 的整个空间将映射到良好的输出样本。为此,文章采用正交正则化,它直接强制执行正交性条件。控制稳定性
- 对Generator的控制
- 对Discriminator的控制
详情可以看论文,讲的比较清楚。