Loss函数总结

haizi

Loss函数总结

花了快一周的时间看了很多的Loss函数，分析的还不是很仔细，后面使用过程中有心得会持续更新，也欢迎大家补充和讨论。

Log Loss

$L(Y,P(Y|X)) = -logP(Y|X)$

其基本思想就是让事情发生的概率最大，使用极大似然估计来更新参数

Logistic Loss

logistic loss可以看作Log loss函数针对二分类问题的一个特例

KL Divergence Loss

与Logistic loss之间相差一个常数

Exponential Loss

$L(y,f(x)) = exp[-yf(x)]$

主要用于Adaboost当中

Hinge Loss

$L(y,f(x)) = max(0,1-yf(x))$

主要用于svm当中

Focal Loss

$L(p_t) = -\alpha_t(1-p_t)^\gamma log(p_t)$

论文链接https://arxiv.org/pdf/1708.02002.pdf
缓解类别不均衡的问题：由 $\alpha_t$ 解决，给不同的类别配上不同的权重
让Loss更加关注分错的类别：由 $(1-p_t)^\gamma$ 完成，使得错的更加离谱的类别更加被关注
可以在训练过程当中动态的调整 $\gamma$

Large-Margin Softmax Loss

$L_i = -log(\frac{e^{||w_{y_i}|| ||x_i||\psi(\theta_{y_i})}}{e^{||w_{y_i}|| ||x_i||\psi(\theta_{y_i})}+\sum_{j\neq y_i}e^{||w_j|| ||x_i||cos(\theta_j)}})$

其中 $\psi(\theta_{y_i})$ 是一个单调递减的函数，由参数m控制，m越大，模型越需要发现不同类别中的细微差别特征
可参考的函数
$\psi(\theta)=(-1)^kcos(m\theta)-2k$
论文链接https://arxiv.org/pdf/1612.02295.pdf

Center Loss

$L_c = \frac{1}{2}\sum_{i=1}^{m}||x_i-c_{y_i}||^2$
$\Delta c_j=\frac{\sum_{i=1}^m\delta(y_i=j)(c_j-x_i)}{1+\sum_{i=1}^m\delta(y_i=j)}$
$c_j^{t+1}=c_j^t-\alpha\Delta c_j^t$

每个step需要更新中心点
主要用于分离中心特征
论文链接http://www.dl.icdst.org/pdfs/files1/c8edf1770d6ac7f5415f8daef7fb9bce.pdf

Triplet Loss

$L=\sum_i^N[||f(x_i^a)-f(x_i^p)||^2-||f(x_i^a-f(x_i^n))||^2+a]_+$

+表示L小于0的时候L为0
模型输入为一个三元组，[本样本，正样本，负样本]d s
目标：增大正负样本之间的距离
论文链接：(https://arxiv.org/pdf/1503.03832.pdf)[https://arxiv.org/pdf/1503.03832.pdf]

Soft Distillation Softmax Loss

$L=-log(\frac{e^{z_i/T}}{\sum_j e^{z_j/T}})$

主要用于迁移学习
排除迁移学习当中错误概率数量级不统一的问题
论文链接：https://www.cs.toronto.edu/~hinton/absps/distillation.pdf

Soft-Margin Softmax Loss

$L=-log(\frac{e^{w^T_{y_i}-m}}{e^{w^T_{y_i}-m}+\sum_{j\neq y_i}e^{w_j^T-m}})$

在L-Softmax的基础上扩大类里紧凑性
只改变了softmax前向传播的地方
论文链接：https://pdfs.semanticscholar.org/f220/ef68612e68a5708001f2b596d742b941e773.pdf

Angular Softmax Loss

$L_i = -log(\frac{e^{||x_i||\psi(\theta_{y_i})}}{e^{||x_i||\psi(\theta_{y_i})}+\sum_{j\neq y_i}e^{||x_i||cos(\theta_j)}})$

最初提出是在人脸识别上
提出||w|| = 1的约束主要是因为人脸的流线型特征（没太懂）
论文链接：https://arxiv.org/pdf/1704.08063.pdf

L2-constrained Softmax Loss

$L=-log(\frac{e^{w_{y_i}^T}f(x_i)+b_{y_i}}{\sum_je^{w_{j}^T}f(x_i)+b_{y_i}})$
$||f(x_i)||_2=\alpha$

特征做L2归一化，强化特征的区分度
论文链接：https://arxiv.org/pdf/1703.09507.pdf

Large Margin Cosine Margin

$L_i = -log(\frac{e^{s(cos(\theta_{y_i},i)-m)}}{e^{s(cos(\theta_{y_i},i)-m)}+\sum_{j\neq y_i}e^{s(cos(\theta_{j},i))}})$

约束角度
论文链接：https://arxiv.org/pdf/1801.09414.pdf

Additive Margin Softmax Loss

$L_i = -log(\frac{e^{s(w_{y_i}^Tf(x_i)-m)}}{e^{s(w_{y_i}^Tf(x_i)-m)}+\sum_{j\neq y_i}e^{s(w_{j}^Tf(x_i))}})$

w与f全部经过归一化，更容易训练
论文链接：https://arxiv.org/pdf/1801.05599.pdf

Angular Triple Loss

$L=[||x_a-x_p||^2-4tan^2\alpha||x_n-x_c||^2]_+$

在triple loss当中引入角度信息
$\alpha$ 是$x_a到x_p、x_n$的角度
论文链接：https://arxiv.org/pdf/1708.01682.pdf

Coco Loss

$L^{revise}=\sum \frac{e^{c(f^i,c_{l_i})}}{\sum e^{c(f^i,c_m)}}$

$c_l$ 表示类中心
将类中心与f归一化
特征做scala
论文链接：https://arxiv.org/pdf/1710.00870.pdf

Large-Margin Gaussian Mixture Loss

$L_{cls}=-log\frac{N(x_i;u_{z_i},\sum_{z_i})p(z_i)]}{\sum_{k=1}^{k}N(x_i;u_{k},\sum_{k})p(k)}$
$L_{lkd}=-logN(x_i;u_{z_i},\sum_{z_i})$
$L_{GM}=L_{cls}+L_{lkd}$

这里的Margin没搞清楚
论文链接：https://arxiv.org/pdf/1803.02988.pdf

Contextual Loss

$d_{ij}=1-\frac{(x_i-u_y)(y_i-u_y)}{||x_i-u_y||2||y_j-u_y||2}$
$u_y=\frac{1}{N}\sum_jy_j$
$w{ij}=exp(\frac{1-\frac{d{ij}}{min_kd_{ik}+\alpha}}{h})$
$CX_{ij}=w_{ij}/\sum_kw_{ik}$
$L_{cx}=-logCX_{f(x),f(y)}$

解决相似度问题
论文链接：https://arxiv.org/pdf/1803.04626.pdf

Loss函数总结

Loss函数总结

Log Loss

Logistic Loss

KL Divergence Loss

Exponential Loss

Hinge Loss

Focal Loss

Large-Margin Softmax Loss

Center Loss

Triplet Loss

Soft Distillation Softmax Loss

Soft-Margin Softmax Loss

Angular Softmax Loss

L2-constrained Softmax Loss

Large Margin Cosine Margin

Additive Margin Softmax Loss

Angular Triple Loss

Coco Loss

Large-Margin Gaussian Mixture Loss

Contextual Loss

Large-Margin Softmax Loss