Neuron Selecting: Defending Against Adversarial Examples in Deep Neural Networks论文总结

Yuanzhisheng

提出点：
在对安全性要求较高的情境下，不安全的模型可能会带来毁灭性的后果，具体来说，DNN的主要威胁来自对抗性的例子。作者认为一个对抗性的例子被错误分类的原因是扰动激活了一些不应该被激活的神经元。以数字识别为例，人类可以容易地识别一个数字，只要数字有特定形状和轮廓，就很难受到其他元素的干扰，即使周围的元素特别复杂。这不是因为我们没有看到周围的元素，而是因为我们不让它们参与识别数字的决策。CNN识别数字实验中，正常例子激活的神经元遵循“重要的少数和微不足道的许多”的规则。对抗性的例子呈“重要的少数”和“琐碎的许多”的分布

Yuanzhisheng

模型框架：
1.数据集：
CIFAR-10
MINST
2.模型框架：

a[l]表示将要被运用神经元选择算法的第l层的激活值，s[l]{0}, s[l]{1},..., s[l]{c}被称为神经元选择器，a˜[l]表示经过神经元选择后的第l层的激活值。
（1）为每一个输出的类创建一个神经元选择器，以s[l]{c}为例，表示在第l层为第c类创建的神经元选择器；
（2）训练神经网络，使之达到达到与最先进的测试精度相当的测试精度
（3）收集n[超参]个正确归类为c类的例子，假设a[l]{c}(j)为被归为c类的第j个例子的第l层的激活值，计算总共n个例子的平均值：

a˜[l]{c}是一个向量，它表示在n个示例上计算的给定类c的l层中激活的平均值。
（4）我们按照“重要的少数和琐碎的许多”的原则，认为找到重要的少数的方法为
VitalFew( )p是一个超参数，定义关键少数元素的贡献率,VFa表示关键少数的集合
（5）

在测试阶段，假设a[l]{unk}为是一个类未知的示例的激活值，我们有对不同的类别有不同的神经元选择器，映射激活值的计算如下：

sim()是一个相似函数,这里是余弦相似函数。

Yuanzhisheng

3.评测方法
在MNIST-CNN上对抗防御性的比较：

最好的情况是防御CWL2-untargted攻击，准确率为91.98%和92.75%。最坏的情况是防止MIM-untargeted攻击和JSMA-targeted/untargeted攻击准确率分别为73.78%、76.81%和76.94%

在CIFAR10-CNN上对抗防御性的比较：

CIFAR10-CNN本身在CIFAR-10数据集的分类上没有达到很高的精度。当模型本身性能不佳时, 神经元选择的防御效果将受到损害。网络更深，更多的层可以实现神经元选择，防御效果会更好.

Yuanzhisheng

模型缺点：
当需要分类的种类较多时，神经元选择器的数量较大，每条数据在该层的激活值需要与每个选择器求近似度，近似度需要每个维度进行比较，会增添巨大的计算量，减慢模型运算的速度。
当数据特征真的分布比较平均时，效果反而会变得很差，因为丢失了许多维度的信息。
创新点：
利用一种有针对性的dropout思想，对神经元的输出进行了一定的筛选，丢弃部分不很重要反而产生干扰的神经元的输出，使神经网络的输出更加集中有导向的指向正确分类的类别。
应用:
可在CNN和LSTM之间增加全连接层或者在LSTM之后添加全连接层，增加网络的深度，在接近输出的层添加神经元选择器。