Yuanzhisheng 发布的帖子

Yuanzhisheng

0_1614865998286_论文9.PNG

Yuanzhisheng

0_1614865983955_论文8.PNG

Yuanzhisheng

0_1614865969223_论文7.PNG

Yuanzhisheng

0_1614865948479_论文6.PNG

Yuanzhisheng

0_1614865940526_论文5.PNG

Yuanzhisheng

0_1614865925689_论文4.PNG

Yuanzhisheng

0_1614865854188_论文3.PNG

Yuanzhisheng

0_1614865846652_论文2.PNG

Yuanzhisheng

0_1614865810585_论文1.PNG

Yuanzhisheng

瞎写瞎看！

Yuanzhisheng

应用:
目前对数据包内的数据处理是只截取前600个字节，这样可能导致有效维度丢失，所以可以取更多的字节数进行降维特征提取。对于数据包长度不一致的处理方法，目前我的看法是取大概数据包长度的平均值作为自编码器输入长度，少于这个长度的数据包将包含的字节平均地填充到自编码器输入的两端，中间值用0来补充；超过该长度的数据包取数据包头尾两端的数据填充到自编码器输入。

Yuanzhisheng

创新点：
采用神经网络实现非线性编码，针对高维且复杂的数据时，能在最大程度保证特征信息完整的程度下有效降低数据集的特征维度。

Yuanzhisheng

模型缺点：
模型的输入为定长输入，而流量的长度相差较大。取最长的流量长度作为输入长度，不足补零必然会增加干扰；截取部分作为输入可能会丢失有效维度。
需要预先训练模型，对于结构和特征与训练集差异很大的数据的特征提取效果未知。对结构和特征相似程度较高的数据提取特征后有可能使特征区别更加模糊。

Yuanzhisheng

4.评测方法
（1）分析输入数据和重构数据的结果差异
在输入数据中存在大量的零取值特征和部分非零取值特征，对于零取值的特征维度的重构基本是准确的，非零特征维度的重构误差大约在±0.6以内，说明高维数据通过自编码器得到的低维特征通过解码器重构之后得到的输出与实际输入的误差非常小，所以,降维后的输出可以被称为输入数据的低维表示。
（2）引入重构误差的概念来定量地对自编码器这种深度学习降维方法进行验证
重构误差是指将数据集进行降维之后，降维后的特征重构输出的结果和输入进行运算之后得到的误差结果。此时重构误差利用MSE（Mean-Square Error）均方误差表示。

Yuanzhisheng

模型框架:
1.数据集
KDD CUP99
每一条数据有41维特征，分配有一个标明是“正常”还是“异常”的标签，并注明了异常类别。整个数据集共39种攻击，训练集中包括22种攻击类型，其余攻击类型出现在测试集。
2.数据预处理
（1）符号特征数字化

（2）数字特征归一化

3.模型框架

（1）权重和偏置向量的初始化
Xavier初始化，基本思想是保持神经元输入输出的方差一致。

（2）自编码器模型结构

Yuanzhisheng

额外发现:
基于SVM的入侵检测技术，实验证明在训练样本较少的情况下，保证准确率基础上有效缩短训练时间
将PSO与K-means相结合，能够克服传统K-means算法对初始聚类中心敏感问题
【傅涛，孙文静．PSO-based K-means 算法及其在网络入侵检测中的应用[J]计算机科学，2013，40（11）：137-139】

Yuanzhisheng

提出点：
传统的机器学习方法会受到数据时间和空间的复杂度约束容易出现“ 维数灾难 ”。基于此，目前的机器学习重点在于进行特征学习和特征降维。Kunchimanchi等人利用神经网络
主成分分析（NNPCA）方法有效减少了网络数据流的维数，但是只能学习到低维结构，不能给出高维空间和低维空间之间的确定映射，容易忽略特征之间的相关性甚至会丢失部分潜在有用特征维度。
【Kunchimanchi G K,Phoha V V,Balagani K S,et al.Dimension reduction using feature extraction methods for real-time misuse detection systems[C].Information Assurance Workshop,2004.Preceedings From the Fifth IEEE Smc.IEEE,2004:195-202 】

Yuanzhisheng

模型缺点：
当需要分类的种类较多时，神经元选择器的数量较大，每条数据在该层的激活值需要与每个选择器求近似度，近似度需要每个维度进行比较，会增添巨大的计算量，减慢模型运算的速度。
当数据特征真的分布比较平均时，效果反而会变得很差，因为丢失了许多维度的信息。
创新点：
利用一种有针对性的dropout思想，对神经元的输出进行了一定的筛选，丢弃部分不很重要反而产生干扰的神经元的输出，使神经网络的输出更加集中有导向的指向正确分类的类别。
应用:
可在CNN和LSTM之间增加全连接层或者在LSTM之后添加全连接层，增加网络的深度，在接近输出的层添加神经元选择器。

Yuanzhisheng

3.评测方法
在MNIST-CNN上对抗防御性的比较：

最好的情况是防御CWL2-untargted攻击，准确率为91.98%和92.75%。最坏的情况是防止MIM-untargeted攻击和JSMA-targeted/untargeted攻击准确率分别为73.78%、76.81%和76.94%

在CIFAR10-CNN上对抗防御性的比较：

CIFAR10-CNN本身在CIFAR-10数据集的分类上没有达到很高的精度。当模型本身性能不佳时, 神经元选择的防御效果将受到损害。网络更深，更多的层可以实现神经元选择，防御效果会更好.

Yuanzhisheng

模型框架：
1.数据集：
CIFAR-10
MINST
2.模型框架：

a[l]表示将要被运用神经元选择算法的第l层的激活值，s[l]{0}, s[l]{1},..., s[l]{c}被称为神经元选择器，a˜[l]表示经过神经元选择后的第l层的激活值。
（1）为每一个输出的类创建一个神经元选择器，以s[l]{c}为例，表示在第l层为第c类创建的神经元选择器；
（2）训练神经网络，使之达到达到与最先进的测试精度相当的测试精度
（3）收集n[超参]个正确归类为c类的例子，假设a[l]{c}(j)为被归为c类的第j个例子的第l层的激活值，计算总共n个例子的平均值：

a˜[l]{c}是一个向量，它表示在n个示例上计算的给定类c的l层中激活的平均值。
（4）我们按照“重要的少数和琐碎的许多”的原则，认为找到重要的少数的方法为
VitalFew( )p是一个超参数，定义关键少数元素的贡献率,VFa表示关键少数的集合
（5）

在测试阶段，假设a[l]{unk}为是一个类未知的示例的激活值，我们有对不同的类别有不同的神经元选择器，映射激活值的计算如下：

sim()是一个相似函数,这里是余弦相似函数。