特征工程
-
特征工程
将分为五部分进行记录,不定时更新,查找资料不易,共同学习
在深度学习端到端自动提取特征的时代,特征提取其实依然不过时,在小数据,工业界依然有很大的用武之地(总不能希望工厂给你几十个G的数据和GPU+CPU集群吧),花点时间积累下这方面的知识也是好事第一部分
- 1.什么是特征工程
这是数据挖掘的一个经典图,总体来说三步:提取,变换,选择- 2.为什么需要特征提取
特征与数据决定模型上限,算法顶多逼近上限,好的特征可以极大简化模型,获得更好的结果 - 3.特征提取基本思路
第二部分
-
特征获取:
- 1.离线特征获取方案--借助Hardoop和Spark等大数据管理工具获得
- 2.在线特征获取方案
-
特征使用--这也太简单了,字面意思
-
特征预处理:
- 1.异常样本:离群的很大概率回成为异常噪声,影响特征学习,可以通过pandas的统计功能求出同类样本的均值方差,离得太远的基本上可以去掉或者修正
- 1.1:箱型图分析--详情自行百度
- 1.2:模型检测--建立数据模型,预测是否为异常点(可能不是机器学习模型)
- 1.3:基于距离--定义邻近性度量,异常对象是那些远离其他对象的对象
- 1.4:基于密度--当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。
- 1.5:基于聚类--不属于簇的点即为异常点
这里很明显有一个点远远偏离,直接去掉即可-
2.缺失特征:
最差办法:直接去掉
中等办法:使用均值或者中位数替代--一般数据量比较大,数据倾斜度不高可以快速处理
最好办法:使用拉格朗日插值算法:
-
3.噪声处理:暴力建立回归模型--直接平滑掉
噪声vs异常点:这两个不一样,异常点属于正常值,只是在局部不正常,很可能会蕴含有用信息(突然发现这个可能是致富的机会),但是噪声就是无意义统计信息,对结果无任何作用
- 1.异常样本:离群的很大概率回成为异常噪声,影响特征学习,可以通过pandas的统计功能求出同类样本的均值方差,离得太远的基本上可以去掉或者修正
未完持续