【学习笔记】CS229机器学习--回归方法

RuisongZhou

线性回归

线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大，每个特征
对结果的影响强弱可以有前面的参数体现，而且每个特征变量可以首先映射到一个函数，然
后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。

太简单了不写公式了

梯度下降法

梯度下降法是按下面的流程进行的：
1）首先对 θ 赋值，这个值可以是随机的，也可以让 θ 是一个全零的向量。
2）改变 θ 的值，使得 J(θ)按梯度下降的方向进行减少。
梯度方向由 J(θ)对 θ 的偏导数确定，由于求的是极小值，因此梯度方向是偏导数的反方向。
结果为
0_1540539100227_8c208021-726d-473f-855f-d19bc541d84f-image.png

迭代更新的方式有两种，一种是批梯度下降，也就是对全部的训练数据求得误差后再对 θ
进行更新，另外一种是增量梯度下降，每扫描一步都要对 θ 进行更新。前一种方法能够不断
收敛，后一种方法结果可能不断在收敛处徘徊。

最小二乘法

将训练特征表示为 X 矩阵，结果表示成 y 向量，仍然是线性回归模型，误差函数不变。那么
θ 可以直接由下面公式得出
0_1540539156675_b346fa82-d84d-41bb-b1e7-6c068079c0e4-image.png

但此方法要求 X 是列满秩的，而且求矩阵的逆比较慢。

用误差函数为平方和的概率解释

假设根据特征的预测结果与实际结果有误差，那么预测结果和真实结果满足下
式：
0_1540539477337_7e8720f9-a54b-4612-b778-c867e8ceca0a-image.png
一般来讲，误差满足平均值为 0 的高斯分布，也就是正态分布。那么 x 和 y 的条件概率也就
是
0_1540539495072_977858f2-263d-4960-a882-f8fc4f939c4e-image.png

牛顿法来解最大似然估计

当要求解f(θ) = 0时，如果 f 可导，那么可以通过迭代公式
0_1540539582735_95290b96-0b80-4bff-9e40-eac920dcb2fc-image.png
来迭代求解最小值。
当应用于求解最大似然估计的最大值时，变成求解ℓ ′ (𝜃) = 0的问题。
那么迭代公式写作
0_1540539619610_0393ad16-9ab0-442c-afb0-d784830423e8-image.png
当 θ 是向量时，牛顿法可以使用下面式子表示
0_1540539633608_f46d6543-c3e8-47ec-bc39-861495a3dc12-image.png
其中 0_1540539643549_6c92f53d-f408-4e1e-8bae-6c31c8b92ec2-image.png
H是n*n的 Hessian 矩阵。

一般线性模型

首先，如果一个概率分布可以表示成
0_1540539798526_41c56aab-fe71-47b3-ab64-bb935717c2b7-image.png
那么这个概率分布可以称作是指数分布。

在对数回归时采用的是伯努利分布，伯努利分布的概率可以表示成
0_1540539860670_5cde6e3d-570f-4603-8d37-63c791ea693b-image.png
其中
0_1540539883341_bc058cde-6377-4da3-83bd-ee5f4be5b7cc-image.png
得到

所以对数回归要用这个函数

Softmax 回归

假设预测值 y 有 k 种可能，即 y∈{1,2,…,k}
定义
0_1540540338462_9cbe5b3b-d5d0-4b12-8edf-4872936168ff-image.png
有
0_1540540347970_3601371e-d3a0-41bf-8a90-c70c3af79a4c-image.png
所以有
0_1540540364707_e86ec152-785e-479c-853c-dff04e5c0a1b-image.png
即式子左边可以有其他的概率表示，因此可以当做是 k-1 维的问题。
我们假设T(y)这时候是一组 k-1 维的向量，不再是 y。即 T(y)要给出 y=i（i 从 1 到 k-1）的概率

0_1540540535150_e67bdeb0-7733-4db1-92d5-01575ef5cd4c-image.png
应用于一般线性模型
0_1540540551065_b9226a54-d956-415d-9b71-65ee105acabb-image.png
那么
0_1540540571984_7c3a743b-bb10-4f8f-aab5-69ea6102d67e-image.png
最后求得
0_1540540587200_716e76c1-84de-42b8-bc56-9843af178baa-image.png

而 y=i 时的概率改写为
0_1540540625495_c89359d6-d39f-49d8-866d-4b7c11b7862d-image.png

那么整体期望值
0_1540540647455_c34d3fa8-86de-49ce-91c5-91eb1c19aa7a-image.png

最后就获得了最大似然估计
0_1540540664618_50e6cbb2-7e27-4f40-a0d4-8e907b13b090-image.png