【学习笔记】CS229机器学习--回归方法



  • 线性回归

    线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征
    对结果的影响强弱可以有前面的参数体现,而且每个特征变量可以首先映射到一个函数,然
    后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。

    太简单了不写公式了

    梯度下降法

    梯度下降法是按下面的流程进行的:
    1)首先对 θ 赋值,这个值可以是随机的,也可以让 θ 是一个全零的向量。
    2)改变 θ 的值,使得 J(θ)按梯度下降的方向进行减少。
    梯度方向由 J(θ)对 θ 的偏导数确定,由于求的是极小值,因此梯度方向是偏导数的反方向。
    结果为
    0_1540539100227_8c208021-726d-473f-855f-d19bc541d84f-image.png

    迭代更新的方式有两种,一种是批梯度下降,也就是对全部的训练数据求得误差后再对 θ
    进行更新,另外一种是增量梯度下降,每扫描一步都要对 θ 进行更新。前一种方法能够不断
    收敛,后一种方法结果可能不断在收敛处徘徊。

    最小二乘法

    将训练特征表示为 X 矩阵,结果表示成 y 向量,仍然是线性回归模型,误差函数不变。那么
    θ 可以直接由下面公式得出
    0_1540539156675_b346fa82-d84d-41bb-b1e7-6c068079c0e4-image.png

    但此方法要求 X 是列满秩的,而且求矩阵的逆比较慢。

    用误差函数为平方和的概率解释

    假设根据特征的预测结果与实际结果有误差,那么预测结果和真实结果满足下
    式:
    0_1540539477337_7e8720f9-a54b-4612-b778-c867e8ceca0a-image.png
    一般来讲,误差满足平均值为 0 的高斯分布,也就是正态分布。那么 x 和 y 的条件概率也就

    0_1540539495072_977858f2-263d-4960-a882-f8fc4f939c4e-image.png

    牛顿法来解最大似然估计

    当要求解f(θ) = 0时,如果 f 可导,那么可以通过迭代公式
    0_1540539582735_95290b96-0b80-4bff-9e40-eac920dcb2fc-image.png
    来迭代求解最小值。
    当应用于求解最大似然估计的最大值时,变成求解ℓ ′ (𝜃) = 0的问题。
    那么迭代公式写作
    0_1540539619610_0393ad16-9ab0-442c-afb0-d784830423e8-image.png
    当 θ 是向量时,牛顿法可以使用下面式子表示
    0_1540539633608_f46d6543-c3e8-47ec-bc39-861495a3dc12-image.png
    其中0_1540539643549_6c92f53d-f408-4e1e-8bae-6c31c8b92ec2-image.png
    H是n*n的 Hessian 矩阵。

    一般线性模型

    首先,如果一个概率分布可以表示成
    0_1540539798526_41c56aab-fe71-47b3-ab64-bb935717c2b7-image.png
    那么这个概率分布可以称作是指数分布。

    在对数回归时采用的是伯努利分布,伯努利分布的概率可以表示成
    0_1540539860670_5cde6e3d-570f-4603-8d37-63c791ea693b-image.png
    其中
    0_1540539883341_bc058cde-6377-4da3-83bd-ee5f4be5b7cc-image.png
    得到
    0_1540540029702_CodeCogsEqn.gif

    所以对数回归要用这个函数

    Softmax 回归

    假设预测值 y 有 k 种可能,即 y∈{1,2,…,k}
    定义
    0_1540540338462_9cbe5b3b-d5d0-4b12-8edf-4872936168ff-image.png

    0_1540540347970_3601371e-d3a0-41bf-8a90-c70c3af79a4c-image.png
    所以有
    0_1540540364707_e86ec152-785e-479c-853c-dff04e5c0a1b-image.png
    即式子左边可以有其他的概率表示,因此可以当做是 k-1 维的问题。
    我们假设T(y)这时候是一组 k-1 维的向量,不再是 y。即 T(y)要给出 y=i(i 从 1 到 k-1)的概率

    0_1540540535150_e67bdeb0-7733-4db1-92d5-01575ef5cd4c-image.png
    应用于一般线性模型
    0_1540540551065_b9226a54-d956-415d-9b71-65ee105acabb-image.png
    那么
    0_1540540571984_7c3a743b-bb10-4f8f-aab5-69ea6102d67e-image.png
    最后求得
    0_1540540587200_716e76c1-84de-42b8-bc56-9843af178baa-image.png

    而 y=i 时的概率改写为
    0_1540540625495_c89359d6-d39f-49d8-866d-4b7c11b7862d-image.png

    那么整体期望值
    0_1540540647455_c34d3fa8-86de-49ce-91c5-91eb1c19aa7a-image.png

    最后就获得了最大似然估计
    0_1540540664618_50e6cbb2-7e27-4f40-a0d4-8e907b13b090-image.png


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待