第一课中关于代价函数如何能够收敛到局部最小值

大熊猫的江南

来自: 大熊猫的江南 2016-11-10 20:04:17

  • 大熊猫的江南

    大熊猫的江南 2016-11-10 20:22:11

    每使用一次梯度下降算法更新一次模型参数theta0 和 theta1,我们就得到了一个新的假设函数:
    h(x)=theta0 + theta1 * x
    当 cost function converge to min 时,此时偏导数为0,得到一个最终模型参数,theta0 和 theta1,从而得到了一个“还不错”的 hypothesis function model

  • 大熊猫的江南

    大熊猫的江南 2016-11-10 20:24:48

    每使用一次梯度下降算法更新一次模型参数theta0 和 theta1,我们就得到了一个新的假设函数: h( 每使用一次梯度下降算法更新一次模型参数theta0 和 theta1,我们就得到了一个新的假设函数: h(x)=theta0 + theta1 * x 当 cost function converge to min 时,此时偏导数为0,得到一个最终模型参数,theta0 和 theta1,从而得到了一个“还不错”的 hypothesis function model ... 大熊猫的江南

    即这个“还不错”的 hypothesis function can fit most of data....

  • 大熊猫的江南

    大熊猫的江南 2016-11-10 22:47:10

    此外,有多少个 feature variables 就有多少个 model paramteres
    一般地,模型参数theta0 代表截距,因为第0个特征变量默认为1,而其他的特征变量就是样本实例中具体给出的值。。。
    特征向量X中有1个特征变量x subscript 1,by default x subscript 0 is zero
    h(x)=theta0 + theta1 * (xsubscript 1)
    h(x)= theta vector 的转置 * X

  • 大熊猫的江南

    大熊猫的江南 2016-11-11 18:42:46

    feature scaling :当特征变量取值范围相差很大时,比如:特征变量 0<x1<5,特征变量 0<x2<5000,画出来的代价函数的等高线变得非常扁平,也使得梯度下降算法需要迭代很多次才能收敛到最小值。
    因此,通过使用feature scaling,可以将 x1 和 x2 的取值范围都收缩到[0,1]这个区间,从而提高梯度下降算法的效率

    另一种方式是使用 mean normalization,它的公式是:(特征变量 --- 平均值)/s(i)
    其中,s(i)可以是:特征值中的最大值减去最小值;也可以是标准方差。

你的回应

回应请先 , 或 注册

1 人聚集在这个小组
↑回顶部