快速注册

广义线性模型

Jeff.GZ 2017-06-11 19:57:01

多重线性回归(multiple linear regression)是用回归方程描述一个因变量与多个自变量的依存关系，简称多重回归，其基本形式为：Y= a + bX1+CX2+***+NXn

logistic回归(Logistic regression) 与多重线性回归实际上有很多相同之处，最大的区别就在于他们的因变量不同，其他的基本都差不多，正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalized linear model）。这一家族中的模型形式基本上都差不多，不同的就是因变量不同，如果是连续的，就是多重线性回归，如果是二项分布，就是logistic回归，如果是poisson分布，就是poisson回归，如果是负二项分布，就是负二项回归。

logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。

如果已经建立了logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某种情况的概率有多大。

Logistic Regression和Linear Regression的原理是相似的，可以简单的描述为这样的过程：

（1）找一个合适的预测函数，一般表示为h函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果。这个过程是非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函数还是非线性函数。

（2）构造一个Cost函数（损失函数），该函数表示预测的输出（h）与训练数据类别（y）之间的偏差，可以是二者之间的差（h-y）或者是其他的形式。综合考虑所有训练数据的“损失”，将Cost求和或者求平均，记为J(θ)函数，表示所有训练数据预测值与实际类别的偏差。

（3）显然，J(θ)函数的值越小表示预测函数越准确（即h函数越准确），所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法（梯度下降法）。

Logistic Regression虽然名字里带“回归”，但是它实际上是一种分类方法，用于两分类问题（即输出只有两种）。

梯度下降法及其各种变体为目前机器学习（包括神经网络）中使用最多的优化算法。其不仅能够有效处理凸函数优化问题，还能够对非常复杂的非凸函数（如神经网络），进行优化。

类似的优化算法还有共轭梯度法，牛顿法，拟牛顿法等一系列迭代优化算法，这些新的算法虽然原理上很快，但是都有一些适用范围，没有梯度下降法更具普适性。比如牛顿法在处理具有奇点的目标函数时可能无法收敛。

回应转发赞收藏

还没人转发这篇日记

Jeff.GZ (北京)

Lifelong learner Make Something People Want @jeffreywugz

广义线性模型

热门话题 · · · · · · ( 去话题广场 )