DanielLaah

《统计学习方法》笔记 (八) -逻辑斯谛回归模型


本篇博客为《统计学习方法》笔记系列第8篇, 对应《统计学习方法》中第6章逻辑斯谛回归.
说明: 目前来讲, 本系列博客内容基本完全摘抄自李航博士的《统计学习方法》, 所以阅读本系列博客极有可能造成您的不适, 如发生, 请尽快关闭浏览器. 写此系列博客目的一是学习的时候加深印象二是为了方便自己随时复习. 后面如果在其他书籍或课程中学习了相关的知识, 可能会对文章内容进行适量增删. 谢谢你!
PPT下载


一. 逻辑斯蒂分布

设X是连续随机变量,X服从逻辑斯谛分布(logistic distribution)是指X具有下列分布函数和密度函数:
$$F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} \tag{6.1}$$
$$f(x)=F’(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} \tag{6.2}$$
式中,$\mu$为位置参数,$\gamma\gt 0$为形状参数。
逻辑斯谛分布的密度函数$f(x)$和分布函数$F(x)$的图形如图6.1所示。分布函数属于逻辑斯谛函数,其图形是一条S形曲线(sigmoid curve)。该曲线以点为中心对称.

曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数的值越小,曲线在中心附近增长得越快。

二. 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布$P(Y|X)$表示,形式为参数化的逻辑斯谛分布。这里,随机变量$X$取值为实数,随机变量$Y$取值为1或0。我们通过监督学习的方法来估计模型参数。
定义6.2(逻辑斯谛回归模型) 二项逻辑斯谛回归模型是如下的条件概率分布:
$$P(Y=1|x)=\frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)} \tag{6.3}$$
$$P(Y=0|x)=\frac{1}{1+\exp(w\cdot x+b)} \tag{6.4}$$
这里,$x\in R^n$是输入,$Y\in\{0,1\}$是输出,$w\in R^n$和$b\in R$是参数,$w$称为权值向量,$b$称为偏置,$w\cdot x$为$w$和$x$的内积。
对于给定的输入实例$x$,按照式(6.3)和式(6.4)可以求得$P(Y=1|x)$和$P(Y=0|x)$。逻辑斯谛回归比较两个条件概率值的大小,将实例$x$分到概率值较大的那一类。
有时为了方便,将权值向量和输入向量加以扩充,仍记作$w$,$x$,即$w=(w^{(1)},w^{(2)},…,w^{(n)},b)^T,x=(x^{(1)},x^{(2)},…,x^{(n),1})^T$。这时,逻辑斯谛回归模型如下:
$$P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)} \tag{6.3}$$
$$P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)} \tag{6.4}$$
现在考查逻辑斯谛回归模型的特点。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是$p$,那么该事件的几率是$\frac{p}{1-p}$,该事件的对数几率(log odds)或logit函数是
$$\text{logit}(p)=\log\frac{p}{1-p}$$
对逻辑斯谛回归而言,由式(6.5)与式(6.6)得
$$\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x$$
这就是说,在逻辑斯谛回归模型中,输出$Y=1$的对数几率是输入$x$的线性函数。或者说,输出$Y=1$的对数几率是由输入$x$的线性函数表示的模型,即逻辑斯谛回归模型。
换一个角度看,考虑对输入$x$进行分类的线性函数$w\cdot x$,其值域为实数域。注意,这里$x\in R^{N+1}$, $w\in R^{N+1}$。通过逻辑斯谛回归模型定义式(6.5)可以将线性函数$w\cdot x$转换为概率:
$$P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}$$
这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0(如图6.1所示)。这样的模型就是逻辑斯谛回归模型。

三. 模型参数估计

逻辑斯谛回归模型学习时,对于给定的训练数据集$T={(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}$,其中,$x_i\in R^n$,$y_i\in \{0,1\}$,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。设:
$$P(Y=1|x)=\pi(x), \quad P(Y=0|x)=1-\pi(x)$$
似然函数为
$$\prod_{i=1}^N\left[\pi(x_i)\right]^{y_i}\left[1-\pi(x_i)\right]^{1-y_i}$$
对数似然函数为

$$\begin{align}
L(w) & = \sum_{i=1}^N\left[y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))\right] \\
\\
& = \sum_{i=1}^N\left[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))\right] \\
\\
& = \sum_{i=1}^N\left[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i)\right]
\end{align}$$

对L(w)求极大值,得到w的估计值。
这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
假设w的极大似然估计值是,那么学到的逻辑斯谛回归模型为
$$P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}$$
$$P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}$$

四. 多项逻辑斯谛回归

上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类。假设离散型随机变量Y的取值集合是{1,2,…,K},那么多项逻辑斯谛回归模型是
$$P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}, k=1,2…,K-1\tag{6.7}$$
$$P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)} \tag{6.8}$$
这里,$x\in R^{N+1},w_k\in R^{N+1}$。
二项逻辑斯谛回归的参数估计法也可以推广到多项逻辑斯谛回归。