GP回归:权重解释角度

  GP回归对多源回归迁移作用很大,因此现在好好学一下。高斯过程回归的加权理解整体做法是,根据少量观测值,预测某组参数的似然概率,然后对所有可能的模型按照概率进行加权,所以这一节定义为’weight-space view’,就是高斯过程回归的加权空间解释。其认为出输出是各种输入的可能性叠加。模型输入包括噪声的方差$\sigma_{n}^{}$,以及参数的协方差矩阵$\Sigma$,输出是带有方差和均值的结果。这个方法整体还是线性的,表现力肯定有限。

线性模型的参数估计

假设一个标准的线性模型为:

其中$\mathbf{x}$是模型数据,为了简化,偏置1就不写了。$\mathbf{w}$是待求得线性模型参数,假设观测值$y$由真实模型加上扰动$\varepsilon$构成,此处假设扰动是零均值得高斯独立同分布:

所以就相当于,观测值$y$也是符合高斯分布的。

对于给定得模型参数$\mathbf{w}$,观测值得似然可以表示为:

也就是说,对于给定观测值下某组参数的似然 $\mathcal{L}\left( \mathbf{w}
\middle| y,X \right)$,可以表示为给定参数下观测值出现的概率 $p\left(
\mathbf{y} \middle| X,\mathbf{w}
\right)$,也就是此参数下,所有样本出现的概率相乘,也是高斯分布:

如果按照前面章节多元高斯分布,直接就可以写出概率,只是麻烦点。

简单来看就是,扰动是高斯分布的话,观测值也是高斯分布,其方差一致,均值即为$X^{\top}\mathbf{w}$

在此,我们认为参数也是符合高斯分布的,这是线性模型的先验(prior):

贝叶斯公式【请注意这跟分类问题的朴素贝叶斯很像】:

所以对于我们的问题,有【不用管里面的X】:

其中分母是个常数,与参数值无关$\mathbf{w}$:

所以我们给出与参数有关的表示为【暂且不考虑前面带$\pi$的项目】:

其中$\overline{w} = \sigma_{n}^{- 2}\left( \sigma_{n}^{- 2}XX^{\top} +
\Sigma_{p}^{- 1} \right)^{-
1}\text{Xy}$,【这一步化简还是挺复杂的,参照高斯分布相乘的标准求解】所以可以得到后验的分布为,均值$\overline{w}$,方差为$A^{- 1}$的高斯分布:

其中$A = \sigma_{n}^{- 2}XX^{\top} + \Sigma_{p}^{-
1}$,对于后验概率,其均值是很重要的mode, 可以通过最大化后验概率(Maximum a posteriori MAP)的均值来求解$\mathbf{w}$。请注意这里$-
\frac{1}{2}w^{\top}\Sigma_{p}^{- 1}w$刚好起到了岭回归中的正则化的效果。

对于要预测的输入$x_$所对应的标签$f(x_)$,其分布可以描述为所有可能的参数概率,与响应参数下的预测值的积分,$p\left(\mathbf{w} \middle| X,\mathbf{y}\right)$为参数$\mathbf{w}$的概率密度,$p\left( f_{} \middle|\mathbf{x}_{},\mathbf{w} \right)$为参数下的输出值

这个怎么推出来的就不知道了,反正积分结果还是一个高斯分布,到这里就是线性GP的解。

将输入引入特征空间

kernel

This is kernel

涉及的基础知识

方差无偏估计

已知随机变量$X$的期望值为$\mu$,方差可以表示为:

上式需要知道$X$的分布,而现实问题往往是不知道分布的,且难以估计分布,因此用采样之后的点来估计方差,即为用$S^{2}$来近似$\sigma^{2}$:

因为:

$S^{2}$的采样值会在真实的$\sigma^{2}$附近游动,呈正态分布,因此是无偏估计

其实现实问题中,随机变量的期望值$\mu$也是不知道的,因此用均值来代替期望:

我们想象一下,如果采样点都大于期望$\mu$,那么均值$\overset{\overline{}}{X}$也是大于$\mu$的,此时用期望计算的方差值是很大的,而用均值计算的方差可能很小,也就是说:

这样的话,用均值计算的方差总是小一点,是一个有偏估计,具体小了多少呢:

此处:

所以:

其中:

所以:

所以$S^{2}$的形式被修正为:

高斯分布

高斯分布即为正态分布:

高斯分布的概率密度函数为:

带参数的表示为:

协方差

协方差是用于衡量两个变量的总体误差,而方差是协方差的一种特例。当协方差为正时,两个变量呈正相关,当协方差为负的时候,两个变量呈负相关。协方差矩阵只是讲所有变量之间的协方差表示成一个矩阵,可以更方便用于计算。

比如计算$x$和$y$两个变量集合的协方差表示为:

多元高斯分布

假设多元变量$\overset{\overline{}}{x} = \begin{bmatrix} x_{1} \ x_{2} \\
\end{bmatrix}$,他们的均值为$\overset{\overline{}}{\mu} = \begin{bmatrix}
\mu_{1} \ \mu_{2} \ \end{bmatrix}$,方差为$\overset{\overline{}}{\sigma} =
\begin{bmatrix} \sigma_{1} \ \sigma_{2} \\
\end{bmatrix}$,为了推到高维,此处定义协方差矩阵$\Sigma$,对于二维向量,其协方差矩阵为:$\Sigma
= \begin{bmatrix} \sigma_{1}^{2} & \sigma_{12} \ \sigma_{21} & \sigma_{2}^{2}
\\
\end{bmatrix}$,由于两个变量时相互独立的,所以斜对角两个元素为0,此时$\Sigma =
\begin{bmatrix} \sigma_{1}^{2} & 0 \ 0 & \sigma_{2}^{2} \ \end{bmatrix}$。

假设多个变量之间是相互独立的,那么分布函数可以相乘:

以上时用元素的方式推导,下面用矩阵的方式推导,也重新说一下多元高斯分布的协方差。首先假设多元变量的全都是均值0,方差1,那么一元高斯分布为:

此时就是标准正态分布,那么二元高斯分布为:

如果把多元变量写成向量的形式$\mathbf{v}$,那么标准多元高斯分布为:

如果不是标准正态分布呢,也就时说每个维度的均值和方差都有不一样,相当于把一组标准正交基进行了线性变换,$\mathbf{v
= A(}\mathbf{x}\mathbf{- u)}$, 此时多元高斯分布为:

其中$\Sigma = \left( A^{\top}A \right)^{- 1}$