Adaptive transfer learning AT-GP

- The Adaptive Transfer Learning Model via Gaussian Process

AAAI Adaptive transfer leanring 为了使得源和目标任务之间能迁移知识，我们首先要定义两者之间的联系。一种方式就是使源和目标的核函数共享一些相同的参数$\mathbf{\theta}$，核函数代表了平滑性，共享核函数参数意味着两任务回归函数的平滑性相似。另一些方法利用了数据输出之间的关联性【这个可以关注一下】。本方法是半参数化，构造了任务之间的相似性和样本之间的相关性

假设对于回归任务$\mathcal{S}$有大量的训练数据（$N$个），回归任务$\mathcal{T}$有少量训练数据($M$个)。任务$\mathcal{S}$中第$i^{\text{th}}$个训练数据表示为$\mathbf{x}_{i}^{\left(
\mathcal{S} \right)},y_{i}^{\left( \mathcal{S}
\right)}$，任务$\mathcal{T}$中第$j^{\text{th}}$个训练数据表示为$\mathbf{x}_{j}^{\left(
\mathcal{T} \right)},y_{j}^{\left( \mathcal{T}
\right)}$。假设源任务上的隐函数表示为$f^{\left( \mathcal{S}
\right)}$，令$\mathbf{f}^{\left( \mathcal{S} \right)} \in
\mathbb{R}^{N}$为所有源数据在隐函数上的预测值，$\mathbf{f}^{\left( \mathcal{T}
\right)} \in \mathbb{R}^{M}$同理。假设模型有噪声：

$y_{i}^{\left( \mathcal{S} \right)} = f_{i}^{\left( \mathcal{S} \right)} + \epsilon_{i}^{\left( \mathcal{S} \right)},\ y_{j}^{\left( \mathcal{T} \right)} = f_{j}^{\left( \mathcal{T} \right)} + \epsilon_{j}^{\left( \mathcal{T} \right)}$

其中$f\left( \cdot \right) = f^{\left( \cdot \right)}\left( \mathbf{x}^{\left(
\cdot \right)} \right)$，用点代替S或者T。那么隐变量先验可以表示为高斯分布：

$p\left( \mathbf{f}^{\left( \cdot \right)} \right)\mathcal{= N}\left( \mathbf{f}^{\left( \cdot \right)} \middle| \mathbf{0},\mathbf{K}^{\left( \cdot \right)} \right)$

其中$\mathbf{K}^{\left( \cdot \right)}$为先验核矩阵，$\mathbf{0}$为零向量。

假设噪声是随机分布的，那么：

$p\left( y^{\left( \cdot \right)} \middle| f^{\left( \cdot \right)} \right)\mathcal{= N}\left( y^{\left( \cdot \right)} \middle| f^{\left( \cdot \right)},\beta_{\left( \cdot \right)}^{- 1} \right)$

$\beta_{s}\mathrm{ }\mathrm{\text{and}}\mathrm{ }\beta_{t}$
是控制噪声协方差的参数，任务输出的矩阵形式表示为：

$\left. \ p\left( \mathbf{y}^{\left( \cdot \right)} \middle| \mathbf{f}^{\left( \cdot \right)} \right)\mathcal{= N}\left( \mathbf{y}^{\left( \cdot \right)} \middle| \mathbf{f}^{\left( \cdot \right)},\beta_{\left( \cdot \right)}^{- 1}\mathbf{I} \right) \right)$

其中$\mathbf{y}^{\left( \mathcal{S} \right)} = \left( y_{1}^{\left( \mathcal{S}
\right)},\cdots,y_{N}^{\left( \mathcal{S} \right)}
\right)^{\mathrm{T}}$，$\mathbf{y}^{\left( \mathcal{T} \right)} = \left(
y_{1}^{\left( \mathcal{T} \right)},\cdots,y_{M}^{\left( \mathcal{T} \right)}
\right)^{\top}$。

为了使得源和目标任务之间能迁移知识，我们首先要定义两者之间的联系。一种方式就是使源和目标的核函数共享一些相同的参数$\mathbf{\theta}$，核函数代表了平滑性，共享核函数参数意味着两任务回归函数的平滑性相似。另一些方法利用了数据输出之间的关联性【这个可以关注一下】。本方法是半参数化，构造了任务之间的相似性和样本之间的相关性。

假设以输入为条件的输出分布为$p\left( \mathbf{y} \middle| \mathbf{X}
\right)$，其中$\mathbf{y} = \left( \mathbf{y}^{\left( \mathcal{S}
\right)},\mathbf{y}^{\left( \mathcal{T} \right)} \right)$，$\mathbf{X} =
\left( \mathbf{X}^{\left( \mathcal{S} \right)},\mathbf{X}^{\left( \mathcal{T}
\right)}
\right)$。如果对于目标任务相同重要的多任务学习，其目标函数可以定义为似然$p\left(
\mathbf{y} \middle| \mathbf{X}
\right)$，然而对于迁移学习，我们只关注目标任务，因此只考虑条件分布：$p\left(
\mathbf{y}^{\left( \mathcal{T} \right)} \middle| \mathbf{y}^{\left( \mathcal{S}
\right)},\mathbf{X}^{\left( \mathcal{T} \right)},\mathbf{X}^{\left( \mathcal{S}
\right)} \right)$。令$\mathbf{f} = \left( \mathbf{f}^{\left( \mathcal{S}
\right)},\mathbf{f}^{\left( \mathcal{T} \right)} \right) \in \mathbb{R}^{N +
M}$,定义高斯分布：

$p\left( \mathbf{f} \middle| \mathbf{X},\mathbf{\theta} \right)\mathcal{= N(}\mathbf{f,K})$

其中核矩阵定义为【$\mathbf{K}$为核矩阵，$k$为核函数】：

$\mathbf{K}_{\text{nm}} \sim k\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)e^{- \zeta\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\rho}$

其中，如果$\mathbf{x}_{n},\mathbf{x}_{m}$来自同一个任务，则$\zeta\left(
\mathbf{x}_{n},\mathbf{x}_{m} \right) = 0$，若来自不同任务则$\zeta\left(
\mathbf{x}_{n},\mathbf{x}_{m} \right) =
1$。核函数想表达的意思是：不同任务之间样本的相关性是小于或者等于同一任务之间的样本相关性。参数$\rho$定义了两任务之间的差异性。一般迁移学习很难定义相似性，在此，我们提出了一种贝叶斯的方法（靠分布积分就称作贝叶斯的方法）来解决这个问题，我们假设$\rho$服从Gamma分布：

$\rho \sim \Gamma\left( b,\mu \right)$

此时核矩阵表示为对$\rho$积分：

$\begin{matrix} {\tilde{\mathbf{K}}}_{\text{nm}} = E\left\lbrack K_{\text{nm}} \right\rbrack = k\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\int_{}^{}{e^{- \zeta\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\rho}\rho^{b - 1}\frac{e^{- \rho/\mu}}{\mu^{b}\Gamma\left( b \right)}}\mathrm{d}\rho\# \\ \end{matrix}$

积分之后可以得到如下。所以构造上面的分布是为了积分之后有漂亮的形式，衡量任务相似性的参数不见了，变成了$b,\mu$两个控制参数，可以根据两模型相似差异进行控制。

$\begin{matrix} {\tilde{\mathbf{K}}}_{\text{nm}} = \left\{ \begin{matrix} k\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\left( \frac{1}{1 + \mu} \right)^{b},\zeta\left( \mathbf{x}_{n},\mathbf{x}_{m} \right) = 1 \\ k\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\ \mathrm{\text{ otherwise}} \\ \end{matrix} \right.\ \#\left( 4 \right) \\ \end{matrix}$

核函数的权重是[0,1]之间的数，所以这个形式无法描述负相关关系。在此可以扩展核矩阵为以下形式：

${\tilde{\mathbf{K}}}_{\text{nm}} \sim k\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\left( 2e^{- \zeta\left( x_{n},x_{m} \right)\rho} - 1 \right)$

对$\rho$积分之后贝叶斯形式为：

$\begin{matrix} {\tilde{\mathbf{K}}}_{\text{nm}} = \left\{ \begin{matrix} k\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\left( 2\left( \frac{1}{1 + \mu} \right)^{b} - 1 \right),\zeta\left( \mathbf{x}_{n},\mathbf{x}_{m} \right) = 1 \\ k\left( \mathbf{x}_{n},\mathbf{x}_{m} \right)\ \mathrm{\text{ otherwise}} \\ \end{matrix} \right.\ \#\left( 6 \right) \\ \end{matrix}$

这样构造之后，核矩阵可以描述正相关和负相关关系了。

定理1证明当$k$为有效核函数时，核矩阵$\left( 4 \right)$和$\left( 6
\right)$是半正定(PSD)矩阵，两个迁移核都构造了任务之间的相似性和样本之间的相关性。且核(6)还可以表示负迁移情况。

此处用核(6)，目标任务的预测分布为【标准GP形式】：

$p\left( \mathbf{f}^{\left( \mathcal{T} \right)} \middle| \mathbf{f}^{\left( \mathcal{S} \right)}\mathbf{,}\mathbf{X}^{\left( \mathcal{T} \right)}\mathbf{,}\mathbf{\theta} \right)\mathbf{=}\mathcal{N}\left( \mathbf{K}_{\mathbf{21}}\mathbf{K}_{\mathbf{11}}^{\mathbf{- 1}}\mathbf{f}^{\left( \mathcal{S} \right)}\mathbf{,}\mathbf{K}_{\mathbf{22}}\mathbf{-}\mathbf{K}_{\mathbf{21}}\mathbf{K}_{\mathbf{11}}^{\mathbf{- 1}}\mathbf{K}_{\mathbf{12}} \right)$

块矩阵$\mathbf{K} = \begin{pmatrix} \mathbf{K}_{11} & \mathbf{K}_{12} \\
\mathbf{K}_{21} & \mathbf{K}_{22} \\
\end{pmatrix}$，$\mathbf{K}_{11}$和$\mathbf{K}_{22}$分别是源任务和目标任务的核矩阵，$\mathbf{K}_{12}
= \left( \mathbf{K}_{21}^{\top} \right)$为两组数据的交叉核矩阵。

定理1 若$\mathbf{K} = \begin{pmatrix} \mathbf{K}_{11} & \mathbf{K}_{12} \\
\mathbf{K}_{21} & \mathbf{K}_{22} \ \end{pmatrix}$，$\mathbf{K}_{12} = \left(
\mathbf{K}_{21}^{\top} \right)$，为半正定矩阵，对于$\left| \lambda \right|
\leq 1$，$\mathbf{K}^{\mathbf{*}} = \begin{pmatrix} \mathbf{K}_{11} &
{\lambda\mathbf{K}}_{12} \ {\lambda\mathbf{K}}_{21} & \mathbf{K}_{22} \\
\end{pmatrix}$也是半正定矩阵。

- 推理新数据Inductive Inference

对于目标任务中的测试点$\mathbf{x}_{\mathbf{*}}$，我们希望得到其标签值得分布：

$p\left( y_{*} \middle| \mathbf{y}^{\left( \mathcal{T} \right)},\mathbf{y}^{\left( \mathcal{S} \right)},\mathbf{X}^{\left( \mathcal{T} \right)},\mathbf{X}^{\left( \mathcal{S} \right)},\mathbf{\theta} \right)$

上式省略了两任务得输入矩阵。推理过程如同标准GP，均值和方差可表示为：

$m\left( \mathbf{x}_{\mathbf{*}} \right) = \mathbf{k}_{\mathbf{x}}{\tilde{\mathbf{C}}}^{- 1}\mathbf{y},\ \ \sigma^{2}\left( \mathbf{x}_{\mathbf{*}} \right) = c - {\mathbf{k}_{\mathbf{x}}\tilde{\mathbf{C}}}^{- 1}\mathbf{k}_{\mathbf{x}}$ $m\left( \mathbf{x}_{\mathbf{*}} \right) = \sum_{\mathbf{x}_{j} \in X^{\left( \mathcal{T} \right)}}^{}{\alpha_{j}k\left( \mathbf{x}_{\mathbf{*}},\mathbf{x}_{j} \right)} + \sum_{\mathbf{x}_{i} \in X^{\left( \mathcal{S} \right)}}^{}{\lambda\alpha_{i}k\left( \mathbf{x}_{\mathbf{*}},\mathbf{x}_{i} \right)}$

其中$\lambda = 2\left( \frac{1}{1 + \mu} \right)^{b} -
1$，且$\alpha_{i}$是${\tilde{\mathbf{C}}}^{- 1}\mathbf{y} \in \mathbb{R}^{(N+ M) \times1}$的第$i^{\text{th}}$个元素，测试数据属于目标集，因此对于权重为1，测试数据核总训练数据的交叉核权重为$\lambda$。式子中，第一项为目标数据对测试点的影响，第二项为源数据对测试数据的影响，并且考虑了任务相似性。

- 参数学习

对于上一节中，未知参数有核参数$\mathbf{\theta}$，和Gamma分布的参数$b,\mu$，也可以当作$\theta$向量的扩充两个维度，这样所有未知数就是$\mathbf{\theta}$。优化参数可以通过最大化边界似然得到，就是$p(\mathbf{y}^{\left(
\mathcal{T} \right)},\mathbf{y}^{\left( \mathcal{S} \right)},\mathbf{X}^{\left(
\mathcal{T} \right)},\mathbf{X}^{\left( \mathcal{S}
\right)})$.【注意：参数的似然是指定参数条件下观测值出现的概率，边界似然是观测值出现的概率】，由于目标数据和源数据比例不一样，如果最小化边界似然的话，会使得模型偏向考虑源数据。因此在这里优化条件概率代替：

$p(\mathbf{y}^{\left( \mathcal{T} \right)}|\mathbf{y}^{\left( \mathcal{S} \right)},\mathbf{X}^{\left( \mathcal{T} \right)},\mathbf{X}^{\left( \mathcal{S} \right)})$

这个条件概率也是高斯分布，其均值和方差就是$\mathbf{\theta}$的函数，所以这个概率相当于$p(\mathbf{y}^{\left(
\mathcal{T}
\right)}|\mathbf{\theta})$，可以通过最大似然法求解参数或者对似然函数求偏导，用梯度下降法更新参数。