LCDA

01月09日LCDA方案示例

[TOC]

0.七个问题

背景:数据驱动方法广泛应用于各个领域,而且需要标签数据。制造领域许多问题的标签数据获取成本非常高,因此一个重要的思路的就是迁移学习,而制造领域中常见的一类问题是条件分布偏差的回归问题,几乎没有得到关注。

问题:如何解决条件分布差异的回归迁移问题

现状:如下

  • 将目标求解问题转化为求权重问题,基于目标数据求源数据的权重
  • 将目标求解问题转化为求映射问题,基于目标数据求映射
  • 将目标求解问题转化为求残差问题,基于目标数据求残差函数

GAP: 现有方法难以保证精度和稳定性,仍依赖大量目标数据

难点:现有的转化方式并没有改变‘目标不充分’问题的本质,仍是非适定问题

创新点:利用边缘分布相等条件,将目标模型求解问题转化为解空间更小的低维问题。引入隐变量,使得难以求解的函数转化为有限个隐变量参数。

方案

  • 迁移问题转换
  • 变量求解
  • 求边界泛化

验证

  • 刀尖模态参数预测问题

  • 末端负载预测问题

  • 再找其他数据集

1.问题定义

假设已有源回归任务包含大量训练数据 $\mathcal{D}_S=\left\{\left(\mathbf{x}_1^s,y_1^s\right),\ldots,\left(\mathbf{x}_{n_s}^s,y_{n_s}^s\right)\right\}$ , 其中 $\mathbf{x}_i^s\in\mathcal{X}_S$ 是源数据特征, $y_i^s\in\mathcal{Y}_S$ 是源数据标签,回归任务因此标签为连续变量。同时有另一个相似的回归任务,仅有少量的标签数据 $\mathcal{D}_T=\left\{\left(\mathbf{x}_1^t,y_1^t\right),\ldots,\left(\mathbf{x}_{n_t}^t,y_{n_t}^t\right)\right\}$ , 其中 $\mathbf{x}_i^t \in \mathcal{X}_T$ 是输入, $y_i^t\in\mathcal{Y}_T$ 对应的输出。此处所关注的是两个回归任务的条件偏移场景,即假设边缘分布相同 ​,而条件分布不同,即$p\left(y_s\middle|\mathbf{x}_s\right)\neq p\left(y_t\middle|\mathbf{x}_t\right)$。

为了后面更加清晰描述,此处定义清楚两数据集的所需表示:

源数据 $\mathcal{D}_s$, 包含输入特征矩阵 ${\mathbf{X}}_s\in\mathbb{R}^{n_s\times d}$ 和输出标签向量 ${\mathbf{y}}_s\in\mathbb{R}^{n_s\times 1}$ :

目标数据 $\mathcal{D}_t$, 包含输入特征矩阵 ${\mathbf{X}}_t\in\mathbb{R}^{n_t\times d}$ 和输出标签向量 ${\mathbf{y}}_t\in\mathbb{R}^{n_t\times 1}$ :

2. 问题转化

2.1 引出偏差分布

首先假设源模型和目标模型分别为$f_s(\mathbf{x})$ 和 $f_t(\mathbf{x})$,观测标签值表示为:

由于源数据数量充分,因此认为$f_s(\mathbf{x})$ 是已知函数, $f_t(\mathbf{x})$是未知函数,待求。

其中噪声服从均值0,方差$\sigma_n^2$ 的高斯分布,即:

因此,条件概率可以表示为:

带入所有的样本,表示为:

在整个特征空间范围内,将条件分布差异定义为偏差项(discrepance)定义为 $h(\mathbf{x})$,由于期望取值为连续变量,因此残差项总可以表示为:

这里是示意,概率是不能相减的

因此迁移问题转换成求解偏差条件分布 $p(h|\mathbf{x})$, 由于$f_s(\mathbf{x})$ 和$f_t(\mathbf{x})$ 都是未知的,对于已有的目标数据 $\mathcal{D}_S$和 $\mathcal{D}_T$,数据样本也不一样,因此无法直接求解 $p(h|\mathbf{x})$ ,只能使得源数据加上偏差项之后,条件分布尽可能逼近目标数据,即:

定义加偏置项之后的源数据为$[\mathbf{X}_s,\mathbf{y}_s^{new}]$,则有:

从而满足

此处的距离函数可以用核均值距离,也可以用条件期望代替每个分布,从而简化问题。然而,无论如何转化,所求解的未知量$\mathbf{h}\in \mathbb{R}^{ns}$ 的维度是很大的($ns<<nt$),仅以此约束求解是相当不稳定的。在此我们要利用边缘分布相同条件,引入隐变量,使得难以求解的问题,转换为一个更加简单的问题

2.2 高斯混合模型描述特征空间分布

考虑到 $p(\mathbf{x}_s)=p(\mathbf{x}_t)$ ,因此我们用一组$K$维混合高斯分布来描述两个领域的特征空间分布:

即$p(\mathbf{x}_s)=p(\mathbf{x}_t)=p(\mathbf{x})$,其中$\sum_{k=1}^{K} \pi_{k}=1$ 为高斯混合模型的混合系数。此时,为了描述变量对与每个高斯高斯分布的归属情况, 我们引入变量 $\mathbf{z}\in\mathbb{R}^{K\times 1}$ ,向量 $\mathbf{z}$ 只有一个元素为1,其他元素都为0,也就是$\sum_{k} z_{k}=1$, 因此向量 $\mathbf{z}$ 共有 $K$ 种状态,对于样本 $\mathbf{x}$ 归属于第 $k$ 个高斯分布的情况,即 $z_k=1$,其概率可以表示为高斯混合模型的混合系数,即$p\left(z_{k}=1\right)=\pi_{k}$。由于向量中只有一个量为1,其他都为0,那么向量 $\mathbf{z}$ 的概率可以表示为 $p(\mathbf{z})=\prod_{k=1}^{K} \pi_{k}^{z_{k}}$。

在隐变量 $\mathbf{z}$ 的存在之下,观测样本$\mathbf{x}$的概率可以表示为:

在隐变量 $\mathbf{z}$ 的存在之下,偏差变量 $h$ 的概率可以表示为联合概率对隐变量的边缘化:

因此求解函数 $p(h\mathbf{|x})$ 的问题转变成了求解有限维隐变量偏差分布 $ p(h|\mathbf{z})$ 的问题。另一个未知量$p(\mathbf{z} | \mathbf{x})$可由贝叶斯公式得到:

令$\gamma\left(z_{n k}\right)= p\left(z_{k}=1 | \mathbf{x}_n\right)$,那么:

令 $w_1=p(h|z_{k}=1)$这里错误 , $\mathbf{w}=[w_1, w_2, …, w_k]^{\top}$ , 则:

此时,求解 $\mathbf{h}\in \mathbb{R}^{ns}$ 的问题,转换成了求解 $\mathbf{w}\in \mathbb{R}^{K}$ 如下,求解难度大大降低。

3 求解隐变量偏差函数

3.1 以条件分布算子的HS范数定义损失函数

因此以条件分布距离最近为约束,优化参数 $\mathbf{w}$:

其中 $\mathbf{y}_{s}^{new}=\mathbf{y}_{s}+\mathbf{\Gamma}_s\mathbf{w}$, 式中矩阵 $\Gamma_s\in\mathbb{R}^{n_s\times K}$ 的每个元素为 $\gamma(z_{n k})=p(z_k=1 | \mathbf{x}_s^n)$ , $\mathbf{w}\in\mathbb{R}^{K\times 1}$。

为了更方便估计条件分布,我们可以将其嵌入至再生核希尔伯特空间中。条件分布$P_{Y | {X}}$ 可以嵌入为算子$\mathcal{U}_{Y | X}: \mathscr{H} \rightarrow \mathscr{G}$ ,具体定义为 $\mathcal{U}_{Y | X}:=\mathcal{C}_{Y X} \mathcal{C}_{X X}^{-1}$, 其中 $\mathcal{C}_{Y X}$ 和 $\mathcal{C}_{Y X}$ 分别是交叉方差算子和自方差算子,即有:

对于给定观测值 $\mathbf{X_t,y_t}$,条件嵌入算子的经验估计为:

其中$\mathbf{K}_{\mathbf{X}_{t} \mathbf{X}_{t}}$为对应核矩阵。同理,对于条件分布$p(\mathbf{y}_s^{new}|\mathbf{X}_s)$的经验估计为:

至此,条件分布距离衡量函数定义为:

此时损失函数定义为:

3.2 损失函数求导及优化

因此最终损失函数表示为:

将其展开为:

其中:

其中$\tilde{\mathbf{K}}=\mathbf{K}_{\mathbf{y}_{s}^{new} \mathbf{y}_{t}^{new}}$,$\tilde{\mathbf{K}}^c=\mathbf{K}_{\mathbf{y}_{s}^{new} \mathbf{y}_{t}}$,$\tilde{\mathbf{K}}^t=\mathbf{K}_{\mathbf{y}_{t} \mathbf{y}_{t}}$,$\tilde{\mathbf{K}}^t$为常数,求导时忽略。此时$L$对 $\mathbf{w}$的导数为:

此时可以梯度下降法求解$\mathbf{w}$

4. 泛化边界

我们将给出基于稳定性分析泛化误差,首先引入定理1:

定理1对于未知分布$D$ 中采样的训练集:

设 $F$ 是一个具有核 $k$ 的再生核希尔伯特空间,且 $\forall x \in X, k(x, x) \leq \kappa^{2}<\infty$ ,设 $l$ 关于 $F$ 是 $\sigma$ -admissible的,且损失函数 $l\leq4M^2 $ 。学习算法$A_s$ 定义为:

则学习算法对于损失函数 $l$ 的稳定边界为:

令$R=\mathbb{E}_{z}\left[l\left(A_{S}, z\right)\right]$ 为算法泛化误差 ,$R_{e m p}=\frac{1}{m} \sum_{i=1}^{m} l\left(A_{S}, z_{i}\right) $ 为算法的经验误差,则至少以概率 $1-\delta$ ,使以下不等式成立:

令 $\tilde{z}_{i}=\left(\tilde{\mathbf{x}}_{i}, \tilde{y}_{i}\right) \in(\tilde{\mathbf{X}}, \tilde{\mathbf{y}})$ ,其中 $\tilde{\mathbf{X}}=\mathbf{X}_s\cup\mathbf{X}_t$, $\tilde{\mathbf{y}}=\mathbf{y}_s^{new}\cup\mathbf{y}_t$ ,定义最终目标模型为在融合数据上$\tilde{z}_{i}$ 上训练的模型:

定理2:设$| \hat{\mathcal{U}}\left[P_{\mathbf{y}_{s}^{new} | \mathbf{X}_{s}}\right]-\hat{\mathcal{U}}\left[P_{\mathbf{y}_{t} | \mathbf{X}_{s}}\right] |\leq\epsilon$ ,$l_s\leq4M_s^2 $ ,$l_h\leq4M_h^2 $ ,则至少以概率 $1-\delta$ ,使以下不等式成立:

5. 曲线实验

本次不再加入仿真曲线验证,直接找三个数据集验证: