Distribution Embedding

衡量分布距离在机器学习算法中非常常用,然而分布估计往往运算量大,又不够准确。将分布映射到RKHS上,可以带来很好的性质,因此本篇介绍一下分布嵌入算子,包括边缘嵌入算子,条件嵌入算子和联合嵌入算子。

条件嵌入算子

交叉协方差算子,Cross-covariance operators,注意,元素相乘,并不是内积。

边缘嵌入算子定义

边缘嵌入算子的估计值:可以理解为半个映射

条件嵌入算子 $\mathcal{U}_{Y | X}: \mathscr{H} \rightarrow \mathscr{G}$ 为算子,是分布$P(Y | X)$的均值嵌入,即函数到函数的映射

而条件嵌入值 $\mathcal{U}_{Y | \mathbf{x}_} \in \mathscr{G}$ 为预测值,是分布$P(Y | X=\mathbf{x}_)$的嵌入:

条件嵌入算子估计

当我们有观测值$\mathbf{X},\mathbf{Y}$的时侯,条件嵌入算子就可以估计了。设映射$\phi:\mathcal{X} \rightarrow \mathscr{H} \text { and } \varphi: \mathcal{Y} \rightarrow \mathscr{G}$, 且$\Phi:=\left[\varphi\left(\mathbf{y}_{1}\right), \ldots, \varphi\left(\mathbf{y}_{n}\right)\right]^{\top} \text { 且} \Upsilon:=\left[\phi\left(\mathbf{x}_{1}\right), \ldots, \phi\left(\mathbf{x}_{n}\right)\right]^{\top}$ ,则有:

条件均值嵌入估计,即给定$\mathbf{X,Y}$预测$\mathbf{x_*}$:

请注意,条件均值嵌入非常像最小二乘解析解,其实一个道理,具体如下:

核运算规则

条件算子到边缘算子的关系为:

边缘算子的估计值为【注意这里$XY$和上问有调换,其实都一样】:

请注意,这里的意思是 $\hat{\mathcal{U}}_{X | Y}$已知的情况下,如何根据给定的 $\hat{\mu}_{Y}$ 得到对应的 $\hat{\mu}_{X}$。换成上面的核岭回归就容易理解了, $\hat{\mathcal{U}}_{X | Y}$ 相当于求解出的系数$\mathbf{w}$,有了系数之后,给输入$Y$,即可得到输出$X$。

联合分布嵌入算子表示为:

其中$\mu_{X}^{\otimes}:=\mathbb{E}_{X}[\phi(X) \otimes \phi(X)]$ and $\mu_{Y}^{\otimes}:=\mathbb{E}_{Y}[\varphi(Y) \otimes \varphi(Y)]$ , 用方差算子的方式表示为:

条件独立判据

假设联合分布满足:$P(X,Y,Z)=P(X|Z)P(Y|Z)P(Z)$,即$X,Y$是条件$Z$下的两个独立变量:

2008年提出标准化条件交叉方差算子:

其中 $\mathcal{C}_{Y X}=\mathcal{C}_{Y Y}^{1 / 2} \mathcal{V}_{Y X} \mathcal{C}_{X X}^{1 / 2}$ ,类似于协方差矩阵标准化一样,基于此定义,可以得到偏差判据:

那么这个判据可以盘算$X,Y$是否条件独立。

条件嵌入分布差异判据

目前有Zhang和Wang两种,经过分析,还是决定用Wang的HS判据