中心矩阵


最近在看迁移学习的早期文章, 在求解优化问题时, 经常会涉及到中心矩阵(centering matrix).

由于之前没怎么遇到过, 故总结于此.


定义

先从多维随机变量的协方差矩阵讲起.

假设我们观察到 $n$ 个样本 $X=[\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n] \in \mathbb{R}^{p \times n}$,其中每个样本有 $p$ 维特征 (即 $p$ 个随机变量), $\mathbf{x}_i = [x_{i1}, \cdots, x_{ip}]^{\top} \in \mathbb{R}^{p \times 1}$. 我们往往需要计算各维度两两之间的协方差,这样各协方差组成了一个 $p*p$ 维的矩阵,称为协方差矩阵 $\Sigma$. 协方差矩阵是个对称矩阵, 对角线上的元素是各维度上随机变量的方差.

其中, $\bar{\mathbf{x}} = \frac{1}{n} \sum^{n}_{i}\mathbf{x}_i \in \mathbb{R}^{p \times 1}$ 为 $p$ 个随机变量的均值.

更进一步, 我们将公式$(1)$写成矩阵形式

注意到, 随机变量的均值向量 $\bar{\mathbf{x}}$ 也可以用矩阵 $X$ 表示

其中, $\mathbf{1}_n = [1, \cdots, 1]^{\top} \in \mathbb{R}^{n \times 1}$ 为全 $1$ 的列向量.

因此, 将$(3)$代入公式$(2)$可得协方差矩阵的另一种表示形式

其中, $I_n$ 为 $n$ 阶单位阵, $H = I_n - \frac{1}{n}\mathbf{1}_{n}\mathbf{1}^{\top}_{n}$ 即定义为中心矩阵(centering matrix).

性质

幂等性

其他

其他性质详见维基百科: Centering Matrix