PRML|高斯分布
对于$D$维观测变量,其多元高斯分布形式为
$$\mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right}$$
定义指数部分为$\Delta^{2}$,称为马氏距离(Mahalanobis distance),当$\Sigma$是单位矩阵时,就变成了欧式距离:
$$\Delta^{2}=(x-\mu)^{T} \Sigma^{-1}(x-\mu)$$
其中,$\Sigma$是实对称矩阵。
考察$\Sigma$的特征向量方程,设${u}{i}$是单位正交向量:$\mathbf{u}{i}^{\mathrm{T}} \mathbf{u}{j}=I{i j}$,有$\Sigma u_{i}=\lambda_{i} u_{i}$,可以得到$\Delta^{2}$的矩阵形式:
$$\Sigma=\sum_{i=1}^{D} \lambda_{i} \mathbf{u}{i} \mathbf{u}{i}^{\mathrm{T}}$$
$$\Sigma^{-1}=\sum_{i=1}^{D} \frac{1}{\lambda_{i}} \mathbf{u}{i} \mathbf{u}{i}^{\mathrm{T}}$$
$$\Delta^{2}=\sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}$$
$$y_{i}=\mathbf{u}_{i}^{\mathrm{T}}(\mathrm{x}-\mu)$$
将y看做是x坐标系的转换,即
$$y=U(x-\mu)$$
显然,$U$的每一行为${u}_{i}$,是单位正交矩阵。
![坐标系转换](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/20210117142328.png)
在$y_{j}$坐标系下,多元高斯分布形式是怎样的呢?
矩阵的特征值之积等于矩阵的行列式,矩阵的特征值之和等于矩阵的迹。(PRML中用Jacobin矩阵推导)
$$|\Sigma|^{\frac{1}{2}}=\prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}$$
$$p(\boldsymbol{y})=\prod_{j=1}^{D} \frac{1}{\left(2 \pi \lambda_{j}\right)^{\frac{1}{2}}} \exp \left{-\frac{y_{j}^{2}}{2 \lambda_{j}}\right}$$
因此,特征向量定义了⼀个新的旋转、平移的坐标系,在这 个坐标系中联合概率分布可以分解成独⽴分布的乘积。
下面考察高斯分布的一阶矩:
![一阶矩](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/20210117154343.png)
消除$z$后,将const项放入积分中,将$u$提出积分外,由于对$p(u)$积分为1,得到上述结论。同理可得到二阶矩展开式:
![二阶矩](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/20210117155239.png)
$z\mu$项由于指数部分为偶函数可以消除,$\mu\mu^{T}$是常数可以提取到积分外,需要对$zz^T$进行处理。根据下式,对上述二阶矩进行化简:
$|\Sigma|^{\frac{1}{2}}=\prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}$
$y_{i}=\mathbf{u}{i}^{\mathrm{T}}(\mathrm{x}-\mu)$ ----> $\mathbf{z}=\sum{j=1}^{D} y_{j} \mathbf{u}_{j}$
$\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}$
$\mathbb{E}\left[\mathrm{xx}^{\mathrm{T}}\right]=\mu \mu^{\mathrm{T}}+\Sigma$
由此,方差$\operatorname{var}[x]=\mathbb{E}\left[(x-\mathbb{E}[x])(x-\mathbb{E}[x])^{T}\right]=\Sigma$
高斯分布的两大局限性:
- 随着数据维度的上升,需要估计的模型参数也增多;
- 单高斯只能描述单峰数据,需要引入隐变量,若隐变量为离散值,则为混合高斯;
# 条件高斯分布
多元⾼斯分布的⼀个重要性质是,如果两组变量是联合⾼斯分布,那么以⼀组变量为条件,另⼀组变量同样是⾼斯分布。类似地,任何⼀个变量的边缘分布也是⾼斯分布。
将$x$划分成两个不相交的⼦集$x_a$和$x_b$,则有
$\boldsymbol{x}=\left(\begin{array}{l}\boldsymbol{x}{a} \ \boldsymbol{x}{b}\end{array}\right)$
$\boldsymbol{\mu}=\left(\begin{array}{c}\boldsymbol{\mu}{a} \ \boldsymbol{\mu}{b}\end{array}\right)$
$\Sigma=\left(\begin{array}{ll}\Sigma_{a a} & \Sigma_{a b} \ \Sigma_{b a} & \Sigma_{b b}\end{array}\right)$
$\Lambda=\left(\begin{array}{ll}\Lambda_{a a} & \Lambda_{a b} \ \Lambda_{b a} & \Lambda_{b b}\end{array}\right)$
其中,$\Lambda \equiv \Sigma^{-1}$,称为精度矩阵,但是两者各分块不是简单的逆矩阵关系。我们可以通过相关项对应,得到条件高斯$p(x_a|x_b)$的模型参数:令⼆阶项的系数矩阵等于协⽅差矩阵的逆矩阵$\Sigma^{-1}$,令线性项的系数等于$\Sigma^{-1}\mu$,从而得到$\mu$。
$$-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=-\frac{1}{2} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\operatorname{const}$$
计算联合概率分布的二次项
$$-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)=$$
$$\frac{1}{2}\left(x_{a}-\mu_{a}\right)^{T} \Lambda_{a a}\left(x_{a}-\mu_{a}\right)-\frac{1}{2}\left(x_{a}-\mu_{a}\right)^{T} \Lambda_{a b}\left(x_{b}-\mu_{b}\right)$$
$$-\frac{1}{2}\left(x_{b}-\mu_{b}\right)^{T} \Lambda_{b a}\left(x_{a}-\mu_{a}\right)-\frac{1}{2}\left(x_{b}-\mu_{b}\right)^{T} \Lambda_{b b}\left(x_{b}-\mu_{b}\right)$$
此时,$x_b$为常数,提取出$x_a$的二次项和一次项系数
匹配系数
$\begin{aligned} \boldsymbol{\mu}{a \mid b}=\boldsymbol{\mu}{a}-\boldsymbol{\Lambda}{a a}^{-1} \boldsymbol{\Lambda}{a b}\left(\boldsymbol{x}{b}-\boldsymbol{\mu}{b}\right) \end{aligned}=\mu_{a}+\Sigma_{a b} \Sigma_{b b}^{-1}\left(x_{b}-\mu_{b}\right)$
$\Sigma_{a \mid b}=\Lambda_{a a}^{-1}=\Sigma_{a a}-\Sigma_{a b} \Sigma_{b b}^{-1} \Sigma_{b a}$
可以看出,$p(x_a|x_b)$的均值是$x_b$的线性函数,协方差与$x_b$无关
那么上述精度矩阵是如何求解的呢?如图所示,其中,$M$是子矩阵$D$的舒尔补
![精度矩阵的求解](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/20210117210047.png)
# 边缘高斯分布
从上一节联合概率中选出$x_b$的相关项,并拼凑出二次项形式,可以看出,配出来的第二项是与$x_b$无关,而与$x_a$有关:
$-\frac{1}{2} \boldsymbol{x}{b}^{T} \boldsymbol{\Lambda}{b b} \boldsymbol{x}{b}+\boldsymbol{x}{b}^{T} \boldsymbol{m}=-\frac{1}{2}\left(x_{b}-\Lambda_{b b}^{-1} m\right)^{T} \Lambda_{b b}\left(x_{b}-\Lambda_{b b}^{-1} m\right)+\frac{1}{2} m^{T} \Lambda_{b b}^{-1} m$
$\boldsymbol{m}=\boldsymbol{\Lambda}{b b} \boldsymbol{\mu}{b}-\boldsymbol{\Lambda}{b a}\left(\boldsymbol{x}{a}-\boldsymbol{\mu}_{a}\right)$
我们对$x_b$进行积分,其中该二次项部分为:
$$\int \exp \left{-\frac{1}{2}\left(x_{b}-\Lambda_{b b}^{-1} m\right)^{T} \Lambda_{b b}\left(x_{b}-\Lambda_{b b}^{-1} m\right)\right} \mathrm{d} x_{b}$$
该式缺少了前面的常数项部分,因此积分结果就是常数项的倒数,且该值只与协方差的行列式有关。由此,我们可以得到该积分,对于$x_a$的边缘概率来说,是个常数项,不必计算。下面将与$x_a$有关的第二项与联合概率中$x_a$相关项放在一起:
![](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/20210117221610.png)
同样的,对照二次项和线性项系数,可求得
$$\mu_{a}=\Sigma_{a}\left(\Lambda_{a a}-\Lambda_{a b} \Lambda_{b b}^{-1} \Lambda_{b a}\right) \mu_{a}$$
$$\boldsymbol{\Sigma}{a}=\left(\boldsymbol{\Lambda}{a a}-\boldsymbol{\Lambda}{a b} \boldsymbol{\Lambda}{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right)^{-1}$$
同样的,从精度矩阵转回协方差矩阵试试:
$$\begin{aligned} \mathbb{E}\left[\mathrm{x}{a}\right] &=\mu{a} \ \operatorname{cov}\left[\mathrm{x}{a}\right] &=\Sigma{a a} \end{aligned}$$
对于⼀个边缘概率分布,如果使⽤分块协⽅差矩阵表⽰,那么均值和⽅差的表⽰形式都会得到极⼤的简化,这与条件概率分布的情形恰好相反;在条件概率分布的情况下,使⽤分块精度矩阵会得到更加简单的表⽰形式。
# 贝叶斯定理
现在考虑更一般的情况:已知$p(x)$和$p(y|x)$,求边缘概率$p(y)$和条件概率$p(x|y)$
$$\begin{array}{c} p(x)=\mathcal{N}\left(x \mid \mu, \Lambda^{-1}\right) \ p(y \mid x)=\mathcal{N}\left(y \mid A x+b, L^{-1}\right) \end{array}$$
根据前两小节的内容,需要先求得联合概率分布,同样的,令$\boldsymbol{z}=\left(\begin{array}{l}\boldsymbol{x} \ \boldsymbol{y}\end{array}\right)$
$$\begin{aligned} \ln p(\mathbf{z})=& \ln p(\mathbf{x})+\ln p(\mathbf{y} \mid \mathbf{x}) \ =&-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Lambda}(\mathbf{x}-\boldsymbol{\mu}) \ &-\frac{1}{2}(\mathbf{y}-\mathbf{A} \mathbf{x}-\mathbf{b})^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{A} \mathbf{x}-\mathbf{b})+\mathrm{const} \end{aligned}$$
这是关于$z$的二次函数,首先配出$z$的二次项:
$$\begin{array}{l} -\frac{1}{2} \mathrm{x}^{\mathrm{T}}\left(\Lambda+\mathrm{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right) \mathrm{x}-\frac{1}{2} \mathrm{y}^{\mathrm{T}} \mathrm{Ly}+\frac{1}{2} \mathrm{y}^{\mathrm{T}} \mathrm{L} \mathrm{A} \mathrm{x}+\frac{1}{2} \mathrm{x}^{\mathrm{T}} \mathrm{A}^{\mathrm{T}} \mathrm{Ly} \ =-\frac{1}{2}\left(\begin{array}{l} \mathrm{x} \ \mathrm{y} \end{array}\right)^{\mathrm{T}}\left(\begin{array}{cc} \Lambda+\mathrm{A}^{\mathrm{T}} \mathrm{LA} & -\mathrm{A}^{\mathrm{T}} \mathrm{L} \ -\mathrm{L} \mathrm{A} & \mathrm{L} \end{array}\right)\left(\begin{array}{l} \mathrm{x} \ \mathrm{y} \end{array}\right)=-\frac{1}{2} \mathrm{z}^{\mathrm{T}} \mathbf{R z} \end{array}$$
精度矩阵
$$\mathbf{R}=\left(\begin{array}{cc} \Lambda+\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{A} & -\mathbf{A}^{\mathrm{T}} \mathbf{L} \ -\mathbf{L} \mathbf{A} & \mathbf{L} \end{array}\right)$$
同样的,我们将精度矩阵转为协方差矩阵
$$\operatorname{cov}[\mathbf{z}]=\mathbf{R}^{-1}=\left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}} \ \mathbf{A} \Lambda^{-1} & \mathbf{L}^{-1}+\mathbf{A} \Lambda^{-1} \mathbf{A}^{\mathrm{T}} \end{array}\right)$$
线性项:
$$\mathrm{x}^{\mathrm{T}} \Lambda \mu-\mathrm{x}^{\mathrm{T}} \mathrm{A}^{\mathrm{T}} \mathrm{Lb}+\mathrm{y}^{\mathrm{T}} \mathbf{L b}=\left(\begin{array}{l} \mathrm{x} \ \mathrm{y} \end{array}\right)^{\mathrm{T}}\left(\begin{array}{c} \Lambda \mu-\mathrm{A}^{\mathrm{T}} \mathrm{Lb} \ \mathrm{Lb} \end{array}\right)$$
$$\mathbb{E}[\mathbf{z}]=\mathbf{R}^{-1}\left(\begin{array}{c} \mathbf{\Lambda} \mu-\mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \ \mathbf{L b} \end{array}\right)=\left(\begin{array}{c} \mu \ \mathrm{A} \mu+\mathrm{b} \end{array}\right)$$
根据分块矩阵的形式和边缘概率公式:
$$\operatorname{cov}[\mathbf{z}]=\left(\begin{array}{ll}\Sigma_{x x} & \Sigma_{x y} \ \Sigma_{y x} & \Sigma_{y y}\end{array}\right)$$
$$\mathbb{E}[\mathbf{z}]=\left(\begin{array}{c}\boldsymbol{\mu}{x} \ \boldsymbol{\mu}{y}\end{array}\right)$$
$$p\left(\boldsymbol{y}\right)=\mathcal{N}\left(\boldsymbol{y} \mid \boldsymbol{\mu}{y}, \boldsymbol{\Sigma}{y y}\right)$$
我们可以得到$p(y)$的均值和协方差
$$\begin{array}{c} \mathbb{E}[\boldsymbol{y}]=\boldsymbol{A} \boldsymbol{\mu}+\boldsymbol{b} \ \operatorname{cov}[\boldsymbol{y}]=\boldsymbol{L}^{-1}+\boldsymbol{A} \mathbf{\Lambda}^{-1} \boldsymbol{A}^{T} \end{array}$$
根据分块矩阵的形式和条件概率公式:
$$\begin{aligned} p\left(\mathbf{x} \mid \mathbf{y}\right) &=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}{x \mid y}, \mathbf{\Lambda}{x x}^{-1}\right) \ \boldsymbol{\mu}{x \mid y} &=\boldsymbol{\mu}{x}-\boldsymbol{\Lambda}{y y}^{-1} \boldsymbol{\Lambda}{x y}\left(\mathbf{x}{y}-\boldsymbol{\mu}{y}\right) \end{aligned}$$
我们可以得到$p(x|y)$的均值和协方差
$$\begin{aligned} \mathbb{E}[x \mid y]=&\left(\Lambda+A^{T} L A\right)^{-1}\left{A^{T} L(y-b)+\Lambda \mu\right} \ & \operatorname{cov}[x \mid y]=\left(\Lambda+A^{T} L A\right)^{-1} \end{aligned}$$
# 最大似然估计
通过最大化似然值来估计模型参数,一般用对数似然函数表示:
$$\ln p(\boldsymbol{X} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=-\frac{N D}{2} \ln (2 \pi)-\frac{N}{2} \ln |\mathbf{\Sigma}|-\frac{1}{2} \sum_{n=1}^{N}\left(\boldsymbol{x}{n}-\boldsymbol{\mu}\right)^{T} \boldsymbol{\Sigma}^{-1}\left(\boldsymbol{x}{n}-\boldsymbol{\mu}\right)$$
似然函数对数据集的依赖只通过下⾯两个量体现,称它们为充分统计量:
$$\sum_{n=1}^{N} x_{n}, \quad \sum_{n=1}^{N} x_{n} x_{n}^{T}$$
根据$\frac{\partial}{\partial \mathrm{x}}\left(\mathrm{x}^{\mathrm{T}} \mathrm{a}\right)=\frac{\partial}{\partial \mathrm{x}}\left(\mathrm{a}^{\mathrm{T}} \mathrm{x}\right)=\mathrm{a}$,可以求得关于$\mu$的导数:
$$\boldsymbol{\mu}{M L}=\frac{1}{N} \sum{n=1}^{N} \boldsymbol{x}_{n}$$
关于$\Sigma$的导数推导较为复杂,形式为
$$\Sigma_{M L}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{M L}\right)\left(x_{n}-\mu_{M L}\right)^{T}$$
$\Sigma$是依赖于$\mu$的,通常先计算$\mu$,再求出$\Sigma$。
# 贝叶斯推断
最⼤似然框架给出了对于参数$\mu$和$\Sigma$的点估计,现在我们通过引⼊这些参数的先验分布,介绍⼀种贝叶斯的⽅法。考虑一个一元随机变量$x$,其方差$\sigma^2$已知,从一组$N$次观测$\mathbf{x}={x_1,...,x_N}$中推断$\mu$,假设$\mu$的先验分布为
$$p(\mu)=\mathcal{N}\left(\mu \mid \mu_{0}, \sigma_{0}^{2}\right)$$
其后验分布为
$$p(\mu \mid \mathbf{x}) \propto p(\mathbf{x} \mid \mu) p(\mu)$$
观测数据集的似然函数为
$$p(\mathbf{X} \mid \mu)=\prod_{n=1}^{N} p\left(x_{n} \mid \mu\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{N / 2}} \exp \left{-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right}$$
通过对指数项进行配方操作,可以得到后验概率的具体形式
$$p(\mu \mid \mathbf{x})=\mathcal{N}\left(\mu \mid \mu_{N}, \sigma_{N}^{2}\right)$$
$$\mu_{N}=\frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{M L}$$
$$\frac{1}{\sigma_{N}^{2}}=\frac{1}{\sigma_{0}^{2}}+\frac{N}{\sigma^{2}}$$
其中,$\mu_{M L}=\frac{1}{N} \sum_{n=1}^{N} x_{n}$
- 后验分布的均值是先验均值和最大似然解的折中,当样本点为0时,即为先验均值,当样本点无穷多时,即为最大似然解
- 后验概率的精度等于先验的精度加上每一个观测数据点所贡献的一个精度,当我们增加观测数据点的数量时,精度持续增加,对应于后验分布的方差持续减少
# 混合高斯模型
通过将更基本的概率分布(例如⾼斯分布)进⾏线性组合的这样的叠加⽅法,可以被形式化为概率模型,被称为混合模型(mixture distributions)。通过使⽤⾜够多的⾼斯分布,并且调节它们的均值和⽅差以及线性组合的系数,⼏乎所有 的连续概率密度都能够以任意的精度近似。
$$p(\boldsymbol{x})=\sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}{k}, \boldsymbol{\Sigma}{k}\right)$$
其中,参数$\pi_{k}$被称为混合系数。
边缘概率密度$p(\boldsymbol{x})=\sum_{k=1}^{K} p(k) p(\boldsymbol{x} \mid k)$,与上式进行对比,我们将$\pi_{k}=p(k)$看成选择第$k$个成分的先验概率,将$\mathcal{N}\left(x \mid \mu_{k}, \Sigma_{k}\right)=p(x \mid k)$看做$x$的条件概率,此时后验概率$p(k|x)$有很重要的作用,称为责任。
$$\begin{aligned} \gamma_{k}(\boldsymbol{x}) & \equiv p(k \mid \boldsymbol{x}) \ &=\frac{p(k) p(\boldsymbol{x} \mid k)}{\sum_{l} p(l) p(\boldsymbol{x} \mid l)} \ &=\frac{\pi_{k} \mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}{k}, \mathbf{\Sigma}{k}\right)}{\sum_{l} \pi_{l} \mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}{l}, \mathbf{\Sigma}{l}\right)} \end{aligned}$$
现在的情形比一元高斯分布复杂得多,因为对数中存在一个求和式。这就导致参数的最大似然解不再有一个封闭形式的解析解,需要用EM迭代求解。
# 总结
![条件概率、边缘概率](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/2021-01-17_213345.png)
- 条件概率$p(x_a|x_b)$的均值是$x_b$的线性函数,协方差与$x_b$无关
![](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/20210118104842.png)
# 基础知识
期望
离散变量:$\mathbb{E}[f]=\sum_{x} p(x) f(x)$
连续变量:$\mathbb{E}[f]=\int p(x) f(x) \mathrm{d} x$
有时,我们会考虑多变量函数的期望。这种情形下,我们可以使.下标来表明被平均的是哪个变量:${E}_{x}[f(x,y)]$,表⽰函数$f(x,y)$关于$x$的分布的平均,是$y$的函数
方差
$\operatorname{var}[f]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2}$
协方差
2个随机变量:$\operatorname{cov}[x, y]=\mathbb{E}{x, y}[{x-\mathbb{E}[x]}{y-\mathbb{E}[y]}]=\mathbb{E}{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y]$
2个随机向量:$\operatorname{cov}[\boldsymbol{x}, \boldsymbol{y}]=\mathbb{E}{\boldsymbol{x}, \boldsymbol{y}}\left[{\boldsymbol{x}-\mathbb{E}[\boldsymbol{x}]}\left{\boldsymbol{y}^{T}-\mathbb{E}\left[\boldsymbol{y}^{T}\right]\right}\right]=\mathbb{E}{\boldsymbol{x}, \boldsymbol{y}}\left[\boldsymbol{x} \boldsymbol{y}^{T}\right]-\mathbb{E}[\boldsymbol{x}] \mathbb{E}\left[\boldsymbol{y}^{T}\right]$