PRML|概率图模型(贝叶斯网络)
概率可以使⽤两个简单的⽅程(加和规则和乘积规则)表⽰,⽆论多么复杂,都是在重复使⽤这两个方程。这里只讨论贝叶斯网络(Bayesian network),也被称为有向图模(directed graphical model)。这个模型中,图之间的链接有特定的方向,用箭头表示。为了求解推断问题,通常比较方便的做法是把有向图和⽆向图都转化为⼀个不同的表⽰形式,被称为因⼦图(factor graph)。
图模型有3个重要的内容:
- 表示:图结构反应变量的依赖关系
- 推断:计算后验分布
- 学习:模型参数学习和结构学习(一般需要专家经验)
![](https://gitee.com/zhouwenjun2020/blog_pictures/raw/master/20210120143414.png)
在图的所有结点上定义的联合概率分布由每个结点上的条件概率分布的乘积表⽰,每个条件概率分布的条件都是图中结点的⽗结点所对应的变量。
$$p(\boldsymbol{x})=\prod_{k=1}^{K} p\left(x_{k} \mid \mathrm{pa}_{k}\right)$$
其中,$\mathrm{pa}{k}$表示$x{k}$的父节点的集合,这个关键的⽅程表⽰有向图模型的联合概率分布的分解(factorization)属性。
图模型 | 备注 |
---|---|
![]() | $p(\mathbf{t}, \boldsymbol{w})=p(\boldsymbol{w}) \prod_{n=1}^{N} p\left(t_{n} \mid \boldsymbol{w}\right)$ |
![]() | 相同类型的节点进行归并 |
![]() | $p\left(\mathbf{t}, w \mid \mathbf{x}, \alpha, \sigma^{2}\right)=p(\boldsymbol{w} \mid \alpha) \prod_{n=1}^{N} p\left(t_{n} \mid w, x_{n}, \sigma^{2}\right)$ 1)显式地写出模型参数和随机变量 2)随机变量用空心圆表示,确定性参数用小的实心圆表示 3)观测变量加上阴影 |
如果我们将有向图中的每个父结点-子结点对的关系选为共轭的,那么这样的模型有一些特别好的性质。两种情形很值得注意,即父结点和子结点都对应于离散变量以及高斯变量的情形,因为在这两种情形中,关系可以层次化地推广,构建任意复杂的有向无环图。
# 高斯分布下的有向无环图
考虑$D$个变量上的任意的有向⽆环图,其中结点$i$表⽰服从⾼斯分布的⼀元连续随机变量$x_i$,假设高斯分布为
$$p\left(x_{i} \mid \mathrm{pa}{i}\right)=\mathcal{N}\left(x{i} \mid \sum_{j \in \mathrm{pa}{i}} w{i j} x_{j}+b_{i}, v_{i}\right)$$
其中,$pa_i$是$x_i$的父节点集合。可以得到$D$个变量的联合概率分布
$$\begin{aligned} \ln p(\mathrm{x}) &=\sum_{i=1}^{D} \ln p\left(x_{i} \mid \mathrm{pa}{i}\right) \ &=-\sum{i=1}^{D} \frac{1}{2 v_{i}}\left(x_{i}-\sum_{j \in \mathrm{pa}{i}} w{i j} x_{j}-b_{i}\right)^{2}+\mathrm{const} \end{aligned}$$
我们可以递归地确定联合概率分布的均值和⽅差。首先写下$x_i$和$\mathrm{E}[x_i]$
$$x_{i}=\sum_{j \in \mathrm{pa}{i}} w{i j} x_{j}+b_{i}+\sqrt{v_{i}} \epsilon_{i}$$
$$\mathbb{E}\left[x_{i}\right]=\sum_{j \in \mathrm{pa}{i}} w{i j} \mathbb{E}\left[x_{j}\right]+b_{i}$$
其中,$\epsilon_{i}$是⼀个零均值单位⽅差的⾼斯随机变量,即$\mathbb{E}[\epsilon_{i}]=0$,$\mathbb{E}[\epsilon_{i}\epsilon_{j}]=I_{ij}$。上式即为均值递归公式,同理,可以推导出协方差递归式
$$\begin{aligned} \operatorname{cov}\left[x_{i}, x_{j}\right] &=\mathbb{E}\left[\left(x_{i}-\mathbb{E}\left[x_{i}\right]\right)\left(x_{j}-\mathbb{E}\left[x_{j}\right]\right)\right] \ &=\mathbb{E}\left[\left(x_{i}-\mathbb{E}\left[x_{i}\right]\right)\left{\sum_{k \in \mathrm{pa}{j}} w{j k}\left(x_{k}-\mathbb{E}\left[x_{k}\right]\right)+\sqrt{v_{j}} \epsilon_{j}\right}\right] \ &=\sum_{k \in \mathrm{pa}{j}} w{j k} \operatorname{cov}\left[x_{i}, x_{k}\right]+I_{i j} v_{j} \end{aligned}$$
若图中不存在链接,即为$D$个孤立的节点。根据递归关系,$p(x)$的均值为$(b_1,...,b_D)^T$,协方差为对角矩阵$\mathbb{diag}(v_1,...,v_D)$。一共有$2D$个模型参数,表示$D$个独立的一元高斯分布。
假设图模型如下:
联合概率分布的均值和协方差如下:
$$\begin{array}{c} \mu=\left(b_{1}, b_{2}+w_{21} b_{1}, b_{3}+w_{32} b_{2}+w_{32} w_{21} b_{1}\right)^{T} \ \Sigma=\left(\begin{array}{cc} v_{1} & w_{21} v_{1} & w_{32} w_{21} v_{1} \ w_{21} v_{1} & v_{2}+w_{21}^{2} v_{1} & w_{32}\left(v_{2}+w_{21}^{2} v_{1}\right) \ w_{32} w_{21} v_{1} & w_{32}\left(v_{2}+w_{21}^{2} v_{1}\right) & v_{3}+w_{32}^{2}\left(v_{2}+w_{21}^{2} v_{1}\right) \end{array}\right) \end{array}$$
# 条件独立性
如果⼀组变量的联合概率分布的表达式是根据条件概率分布的乘积表⽰的(即有向图的数学表达形式),那么原则上我们可以通过重复使⽤概率的加和规则和乘积规则测试是否具有潜在的条件独⽴性。在实际应⽤中,这种⽅法⾮常耗时。图模型的⼀个重要的优雅的特征是,联合概率分布的条件独⽴性可以直接从图中读出来,不⽤进⾏任何计算。
- 求联合概率分布$p(a,b,c)$
- 假设所有变量都不是观测变量,对$c$进行积分$\sum_cp(a,b,c)=p(a,b)$,判断其是否满足$p(a,b)=p(a)p(b)$,考察$a,b$的独立性
- 假设以观测变量$c$为条件,得到条件概率分布$p(a,b|c)$,判断其是否满足$p(a,b|c)=p(a|c)p(b|c)$
概率图 | 条件独立性 |
---|---|
![]() | |
![]() | |
![]() |
- 局部马尔科夫性:每个随机变量在父节点给定情况下,条件独立于非后代节点
朴素贝叶斯的假设:
- 一个特征出现的概率,与其他特征(条件)独立(特征独立性),其本质是,对于给定分类的条件下,特征独立
- 每个特征同等重要(特征均衡性)
# d-划分
# 推断
图中的⼀些结点被限制为观测值,计算其他结点中的⼀个或多个⼦集的后验概率分布
# 管理
liefufjeipejgiepije
xxxxxxxxxxx
print('hello')
西和一堆苹果放入前世$\mu$呵呵呵
$$\mu \Sigma$$
$p(\mathcal{D})=\int_{0}^{\infty} p(\mathcal{D} \mid \mu) p(\mu) \mathrm{d} \mu \neq \prod_{n=1}^{N} p\left(x_{n}\right)$