38 | 完备数据下的参数学习：有向图与无向图-机器学习入门指南

当前位置:　首页>> 技术小册>> 机器学习入门指南

38 | 完备数据下的参数学习：有向图与无向图

在机器学习领域，尤其是在统计学习和概率图模型的应用中，理解和掌握如何在完备数据条件下进行参数学习是至关重要的。完备数据指的是所有观测变量和潜在变量都已明确给出，没有缺失值的数据集。本章节将深入探讨在完备数据环境下，如何利用有向图（Directed Graphical Models, 如贝叶斯网络）和无向图（Undirected Graphical Models, 如马尔可夫随机场）来进行参数学习。

一、引言

参数学习是机器学习中的一个基本问题，旨在通过观测数据估计模型的参数，使得模型能够最好地描述数据的生成过程。在概率图模型中，图的结构（即节点间的连接关系）反映了变量间的依赖关系，而参数则定义了这种依赖关系的具体形式。有向图和无向图是两种常见的图结构，它们各自适用于不同类型的概率模型，并在参数学习上展现出不同的特性和方法。

二、有向图模型与参数学习

2.1 贝叶斯网络基础

有向图模型的一个典型代表是贝叶斯网络（Bayesian Network），它使用有向无环图（DAG）来表示变量间的因果关系。在贝叶斯网络中，每个节点代表一个随机变量，有向边表示变量间的直接依赖关系。网络的参数通常是条件概率表（CPT），即给定父节点状态下，子节点状态的条件概率分布。

2.2 参数学习方法

在完备数据下，贝叶斯网络的参数学习主要依赖于最大似然估计（Maximum Likelihood Estimation, MLE）或贝叶斯估计（Bayesian Estimation）。

最大似然估计：目标是找到使得观测数据似然函数最大化的参数值。对于离散变量，这通常涉及到计算每个参数对应的条件概率表的频率估计。对于连续变量，可能需要采用如最大熵、期望最大化（EM）算法等更复杂的优化技术。
贝叶斯估计：与MLE不同，贝叶斯估计将参数视为随机变量，并引入先验分布来反映对参数的先验知识。通过贝叶斯定理，结合观测数据，可以计算出参数的后验分布。在实际应用中，常用后验分布的众数、均值或中位数作为参数的估计值。

2.3 示例分析

考虑一个简单的贝叶斯网络，包含两个变量：天气（W）和是否带伞（U）。天气有两个状态：晴（S）和雨（R），是否带伞也有两个状态：是（Y）和否（N）。在完备数据集中，我们有一系列关于天气和是否带伞的观测记录。通过统计每个天气状态下带伞的频率，我们可以直接估计出条件概率表，如P(U=Y|W=S)和P(U=N|W=R)等。

三、无向图模型与参数学习

3.1 马尔可夫随机场基础

无向图模型通常用于描述变量间存在对称依赖关系的场景，如图像分析、社交网络中的朋友关系等。马尔可夫随机场（Markov Random Field, MRF）和吉布斯分布（Gibbs Distribution）是无向图模型中的核心概念。在MRF中，节点表示随机变量，无向边表示变量间存在某种相互作用或依赖，但这种依赖是双向的且没有方向性。

3.2 参数学习方法

对于无向图模型，参数学习通常涉及最大化观测数据的联合概率分布。由于无向图模型中的变量间依赖关系较为复杂，直接计算联合概率往往不可行，因此常采用吉布斯分布来描述这种依赖关系，并通过最大化吉布斯分布的伪似然（Pseudolikelihood）或利用更复杂的采样技术（如MCMC）来估计参数。

伪似然估计：伪似然是一种简化的似然函数，它只考虑每个变量与其邻居变量之间的条件分布，忽略了全局的联合分布。尽管伪似然估计在理论上不是全局最优的，但在许多实际应用中，它能够提供较好的参数估计，且计算效率较高。
MCMC采样：马尔可夫链蒙特卡洛（Markov Chain Monte Carlo）方法是一种通过构造马尔可夫链来近似复杂概率分布的采样技术。在无向图模型的参数学习中，MCMC可以用于从联合分布中采样，进而通过样本估计参数值。

3.3 示例分析

假设我们有一个关于图像像素值的无向图模型，每个像素点是一个节点，相邻像素点之间有边相连。在这个模型中，我们希望通过观测到的像素值来学习像素间相互作用的强度（即参数）。这可以通过构建吉布斯分布，并利用伪似然估计或MCMC采样来估计参数值。例如，通过计算每个像素点与其邻居像素点的条件分布的频率，我们可以初步估计出参数；进一步，利用MCMC方法可以从全局联合分布中采样，以获得更准确的参数估计。

四、有向图与无向图模型的比较

表示能力：有向图模型能够显式地表示变量间的因果关系，而无向图模型则更适合描述变量间的对称依赖关系。在某些情况下，有向图可能无法准确描述数据中的依赖关系，而无向图则可能引入不必要的复杂性。
计算复杂度：有向图模型的参数学习通常较为直接，尤其是在完备数据下，可以通过简单的频率统计或优化算法来求解。而无向图模型的参数学习则可能涉及复杂的采样和近似技术，计算成本较高。
应用领域：有向图模型在因果推理、疾病诊断等领域有广泛应用；无向图模型则更适用于图像处理、社交网络分析等领域。