主题模型(一)--数学基础
五个步骤:
- 一个函数: 函数
- 四个分布:二项分布、多项分布、Beta分布、Dirichlet分布
- 一个概念和一个理念:共轭先验和贝叶斯框架
- 两个模型:pLSA、LDA
- 一个采样:Gibbs采样
一个函数
函数
- 递归性质:
- 函数是阶乘在实数上的推广:
四个分布
1. 二项分布
- 二项分布(Binominal), 是从伯努利分布(Bernouli)推进的. 简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。
- 伯努利分布, 又称两点分布或0-1分布.是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
- 二项分布即重复n次的伯努利试验,记为 , 概率密度函数为: 其中,
2. 多项分布
- 多项分布(Multi-nominal),是二项分布扩展到多维的情况。
- 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3...,k). 比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中:
- 多项分布的概率密度函数为:
3. Beta分布
Beta分布的概率密度: 其中, 通过调节 , 可以得到Beta分布的各种形态. 可凸, 可凹, 可直, 可弯. 其中, 均匀分布也是特殊的Beta分布.
- Beta分布的期望: 即:
4. Dirichlet分布
维度 的Dirichlet分布在参数 上, 基于欧几里得空间 (Euclidean Space) 里的勒贝格测度 (Lebesgue Measure)的概率密度函数:
其中, 概率密度函数定义在 维的单纯形上, 其他区域的概率密度为0,
归一化衡量 是多项B函数
Dirichlet的另一种定义形式:
其中, 称为Dirichlet分布的归一化系数:
特别的, 当参数 时, 称为 对称Dirichlet分布:
- 当 , 退化为均匀分布
- 当 的概率增大
当 的概率增大
取 , 也就是有两个独立参数 ,分别对应图中的两个坐标轴,第三个参数始终满足,图中反映的是 从0.3变化到2.0的概率对数值的变化情况。
Dirichlet分布的概率密度函数取对数,绘制对称Dirichlet分布的图像
从形式上可以看出, Dirichlet分布是Beta分布在高维度上的推广, 它和Beta分布一样也是百变的.
Dirichlet分布的数学期望: 如果 , 则:
一个概念和一个理念
共轭先验和贝叶斯框架
- 在贝叶斯概率理论中,如果后验概率 和先验概率 满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
根据贝叶斯公式可知:
注: 由于x为给定样本,P(x)有时被称为“证据”,仅仅是归一化因子, 如果不关心P(θ|x)的具体值, 只考察θ取何值时后验概率P(θ|x)最大,则可将分母省去。
- 贝叶斯派思考问题的模式: 先验分布 + 样本信息 后验分布
Beta-Binomial共轭
二项分布和Beta分布是共轭分布意味着,如果我们为二项分布的参数p选取的先验分布是Beta分布,那么以p为参数的二项分布用贝叶斯估计得到的后验分布仍然服从Beta分布。
对于非负实数 :
- .
- 先验性的给出了p分布,被称作 伪计数.
针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial共轭。换言之,Beta分布是二项式分布的共轭先验概率分布。
举例:
投掷一个非均匀硬币,可以使用参数为 的伯努利模型, 为硬币为正面的概率,那么结果X的分布形式为:
二项分布的共轭先验为beta分布,具有两个参数 和 ,称为超参数(hyper parameters),且这两个参数决定了 参数,其Beta分布形式为:
然后计算后验概率:
因此, 后验概率是参数为 的另一个Beta分布, 即: 伯努利分布的共轭先验是Beta分布.
Dirichlet-Multinomial共轭
把 从整数集延拓到实数集合, 从而得到更一般的表达式:
针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是Dirichlet-Multinomial 共轭。换言之,至此已经证明了Dirichlet分布的确就是多项式分布的共轭先验概率分布。
举例:
投掷一个骰子,可以使用参数为 的多项分布, , 为骰子各个面出现的概率, 那么结果X的分布形式为:
多项分布的共轭先验为Dirichlet分布, 具K个超参数 ,且这K个参数决定了 K-1个 参数
然后计算后验概率:
因此, 后验概率是参数为 的另一个Dirichlet分布, 即: 多项分布的共轭先验是Dirichlet分布.
反馈与建议
- 微博:@Girl_AI