主题模型(一)--数学基础

五个步骤:

  1. 一个函数: 函数
  2. 四个分布:二项分布、多项分布、Beta分布、Dirichlet分布
  3. 一个概念和一个理念:共轭先验和贝叶斯框架
  4. 两个模型:pLSA、LDA
  5. 一个采样:Gibbs采样

一个函数

函数

  • 递归性质:
  • 函数是阶乘在实数上的推广:

四个分布

1. 二项分布

  • 二项分布(Binominal), 是从伯努利分布(Bernouli)推进的. 简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。
  • 伯努利分布, 又称两点分布或0-1分布.是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
  • 二项分布即重复n次的伯努利试验,记为 , 概率密度函数为: 其中,

2. 多项分布

  • 多项分布(Multi-nominal),是二项分布扩展到多维的情况。
  • 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3...,k). 比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中:
  • 多项分布的概率密度函数为:

3. Beta分布

Beta分布的概率密度: 其中, 通过调节 , 可以得到Beta分布的各种形态. 可凸, 可凹, 可直, 可弯. 其中, 均匀分布也是特殊的Beta分布.

  • Beta分布的期望: 即:

4. Dirichlet分布

  • 维度 Dirichlet分布在参数 上, 基于欧几里得空间 (Euclidean Space) 里的勒贝格测度 (Lebesgue Measure)的概率密度函数:

    其中, 概率密度函数定义在 维的单纯形上, 其他区域的概率密度为0,

    归一化衡量 是多项B函数

  • Dirichlet的另一种定义形式:

    其中, 称为Dirichlet分布的归一化系数:

  • 特别的, 当参数 时, 称为 对称Dirichlet分布:

    • , 退化为均匀分布
    • 的概率增大
    • 的概率增大

      , 也就是有两个独立参数 ,分别对应图中的两个坐标轴,第三个参数始终满足,图中反映的是 从0.3变化到2.0的概率对数值的变化情况。

      Dirichlet分布的概率密度函数取对数,绘制对称Dirichlet分布的图像

      从形式上可以看出, Dirichlet分布是Beta分布在高维度上的推广, 它和Beta分布一样也是百变的.

  • Dirichlet分布的数学期望: 如果 , 则:

一个概念和一个理念

共轭先验和贝叶斯框架

  • 贝叶斯概率理论中,如果后验概率 和先验概率 满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布
  • 根据贝叶斯公式可知:

    注: 由于x为给定样本,P(x)有时被称为“证据”,仅仅是归一化因子, 如果不关心P(θ|x)的具体值, 只考察θ取何值时后验概率P(θ|x)最大,则可将分母省去。

  • 贝叶斯派思考问题的模式: 先验分布 + 样本信息 后验分布

Beta-Binomial共轭

二项分布和Beta分布是共轭分布意味着,如果我们为二项分布的参数p选取的先验分布是Beta分布,那么以p为参数的二项分布用贝叶斯估计得到的后验分布仍然服从Beta分布。

对于非负实数

  • .
  • 先验性的给出了p分布,被称作 伪计数.

针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial共轭。换言之,Beta分布是二项式分布的共轭先验概率分布

举例:

投掷一个非均匀硬币,可以使用参数为 伯努利模型 为硬币为正面的概率,那么结果X的分布形式为:

二项分布的共轭先验为beta分布,具有两个参数 ,称为超参数(hyper parameters),且这两个参数决定了 参数,其Beta分布形式为:

然后计算后验概率:

因此, 后验概率是参数为 的另一个Beta分布, 即: 伯努利分布的共轭先验是Beta分布.

Dirichlet-Multinomial共轭

从整数集延拓到实数集合, 从而得到更一般的表达式:

针对于这种观测到的数据符合多项分布参数先验分布和后验分布都是Dirichlet 分布的情况,就是Dirichlet-Multinomial 共轭。换言之,至此已经证明了Dirichlet分布的确就是多项式分布的共轭先验概率分布

举例:

投掷一个骰子,可以使用参数为 多项分布, , 为骰子各个面出现的概率, 那么结果X的分布形式为:

多项分布的共轭先验为Dirichlet分布, 具K个超参数 ,且这K个参数决定了 K-1个 参数

然后计算后验概率:

因此, 后验概率是参数为 的另一个Dirichlet分布, 即: 多项分布的共轭先验是Dirichlet分布.


反馈与建议

参考文献

results matching ""

    No results matching ""