Gibbs采样的粗浅理解

前段时间一直在看LDA,原论文采用的Variational Inference有点看不懂,后来看到很多人推崇Gibbs采样是求LDA参数的一种非常有效的方式,于是就埋头去看Gibbs采样去了。不过还是有些云里雾里,这里记下一些自己粗浅的理解,请大家批评指正…

1. MC积分巧妙的把对解析式的积分,拆解成一个概率期望问题,并通过大量采样来得到近似的期望;为了将采样集中在概率比较大的地方,提出了多种采样方法,例如rejection,importance,sampling-importance-resampling等等,MCMC就是其中的一种…

2. MCMC中的MH算法所构造的Markov链,其状态节点x^(t),是在样本空间X上,⑴ 其构造方法是具有Markov性质的 ⑵ 且MH kernel满足交换性 P(j→k) π_j = P(k→j) π_k;因此MH构造的是一个非周期不可约稳定收敛的马氏链…

3. 而因为Gibbs采样是MH算法的一种特例(α==1),因此可以保证Gibbs抽取的样本,也构成一个非周期不可约稳定收敛的马氏链;Gibbs采样适用于样本是两维或以上的情况;通过积分去除掉相关但是不感兴趣的变量,称为“collapsed”的Gibbs采样;并且个人的一个感觉是,观测量所直接依赖的那些变量是不能被积分掉的,否则无法有效的进行抽样…

4. Gibbs采样中的概率 P(z_i|Z_\i),(其中Z_\i表示不含有z_i的向量),只是用来进行下一个随机采样(z_i的采样服从这个条件概率的分布),而最后反复迭代得到的关于z的分布,可以用count(z)/sample_numbers,来近似得到。而这个P(z)也是Gibbs采样形成的Markov链的收敛后的概率分布…

参考:

  1. Markov Chain Monte Carlo and Gibbs Sampling
  2. An Introduction to MCMC for Machine Learning
  3. Gibbs Sampling for the Uninitiated
  4. Bayesian Inference with Tears
  5. Parameter Estimation for text analysis
  6. Distributed Gibbs Sampling of Latent Dirichlet Allocation: The Gritty Details
  7. Explaining the Gibbs Sampler

8 thoughts on “Gibbs采样的粗浅理解

  1. 关于第三点 “并且个人的一个感觉是,观测量所直接依赖的那些变量是不能被积分掉的,否则无法有效的进行抽样…”
    1. 哪些变量?比如就以Gibbs for the Uninitiated的表示来说
    2. 为啥不能有效进行抽样?能否进一步谈谈这点?

    关于第四点的那个P(z_i|Z_\i),这个是Markov Chain中达到stationary时的P吗?这个P中的各个Z值是否就是最优值?

    谢谢!

  2. @chengdujin

    以“Gibbs for the Uninitiated”上的例子来说,θ_0和θ_1是不能被积分掉的,因为W_jk直接依赖与θ,其中2.6节有介绍,不能将θ积分掉的原因。

    P(z_i|Z_\i)不是Markov Chain稳定后的P,P(z)是稳定后的P。如果将Markov Chain各状态的转移概率表示为P_trans,那么这个P(z)就是常说的那个π,使得π = π * P_trans。另外P(z_i|Z_\i)也不等同于P_trans…

    您的最后一个问题,我不是很理解,您所说的最优值是什么…

  3. 关于最后一点:

    就Gibbs for the Uninitiated(Naive Bayes Model)来说,我们使用Gibbs Sampler的最终目的是通过取样来找到最大化Pr(L/W)的L。Markov Chain会达到一个稳定的状态,给我们P(z) (i.e. π)。那这个P(z)是使得Pr(L/W)最大化的值么?

    如果不是,那马尔科夫链稳定后的π和稳定之前的π有什么差别呢?甚至因为Gibbs sampler的alpha=1,我们也无法判断稳定之前的π是否是burn-in吧?

  4. @chengdujin

    这个问题深刻啊!

    我的理解是,在Markov Chain稳定之后,这个P(z) (i.e. π) 是最逼近(或者符合)实际分布的一个分布。对应于“Gibbs for the Uninitiated”文中的例子来说,π是最符合那个Figure 4图模型(collapsed之后的)所对应的联合分布。这么这个最符合的联合分布,是否可以使得Pr(L|W)最大呢,我的确是没有考虑过这个问题。感觉和最大似然估计的证明有点像,可能还需要推导一下…

  5. @chengdujin

    新浪微博的 @微博Koth 同学给了一个有意思的解释,“假定语料后,参数分布跟稳定后的马氏链转移概率是同分布的,选择期望值应该是最能解释你的语料的”,我想“同分布”是一个关键,应该可以通过推导得到这个结论的…

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

To submit your comment, click the image below where it asks you to...
Clickcha - The One-Click Captcha