Gibbs采样的粗浅理解

前段时间一直在看LDA,原论文采用的Variational Inference有点看不懂,后来看到很多人推崇Gibbs采样是求LDA参数的一种非常有效的方式,于是就埋头去看Gibbs采样去了。不过还是有些云里雾里,这里记下一些自己粗浅的理解,请大家批评指正…

1. MC积分巧妙的把对解析式的积分,拆解成一个概率期望问题,并通过大量采样来得到近似的期望;为了将采样集中在概率比较大的地方,提出了多种采样方法,例如rejection,importance,sampling-importance-resampling等等,MCMC就是其中的一种…

2. MCMC中的MH算法所构造的Markov链,其状态节点x^(t),是在样本空间X上,⑴ 其构造方法是具有Markov性质的 ⑵ 且MH kernel满足交换性 P(j→k) π_j = P(k→j) π_k;因此MH构造的是一个非周期不可约稳定收敛的马氏链…

3. 而因为Gibbs采样是MH算法的一种特例(α==1),因此可以保证Gibbs抽取的样本,也构成一个非周期不可约稳定收敛的马氏链;Gibbs采样适用于样本是两维或以上的情况;通过积分去除掉相关但是不感兴趣的变量,称为“collapsed”的Gibbs采样;并且个人的一个感觉是,观测量所直接依赖的那些变量是不能被积分掉的,否则无法有效的进行抽样…

4. Gibbs采样中的概率 P(z_i|Z_\i),(其中Z_\i表示不含有z_i的向量),只是用来进行下一个随机采样(z_i的采样服从这个条件概率的分布),而最后反复迭代得到的关于z的分布,可以用count(z)/sample_numbers,来近似得到。而这个P(z)也是Gibbs采样形成的Markov链的收敛后的概率分布…

参考:

  1. Markov Chain Monte Carlo and Gibbs Sampling
  2. An Introduction to MCMC for Machine Learning
  3. Gibbs Sampling for the Uninitiated
  4. Bayesian Inference with Tears
  5. Parameter Estimation for text analysis
  6. Distributed Gibbs Sampling of Latent Dirichlet Allocation: The Gritty Details
  7. Explaining the Gibbs Sampler