前段时间一直在看LDA,原论文采用的Variational Inference有点看不懂,后来看到很多人推崇Gibbs采样是求LDA参数的一种非常有效的方式,于是就埋头去看Gibbs采样去了。不过还是有些云里雾里,这里记下一些自己粗浅的理解,请大家批评指正…
1. MC积分巧妙的把对解析式的积分,拆解成一个概率期望问题,并通过大量采样来得到近似的期望;为了将采样集中在概率比较大的地方,提出了多种采样方法,例如rejection,importance,sampling-importance-resampling等等,MCMC就是其中的一种…
2. MCMC中的MH算法所构造的Markov链,其状态节点x^(t),是在样本空间X上,⑴ 其构造方法是具有Markov性质的 ⑵ 且MH kernel满足交换性 P(j→k) π_j = P(k→j) π_k;因此MH构造的是一个非周期不可约稳定收敛的马氏链…
3. 而因为Gibbs采样是MH算法的一种特例(α==1),因此可以保证Gibbs抽取的样本,也构成一个非周期不可约稳定收敛的马氏链;Gibbs采样适用于样本是两维或以上的情况;通过积分去除掉相关但是不感兴趣的变量,称为“collapsed”的Gibbs采样;并且个人的一个感觉是,观测量所直接依赖的那些变量是不能被积分掉的,否则无法有效的进行抽样…
4. Gibbs采样中的概率 P(z_i|Z_\i),(其中Z_\i表示不含有z_i的向量),只是用来进行下一个随机采样(z_i的采样服从这个条件概率的分布),而最后反复迭代得到的关于z的分布,可以用count(z)/sample_numbers,来近似得到。而这个P(z)也是Gibbs采样形成的Markov链的收敛后的概率分布…
参考:
