前段时间一直在看LDA,原论文采用的Variational Inference有点看不懂,后来看到很多人推崇Gibbs采样是求LDA参数的一种非常有效的方式,于是就埋头去看Gibbs采样去了。不过还是有些云里雾里,这里记下一些自己粗浅的理解,请大家批评指正…
1. MC积分巧妙的把对解析式的积分,拆解成一个概率期望问题,并通过大量采样来得到近似的期望;为了将采样集中在概率比较大的地方,提出了多种采样方法,例如rejection,importance,sampling-importance-resampling等等,MCMC就是其中的一种…
2. MCMC中的MH算法所构造的Markov链,其状态节点x^(t),是在样本空间X上,⑴ 其构造方法是具有Markov性质的 ⑵ 且MH kernel满足交换性 P(j→k) π_j = P(k→j) π_k;因此MH构造的是一个非周期不可约稳定收敛的马氏链…
3. 而因为Gibbs采样是MH算法的一种特例(α==1),因此可以保证Gibbs抽取的样本,也构成一个非周期不可约稳定收敛的马氏链;Gibbs采样适用于样本是两维或以上的情况;通过积分去除掉相关但是不感兴趣的变量,称为“collapsed”的Gibbs采样;并且个人的一个感觉是,观测量所直接依赖的那些变量是不能被积分掉的,否则无法有效的进行抽样…
4. Gibbs采样中的概率 P(z_i|Z_\i),(其中Z_\i表示不含有z_i的向量),只是用来进行下一个随机采样(z_i的采样服从这个条件概率的分布),而最后反复迭代得到的关于z的分布,可以用count(z)/sample_numbers,来近似得到。而这个P(z)也是Gibbs采样形成的Markov链的收敛后的概率分布…
参考:
抢个沙发,~~
很受益!
关于第三点 “并且个人的一个感觉是,观测量所直接依赖的那些变量是不能被积分掉的,否则无法有效的进行抽样…”
1. 哪些变量?比如就以Gibbs for the Uninitiated的表示来说
2. 为啥不能有效进行抽样?能否进一步谈谈这点?
关于第四点的那个P(z_i|Z_\i),这个是Markov Chain中达到stationary时的P吗?这个P中的各个Z值是否就是最优值?
谢谢!
@chengdujin
以“Gibbs for the Uninitiated”上的例子来说,θ_0和θ_1是不能被积分掉的,因为W_jk直接依赖与θ,其中2.6节有介绍,不能将θ积分掉的原因。
P(z_i|Z_\i)不是Markov Chain稳定后的P,P(z)是稳定后的P。如果将Markov Chain各状态的转移概率表示为P_trans,那么这个P(z)就是常说的那个π,使得π = π * P_trans。另外P(z_i|Z_\i)也不等同于P_trans…
您的最后一个问题,我不是很理解,您所说的最优值是什么…
关于最后一点:
就Gibbs for the Uninitiated(Naive Bayes Model)来说,我们使用Gibbs Sampler的最终目的是通过取样来找到最大化Pr(L/W)的L。Markov Chain会达到一个稳定的状态,给我们P(z) (i.e. π)。那这个P(z)是使得Pr(L/W)最大化的值么?
如果不是,那马尔科夫链稳定后的π和稳定之前的π有什么差别呢?甚至因为Gibbs sampler的alpha=1,我们也无法判断稳定之前的π是否是burn-in吧?
@chengdujin
这个问题深刻啊!
我的理解是,在Markov Chain稳定之后,这个P(z) (i.e. π) 是最逼近(或者符合)实际分布的一个分布。对应于“Gibbs for the Uninitiated”文中的例子来说,π是最符合那个Figure 4图模型(collapsed之后的)所对应的联合分布。这么这个最符合的联合分布,是否可以使得Pr(L|W)最大呢,我的确是没有考虑过这个问题。感觉和最大似然估计的证明有点像,可能还需要推导一下…
有点儿意思
不过,可能这个问题也超乎原本的需要了 呵呵
@chengdujin
新浪微博的 @微博Koth 同学给了一个有意思的解释,“假定语料后,参数分布跟稳定后的马氏链转移概率是同分布的,选择期望值应该是最能解释你的语料的”,我想“同分布”是一个关键,应该可以通过推导得到这个结论的…