maxent分词补遗

在和同事讨论最大熵时,介绍了以前一个用最大熵分词的实验,突然对为什么每个事件需要U03~U05这三项产生了疑惑,当时也没有细想。

... ...
E U00-人 U01-们 U02-常 U03-人/们 U04-们/常 U05-人/常 B
... ...

再重新整理了一下头绪,在张乐的工具包中,事件并非是样本,样本应该是那个三字窗口。例如“人们常”,这个样本产生了7个feature,分别是(U00-人,
E), (U01-们, E), (U02-常, E), (U03-人/们, E), (U04-们/常, E),(U05-人/常),(B,
E),这些feature构成了一个事件。(U00-人,
E)描述的是,一个三字窗口,起始字符为“人”时,中间的字符被标记为“E”的情况;(U05-人/常,
E)描述的是,三字窗口的左右分别是“人”和“常”时,中间字符被标记为“E”的情况;(B,
E)描述的是,三字窗口的第一个字符(也就是前一个观测)被标记为B时,中间字符被标记为E的情况。

如此看来,我们原先训练的应该是加入状态转移约束的ME,而不是MEMM。MEMM的feature是,将ME的每个feature,额外加入上一个状态作为条件。因此,用来训练MEMM的事件,应该写成这个样子,

... ...
E U00-人-B U01-们-B U02-常-B U03-人/们-B U04-们/常-B U05-人/常-B
... ...

实验的结果,对msr的数据集准确率有小幅提高,但是对pku的数据集有小幅降低。

2 thoughts on “maxent分词补遗

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

To submit your comment, click the image below where it asks you to...
Clickcha - The One-Click Captcha