<?xml version="1.0" encoding="UTF-8"?> <rss
version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
> <channel><title>素心如何天上月 &#187; NLP</title> <atom:link href="http://yongsun.me/tag/nlp/feed/" rel="self" type="application/rss+xml" /><link>http://yongsun.me</link> <description>Yong Sun&#039;s Blog</description> <lastBuildDate>Mon, 19 Mar 2012 02:29:22 +0000</lastBuildDate> <language>en</language> <sy:updatePeriod>hourly</sy:updatePeriod> <sy:updateFrequency>1</sy:updateFrequency> <generator>http://wordpress.org/?v=3.3.2</generator> <item><title>open-gram项目简介</title><link>http://yongsun.me/2010/03/open-gram%e9%a1%b9%e7%9b%ae%e7%ae%80%e4%bb%8b/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=open-gram%25e9%25a1%25b9%25e7%259b%25ae%25e7%25ae%2580%25e4%25bb%258b</link> <comments>http://yongsun.me/2010/03/open-gram%e9%a1%b9%e7%9b%ae%e7%ae%80%e4%bb%8b/#comments</comments> <pubDate>Thu, 04 Mar 2010 18:03:21 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[NLP]]></category> <category><![CDATA[open-gram]]></category> <category><![CDATA[sunpinyin-2.0]]></category> <guid
isPermaLink="false">http://yongsun.me/?p=1056</guid> <description><![CDATA[open-gram项目是由sunpinyin开发团队发起的一个open-source项目，主要是tchaikov同学在drive，主要目标是为中文输入法在内的NLP类项目，提供开放的词表和n-gram频率数据。项目中的代码将以GPLv3发布，数据文件将以creative-common license发布。 open-phrase对于词表和unigram（词频）数据来说，已经做得很好了。但是对于其词库的原始来源，以及生成数据的发布协议，都不是很清晰。（也许这也是ubuntu至今没有收录ibus-pinyin-data包的原因之一？）其仅在项目页面上提到，采用GPLv2协议。如果的确如此，这个协议对于广大软件开发者来说，无疑是过于严苛了。 open-gram将采用cc-cedict的词库（同样以creative-common license发布）为基础，在处理语料时发现的新词也将采用相同的协议，并希望能贡献回cc-cedict。open-gram不仅仅针对简体中文，我们希望将来也能包括繁体中文、甚至中英混合的统计信息。最终提供给大家的包括词表和n-gram频率数据，都会采用文本文件的方式。 tchaikov同学已经发布了一个适用于sunpinyin-2.0的，基于cc-cedict和zh.wikipedia的词库和语言模型，可以在此下载，用以替换sunpinyin-2.0中原有的数据文件。替换之后，可能有些词条会和您的用户词典中有重叠（我们将尽快加入删除用户自造词的功能），而且建议您清除掉history cache文件。 tchaikov同学做了大量艰苦的工作，训练了用于新词发现的CRF模型，手工校对了许多词条及其注音，等等。我们也热切盼望更多朋友的加入！ Updated by tchaikov: ibus-pinyin-data 现在叫 ibus-pinyin-db-open-phrase，已经进入了 ubuntu 和 debian。license 是 GPLv2。]]></description> <content:encoded><![CDATA[<p><a
href="http://code.google.com/p/open-gram/">open-gram</a>项目是由<a
href="http://sunpinyin.org">sunpinyin</a>开发团队发起的一个open-source项目，主要是<a
href="http://code.google.com/u/tchaikov/">tchaikov</a>同学在drive，主要目标是为中文输入法在内的NLP类项目，提供开放的词表和n-gram频率数据。项目中的代码将以GPLv3发布，数据文件将以<a
href="http://creativecommons.org/licenses/by-sa/3.0/">creative-common license</a>发布。</p><p><a
href="http://code.google.com/p/open-phrase/">open-phrase</a>对于词表和unigram（词频）数据来说，已经做得很好了。但是对于其词库的原始来源，以及生成数据的发布协议，都不是很清晰。（也许这也是ubuntu<a
href="http://packages.ubuntu.com/search?suite=all&amp;section=all&amp;arch=any&amp;searchon=names&amp;keywords=ibus-pinyin-data">至今没有收录ibus-pinyin-data包</a>的原因之一？）其仅在项目页面上提到，采用GPLv2协议。如果的确如此，这个协议对于广大软件开发者来说，无疑是过于严苛了。</p><p>open-gram将采用<a
href="http://en.wikipedia.org/wiki/CEDICT">cc-cedict</a>的词库（同样以creative-common license发布）为基础，在处理语料时发现的新词也将采用相同的协议，并希望能贡献回cc-cedict。open-gram不仅仅针对简体中文，我们希望将来也能包括繁体中文、甚至中英混合的统计信息。最终提供给大家的包括词表和n-gram频率数据，都会采用文本文件的方式。</p><p><a
href="http://code.google.com/u/tchaikov/">tchaikov</a>同学已经发布了一个适用于sunpinyin-2.0的，基于cc-cedict和<a
href="http://zh.wikipedia.org">zh.wikipedia</a>的词库和语言模型，可以<a
href="http://sunpinyin.googlecode.com/files/lm_0.1.6.tar.bz2">在此下载</a>，用以替换sunpinyin-2.0中原有的数据文件。替换之后，可能有些词条会和您的用户词典中有重叠（我们将尽快加入删除用户自造词的功能），而且建议您清除掉history cache文件。</p><p>tchaikov同学做了大量艰苦的工作，训练了用于新词发现的CRF模型，手工校对了许多词条及其注音，等等。我们也热切盼望更多朋友的加入！</p><p>Updated by tchaikov:</p><blockquote><p>ibus-pinyin-data 现在叫 ibus-pinyin-db-open-phrase，已经进入了 ubuntu 和  debian。license 是 GPLv2。</p></blockquote> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2010/03/open-gram%e9%a1%b9%e7%9b%ae%e7%ae%80%e4%bb%8b/feed/</wfw:commentRss> <slash:comments>8</slash:comments> </item> <item><title>maxent分词补遗</title><link>http://yongsun.me/2008/11/maxent%e5%88%86%e8%af%8d%e8%a1%a5%e9%81%97/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=maxent%25e5%2588%2586%25e8%25af%258d%25e8%25a1%25a5%25e9%2581%2597</link> <comments>http://yongsun.me/2008/11/maxent%e5%88%86%e8%af%8d%e8%a1%a5%e9%81%97/#comments</comments> <pubDate>Fri, 14 Nov 2008 02:49:19 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[General]]></category> <category><![CDATA[maxent]]></category> <category><![CDATA[NLP]]></category> <guid
isPermaLink="false">http://yongsun.wordpress.com/2008/11/13/maxent%e5%88%86%e8%af%8d%e8%a1%a5%e9%81%97/</guid> <description><![CDATA[在和同事讨论最大熵时，介绍了以前一个用最大熵分词的实验，突然对为什么每个事件需要U03~U05这三项产生了疑惑，当时也没有细想。 ... ... E U00-人 U01-们 U02-常 U03-人/们 U04-们/常 U05-人/常 B ... ... 再重新整理了一下头绪，在张乐的工具包中，事件并非是样本，样本应该是那个三字窗口。例如“人们常”，这个样本产生了7个feature，分别是（U00-人, E), (U01-们, E), (U02-常, E), (U03-人/们, E), (U04-们/常, E),(U05-人/常),(B, E)，这些feature构成了一个事件。(U00-人, E)描述的是，一个三字窗口，起始字符为“人”时，中间的字符被标记为“E”的情况；(U05-人/常, E)描述的是，三字窗口的左右分别是“人”和“常”时，中间字符被标记为“E”的情况；(B, E)描述的是，三字窗口的第一个字符（也就是前一个观测）被标记为B时，中间字符被标记为E的情况。 如此看来，我们原先训练的应该是加入状态转移约束的ME，而不是MEMM。MEMM的feature是，将ME的每个feature，额外加入上一个状态作为条件。因此，用来训练MEMM的事件，应该写成这个样子， ... ... E U00-人-B U01-们-B U02-常-B U03-人/们-B U04-们/常-B U05-人/常-B ... ... 实验的结果，对msr的数据集准确率有小幅提高，但是对pku的数据集有小幅降低。]]></description> <content:encoded><![CDATA[<p>在和同事讨论最大熵时，介绍了以前一个用<a
href="http://yongsun.me/yongsun/entry/%E5%AE%9E%E9%AA%8Cmaxent%E5%88%86%E8%AF%8D" class="snap_shots">最大熵分词的实验</a>，突然对为什么每个事件需要U03~U05这三项产生了疑惑，当时也没有细想。</p><p> <code>... ...<br
/> E U00-人 U01-们 U02-常 U03-人/们 U04-们/常 U05-人/常 B<br
/> ... ...</code></p><p>再重新整理了一下头绪，在张乐的工具包中，事件并非是样本，样本应该是那个三字窗口。例如“人们常”，这个样本产生了7个feature，分别是（U00-人,<br
/> E), (U01-们, E), (U02-常, E), (U03-人/们, E), (U04-们/常, E),(U05-人/常),(B,<br
/> E)，这些feature构成了一个事件。(U00-人,<br
/> E)描述的是，一个三字窗口，起始字符为“人”时，中间的字符被标记为“E”的情况；(U05-人/常,<br
/> E)描述的是，三字窗口的左右分别是“人”和“常”时，中间字符被标记为“E”的情况；(B,<br
/> E)描述的是，三字窗口的第一个字符（也就是前一个观测）被标记为B时，中间字符被标记为E的情况。</p><p>如此看来，我们原先训练的应该是加入状态转移约束的ME，而不是MEMM。MEMM的feature是，将ME的<i><b>每个</b></i>feature，额外加入上一个状态作为条件。因此，用来训练MEMM的事件，应该写成这个样子，</p><p><code>... ...<br
/> E U00-人-B U01-们-B U02-常-B U03-人/们-B U04-们/常-B U05-人/常-B<br
/> ... ...</code></p><p>实验的结果，对msr的数据集准确率有小幅提高，但是对pku的数据集有小幅降低。</p> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2008/11/maxent%e5%88%86%e8%af%8d%e8%a1%a5%e9%81%97/feed/</wfw:commentRss> <slash:comments>2</slash:comments> </item> <item><title>One note of the Baum-Welch algothrim on FSNLP chapter 9</title><link>http://yongsun.me/2008/10/one-note-of-the-baum-welch-algothrim-on-fsnlp-chapter-9/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=one-note-of-the-baum-welch-algothrim-on-fsnlp-chapter-9</link> <comments>http://yongsun.me/2008/10/one-note-of-the-baum-welch-algothrim-on-fsnlp-chapter-9/#comments</comments> <pubDate>Tue, 21 Oct 2008 13:59:45 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[General]]></category> <category><![CDATA[HMM]]></category> <category><![CDATA[NLP]]></category> <guid
isPermaLink="false">http://yongsun.wordpress.com/2008/10/21/one-note-of-the-baum-welch-algothrim-on-fsnlp-chapter-9/</guid> <description><![CDATA[On chapter 9 of &#34;Foundations of Statistical Natural Language Processing&#34;, section 9.3.3, for a&#160; state-emission HMM, we need to use the following equation to re-estimate the b'ik So that, b'{cp,cola} = 0.88/(1.0+0.3+0.88) = 0.4037]]></description> <content:encoded><![CDATA[<p>On <a
href="http://nlp.stanford.edu/fsnlp/promo/hmm-chap.ps">chapter 9</a> of &quot;<a
href="http://nlp.stanford.edu/fsnlp/">Foundations of Statistical Natural Language Processing</a>&quot;, section 9.3.3, for a&nbsp; <i>state-emission</i> HMM, we need to use the following equation to re-estimate the b'<sub>ik</sub></p><p><img
src="http://www.sitmo.com/gg/latex/latex2png.2.php?z=100&amp;eq=%5Chat%7Bb%7D_%7Bik%7D%20%3D%20%5Cfrac%7B%5Csum_%7B%5C%7B%20o_t%3Dk%2C%20t%5Cin%5B1%2CT%5D%5C%7D%7D%5Cgamma_i(t)%7D%7B%5Csum_%7Bt%3D1%7D%5ET%5Cgamma_i(t)%7D" alt="\hat{b}_{ik} = \frac{\sum_{\{ o_t=k, t\in[1,T]\}}\gamma_i(t)}{\sum_{t=1}^T\gamma_i(t)}" /></p><p>So that, b'<sub>{cp,cola}</sub> = 0.88/(1.0+0.3+0.88) = 0.4037</p> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2008/10/one-note-of-the-baum-welch-algothrim-on-fsnlp-chapter-9/feed/</wfw:commentRss> <slash:comments>2</slash:comments> </item> <item><title>实验maxent分词</title><link>http://yongsun.me/2008/04/%e5%ae%9e%e9%aa%8cmaxent%e5%88%86%e8%af%8d/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=%25e5%25ae%259e%25e9%25aa%258cmaxent%25e5%2588%2586%25e8%25af%258d</link> <comments>http://yongsun.me/2008/04/%e5%ae%9e%e9%aa%8cmaxent%e5%88%86%e8%af%8d/#comments</comments> <pubDate>Thu, 10 Apr 2008 08:07:45 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[maxent]]></category> <category><![CDATA[NLP]]></category> <guid
isPermaLink="false">http://yongsun.wordpress.com/2008/04/10/%e5%ae%9e%e9%aa%8cmaxent%e5%88%86%e8%af%8d/</guid> <description><![CDATA[使用张乐博士的maxent工具包，应用赵海博士的6 tags + 3字窗口法，对bakeoff2005公开的语料进行实验。用python写了个简单的转换脚本，将CRF++的训练语料转换为maxent支持的格式。训练模型的时间比CRF要少了许多。对MSR的语料和测试集，得到预测的准确度为96.4357%。与Yandong使用4 tags + 3字窗口的结果接近（96.2225%）。400多万个样本，其中只出现一次、被cut掉的event居然有240多万个。不知道是不是我使用的输入格式有问题？ S U00-_B U01-“ U02-人 U03-_B/“ U04-“/人 U05-_B/人 E B U00-“ U01-人 U02-们 U03-“/人 U04-人/们 U05-“/们 S E U00-人 U01-们 U02-常 U03-人/们 U04-们/常 U05-人/常 B S U00-们 U01-常 U02-说 U03-们/常 U04-常/说 U05-们/说 E S &#8230; <a
href="http://yongsun.me/2008/04/%e5%ae%9e%e9%aa%8cmaxent%e5%88%86%e8%af%8d/">Continue reading <span
class="meta-nav">&#8594;</span></a>]]></description> <content:encoded><![CDATA[<p>使用<a
class="snap_shots" href="http://homepages.inf.ed.ac.uk/s0450736/pmwiki/pmwiki.php/Main/HomePage">张乐博士</a>的<a
href="http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html">maxent工具包</a>，应用<a
class="snap_shots" href="http://cwseg.spaces.live.com/blog/">赵海博士</a>的6 tags + 3字窗口法，对<a
class="snap_shots" href="http://www.sighan.org/bakeoff2005/">bakeoff2005</a>公开的语料进行实验。用python写了个简单的<a
href="http://yongsun.me/yongsun/resource/crf2maxent.py">转换脚本</a>，将CRF++的训练语料转换为maxent支持的格式。训练模型的时间比CRF要少了许多。对MSR的语料和测试集，得到预测的准确度为96.4357%。与<a
class="snap_shots" href="http://yongsun.me/yydzero">Yandong</a>使用4 tags + 3字窗口的结果接近（96.2225%）。400多万个样本，其中只出现一次、被cut掉的event居然有240多万个。不知道是不是我使用的输入格式有问题？</p><p> <code><br
/> S U00-_B U01-“ U02-人 U03-_B/“ U04-“/人 U05-_B/人 E<br
/> B U00-“ U01-人 U02-们 U03-“/人 U04-人/们 U05-“/们 S<br
/> E U00-人 U01-们 U02-常 U03-人/们 U04-们/常 U05-人/常 B<br
/> S U00-们 U01-常 U02-说 U03-们/常 U04-常/说 U05-们/说 E<br
/> S U00-常 U01-说 U02-生 U03-常/说 U04-说/生 U05-常/生 S<br
/> B U00-说 U01-生 U02-活 U03-说/生 U04-生/活 U05-说/活 S<br
/> E U00-生 U01-活 U02-是 U03-生/活 U04-活/是 U05-生/是 B<br
/> S U00-活 U01-是 U02-一 U03-活/是 U04-是/一 U05-活/一 E<br
/> S U00-是 U01-一 U02-部 U03-是/一 U04-一/部 U05-是/部 S<br
/> S U00-一 U01-部 U02-教 U03-一/部 U04-部/教 U05-一/教 S<br
/> B U00-部 U01-教 U02-科 U03-部/教 U04-教/科 U05-部/科 S<br
/> B2 U00-教 U01-科 U02-书 U03-教/科 U04-科/书 U05-教/书 B<br
/> E U00-科 U01-书 U02-， U03-科/书 U04-书/， U05-科/，B2<br
/> ... ...<br
/> </code></p> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2008/04/%e5%ae%9e%e9%aa%8cmaxent%e5%88%86%e8%af%8d/feed/</wfw:commentRss> <slash:comments>21</slash:comments> </item> <item><title>实验CRF++</title><link>http://yongsun.me/2008/03/%e5%ae%9e%e9%aa%8ccrf/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=%25e5%25ae%259e%25e9%25aa%258ccrf</link> <comments>http://yongsun.me/2008/03/%e5%ae%9e%e9%aa%8ccrf/#comments</comments> <pubDate>Thu, 20 Mar 2008 08:22:50 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[CRF]]></category> <category><![CDATA[NLP]]></category> <guid
isPermaLink="false">http://yongsun.wordpress.com/2008/03/20/%e5%ae%9e%e9%aa%8ccrf/</guid> <description><![CDATA[使用赵海博士的6 tags + 6 templates法，对bakeoff2005公开的语料进行实验。用python写了个简单的转换脚本，将UTF-8编码的训练语料转换为CRF++支持的格式。MSR的语料库转换之后是24M，训练模型花了大概26个小时，得到的模型为25M，对MSR的测试数据F-score可以达到96%（python的评估脚本），对PKU的测试数据只有82%多。PKU的语料库转换之后是11M，训练模型花了近13个小时，得到的模型有14M，对PKU的测试数据F-score有92%多，对MSR的测试数据也只有82%左右。看来MSR和PKU训练语料的分词风格有较大的差异，导致交叉测试的分数比较低。 另外，大概是C++的STL线程安全有问题，在Linux、Solaris和Mac OS上使用多线程都SEGFAULT了，所以都是单线程训练的。不敢想象如果用数百兆的语料，会花多长时间、用多少内存... 下面是特征模板的定义： # Unigram U00:%x[-1,0] U01:%x[0,0] U02:%x[1,0] U03:%x[-1,0]/%x[0,0] U04:%x[0,0]/%x[1,0] U05:%x[-1,0]/%x[1,0] # Bigram B]]></description> <content:encoded><![CDATA[<p>使用<a
class="snap_shots" href="http://cwseg.spaces.live.com/blog/">赵海博士</a>的6 tags + 6 templates法，对<a
class="snap_shots" href="http://www.sighan.org/bakeoff2005/">bakeoff2005</a>公开的语料进行实验。用python写了个简单的<a
href="http://yongsun.me/wp-content/uploads/2009/08/crfconv.py">转换脚本</a>，将UTF-8编码的训练语料转换为<a
href="http://crfpp.sourceforge.net/">CRF++</a>支持的格式。MSR的语料库转换之后是24M，训练模型花了大概26个小时，得到的模型为25M，对MSR的测试数据F-score可以达到96%（python的<a
href="http://yongsun.me/wp-content/uploads/2009/08/crfeval.py">评估脚本</a>），对PKU的测试数据只有82%多。PKU的语料库转换之后是11M，训练模型花了近13个小时，得到的模型有14M，对PKU的测试数据F-score有92%多，对MSR的测试数据也只有82%左右。看来MSR和PKU训练语料的分词风格有较大的差异，导致交叉测试的分数比较低。</p><p>另外，大概是C++的STL线程安全有问题，在Linux、Solaris和Mac OS上使用多线程都SEGFAULT了，所以都是单线程训练的。不敢想象如果用数百兆的语料，会花多长时间、用多少内存...</p><p>下面是特征模板的定义：</p><p><code># Unigram<br
/> U00:%x[-1,0]<br
/> U01:%x[0,0]<br
/> U02:%x[1,0]<br
/> U03:%x[-1,0]/%x[0,0]<br
/> U04:%x[0,0]/%x[1,0]<br
/> U05:%x[-1,0]/%x[1,0]<br
/> # Bigram<br
/> B<br
/> </code></p> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2008/03/%e5%ae%9e%e9%aa%8ccrf/feed/</wfw:commentRss> <slash:comments>13</slash:comments> </item> <item><title>A Beginner&#039;s Note of CRF++</title><link>http://yongsun.me/2008/03/a-beginners-note-of-crf/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=a-beginners-note-of-crf</link> <comments>http://yongsun.me/2008/03/a-beginners-note-of-crf/#comments</comments> <pubDate>Mon, 17 Mar 2008 14:02:05 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[CRF]]></category> <category><![CDATA[NLP]]></category> <guid
isPermaLink="false">http://yongsun.wordpress.com/2008/03/17/a-beginners-note-of-crf/</guid> <description><![CDATA[Thanks for Yandong's help and guidance, that I got some basic ideas about CRF (Conditional Random Filed) and how the CRF model looks like. The encoder of CRF++, crf_learn, could generate a model in text format with the '-t' option. &#8230; <a
href="http://yongsun.me/2008/03/a-beginners-note-of-crf/">Continue reading <span
class="meta-nav">&#8594;</span></a>]]></description> <content:encoded><![CDATA[<p>Thanks for <a
class="snap_shots" href="http://yongsun.me/yydzero">Yandong's</a> help and guidance, that I got some basic ideas about CRF (Conditional Random Filed) and how the CRF model looks like. The encoder of <a
class="snap_shots" href="http://crfpp.sourceforge.net/">CRF++</a>, crf_learn, could generate a model in text format with the '-t' option. Take the Japanese word segmentation demonstration (example/seg) as an example, the following is the model in text format:</p><pre>ersion: 100
cost-factor: 1
maxid: 1386      /* the number of feature functions */
xsize: 1
B                /* the tag lists, in this case, we have two tags */
I
U00:%x[-2,0]     /* unigram feature templates */
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
B               /* bigram feature template */
0 B             /* bigram of the tags for C_{-1} and C_0,  */
                /* number of features are 2^(# of tags).   */
4 U00:_B-1      /* _B-1 is the starting of a sentence */
                /* _B+1 is the ending of a sentence   */
6 U00:_B-2      /* _B-2 is the pre-token of _B-1  */
                /* _B+2 is the post-token of _B+1 */
8 U00:
10 U00:、       /* feature function id, template id, and observation */
12 U00:〇       /* since we only have two tags, each entry could     */
14 U00:「       /* be expanded to 2 feature functions                */
20 U00:う
... ...
... ...
1382 U09:３/年
1384 U09:９/３
-0.0799963416235706     /* the weight for each feature function */
0.4346315510326526      /* the negative value indicates the     */
-0.1044728887459596     /* feature is rarely seen, and we have  */
-0.2501623206703318     /* 1386 weights in total.               */
... ...</pre>]]></content:encoded> <wfw:commentRss>http://yongsun.me/2008/03/a-beginners-note-of-crf/feed/</wfw:commentRss> <slash:comments>6</slash:comments> </item> </channel> </rss>
