<?xml version="1.0" encoding="UTF-8"?><rss
version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
> <channel><title>Comments on: Sogou的词库及语料库</title> <atom:link href="http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/feed/" rel="self" type="application/rss+xml" /><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=sogou%25e7%259a%2584%25e8%25af%258d%25e5%25ba%2593%25e5%258f%258a%25e8%25af%25ad%25e6%2596%2599%25e5%25ba%2593</link> <description>Yong Sun&#039;s Blog</description> <lastBuildDate>Wed, 16 May 2012 04:13:59 +0000</lastBuildDate> <sy:updatePeriod>hourly</sy:updatePeriod> <sy:updateFrequency>1</sy:updateFrequency> <generator>http://wordpress.org/?v=3.3.2</generator> <item><title>By: yongsun</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/comment-page-1/#comment-2641</link> <dc:creator>yongsun</dc:creator> <pubDate>Tue, 14 Dec 2010 04:56:03 +0000</pubDate> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comment-2641</guid> <description>@jack, 方便的话咱们还是gtalk中聊吧，findsun@gmail.com :)</description> <content:encoded><![CDATA[<p>@jack, 方便的话咱们还是gtalk中聊吧，findsun@gmail.com <img
src='http://yongsun.me/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /></p> ]]></content:encoded> </item> <item><title>By: jack</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/comment-page-1/#comment-2639</link> <dc:creator>jack</dc:creator> <pubDate>Tue, 14 Dec 2010 02:28:19 +0000</pubDate> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comment-2639</guid> <description>关于编码的问题已经解决，谢谢！
在生成词表（lexicon）时，又遇到一些问题。得到pydict_sc.bin文件，通过CPinyinTrie类来访问pydict_sc.bin，产生log文件不成功。改用sunpinyin中的pydict_sc.bin文件访问，也得不到log文件，请问是什么原因？（系统是windows xp)</description> <content:encoded><![CDATA[<p>关于编码的问题已经解决，谢谢！<br
/> 在生成词表（lexicon）时，又遇到一些问题。得到pydict_sc.bin文件，通过CPinyinTrie类来访问pydict_sc.bin，产生log文件不成功。改用sunpinyin中的pydict_sc.bin文件访问，也得不到log文件，请问是什么原因？（系统是windows xp)</p> ]]></content:encoded> </item> <item><title>By: yongsun</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/comment-page-1/#comment-2627</link> <dc:creator>yongsun</dc:creator> <pubDate>Mon, 06 Dec 2010 02:06:15 +0000</pubDate> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comment-2627</guid> <description>@jack, sorry for the late reply, 语料库必须是UTF8格式的，这个可能需要你用iconv或者编辑器手工转化一下…</description> <content:encoded><![CDATA[<p>@jack, sorry for the late reply, 语料库必须是UTF8格式的，这个可能需要你用iconv或者编辑器手工转化一下…</p> ]]></content:encoded> </item> <item><title>By: jack</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/comment-page-1/#comment-2620</link> <dc:creator>jack</dc:creator> <pubDate>Sun, 28 Nov 2010 13:15:20 +0000</pubDate> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comment-2620</guid> <description>在使用第一步mmseg时，词典用的是sunpinyin中dict.utf8文件，对于语料corpus.txt，分别设置以下2种格式。
1、设置成ANSI编码。则会得到分词corpus.ids部分结果如下：“谁(66944) 叫(16581) 你(35483) 睡觉(82004) 吃水饺(9) 的(44751) ？(73)  (0) 吃水饺(9) 是(52864) 我国(34843) 北方城市(9) 的(44751) 一种(486) 风俗习惯(11456) ！(74)
(0) 经过(49534) 无数次(9) 的(44751) 努力(39017) ，(70) 当(23764) 原子(61410) 结合成分子时(9) ，(70) 实验(48312) 成功(23272) 了(1701) 。(71) ”
2、设置成UTF8编码。则会得到分词corpus.ids部分结果如下：“锘(82684) 胯(63822) 皝(88503) 鍙(0) 綘(84939) 鐫¤(0) 鍚(91134) 冩(0) 按(50445) 楗(76426) 虹(53224) 殑(69592) 锛(82687) ?(0) 鍚(91134) 冩(0) 按(50445) 楗(76426) 烘(65367) 槸鎴戝浗鍖楁(0) 柟(51617) 鍩庡競(0) 鐨(92300) 勪竴(0) 绉(49472) 嶉(0) 淇(73054) 椾範(0) 鎯(90080) 紒
(0) 缁(74787) 忚繃鏃犳暟(0) 娆(58849) ＄(0) 殑(69592) 鍔姏(0) 锛(82687) 屽綋鍘熷瓙(0) 缁(74787) 撳悎鎴(0) 愬(86748) 垎(0) 瀛(92135) 愭椂(0) 锛(82687) 屽疄(0) 楠(81357) 屾(0) 垚(49856) 鍔熶簡銆?鏈濋(0) 矞(80464) 椹(81355) 讳(29309) 縿(91386) 缃(80475) 楁柉(0) 澶(90460) т(0) 娇(58855) 绉(49472) 扮(31813) 編鍥(0) 藉(90699) 凡(4444) 鍒(0) 跺(82352) 畾(88179) 瀵(92402) 规(39955) 湞鏍(0) 告(34809) 垬(0) 浜(66051) 夎鍒?”
从上述结果可以判断，windows下，训练语料应该是支持第一种编码方式。同时得到分词corpus.ids文件都是UTF8格式。
我猜想是不是在第2步ids2ngram，统计2元组时，读取corpus.ids出现问题？请帮忙分析一下？能有解决方案吗？谢谢！</description> <content:encoded><![CDATA[<p>在使用第一步mmseg时，词典用的是sunpinyin中dict.utf8文件，对于语料corpus.txt，分别设置以下2种格式。<br
/> 1、设置成ANSI编码。则会得到分词corpus.ids部分结果如下：“谁(66944) 叫(16581) 你(35483) 睡觉(82004) 吃水饺(9) 的(44751) ？(73)  (0) 吃水饺(9) 是(52864) 我国(34843) 北方城市(9) 的(44751) 一种(486) 风俗习惯(11456) ！(74)<br
/> (0) 经过(49534) 无数次(9) 的(44751) 努力(39017) ，(70) 当(23764) 原子(61410) 结合成分子时(9) ，(70) 实验(48312) 成功(23272) 了(1701) 。(71) ”<br
/> 2、设置成UTF8编码。则会得到分词corpus.ids部分结果如下：“锘(82684) 胯(63822) 皝(88503) 鍙(0) 綘(84939) 鐫¤(0) 鍚(91134) 冩(0) 按(50445) 楗(76426) 虹(53224) 殑(69592) 锛(82687) ?(0) 鍚(91134) 冩(0) 按(50445) 楗(76426) 烘(65367) 槸鎴戝浗鍖楁(0) 柟(51617) 鍩庡競(0) 鐨(92300) 勪竴(0) 绉(49472) 嶉(0) 淇(73054) 椾範(0) 鎯(90080) 紒<br
/> (0) 缁(74787) 忚繃鏃犳暟(0) 娆(58849) ＄(0) 殑(69592) 鍔姏(0) 锛(82687) 屽綋鍘熷瓙(0) 缁(74787) 撳悎鎴(0) 愬(86748) 垎(0) 瀛(92135) 愭椂(0) 锛(82687) 屽疄(0) 楠(81357) 屾(0) 垚(49856) 鍔熶簡銆?鏈濋(0) 矞(80464) 椹(81355) 讳(29309) 縿(91386) 缃(80475) 楁柉(0) 澶(90460) т(0) 娇(58855) 绉(49472) 扮(31813) 編鍥(0) 藉(90699) 凡(4444) 鍒(0) 跺(82352) 畾(88179) 瀵(92402) 规(39955) 湞鏍(0) 告(34809) 垬(0) 浜(66051) 夎鍒?”<br
/> 从上述结果可以判断，windows下，训练语料应该是支持第一种编码方式。同时得到分词corpus.ids文件都是UTF8格式。<br
/> 我猜想是不是在第2步ids2ngram，统计2元组时，读取corpus.ids出现问题？请帮忙分析一下？能有解决方案吗？谢谢！</p> ]]></content:encoded> </item> <item><title>By: yongsun</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/comment-page-1/#comment-2619</link> <dc:creator>yongsun</dc:creator> <pubDate>Sun, 28 Nov 2010 03:24:43 +0000</pubDate> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comment-2619</guid> <description>@Jack, 具体是什么错误呢，等我下周有时间可以帮你看看... 是否是编码的问题？</description> <content:encoded><![CDATA[<p>@Jack, 具体是什么错误呢，等我下周有时间可以帮你看看... 是否是编码的问题？</p> ]]></content:encoded> </item> <item><title>By: jack</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/comment-page-1/#comment-2618</link> <dc:creator>jack</dc:creator> <pubDate>Thu, 25 Nov 2010 04:46:07 +0000</pubDate> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comment-2618</guid> <description>你好！最近一直在windows vc2005下编译调试sunpinyin源代码，训练sogou语料库，得到2阶模型，最后得到的模型用tslminfo查看，结果是错的。训练时，词典用的是sunpinyin中dict.utf8文件，语料用的是txt文本文件。请问：训练结果为何不正确呢？是不是词典和语料的格式不对？</description> <content:encoded><![CDATA[<p>你好！最近一直在windows vc2005下编译调试sunpinyin源代码，训练sogou语料库，得到2阶模型，最后得到的模型用tslminfo查看，结果是错的。训练时，词典用的是sunpinyin中dict.utf8文件，语料用的是txt文本文件。请问：训练结果为何不正确呢？是不是词典和语料的格式不对？</p> ]]></content:encoded> </item> <item><title>By: kak</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/comment-page-1/#comment-906</link> <dc:creator>kak</dc:creator> <pubDate>Sun, 19 Aug 2007 03:34:43 +0000</pubDate> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comment-906</guid> <description>&#32487;&#32493;&#20851;&#27880;&#20320;&#30340;&#21338;&#23458;</description> <content:encoded><![CDATA[<p>&#32487;&#32493;&#20851;&#27880;&#20320;&#30340;&#21338;&#23458;</p> ]]></content:encoded> </item> </channel> </rss>
