5 thoughts on “SunPinyin代码导读系列的文档整理

  1. 你好,我想问一下,dict.utf8词表中的频率信息是做什么用的?这些频率信息不是在构建统计语言模型的时候统计了吗?如果我想构建一个自己的词表,应该怎么做?

  2. @renenglish, 那些频率是为了在open-gram项目中过滤某些不常用词的,在构建slm时并不会使用。如果您要构建一个自己的词表,可以仿照dict.utf8的格式,但是多音字的处理要小心。另外,目前我们的系统词库还是有大小的限制,2^18,另外在代码中也有一点点耦合。我们会尽快解决 ...

  3. 我目前正在学习中文分词,看了您的代码导读的分词部分。我是不是可以这样理解,dict.utf8中的频率信息在构建自己的统计语言模型时以及用slmseg进行分词时都没有用到,用到的只是里面的中文词语,并且是来做正向最大匹配的,如果只是用来分词的话,词表的拼音信息也没有用到吧?
    还有一些其他的问题想要请教,呵,目前的搜索引擎大多是用什么分词方法,基于字典的最大匹配,还是统计语言模型呢?为什么我看到的资料大多是最大匹配的算法,比如MMSEG等,是不是网上广泛讨论并流传的总是低于业界专业公司的技术……?

  4. @renenglish, 您说的对,dict.utf8用于分词时,不需要拼音和词频信息。

    因为搜索时用户普遍输入的关键字都比较短,所以用太复杂的分词方法,例如CRF,可能并不会有太好的结果,n-gram应该还比较靠铺吧,反向最大匹配可能也足够用了。mmseg (http://technology.chtsai.org/mmseg,与sunpinyin内的mmseg不同,是改进的最大匹配算法)是需要词频信息的。

  5. 嘿,我说的mmseg也是指改进的最大匹配,一开始看到sunpinyin的mmseg,还以为也是那个呢,看了下代码才发现不是。OK,谢谢啦,以后有问题再向你请教

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

To submit your comment, click the image below where it asks you to...
Clickcha - The One-Click Captcha