5 thoughts on “scim-sunpinyin porting progress by tchaikov

  1. 谢谢你的分析,第一次对输入法有了一个更深刻的认识。加油哦。。。
    另外,sunpinyin所使用的两个数据文件实在是太大了,不适合移植到手持设备上,不知道能否有所改进?我的一些想法:
    1.增加一个选项,可以使输入法引擎不要加载使用slm语言模型,由于genpyt生成的遍历表中,已经对有对应词语的节点上的单词进行了一个unigram的排序,相当于上下文无关的词频排序,这个信息已经很丰富的。
    2.改变word_id的编码,对于单字,直接使用其unicode作为word_id,不再列入查找表,不过由于没有原始的语料库,只能通过外部程序遍历两个数据文件打补丁,而且节省不了多少空间,似乎不是一个好的想法。

  2. dragonit,非常感谢您的建议!没错,pytrie是可以直接使用的,另外我们也可以参考sogou的词频表(应该更精确,只是没有拼音标注)。关于第二个建议,直接用unicode作为word_id是可行的(例如将最高位置1),不过以我粗略的估计,单字词只占整个词表一个比较小的部分(不到1/6)。最后关于语料库,我想可以使用sogou公开的语料库,按我的理解,用于开源项目是没问题的。Sunpinyin这个项目还有很大的改进余地,非常期待您能一起参加。

  3. 另外,我想手持设备上可以:缩减词表的大小,构造一个bigram而不是trigram,并在pruning时力度大些,这样空间上会节省许多。

  4. 我发现scim版的SunPinYin有十个选字,但Sun的版本(IIIMF)只有六个,很不方便。 后者可否修改? 谢谢

  5. Wayne,可以修改,只是如果输入的句子长度很长时,10个候选占的屏幕长度就比较长了。这个将来应该是可配置的选项。由用户的偏好来定。

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

To submit your comment, click the image below where it asks you to...
Clickcha - The One-Click Captcha