open-gram项目简介

open-gram项目是由sunpinyin开发团队发起的一个open-source项目,主要是tchaikov同学在drive,主要目标是为中文输入法在内的NLP类项目,提供开放的词表和n-gram频率数据。项目中的代码将以GPLv3发布,数据文件将以creative-common license发布。

open-phrase对于词表和unigram(词频)数据来说,已经做得很好了。但是对于其词库的原始来源,以及生成数据的发布协议,都不是很清晰。(也许这也是ubuntu至今没有收录ibus-pinyin-data包的原因之一?)其仅在项目页面上提到,采用GPLv2协议。如果的确如此,这个协议对于广大软件开发者来说,无疑是过于严苛了。

open-gram将采用cc-cedict的词库(同样以creative-common license发布)为基础,在处理语料时发现的新词也将采用相同的协议,并希望能贡献回cc-cedict。open-gram不仅仅针对简体中文,我们希望将来也能包括繁体中文、甚至中英混合的统计信息。最终提供给大家的包括词表和n-gram频率数据,都会采用文本文件的方式。

tchaikov同学已经发布了一个适用于sunpinyin-2.0的,基于cc-cedict和zh.wikipedia的词库和语言模型,可以在此下载,用以替换sunpinyin-2.0中原有的数据文件。替换之后,可能有些词条会和您的用户词典中有重叠(我们将尽快加入删除用户自造词的功能),而且建议您清除掉history cache文件。

tchaikov同学做了大量艰苦的工作,训练了用于新词发现的CRF模型,手工校对了许多词条及其注音,等等。我们也热切盼望更多朋友的加入!

Updated by tchaikov:

ibus-pinyin-data 现在叫 ibus-pinyin-db-open-phrase,已经进入了 ubuntu 和 debian。license 是 GPLv2。

8 thoughts on “open-gram项目简介

  1. 刚改正了一个 bug。原来的 zh.wikipedia 下载得到的语料用的是繁体。里面的”於“在转换的时候没有变成”于“,同时因为它是多音字,有个读音是”wu“,导致 "wu" 第一个就是它。新的版本已经上传了。

  2. 对了,ibus-pinyin-data 现在叫 ibus-pinyin-db-open-phrase,已经进入了 ubuntu 和 debian。license 是 GPLv2。

  3. Hello,

    I'm curious how I should interpret each column in the lm_sc.t3g.arpa, for instance:

    人文社会学科 0.000000004155 1.000000000000 (0,0)

    Thanks.

  4. @jiapu, 我们的确需要有篇文档来说明一下,

    人文社会科学:n-gram(本例中是unigram)
    0.000000004155:p(w|h),如果n-gram是A/B/C,这个概率值是p(C|AB)
    1.000000000000:bow(h),如果n-gram是A/B/C,这个值是bow(AB)
    (0, 0):回退到低阶n-gram的索引(不一定总是n-1),本例中,第一个0表示是回退到平均分布的0-gram,第二个0表示是0-gram上的index

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

To submit your comment, click the image below where it asks you to...
Clickcha - The One-Click Captcha