open-gram词表协议改为Apache V2.0

经过社区的讨论,我们一致同意,将open-grame词表的协议改为Apache V2.0

  • 新的词库将以android-google-pinyin的词库为基础
  • 废弃之前基于cc-cedict的老词库,但是将open-gram自己发现/汇总的一些新词以Apache V2.0协议重新贡献给open-gram词表
  • libpinyin/novel-pinyin/smart-pinyin 项目lead已同意,将各自项目的词库,以Apache V2.0的协议贡献给open-gram项目
  • FIT团队同意将FIT输入法的网络热词,定期反馈给open-gram社区

非常感谢大家的支持和帮助!

SunPinyin的词库一直以来为大家所诟病,希望这次能为大家带来质量更好的词库,和更好的输入体验…

open-gram项目简介

open-gram项目是由sunpinyin开发团队发起的一个open-source项目,主要是tchaikov同学在drive,主要目标是为中文输入法在内的NLP类项目,提供开放的词表和n-gram频率数据。项目中的代码将以GPLv3发布,数据文件将以creative-common license发布。

open-phrase对于词表和unigram(词频)数据来说,已经做得很好了。但是对于其词库的原始来源,以及生成数据的发布协议,都不是很清晰。(也许这也是ubuntu至今没有收录ibus-pinyin-data包的原因之一?)其仅在项目页面上提到,采用GPLv2协议。如果的确如此,这个协议对于广大软件开发者来说,无疑是过于严苛了。

open-gram将采用cc-cedict的词库(同样以creative-common license发布)为基础,在处理语料时发现的新词也将采用相同的协议,并希望能贡献回cc-cedict。open-gram不仅仅针对简体中文,我们希望将来也能包括繁体中文、甚至中英混合的统计信息。最终提供给大家的包括词表和n-gram频率数据,都会采用文本文件的方式。

tchaikov同学已经发布了一个适用于sunpinyin-2.0的,基于cc-cedict和zh.wikipedia的词库和语言模型,可以在此下载,用以替换sunpinyin-2.0中原有的数据文件。替换之后,可能有些词条会和您的用户词典中有重叠(我们将尽快加入删除用户自造词的功能),而且建议您清除掉history cache文件。

tchaikov同学做了大量艰苦的工作,训练了用于新词发现的CRF模型,手工校对了许多词条及其注音,等等。我们也热切盼望更多朋友的加入!

Updated by tchaikov:

ibus-pinyin-data 现在叫 ibus-pinyin-db-open-phrase,已经进入了 ubuntu 和 debian。license 是 GPLv2。