<?xml version="1.0" encoding="UTF-8"?> <rss
version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
> <channel><title>素心如何天上月 &#187; open-gram</title> <atom:link href="http://yongsun.me/tag/open-gram/feed/" rel="self" type="application/rss+xml" /><link>http://yongsun.me</link> <description>Yong Sun&#039;s Blog</description> <lastBuildDate>Mon, 19 Mar 2012 02:29:22 +0000</lastBuildDate> <language>en</language> <sy:updatePeriod>hourly</sy:updatePeriod> <sy:updateFrequency>1</sy:updateFrequency> <generator>http://wordpress.org/?v=3.3.2</generator> <item><title>open-gram词表协议改为Apache V2.0</title><link>http://yongsun.me/2011/09/%e3%80%90%e5%85%ac%e5%91%8a%e3%80%91open-gram%e8%af%8d%e8%a1%a8%e5%8d%8f%e8%ae%ae%e6%9b%b4%e6%94%b9%e4%b8%baapache-v2-0/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=%25e3%2580%2590%25e5%2585%25ac%25e5%2591%258a%25e3%2580%2591open-gram%25e8%25af%258d%25e8%25a1%25a8%25e5%258d%258f%25e8%25ae%25ae%25e6%259b%25b4%25e6%2594%25b9%25e4%25b8%25baapache-v2-0</link> <comments>http://yongsun.me/2011/09/%e3%80%90%e5%85%ac%e5%91%8a%e3%80%91open-gram%e8%af%8d%e8%a1%a8%e5%8d%8f%e8%ae%ae%e6%9b%b4%e6%94%b9%e4%b8%baapache-v2-0/#comments</comments> <pubDate>Sat, 03 Sep 2011 16:19:24 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[open-gram]]></category> <category><![CDATA[sunpinyin]]></category> <category><![CDATA[sunpinyin-2.0]]></category> <guid
isPermaLink="false">http://yongsun.me/?p=1666</guid> <description><![CDATA[经过社区的讨论，我们一致同意，将open-grame词表的协议改为Apache V2.0。 新的词库将以android-google-pinyin的词库为基础 废弃之前基于cc-cedict的老词库，但是将open-gram自己发现/汇总的一些新词以Apache V2.0协议重新贡献给open-gram词表 libpinyin/novel-pinyin/smart-pinyin 项目lead已同意，将各自项目的词库，以Apache V2.0的协议贡献给open-gram项目 FIT团队同意将FIT输入法的网络热词，定期反馈给open-gram社区 非常感谢大家的支持和帮助！ SunPinyin的词库一直以来为大家所诟病，希望这次能为大家带来质量更好的词库，和更好的输入体验…]]></description> <content:encoded><![CDATA[<p>经过社区的讨论，我们一致同意，将open-grame词表的协议改为<a
href="http://www.apache.org/licenses/LICENSE-2.0.html">Apache V2.0</a>。</p><ul><li>新的词库将以android-google-pinyin的词库为基础</li><li>废弃之前基于cc-cedict的老词库，但是将open-gram自己发现/汇总的一些新词以Apache V2.0协议重新贡献给open-gram词表</li><li>libpinyin/novel-pinyin/smart-pinyin 项目lead已同意，将各自项目的词库，以Apache V2.0的协议贡献给open-gram项目</li><li>FIT团队同意将FIT输入法的网络热词，定期反馈给open-gram社区</li></ul><p>非常感谢大家的支持和帮助！</p><p>SunPinyin的词库一直以来为大家所诟病，希望这次能为大家带来质量更好的词库，和更好的输入体验…</p> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2011/09/%e3%80%90%e5%85%ac%e5%91%8a%e3%80%91open-gram%e8%af%8d%e8%a1%a8%e5%8d%8f%e8%ae%ae%e6%9b%b4%e6%94%b9%e4%b8%baapache-v2-0/feed/</wfw:commentRss> <slash:comments>4</slash:comments> </item> <item><title>open-gram项目简介</title><link>http://yongsun.me/2010/03/open-gram%e9%a1%b9%e7%9b%ae%e7%ae%80%e4%bb%8b/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=open-gram%25e9%25a1%25b9%25e7%259b%25ae%25e7%25ae%2580%25e4%25bb%258b</link> <comments>http://yongsun.me/2010/03/open-gram%e9%a1%b9%e7%9b%ae%e7%ae%80%e4%bb%8b/#comments</comments> <pubDate>Thu, 04 Mar 2010 18:03:21 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[NLP]]></category> <category><![CDATA[open-gram]]></category> <category><![CDATA[sunpinyin-2.0]]></category> <guid
isPermaLink="false">http://yongsun.me/?p=1056</guid> <description><![CDATA[open-gram项目是由sunpinyin开发团队发起的一个open-source项目，主要是tchaikov同学在drive，主要目标是为中文输入法在内的NLP类项目，提供开放的词表和n-gram频率数据。项目中的代码将以GPLv3发布，数据文件将以creative-common license发布。 open-phrase对于词表和unigram（词频）数据来说，已经做得很好了。但是对于其词库的原始来源，以及生成数据的发布协议，都不是很清晰。（也许这也是ubuntu至今没有收录ibus-pinyin-data包的原因之一？）其仅在项目页面上提到，采用GPLv2协议。如果的确如此，这个协议对于广大软件开发者来说，无疑是过于严苛了。 open-gram将采用cc-cedict的词库（同样以creative-common license发布）为基础，在处理语料时发现的新词也将采用相同的协议，并希望能贡献回cc-cedict。open-gram不仅仅针对简体中文，我们希望将来也能包括繁体中文、甚至中英混合的统计信息。最终提供给大家的包括词表和n-gram频率数据，都会采用文本文件的方式。 tchaikov同学已经发布了一个适用于sunpinyin-2.0的，基于cc-cedict和zh.wikipedia的词库和语言模型，可以在此下载，用以替换sunpinyin-2.0中原有的数据文件。替换之后，可能有些词条会和您的用户词典中有重叠（我们将尽快加入删除用户自造词的功能），而且建议您清除掉history cache文件。 tchaikov同学做了大量艰苦的工作，训练了用于新词发现的CRF模型，手工校对了许多词条及其注音，等等。我们也热切盼望更多朋友的加入！ Updated by tchaikov: ibus-pinyin-data 现在叫 ibus-pinyin-db-open-phrase，已经进入了 ubuntu 和 debian。license 是 GPLv2。]]></description> <content:encoded><![CDATA[<p><a
href="http://code.google.com/p/open-gram/">open-gram</a>项目是由<a
href="http://sunpinyin.org">sunpinyin</a>开发团队发起的一个open-source项目，主要是<a
href="http://code.google.com/u/tchaikov/">tchaikov</a>同学在drive，主要目标是为中文输入法在内的NLP类项目，提供开放的词表和n-gram频率数据。项目中的代码将以GPLv3发布，数据文件将以<a
href="http://creativecommons.org/licenses/by-sa/3.0/">creative-common license</a>发布。</p><p><a
href="http://code.google.com/p/open-phrase/">open-phrase</a>对于词表和unigram（词频）数据来说，已经做得很好了。但是对于其词库的原始来源，以及生成数据的发布协议，都不是很清晰。（也许这也是ubuntu<a
href="http://packages.ubuntu.com/search?suite=all&amp;section=all&amp;arch=any&amp;searchon=names&amp;keywords=ibus-pinyin-data">至今没有收录ibus-pinyin-data包</a>的原因之一？）其仅在项目页面上提到，采用GPLv2协议。如果的确如此，这个协议对于广大软件开发者来说，无疑是过于严苛了。</p><p>open-gram将采用<a
href="http://en.wikipedia.org/wiki/CEDICT">cc-cedict</a>的词库（同样以creative-common license发布）为基础，在处理语料时发现的新词也将采用相同的协议，并希望能贡献回cc-cedict。open-gram不仅仅针对简体中文，我们希望将来也能包括繁体中文、甚至中英混合的统计信息。最终提供给大家的包括词表和n-gram频率数据，都会采用文本文件的方式。</p><p><a
href="http://code.google.com/u/tchaikov/">tchaikov</a>同学已经发布了一个适用于sunpinyin-2.0的，基于cc-cedict和<a
href="http://zh.wikipedia.org">zh.wikipedia</a>的词库和语言模型，可以<a
href="http://sunpinyin.googlecode.com/files/lm_0.1.6.tar.bz2">在此下载</a>，用以替换sunpinyin-2.0中原有的数据文件。替换之后，可能有些词条会和您的用户词典中有重叠（我们将尽快加入删除用户自造词的功能），而且建议您清除掉history cache文件。</p><p>tchaikov同学做了大量艰苦的工作，训练了用于新词发现的CRF模型，手工校对了许多词条及其注音，等等。我们也热切盼望更多朋友的加入！</p><p>Updated by tchaikov:</p><blockquote><p>ibus-pinyin-data 现在叫 ibus-pinyin-db-open-phrase，已经进入了 ubuntu 和  debian。license 是 GPLv2。</p></blockquote> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2010/03/open-gram%e9%a1%b9%e7%9b%ae%e7%ae%80%e4%bb%8b/feed/</wfw:commentRss> <slash:comments>8</slash:comments> </item> </channel> </rss>
