首先请下载这个导入工具,解压缩到某个目录中。从pinyin.sogou.com下载细胞词库(scel格式),保存在某个目录中。然后在terminal中执行下面的操作:
$ python import_sogou_celldict.py PATH_TO_CELL_DICT.scel
感谢中文社区其他开发者和项目reverse engineering的工作,
首先请下载这个导入工具,解压缩到某个目录中。从pinyin.sogou.com下载细胞词库(scel格式),保存在某个目录中。然后在terminal中执行下面的操作:
$ python import_sogou_celldict.py PATH_TO_CELL_DICT.scel
感谢中文社区其他开发者和项目reverse engineering的工作,
此次更新的导入工具,加入了对google和sogou输入法用户词典导入的支持。由于sunpinyin用户词典的一些限制,只能导入长度为2~6个字符的词条,并且最多可导入6万多个词条。我们后续会改进sunpinyin,以支持更大的词库和用户词典。该导入工具也可以在linux或solaris下运行,不过目前只支持ibus的前端。(因为我们不是很好判断,用户所使用的是xim还是ibus平台。)
注意:如果您使用的是实验版词表和语言模型,请下载open-gram项目的词表,解压并覆盖sunpinyin_importer目录下的dict.utf8文件,然后再执行下面的步骤。
首先请下载这个导入工具,解压缩到某个目录中。
导入google输入法用户词典
在windows上激活google拼音输入法,然后打开“属性设置”对话框,在“词典”标签页下,点击“导出”按钮,将用户词典导出到一个文件中(例如,名为google_userdict.dic),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作,
$ python import_google_userdict.py google_userdict.dic
导入sogou输入法用户词典
在windows上激活sogou拼音输入法,然后打开“设置属性”对话框,然后在“词库”标签页下,在“词库操作选择”下拉框中选择“导出文本词库”,并点击“执行该操作”,将用户词典导出到一个文件中(例如,名为sogou_userdict.txt),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作:
$ python import_sogou_userdict.py sogou_userdict.txt
基本上,只要输入法提供导出用户词典的功能、且导出格式为文本文件的话,为sunpinyin实现一个导入小工具是很简单的(可参考已有的importer)。大家可以自行编写一个,欢迎您为常用的输入法编写一个导入工具哦 ![]()
I wrote a simple python script to extract the contents from Sogou corpus.
#!/usr/bin/python
import codecs
import sys
usage = """
Usage:
sogou_corpus_conv.py corpus_in_xml > contents_in_txt
"""
try:
file = codecs.open(sys.argv[1], "r", "GB18030" )
except:
print usage
exit(1)
for line in file:
if line.startswith(""):
start, end = len(" "), -len("")-1
line = line[start:end].replace(u'\ue525', '')
print line.encode("UTF-8")
With the extracted contents, you could continue to build the SunPinyin SLM.
偶然的机会,看到sogou实验室发布的互联网词库以及互联网语料库。从“SogouLab 数据使用许可证”来看,似乎可以应用到opensource软件中,但要注明数据提供方(搜狐研发中心)。我们想SunPinyin的词库,将来可以更丰富一些,不过现在sogou提供下载的词库中没有读音标注。而且各位应该可以使用Sogou的语料库来训练SunPinyin中使用的统计语言模型。
另外让我感兴趣的是,在Sogou发布的互联网语料库中,包含了许多非sohu网站的网页内容。这样将他人网站的网页内容,收集下来并发布,是否存在版权的问题呢?是不是在语料库中标明出处(url地址)就可以了呢?
在“Sogou说吧”发了个问题,希望有乐观的答案。:)
Page optimized by WP Minify WordPress Plugin