导入sogou输入法的细胞词库

首先请下载这个导入工具,解压缩到某个目录中。从pinyin.sogou.com下载细胞词库(scel格式),保存在某个目录中。然后在terminal中执行下面的操作:

$ python import_sogou_celldict.py PATH_TO_CELL_DICT.scel

感谢中文社区其他开发者和项目reverse engineering的工作,

导入google和sogou输入法的用户词典

此次更新的导入工具,加入了对google和sogou输入法用户词典导入的支持。由于sunpinyin用户词典的一些限制,只能导入长度为2~6个字符的词条,并且最多可导入6万多个词条。我们后续会改进sunpinyin,以支持更大的词库和用户词典。该导入工具也可以在linux或solaris下运行,不过目前只支持ibus的前端。(因为我们不是很好判断,用户所使用的是xim还是ibus平台。)

注意:如果您使用的是实验版词表和语言模型,请下载open-gram项目的词表,解压并覆盖sunpinyin_importer目录下的dict.utf8文件,然后再执行下面的步骤。

首先请下载这个导入工具,解压缩到某个目录中。

导入google输入法用户词典

在windows上激活google拼音输入法,然后打开“属性设置”对话框,在“词典”标签页下,点击“导出”按钮,将用户词典导出到一个文件中(例如,名为google_userdict.dic),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作,

$ python import_google_userdict.py google_userdict.dic

导入sogou输入法用户词典

在windows上激活sogou拼音输入法,然后打开“设置属性”对话框,然后在“词库”标签页下,在“词库操作选择”下拉框中选择“导出文本词库”,并点击“执行该操作”,将用户词典导出到一个文件中(例如,名为sogou_userdict.txt),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作:

$ python import_sogou_userdict.py sogou_userdict.txt

基本上,只要输入法提供导出用户词典的功能、且导出格式为文本文件的话,为sunpinyin实现一个导入小工具是很简单的(可参考已有的importer)。大家可以自行编写一个,欢迎您为常用的输入法编写一个导入工具哦 :)

如果需要将fitx的用户词典导入到sunpinyin中,参见@Yunkwan同学编写的导入工具

A simple stript to extract the contents from Sogou corpus

I wrote a simple python script to extract the contents from Sogou corpus.

#!/usr/bin/python

import codecs
import sys

usage = """
Usage:
    sogou_corpus_conv.py corpus_in_xml > contents_in_txt
"""

try:
    file = codecs.open(sys.argv[1], "r", "GB18030" )
except:
    print usage
    exit(1)

for line in file:
    if line.startswith(""):
        start, end = len(""), -len("")-1
        line = line[start:end].replace(u'\ue525', '')
        print line.encode("UTF-8")

With the extracted contents, you could continue to build the SunPinyin SLM.

Sogou的词库及语料库

偶然的机会,看到sogou实验室发布的互联网词库以及互联网语料库。从“SogouLab 数据使用许可证”来看,似乎可以应用到opensource软件中,但要注明数据提供方(搜狐研发中心)。我们想SunPinyin的词库,将来可以更丰富一些,不过现在sogou提供下载的词库中没有读音标注。而且各位应该可以使用Sogou的语料库来训练SunPinyin中使用的统计语言模型。

另外让我感兴趣的是,在Sogou发布的互联网语料库中,包含了许多sohu网站的网页内容。这样将他人网站的网页内容,收集下来并发布,是否存在版权的问题呢?是不是在语料库中标明出处(url地址)就可以了呢?

在“Sogou说吧”发了个问题,希望有乐观的答案。:)