A simple stript to extract the contents from Sogou corpus

I wrote a simple python script to extract the contents from Sogou corpus.

#!/usr/bin/python

import codecs
import sys

usage = """
Usage:
    sogou_corpus_conv.py corpus_in_xml > contents_in_txt
"""

try:
    file = codecs.open(sys.argv[1], "r", "GB18030" )
except:
    print usage
    exit(1)

for line in file:
    if line.startswith(""):
        start, end = len(""), -len("")-1
        line = line[start:end].replace(u'\ue525', '')
        print line.encode("UTF-8")

With the extracted contents, you could continue to build the SunPinyin SLM.

Sogou的词库及语料库

偶然的机会,看到sogou实验室发布的互联网词库以及互联网语料库。从“SogouLab 数据使用许可证”来看,似乎可以应用到opensource软件中,但要注明数据提供方(搜狐研发中心)。我们想SunPinyin的词库,将来可以更丰富一些,不过现在sogou提供下载的词库中没有读音标注。而且各位应该可以使用Sogou的语料库来训练SunPinyin中使用的统计语言模型。

另外让我感兴趣的是,在Sogou发布的互联网语料库中,包含了许多sohu网站的网页内容。这样将他人网站的网页内容,收集下来并发布,是否存在版权的问题呢?是不是在语料库中标明出处(url地址)就可以了呢?

在“Sogou说吧”发了个问题,希望有乐观的答案。:)