<?xml version="1.0" encoding="UTF-8"?> <rss
version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
> <channel><title>素心如何天上月 &#187; corpus</title> <atom:link href="http://yongsun.me/tag/corpus/feed/" rel="self" type="application/rss+xml" /><link>http://yongsun.me</link> <description>Yong Sun&#039;s Blog</description> <lastBuildDate>Sat, 17 Dec 2011 16:17:35 +0000</lastBuildDate> <language>en</language> <sy:updatePeriod>hourly</sy:updatePeriod> <sy:updateFrequency>1</sy:updateFrequency> <generator>http://wordpress.org/?v=3.3</generator> <item><title>A simple stript to extract the contents from Sogou corpus</title><link>http://yongsun.me/2007/11/a-simple-stript-to-extract-the-contents-from-sogou-corpus/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=a-simple-stript-to-extract-the-contents-from-sogou-corpus</link> <comments>http://yongsun.me/2007/11/a-simple-stript-to-extract-the-contents-from-sogou-corpus/#comments</comments> <pubDate>Sat, 03 Nov 2007 14:28:01 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[corpus]]></category> <category><![CDATA[Python]]></category> <category><![CDATA[sogou]]></category> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/11/03/a-simple-stript-to-extract-the-contents-from-sogou-corpus/</guid> <description><![CDATA[I wrote a simple python script to extract the contents from Sogou corpus. #!/usr/bin/python import codecs import sys usage = """ Usage: sogou_corpus_conv.py corpus_in_xml > contents_in_txt """ try: file = codecs.open(sys.argv[1], "r", "GB18030" ) except: print usage exit(1) for line &#8230; <a
href="http://yongsun.me/2007/11/a-simple-stript-to-extract-the-contents-from-sogou-corpus/">Continue reading <span
class="meta-nav">&#8594;</span></a>]]></description> <content:encoded><![CDATA[<p>I wrote a simple python script to extract the contents from <a
href="http://www.sogou.com/labs/dl/t.html" class="snap_preview">Sogou corpus</a>.</p><pre name="code" class="python">
#!/usr/bin/python
import codecs
import sys
usage = """
Usage:
    sogou_corpus_conv.py corpus_in_xml > contents_in_txt
"""
try:
    file = codecs.open(sys.argv[1], "r", "GB18030" )
except:
    print usage
    exit(1)
for line in file:
    if line.startswith("<content>"):
        start, end = len("</content>"), -len("</content>")-1
        line = line[start:end].replace(u'\ue525', '')
        print line.encode("UTF-8")
</pre><p>With the extracted contents, you could continue to build the <a
href="http://cvs.opensolaris.org/source/xref/nv-g11n/inputmethod/sunpinyin/slm/">SunPinyin SLM</a>.</p> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2007/11/a-simple-stript-to-extract-the-contents-from-sogou-corpus/feed/</wfw:commentRss> <slash:comments>2</slash:comments> </item> <item><title>Sogou的词库及语料库</title><link>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=sogou%25e7%259a%2584%25e8%25af%258d%25e5%25ba%2593%25e5%258f%258a%25e8%25af%25ad%25e6%2596%2599%25e5%25ba%2593</link> <comments>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/#comments</comments> <pubDate>Sat, 18 Aug 2007 18:27:06 +0000</pubDate> <dc:creator>yongsun</dc:creator> <category><![CDATA[Input Method]]></category> <category><![CDATA[corpus]]></category> <category><![CDATA[sogou]]></category> <guid
isPermaLink="false">http://yongsun.wordpress.com/2007/08/18/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/</guid> <description><![CDATA[偶然的机会，看到sogou实验室发布的互联网词库以及互联网语料库。从“SogouLab 数据使用许可证”来看，似乎可以应用到opensource软件中，但要注明数据提供方（搜狐研发中心）。我们想SunPinyin的词库，将来可以更丰富一些，不过现在sogou提供下载的词库中没有读音标注。而且各位应该可以使用Sogou的语料库来训练SunPinyin中使用的统计语言模型。 另外让我感兴趣的是，在Sogou发布的互联网语料库中，包含了许多非sohu网站的网页内容。这样将他人网站的网页内容，收集下来并发布，是否存在版权的问题呢？是不是在语料库中标明出处（url地址）就可以了呢？ 在“Sogou说吧”发了个问题，希望有乐观的答案。:)]]></description> <content:encoded><![CDATA[<p>偶然的机会，看到<a
href="http://www.sogou.com/labs">sogou实验室</a>发布的<a
href="http://www.sogou.com/labs/dl/w.html">互联网词库</a>以及<a
href="http://www.sogou.com/labs/dl/t.html">互联网语料库</a>。从“<a
href="http://www.sogou.com/labs/dl/license.html">SogouLab 数据使用许可证</a>”来看，似乎可以应用到opensource软件中，但要注明数据提供方（搜狐研发中心）。我们想SunPinyin的词库，将来可以更丰富一些，不过现在sogou提供下载的词库中没有读音标注。而且各位应该可以使用Sogou的语料库来训练SunPinyin中使用的统计语言模型。</p><p>另外让我感兴趣的是，在Sogou发布的互联网语料库中，包含了许多<b>非</b><a
href="http://www.sohu.com/">sohu</a>网站的网页内容。这样将他人网站的网页内容，收集下来并发布，是否存在版权的问题呢？是不是在语料库中标明出处（url地址）就可以了呢？</p><p>在“<a
href="http://s.sogou.com/f?s=%CB%D1%B9%B7%CA%B5%D1%E9%CA%D2&amp;t=TP$qg2o0gtR8oHFBAAAA&amp;page=1">Sogou说吧</a>”发了个问题，希望有乐观的答案。:)</p> ]]></content:encoded> <wfw:commentRss>http://yongsun.me/2007/08/sogou%e7%9a%84%e8%af%8d%e5%ba%93%e5%8f%8a%e8%af%ad%e6%96%99%e5%ba%93/feed/</wfw:commentRss> <slash:comments>7</slash:comments> </item> </channel> </rss>
