Sogou的词库及语料库

偶然的机会,看到sogou实验室发布的互联网词库以及互联网语料库。从“SogouLab 数据使用许可证”来看,似乎可以应用到opensource软件中,但要注明数据提供方(搜狐研发中心)。我们想SunPinyin的词库,将来可以更丰富一些,不过现在sogou提供下载的词库中没有读音标注。而且各位应该可以使用Sogou的语料库来训练SunPinyin中使用的统计语言模型。

另外让我感兴趣的是,在Sogou发布的互联网语料库中,包含了许多sohu网站的网页内容。这样将他人网站的网页内容,收集下来并发布,是否存在版权的问题呢?是不是在语料库中标明出处(url地址)就可以了呢?

在“Sogou说吧”发了个问题,希望有乐观的答案。:)

7 thoughts on “Sogou的词库及语料库

  1. 你好!最近一直在windows vc2005下编译调试sunpinyin源代码,训练sogou语料库,得到2阶模型,最后得到的模型用tslminfo查看,结果是错的。训练时,词典用的是sunpinyin中dict.utf8文件,语料用的是txt文本文件。请问:训练结果为何不正确呢?是不是词典和语料的格式不对?

  2. @Jack, 具体是什么错误呢,等我下周有时间可以帮你看看... 是否是编码的问题?

  3. 在使用第一步mmseg时,词典用的是sunpinyin中dict.utf8文件,对于语料corpus.txt,分别设置以下2种格式。
    1、设置成ANSI编码。则会得到分词corpus.ids部分结果如下:“谁(66944) 叫(16581) 你(35483) 睡觉(82004) 吃水饺(9) 的(44751) ?(73) (0) 吃水饺(9) 是(52864) 我国(34843) 北方城市(9) 的(44751) 一种(486) 风俗习惯(11456) !(74)
    (0) 经过(49534) 无数次(9) 的(44751) 努力(39017) ,(70) 当(23764) 原子(61410) 结合成分子时(9) ,(70) 实验(48312) 成功(23272) 了(1701) 。(71) ”
    2、设置成UTF8编码。则会得到分词corpus.ids部分结果如下:“锘(82684) 胯(63822) 皝(88503) 鍙(0) 綘(84939) 鐫¤(0) 鍚(91134) 冩(0) 按(50445) 楗(76426) 虹(53224) 殑(69592) 锛(82687) ?(0) 鍚(91134) 冩(0) 按(50445) 楗(76426) 烘(65367) 槸鎴戝浗鍖楁(0) 柟(51617) 鍩庡競(0) 鐨(92300) 勪竴(0) 绉(49472) 嶉(0) 淇(73054) 椾範(0) 鎯(90080) 紒
    (0) 缁(74787) 忚繃鏃犳暟(0) 娆(58849) $(0) 殑(69592) 鍔姏(0) 锛(82687) 屽綋鍘熷瓙(0) 缁(74787) 撳悎鎴(0) 愬(86748) 垎(0) 瀛(92135) 愭椂(0) 锛(82687) 屽疄(0) 楠(81357) 屾(0) 垚(49856) 鍔熶簡銆?鏈濋(0) 矞(80464) 椹(81355) 讳(29309) 縿(91386) 缃(80475) 楁柉(0) 澶(90460) т(0) 娇(58855) 绉(49472) 扮(31813) 編鍥(0) 藉(90699) 凡(4444) 鍒(0) 跺(82352) 畾(88179) 瀵(92402) 规(39955) 湞鏍(0) 告(34809) 垬(0) 浜(66051) 夎鍒?”
    从上述结果可以判断,windows下,训练语料应该是支持第一种编码方式。同时得到分词corpus.ids文件都是UTF8格式。
    我猜想是不是在第2步ids2ngram,统计2元组时,读取corpus.ids出现问题?请帮忙分析一下?能有解决方案吗?谢谢!

  4. @jack, sorry for the late reply, 语料库必须是UTF8格式的,这个可能需要你用iconv或者编辑器手工转化一下…

  5. 关于编码的问题已经解决,谢谢!
    在生成词表(lexicon)时,又遇到一些问题。得到pydict_sc.bin文件,通过CPinyinTrie类来访问pydict_sc.bin,产生log文件不成功。改用sunpinyin中的pydict_sc.bin文件访问,也得不到log文件,请问是什么原因?(系统是windows xp)

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

To submit your comment, click the image below where it asks you to...
Clickcha - The One-Click Captcha