导入fcitx用户词典

首先请下载这个导入工具,解压缩到某个目录中。注意:如果您使用的是实验版词表和语言模型,请下载open-gram项目的词表,解压并覆盖sunpinyin_importer目录下的dict.utf8文件,然后再执行下面的步骤。

如果在linux上,可以直接运行:

$ python import_fcitx_userdict.py

如果是要导入到mac平台上,请先使用mb2org(fcitx自带的工具),将用户词典导入到一个文本文件中:

$ /usr/bin/mb2org ~/.fcitx/pyusrphrase.mb > fcitx_userdict.txt,

然后将这个文件拷贝到mac上,再执行:

$ python import_fcitx_userdict.py fcitx_userdict.txt

导入QQ和紫光输入法的用户词典

大家可能已经注意到了,我们的用户词典导入工具,已加入了对QQ和紫光输入法用户词典的支持。

首先请下载这个导入工具,解压缩到某个目录中。注意:如果您使用的是实验版词表和语言模型,请下载open-gram项目的词表,解压并覆盖sunpinyin_importer目录下的dict.utf8文件,然后再执行下面的步骤。

导入QQ输入法的用户词典

在windows上激活QQ拼音输入法,然后打开“属性设置”对话框,在“词库管理”标签页下的“本地词库管理”中,点击“导出”按钮,将用户词典导出到一个文件中(例如,名为qq_userdict.dic),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作,

$ python import_qq_userdict.py qq_userdict.dic

导入紫光华宇输入法的用户词典

在windows上激活紫光华宇拼音输入法,然后打开“设置”对话框,然后在“词库管理”标签页下,选中“用户词库”,点击“导出...”,将用户词典导出到一个文件中(例如,名为ziguang_userdict.txt),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作:

$ python import_ziguang_userdict.py ziguang_userdict.dic

导入google和sogou输入法的用户词典

此次更新的导入工具,加入了对google和sogou输入法用户词典导入的支持。由于sunpinyin用户词典的一些限制,只能导入长度为2~6个字符的词条,并且最多可导入6万多个词条。我们后续会改进sunpinyin,以支持更大的词库和用户词典。该导入工具也可以在linux或solaris下运行,不过目前只支持ibus的前端。(因为我们不是很好判断,用户所使用的是xim还是ibus平台。)

注意:如果您使用的是实验版词表和语言模型,请下载open-gram项目的词表,解压并覆盖sunpinyin_importer目录下的dict.utf8文件,然后再执行下面的步骤。

首先请下载这个导入工具,解压缩到某个目录中。

导入google输入法用户词典

在windows上激活google拼音输入法,然后打开“属性设置”对话框,在“词典”标签页下,点击“导出”按钮,将用户词典导出到一个文件中(例如,名为google_userdict.dic),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作,

$ python import_google_userdict.py google_userdict.dic

导入sogou输入法用户词典

在windows上激活sogou拼音输入法,然后打开“设置属性”对话框,然后在“词库”标签页下,在“词库操作选择”下拉框中选择“导出文本词库”,并点击“执行该操作”,将用户词典导出到一个文件中(例如,名为sogou_userdict.txt),然后将这个文件拷贝到您的机器上(mac或linux),然后执行下面的操作:

$ python import_sogou_userdict.py sogou_userdict.txt

基本上,只要输入法提供导出用户词典的功能、且导出格式为文本文件的话,为sunpinyin实现一个导入小工具是很简单的(可参考已有的importer)。大家可以自行编写一个,欢迎您为常用的输入法编写一个导入工具哦 :)

如果需要将fitx的用户词典导入到sunpinyin中,参见@Yunkwan同学编写的导入工具

将QIM的用户词典导入SunPinyin用户词典

感谢QIM提供的QDM工具,可以将用户词典导出到一个文件中。执行QDM,点击“Export”,选择“Export Simplified Words&Pinyin”,然后点击OK,将文件保存到某处,例如~/Desktop/User\'s\ Database.txt。下载这个导入工具,解压缩到某个目录中,然后执行下面的操作,

$ python import_qim_userdict.py ~/Desktop/User\'s\ Database.txt
[先下载] is imported into sunpinyin's userdict
[官网] is imported into sunpinyin's userdict
[那套] is imported into sunpinyin's userdict
[分隔符] is imported into sunpinyin's userdict
... ...
... ...

注意如果您使用的是实验版词表和语言模型,请下载open-gram项目的词表,解压并覆盖sunpinyin_importer目录下的dict.utf8文件,然后再执行上面的步骤。另外,导入时会忽略掉QDM中包含不完全音节的词条,敬请谅解 ...

将FIT的用户词典导入SunPinyin用户词典

许多从FIT转到SunPinyin的用户,希望能将FIT的用户词典导入到SunPinyin的用户词典中。因为FIT和SunPinyin都使用了SQLite来实现用户词典,因此编写一个python脚本来进行导入,并不困难。大家可以下载这个导入工具,解压缩到某个目录中,然后执行下面的操作,

$ python import_fit_userdict.py
[先下载] is imported into sunpinyin's userdict
[官网] is imported into sunpinyin's userdict
[那套] is imported into sunpinyin's userdict
[分隔符] is imported into sunpinyin's userdict
... ...
... ...

注意如果您使用的是实验版词表和语言模型,请下载open-gram项目的词表,解压并覆盖sunpinyin_importer目录下的dict.utf8文件,然后再执行上面的步骤。

更新 SunPinyin-MacOS-2.0.1 (10.5/10.6)

本次更新的主要内容包括:

  1. 修正了和Chrome的兼容性问题 (#52#53),虽然应该说是Chrome的问题 :(。而且解决issue #52是有代价的,现在进行焦点切换时,会导致preedit字符串被提交到应用中。而issue #53就更诡异了,随便按下一个修饰键(例如shift或command),都会发重复的NSFlagsChanged事件过来。
  2. 将ign->ing的纠错改为gn->ng,以支持ogn->ong, egn->eng等组合
  3. 加入了用上下箭头做翻页键的选项 (#70)

本来没打算这么快发2.0.1的,不过许多朋友对Chrome上的兼容性问题还是很关心的。:)

欢迎下载试用,SunPinyin-MacOS-2.0.1.zip。已安装2.0版本的朋友,可以直接通过“检查更新…”来进行更新。

SunPinyin-MacOS-2.0 Official Release (10.5/10.6)

感谢大家的一直以来的支持,今天我们正式发布SunPinyin for MacOS的2.0版本了!这个正式版本和之前的beta 4.2并没有什么大的差别,主要是加入了候选窗口圆角风格的支持,调整了一些缺省的配置参数(包括颜色和缺省字符集)。

欢迎下载试用,SunPinyin-MacOS-2.0.zip。已安装之前beta版本的朋友,无需删除已安装的版本,直接运行安装程序即可。

首次安装的朋友请注意,当安装程序进行到“下载数据文件”步骤时,请点击“开始…”按钮下载必要的数据文件(文件较大,可能比较耗时)。

更新SunPinyin-MacOS-2.0 beta 4.2 (10.5/10.6)

因为是比较小的更新,就没升beta的主版本号 ...
  • 加入了用Ctrl+数字键删除用户自造词的功能。之所以用Ctrl,是因为Alt+数字键会输入特殊字符,且输入法无法收到该键盘事件;也没有用Command+数字键,也是担心和其他程序自身的快捷键相冲突。下一步我们会加入各类快捷键自定义的功能(估计会推迟到2.0.1)。

在使用该功能时,你可能会发现,无法删除掉某个候选词,可能的原因包括:

  1. 该候选不是自造词,而是系统词库中的词
  2. 该候选不是自造词,也不是系统词库的词,而是计算得到的最佳句子。

如果用户自造了一个词,例如“册使贫”,这个词对应的音节在系统词库中没有词,下次你再输入ceshipin的时候,这个词会出现在第一候选;但是在用户用ctrl+1将其删除之后,可能会发现候选词列表没有改变,这是因为虽然我们在用户词典中删除了这个词,并在history cache中删除了和这个词有关的unigram和bigram,但是这三个字(册、使、贫)依然位于history cache之中,使得这三个字的组合成为了计算得到的最佳句子。

理想的解决方法是,把这个词中所有的bigram组,在history cache中一并删除。因为我们并不知道,当初组成这个词时,所用的词序列(例如,是册使+贫,还是册+使贫,或者是册+使+贫)。因此,找到所有的bigram组,是一个开销比较大的操作。所以,目前并没有采用这种方法。要完善的解决这个问题,需要我们在用户词典中记录下是哪种组合(即这个自造词是由那些word id构成的),涉及到的改动比较多,而且和目前用户词典的schema不兼容。希望我们能在2.1中实现。

因此,虽然可能有些时候的确令人困惑,但是这个自造词的确是已经被删掉了,并且随着你的使用过程,这个“伪”最佳句子也会逐渐不见的 ...

如果没有意外,这将是我们的最后一个beta release,之后一些小的bug fixes会通过minor release的方式进行更新 ...

欢迎下载试用,SunPinyin-MacOS-2.0.zip。已安装之前beta版本的朋友,无需删除已安装的版本,直接运行安装程序即可。首次安装的朋友请注意,当安装程序进行到“下载数据文件”步骤时,请点击“开始…”按钮下载必要的数据文件(文件较大,可能比较耗时)。

更新SunPinyin-MacOS-2.0 beta 4.1 (10.5/10.6)

因为是比较小的更新,就没升beta的主版本号 ...
  • 加入了输入数字键之后紧跟着的句点用英文句点的功能,例如在中文状态下,输入1.0.0得到的结果是'1.0.0',而非'1。0。0'。

欢迎下载试用,SunPinyin-MacOS-2.0.zip。已安装之前beta版本的朋友,无需删除已安装的版本,直接运行安装程序即可。首次安装的朋友请注意,当安装程序进行到“下载数据文件”步骤时,请点击“开始…”按钮下载必要的数据文件(文件较大,可能比较耗时)。

更新 sunpinyin-2.0 beta 4 for mac os (10.5/10.6)

Beta 4中更新的内容:

  1. 加入了用户自定义标点的功能,用户可以选择打开、关闭或修改某个映射,但是貌似command+v快捷键粘贴不管用,好像后台应用弹出的对话框都不支持这个快捷键;不过还好,可以用右键菜单的拷贝功能。
  2. 修正了用户数据文件存放目录的bug (#59),大家在安装新版本之前,烦请将~/.sunpinyin拷贝到~/Library/Application\ Support/SunPinyin。

由于修改的代码比较多,且会break ibus-sunpinyin2的build,考虑到ibus-sunpinyin2最终发布在即,这部分改动暂时还没有同步到github上。

欢迎下载试用,SunPinyin-MacOS-2.0.zip。已安装之前beta版本的朋友,无需删除已安装的版本,直接运行安装程序即可。首次安装的朋友请注意,当安装程序进行到“下载数据文件”步骤时,请点击“开始…”按钮下载必要的数据文件(文件较大,可能比较耗时)。

接下来,我们将集中精力,提高sunpinyin在mac平台上的兼容性,包括chrome和其他的一些应用程序,并争取加入快捷键删除用户自造词的功能。然后就可以正式发布2.0了。之后的计划,是希望能改进全拼切分器以支持模糊切分,并改进双拼切分器以支持双拼上的易混淆音。当然,词库和语言模型也是重中之重啦 ...