【预告】SunPinyin做客Beta沙龙

http://club.blogbeta.com/2010/05/13-sunpinyin

时间:2010年6月4日星期五晚上,19: 00开始
地点:奇遇花园咖啡馆(问路电话010-88320741)
地址:西直门北展北街9号华远企业号(华远地产)D座一层(地图

演讲题目:What’s new of SunPinyin 2.0

内容预览:

演讲人简介:
孙勇,SunPinyin项目的Lead Engineer之一,SunPinyin Mac Porting的主要维护者。
个人blog,http://yongsun.me,twitter: @yongsun

参与说明:无需报名,参加免费,点单AA

TBB Study Notes (1)

因为工作的关系,现在对C++的并发编程十分有兴趣,TBB无疑是这一领域的佼佼者。我主要对并发容器、scalable allocator比较有兴趣。现在刚刚开始读TBB的代码,这里是一些粗浅的笔记,欢迎大家多指正 ...

tbb::machine

tbb_machine.h中引入了所有支持平台的头文件,如果对应平台没有定义__TBB_CompareAndSwap4,__TBB_CompareAndSwap8,__TBB_Yield,或__TBB_release_consistency_helpler,就会报错,无法支持。如果没有定义__TBB_load_with_acquire或__TBB_store_with_release,就会通过__TBB_release_consistency_helpler来实现它们;如果没有实现__TBB_Pause,就通过__TBB_Yield来实现。

__TBB_rel_acq_fence和__TBB_release_consistency_helper不同,前者是一个真正的硬件的fence,后者只是为了告诉编译器不要进行重排。Intel的编译器就将__TBB_release_consistency_helper定义为空了,但是GCC需要特殊的定义。但是奇怪的是,MSDN上说_ReadWriteBarrier是包括硬件fence的。

内存语义(memory semantics):

load_with_acquire: 栅栏之后的内存操作不能移动到load之前;
store_with_release: 栅栏之前的内存操作不能移动到store之后;

__TBB_machine_fetchadd1等方法,通常定义在src/<arch>/atomic_support.asm中的,ibm_aix51中是一个C文件。

某些term和Windows API的对应关系:

fetch-and-add => InterlockedExchangeAdd
fetch-and-store => InterlockedExchange
compare-and-swap => InterlockedCompareExchange

atomic_backoff: pause()方法,在前5以内,是指数级的backoff,之后调用__TBB_Yield()来交出CPU。bounded_pause()会在5次尝试之后,返回false。

还定义了原子的OR和AND操作,以及__TBB_TryLockByte,__TBB_LockByte等辅助函数(都是基于CAS来实现的)。

tbb::atomic

enum memory_semantics: {__TBB_full_fence, acquire, release};

后面两个应该只是为支持IA64的,只有在linux_ia64.h中定义了__TBB_DECL_FENCED_ATOMICS这个宏,并实现了型如__TBB_CompareAndSwap##S##M(其中S是size,M是memory_semantic,例如__TBB_CompareAndSwap4acquire)等方法。如果这些方法没有被定义的话,tbb_machine.h中会用__TBB_full_fence语义的版本重定义之。

atomic_rep: 对长度为[2, 4, 8]字节的类型,都要求对齐;即加入了一些编译器属性。

template struct atomic_traits;
包括compare_and_swap, fetch_and_add, fetch_and_store等几个基本的方法。

atomic_impl实际上是对atomic_rep和atomic_traits的一个包装。而atomic模板从atomic_impl中派生得到的,对指针类型来说,是从atomic_impl_with_arithmetic中派生的(void *除外),以对指针的移动操作(例如++, --)进行memory barrier的保护。而atomic_impl_with_arithmetic也是从atomic_impl中派生的。相比atomic_impl,atomic对赋值操作operator=加入了fence的保护。

tbb::blocked_range

包括1维、2维、3维的实现。模板参数是iterator类型。表示一个半闭半开的区间,[my_begin, my_end)。当区间的size<=my_grainsize时,区间就不可再分了。其中一个构造函数,可以将当前的range(*this)分为两半,新构造的range是后一半,旧的range被修改为前一半。

黄山游小记

跟随老婆单位同事组织的黄山游,4天3夜,加来去两晚的卧铺。

周五夜里的火车,硬卧上铺,空调风力太足,吹得我头痛不已。龟缩在被子里,蒙头浅睡了一夜。周六早起到合肥,有小雨,很冷。用罢早餐,乘事先联络好的旅游巴士,出合肥奔黄山方向。至汤口用午饭,然后驱车到西递参观。西递的很多牌楼和古籍,在文革时被破坏的很严重 ... 傍晚到宏村入住在农家,吃农家菜。住宿条件很幽静,有热水可洗澡 ...

第二天早起参观宏村,已经有了在西递屋檐累累的熏染,宏村的阁楼不再那么令人兴奋,但风景仍然十分迷人。

短短2小时之后,乘车去黄山。至黄山,乘中转巴士,到紫光阁。我们这一队老弱病残的同学,坐缆车上山。然后循大众路线至白云宾馆入住。中途路过迎客松,有点失望。且山中雾气弥漫,只偶尔露了几片蓝天。不过宾馆的条件比预期好得多。夜里各路人马汇合于宾馆,研讨分组路线,我和老婆第二天去挑战一个比较有难度的路线。晚上观摩了两局三国杀 ...

第三天经光明顶,去北海看云海。8点钟至光明顶时,远眺云海很是壮观。遗憾的是,约1小时后,到达最佳观赏地,猴子观海时,已经消散了大半,很是遗憾。然后经排云亭,下西海大峡谷。经过4个小时的停停走走,终于回到了白云宾馆。因体力不支,没有继续随队去丹霞峰去看日落。晚上玩了两把三国杀。和另一队人马,相约隔天早起去看日出 ...

第四天3:45起床,4点多一些到达光明顶时,观赏日出的各个据点已经人满为患了。辗转爬上悬崖边上的一大块岩石,脚下即是深渊。我爬上去之后,本已显得拥挤的岩顶,陆续又爬上来4个人,其中包括3位女士和一个老外。大家为了拍摄日出,真的是置生死于度外了。本来还想再去北海看云海,不过从光明顶看过去,当天是不会有云海现身了。于是回宾馆睡了个回笼觉。早上9点多和老婆再次经光明顶,至云古索道下山。中午随便在景区外吃了点饭,然后回合肥。到合肥吃了顿丰盛的晚饭,然后乘夜里的火车返京。

第五天早起到京,回到家洗了个澡,然后就去单位上班了 ...

十年码工路——太阳下成长

2003年10月8日,国庆节后的第一个工作日,我来Sun中国工程研究院的北京国际化中心报到。我至今仍然十分感激当时的老板Scott,记得当初他面试我的时候,问我如果加入Sun有什么职业上的规划,我回答说“听闻Sun公司内部有transfer制度,员工可以在工作一定时间之后选择其他方向发展,如果有机会,我希望一两年后能transfer到浏览器组去做开发”。很感谢Scott,在听到我这么“二”的回答之后,还是给了我机会。

到Sun之后,第一个项目是接手Evolution的本地化和国际化,作为Evolution l10n/i18n项目的central engineer,要参与各种的项目会议,这对我来说的确是一个很大的挑战。我当初英文很差(当然现在也不好),很不习惯在电话里听别人说英文,口语的表达能力也很差。着实适应了一段时间。l10n/i18n的bug fixes有的可以很简单,有的则需要深入到程序内部,特别是有很多和输入、输出、DnD相关的问题,通常都很棘手。后来工作范围也扩展到了gnome上的l10n/i18n。为了管理测试用例和记录测试结果,学用Struts写了套很简陋的测试用例管理系统,不过因为其他site已经有同事写了一套类似的系统,而遭废弃。

04年6月份,有机会和同事(Gavin)到美国rotation两个月。我第一次坐飞机就是10多个小时的长途飞行,结果到了旧金山后发现无人接机。后来发现是同事把时差搞错了,告诉美国同事的接机时间,是当地的第二天。我们只好自己准备摸到公司租的公寓去。一路上先是坐Bart,然后坐Caltrain,好像当天Caltrain还因为是什么节日而免费,然后坐light-rail,最后坐bus,终于到了公寓附近。然后给国内的同事打电话,争取联系到接机的同事,恰好这位同事周末在单位加班,否则我们只有去办公室睡沙发了。我和Gavin都是穷苦孩子,过的很节省,都是自己做饭。一天两顿饭,晚上做好的菜,拨出一半留着明天中午带饭吃。两个月1000美元的补助(房租是公司付的),我买了100多美元的书,100多美元的化妆品(给老婆的),还老人家带了若干维生素,最后回国的时候,还剩了80美元的现金。美国的同事打趣说,500美元一个月的补助还是多了…

那段时间,我的同事张磊博士在独立开发一个基于统计语言模型的输入法,也就是今天的SunPinyin。我一下子就着了迷,找了很多NLP相关的论文和书来看。憧憬着有一天能够投入到这个输入法的开发中。后来,因为要弄一些自动测试的东西,又学了些shell脚本,还学了些python,以及pyrex,给python写扩展。业余时间,也翻译(或合译)了一些书,包括《Struts KickStart》,《Mastering JavaServer Faces》,《Agile Java》,《Programming Ruby》等一些技术书籍,对基于Web的企业应用开发也很有兴趣。我的一个最大的缺点就是兴趣太广,泛而不精。有时我很苦恼,有时又乐在其中,没办法了…

后来,Sun逐步削减了在JDS-Linux上的投入,将JDS上的一些开发都转移到Solaris上。我们和日本的一些同事,要负责将IIIMF的新版本(R12),从linux移植回solaris上。我还负责了简体中文、繁体中文、以及欧洲compose输入法的维护工作。这期间还代表公司参与了亚洲输入法标准的讨论和制定工作,结识了CJK许多输入法的开发者,例如James Su、Huang Peng、Wu Peng等等。我为日系和中系两路人马的沟通和交流做了一点点贡献。因为日本方面的主要负责人,Hideki Hiura,曾经是我们国际化部门的资深架构师,他是XIM协议的提出者之一,openi18n.org社区的奠基者。不幸的是,前不久得到他的噩耗,因病逝世了:( 同志们都要注意身体啊…

这个标准工作组最后同意开发一个全新的输入法平台,即imbus。但是由于种种原因,始终停滞不前。后来,我和Huang Peng一起提出了用python+dbus实现输入法平台的初步构想,也就是今天的iBus。很遗憾,我只是提了一个构想,贡献过一些很high-level的design,并没有贡献过什么代码。

后来,张磊同学去我们的宿敌M$做Bing去了 :) 便将SunPinyin的开发和维护工作转交给了我。随着OpenSolaris的开源计划,SunPinyin也一并以CDDL协议开放给了社区。为了吸引更多的开发者加入我们,我写了一系列的blog,介绍SunPinyin内部的实现细节。我的blog也因而经常出现在blogs.sun.com访问量的前60名(尾部)。也因为在博客上的交流,结识了tchaik0v同学。他很热心的帮助我们将SunPinyin从IIIMF移植到了SCIM平台上,现在仍然是SunPinyin社区中最主力的开发人员之一。为了让Linux各发行版能更好的接纳SunPinyin,我又建议和推动了将SunPinyin改为CDDL+LGPLv2的双授权协议(这一协议也沿用至今)。

后来迷上了Apple,买了台MBP。MacOS自带的拼音输入法着实很难用。QIM是收费软件,FIT虽然免费,但也不是很满意,就想能不能把SunPinyin移植到Mac上。随着Leopard的发布,基于IMKit框架开发输入法变得比较轻便和容易了。我花了四天三晚,照着苹果官方的例子,对着obj-c/cocoa的简明教程,将SunPinyin初步移植到了Leopard上。很感谢我的老板,允许我干这么一件看起来和Sun的业务毫无关系的事情。实际上,我们的这个移植还是非常划算的。Mac的用户都是一群完美主义者,给我们提了大量的意见和建议,极大地鞭策和促进了SunPinyin的继续发展。我也因此结识了jjgodLin Zhemingchumsdock等许多好朋友。

因为SunPinyin-1.0架构上的一些局限,要实现一些新特性很困难,因此我就开始了2.0版本的开发。在开发过程中,也把同事Xue Wei给involve进来,帮助我实现了双拼切分和用户词典的功能。直到这时,我仍然时不时地需要去fix一些IIIMF的bug;有时还要做很多RE(Releasing Engineer)的工作;还有其他一些小的项目。这些琐碎的工作有时真得让我感到很沮丧。后来同事帮我做了一个统计,我在Sun的这近6年时间里,周均要fix 1.5个bug,大概是我们北京国际化中心这边入职时间相当的工程师里,最多的一个。

08年的金融危机,成了压在Sun身上的最后一根稻草。Sun被Oracle以74亿美金收购了。一轮又一轮的裁员,部门里的人事和结构的不断变更,HR的一些“作为”,以及对并购后工作方向上的不确定性,让我渐渐有了离开的念头。后来,汤森路透这边有一个机会,是用C++开发高并发的金融应用。我对并发编程一直很有兴趣,虽然很犹豫,最后还是接受了offer。我的老板和二线老板都希望我能留下来,至少等收购完成看一看再说。我的老板们对我都很nice,一直很支持我,如果还没有签offer,我想我真的会选择留下来…

无论从哪方面讲,Sun都是一家伟大的公司,公司的文化非常宽松和开放,给员工的自由度非常大,也非常鼓励员工的创新。我们部门可以全周在家办公,只需要周四到单位碰个面;不定期的有knowledge sharing的session,这个session可以讲任何大家有兴趣的topic,甚至包括摄影、装修、理财等和工作毫无关系的内容。这些都让我们部门成为一个充满家庭般温暖的、紧密团结的大家庭。如果不是因为收购的问题,我真的希望自己能在Sun做到退休…

2009年8月20日,在美国政府批准Oracle收购案的前一天,我从公司离职了。而到今天为止,Sun中国工程研究院还没有合并到Oracle中国研发部门。我所在的那个组,曾经10来个人的team,走得只剩下两个人了…

在Sun的近6年岁月里,我获益良多,这是我从业以来最开心的日子,我将永远铭记在心…

十年码工路——在红旗的日子

大四找工作的时候,本来谈好去北京一家做外包的公司,总工是天大的师兄。后来中科红旗来学校招聘,负责招聘的恰好也是天大的师兄,和实验室的老师相熟,我被推荐了去,因为是做linux方面的开发,而我本身对linux又很感兴趣,所以就定下来去红旗了。当时红旗还没有正式挂牌成立,没有人事权,是中科院与NEC的合资公司恩益禧给我们办理的进京指标。我们是红旗招聘的第一批员工,本人还是公司的第25号员工呢…

00年的6月底,我们几个同学租了一辆大面包车,从学校把计算机、书、行李直接拉到了北京,在巴沟一处平房的集体宿舍中安顿下来。我和一个同学被分配到了嵌入式产品部,我的第一份任务是,分析和优化MicroWindows/Nano-X,以及fltk在Nano-X上的porting。算是对嵌入式GUI系统有了些了解,写了份很详尽的文档,以及一些试验性的代码。后来因为可移植性的考虑,部门逐渐将重心转移到了X11平台,我的任务是修改一个基于fltk的窗口管理器,并为其加入桌面背景/快捷图标、程序菜单等功能。因为窗口管理器很多时候需要和X11的API打交道,而且还要将这些API和fltk本身的事件机制(event loop)结合起来,从中学习了不少。我用了两周,基本完成了主体功能。因为对X11 API使用的比较熟练,等第二年的新员工入职时,还是由我来培训X11编程呢。

我的部门经理觉得我比较好学肯干,在我入职半年的时候,开始让我带一个小的团队(大概4、5个人)负责应用程序的开发;半年间也给我涨了两次工资,从3300涨到了4200左右(具体数字我记不清了)。虽然那个时候,写网站的实习生都可以开出7/8000的价码。刚开始带团队时,我对项目管理一窍不通,最开始我都是自己绞尽脑汁的想,该如何划分任务,按自己的经验来估计每个成员的effort。后来的体会是,项目管理应该是一个,在符合整体利益的前提下、自底向上的过程,应该充分考虑个人的偏好和工作量估计,发挥个人的主观能动性。自己后来也买了许多软件项目管理的书,学习揣摩。

公司刚开始是准备到纳斯达克上市圈钱的,总体的氛围不是很扎实。后来因为有国有资本成份,无法将公司的全部资本转移到某个国外的小岛上借壳上市而搁置。再后来,又赶上2000年底网络经济泡沫的破灭,赴美上市是再无可能了。嵌入式部门前期投入的一些项目,也都因为自身技术积累的欠缺,以及其他的种种原因,遇到了很大的困难,基本都以失败而告终了。后来公司从蓝点请来了MiniGUI的创始人魏永明,执掌嵌入式部门,跟随他也来了几位经验丰富的工程师。那个时期,我也被借调到公司的软件工程过程组(SEPG,因为公司想过CMM2,去揽一些政府或国外的项目),所以暂时也离开了开发一线。

我原本对项目管理只有一个很粗浅的认识,通过在SEPG组的工作、学习,慢慢对项目管理有了一个比较系统的认识。我当时负责的是SPP(软件项目计划)这个KPA,写了很多的文档和模版,可惜后来CMM2的认证计划也不了了之了。其间也粗浅的接触了一些XP,RUP等观念。

从SEPG回到开发团队后,调研了一段时间的组件模型(COM/XPCOM/KParts)。又去调研了一段时间的J2ME/KVM,准备将KVM移植到Qt/Embedded上。这些浅浅的调研,都因为没有项目上的需求,就停掉了。也有一段时间,去帮助浏览器组,改善他们基于Mozilla(最初开源版本)的fltk前端。再后来,老板让我组建了一个小组,和另外两个同事调研Konquer/Embedded,准备将其移植到MiniGUI平台上,后来也无疾而终,只留下了几篇分析的文档,在公司的允许下开放了出来,美其名曰不仅要开放代码,更要开放思想。其中《Konqueror-Embedded 之结构分析》是我的拙作,现在还可以通过google检索到。

浏览器组解散之后,我参与到一个电子书的项目,是基于Intel的xscale处理器的。现在看起来有点MID的意思。我重新回归到了团队的普通一员,负责QT/Embedded的本地化和优化,以及部分小应用程序的开发。随着嵌入式部门生存环境的逐步恶化,人员的流失也越来越严重,人员的士气都很低落。随着电子书项目的草草结束,我慢慢陷入一种无事可做的境地,每天在公司里晃。我对自己和部门都很失望,有点想换换环境。桌面部门的老板本来希望我内部transfer,我那时天真的觉得会折自己老板的面子,所以就最终决定离开了。

我当时也是犹豫了很久,毕竟那是毕业之后的第一份工作,其中浸透了自己的很多努力(虽然基本上我接触的所有项目都失败了),对公司有很深的感情。那时候生活简单,女朋友也不在身边,经常晚上10点多才和一起租房子的同事从公司离开;有时会甚至连续一两个月住在公司里,看书查资料。一开始只是铺张床单睡在地毯上,或者睡在会议桌上,可能我的过敏性鼻炎就是那时候落下的。后来,我买了张行军床放在桌子下面,晚上睡觉时舒服多了。公司里的卫生间还有淋浴,HR一度想给我们买一台洗衣机。那些年也因此看了不少书,特别是C++类的,effective/exceptional系列,设计模式,COM,STL等等;还有linux kernel,我买了当时市面上几乎所有的kernel分析书籍,也读了些代码、做过些调试(主要基于UML,user-mode-linux)。因而对操作系统的各个子系统有一个粗浅的认识,不过一直没有机会从事kernel的开发,虽然曾经短时间的维护过一个单工串口驱动。

我发现程序员都有受虐的倾向,喜欢复杂的东西,并乐于将其拆解清楚,呵呵…

总之,在03年的非典时期,我离开了红旗公司,去了西门子中国的手机软件开发部门。而5个月后,在试用期内,我又离开了西门子,有幸加入了Sun中国工程研究院。其中一个原因是,我那时准备和老婆结婚,买了清河附近的房子,做班车去望京实在是太不便了;更重要的原因是,Sun一直是我最向往的技术型公司(没有之一),虽然03年的时候,已经风光不在了。不夸张的说,Sun公司改变了我的职业轨迹,让我真正成长为一个专业程序员;而在Sun公司工作的6年,是我从业以来最快乐的时光...

待续 ...

十年码工路——大学篇

看了@tinyfool同学的从业总结,想想自己也工作10年了,一时手痒,不顾东施效颦之忌,也准备写上几篇,以做纪念 ...


转眼间工作10年了 …

我是96年考入天津大学计算机系的,上大学之前仅在高一时短暂的接触过Basic,老师手里的5寸软盘只见过没摸过。高三的暑假,找了一本薄薄的C++的书硬啃,只记得了一点点点的皮毛,知道了有这么一门带class的编程语言。刚入学,老师给我们扫盲时,看到老师手里的3寸软盘,觉得好生羡慕,从贩假软盘的师兄手里买过一盒10张的软盘(当时不知是假,Maxwell,好牌子的)。和其他有一定基础的同学相比,简直是相差太远了;许多同学是用过C的,也有同学是参加过编程比赛的。仗着在小霸王学习机上突击学的指法,还不至于在TT(80后的同学们可能没机会用到了)练习上被甩下太远。

刚上大学时,觉得学习是次要的,锻炼自己的各方面能力更重要,凡是社团活动都积极参加。大学第一学期期中考试,险些挂科,终于警醒,开始上晚自习了。第一学期期末考试时,终于追赶上来,在班里排在4名女生的后面,加上其他乱七八糟的总评分,混了个班级第三。下半学年,和同寝的哥们儿凑分子,买了年级里的第一台电脑(二手的奔75,好像是6或8M内存),去取电脑时,南开的师兄给我们show了一把红警,把我们都给震住了。其他寝室的同学们也陆续买了机器,大家用同轴线缆连局域网打红警,晚上接走廊的灯泡偷电通宵打游戏。走廊里的电据说是半副的交流电,CRT屏幕接上电四角会有奇怪的彩虹纹,而且有源音箱一接就会烧。我们寝室,慢慢从最整洁寝室,变成了最脏乱差寝室。原先班里开班会,都是到我们寝室来的。后来,大家懒到晚上洗完脚都不倒洗脚水的地步了,地上堆满了报纸和烟头,呵呵 …

在校期间,正式学习的第一门编程语言是Pascal,第二门是汇编,数据结构也是基于Pascal的,甚至大二暑假实习的时候要用Pascal写一个Pascal的小型编译器(很遗憾我当时被借调到实验室去做项目了,没赶上)。大二时,为了进学校的IBM中心实验室,我自学了点C/C++和Java。学C++时,找了本《Visual C++从入门到精通》,照着书上的例子敲进去,呼呼呼,编译器报了好几百个错,仔细地一点一点查看,有的是自己的typo,也有是书籍的印刷错误。从此,我就特别痛恨书名是从入门到精通的书籍,绝对是伪劣书刊的代名词。在实验室给老师做项目,还是学了不少东西,我们一帮同学还给实验室写了个网站,参加全国高校IBM中心实验室的比赛,拿过个一等奖呢。当时去参赛时,老师是把网站的前端后台刻了张光盘带去参赛的,呵呵…

在实验室一开始,跟着两个高我一年的师兄搞Java+VRML,大三下半年的时候,还帮两个研究生做毕设来着,由那开始,我就特瞧不上研究生教育,决心坚决不上研究生。后来,大四上半年的时候,阴差阳错和同学参加了一个语音传输的小比赛,是一个什么日本公司赞助我们学校搞的。当时用了多线程、多播等,调用Windows ACM来压缩音频,还自己臆想了一个类似freelist的缓冲区管理。据说我们这一组总评排第三来着,后来为了鼓励本科生的参与精神,颁给我们一个一等奖。到毕业设计时,我和搭档开始弄视频传输,主要也就是用Windows VCM来压缩视频,据说后来评了个优秀毕业设计,还据说当年老师手下几个研究生在继续完善我们的系统,拿这个东西毕业呢。

我很痛恨学校里的教育方式,总体来说是,学不“知”用。还好二年级就学了基础物理,要不然我都不知道微积分有啥用。还有计算数学,虽然会用到微积分,但是还是不明白,计算数学是干啥用的。典型的还有,线性代数、概率论等等。现在回过头来看,这些数学多重要啊,真后悔当初没好好学。好不容易离散数学是真章吧,老师又忒离散,把我们这些学生搞得神经分裂,最后才考了60多分。如果当初能从一个比较前沿的应用领域入手,例如基于统计的自然语言处理,我们肯定会有很大的兴趣,把这些基础学科都学好。还有C语言,大三才开始教,我仗着自己C++/Java都很熟,满不在乎,结果考试时尽是考查错题和输出题,险些不及格。害得我找工作时,每每说自己擅长C/C++时,都被很严格的盘问…

在学校4年,最大的收获是,交了女朋友,也是我现在的老婆。我们是同班同学,从大二开始确定恋爱关系。在那时,我们是很认真的、本着将来结婚组建家庭来谈恋爱的。当时追她的时候,在食堂凑到她身边吃饭,因为我吃得快,她吃得慢,为了不至于我吃完了不好意思不闪人,我那个时期的饭量很大,吃7两米饭,然后还喝一大盆粥。大四时,她希望考研究生的,我就帮她复习,也去陪考了。最后她如愿考上了本校的研究生。我的总分太低,英语还不及格,以至于实验室的老师本来想特招我,都没办法。毕业后,我就到北京工作了,两地分开的两年半,我的电话费花了很多,呵呵…

现在想想,如果不是在校期间就情定终身,我们这种社交圈子小而又小的IT民工,还真很容易变成剩男剩女。现在,我们结婚已7年,小孩儿都快3岁了…

借助shared_ptr模拟RCU(read-copy-update)

RCU较RWL有更好的性能,其读操作几乎是free的;writer需要先对原始数据做一份拷贝,再进行修改(在同一时刻只能有一个writer),完成之后替换掉原来的指针(如果swap不是原子性操作,需要critical section的保护);然后,由reclaimer在适当的时机将原始数据占用的内存释放掉。这样,writer不像RWL会因为有reader而被阻塞。RCU和RWL一样,比较适用于读多写少的情景。

RCU多见于操作系统的内核中,也有user-space的实现可供参考(liburcu)。个人觉得,如果将reclaimer的回收工作分摊到某个reader或writer上,借用tr1::shared_ptr,应该可以很方便的实现。下面是实现的代码,我对并发编程经验尚浅,一直拿不太准,是否正确实现了,贴出来请大家多指正!

基本思路是这样的,reader可以通过get_reading_copy()获得当前数据的shared_ptr(记为Generation 1,G1);不过当m_is_swapping为1时,要阻塞等待。writer通过get_updating_copy()得到当前数据的一个副本(记为Generation 2,G2),由m_is_writing进行保护,只允许有一个写者进入;在更新完成之后,writer调用update()将这个副本的shared_ptr传回来,然后通过swap操作令m_data_ptr指向新的数据(G2),然后打开m_is_writing和m_is_swapping。writer持有的那个shared_ptr在调用update()之后指向了原始数据(G1),之前reader(s)持有的shared_ptr(s)也同样指向的是原始数据(G1),当这些shared_ptr(s)统统被析构时,会释放掉原始数据所占用的内存(可能发生在writer或reader上)。新的reader则会获得新数据的shared_ptr。如果有另外一个writer进入,得到的是新数据的副本(记为Generation 3,G3)。因此,如果指向G1的那些shared_ptr(s)还没有被完全析构时,有可能存在多个不同代(generations)的数据副本。

template <typename T>
class rcu_protected
{
public:
    typedef T                                   type;
    typedef const T                             const_type;
    typedef std::tr1::shared_ptr<type>          rcu_pointer;
    typedef std::tr1::shared_ptr<const_type>    rcu_const_pointer;
    rcu_protected() : m_data_ptr (new type()) {}
    rcu_protected(T* data) : m_data_ptr (data) {}
    rcu_const_pointer get_reading_copy ()
    {
        LockGuard< CRWLock,
                  &CRWLock::read_lock,
                  &CRWLock::read_unlock> l_guard (m_ptr_lock);
        return m_data_ptr;
    }
    rcu_pointer get_updating_copy ()
    {
        m_writer_lock.write_lock();
        LockGuard< CRWLock,
                  &CRWLock::read_lock,
                  &CRWLock::read_unlock> l_guard (m_ptr_lock);
        return rcu_pointer(new type(*m_data_ptr));
    }
    void update (rcu_pointer new_data_ptr)
    {
        LockGuard< CRWLock,
                  &CRWLock::write_lock,
                  &CRWLock::write_unlock> l_guard (m_ptr_lock);
        m_data_ptr.swap (new_data_ptr);
        m_writer_lock.write_unlock();
    }
private:
    CRWLock     m_ptr_lock;
    CRWLock     m_writer_lock;
    rcu_pointer m_data_ptr;
};

自注:

  1. 在VC2005之后(包括2005),编译器对volatile变量的访问会自动加fence,所以那两个barrier(s)可以省去。
  2. 其实在update()中,直接将new_data_ptr赋值给m_data_ptr应该也是可以的,但是可能导致在update()中去析构m_data_ptr指向的数据,而我们应该让update()能尽可能快的完成。
  3. 感谢Dmitry Vyukovreview,我遗漏了一种简单的情况,当reader等到m_is_swapping为0,准备拷贝指针时,突然又有writer线程进入要update指针,这就可能导致crash了… 应该用一个rw_lock将读和写保护起来 … 教训啊,任何关键数据的读写,都应该是全程保护的 …

更新SunPinyin-MacOS-2.0.2 beta 1 (10.5/10.6)

本此更新的主要内容包括:

  1. 为全拼切分器加入了模糊切分的功能,即根据上下文将fangan自动切分为fang'an或fan'gan。
  2. 为双拼加入了南方模糊音的功能。
  3. 将删除用户自造词的快捷键改为ctrl+command+num,以避免和Space的快捷键相冲突。

上述的一些功能,虽已大体稳定,但尚未经过严格的测试;另外还有其他一些bug fixes,也计划在2.0.2中加入。欢迎有兴趣尝鲜的朋友下载试用,SunPinyin-MacOS-2.0.2-beta1.zip。已安装2.0/2.0.1版本的朋友,无需删除已安装的版本,直接运行安装程序即可。

首次安装的朋友请注意,当安装程序进行到“下载数据文件”步骤时,请点击“开始…”按钮下载必要的数据文件(文件较大,可能比较耗时)。

Mastering Python in 2 hours

这是准备向同事介绍Python v2.x的Slides,很抱歉我成了标题党,“mastering”的说法实在是言过其实的。我只是把一些python常用的用法,以及例如decorator和metaclass等不是很常用但比较常见的用法,罗列在一起。总体还是比较粗糙,也不免有很多遗漏和误谬,请大家多指正了 ...