博士科研一段时间,对说话人识别和语种识别的相关领域有些了解,对世界从事该方向研究的知名机构以及他们的技术水平也略知一二。摸爬滚打一二载,有些话也是不吐不快。
首先解释两个名词,说话人识别,也就是通常意义上的声纹识别,是根据给定的一段语音确定说话人身份的生物鉴定技术;语种识别,是根据一段语音,自动判断出该语音的语言种类。随着语音技术的发展与它们在日常生活中的逐渐渗透,这两种技术各自有着一定的应用空间。例如,前者就可以应用到安全控制领域,例如使用电话银行的时候,就可以通过说话人识别技术,使个人账户更加安全;后者可以应用到多语言前段处理环境,例如一个国际的语音中心,通过语种识别,可以讲呼叫电话转向合适的电话服务员进行处理。
尽管说话人识别和语种识别的定义不同,使用领域不同,但是在实现的算法上倒是有很多相同的地方。国际上,说话人领域的学者往往也是语种领域的,反之亦然。这两项技术有点“不分家”的感觉。从技术实现角度来讲,他们都是先把语音转化为特征,之后利用特征建立模型进行识别;从学科隶属角度而言,它们都是典型的模式识别问题。所谓模式识别,就是利用计算机进行学习的问题,就是让计算机有“智力”,能向人一样学习并且解决问题(顺便多说一句,模式识别和人工智能有很大重叠的部分)。既然是模式识别,就离不开训练库和测试库。所谓训练库,就是学习的素材,就好像在学校期间学习的内容一样;所谓测试库,就是测试的内容,检测学习能力的好快,看看计算机是否理解了学习的内容,就好像在学校期间的期末考试一样。问题是,不同的训练库和测试库,同样的模式识别算法会有不同的性能。这就好比有人擅长数学,有人擅长语文一样。为了解决这个问题,美国的国家标准专利局(NIST)站出来了,说“我当老师,我出题,大家答题,看谁的成绩好”,于是,国际统计的NIST评测诞生了。NIST评测的两个分支就是说话人评测和语种评测,一般是隔年一次,说话人评测和语种评测错开。最近几次是07、09年的语种评测(LRE 07\LRE 09)和08年的说话人评测(SRE 08)。
1. LRE 07 独占鳌头
LRE 07 是我参加的第一次评测,评测单位并不是很多,20多家家。国际知名机构有麻省理工的林肯实验室(MIT LL)、加州大学伯克利分校(美国)、剑桥研究中心(Cambridge)、捷克博诺技术大学(BUT),国际商业机器公司(IBM)等;国内有清华电子(THU-EE,),中科院。LRE 07是MIT LL的辉煌一笔,无论是实际工作性能还是最佳系统性能都远优于竞争对手,一时间傲视群雄,无人能敌。MIT LL的很多技术都是原创,其备选技术都比其他单位的主流技术好,这让同行心服口服,甘拜下风。最接近MIT LL的是BUT(捷克),BUT是NIST SRE 06年杀出的黑马,是当年说话人评测的最大赢家。BUT的技术很有意思,它鲜有自己的独创技术,系统基本仿照MIT LL;但是BUT做的细节功夫就好,系统性能出色,让人不服不行。中国的中科院在语种识别方面资历深厚,主管是海外留学归来的语种识别元老,和国际接轨很早。这次评测前,BUT发布了一个供科研使用的解码器。中科院敏感的捕捉到了这个消息,并把该解码器用于自己的系统中,取得了国际中上,国内第一的名次,还不错。THU EE没有使用该解码器,性能不如中科院,排在其后。至于其它家,例如Berkeley,Cambridge,虽然名气挺大,但系统性能不行,就不多说了。哈~~
2. SRE 08 群雄并起
SRE 08是我参加的第二次评测。参加评测前,有些不愉快的事情发生,我也就做了一个月的准备工作(一般而言,至少是半年的准备时间),其结果是THU EE最好的单系统,连我自己都有些吃惊:)不扯自己了,先说评测结果。科大讯飞(iFly)赢得了国际评测综合指标第一名,提升了中国在国际上该领域的研究地位。这个结果,想必关注一点时事,关注些科大讯飞的人都能知道。结果刚出来时,宣传可谓是铺天盖地,google,baidu上输入科大讯飞,搜出的头十几条都是“科大讯飞语音识别技术取得重大进展 说话人识别勇夺国际大赛第一”相类似的文章(随便找到的一个链接http://www.ccmw.net/article/24337)。让我不禁感慨,iFly公司的宣传团队果然很是出色。从技术角度而言,iFly和BUT很有相似之处,前面所说,BUT主要是仿照MIT LL的技术路线,在某些地方,用功更加仔细,所以系统性能有时比MIT LL还要好;iFly是仿照国际上最有潜力的技术路线(从这点上看,科大人的技术眼光还是相当好的),在训练数据的选择上更是大胆,也是独创技术很少,但是仿照相当成功。当年,科大对JFA技术执着与坚持使iFly荣登冠军宝座。不过iFly在宝座上坐的也并不是很稳当,与当年MIT LL在语种评测独占鳌头不同,iFly并没有将对手拉来一段距离,仅是比他们强一些罢了。这个也好理解,iFly没有独创的精神,只是仿照。仿照就决定了与其他人其实是站到同一起跑线上的,只是谁跑的更快一点罢了,没有质的改变。但无论怎么说,iFly取得的国际第一给中国人争脸,仅此一条,就让我佩服佩服。
SRE 08参加的评测单位很是不少,国内外共有43家,有很多都是国人耳熟能详的知名研究机构,麻省理工,斯坦福,伯克利,剑桥,IBM,摩托罗拉等。NIST评测俨然成为国际技术的练兵舞台。评测排名下来,THU-EE虽不是很出色,但还是在中上水平。
SRE 08 评测当年出现一个较为尴尬的局面,技术的创始人MIT LL性能很一般,排名中等;但是MIT LL的学生都是各个出色,在评测中取得了好成绩,让人很是觉得奇怪
3. LRE 09 大浪淘沙
实在不知道怎么描述这次的LRE 09评测,看好的两家单位,BUT和iFly都出现了或大或小的失误。先说BUT。和往届评测使用的电话数据不同,本次评测使用的是广播语音数据。广播语音数据由VOA提供,但是VOA仅提供了广播的地区,并不保证语音的语言种类。这么说吧,VOA提供它在中国的广播,并理所当然认为这些都是汉语,都给打上汉语的标签,建议用作汉语学习数据。但如果某个电台恰巧是中国地区教英语的那,这些数据就会起到很严重的误导作用。NIST很经济也很懒,它知道,如果这些数据让专家听一遍,这可是很大的一笔费用。但如果自己处理,则是很麻烦的一件事情,因此,NIST让BUT把这些数据预先处理一下,也就是让BUT先识别一便,给大家一个参考答案,让大家自己看着办,自己想办法用。就这件事情而言,可见在NIST眼中,BUT是多么有重量的一家单位。然而,BUT在利用段长信息进行校准的时候,出现了大的偏差,使系统性能明显下降了。从而BUT第一次跌出了前三名的位置。iFly很有意思,根据iFly的系统描述,他们在系统的构建下了很大的功夫,其系统的最优性能(NIST排名不看最优性能,以实际性能为准)也是国际数一数二的水平,然而实际性能与最优性能相差较大。雄心勃勃的科大也无缘前三名。MIT LL倒是宝刀不老,尽管从评测计划上看,换了不少人,但功力犹存,依然获得评测第一,不过与07年相比,今年评测与对手相差很少。在语种识别投入大力气的都灵工艺大学(LPT,意大利)取得的成绩与MIT LL相仿。MIT LL虽然风光还在,但已经不牛气十足。
上面说了两家最好的评测单位,今年的第三名是THU-EE(在另一项关键指标中,是国际第二名)。THU-EE倒是很沉默,没有任何报道。THU-EE今年在使用高层信息上,仿照国际领先单位很成功;在频谱层技术上,已经有了很多独创。至于THU-EE的人员内幕和技术内幕,暂时还不好讲,沉淀一段时间再说吧。
No comments:
Post a Comment