asrman: NIST评测那些事_sanphiee

http://blog.sina.com.cn/s/blog_4c5114120100dg7y.html

最近有本书，叫《明朝那些事》（好像最近好几年了~~,呵呵）。稍微看过一些，没有时间系统研究。据某位帅哥说，有个才女，在看完《明朝那些事》后，不禁感慨，“我操，以前白活了”。于是乎，我对这本书的敬意，由帅哥+才女的推崇而变得无可附加。但尊敬归尊敬，我还是没有时间读它，只是觉得书名挺好，“那些事”雅俗共赏，简单易懂，比那些文绉绉，华而不实的病态语言来的亲切。所以，关于NIST说话人评测和语种评测的种种事情，也用“那些事”来说吧~

博士科研一段时间，对说话人识别和语种识别的相关领域有些了解，对世界从事该方向研究的知名机构以及他们的技术水平也略知一二。摸爬滚打一二载，有些话也是不吐不快。

首先解释两个名词，说话人识别，也就是通常意义上的声纹识别，是根据给定的一段语音确定说话人身份的生物鉴定技术；语种识别，是根据一段语音，自动判断出该语音的语言种类。随着语音技术的发展与它们在日常生活中的逐渐渗透，这两种技术各自有着一定的应用空间。例如，前者就可以应用到安全控制领域，例如使用电话银行的时候，就可以通过说话人识别技术，使个人账户更加安全；后者可以应用到多语言前段处理环境，例如一个国际的语音中心，通过语种识别，可以讲呼叫电话转向合适的电话服务员进行处理。

尽管说话人识别和语种识别的定义不同，使用领域不同，但是在实现的算法上倒是有很多相同的地方。国际上，说话人领域的学者往往也是语种领域的，反之亦然。这两项技术有点“不分家”的感觉。从技术实现角度来讲，他们都是先把语音转化为特征，之后利用特征建立模型进行识别；从学科隶属角度而言，它们都是典型的模式识别问题。所谓模式识别，就是利用计算机进行学习的问题，就是让计算机有“智力”，能向人一样学习并且解决问题（顺便多说一句，模式识别和人工智能有很大重叠的部分）。既然是模式识别，就离不开训练库和测试库。所谓训练库，就是学习的素材，就好像在学校期间学习的内容一样；所谓测试库，就是测试的内容，检测学习能力的好快，看看计算机是否理解了学习的内容，就好像在学校期间的期末考试一样。问题是，不同的训练库和测试库，同样的模式识别算法会有不同的性能。这就好比有人擅长数学，有人擅长语文一样。为了解决这个问题，美国的国家标准专利局（NIST）站出来了，说“我当老师，我出题，大家答题，看谁的成绩好”，于是，国际统计的NIST评测诞生了。NIST评测的两个分支就是说话人评测和语种评测，一般是隔年一次，说话人评测和语种评测错开。最近几次是07、09年的语种评测（LRE 07\LRE 09)和08年的说话人评测（SRE 08）。

1. LRE 07 独占鳌头

LRE 07 是我参加的第一次评测，评测单位并不是很多，20多家家。国际知名机构有麻省理工的林肯实验室（MIT LL）、加州大学伯克利分校（美国）、剑桥研究中心（Cambridge）、捷克博诺技术大学（BUT），国际商业机器公司（IBM）等；国内有清华电子（THU-EE， NIST评测那些事），中科院。LRE 07是MIT LL的辉煌一笔，无论是实际工作性能还是最佳系统性能都远优于竞争对手，一时间傲视群雄，无人能敌。MIT LL的很多技术都是原创，其备选技术都比其他单位的主流技术好，这让同行心服口服，甘拜下风。最接近MIT LL的是BUT（捷克），BUT是NIST SRE 06年杀出的黑马，是当年说话人评测的最大赢家。BUT的技术很有意思，它鲜有自己的独创技术，系统基本仿照MIT LL；但是BUT做的细节功夫就好，系统性能出色，让人不服不行。中国的中科院在语种识别方面资历深厚，主管是海外留学归来的语种识别元老，和国际接轨很早。这次评测前，BUT发布了一个供科研使用的解码器。中科院敏感的捕捉到了这个消息，并把该解码器用于自己的系统中，取得了国际中上，国内第一的名次，还不错。THU EE没有使用该解码器，性能不如中科院，排在其后。至于其它家，例如Berkeley，Cambridge，虽然名气挺大，但系统性能不行，就不多说了。哈~~

2. SRE 08 群雄并起

SRE 08是我参加的第二次评测。参加评测前，有些不愉快的事情发生，我也就做了一个月的准备工作（一般而言，至少是半年的准备时间），其结果是THU EE最好的单系统，连我自己都有些吃惊：）不扯自己了，先说评测结果。科大讯飞（iFly）赢得了国际评测综合指标第一名，提升了中国在国际上该领域的研究地位。这个结果，想必关注一点时事，关注些科大讯飞的人都能知道。结果刚出来时，宣传可谓是铺天盖地，google，baidu上输入科大讯飞，搜出的头十几条都是“科大讯飞语音识别技术取得重大进展说话人识别勇夺国际大赛第一”相类似的文章（随便找到的一个链接http://www.ccmw.net/article/24337）。让我不禁感慨，iFly公司的宣传团队果然很是出色。从技术角度而言，iFly和BUT很有相似之处，前面所说，BUT主要是仿照MIT LL的技术路线，在某些地方，用功更加仔细，所以系统性能有时比MIT LL还要好；iFly是仿照国际上最有潜力的技术路线（从这点上看，科大人的技术眼光还是相当好的），在训练数据的选择上更是大胆，也是独创技术很少，但是仿照相当成功。当年，科大对JFA技术执着与坚持使iFly荣登冠军宝座。不过iFly在宝座上坐的也并不是很稳当，与当年MIT LL在语种评测独占鳌头不同，iFly并没有将对手拉来一段距离，仅是比他们强一些罢了。这个也好理解，iFly没有独创的精神，只是仿照。仿照就决定了与其他人其实是站到同一起跑线上的，只是谁跑的更快一点罢了，没有质的改变。但无论怎么说，iFly取得的国际第一给中国人争脸，仅此一条，就让我佩服佩服。

SRE 08参加的评测单位很是不少，国内外共有43家，有很多都是国人耳熟能详的知名研究机构，麻省理工，斯坦福，伯克利，剑桥，IBM，摩托罗拉等。NIST评测俨然成为国际技术的练兵舞台。评测排名下来，THU-EE虽不是很出色，但还是在中上水平。

SRE 08 评测当年出现一个较为尴尬的局面，技术的创始人MIT LL性能很一般，排名中等；但是MIT LL的学生都是各个出色，在评测中取得了好成绩，让人很是觉得奇怪 NIST评测那些事

3. LRE 09 大浪淘沙

实在不知道怎么描述这次的LRE 09评测，看好的两家单位，BUT和iFly都出现了或大或小的失误。先说BUT。和往届评测使用的电话数据不同，本次评测使用的是广播语音数据。广播语音数据由VOA提供，但是VOA仅提供了广播的地区，并不保证语音的语言种类。这么说吧，VOA提供它在中国的广播，并理所当然认为这些都是汉语，都给打上汉语的标签，建议用作汉语学习数据。但如果某个电台恰巧是中国地区教英语的那，这些数据就会起到很严重的误导作用。NIST很经济也很懒，它知道，如果这些数据让专家听一遍，这可是很大的一笔费用。但如果自己处理，则是很麻烦的一件事情，因此，NIST让BUT把这些数据预先处理一下，也就是让BUT先识别一便，给大家一个参考答案，让大家自己看着办，自己想办法用。就这件事情而言，可见在NIST眼中，BUT是多么有重量的一家单位。然而，BUT在利用段长信息进行校准的时候，出现了大的偏差，使系统性能明显下降了。从而BUT第一次跌出了前三名的位置。iFly很有意思，根据iFly的系统描述，他们在系统的构建下了很大的功夫，其系统的最优性能（NIST排名不看最优性能，以实际性能为准）也是国际数一数二的水平，然而实际性能与最优性能相差较大。雄心勃勃的科大也无缘前三名。MIT LL倒是宝刀不老，尽管从评测计划上看，换了不少人，但功力犹存，依然获得评测第一，不过与07年相比，今年评测与对手相差很少。在语种识别投入大力气的都灵工艺大学（LPT，意大利）取得的成绩与MIT LL相仿。MIT LL虽然风光还在，但已经不牛气十足。

上面说了两家最好的评测单位，今年的第三名是THU-EE（在另一项关键指标中，是国际第二名）。THU-EE倒是很沉默，没有任何报道。THU-EE今年在使用高层信息上，仿照国际领先单位很成功；在频谱层技术上，已经有了很多独创。至于THU-EE的人员内幕和技术内幕，暂时还不好讲，沉淀一段时间再说吧。

asrman

Blog Archive

Sunday, July 10, 2011

NIST评测那些事_sanphiee_新浪博客

No comments:

Post a Comment