asrman: January 2012

VXML技术
第一章电话增值业务的新增长点

随着信息技术的发展和普及，电话不再是人们仅仅用来进行语音通信的工具，人们希望通过它获得更多的信息；另一方面，互联网上有大量的内容和信息需要通过电话终端呈现。由于电信运营商有大量的空闲电话网络，需要利用闲置资源来提升话务量和服务质量，因而，语音互联网，一种具有代表性的内容服务业务应运而生。它可以使普通的电话用户使用自然语言通过互联网进行交互，获取相关的信息服务，且不需要特殊的终端；可以将使用互联网的用户扩展到所有的电话用户，有效地刺激话务量的增长。基于万维网联盟(W3C)可扩展标记语言(XML)的语音可扩展标记语(VXML)就是专门为开发此类业务而设计的一门语言。

第二章 VoiceXML简介

1、 VoiceXML的历史与背景
VoiceXML的出现最早可以追溯到1995在AT&T公司开发的基于XML的电话标记语言（PML）。随后，AT&T、Lucent Technologies以及Motorola公司分别各自着手开发自己的类似于PML的语音标记语言。到了1998年，W3C组织的“语音浏览器”会议上，AT&T和Lucent Technologies分别展现了他们各自的类同PML的标记语言、Motorola和IBM公司分别推出VoxML和SpeechML、HP和PipeBeach公司也分别推出TalkML和VoiceHTML。AT&T、IBM、Lucent Technoglies、以及Motorola随后成立了VoiceXML论坛，其目的是为了建立一个语音对话应用系统的国际标准。到了2000年，AT&T、IBM、Lucent Technologies、以及Motorola通过W3C协会联合推出语音可扩展标记语言VoiceXML1.0。该标准一经推出，便得到相关行业众多公司的响应。经过两年多的论证和实际系统验证，VoiceXML2.0最终草案在2003年推出。

2、为什么要用VoiceXML？
VoiceXML的推出给电话语音系统带来全新的应用和开发概念，使传统的CTI技术从繁琐、封闭的模式中走了出来，使广大的语音系统开发人员可以用极其简单的方法实现复杂系统的开发。
完全替代传统CTI：传统的电话语音系统典型的工作方式是接受用户的按键输入和语音文件播放、跟据用户的需求为用户提供相应服务。基于VoiceXML开发的电话语音系统完全可以替代传统CTI系统所能提供的功能。
语音识别功能：基于VoiceXML开发的电话语音系统除了接受用户的按键输入之外，还可以接受用户的语音输入。系统通过语音识别功能实现对用户输入语音到文本的转换。这对于许多仅用按键输入方式而无法解决或解决起来很繁琐的应用领域很有实用意义。
语音合成功能：基于VoiceXML开发的电话语音系统除了能够播放预先录制的语音文件之外，还可以将系统中的文本转换成语音的方式播放给用户。这对于那些需要播报即时消息和可变信息等的应用领域很有实用价值。
与互联网联结：长期以来，公用电话网和互联网是分离的。随着互联网技术的迅速发展，互联网信息与日俱增，以及互联网相关服务的日新月异，将互联网与公用电话网整合为一体，使广大的电话用户也能享受到互联网提供的信息和服务显得越来越有吸引力。VoiceXML使公用电话网与互联网有机地结合，使两网的信息能够相互流动。例如，电话语音流言可以通过互联网以电子邮件的方式传送到目的地；互联网上的新闻可以通过电话播放给用户等。
灵活的数据库接口：许多电话语音应用系统离不开数据库访问。VoiceXM通过脚本方式提供灵活的数据库接口，使得应用系统可以方便地访问各种数据库，如：Microsoft SQL Server 2000、Oracle、Sybase、Microsoft Access、MySQL等。
简化开发过程：用VoiceXML将电话语音应用系统开发人员从繁琐的编码细节中解脱了出来。开发人员不需要了解相关软件(如语音识别和语音合成)和硬件(如语音卡)API的编程接口，只需要把精力放在应用领域的业务流程上。开发过程轻松快捷、开发周期大大缩短（7-10倍）。VoiceXML使开发人员得以用简单的方法实现复杂的工作。
除此之外，基于VoiceXML开发的语音应用系统具有很高的系统可扩展性、可维护性、可移植性、可重用性和开放性。

3、 VoiceXML现状
自2000年VoiceXML1.0推出以后经过不断的修改，于2003年1月推出最新的VoiceXML2.0最终推荐版本。根据W3C称，该版本将会比较稳定，鼓励各VoiceXML浏览器生产厂家可以根据此版本进行开发。预计不久VoiceXML2.0将会正式推出。

4、小结
VoiceXML标准的出现给电话语音应用系统的开发带来了全新的概念，同时还大大扩展了语音应用系统的应用范围。可以预计，VoiceXML标准的推广将会极大地推动电话语音应用系统的开发和应用，将给广大的电话用户带来深远的影响。

第三章 VXML的结构模型

VXML的结构模型包含以下组件：
1、文件服务器(即Web服务器)存放VXML脚本，保存应用程序的服务逻辑，并提供数据库查询与其他系统的操作功能，能够接收VXML编译器的请求，根据请求的内容以动态生成的VXML文档作为回应；
2、VXML编译器负责解释VXML文档，引导和控制用户与执行平台之间的交互作用；
3、执行平台根据编译器环境的指令，完成和用户的交互同，这其中包括与PSTN网连接技术、TTS（Text To Speech）文本转语音技术和ASR（Automated Speech Recognition）自动语音识别技术。
和Web浏览器类似，VXML编译器环境和执行平台构成了一个语音浏览器。
VXML2.0规范中定义的功能包括：合成语音输出功能、文语转换功能、语音文件输出功能、语音识别功能、识别双音多频(DTMF)输入功能、录音功能、简单的电话控制功能(如呼叫转移)。从VXML的功能可以看出，VXML适合开发各种交互式语音回应(IVR)业务，如声讯类业务类业务、聊天类业务、企业门户业务等。

第四章结束语
VXML的出现为电话语音系统带来全新的应用和开发概念，使语音系统开发人员可以用极其简单的方法实现复杂系统的开发。基于智能网（由程控交换机节点、7号信令网及业务控制计算机构成的电话网）的VXML技术的电话语音系统的实现结合了智能网先进的组网模式、强大的呼叫控制功能、专门的语音资源功能以及VXML技术本身的优点，利用了现有智能网设备能力，减少了设备投资和重复建设。

如果大家对VXML有兴趣可以看http://www.vxml.org！

asrman

Blog Archive

Saturday, January 28, 2012

中国科技大学

Saturday, January 21, 2012

Implementing PCA/Whitening - Ufldl

Whitening - Ufldl

Monday, January 16, 2012

Project Majel: Google’s Siri-killer to improve Android Voice Actions | 9to5Google | Beyond Good and Evil

Beyond Siri: DARPA’s BOLT

Thursday, January 5, 2012

VoiceXML简介_BBM_百度空间

Festival: Linux Text-To-Speech Tutorial and Demo

Wednesday, January 4, 2012

NativeAccent® | Products | Carnegie Speech

Voice-to-Text and Mobile Voice Recognition Blog by Vlingo

recaptcha背后的图书数字化_Qteqpid 1/2_百度空间