VoiceXML与多通道
- 语音界面的新标准
2003/01/28
世界上最古老的用户界面--人类语言终于在二十一世纪借助于VoiceXML,一种语音可扩展标记语言发展成熟起来。作为世界上第一个真正的语音通信标准,它定义了应用开发商向用户提供新型信息访问服务的方式。通过这种服务,用户在任何地方,都可以通过电话或任何移动设备,虚拟访问任何信息。VoiceXML正在被广泛应用于旅游、金融与信息服务等行业的各种业务领域中,甚至是政府部门与市政机构,全球的无线运营商等。
VoiceXML最初由VoiceXML论坛创建,现在VoiceXML由万维网联盟(W3C)主持。后者是一个全球性组织,它已经制定了一系列网络技术标准。其宗旨在于为用户定义一种新方法,运用基于Web的服务通过口头指令和DTMF键盘实现交流,通过事先记录的话音、合成话音或音乐流获取信息。为了迎接这种挑战,W3C定义了一套在设计上与网页编写标准相类似的标记语言,以规范应用程序的语音问题,例如用户对话流、自动语音识别与相关语法、语音合成与呼叫控制等。

应用中的VoiceXML
在今天的通话应用市场上,应用VoiceXML的基本目标在于全力扩大现有网站及其内容的容量,使它们适应交互式语音响应应用,同时减小复杂应用方案的编程复杂性。此外,在客户服务器信息处理环境中,它允许语音与数据服务的轻松结合。
VoiceXML是专门设计用于抽取应用开发商在底层特定平台上的编程内容。在本质上,由于开发商不再需要在通话平台上编写微小细节的地址代码,从而简化了语音应用的创建。它实现了应用程序内容的标准化,例如话音识别语法与呼叫控制等。因此,应用VoiceXML编译程序的系统,虽然具有自己的特定规格,但是无需考虑已经抽取的特定系统的要求,就可以容易地移植到其他系统中。作为一种通用语言,VoiceXML不但适合应用开发商,而且也适合提供新闻、天气预报及航空服务信息的服务提供商。
VoiceXML设计的工作原理:语音应用程序作为系列页存储在类似于网络服务器的文件服务器上。从实现平台接收到输入呼叫时,VoiceXML编译程序会向文件服务器发出一个特定URL请求,就像用户浏览网络时输入网站地址一样。文件服务器可以与编译程序直接相连,也可以设置在外部,通过本地网或互联网的IP协议访问。他们可以保持应用程序的服务逻辑,可以提供数据库查找与其他系统操作功能。
然后,这些页可以向编译程序提供系统需要的对话流和各种操作,例如要求呼叫用户提供特定语音输入。用户的回应影响对话编译,会使上述请求返回文件服务器。而后,下一VoiceXML页会完成答复,从而用户对话得以持续。
VoiceXML应用于简单应用比较理想,例如自动值班应用程序。在此程序中,呼叫用户与系统间的对话不很复杂,用户交互简单。同时,VoiceXML也可应用于较为复杂的应用中。在这些应用中,向用户提供多种选择,数据检索范围较大。基于VoiceXML的应用接口向用户提示事先录制的和合成的对话,可以理解简单的单词和词组。随着这种技术的不断改进,它可以支持更丰富的人机自然语言对话。
结构与HTML相同
就结构而言,VoiceXML应用与目前应用广泛的HTML应用相同。唯一的差别在于前者使用语音浏览器,而后者使用Netscape或Internet Explorer作为浏览器。语音浏览器可以生成HTTP请求,形成结果标记。在这种情况下,VoiceXML图2说明了语音系统的基本结构。

更多新规范
由于具有一系列新规范,Voice XML性能非常强大。作为W3C语音浏览器工作组的开发内容,每种规范都具有自己独特的作用。尽管本文不可能详细说明所有的这些规范,但其中的两个是值得介绍的。
话音合成标记语言(SSML)规范,界定了一种通过话音合成器生成合成话音的标准方法。在语音应用方案中,合成话音又称之为正文-语音合成。基于Sun Microsystems的JSGF或JSML规范,SSML规范设计用于向应用开发商提供一种控制合成话音输出,如单词发音、大小、音调、语速与节奏等的标准方法。
- 语音浏览器 一种编译设备,可编译Voice XML语言并能够编译用户发出的话音与DTMF输入指令,同时通过文语转换和预录音系统提供应答。
- 文语转换 从文本输入自动生成合成话音的过程。
SSML提供一些关键设计元素,帮助实现跨平台和跨不同文语转换引擎之间语音输出的一致性。
呼叫控制可扩展标记语言(CCXML),设计用于支持VoiceXML应用中的复杂的通话呼叫控制,处理与呼叫相关的操作,诸如呼叫转移、会议、选择呼叫应答与长线连接(系统把呼叫用户与出站线路连接,当出站呼叫结束时,再应答此用户)等。此外,CCXML还提供一种电话网络信号传输故障访问功能。这是一种运营商非常需要的性能。上述两种语言既相互独立,又相互补充,并且可以单独实现。
多通道
目前,存在一种话音交互与其他交互模式相融合的趋势。多通道顺应了应用开发商的需求。在多通道应用中,使用话音作为输入输出,同时还提供数据接口访问,例如应用HTML的网络接口、短信息服务(SMS)与无线应用协议(WAP)等。换一种说法,多通道应用不仅仅限于简单的输入输出,还能够容纳多种模式,用户不仅可以实现说、写、打字,而且可以通过更为自然的用户界面实现听和看。
W3C已经认识到,把各种不同的设备融合成一种综合应用的需求,并且成立了一个小组进行研究。他们把多通道视为一种扩展网络用户接口、应用多种交互模式的方法,让用户自由选择语音和输入设备,例如辅助键盘、键盘、鼠标和输入笔等。对于输出,用户能够听到语音提示和音频,而且能够查看图形显示器上的信息。 一般来说,真正的多通道应用将不仅允许在访问服务器信息时,不同模态共存于一个设备上,例如移动电话,而且可以存在于多个一起使用的设备上。例如,用户可以一边驾车,一边询问行驶方向。系统响应生成,并通过图形和文本显示器传送到司机的个人信息终端(PDA)或全球定位系统设备上。
W3C已经认识到,把各种不同的设备融合成一种综合应用的需求,并且成立了一个小组进行研究。此机构正在制定一种各种容量下的多通道、多设备同步化规范。 除了W3C正在进行的工作外,其他组织机构也认识到多通道应用的重要性,也提出许多不同的实现多通道的方法。IBM提出一种名为XHTML + 语音的设计方案,将 VoiceXML、XML和HTML相结合。此外,Microsoft、Cisco与Phiplips 语音处理以及其他一些公司共同建立一个研究机构,已经开发出一种名为语音应用语言标记(SALT)的多通道设计方案。
目前的多通道应用
近年来,随着社会发展步伐的加快,用户越来越期望随时随地获得信息。尽管传统的计算机是获取信息的一种最佳方式,但是用户更时常需要通过一种小的移动装置,如手机、无线PDA或智能全球定位系统来获得这些信息。同时,尽管语音应用正在逐渐成为了一种访问网络或公司数据的有效方法,但是在很多情况下,这种应用适用范围与效率都相当低。但是,应用本文所论述的性能增强方法,用户可以得到更好的服务。
一些目前成功应用VoiceXML的多通道应用包括:
· 蜂窝广播 - 使用SMS 通知服务用户,某一事件发生,允许用户即时操作按钮接受服务。
· 远程信息处理 - 在车辆上通过语音询问信息,并在个人数据终端查看结果。
· 语音电子邮件 - 使用语音指令发送接收电子邮件。
· 即时会议 - 在接通现有呼叫同时,使用语音指令拨打第三方号码,然后三方同时通话。
事实上任何应用方式都是可能的!
VoiceXML与多通道应用,目前应用正在逐步扩大 - 电信运营商DoCoMo与SprintPCS等将其应用于增值服务,以增加自己的收入,旅游巨头美联航等将它用于旅游信息服务,通用电气等企业将它用于允许公司用户访问公司的数据库等。
本文中简要说明的VoiceXML标准以及辅助技术,正在逐步激励应用开发商创建新型服务,鼓舞用户接受新型服务的信心。
可以在下列网站上查看关于VoiceXML的信息:


NMS国际通讯有限公司供稿 CTI论坛编辑
*********************************************************************************************************************
电话用户与Web对话的桥梁——VoiceXML语言
2004/05/09
VoiceXML--语音扩展描述语言是由AT&T、IBM、Lucent Technologies、以及Motorola通过W3C协会于2000年联合推出的电话语音应用系统标准,是为语音应用制订的基于XML的语音可扩展标记语言。有了VoiceXML,互联网信息从此能够以语音的方式流向公用电话网,从而使互联网服务得以延伸到电话用户。VoiceXML彻底改变了传统的CTI(计算机电话集成系统) 的开发模式和应用范围,使公用电话网、语音处理技术、以及互联网有机地结合为一体,架起了电话用户与Web对话的桥梁。
VoiceXML使公用电话网与互联网的结合体现在三个方面:语音浏览器的使用、互联网和公用电话网的信息共享、类似于Web网页开发过程的电话语音应用系统的开发。
1. 语音浏览器的使用
IE、Netscape等Web浏览器的出现有力地带动了互联网的发展,给人们的日常生活和工作方式带来新的变革。Web浏览器通过计算机终端进行文本信息交流,类似地,VoiceXML语音浏览器则是通过电话终端进行语音信息交流。
VoiceXML语音浏览的实现主要依赖于语音处理技术和类似于Web浏览技术的语音浏览技术。在VoiceXML语音浏览器的支持下,电话用户可以用语音输入和传统的按键输入方式通过电话与电话语音应用系统进行对话交流,电话语音应用系统则用语音的方式与用户对话。在此过程中,语音识别(语音到文字的转换)和语音合成(文字到语音的转换)等语音处理技术起着重要的作用。
语音处理技术是使电话用户能够用自然语言的方式与Web对话的关键技术之一。其中,语音识别技术使得应用系统能够识别电话用户的语音输入并将之转换成文字以便计算机处理。目前,最好的语音识别系统能够在一定范围内达到自然语言的识别。虽然由于技术的局限和中国多方言多口音的特征,使得语音识别系统的应用受到一定的限制,但是语音识别技术仍然在不断地走进人们的日常生活,人们也在开始使用语音的方式与电话语音应用系统进行交流。另一方面,语音合成技术相对于语音识别技术来说则在实际应用中显得更成熟。目前,较好语音合成系统已经可以达到比较好的可懂度和自然度。语音合成技术是使互联网信息流向公用电话网的关键技术,它可以将诸如及时新闻等的文本信息转换成语音格式并通过电话播放给用户,从而摆脱了电话用户只能收听到预先录制好的录音的传统使用方式。
除了语音处理技术之外,VoiceXML语音浏览技术也是电话语音应用系统的关键技术。与HTML类似,VoiceXML使得电话语音应用系统根据对话流程所处的状态和具体应用领域的业务需求将当前对话流程转向由互联网URI链接定义的下一个对话流程。在对话流程的定义中,不仅可以访问互联网上的URI文件,而且还可以访问互联网和局域网内的数据库。同时,Web浏览技术的引进使电话语音应用系统与互联网有机地结合,使电话语音应用系统以开放式的方式呈现给电话用户。
VoiceXML语音浏览器利用Web浏览技术将语音处理技术和语音浏览技术整合为一体,极大地扩展了电话语音应用系统的应用范围,同时也使互联网的信息和服务走向电话用户群,从而使得互联网可以赢得更多的用户。
2. 互联网和公用电话网的信息共享
互联网与公用电话网长期以来出于分离状态。随着互联网的飞速发展和互联网信息的迅速增加,让庞大的电话用户群(包括固定电话用户群和移动电话用户群)访问互联网信息和享用互联网提供的服务显得越来越重要。VoiceXML的问世,无疑对互联网服务商、运营商以及内容提供商都提供了一个极好的商机。
首先,VoiceXML浏览技术是开放式的,VoiceXML浏览器可以浏览互联网上的任何公开的文件和数据,这使得电话用户可以借助于语音处理技术通过电话访问互联网信息。例如,电话用户可以通过VoiceXML浏览器收听网上新闻、查询网上数据库、下载和收听语音文件(如音乐、歌曲、留言、语音邮件等) 。因而,VoiceXML浏览技术的使用,使得互联网的信息能够自然地流向公用电话网。
与此同时,VoiceXML浏览技术还可以将公用电话网的信息传送给互联网。公用电话网信息与互联网信息不同之处在于前者是动态的、以语音形式为主并且随着电话对话流的结束而消失。然而,在有些电话语音应用系统中,需要将对话流所产生的信息保存起来,以便将来通过Web浏览器进行访问。例如,用户的语音留言和对话过程等都可以利用VoiceXML浏览技术通过电子邮件或文件的形式传到互联网中进行保存,此后,互联网用户和电话用户就可以分别通过Web浏览器和VoiceXML浏览器访问这些信息。
VoiceXML浏览技术的引入,使互联网和公用电话网得以有机地结合,使两网信息可以互相流动,从而使互联网与公用电话网达到信息共享。
3. 电话语音应用系统的开发
电话语音应用系统的传统开发模式是利用CTI(计算机电话集成)技术将语音卡、交换机等各系统构件组织和集成起来,开发人员因此需要熟悉相关的底层编码并深入了解有关硬件的编程接口才能建立一个传统的电话语音应用系统。VoiceXML的出现则不仅改变了电话语音应用系统的使用方法和使用范围,而且给电话语音应用系统的开发过程带来全新的概念和模式,使电话语音应用系统的开发实际上成为"语音网页"的开发。
首先,VoiceXML浏览器的使用可以使开发人员从繁琐的编程细节中解脱出来。开发"语音网页"不需要了解各系统构件(如语音识别、语音合成、语音卡、交换机等)的编程接口,而是类似于Web网页的开发,只需编写VoiceXML脚本。开发人员因此能够把精力放在应用系统的业务流程上。
其次,"语音网页"的开发过程简单、快捷。开发人员不需要掌握C/C++或Java等高级计算机编程语言便可以开发一个完整的电话语音应用系统,并且所开发出来的系统往往比传统开发方式开发出来的系统更开放、功能更强大。
再者,"语音网页"的开发对开发人员的技术要求较低、开发周期大幅度缩短,从而使开发成本大大降低。所开发出来的应用系统同时还具有很高的可维护性、可移植性、可扩展性以及可重用性。
下面是一个VoiceXML的简单例子。当用户与电话语音系统接通以后,将会听到语音合成的提示信息"用户您好!请选择我们为您提供的服务:"。当用户说"股票市场",语音浏览器就会通过语音识别功能识别用户的选择,然后把对话流程转向另一个VoiceXML脚本文件stocks.vxml。stocks.vxml脚本文件则是一个专门向用户提供股票市场相关服务的语音网页。
显而易见,基于VoiceXML开发电话语音应用系统抛弃了传统的CTI开发模式,使其开发过程类似于Web网页的开发过程。
VoiceXML的出现,使互联网和公用电话网有机地融为一体,从而使得电话用户能够通过电话与网页交流,使公用电话网与互联网实现信息共享,使语音网页的新概念取代传统的文字浏览的网站,使公用电话网成为互联网的延伸,为互联网内容商、运营商以及服务商提供了难得的商机。目前,VoiceXML在发达国家刚兴起不久,中国在开发VoiceXML相关产品方面也是处于刚刚起步的阶段。用VoiceXML开发"语音网页"如同编写HTML语言一样的简单方便,它将引导普通网站的技术革新,揭开语音网站的新篇章!
************************************************************************************************************
VoiceXML语音上网
2004/04/12
有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。
VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。
万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。
为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。
由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用语法格式来识别出用户响应的语音词汇。
下面我们来看一个具体的例子:
系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”
用户:“维护部门。”
ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。
开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。
有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。
VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。
万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。
为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。
由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用语法格式来识别出用户响应的语音词汇。
下面我们来看一个具体的例子:
系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”
用户:“维护部门。”
ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。
开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。

*********************************************************************************************
解决语音门户
2002/06/17
。。语音合成技术在网站语音门户中的应用可以提供诸如有声电子邮件、语音聊天室、电话购物等服务。在不远的将来,语音门户系统必将成为一个全能的“翻译器”,将无穷的互联网资源通过电话提供给用户,为用户提供全天候、全方位的服务。
语音门户的核心技术
。。语音门户要求系统可以进行动态、海量信息的数据查询以及互联网络上信息的访问,需使用的核心技术有:
。。语音合成技术(TTS):用以将文本信息转换为语音信息提供给用户
。。语音识别技术(ASR):用以取代繁琐的按键输入,使输入更为便捷和人性化。
。。VXML技术:用以IVR平台与互联网络交互信息。(IVR:Interactive Voice Response,交互式语音应答系统。)
。。对于信息服务来说,TTS和ASR的融合意味着两重含义。其一,由于声音更加接近人类的语言,改进后的TTS增强了用户对该技术的认可程度;其二,更加自然的TTS和高质量的语音识别器能让计算机和人们进行真正意义上的对话,这样,计算机就能理解对方(人)说的是什么,并且在自己模糊不清的时候,向对方(人)询问,在交流中明晰客户的需求。
核心技术描述
。。语音合成技术的本质是将文本信息转化为语音信息,是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的关键技术之一。
。。语音门户系统是以先进的CTI技术以及开放的Voice XML工业标准为基础,架构在ChinaNet网上的ICP;通过电话畅游互联网,轻松“听”网上的信息,“说”E-mail,“点击”网上的链接。这是对传统电话信息服务的一个重大改革;因为接入服务和内容服务的分离,电话信息服务行业变成了一个开放式的行业,所有传统的ICP都可以按照Voice XML的标准提供内容服务,而丰富多样的内容又必然会刺激用户的增加以及服务需求的增长。由于引入了VXML相关技术,可将平台的复杂内容屏蔽,无须熟悉底层平台即可进行高层应用开发;大大地减轻了开发的难度,缩短开发周期,降低人力成本。
语音门户的建设
。。在不影响电信运营商现有平台的结构和业务功能的前提下,主要需完成三个功能模块的系统建设。在动态信息和海量信息的查询业务上,首先必须完成的是对原有的数字录音回放方式向TTS平台的升级;进而在进行了TTS改造的平台上构建互联网上的公共信息查询服务和个性化信息查询服务;考虑到实际运用情况,在具体业务方面建设UMS系统,可以基于此业务提供个人定制信息的服务,满足人们对于及时性、个性化越来越高的要求。
。。TTS系统、VXML系统、UMS系统与已有IVR(电话语音自动应答系统)平台、Internet、PSTN结合如图所示。
TTS系统的建设
。。传统的数字录音回放方式需要人工进行录音,新兴的计算机技术“语音合成”,可以运用有限的系统资源将无限的文本信息合成为可听的语音信息,从而可以改进传统的录音回放方式。在不改变现有平台的基础上建立的TTS系统可以在信息服务的信息源提供上带来如下改进:
。。就工作量而言,录音需要大量的人力,在信息量以级数增长的今天,录音往往无法满足信息的供给,而语音合成将绝大多数工作由机器代替,人们只需提供现成的文本信息即可输出声音信息。
。。对于动态的信息,尤其是对实时性要求很高的信息如:股票行情等,如果让录音员录音则至少在半小时后才能对外提供,而语音合成可以实现实时的转换,每分钟可刷新一次。
。。由于信息的高速增长,录音数据存放和查询也存在问题。将信息以文本形式存储在计算机中可节约大量系统资源再结合计算机技术对数据库中的信息进行搜索和整理将输出的结果用语音合成转换成声音,这样就可以解决信息服务中海量信息的存储和查询的问题。
。。录音的信息维护、修改的工作量比较大。而文本信息的维护和修改相对要容易得多,通过语音合成技术只需对文本信息进行修改就可以完成信息内容的更改和维护工作。
VXML系统的建设
。。VXML系统的目的就是为了使电话和语音可以应用在互联网络之上,除为消费者服务外,VXML还支持一些商务应用,如话务中心、银行交易和电子商务。通过VXML技术可以使语音门户系统访问到Internet Web上的各种信息,并实现信息的交互。再结合语音合成技术,将文本信息合成为语音信号,用户就可以通过IVR平台来访问Web页面上的信息了。
。。结合VXML技术,语音系统可以提供更多的个人信息服务:商品交易、金融交易、求职招聘等。相对传统的同类服务,此类服务与Internet信息共享,更为贴近用户和可以面对更广泛的人群。
UMS系统建设
。。统一消息系统(UMS)是一个将各种传播手段整合的系统,结合了各种网络,用户可以使用电话、手机、传真、呼机、数字移动设备和个人电脑等途径与系统交互信息。在语音门户平台中加入UMS系统,将有助于平台提供更多样化的服务,与用户结合更为紧密。
。。UMS 是语音与数据融合的产物,一系列的服务提供商可以通过提供UMS服务来扩展自己的业务范围。UMS服务可以通过统一平台来提供给用户, 也可以由服务提供商将各种信息储存设备集成起来,通过不同途径提供给用户。
。。有声电子邮件(Voice-Mail)系统就是UMS系统的一个具体应用,它通过电话、手机等通信工具可以向用户提供Internet上的E-mail服务。因而人们可以不受设备的限制,随时随地的收发电子邮件,即使身处异地,仍然不会错过E-mail中携带的重要商机。
*********************************************************************************************
让电话用户与Web对话
- VoiceXML带来Web访问新概念
2004/04/09
随着互联网技术的迅猛发展,互联网所存储的信息和提供的服务与日俱增,改变了人们的生活及工作方式。然而,互联网长期以来与拥有众多用户的公用电话网脱离,使中国九倍于计算机用户的电话用户不能利用电话享受到互联网提供的丰富多彩的信息和服务。虽然计算机的拥有量在不断的增加,但是在相当长的时间内,计算机用户的数量不会接近电话用户的数量。如何使如此庞大的电话用户群也能访问互联网,是一个摆在相关行业营运商、内容提供商、以及服务商面前的一个挑战和商机。
VoiceXML语音扩展描述语言的问世,给互联网与公用电话网的融合带来希望,使互联网信息能够以语音的方式流向电话网,使互联网服务能够延伸到电话用户。VoiceXML 1.0 是由AT&T、IBM、Lucent Technologies、以及Motorola通过W3C协会于2000年联合推出的电话语音应用系统标准。该标准彻底改变了传统的CTI(计算机电话集成系统) 的开发模式和应用范围,使公用电话网、语音处理技术、以及互联网有机地结合为一体。VoiceXML 1.0一经推出便立即得到世界发达国家相关行业众多厂商的支持,基于VoiceXML标准的产品不断涌向市场。
目前人们对HTML已经很熟悉,类似于用于Web网页标记的HTML,VoiceXML是为语音应用制订的语音可扩展标记语言。VoiceXML使公用电话网与互联网的结合体现在三个方面:语音浏览器的使用,互联网和公用电话网的信息共享,以及类似于Web网页开发过程的语音应用系统的开发。
1. 语音浏览器
Web浏览器(IE和 Netscape) 的出现有力地带动了互联网的发展,给人们的日常生活和工作方式带来新的变革。Web浏览器是通过计算机终端与文本信息进行交流。类似地,VoiceXML语音浏览器是通过电话终端与语音信息进行交流。VoiceXML语音浏览的实现主要是依赖于语音处理技术和类似于Web浏览技术的语音浏览技术。
有了VoiceXML语音浏览器,电话用户可以用语音输入和传统的按键输入方式通过电话与语音应用系统进行对话交流,语音应用系统用语音的方式与用户对话。在此过程中,语音识别(语音到文字的转换) 和语音合成(文字到语音的转换) 等语音处理技术起着重要的作用。语音处理技术的兴起和发展已有相当长的一段时间。然而,语音识别与语音合成技术真正开始走向实际应用还是在最近两年到三年的时间。语音技术是使电话用户能够用自然语言的方式与Web对话的关键技术之一。
语音识别功能使得应用系统能够识别电话用户的语音输入、将之转换成文本以便计算机处理。近年来,语音识别技术有长足的发展,最好的语音识别系统能够在一定范围内达到自然语言的识别。虽然由于技术的局限和中国多方言多口音的特征,使得语音识别系统的应用受到一定的限制,但是语音识别技术仍然在不断地走进人们的日常生活,人们也在开始接受用语音的方式与电话语音系统进行交流。
语音合成技术相对于语音识别技术来说在实际应用中显得更成熟。目前,较好语音合成系统已经可以达到比较好的可懂度和自然度。语音合成技术是使互联网信息流向公用电话网的关键。例如,在语音门户站中所提供的文本信息,如及时新闻等,可以利用语音合成技术将其转换成语音格式并通过电话播放给用户。摆脱了电话用户只能收听到预先录制好的录音的传统使用方式。
除了语音处理技术之外,VoiceXML语音浏览技术也是电话语音应用系统的关键。与HTML类似,VoiceXML使得电话语音应用系统根据对话流所处的状态和具体应用领域的业务需求将对话流程转向下一个互联网上的URI链接定义的对话流程。在对话流程的定义中,不仅可以访问互联网上的URI文件,而且还可以访问互联网和局域网内的数据库。Web浏览技术的引进使电话语音应用系统与互联网有机地结合,使电话语音应用系统以开放式的方式呈现给电话用户。
VoiceXML语音浏览器利用互联网浏览技术将语音处理技术和互联网技术整合为一体,极大地扩展了电话语音系统的应用范围,同时也使互联网的信息和服务走向电话用户群,从而使互联网赢得更多的用户。
2. 互联网与公用电话网信息共享
互联网与公用电话网长期以来出于分离状态。随着互联网的飞速发展和互联网信息的迅速增加,让庞大的电话用户群(包括固定电话用户和移动电话用户) 访问互联网信息和享用互联网提供的服务显得越来越重要。VoiceXML标准的问世,无疑对互联网服务商、运营商、以及内容提供商等是一个极好的商机。
VoiceXML浏览技术是开放式的,VoiceXML浏览器可以浏览互联网上的任何公开的文件和数据,这使得电话用户可以借助于语音处理技术通过电话访问互联网信息。例如,电话用户可以通过VoiceXML浏览器收听网上新闻、查询网上数据库、下载和收听语音文件(如音乐、歌曲、留言、语音邮件等) 。因而,VoiceXML浏览技术的使用,使得互联网的信息能够自然地流向公用电话网。
VoiceXML浏览技术不仅使电话用户能够访问互联网,也可以将公用电话网信息传给互联网。公用电话网信息与互联网信息不同之处在于前者是动态的、以语音形式为主、随着电话对话流的结束而消失。然而,在有些电话语音应用系统中,需要将对话流所产生的信息保存起来,以便将来通过Web浏览器进行访问。例如,用户的语音留言和对话过程等都可以通过电子邮件或文件传输的形式传到互联网。当这些信息被存放在互联网中后,互联网用户和电话用户都可以分别通过Web浏览器和VoiceXML浏览器访问这些信息。
VoiceXML浏览技术的引入,使互联网和公用电话网得以有机地结合,使两网信息可以互相流动,从而使互联网与公用电话网达到信息共享。
3. "语音网页"的开发
VoiceXML标准的出现,不仅改变了语音应用系统的使用方法和使用范围,而且给语音应用系统开发过程带来全新的概念和模式,使语音应用系统的开发实际上是"语音网页"的开发。传统的电话语音系统开发是利用CTI(计算机电话集成)技术将各系统构件,如语音卡或交换机,组织和集成起来。开发人员往往需要熟悉有关的底层编码以及深入了解有关硬件的编程接口,才能建立一个电话语音系统。然而,VoiceXML浏览器的使用,可以使电话应用系统开发人员从繁琐的编程细节中解脱出来。
语音网页的开发不需要了解各系统组成构件,如语音识别、语音合成、和语音卡/交换机等的编程接口。类似于Web网页的开发,语音网页的开发人员只需要编写VoiceXML脚本,从而使开发人员能够把精力放在应用系统的业务流程上。
语音网页的开发过程简单、快捷。开发人员不需要掌握C/C++或Java等高级计算机编程语言便可以开发一个完整的电话语音应用系统。并且所开发出来的系统往往比传统开发方式开发出来的系统更开放、功能更强大。
语音网页的开发对开发人员的技术要求较低、开发周期大幅度缩短,从而使开发成本大大降低。所开发出来的应用系统具有很高的可维护性、可移植性、可扩展性、以及可重用性。
下面是一个VoiceXML简单例子。当用户与电话语音系统接通以后,将会听到语音合成的提示"用户您好!请选择我们为您提供的服务:" 。当用户说"股票市场" ,语音浏览器(通过语音识别功能识别用户输入)将把对话流转向另一个VoiceXML脚本文件stocks.vxml。stocks.vxml脚本文件是一个向用户提供股票市场相关服务的语音网页。
显而易见,基于VoiceXML电话语音应用系统的开发,抛弃了传统的CTI开发模式,使其开发过程与Web网页的开发过程相似。VoiceXML电话语音应用系统的开发过程是语音网页的开发过程。
VoiceXML的出现,使互联网和公用电话网有机地融为一体,从而使得电话用户能够通过电话与网页交流,使公用电话网与互联网信息共享,使语音网页的新概念取代传统的文字浏览的网站,使公用电话网成为互联网的延伸,为互联网内容商、运营商以及服务商提供了难得的商机。目前,VoiceXML在发达国家刚兴起不久,并迅速地得到相关行业的支持和认同。中国在开发VoiceXML相关产品方面也是处于刚刚起步的阶段,深圳市华琛科技有限公司率先在国内推出了VoiceXML语音网关VGateWAY可以全面应用于各类虚拟或自建网站,并同时支持ASP,PHP,CGI,JAVASCRIP等脚本语言。如同编写HTML语言一样的简单方便,它将引导普通网站技术革新,揭开语音网站新篇章!
华琛科技公司供稿 CTI论坛编辑
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=172342