CN1095563C

CN1095563C - 向被声音启动的数据处理系统发送声音样本的方法和装置

Info

Publication number: CN1095563C
Application number: CN96195188A
Authority: CN
Inventors: 乔伊·李·克里那; 斯考特·哈兰·伊森斯; 里奇·李·珀斯通; 乔恩·哈拉尔德·韦那
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1995-06-30
Filing date: 1996-06-27
Publication date: 2002-12-04
Anticipated expiration: 2016-06-27
Also published as: CZ395397A3; JP3335178B2; KR100297076B1; HUP9801839A3; PL324025A1; KR19990022423A; DE69606042T2; US5704009A; EP0836720A1; CA2220861C; JPH10507559A; WO1997002526A1; HUP9801839A2; CN1189900A; DE69606042D1; EP0836720B1; PL182225B1; CZ287316B6; CA2220861A1; TW366483B

Abstract

本发明为一种把被分析的声音样本从用户携带的无线传输装置传送给带有语音识别系统的远程声音启动的数据处理系统的装置和方法。该方法包括的第一步骤是把用户的声音特征存贮到无线传输装置的存储器(例如RAM芯片)中。第二步骤包括用声音启动传输装置和语音识别系统。在传输装置和语音识别系统被启动之后，其第三步骤包括把声音特征从存储器传送给语音识别系统，从而使用户能与被声音启动的处理系统直接进行口头通信。

Description

向被声音启动的数据处理系统发送声音样本的方法和装置

本发明涉及改进与语音识别系统的通信，更具体地说，是涉及向一个数据处理系统的一个依赖于说话者的语音识别系统传送声音样本的方法和装置，但不限于此。

口语在人与人的通信以及人-机通信和机-人通信当中起到重要作用。例如，现代语音邮件系统、帮助系统、以及电视会议系统都把人的语音包括进去了。再有，随着技术继续更新，人的语音将在机/人通信中发挥更大的作用。特别是可以预见，一个无线ATM机(自动取款机)(或任何类型的无线机，如油泵、旅行信息亭、销售端点)将包含一个语音识别系统，从而用户只需向ATM机说话。本发明试图使用户容易而有效地与这类机器进行口头通信，而无需向这种机器插入卡片或任何其它类型的装置。

传统的语音识别装置“听取”并理解人的语音。然而，为了具有可以接受的声音识别精度，传统的语音识别系统利用了所存储的用户声音样本。用户朗诵30个左右精心构造的句子，这些句子能抓住足够的声音特征，从而产生出声音样本。语音特征含有用户语音的韵律学特征，包括节奏、音调、变音和速度。传统的语音分析器处理语音样本，分离出每个双音(diphone)段的音频样本并确定特征韵律曲线。语音分析器使用众所周知的数字信号处理技术例如隐式马尔可夫模型，以产生出双音段和韵律曲线。所以，利用存储的语音样本，传统的语音识别系统有大约90％的准确率。然而，若每次用户想与一无线机器进行口头通信时都需要重复那30个句子，这将是很不利的。

根据所给出的背景信息，对于大量用户而言，将会特别希望能够高效率地、有效地通过语音与无线交互相器进行远程通信，这对于他们是特别有利的。然而，这必须开发出一种技术或装置，使得在用户能以高准确率与机器进行口头通信之前，把分析过的用户声音样本传送给该机器。

本发明的第一方面的发明提供了一种方法，用于改善与至少一个远程声音启动数据处理系统的声音通信。该处理系统中具有一个语音识别系统。该方法包括以下步骤：

(a)把用户的声音特征存贮在一个无线传输装置的存储器中；

(b)响应声音启动命令，用声音启动该无线传输装置和远程语音识别系统；以及

(c)响应对无线传输装置和语音识别系统的启动，将声音特征从存储器传送给语音识别系统，从而使用户能与被声音启动的处理系统直接进行口头通信。

本发明第二方面的发明提供了一种声音传输系统，该系统使与设在远程数据处理系统中的远程语音识别系统进行声音通信成为可能，该声音传输系统包括：

无线传输装置，其中有存储器用于存贮用户的声音特征；

该无线传输装置和语音识别系统适应于响应由无线传输装置收到的声音启动命令，从而被启动；以及

该无线传输装置适应于响应启动语音识别系统和无线传输装置，以从存储器向语音识别系统传送声音特征，从而使用户能直接与语音识别系统进行口头通信。

在本发明的一个最佳实施例中，一种装置和由计算机实现的方法把被分析的声音样本从用户携带的无线传输装置传送给远程数据处理系统，该系统具有语音识别系统以读取声音样本。该方法包括的第一步骤是把一组用户声音特征存储到无线传输装置的一个存储器(例如一个RAM(随机存取存储器)芯片)中。第二步骤包括响应声音命令用声音启动传输装置和远程语音识别系统。在传输装置和语音识别系统已被启动之后，其第三步骤包括自动地从存储器到语音识别系统远程传送声音特征，从而使得用户能直接与被启动的数据处理系统进行口头通信。

本发明提供一种改进的声音传输系统，它响应预先定义的声音命令，自动地把用户的声音特征传输给一个无线数据处理系统。

本发明还提供一种装置(例如传输装置)，用于存储用户的声音特征和把声音特征传送给数据处理系统，还提供一种装置用于启动数据处理系统去等待和接收这个声音特征。

现在将参考附图以实例更详细地描述本发明。

图1显示实现本发明的代表性硬件环境的方框图。

图2显示了根据本发明的改进的声音传输系统的方框图。

图3显示了一个用户携带无线传输装置与远程数据处理系统通信的情况。

图4显示了从无线传输装置向远程数据处理系统传送声音特征的流程图。

本发明的最佳实施例包括把含有用户声音特征的声音样本远程自动传送给语音识别系统的方法和装置。

该最佳实施例是在膝上计算机或工作站(如图1所示)中实现的。工作站100包括中央处理单元(CPU)10(例如IBM^TM的Power PC^TM601或Intel^TM486微处理器)用于处理高速缓存器15，随机存取存储器(RAM)14，只读存储器16，以及非易失RAM(NVRAM)32。由I/O适配器18控制的一个或多个磁盘20提供了长期存储能力。多种其他存储介质也可以利用，包括磁带、CD-ROM、以及WORM驱动器。也可以提供可拆卸存储介质，以存储数据或计算机处理指令。

来自采用任何适当操作系统(如Sun Solaris^TM，MicrosoftWindows NT^TM，IBM OS/2^TM，或Apple MAC OS^TM)的桌上型计算机的指令和数据通过RAM14控制CPU10。然而，本行业的熟练人员不难认识到，其他硬件平台和操作系统也可以用来实现本发明。

用户通过由用户接口适配器22控制的I/O装置(即用户控制器)与工作站100进行通信。显示器38向用户显示信息，而键盘24、指点装置26、传输装置30及扬声器28则让用户去指挥计算机系统。也可以利用其他类型的用户控制器，如游戏棒、触摸屏、或虚拟现实头戴送受话器(headset)(图中未画出)。通信适配器34控制该计算机系统和由网络适配器40连到网络上的其他处理单元之间的通信。显示适配器36控制该计算机系统和显示器38之间的通信。

图2显示出根据该最佳实施例的一个完整的声音传输系统200的方框图。传输系统200包括声音特征提取器210、传输装置220以及语音识别系统230。声音特征提取器210装在任何适当的工作站(如图1所示工作站100)中，包括模数转换(A/D)子系统204、语音分析器206以及语音压缩电路207。

图4显示出从无线传输装置向远程数据处理系统传送声音特征的流程图。参考图2和图4，在本实施例中，用户把包含说话者足够的声音特征的声音样本(例如大约30个句子)通告给话筒202(步骤410)。声音特征包括声音的韵律，例如节奏、音调、变音和速度。这类句子对于语言合成技术专家而言是公知的。例如，一个句子可以是“The quickfox jumped over the lazy brown dog”(敏捷的狐狸跃过了褐色的懒狗)”。A/D子系统204(和222)对声音样本取样和数字化，该子系统可包括任何适当的模拟-数字系统，如IBM的MACPA(即多媒体音频接收和回放适配器)，Creative Labs的声霸(Sound Blaster)声卡或单片机解决方案(步骤412)。

接下来，任何适当的传统的语音分析器206对被数字化的声音样本进行处理，以把每个双音段的音频样本隔离开并确定韵律曲线(步骤414)。语音分析器206使用众所周知的数字信号处理技术，例如隐式马尔可夫模型，以产生双音段和韵律曲线。美国专利4,961,229号和3,816,722号描述了合适的语音分析器。

语音编码电路207利用传统的数字编码技术压缩双音段和韵律曲线，从而降低对传输带宽和存储的要求(步骤416)。语音编码电路207把得到的被压缩韵律曲线和双音段存储在传输装置220的RAM226(例如存储器)中。本专业专家会认识到，可以用任何适当类型的存储器装置代替RAM226，例如流水线短时脉冲存储器(Pipeline burstmemory)，快闪存储器，或缩小尺寸的DASD。传输装置220还包括由声音启动的用于接收声音启动命令的话筒221、A/D子系统222、语音识别电路224、电源(未画出)，处理器228以及传输单元229。

图3显示出一用户携带无线传输装置220与一远程数据处理系统310通信的情况。参考图2、3、4，在该最佳实施例中，用户携带传输装置220与携带一枚胸针类似。另一种方法是用户能把传输装置220带在他/她的嘴上。当用户希望与远程数据处理系统(例如自动取款机(ATM))310中的语言识别系统230通信时，用户(他携带着传输装置220)靠近远程数据处理系统310并把一个声音启动命令(例如“COMPUTER(计算机)”；“LOGON COMPUTER(登录计算机)”)朗读到传输装置220的声音启动话筒221中。(步骤418)。说明这一点是重要的，即“无线”的含义是数据处理系统310与传输装置220之间是无线的。由声音启动的话筒221检测声音启动命令，而A/D子系统222则对那个声音启动命令进行采样和数字化。A/D子系统221把被数字化的声音启动命令发送给语音识别电路224。

语音识别电路224(及234)包括任何适当的声音识别电路，如IBM的Voice type Dictation^TM(声控)产品或Dragon voice Recognitionsystem(龙牌声音识别系统)中的声音识别电路。如果语音识别系统224识别出了这个声音启动命令，它便向处理器228发送一个指示这一命令的信号。处理器228响应这一信号，向传输单元229发送一个信号，以把该声音启动命令传送给语音识别系统230的接收单元232(步骤420)。传输单元229可以是任何适当类型的无线传输单元(例如激光、红外光发射二极管)；然而，在该最佳实施例中，传输单元229是一个射频(RF)发射机。处理器228向RAM226发送一个短的暂停(time out)信号，以让语音识别系统230被唤醒(步骤422)。

语音识别系统230包括接收单元232，语音解压电路233以及语音识别电路234。系统230可放在任何适当的工作站(例如工作站100)中。接收单元232把收到的声音启动命令发送给语音解压电路233，在那里它被解压。语音解压电路233把声音启动命令发送给声音识别电路234。如果语音识别电路234识别出这个声音启动命令，它便被启动并等待接收来自传输装置220的韵律曲线和双音段。于是，单一的声音启动命令启动了传输装置220和语音识别系统230。所以，在经过程时暂停之后，处理器228指示RAM226通过传输单元229和接收单元232把韵律曲线和双音段发送给语音识别电路234(步骤424和426)。语音识别是电路234使用那些韵律曲线和双音段来识别用户的声音。现在用户可以直接对语音识别系统230讲话了。

因此，该最佳实施例把用户的声音特征传送给一个无线远程机器，这只需要用户朗读一个声音启动命令而无需做任何其他事情。不需插入卡片。所以，用户能同时启动不止一个无线远程数据处理系统，而靠插入卡片是不可能实现这一点的。

尽管已经参考具体实施例显示和描述了本发明，但本行业的熟练人员会理解，在本发明的范围内可以在形式和细节上做出前述的和其他的改变。

Claims

1.一种改善与至少一个带有语音识别系统的远程声音启动数据处理系统进行声音通信的方法，包括以下步骤：

(a)把用户的声音特征存贮在一个无线传输装置的存储器中；

2.根据权利要求1的方法，其中步骤(a)包括下列步骤：

获取用户的声音样本；

对获取的声音样本进行数字化，从而构成被数字化的声音；

利用语音分析器从数字化声音中提取声音特征；以及

把声音特征存贮在存储器中。

3.根据权利要求1或权利要求2的方法，其中步骤(b)包括下列步骤：

由无线传输装置接收来自用户的声音启动命令以唤醒传输装置；以及

把该声音启动命令从无线传输装置传送给语音识别系统以唤醒该语音识别系统。

4.根据权利要求3的方法，其中步骤(b)还包括如下步骤：

从无线传输装置向存储器发一个信号，以允许在传输声音特征之前使语音识别系统被唤醒。

5.根据权利要求4的方法，其中步骤(c)包括以下步骤：

从处理器向存储器发送一个信号以把声音特征传送给语音识别系统。

6.一种声音传输系统，用于使能与放在远程数据处理系统中的远程语音识别系统进行声音通信，该声音传输系统包括：

无线传输装置，其中有存储器用于存贮用户的声音特征；

7.根据权利要求6的系统，还包括：

声音特征提取器，用于从用户的声音样本中产生声音特征。

8.根据权利要求6或权利要求7的系统，这里无线传输装置的组成包括：用于接收声音启动命令的话筒，用于识别该声音命令的语音识别电路，以及用于把收到的声音启动命令传送给语音识别系统的传输单元。

9.根据权利要求8的系统，其中的传输单元由一个射频(RF)发射机构成。

10.根据权利要求8的系统，其中的无线传输装置还包括一个处理器，用于控制存储器和传输单元。

11.根据权利要求9的系统，其中的无线传输装置还包括一个处理器，用于控制存储器和传输单元。