CN1121682C

CN1121682C - 采用非对称话音压缩处理的很低比特率的话音信息系统

Info

Publication number: CN1121682C
Application number: CN96191077A
Authority: CN
Inventors: 瓦尔特·李·戴维斯; 黄建成; 里奥·亚辛斯基
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1995-09-14
Filing date: 1996-06-28
Publication date: 2003-09-17
Anticipated expiration: 2016-06-28
Also published as: EP0792502B1; DE69622985T2; ES2183000T3; ATE222394T1; EP0792502A4; EP0792502A1; US5781882A; DE69622985D1; CN1165574A; KR970707528A; KR100257361B1; WO1997010584A1; JPH10509534A

Abstract

一种处理话音消息来提供低比特率语音传输的装置和方法，该装置处理话音消息，来产生语音参数，这些语音参数被排列成包含一系列参数帧的二维参数矩阵(502)。采用某一预定的二维矩阵变换函数(414)对该二维参数矩阵(502)进行变换，来得到一个二维变换矩阵(506)。然后推导出代表着一组预定模板的模板与二维变换矩阵(506)之间距离的一些距离值。由标识着该组预定模板中的模板的索引来标识被推导出的距离值。比较被推导出的距离值，并选择且随后发射一个索引，该索引对应于该组预定模板中具有最短距离的一个模板。

Description

采用非对称话音压缩处理的很低比特率的话音信息系统

发明领域：

本发明通常涉及通信系统，特别涉及一种话音压缩数字通信系统，该系统采用非对称话音压缩处理，具有非常低的数据传输速率。

背景技术：

通信系统，例如寻呼系统，为了有效地对其进行操作，过去不得不妥善处理消息长度、用户数目以及方便用户三者之间的关系。用户数目和消息长度受到限制，以避免信道过分拥挤，并且避免较长的传输时延。用户的方便程度直接受到信道容量、信道上的用户数目、系统特性以及消息类型的影响。在寻呼系统中，简单地提醒用户拨打某一预定的电话号码的音调单一的寻呼机提供了最高的信道容量，但是对用户来说却有些不方便。常规的模拟话音寻呼机允许用户接收更详细的消息，但是严重限制了某一给定信道上用户的数目。作为实时设备的模拟话音寻呼机还有不能为用户提供一种存储和重复接收到的消息的方法的缺点。带有数字和字符数字显示和存储的数字寻呼机的出现克服了老式寻呼机所带来的问题。这些数字寻呼机提高了寻呼信道的消息处理容量，并且为用户提供了一种存储消息以备今后再次查询的方法。

尽管带有数字或字符数字显示的数字寻呼机具有很多优点，然而一些用户仍然喜爱带有话音通告的寻呼机。在试图在一个有限容量的数字信道上提供这种业务的尝试中，已经尝试了各种数字话音压缩及合成技术，每一种方法有其成功之处，却也有其局限性。例如话音合成器技术，简单地用计算机所产生的声音来代替数字或字符数字显示，听起来根本不象最初人的声音。由双向无线电系统所采用的标准数字话音压缩方法，还不能提供所需要的、能够在寻呼信道上使用的压缩等级。采用当前的技术水平进行数字编码的话音消息，应该说是垄断了信道容量的很大一部分，以致于它们可能使该系统在商业上不成功。

发明内容：

据此，对于通信系统中信道的最佳利用，例如对于寻呼系统中的寻呼信道，需要的是一种对话音消息进行数字编码的装置，这种编码使最终数据是高度压缩的，并能够轻易地与在通信信道上发送的正常数据相混合。另外，需要一种对话音数据进行数字编码的通信系统，这种编码使通信接收设备，例如寻呼机中的处理过程简化到最简程度。

根据本发明的第一个实施例，提出了一种提供低比特率语音传输的处理语音消息的方法。该方法包括以下步骤：处理话音消息，以产生语音参数；把这些语音参数排列成二维参数矩阵，该矩阵包括一系列参数帧；采用某一预定二维矩阵变换函数来变换二维参数矩阵，目的是得到一个二维变换矩阵；推导出一组距离值，这组距离值代表了一组预定模板的模板与二维变换距阵之间的距离，由索引来标识被推导出的距离值，这些索引标识着这组预定模板中的模板；对这组被推导出的距离值进行比较，并从中选出对应于这组预定模板中的这样一个模板的索引，该模板具有这组被导出的距离值中的一个最短距离；并且发射对应于这组预定模板中的模板的索引，该模板有着所选出的最短的距离值。

根据本发明的第一方面，这里提供一种非对称话音压缩处理器，用于处理话音消息，以提供低比特率的语音传输，其特征在于，包括：一个语音输入处理器，用于处理话音消息从而产生数字化的语音数据；一个信号处理器，被编程用于：根据所述的数字化的语音数据，产生语音参数；将所述的语音参数排列成为一个二维的语音参数帧矩阵；利用一个二维离散余弦函数将所述的二维的语音参数帧矩阵变换成为一个二维的参数变换数组；推导出表示多个话音模板与该二变换数组之间距离的距离值，所述二维变换数组与所述多个话音模板之间的距离值由对应于该多个话音模板的索引来标识，其中所述的距离值是利用一组数值中的一个或多个数值导得的，该组数值包括：一个加权数组的一个单元内的一个加权值，一个二维变换数组单元内的一个数值，以及一个代码本的数值；比较被推导出的距离值；和选出一个索引，该索引对应于该多个话音模板之中具有所推导出的距离值中一个最短距离的一个话音模板；和一个发射机，用于发送这个选中的索引。

根据本发明的第二实施例，这里提出一种为提供话音消息而处理低比特率语音传输的方法。该方法包括以下步骤：接收一个或多个索引，该索引对应于一组预定模板中的一个或多个模板，从一个或多个模板来产生一个语音参数数组，上述模板对应于所接收到的一个或多个索引，处理语音参数数组，以产生解压缩的数字语音数据，并且由解压缩的数字语音数据来产生一个话音消息。

根据本发明的第二方面，这里提出一种为提供话音消息而处理低比特率语音传输的方法。该通信设备包括接收机、信号处理器、语音合成器和转换器，接收机被用来接收对应于一组预定模板中的一个或多个模板的一个或多个索引；信号处理器被编程，目的是从对应于所接收到的一个或多个索引的一个或多个模板中产生一个语音参数数组；语音合成器处理语音参数数组并产生解压缩的数字语音数据；转换器从解压缩的数字语音数据来产生话音消息。

根据本发明的第三个实施例，这里提出了一种为提供低比特率语音传输而处理话音数据的方法。该方法包括以下步骤：接收全部话音消息；处理全部话音消息，为的是从中推导出一个索引序列，该索引序列标识了一系列代表着一个语音参数矩阵的预定模板；以及发射该索引序列。

附图说明：

图1是根据本发明，采用数字话音压缩处理的通信系统的方框图。

图2是根据本发明，采用数字话音压缩处理的寻呼终端及其相关寻呼发射机的电气原理图。

图3示出图2中的寻呼终端的运行的流程图。

图4示出图2中的寻呼终端所采用的数字信号处理器的操作流程图。

图5是图解说明图4中的数字信号处理器所采用的数字话音压缩处理的一部分的示意图。

图6是图解说明图4中的数字信号处理器所采用的数字话音压缩处理的细节的示意图。

图7是图解说明图4中的数字信号处理器所采用的另一种数字话音压缩处理的细节的示意图。

图8是图2中的寻呼终端中所采用的数字信号处理器的电原理图。

图9是图解说明根据本发明的压缩话音传输格式的示意图。

图10是根据本发明采用数字话音压缩处理的寻呼接收机的电原理图。

图11是图10中的寻呼接收机所使用的数字信号处理器的电原理图。

图12是表示图10中寻呼接收机的运行的流程图。

图13是表示图10中寻呼接收机中所采用的数字话音数据解压缩步骤的流程图。

图14是图解说明图11中数字信号处理器所采用的数字话音解压缩处理的细节的示意图。

图15是图解说明采用某一预处理代码本的另一种数字话音解压缩处理的细节的示意图。

图16是图解说明采用某一分段代码本的另一种数字话音解压缩处理的细节的示意图。

具体实施例：

图1表示一个通信系统，例如一个寻呼系统的方框图，根据本发明，该系统采用非对称话音压缩处理，利用了很低比特率的语音传输。本发明的非对称话音压缩处理使用了32比特BCH码字来代表一个很长的话音段，典型上是320到480毫秒，正如将在下文中描述的那样。采用常规电话技术，32比特应该代表一个0.5毫秒的语音段。数字话音压缩处理适用于寻呼以及其它非实时通信系统的非实时特性，这些系统提供了在很长的话音段上完成一个高计算密度处理所需的时间。在一个非实时通信中，有足够的时间接收全部话音消息，然后处理该消息。两分钟的延时在寻呼系统中是能够被容忍的，而在实时通信系统中，2秒的延时是难以接受的。数字话音压缩处理的非对称性简化了需要在便携式通信设备例如寻呼机中完成的处理，造成了寻呼应用和其它类似的非实时话音通信的处理空闲。在一个系统的固定部分来完成数字话音压缩处理的高计算密度部分，结果是，在系统的便携部分中只需要完成少量计算，正如下文所描述的那样。

尽管应该懂得，其它非实时通信系统也将得益于本发明，然而这里以举例方式，利用一个寻呼系统来描述本发明。把寻呼系统设计为向需要不同服务的各种用户提供服务。某些用户将需要数字消息服务，其它用户需要字符数字消息服务，并且还有另一些用户可能需要话音消息服务。在该寻呼系统中，呼叫者经由电话机102通过公共交换电话网络(PSTN)104与寻呼终端106进行通信，发出一个寻呼。寻呼终端106向寻呼者提示接收者的标识，并且发送一个消息。刚一接收到所需要的信息，寻呼终端106就回复一个提示，表示寻呼终端106已经接收到了该消息。寻呼终端106对信息进行编码，并把编码后的消息置于发射队列中。在适当的时候，由寻呼发射机108采用发射机108和发射天线110来发射该消息。应该懂得：在一个同播发射系统中，还可以采用覆盖了不同地理区域的多种多样的发射机。

从发射天线110发射的信号由接收天线112来侦收，并由图1所示的寻呼接收机这样的通信设备114来处理。向被寻呼者发出告警，并且消息被显示或被播出(annunciate)，这取决于所采用的消息的类型。

图2中表示了根据本发明采用数字话音压缩处理的寻呼终端106和寻呼发射机108的电原理图。图2中所示的寻呼终端106是一种应该被用来服务于例如在商业无线电共用载波(RCC)系统中众多同时的用户的类型。寻呼终端106采用由控制器216控制的多个输入设备、信号处理设备以及输出设备。控制器216和组成寻呼终端106的各种设备间的通信由数字控制总线210来控制。数字化的话音和数据由输入时分复用高速通道212和输出时分复用高速通道218来处理。应该懂得：数字控制总线210、输入时分复用高速通道212以及输出时分复用高速通道218可以被扩展，目的是为寻呼终端106的扩展提供条件。

语音输入处理器205提供了PSTN104和寻呼终端106之间的接口。PSTN连接可以是多个每条线路被复用的多呼叫数字连接，如图2中所示的数字PSTN连接202，或者是多个每条线路上单呼叫的模拟PSTN连接208。

由一个数字电话接口204来服务于每个数字PSTN连接202。根据本发明，数字电话接口204为数字话音压缩处理的工作提供了所需的信号调整、同步、解复用、信令、监控以及稳压保护。数字电话接口204还可以提供数字化话音帧的临时存储，目的是方便时隙交换和时隙分配，上述时隙交换和时隙分配是把一条通路提供给输入时分复用高速通道212所需要的。正如下文所描述的那样，由控制器216来控制服务请求和监控响应。数字电话接口204和控制器216间的通信通过数字控制总线210。

由模拟电话接口206来服务于每个模拟PSTN连接208。根据本发明，模拟电话接口206为数字话音压缩处理的工作提供了所需的信号调整、信令、监控、模-数及数-模转换以及稳压保护。来自模-数转换器207的数字化话音消息的帧被临时地存储在模拟电话接口206中，目的是方便时隙交换和时隙分配，上述时隙交换和时隙分配是把一条通路提供给输入时分复用高速通路212所必需的。正如下文将描述的那样，由控制器216来控制服务请求和监控响应。模拟电话接口206和控制器216间的通信是通过数字控制总线210。

当检测到输入呼叫时，从模拟电话接口206或数字电话接口204向控制器216发送服务请求。控制器216从多个数字信号处理器中挑选一个数字信号处理器214。控制器216连接模拟电话接口206或数字电话接口204，经由输入时分复用高速通路212向所选择的数字信号处理器214请求服务。

为了实现完成寻呼过程所需要的所有信号处理操作，可以对数字信号处理器214进行编程。由数字信号处理器214实现的典型的信号处理功能包括根据本发明的数字话音压缩、双音多频(DTMF)译码和生成、调制解调器音调生成和译码以及预录音话音提示生成。为了完成上述一种或多种任务，可以对数字信号处理器214进行编程。在数字信号处理器214被编程以执行超过一项任务的情况下，控制器216在选定数字信号处理器214时，分配需要被完成的这个特定任务；或者，在数字信号处理器214被编程，仅完成单一任务的情况下，控制器216选择一个被编程的数字信号处理器214来实现在寻呼处理中完成下一步所需的特定操作。任何普通技术人员都熟悉完成双音多频(DTMF)译码和生成、调制解调器音调生成和译码以及预录音话音提示生成等操作的数字信号处理器214的操作。下面详细描述实现一个极低比特率非对称话音压缩处理器的操作的数字信号处理器214的操作。

在话音消息的情况下，以下面的方式来进行寻呼请求处理。连接到模拟电话接口206或数字电话接口204的数字信号处理器214向始发者提示一个话音消息。数字信号处理器214采用下面描述的过程来压缩接收到的话音消息。在控制器216的控制下，经由输出时分复用高速通道218，由压缩过程产生的压缩后数字话音消息被连接到寻呼协议编码器228。寻呼协议编码器228把数据编码成适当的寻呼协议。下文详细描述的一个这样的协议是邮政委员会标准咨询小组(POCSAG)协议。应该懂得，也可以采用其他信令协议。控制器216指定寻呼协议编码器228，经由输出时分复用高速通道218把编码后的数据存储在数据存储设备226中。在适当的时候，在控制器216的控制下，编码后的数据经由输出时分复用高速通道218被下载到发射机控制单元220中，并采用寻呼发射机108和发射天线110来发射编码后的数据。

在数字消息的情况下，除了由数字信号处理器214来完成的处理之外，以类似于话音消息寻呼的方式来继续寻呼请求的处理。数字信号处理器214向始发者提示一个DTMF消息。数字信号处理器214对接收到的DTMF信号进行译码并产生数字消息。以与由数字信号处理器214在话音消息情况下产生数字话音消息的同样方式来由数字信号处理器214处理所产生的数字消息。

除了由数字信号处理器214来完成的处理之外，字符数字寻呼处理以类似于话音消息的方式来进行。对数字信号处理器214进行编程，以译码并产生调制解调器音调(modem tone)。数字信号处理器214与始发者间的接口采用了一种标准的用户接口协议，例如寻呼入口终端(PET)协议。应该懂得，也可以采用其它通信协议。以与由数字信号处理器214在话音消息情况下产生数字话音消息的同样方式来由数字信号处理器214处理所产生的数字消息。

图3是描述当处理话音消息时，图2所示的寻呼终端106的操作的流程图。表示了两个进入流程图300的入口点。第一个入口点是针对与数字PSTN连接202有关的处理，第二个入口点是针对与模拟PSTN连接208有关的处理。在数字PSTN连接202的情况下，处理开始于步骤302，在该步骤中通过数字PSTN线路接收请求由输入数据流中的位图(bit pattern)来指示来自数字PSTN连接202的服务请求。数字电话接口204接收该服务请求并把它发送给控制器216。

在步骤304中，通过数字帧解复用，把从数字信道请求服务中接收到的信息从输入数据流中分离出来。从数字PSTN连接202中接收到的数字信号通常包括被多路复用为一个输入数据流的多个数字信道。数字信道请求服务被解复用，然后把数字化的语音数据临时存储，目的是便于时隙分配以及输入时分复用高速通道212上的数据复用。由控制器216来分配输入时分复用高速通道212上的数字化语音数据的一个时隙。相反，由数字信号处理器214产生的、用来传输给数字PSTN连接202的数字化语音数据被适当的格式化，用于传输和多路复用为输出的数据流。

与模拟PSTN连接208相类似，当从模拟PSTN线路上接收到一个请求时，处理开始于步骤306。由低频交流(AC)信号，或者由直流(DC)信号来信号化(signal)输入呼叫信号。模拟电话接口206接收该请求并把该请求发送给控制器216。

在步骤308中，模拟话音消息被转换为数字数据流。在其整个时序期间接收到的模拟信号被称为模拟话音消息。通过模-数转换器207，模拟信号被抽样，产生话音消息样本，并且被数字化，产生数字化的语音样本。模拟信号的样本被称为话音消息样本。数字化的话音样本被称为数字化的语音数据。在由控制器216所分配的时隙中，数字化语音数据被多路复用到输入时分复用高速通道212上。相反，在传输给模拟PSTN连接208之前由数字信号处理214所产生的输入时分复用高速通道212上的所有话音数据都受到数-模转换。

如图3所示，模拟PSTN连接208和数字PSTN连接202的处理路径在步骤310汇合，此时，一个数字信号处理器被指定用来处理输入呼叫。控制器216选择一个被编程的数字信号处理器214来完成数字话音压缩处理。被指定的数字信号处理器214在以前指定的时隙中，在输入时分复用高速通道212上读取数据。

在步骤312中，由数字信号处理器214读取的数据被存储为未压缩的语音数据以供处理。在步骤314中，对所存储的未经压缩的语音数据进行处理，下文将详细描述这一点。在步骤316，从处理步骤314得到的压缩后话音数据被适当地编码用于在一条寻呼信道上传输，正如下文所描述的那样。在步骤318，编码后的数据被存储在寻呼队列中，供后来的传输。在适当的时候，排序后的数据在步骤320中被送到发射机108，并在步骤322中被发射。

为了得到很高的压缩度，本发明的数字话音压缩处理分析了很长的语音数据段。图4是一个流程图，细化了步骤314，该图表示了图2的寻呼终端中所采用的数字信号处理器在处理数字化语音数据时的操作。在步骤404，分析了以前被存储在数字信号处理器214中作为未经压缩的话音数据的数字化语音数据402，并且增益被归一化。以音节为基础来调整数字语音消息的信号幅度，以充分利用系统的动态范围，并改善表观的信噪比性能。

在步骤406，把归一化的未经压缩的语音数据分组为一个预定数量的数字化语音样本，这些样本代表了短持续时间的语音段。代表短持续时间语音段的分组后语音样本在本文中被称为生成语音帧。这些组典型上包含20至30毫秒的语音数据。在步骤408中，在短持续时间语音段上完成语音分析，以产生语音参数。语音分析过程通常是一个线性预测编码(LPC)过程。LPC过程分析短持续时间语音段并计算很多参数。存在很多不同的已知的语音分析处理方法。任何技术人员都将清楚哪一种语音分析方法将最好地满足所设计的系统的要求。本文描述的数字话音压缩过程最好计算13个参数。前3个参数量化了语音段中的全部能量、特征音调值以及发声(voicing)信息。其余的10个参数被称作频谱参数，基本上代表了数字滤波器的系数。尽管应该懂得还可以采用其它的量化等级，然而在本发明的最佳实施例中，采用一个8比特数字单字(digital word)来量化每一个参数。

在步骤410，在步骤408中所计算的13个参数被堆积为二维参数矩阵或包括一系列参数帧的参数堆栈(stack)。这13个参数占据了矩阵中的一行，本文称之为语音参数帧。在步骤412，二维语音数据矩阵的段被分段成预定数目的参数帧的数组。每个数组通常具有8到32个帧。应该懂得，数组越大，下文所描述的计算步骤的计算密度将变得越大。数字信号处理器技术的现状以及当前寻呼市场所涉及的经济情况暗示着对于动态语音周期，8个语音参数帧的数组是最佳的。对于缺少动态语音的周期或静默期间可以采用具有16个或更多个语音参数帧的数组，然而出于描述的目的，我们将使用具有8个语音参数帧的数组代表很长的话音段，参见本说明的开始。举例来说，这个很长的话音段包含8个帧，每一帧包含20到30毫秒的语音数据或一个160到240毫秒的模拟话音消息段。

在步骤414中，采用预定二维矩阵变换函数的数学变换处理被应用于每个语音参数帧的数组。该变换过程把语音参数帧的数组变换为二维已变换数组。二维已变换数组是一个按重要性的次序来排列的参数数组。应该懂得，尽管还可以采用其它变换来产生已变换数组，然而所采用的数学处理最好是一个二维离散余弦变换函数。

在步骤416，把二维已变换数组与一组亦被称为话音模板的预定模板进行比较。这组预定模板在本文中被称为代码本。下面在本发明的另一个实施例中将显示，该代码本可包含两组或更多组模板。举例来说，带有一组模板的寻呼应用的一个典型代码本将具有512到1024个模板。矩阵量化函数将二维已变换数组与代码本中的每个模板进行比较，并计算代码本和每个模板间的加权距离。该加权距离在本文中也被称为距离值。挑选出与二维已变换数组有着最短距离的模板的索引420，用它来代表很长的语音段，正如将在下文中更加详细地描述的那样。由标识着该组预定模板的模板索引来标识被推导出的距离值。

在步骤416所选出的索引420被编码为一个预定的寻呼信道上的寻呼传输协议。正如下文更加详细地描述的那样，可以把两个索引编码成本发明中所采用的协议的一个码字。重复执行步骤408到416，直到所有很长的语音段已经被量化为一个索引。

图5表示图4中的数字信号处理器所采用的数字话音压缩过程。步骤410中所描述的二维语音数据矩阵被表示为二维参数矩阵502。在步骤408中所产生的每个语音参数帧对应于二维参数矩阵502中的一行。括弧504括起了8个构成一个语音参数数组的参数帧。在步骤414中所描述的预定二维矩阵变换函数把语音参数数组变换为二维已变换数组506。二维已变换数组506被标记，以图解说明如何根据重要性的次序来排列已变换数据，把最重要的数据存储在二维已变换数组506的左上角，并且把最不重要的数据存储在二维已变换数组506的右下角。

图6是图解说明在步骤416中为矩阵量化而执行的过程的示意图。二维已变换数组506被表示为具有用a_i，j来代表的参照标记，这里“a”代表二维已变换数组，下脚标“i”代表数组的行，下脚标“j”代表数组的列。代码本604被表示为具有多个页“k”的一个数组“b”，这里从k＝0到k＝n，对页进行编号。代码本604的每一页是代表一个话音模板的二维数组。用b(k)_i，j来表示代码本604的单元(cells)，这里，“b(k)”代表代码本和页，下脚标“i”代表页b(k)上数组的行，并且下脚注“j”代表页b(k)上数组的列。

在步骤416中所进行的距离计算是这样一个过程：从二维已变换数组506中的相应单元的一个值中减去代码本604中每一页b(k)的模板里的一个单元中的值，对其结果进行平方，把平方后的结果乘以一个加权值，该加权值处于某一预定加权数组606的相应单元中，并且重复这个过程，直到在三个数组的每个单元上已经完成了该过程。二维已变换数组506和模板页b(k)间的距离是前面计算的加权平方之和。这个统计距离被存储在距离数组610中，(d_k)在位置“k”，对应于页号b(k)或该模板的索引。

上面所描述的距离计算可以被表示为下面的公式：

d_k＝∑_i，jw_i，j(a_i，j-b(k)_i，j)²这里：

d_k等于二维已变换数组506和模板页b(k)间的距离，

w_i，j等于一个预定加权数组606的单元i，j中的加权值，

a_i，j等于二维已变换数组506的单元i，j中的值，并且

b(k)_i，j等于代码本604的单元i，j中的值。

在已经计算了二维已变换数组506和代码本604中每一页b(k)的所有模板之间的距离以后，在距离数组610中寻找具有最短距离的单元。对应于代码本604中页b(k)的具有最短距离的单元的索引被存储在索引数组612中。在本发明中，索引是个10比特码字，代表1024页中的一页，或者代表组成代码本604b(k)的模板，并且代表由括弧504括起来的语音参数数组，该数组代表上面所描述的一个很长的话音段。通过采用一系列这些指向存储在通信设备114的代码本中的复制模板的索引，实际上能够复制原始的声音消息，而不需要繁重的处理，正如下文中所描述的那样。

数字信号处理和语音压缩方面的技术人员熟知离散余弦变换过程。代码本的产生发展了训练过程，并且这种处理也是技术人员非常了解的。用一种涉及一系列试验性加权数组和收听试验的经验性过程来产生加权数组。

图7表示了本发明的一个替代的实施例。这里，已经把二维已变换数组506分成尺寸不等的两段-段I701和段II702，尽管如此，却应该懂得，在一定条件下，两段的尺寸也可以是相同的。较小的一段，段I701代表更重要的数据，而较大的一段，段II702代表不太重要的数据。代码本604被分为两个相应的段，标识为模板组I703和模板组II704。以类似方式，模板组II704代表不太重要的数据，并且与模板组I703相比，具有较少的模板数目。加权数组602同样被分为段I705和段II706。采用加权数组计算608和预定的加权数组606段I705来计算二维已变换数组506的段I705与代码本604的模板组I703中的所有模板间的距离，正如上文所描述的那样。这些距离被存储在距离数组710的第一列中。以类似的方式来计算二维已变换数组506的段II702与代码本604的模板组II704的所有模板间的距离，并把这些距离存储在距离数组710的第二列中，正如上文所描述的那样。当已经计算出所有距离值时，在距离数组710的列I中寻找一个索引，该索引代表与二维已变换数组506的段I701有着最短距离的代码本604的模板组I703中的模板。同样，在距离数组710的列II中寻找一个索引，该索引代表与二维已变换数组506的段II702有着最短距离代码本604的模板组II704中的模板。来自列I和列II的索引构成了一个代表很长话音段的码字，正如上文所描述的那样，并且被存储在索引数组712中。二维已变换数组506的段II702在本文中还被称为第二组预定模板。在二维已变换数组506的分段加长了码字的同时，这种分段也改善了话音质量并减轻了计算工作。应该懂得，进一步地分段将进一步提高话音质量并进一步缩短计算时间，然而这样做是以需要更多的数据为代价。

在本发明的另一个实施例中，可以提供多于一个代码本604，以更好地代表不同的讲话者。例如，可以用一个代码本来代表女性讲话者的声音，并且用第二个代码本来代表男性讲话者的声音。应该懂得，还可以提供附加的代码本来反映语言的差别，例如西班牙语、日语等。当采用多种代码本时，可以使用不同的PSTN电话访问号码(telephone access numbers)来区分不同的语言。每一个专用的PSTN地址号与PSTN连接组有关，并且每个PSTN连接组对应于特定的语言和相应的代码本。当不使用专用的PSTN地址号时，在输入话音消息之前，可以通过输入某一预定代码例如DTMF数字来提示用户提供信息，每个DTMF数字对应于一种特定的语言和相应的代码本。一旦所用的PSTN线路或所接收到的DTMF数字识别了始发者的语言，数字信号处理器214从对应于一组预定语言的一组预定代码本中选择一个对应于该预定语言的预定代码本，预定代码本存储在数字信号处理器214中。此后，能够以所识别的语言给出所有声音提示。语音输入处理器205接收这个表明语种的信息并把该信息传送到适当的数字信号处理器214。换句话说，数字信号处理器214能够分析数字语音数据，来判断语种或方言，并选择合适的代码本。

使用代码本标识符(code book identifiers)来标识被用来压缩话音消息的代码本。代码本标识符与索引序列一起被编码，并被发送到通信设备114，正如下文描述的那样，传送代码本标识的另一种方法是把一个代表着代码本的报头(header)加到包含索引数据的消息中。

在本发明的另一个实施例中，在步骤412中被分为语音参数数组的语音参数的数目不是如上文所描述的那样固定的，而是代表了对应于二维参数矩阵的一个数目不定的参数帧。如上所述，对于动态语音周期而言，一个具有8个语音参数帧的数组是最佳的；对于缺乏动态语音的周期或静默期间，一个具有16或更多的语音参数帧的数组应该被认为是最佳的。在本实施例中，进行二维语音数据矩阵的分析，并用它来确定帧的数目，这些帧将组成由括弧504括起来的语音参数数组。在选择了其它数目的帧的周期中，可以增加具有合适的模板的补充代码本供使用。用被发射到通信设备114的数据来对所选择的帧的数目进行编码。

图8表示图2所示的寻呼终端106中所采用的数字信号处理器214的电原理图。采用了处理器804，例如几个标准的市场上可购得的数字信号处理器ICs之一，这样的处理器是被专门设计用来完成与数字信号处理有关的计算。可以从几个不同的厂家得到数字信号处理器ICs，例如由Motorola公司制造的DSP56100。处理器804通过处理器地址和数据总线808连接到ROM806、RAM810、数字输入端口812、数字输出端口814以及控制总线端口816。ROM806存储处理器804完成采用的消息的类型以及控制器216的控制接口所需要的信号处理操作所采用的指令。ROM 806中包含被用来执行与压缩话音消息有关的操作的指令。RAM 810中临时存储了数据和程序变量、距离数组610、索引数组612、输入话音数据缓冲区和输出话音数据缓冲区。数字输入端口812在数据输入函数和数据输出函数的控制下，提供了处理器804和输入时分复用高速通道212间的接口。数字输出端口在数据输出函数的控制下，提供了处理器804和输出时分复用高速通道218间的接口。控制总线端口816提供了处理器804和数字控制总线210间的接口。时钟802为处理器804产生了一个定时信号。

举例来说，ROM806中包含以下程序：控制器接口操作例程，数据输入操作例程，增益归一化操作例程，组帧操作例程，短期预测操作例程，参数堆积操作例程，二维分段操作例程，二维变换操作例程，矩阵量化操作例程，数据输出操作例程，一个或多个代码本，以及矩阵加权数组，正如上面所描述的那样。RAM810提供了程序变量、输入话音缓冲区和输出话音缓冲区的临时存储。

图9表示了一个典型的POCSAG信令格式中所采用的POCSAG帧900，如上所述，POCSAG信令格式适用于对两个10比特索引进行编码。下面画出的表I以举例的方式描述了根据本发明被用来输送数字压缩话音的每个比特的分配。每个POCSAG帧900具有22个用来输送信息的比特，其中：两个10比特代码字以及2个功能比特。每个10比特代码字能够确定多达1024个不同可能的代码本索引之一。如下面表I所示，第1功能比特是一个段尺寸标识符，被用来定义被压缩的语音段的长短，功能比特1指示是否8个或16个语音参数帧在步骤412中被分成语音参数数组。第2个功能比特是代码本标识符，被用来标识压缩话音消息所用的代码本。其余的比特是校验比特，被用于检错与纠错，正如技术上众所周知的那样。

通过下面的例子来说明本发明的优点，POCSAG帧900以1200比特/秒(bps)的速率传输，整个传输时间是26.7毫秒(ms)，如果以2400bps的速率传输，该时间就缩短为13.3ms。在本发明的一个特定的实施例中，POCSAG帧900包括索引数组612的两个索引，索引数组612代表两个240ms的语音段。这样，根据本发明的这个特定实施例，在13.3ms中可以40比1的时间压缩率来传输480ms的语音。还可以计算这个例子中的数据压缩率。常规电话技术以64千比特/秒的速率对语音进行编码。在这个速率下，480ms的语音应该需要30720比特。可以采用本发明以32比持来发射同样的480ms语音，产生一个960比1的数据压缩率。与常规的电话技术的比特率相比，最终的数据适合于很低比特率的语音传输。应该懂得，前面所描述的压缩过程中所采用的参数可以改变，并将导致不同的压缩率和不同的语音质量。

位	功能
位	功能	1	位1＝0，地址帧；位1＝1，数据帧
2～11	第一个10位数据字，代码本索引	1	位1＝0，地址帧；位1＝1，数据帧
2～11	第一个10位数据字，代码本索引	2～21	第二个10位数据字，代码本索引
22	功能位＝0，每个数组8个话音帧功能位＝1，每个数组16个话音帧	2～21	第二个10位数据字，代码本索引
22	功能位＝0，每个数组8个话音帧功能位＝1，每个数组16个话音帧	23	功能位＝0，代码本1功能位＝1，代码本2
24～31	9位校验字	23	功能位＝0，代码本1功能位＝1，代码本2
24～31	9位校验字	32	帧校验字

表I

图10是通信设备114，例如一个寻呼接收机的电原理图。由接收天线112来侦收从发射天线110发射的信号。接收天线112被连接到接收机1004。接收机1004处理由接收天线112接收的信号，并产生一个接收机输出信号1016，信号1016是所发射的已编码数据的复制品。用预定的信令协议，例如POCSAG协议来对已编码数据进行编码。数字信号处理器1008处理接收机输出信号1016并产生一个解压缩的数字语音数据1018，正如下文将描述的那样。一个数-模转换器将解压缩的数字语音数据1018转换为模拟信号，由音频放大器1012放大并由扬声器1014播出。

数字信号处理器1008还提供了对通信设备114的各种功能的基本控制。数字信号处理器1008经过控制总线1020与电池节电器开关1006、代码存储器1022、用户接口1024以及消息存储器1026相连。代码存储器1022存储唯一的标识信息或地址信息，这些信息是控制器实现选择呼叫功能所需要的。用户接口1024为用户提供了指示消息接收的音频、视频或机械信号，并且用户接口还可以包括一个显示屏和按钮，供用户输入控制该接收机的命令。消息存储器1026提供了一个地方，用来存储消息以备将来再次查询，或者允许用户重复该消息。电池节电器开关1006提供了一种在系统正与其它寻呼机通信或没有发射的周期内，有选择地关断对接收机的电源供给的手段，从而以普通技术人员所熟知的方式降低了电源消耗并延长了电池寿命。

图11表示通信设备114中所采用的数字信号处理器1008的电原理图。处理器1104类似于图8所示的处理器804。然而因为在对数字话音消息解压缩时所完成的计算量大大低于压缩处理期间所完成的计算量，并且耗电量在便携式接收机中是至关重要的，所以处理器1104可以是一个较慢的低功耗的型式。处理器1104通过处理器地址和数据总线1110被连接到ROM1106、RAM1108、数字输入端口1112、数字输出端口1114以及控制总线端口1116。ROM1106存储处理器1104所用的指令，处理器1104需要解压缩消息并与控制端口1116接口，来实现信号处理功能。ROM1106中包含执行与压缩话音消息有关的操作所需的指令。RAM1108中临时存储数据和程序变量。在数据输入函数的控制下，数字输入端口1112提供了处理器1104和接收机1004间的接口。在数据输出函数的控制下，数字输出端口1114提供了处理器1104和数-模转换器间的接口。控制总线端口1116提供了处理器1104和控制总线1020间的接口。时钟1102为处理器1104产生一个定时信号。

举例来说，ROM1106包含下列程序：接收机控制操作例程、用户接口操作例程、数据输入操作例程、POCSAG译码操作例程、代码存储器接口操作例程、地址比较操作例程、去量化操作例程、二维逆变换操作例程、消息存储器接口操作例程、语音合成器操作例程、输出控制操作例程以及一个或多个代码本，正如上面描述的那样。

图12是描述通信设备114的运行的流程图。在步骤1202中，数字信号处理器1008向电池节电器开关1006发出一个给接收机1004供电的命令。数字信号处理器1008监视接收机输出信号1016中的一个位图，该位图表示寻呼终端正在发射一个用POCSAG报头调制的信号。

在步骤1204中，就POCSAG报头的出现作出判断。如果检测不到报头，那么数字信号处理器1008就向电池节电器开关1006发出一个命令，在一个预定的时间长度内禁止向接收机供电。在该预定的时间长度之后，在步骤1202，再重复地监视报头，正如技术上众所周知的那样。在步骤1206，如果检测到POCSAG报头，那么数字信号处理器1008将与接收机输出信号1016同步。

实现了同步时，数字信号处理器1008可以向电池节电器开关1006发出一个命令，停止向接收机供电，直到指定给通信设备114的帧是所期望的。在指定帧处，数字信号处理器1008向电池节电器开关1006发出一个向接收机1004供电的命令。在步骤1208，该数字信号处理器1008监视接收机输出信号1016中与指定给通信设备114的地址匹配的一个地址。如果找不到匹配地址，那么数字信号处理器1008就向电池节电器开关1006发出一个命令，禁止向接收机供电，直到同步代码字的下一次发射或下一个指定帧，在此之后，重复步骤1202。如果找到了匹配地址，那么在步骤1210，为了接收而保持供电，并且数据被接收到。

在步骤1212中，完成对在步骤1210中接收到的数据进行纠错，以提高再生话音的质量。在纠错过程中，采用了POCSAG帧900中所示的9个校验位。POCSAG纠错技术是技术人员众所周知的。在步骤1214，存储纠错后的数据。所存储的数据在步骤1216中处理，数字话音数据的处理是一个下面描述的解压缩过程。

在步骤1218，数字信号处理器1008在消息存储器1026中存储那些作为一个或多个索引被接收的解压缩数据，并向用户接口发送一个提醒用户的命令。在步骤1220，用户输入一个命令，显示出(play out)该消息。在步骤1222中，数字信号处理器1008通过把存储在消息存储器中的解压缩话音数据传递给数-模转换器1010来作出响应。数-模转换器1010把解压缩的数字话音数据1018转换为模拟信号，该模拟信号由音频放大器1012放大，并由扬声器1014播出。

图13是表示数字话音解压缩过程的流程图。在步骤1304中，寻呼协议译码器接收用索引系列来编码的数据，这些索引系列对应于代表数字语音消息的一组模板中的一个或多个模板。从接收到的POCSAG编码数据1302中抽取索引，并存储它们。在步骤1306中，采用所存储的索引，从存储在数字信号处理器1008ROM中的代码本中找出相应的模板。

在步骤1308中，采用一个预定的二维逆矩阵变换函数在代码本中的模板上进行二维逆变换，该模板是由从所接收到的POCSAG编码数据中抽取的索引后的索引来指出的。二维逆变换产生一个代表着原始语音参数的LPC语音参数数组。所采用的预定的二维逆变换过程最好是一个二维离散余弦逆变换过程，尽管如此，应该懂得，也可以采用其它的逆变换来产生LPC语音参数数组。

在步骤1310中，LPC参数被用来产生语音数据1312。恢复后的消息数据被存储在用于数-模变换的RAM1108中，并根据用户的请求来播出。

图14是图解说明图13所示的话音压缩处理步骤的示意图。在步骤1304中接收和存储的索引被存储在一个索引数组1402中。索引数组1402中的每个索引指向代码本604中的一页。代码本604由一组完全相同的预定模板的复制组成，这组预定模板复制了被用于压缩处理的模板。存储在索引数组1402中的索引按照它们被接收时的次序，一次被挑选一个。在由所选择的索引指向的代码本中的每一页上，采用一个预定的逆矩阵函数，进行二维逆变换1308。二维逆变换1308产生语音参数1408的二维数组。这些参数是LPC语音参数，在步骤1310中由语音数据合成器来利用，产生语音数据1312。预定的逆矩阵函数最好是一个二维离散反余弦函数。

在ROM1106中可以存储对应于一个或多个预定语言的一个或多个代码本。数字信号处理器1008将根据标识符来选择合适的代码本，上述标识符是由在接收机输出信号1016中接收到的数据来编码的。

在图15所示的本发明的一个替代的实施例中，通过预处理存储在代码本604中的模板来简化接收过程中所需要的数字信号处理。代码本604中的模板实际上与LPC参数数组的尺寸相同，LPC参数是从模板上所完成的二维变换中得出的。因为最终的LPC参数数组实际上与原始模板的尺寸相同，所以用包含LPC参数数组的代码本1504来代替包含模板的代码本604。这样做，在发展期间只需进行一次二维逆变换，并且在处理每个话音消息段时，无需重复进行二维逆变换。通过简单地拷贝代码本1504的一页来产生二维语音参数数组1408。

图16是图解说明与图7所示的替代实施例有关的分段话音解压缩处理的步骤。索引数组1602具有为每个分段页所存储的两个索引。第一个索引选择了对应于压缩过程中所压缩的第一段的模板组I703中的一个模板。第二个索引选择了对应于压缩过程中所压缩的第二段的模板组II704中的一个模板。由来自第一个所选择的页中的模板组I703中的一个模板所代表的段I与由来自第二个所选择的页中的模板组II704中的一个模板所代表的段II相组合，形成一个包括段I1609和段II1608的二维变换数组。进行二维逆变换1306来产生二维语音参数数组1408。

综上所述，本发明对话音消息进行数字编码采用了这种方式：最终数据是高度压缩的，并可以轻易地与在寻呼信道或其它类似的通信信道上发射的正常数据相混合。另外，对话音消息进行数字编码采用了使寻呼机或类似的便携式设备中的处理大大简化这样一种方式。在已经图示并描述了本发明的特定实施例的同时，应该懂得，对于技术人员来说，进一步的修改和完善将会出现。

Claims

1.一种非对称话音压缩处理器，用于处理话音消息，以提供低比特率的语音传输，其特征在于，包括：

一个语音输入处理器，用于处理话音消息从而产生数字化的语音数据；

一个信号处理器，被编程用于：

根据所述的数字化的语音数据，产生语音参数；

将所述的语音参数排列成为一个二维的语音参数帧矩阵；

利用一个二维离散余弦函数将所述的二维的语音参数帧矩阵变换成为一个二维的参数变换数组；

推导出表示多个话音模板与该二维变换数组之间距离的距离值，所述二维变换数组与所述多个话音模板之间的距离值由对应于该多个话音模板的索引来标识，其中所述的距离值是利用一组数值中的一个或多个数值导得的，该组数值包括：一个加权数组的一个单元内的一个加权值，一个二维变换数组单元内的一个数值，以及一个代码本的数值；

比较被推导出的距离值；和

选出一个索引，该索引对应于该多个话音模板之中具有所推导出的距离值中最短距离的一个话音模板；和

一个发射机，用于发送这个选中的索引。

2.根据权利要求1所述的非对称话音压缩处理器，其特征在于，还包括一个编码器，用以将所选中的索引在由所述的发射机发送之前编码成为一个预定的传输信令协议。

3.根据权利要求1所述的非对称话音压缩处理器，其特征在于，还包括一个存储器，用于把一系列索引存储在一个索引数组中，其中所述的信号处理器被编程，还用于：

按照该二维语音参数帧矩阵的每个部分，比较推导出的距离值；和

根据距离值的比较结果，选出所述的索引序列，该序列的每个索引对应于一个具有所推导出的值之中最短距离值的话音模板，该最短的距离值对应于该二维语音参数帧矩阵之中的一个特定部分。

4.根据权利要求1的非对称话音压缩处理器，其特征在于，所述的信号处理器利用下式计算距离值，从而得出距离值，

d_k＝∑w_i，j(a_i，j-b(k)_i，j)²

其中d_k代表多个话音模板中的一个模板与该二维变换数组之间的距离值，

(a_i，j-b(k)_i，j)代表该多个话音模板中的每个模板的单元与该二维变换数组之间的差值，

w_i，j代表一预定加权数组的一个单元。

5.根据权利要求1所述的非对称话音压缩处理器，其特征在于，所述的多个话音模板包括：一个第一组话音模板和至少一个第二组话音模板，所述的信号处理器推导出第一距离值，该距离值代表第一组话音模板中的每个模板与该二维变换数组的第一部分之间的距离值，该第一距离值由与第一组话音模板中的每个模板相对应的第一索引来标识，所述的信号处理器被编程，用于：

推导出至少一个第二距离值，该距离值代表至少一个第二组话音模板中的每个模板与该二维变换数组中至少一个第二部分之间的距离，所述的至少一个第二距离值由至少一个第二索引来标识，所述的第二索引对应于所述的至少一个第二组话音模板中的每个模板；

推导出所述的第一组话音模板的第一组距离值，

推导出所述的至少一个第二组话音模板的至少一个第二组距离值；

比较第一组距离值，从中选出最短距离，该最短距离对应于第一组话音模板中的一个话音模板，

分别比较所述的至少一个第二组距离值，从中分别选出最短距离，该最短距离分别对应于所述的至少一个第二组话音模板中的至少一个话音模板；和

所述的发射机发送对应于所述的第一组距离值中最短距离值的话音模板的第一个索引，还分别发送对应于至少一个第二组话音模板中的第二索引，该第二索引分别对应于所述的至少一个第二组距离值中最短距离值。

6.根据权利要求5所述的非对称话音压缩处理器，其特征在于，所述的第二组话音模板包含的模板比第一组话音模板的模板少。

7.根据权利要求1所述的非对称话音压缩处理器，其特征在于，所述的多个话音模板代表一个代码本，所述的信号处理器被编程，用于：

分析所述的语音参数，以确定所述话音消息的方言；

根据该话音消息的方言，选出一组代码本中的一个代码本；和

所述的发射机发送一个代码本标识符，该代码本标识符用于标识所述的选中的代码本。

8.根据权利要求1所述的非对称话音压缩处理器，其特征在于，所述的多个话音模板代表一个代码本，所述的语音输入处理器接收一种语言的话音消息，还接收标识该语言的信息，所述的信号处理器从对应于一组语言的一组代码本中选出对应于该种语言的一个代码本，所述的发射机发送一个代码本标识符，该代码本标识符标识着所选中的代码本。