CN1118961A

CN1118961A - 具有综合的感知语音和视频编码的比特率视听通讯系统

Info

Publication number: CN1118961A
Application number: CN95103782A
Authority: CN
Inventors: 周勇
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-04-06
Filing date: 1995-04-05
Publication date: 1996-03-20
Also published as: US5550581A; US5596362A; US5512939A; EP0676899B1; US5548322A; DE69523503D1; US5500673A; EP0676899A3; US5550580A; DE69523503T2; EP0676899A2; RU95104232A

Abstract

公开了一个低比特率声频和视频通信系统，它使用了一个综合的编码系统，根据声频和视频信息的内容以及由一观测者感知声频和视频信息的情况，该系统能在待编码的声频和视频信号中动态地分配可利用的比特。一个动态的比特分配和编码程序将评价声频和视频信息的现时内容，并在待编码的声频和视频信号中分配可利用的比特。还包括一个面部定位检测子程序和一个唇部活动检测子程序。

Description

具有综合的感知语音和视频编码的比特率视听通讯系统

本发明涉及一个视听应用的低比特率通信系统，例如一个电视电话会议系统，更具体地是涉及一个方法和设备，用来动态地分配比特对声频和视频信号进行编码，该声频的视频信号是以声频和视频信息的感知意义为基础的。

由于传输信道带宽的限制，对于与视听应用例如电视电话会议相关的声频和视频信息进行编码，可能利用的比特数是有限的。因此，开发了许多声频和视频编码技术，试图以尽可能少的比特数对声频和视频信息编码，而同时还保持一个特定应用所要求的质量和可懂度。

有很多声频和视频编码技术已经提高了编码效率，这是通过从声频或视频信号中分别地除去统计的冗余和感知的不相关部分来实现的。例如由电影专家组(Motion Picture Experts Group)开发的著名的MPEG视频编码技术，利用空间域象素间的相关性和时间域图象帧之间的相关性，实现了有效比特率的减少。

传统的视听通信系统对声频信号和图象帧的序列分别地编码，然后将两个信号一起多路复用通过数字信道传送到接收机。几乎还没有视听通信系统利用下述方法实现了比特率的减少，这种方法是通过分析声频和视频信号，然后为了对以观察者的声频和视频信息的感知意义为基础的声频和视频信号进行编码，动态地分配可利用的比特。

因而，需要一种视听通信系统，它通过实行以声频和视频信息的感知意义为基础的综合的比特分配来使比特率效率和感知质量达到最高值。此外，还需要一种视听通信系统，它对以声频信息的现时内容为基础的声频信号动态地进行编码。

大体上，依据本发明的一个观点，一个低比特率的适用于电视电话会议的声频和视频通信系统采用了一个综合的编码系统，它在要编码的声频和视频信号中动态地分配可利用的比特，声频和视频信号以声频和视频信息的内容及观察者感知声频和视频信息的方式为基础。

依据本发明的一个特点，当声频信号由声音信号组成时，例如有声频活动并且在电视场景中有一个人的嘴唇正在活动时，声频信号与视频信号相比，将要用更大的精确性来编码，这是由于当声音和图象同时出现时，一个人对另一个人的声音比起对有关的图象要给以更多的注意。

本发明的另一观点将监测一个通信系统的第二用户产生的声频和视频信号。例如，如果第二用户的声频和视频信号表明第二用户正在说话，比如在第二用户的嘴唇正在活动且有声频活动时，第一用户的声频信号就不用很详细地发送到第二用户，因为第二用户很可能没有仔细地听。另外，第二用户的视频信号表明第二用户很可能没有注意视频显示器，第一用户的视频信号就不用很详细地发送到第二用户，因为无论如何第二用户很可能没有注意视频显示器。

本发明的另一特点是将检测出现在电视场景中的一个人的嘴唇的位置和活动。因为一个观察者将集中他或她的注意力在电视场景中的活动目标上，当知道嘴唇活动时，对于唇部区域要比对于场景的其余部分要更为精确地编码。另外，当多于一个人出现在电视场景时，嘴唇活动的检测能把讲话人和非讲话人区分开来。因此，讲话人的面部比起非讲话人的面部要更精确地编码。

更进一步在电视电话会议中观察者最关心的活动信息就是嘴唇活动，因此，依据本发明的另一观点，如果嘴唇正在活动，视频信号中的活动信息可以比空间细节更为精确地编码。然而，如果嘴唇没有活动，所关心的快速活动信息很少，则视频信号中的空间细节可以比活动信息更为精确地编码。

依据本发明的另外特点，当声频信号包含声音信号时，声频信号将用语音特定声频编码技术来编码，当声频信号不一定包含声音信号时，声频信号将用非语音特定声频编码技术来编码。

参考以下带有附图的详细描述，不但能了解本发明的进一步特点和优点，还会得到对本发明更完善的理解。

图1是一个示意框图，说明用于依据本发明的一个低比特率视听通信系统的发射机；

图2是一个示意框图，说明一个视频编码器(表现为一个三维分段图象编码器)以及视频编码器和一个动态比特分配器的相互关系；

图3说明适用于本发明的一个讲话人数据库，它保存了与参加电视电话会议的每个人有关的信息；

图4是一个示意框图，说明用于依据本发明的一个低比特率视听通信系统的接收机；

图5是一个流程图，描述依据本发明的一个典型的初始化程序，和在电视电话通讯会议之前发射机所应用的一样；

图6到8合起来是一个流程图；描述依据本发明的典型的动态比特分配和编码程序，和在每个图象帧及相关的声频信息的编码中发射机所应用的一样；

图9是一流程图，描述依据本发明的典型的讲话人定位识别子程序，和图6中的动态比特分配和编码程序所使用的一样；

图10a和图10b合起来是一流程图，描述依据本发明的典型的嘴唇活动检测子程序，和图7动态比特分配和编码程序所使用的一样；

图11是一流程图，描述依据本发明的典型的个人监视子程序，和图6中的动态比特分配及编码程序所使用的一样，是为了确定该人是否注视图象显示器；以及

图12是一流程图，描述依据本发明的典型的面部定位检测子程序，和图5的初始化程序及图9讲话人定位识别子程序所使用的一样。

图1举例说明了一个发射机10，它用于一个低比特率视听通讯系统，例如电视电话会议系统。为了通过一个数字信道70传输信号到接收机400，发射机10对与电视电话通信系统的第一用户有关的声频信号和视频信号的图像帧序列进行编码，接收机400与电视电话通信系统的第二用户有关，这一点在图4中有更详细的说明。发射机10在传输信号之前利用多路复用器45来多路传输声频和视频信号。

虽然接收机400将接收到的已发射的声频和视频信号同时呈现给观察者，但观察者通常不能以同样的注意力来感知声频和视频信号。由于人的灵敏感知系统的限制，当用户的灵敏系统受到各种声频和视频激励源激励时，电视电话会议系统的用户通常将他们的注意力集中到一个视听显示(例如电视电话会议)的特点和细节上。

这样，如下面将讨论的采用一个综合的编码系统，在以观察者对于声频和视频信息的感知意义为基础的声频和视频信号中，动态地分配比特就能以几乎没有引人注意的感知质量的降低来得到有效比特率的降低。

人们知道，当观察者的感觉器官同时受到声音和图象信息的激励时，电视电话会议的观察者对于其他用户的声音比起与之相连系的图象通常要给予更多的注意，因此常说声音信息将会“掩蔽”图象数据。相应地，每当电视电话会议系统检测出声音活动，发射机10对于声音信号比起对于视频信号将会以更大的精确度来编码。

在一个电视电话会议系统中，在主要由头部和肩部镜头组成的电视图象里，对于观察者来说，最可能关心的目标是其他人的面孔。这样，面部区域掩蔽了场景的其余部分，所以对于该人的面部区域比起场景的其余部分要分配更多的视频比特来编码就能提高感知质量。

更进一步，观察者通常会集中他们的注意力在电视场景中的活动目标上，而不在背景景象和其它空间细节上。在一个电视电话会议系统中，通常嘴部区域包括嘴唇，颚和面颊，当一个人正在讲话时，嘴部区域是活动的。因此，当知道一个人将要讲话时，对于嘴部区域比起面部的其余部分要分配更多的视频比特来编码就能提高感知质量。

当一个人正在讲话时，对于可能正在讲话的别人他听取和理解别人的能力降低了。因此，当已知电视电话通信系统的第一用户正在说话时，没有必要以高的精度来对第二用户的声音编码，因为通信系统的第一用户很可能没有仔细地听。

最后，在电视电话通信的场景中，当有多个面孔时，观察者通常对于讲话者给予更多的注意。因此，讲话者的面部比起场景中其它人的面部要更精确地编码。

如图1所示，优选配置一个视频编码器30来接收由视频输入源20来的数字视频信号，视频输入源20可由一个模拟视频摄象机和一个模—数转换器组成。如下面结合图2还要说明的，视频编码器优先采用一个已知的变速率视频编码方案，例如三维分段图象编码技术，以便促进视频比特的动态分配。

众所周知，三维分段图象编码技术将电视图象分解为许多空间的—时间的频带，然后量化每一个频带或信道。为了讨论合宜的三维分段图象编码技术，参看Christine Podilchuk和Arnaud Jacquin所著“带有动态比特分配和几何矢量量化的分段视频编码”一文，发表在SPIEVOl.1666人类视觉，图象处理，和数字显示III，PP241—52(1992年2月)；Arnaud Jacquin和Christine Podilchuk所著“带有动态比特分配的非常低比特率以3D分段为基础的图象编码”一文，发表在SPIE VOl.1977图象通信和医用的PACS，PP.156—67(1993年4月)，每一文章都引在这里供参考。

视频编码器30在对一个特殊帧编码中，可利用的视频比特的总数以及分配视频比特的总数到视频帧的详细特点的情况由动态比特分配器80决定，它采用在图6到图8中说明的动态比特分配和编码程序。

虽然下面用一个三维分段图象编码技术来说明视频编码器30，可以理解，本发明也可使用其他的视频编码技术，例如活动补偿的DCT图象编码技术，这对于一个熟悉本领域的人员是很显然的。活动补偿的DCT图象编码技术的一个例子是由电影专家集团(MPEG)开发的著名的MPEG编码标准，该集团是国际标准组织(ISO)和国际电工委员会(IEC)联合技术委员会的分部。MPEG编码标准发表在ISO—IEC JTCI/SC29/WG11/602委员会草案，1993年11月，引在这里供参考。

如图1所示，优先配置一个声频编码器60来接收由声频输入源50来的数字声频信号，它可由一个话筒和一个模—数转换器组成。图1所说明的声频编码器60优先采用已知的变速率声频编码方案，以便促进声频比特的动态分配。为了讨论合宜的声频编码方案，参看Jose M.Tribolet和Ronald E.Crochiere所著“语音的频域编码”一文，发表在IEEE会刊声学，语音和信号处理，Vol.27，NO.5，PP.512—30(1979年10月)，引在这里供参考。

如下面还要讨论的，当已知一个人将要说话时，声频编码器60优先利用一个已知的语音特定编码算法来对声频信号编码，这种算法利用语音的已知特性来提高已编码声音信号的质量。除此之外，声频编码器60优选使用更普通的非语音特定编码算法来对声频活动编码，这个声频活动不一定是一个人在讲话，比如是音乐或背景噪声。最后当测出没有声频活动时，声频编码器60优先应用一个已知的舒适声响声频编码技术来对声频信号编码。正如已知的那样，舒适声响声频编码和解码技术再生声响特性，利用一个非常低的比特率，例如1kbps(每秒1千比特)，使这个声响特性对人耳很舒适。

在对声频信号编码中，可被声频编码器60所利用的声频比特的总数以及所使用的特殊声频编码技术由动态比特分配器80决定，它所使用的动态比特分配和编码程序，示于图6到图8中，并在下面描述。

如下所述，动态比特分配器80优先应用一个目标定位器85来分析视频信息，和识别讲话人嘴部区域的位置一样来识别电视电话场景中每个人的面部区域的位置。目标定位器可用一个处理器来体现，该处理器执行一个面部定位检测子程序，下面将结合图12来讨论；还执行一个唇部活动检测子程序，下面将结合图10a和图10b来讨论。优先用一个椭园以下面要描述的方式来模拟每一个被检测的区域。每一个模型化的椭园的尺寸的方位由一个长轴a，一个短轴b和长轴与垂直线之间的一个夹角α确定。另外，每个图象帧内每一个模型化的椭园的位置由一个中心象素值来确定。

在一个优选的实施例中，动态比特分配器80将把参加电视电话会议中每个人相关的必需信息存贮在讲话人数据库300中，它原理性地示于图1，下面将结合图3来讨论。贮存在讲话人数据库300中的信息可能包括与每个人相关的模型化椭园的尺寸和方位。

图2示出了一个作为实例的视频编码器30，它使用一个有着11个空间—时间分段的三维分段图象编码系统，为了详细讨论一个三维分段图象编码系统，参看以上引用的参考文献。

概括地，如图2所示，视频图象首先由一个时间滤波器组205进行时间的滤波，该时间滤波器组由一个低通时间滤波器207和一个高通时间滤波器209组成，并分别地产生一个低时间频率段和一个高时间频率段。此后，每个时间频率段由滤波器组210进行水平空间滤波，再由滤波器组215进行垂直空间滤波，以一个已知的方式产生8个空间—时间频率分段。频率分段有低的时间频率和低的空间频率，换句话说，低通滤波器217输出的信号，随后还进一步地由滤波器组220进行水平滤波和由滤波器组225进行垂直滤波，产生四个另外的分段，称为分段SB1到SB4。

众所周知，分段SB1到SB4表现了一个很强的时间域相关性，它主要由静止的缓慢的活动目标组成，因而带有关于空间细节的许多信息。这样，通过对分段SB1到SB4的精确编码，原始图象数据的空间细节得到强调。

此外，分段SB8，有着高的时间频率和低的空间频率的频段，通常称为“活动分段”，它的作用就像一个活动检测器一样。当原始图象序列中一个目标活动时，目标的边缘就出现在分段SB8中。这样，通过对分段SB8精确编码，就可以强调活动的信息。

人们注意到某些空间—时间分段缺少感知的重要性，例如为了进一步实现降低比特率，以一个已知的方式来除去分段SB5—SB7和分段SB9—SB11也不会降低感知质量。

如前已指出，动态比特分配器80将依据上面所描述的掩蔽原则来分配声频和视频信号之间的比特，这是由下面结合图6到图8描述的动态比特分配和编码程序来实现。此外，为了强调每一个电视帧的特性，动态比特分配器80还要分配视频比特。

如图2所示出并要在下面讨论的，为了分析声频和视频信息，从而识别可能出现在电视帧中的确定的特点，动态比特分配器80要经过输入线路260来接收各种空间时间的频率分段并经过输入线路270来接收声频信号。如下面还要讨论的，为了更精确地对通常出现在电视电话图象的确定的特点编码，动态比特分配器80将利用一个模型辅助的动态比特分配。

如前所指出的，对于电视电话场景中的观察人来说，很可能关心的目标是电视电话通信系统的另一用户的面部而且特别是嘴部区域。这样，在一个优选实施例中，动态比特分配器80将利用下面还要讨论的目标定位器85来分析视频信息，并和识别讲话人嘴部区域的定位一样来识别电视电话场景中每个人面部区域的定位。每一个被测区域都优先用具有大小和斜度都变化的一个椭园以下面描述的方式来模拟。在这种方式中，对于模拟的区域比起对于电视帧的其余区域，视频编码器30可能要给模拟的区域更为精确地编码。

明确地说，对于电视电话场景中所测的每个人的面部区域比起对于场景的其他特点，动态比特分配器80优先分配更多的视频比特来对面部区域编码。此外，当电视电话应用的场景中有许多面孔时，讲话人的面孔比起电视场景中其他人的面孔应得到更高精确地编码。更进一步，当已知一个人正要讲话时，对于讲话人的嘴部区域比起对于讲话人面部区域的其余部分，动态比特分配器80将分配更多的视频比特对嘴部区域进行编码。

这样，依据本发明的一个特点，每一个电视帧通常由一人或多人的头部和肩部的镜头所组成，为了增加感知质量和使比特率效率最大，优先采用许多不同的精度等级对电视帧来编码。更好地是依据下面的级别来对每一电视场景进行编码，即使较大的精度到较小的精度是：讲话人的嘴部区域，讲话人面部区域的其他部分，场景中其他人(如果有的话)的面部区域，最后，电视场景的其余部分以最低的精确度等级来编码。

这样，如图2所示，最好设置一个可变量化器(比如可变量化器230—240)以可变化的精细等级来量化每个分段，与分段SB1有关的可变量化器230更详细地图示于这里是为了说明的目的。为了对确信是正在讲话的一个人的嘴部区域以最大精确度来精确地编码，每个可变量化器，例如可变量化器230，将包括一个精密的量化器250，Q1，用来量化表示讲话人嘴部区域的模型化的椭园内的图象数据。

此外，为了对讲话人的面部区域用较低的精确等级来编码，一个中级量化器252，Q2，用来量化表示讲话人嘴部区域的模型化椭园外的图象数据以及用来量化表示讲话人面部区域的模型化椭园内的图象数据。人们注意到，如果场景中没有人在讲话，则中级量化器252，Q2，可用来量化电视场景中表示每人面部区域的模型化椭园内的图象数据。

当有一个还以较低的精确等级讲话时，为了对场景中非讲话人(如有的话)的面部区域进行编码，一个量化器253，Q3，用来量化表示场景中非讲话人面部区域的模型化椭园内的图象数据。最后，为了以最小的精确等级对场景的其余部分编码，一个过程量化器256，Q4，用来量化表示场景中人们面部区域的模型化椭园外的图象数据。

为了有选择地利用分段信号的四个区域中的量化器Q1，Q2，Q3和Q4，每个可变量化器230—240优先地配置来接收经过数据线路265的来自动态比特分配器80的一个信号。分段信号由表示讲话人嘴部区域和面部区域，以及表示非讲话人(如有的话)的面部区域的模型化的椭园所确定，已如上述。

依据下面要讨论的本发明的另外的特点。动态比特分配器80将优先地分析要编码的每一幅电视帧，为了评价可能出现在电视电话场景中的活动信息的意义，具体地说，如果确定电视电话帧中关心的活动信息很少，例如场景中人们的嘴唇没有活动，动态比特分配器80将通过分配更多的比特给分段SB1到SB4(比分配给活动分段SB8)来优先强调空间细节更胜于活动信息。

然而，如果确定在电视电话帧中，有关心的重要活动信息，例如在电视电话场景中有一人或多人的嘴唇在活动，那么，动态比特分配器80将通过分配外加的比特给活动分段SB8，来优先强调活动信息更胜于空间细节。

举例来说，利用出现在有关的可变量化器(比如可变量化器230)中的量化器250，252，254，256的全部范围，让一个或多个要强调的分段对视频图象来编码，就可以实现强调活动信息或空间细节。仅仅利用出现在有关的可变量化器(比如可变量化器230)中的过程量化器比如量化器254，256，则不要强调的分段对视频图象的编码就受到限制。

依据以上策略，一旦每个分段已被可变量化器230—240量化，每个分段可能以一个已知的方式进行熵编码从视频信号中进一步除去统计的冗余。因此，压缩的视频信号与压缩的声频信号一起由多路复用器45进行多路传输，如图1所示。

如图3所说明的那样，讲话人数据库300可具体化为一个二维数据数组，规定用每个讲话人的身份作为每一行的标题，比如315行和318行，规定用每个讲话人所保留的特殊数据作为每一列的标题。

讲话人数据库300最好有很多列来贮有参量信息，这个信息是和参加电视电话会议的每个人的模拟面部的椭园相关的。例如长轴列325，短轴列327，角度α，列330和一个中心象素列332。在一个优选的实施例中，贮存面部椭园参量的列325，327，330和332中每一项目都包含两个单元。每一项目的第一单元优先存贮一个相应于椭园参量的参考值，比如单元360a贮存长轴参考值，如下面讨论的，它是在初始化过程中测得的。每一项目的第二单元优先存贮相应椭园参量的现时测量值，比如单元360b贮存长轴的现时测量值，它是在最新编码的电视帧期间测得的。

人们注意到，出现在列325内的模拟面部椭园的长轴值被列表为一个以具有360×288个象素大小的图象显示器为基础的垂直象素长度。相似地，出现在列327内的模拟面部椭园的短轴值被列表为一个水平象素长度值。

另外，讲话人数据库300最好有很多列来贮存对应于参量信息的现时测量值，该参量信息是与表示每个人嘴部区域的模拟唇部的椭园相连系的，比如长轴列335，短轴列337，角度α，列340以及一个中心象素列342。人们注意到，出现在列335的模拟唇部的椭园的长轴值被列表为一个以具有360×288个象素大小的图象显示器为基础的水平象素长度。类似地，出现在列335的模拟唇部椭园的短轴值被列表为一个垂直象素长度值。

在下面要讨论的一个优选实施例中，讲话人数据库300还包含列345和350作为保持标志，用来分别地指示有关的人现在是否出现在场景中和有关的人是否正在讲话。

图3中所表明的讲话人数据库300已经填入了与现在出现在电视场景中的两个人，A和B，有关的信息。正如讲话人数据库300的列350中记录所表明的A正在讲话，而B没有讲话。对应于两个人A和B模拟面部的椭园参量的参考值和现时测量值都表示在列325，327，330和332中。对应于两个人A和B模拟唇部的椭园参量的现时测量值表示在列335，337，340和342中。

人们注意到，为了说明意图展示的信息的一部或全部已贮存在共同的讲话人数据库300内，另外，也可将它存入寄存器或其他分布式存贮单元，这对于一个熟悉本领域的人员是很显然的。

如图4所示，与电视电话通信系统的第二用户有关的接收机400将经过数字信道70接收已编码的声频和视频信号提供给第二用户。除了接收已编码的声频和视频信号外，接收机400还接收来自发射机10每一帧的副信息，以保持发射机10完成的编码和接收机400完成的解码之间的一致性。一个已知帧的副信息可能包括：例如，用来对声频或视频信息编码的特殊编码技术的指示；发射机10为现时帧所应用的声频和视频的分配；以及视频比特分配给电视帧的某些特点的情况；它包括表示电视场景各种特点的模型化椭园参量的指示。

在一个实施例中，能够建立许多予先确定的用指数识别的编码方案来构成特定编码技术和比特分配的组合。在这种情况下，发送到接收机400的副信息可以被指数所限制，指数识别适宜的编码方案和任何模型化的椭园参数一样。

如图4所示，接收机400利用一个多路分解器445对所接收的声频和视频信号进行多路分解。最好构成一个视频解码器430来接收来自多路分解器445的已经多路分解的压缩的视频信号，为的是对通过视频显示器呈现于第二用户的视频信号解码。相似地，最好构成一个声频解码器460来接收来自多路分解器445的已经多路分解的压缩的声频信号，为的是对通过扬声器450呈现于第二用户的声频信号解码。动态比特分配器接收通过数据线路475所发送的副信息，为的是将使所接收的压缩信号精确地解码需要的信息提供给视频解码器430和声频解码器460。

虽然发射机和接收机作为设备的截然不同的部分来给予说明，可以理解，通常，发射机和接收机具体表现为一个单独的综合系统，一般称为一个编解码器。

在每一次电视电话通信会议的开始，一个初始化程序，例如图5所说明的一种，最好由每个用户的电视电话会议系统在视频通信开始前完成。初始化程序在步骤500开始，并在步骤505与各个用户相互配合以已知的方式来优化图象通信参量，诸如照明条件，摄象聚焦以及用户的相对位置等。此外，在步骤510，初始化程序将优先提示用户输入予期出现在电视电话通信中的面孔的数目。然后在步骤515，优先提示用户人工识别大各自显示屏上每个面孔的相对位置，例如，用一个鼠标器或其它图形输入装置，指向和定位每一个面部区域。

此后，为了检测和模拟出现在电视电话场景中的每个面孔，初始化程序在步骤520将利用目标定位器85来执行一个面部定位检测子程序，和下面结合图12讨论的一个程序一样，这是在围绕着步骤515所输入的每个人工识别的面部位置的区域中进行的。前已指出，面部定位检测子程序将用一个有着可变大小和斜度的椭园来优先模拟每一个要检测的面孔。

如图12所示，面部定位检测子程序将在步骤1200开始，人们注意到，由于照明条件在初始化程序的步骤505时已得到优化，所以电视场景中人的面孔可认为是得到合适照明的。因此，在电视场景中人的面孔的亮度和背景景象之间将有一个可检测的对比度。

面部定位检测子程序将识别出现在场景中的面孔，这是借助于在步骤1205开始执行的边缘检测子程序来识别图象中的边缘。换句话说，也就是边界的亮度发生重要的变化。为了讨论适合的边缘检测子程序，参看S.Ghosal和R.Mehrotra所著“复合边缘的检测”一文，发表在I.E.E.E会刊图象处理，Vol.3，NO.1，pp.14—25(1994年1月)；V.S.Nalwa和T.O.Binford所著“检测边缘”一文，发表在I.E.E.E会刊模式分析和机器智能Vol.8，NO.6，PP699—714(1986年11月)，每篇文章引在这里供参考。

通常，在步骤1205执行的边缘检测子程序将会典型地产生一个差值图象，这时借助于在空间上减去分段中相邻的图象采样的方法，该分段强调空间细节，例如分段SB1。总的差值图象将表示亮度变化的程度。

面部定位检测子程序在步骤1210将把总的差值图象的象素值与一个予定的阀值相比较，以便产生一个二进制的边缘图象。二进制边缘图象中的非零象素值表示初始的电视帧中的边缘。此后，围绕在步骤515输入的每个人工识别的面部位置的区域里，面部定位检测子程序将在步骤1215在二进制的边缘图象的每个非零段中完成一个测试来确定非零段能否适合于一个椭园。

如果在步骤1215确定二进制的边缘图象的非零段能够适合于一个椭园，则面部定位检测子程序将选择步骤1220期间的非零段作为与一个人的面孔有关的一个潜在模型化的椭园。在步骤1225不仅测量中心象素值，而且测量每个模型化的面孔的尺寸和方位，中心象素值确定了显示屏幕上模型化的椭园的位置。

然而，如果在步骤1215确定的二进制边缘图象的非零段不能适合于一个椭园，程序控制将进行到步骤1230。在步骤1230执行一个测验来确定在二进制边缘图象中是否有要测验的另外的非零段。

如果在步骤1230确定有另外的要测验的非零段，程序控制将返回步骤1215并以上述方式继续。然而，如果在步骤1230确定没有另外的还要测验的非零段，程序控制将进行至步骤1235，那里，面部定位检测子程序将返回到初始化程序步骤525(图5)。每个模拟面部的椭园所测量的尺寸的值，方位和中心象素值返回到初始化程序。

在步骤525，每个模型化椭园的返回的参考值被分别地贮存在图3举例说明的讲话人数据库300的列325，327，330，332中的参考值单元中，这些参考值对应于长轴a，短轴b，角度α和中心象素值。如下面还要讨论的，在步骤525已存入讲话人数据库300的参考尺寸和方位信息随后为每一电视帧的编码所执行的面部定位搜索，因为不需要搜索所有尺寸的面孔，完成步骤525后，初始化程序将在步骤530时退出。

予期的面孔数目和分别地在步骤510和515人工识别他们相对位置的记录都由于限制了所搜索的区域而减少了在步骤520执行面部定位检测子程序的复杂性。然而，如果面部定位检测子程序以一个已知方式，用一予定阀值来自动地完成，则步骤510和515不必执行。

如图6到图8说明的，一个动态比特分配和编码程序将通过各自的发射机10在步骤600开始，为的是发送将要编码的每一视频帧和相关的声频信息。如下面要讨论的，动态比特分配和编码程序将评价声频和视频信息的现时内容并在声频和视频信号中分配可利用的比特，并选择一个合宜的声频编码技术。

为了把输入的视频信号分解为各种空间—时间的频率分段，在步骤605，对输入的视频信号滤波，该分段是被图2说明的三维分段图象编码技术采用的。注意到如果利用一个活动补偿的图象编码技术，与对于分段图象编码系统执行的滤波步骤相反，在步骤605，以已知的方式典型地执行对输入视频信号的DCT变换。

此后，在步骤610将执行图9说明的讲话人定位识别子程序。如下面将要讨论的，讲话人定位识别子程序将要识别和模拟视频帧中每个讲话人面部区域的位置，因而使模拟的面部位置得到更精确的编码。

图9说明的讲话人定位识别子程序在步骤900开始，在步骤905，以上面结合图12所描述的方式来执行一个面部定位检测子程序。面部定位检测子程序将识别可能与讲话人面部区域有关的潜在的椭园。对于每一个已识别的潜在的椭园，讲话人识别子程序将确定已识别的潜在的椭园是否和一个特殊的讲话人有关。

讲话人识别子程序在步骤910将把返回的测量的参量值，比如一个已识别的潜在椭园的长轴和短轴，a和b，角度α，分别地与贮存在讲话人数据库300的列325，327，330中对于每个人的参考值相比较。在一个优选的实施例中，在步骤910，假设角度α接近0，然后，将长轴和短轴a和b的测量值与贮存的参考值相比较，就能减少计算的复杂性。

在步骤915，进行一个试验来确定潜在椭园的已测量的参考值是否在参考值所予定的容差之内，该参考值贮存在为任何人的讲话人数据库300的列325，327和330中。如果在步骤915确定所测量的潜在椭园值是在所贮存参考值的予定容差之内，在步骤920，潜在的椭园就被选为与该人有关。

在步骤925，进行一个试验来确定是否有任一个另外待测的潜在椭园。如果在步骤925确定有另外待测的潜在椭园，程序控制将返回到步骤910，并以上述的方式进行。然而，如果在步骤925确定没有另外待测的潜在椭园，则程序控制将进行到步骤930。

讲话人数据库300的列345的记录，它包含一个标志指示是否有相关的讲话人现在出现在场景中，在步骤930为每个讲话人更新该记录。此后，在步骤935进行一个试验来确定在现时执行讲话人定位识别子程序时，是否至少有一个讲话人已经定位。

在步骤935如果确定至少有一个讲话人已经定位，动态比特分配器在步骤940对于模拟面部的区域比起对于电视场景的其它特点，例如背景景象或其它空间细节要优先分配更多的视频比特，视频比特的总值仍待确定。此后，在步骤950，程序控制将返回到步骤612(图6)的动态比特分配和编码程序。

然后，如果在步骤935(图9)确定没有讲话人被定位，则在步骤945，设置一个NO SPEAKER LOCATED标志。NO SPEAKER LO-CATED标志可被用来指示给其它用户：这个用户很可能没有注意显示屏，如下所述。此后，在步骤950，程序控制将返回到步骤612(图6)的动态比特分配和编码程序。

在一个优选的实施例中，在讲话人数据库300的列350里的“个人说话”项目和一个PERSON TALKING标志在步骤612优先进行初始化来指示通信系统这一方的人们现时没有讲话。如下所述，PERSON TALKING标志可被用来指示给其它用户：在对帧编码的时刻，电视电话通信的这一方的任何人是否很可能正在说话。

动态比特分配和编码程序将监测由声频输入源50产生的声频信号，并在步骤615进行一个试验来确定是否有任何声频活动，比如何时声频的总能量超过一个予定的阀值。如果在步骤615确定没有声频活动，包括语音，音乐或声频背景噪声等，也就没有必要对声频信号精确地编码。

这样，动态比特分配器80在步骤620将分配相当少的比特来对声频信号编码。在此情况下，为了保证好的电视质量，动态比特分配器80将分配多数可利用的比特来对视频图象编码。另外，因为场景是安静的，可以假设电视电话通信系统的这一方用户很可能是静止地坐着和倾听。所以，或许几乎没有活动出现在现时场景中。因而，在步骤620，对于电视图象的空间细节和缓慢活动部分的编码比起对于快速活动信息的编码要优先地分配到更多的视频比特。

例如，如果电视电话会议系统工作在16kbps的比特率，在步骤620，典型的比特分配可能分配1kbps给舒适声响声频信号的编码，而分配15kbps给视频信号的编码。在分配给视频信号编码的15kbps中，优先分配13kbps给分段SB1到SB4用来对空间细节编码，而分配2kbps给分段SB8用来对活动分段中模拟面部的区域编码。分配给分段SB1到SB4的13kbps中，优先分配8kbps给模拟面部的椭园区域编码，最好分配5kbps给模拟面部的椭园外的背景景象编码。

由于没有重要的声频活动要编码，在步骤625，利用一个已知的舒适声响声频编码技术，用步骤620分配的声频比特对声频信号编码，为的是传输到另一用户以产生一个对人耳舒适的声响信号。

此后，运用以上确定的视频比特分配，结合图2以上所描述的情况，在步骤630，量化每一个保留的空间—时间频率分段。

如下所述，从电视图象可能确定是否有一个人在摄象机前，如果有，该人是否正看着有关的显示屏幕的大概方向。如果确定很可能没有一个人注视着显示屏幕，则另一用户的发射机也就没有必要很精细地发送他们的视频信号。

动态比特分配和编码程序将在步骤635执行一个子程序来确定：当对帧编码时，是否至少有一个人很可能注视着有关的显示屏幕。在步骤635执行的子程序将结合图11在以下说明并在今后称之为个人注视子程序。如果个人注视子程序确定：至少有一人很可能是注视着显示屏幕，将设置一个PERSON WATCHING标志。

和PERSON TALKING标志，PERSON WATCHING标志以及和现时帧有关的合宜的副信息一起，已编码的声频和视频信号在步骤640被多路复用和发送到接收机400。此后，动态比特分配和编码程序将在步骤650退出。

然而，如果在步骤615确定：有一个由这方产生的声频活动，它可能由语音，音乐和声频的背景噪声组成。那么，如图7所说明的，程序控制将进行到步骤700，为的是鉴定一个合宜的声频编码算法，以及所利用的比特分配。

在步骤700(图7)进行一个试验来确定：所接收到的PERSONWATCHING标志是否已经设置。该标志是由带着它们最新的声频和视频信息的通信系统的另一用户发送的。如果在步骤700确定：所接收的PERSON WATCHING标志未被设置，则另一用户很可能没有注视他们的显示屏幕，所以，这个用户的发射机10就没有必要以很高的精度对视频信号编码。这样，动态比特分配器80在步骤705将分配相当少的比特对视频信号的空间细节编码，为了保证好的声频质量，分配多数可利用的比特数对声频信号编码。

例如，如果电视电话会议系统工作在16kbps的比特率，在步骤705，典型的比特分配将分配13kbps给声频信号编码，分配3kbps给视频信号分段的SB1到SB4中的空间细节编码。

运用一个非语音特定声频编码技术，在步骤710，用在步骤705时所配合的声频比特对声频信号编码。既然声频信号的内容是未知的，但有足够可利用的声频比特来保证高质量。如上所述，当声频活动不一定和个人讲话，比如音乐或背景噪声，相连系的时侯，一个非语音特定声频编码算法保证了一个高质量的声频信号。

此后，为了运用已确定的视频比特分配，量化每一个保留的空间—时间频率分段来对视频信号编码，程序控制将进行到步骤630(图6)，并以上述方式继续。

然而，如果在步骤700确定：从另一用户处接收的PERSONWATCHING标志已经设置，则另一用户可能注视着显示屏幕，程序控制将进行到步骤720。如下所述，从声频和视频信息可能确定是否至少有一个人很可能在对帧编码时正在讲话，比如当有声频活动时，那里有一个人正在活动他的嘴唇。如果确定至少有一个人很可能是正在讲话，那么讲话人不可能在同时有效地听。这样，当确定通信系统的第一用户很可能是正在讲话时，与第二用户相连系的发射机没有必要很精细地发送声频信号。

如下所述，当对每一个视频帧和相关的声频信息编码时，动态比特分配和编码程序在步骤730优先执行一个唇部活动检测子程序。如果确定：在电视电话通信的各自一方至少有一个人在对帧编码时很可能正在讲话，则设置一个PERSON TALKING标志。然后，PERSON TALKING标志和已编码的声频和视频信号一起在步骤640被发送到另一用户，如上所述。

这样，在步骤720进行一个试验来确定：PERSON TALKING标志是否已经设置，该标志是由带有最新的声频和视频信息的通信系统的另一用户处接收到的。如果在步骤720确定：所接收的PERSONTALKING标志已经设置，则另一用户很可能是正在讲话。因为另一用户可能正在讲话，他们很可能没有倾听第一用户，因此，与第一用户相连系的发射机10就没有必要用高精度对声频信号编码。因此，动态比特分配器80在步骤725将分配相当少的比特对声频信号编码，而以配给的可利用的多数比特对视频信号编码，为的是保证好的电视质量。

例如，如果电视电话会议系统工作在16kbps比特率，典型的比特分配在步骤725将分配4kbps给声频信号编码，12kbps给视频信号编码。在对视频信号编码所分配的12kbps中，优先分配9kbps给分段SB1到SB4用来对模拟面部的区域编码，最好分配3kbps给分段SB1到SB4用来对模拟面部的椭园之外的背景景象编码。如果有唇部活动，最好把2kbps由分段SB1到SB4转移到SB8用来对模拟讲话人的唇部的椭园编码。

此后，运用一个非语音特定声频编码技术，用步骤725所配给的声频比特在步骤710对声频信号编码，并以上述的方式继续。

然而，如果在步骤720确定：所接收的PERSON TALKING标志尚未设置，另一用户对所发送的声频和视频信息很可能给以注意，因为如步骤700所检测的，他们很可能注视着屏幕，并且如步骤720所检测的，他们此时很可能没有讲话。这样，为了实现所发送信号的最好质量，必须在声频和视频信号之间很谨慎地分配可利用的比特。

为了区分语音和音乐或背景噪声，动态比特分配和编码程序在步骤730优先执行一个在图10a和l0b中说明的唇部活动检测子程序。如果唇部活动检测子程序确定：电视电话场景中至少有一个人的嘴唇在有声频活动的情况下正在活动，就可以认为一个人正在讲话。

如图10a所说明的，嘴唇活动检测子程序在步骤1005开始进行一个试验来确定：在步骤610(图6)所执行的讲话人定位识别子程序是否有一个面孔出现在现时的电视帧中。如果在步骤1005确定：没有面孔被测出在现时的电视帧中，所以及有理由去执行嘴唇活动检测子程序。并且程序控制将在步骤735返回动态比特分配和编码程序。

然而，如果在步骤1005确定：至少有一个面孔被测出在现时视频帧中，然后为了识别嘴唇的定位，程序控制将进行到1010。当一个人讲话时，他的嘴唇，颚和面颊都不断地活动，关于嘴唇活动，嘴唇之间图象亮度的变化是最重要的。在一个优选的实施例中，嘴唇用表示讲话人面孔的大椭园内的小椭园来模拟。另外，表示讲话人面孔的椭园的长轴将几乎垂直于表示讲话人嘴唇的椭园的长轴。

如果在电视场景中有一人或多人的嘴唇正在活动，活动的嘴唇的边缘将出现在分段SB8，它包含与电视帧有连系的活动信息。人们注意到，以视频解码算法为基础的一个活动补偿的DCT，比如MPEG视频编码技术，活动信息包含活动矢量知予测。本发明的一个优选的实施例规定；模拟面部的椭园的下半部是一个包含嘴唇椭园的潜在的嘴部区域。以下的步骤依次搜索具有最高活动积极性的嘴部区域中的试验性的嘴唇椭园。

为了在步骤610由讲话人定位识别子程序检测出一个模拟面孔的椭园，在步骤1010将潜在的嘴部区域规定在分段SB8内。嘴部区域作为一个搜索的边界区域，这是为了唇部区域而实行的。此后，在步骤1015，相对于全部的模拟面部的椭园，将具有合宜尺寸和方位的一个试验性椭园定位于嘴部区域，在步骤1020，设置最大的平均亮度Emax为0。

在步骤1025计算平均亮度E，它相应于试验性模拟嘴唇的椭园内采样的平均活动积极性。在步骤1030进行一个试验来确定：相应于试验性模拟嘴唇的椭园的现在位置所测量的平均亮度是否大于所贮存的最大平均亮度，换句话说，是否E＞Emax。如果在步骤1030确定：所测量的平均亮度大于所贮存的最大平均亮度，那么现在的测量值在步骤1035被贮存作为最大平均亮度。

然而，如果在步骤1030确定：所测量的平均亮度不大于所贮存的最大平均亮度，换句话说，即是E＜Emax，那么，程序控制将进行到步骤1040。在步骤1040进行一个试验来确定：现在面部的整个嘴部区域是否已经测试。如果在步骤1040确定，现在面部的整个嘴部区域未被测试，则试验性的模拟嘴唇的椭园将在步骤1045被重新放置在嘴部区域内一个先前未测试的位置，并且程序控制随后将返回至步骤1025，并以上述的方式继续。

然而，如果在步骤1040确定：现在面部的整个嘴部区域已经测试，程序控制将进行至步骤1050(图10b)。在步骤1050进行一个试验来确定：最大平均亮度值Emax是否超过一个予定的阀值。如果在步骤1050确定：最大平均亮度值Emax没有超过予定的阀值，则与正在被测试的面孔相关的人的嘴唇就没有活动，因而该人很可能没有讲话。这样，程序将进行到1065，不更新讲话人数据库300的列350中该人的讲话记录。该记录在步骤612被初始化来指示该人没有讲话。

然而，如果在步骤1050确定：最大平均亮度值Emax超过了予定的阀值，与正在被测试的面孔有关的人的嘴唇正在活动，因而该人可能是正在讲话。这样，在步骤1060，在讲话人数据库300的列350的记录中优先设置标志来指示该人很可能正在讲话。在列350中的标志指示有关的人是否很可能在讲话，该标志可以使讲话人与非讲话人区分开来。

此后，在步骤1065，模拟嘴唇的椭园的测量值，相应于长轴a，短轴b，角度α和相应于中心象素值一样，被分别地贮存在讲话人数据库300的列335，337，340，342的记录中的现在测量值单元里。它在对应于有关人的图3中说明。

在步骤1070进行一个试验来确定：在现时的电视场景中是否有另外要检测的面孔，如果在步骤1070确定：在现时的电视场景中有另外待检测的面孔，则程序控制将返回到步骤1010(图10a)，并以上述方式继续。

然而，如果在步骤1070确定：在现时的电视场景中没有要检测的另外面孔，程序控制将进行到步骤1075。在步骤1075进行一个试验来确定：场景中是否至少有一个人的嘴唇正在活动。如果在步骤1075确定：场景中至少有一个人的嘴唇正在活动，即至少有一个人很可能在讲话，那么，在步骤1080，设置PERSON TALKING标志。

前已指出，在步骤640(图6)，把PERSON TALKING标志发送到另一用户来指明是否第一用户很可能现在讲话。如果电视电话通信系统的另一用户知道第一用户很可能正在讲话，因而很可能没有听，因此不需要对另一用户的声频信号给很详细的编码。

然而，如果在步骤1075确定：场景中，至少有一个人的嘴唇没有活动，对于这个电视帧，不更新PERSON TALKING标志，程序控制将进行到步骤1085，这里唇部活动检测子程序退出。程序控制在步骤735(图7)将返回动态比特分配和编码子程序。

在步骤735，进行一个试验来确定：通过在以前步骤执行的唇部活动检测子程序是否设置PERSON TALKING标志。如果在步骤735确定没有设置PERSON TALKING标志，则在步骤615(图6)所检测的声频活动很可能包含音乐或其它的背景音乐，而不是语音。

这样，程序控制将进行到步骤740，这里，为了实现所发送的声频和视频信号都是最高的质量，动态比特分配器80将分配合宜的比特数来对声频和视频信号编码。既然另一用户可能对声频和视频都给以注意，因为他们很可能注视着他们的显示器，如在步骤700所检测的那样，并且他们很可能没有讲话，如在步骤720所检测的那样。此外，因为在现时电视场景中没有嘴唇活动，在现时帧中，几乎没有所关心的活动信息。这样，在步骤740，对于空间细节和缓慢活动部分比起对于活动信息优先分配更多的视频比特来编码。

例如，如果电视电话会议系统工作在16kbps的比特率，在步骤740，典型的比特分配将会分配6kbps给声频信号编码，分配10kbps给视频信号编码。关于分配给视频信号编码的10kbps，最好分配9kbps给分段SB1到SB4来对空间细节编码，分配1kbps给分段SB8来对活动分段中模拟面部的区域编码。关于分配给分段SB1到SB4的9kbps，最好进一步分配7kbps给模拟面部的椭园区域编码，最好分配2kbps给模拟面部的椭园外的背景景象编码。

此后，运用非语音特定声频编码技术，用步骤740所配给的声频比特，在步骤710对声频信号编码，并以上述方式继续。

然而，如果在步骤735确定：通过在步骤730执行的嘴唇活动检测子程度来设置PERSON TALKING标志，则至少有一个人很可能在讲话，而程序控制将进行到步骤805(图8)，观察者最关心的信息将是语音和嘴部区域的活动。

这样，在步骤805，由于嘴唇活动是现时帧中所关心的活动信息，动态比特分配器80将分配可利用的比特对声频信号以及在分段SB8中得到的活动信息的嘴部区域精确地编码。此外，最好分配更少的比特对空间细节编码，特别是对于背景景象。

例如，如果电视电话会议系统是工作在16kbps的比特率，典型的比特分配在步骤805将分配8kbps对声频信号编码，8kbps对视频信号编码，关于为视频信号编码所分配的8kbps，最好分配6kbps给分段SB1到SB4来对空间细节编码，而分配2kbps给SB8来对活动分段中讲话人的模拟唇部的区域编码。关于分配到分段SB1到SB4的6kbps，最好进一步分配5kbps对模拟面部分的椭园区域编码，而最好分配1kbps对模拟面部的椭园外的背景景象编码。

运用一个语音特定声频编码技术，用步骤805所配给的声频比特在步骤810对声频信号编码。为的是增强声音信号的声频编码。

众所周知，当一个人正讲话时，嘴部区域活动，特别是和所产生的语言声音高度相关的。例如，当一个人发一个“短a”声，他的嘴就要张开。这样，根据所产生的特殊声音，嘴的位置是可以予测的。

因而，在一个优选的实施例中，动态比特分配和编码程序将在步骤825分析所产生的语言声音，是为了予测嘴的位置。比如假使所发送的视频信息被噪声破坏时，这个予测可以分别地发送到接收机400，它将使接收机400能改变和增强嘴部图象的视频再现。

在另一实施例中，发射机10和接收机400能够保持一个在各种位置中模拟嘴部椭园的检索参量的数据库。在此情况下，发射机10能够分析所产生的声音，并只是发送相对应于所产生声音的合适嘴部位置的指数。

在步骤840进行一个试验来确定：场景中是否有多个面孔。例如，通过分析讲话人数据库300的列345中的信息来确定。在步骤840如果确定场景中有多个面孔，则动态比特分配器80将在步骤850对于讲话人的模型化的椭园比起对于与任何非讲话人相关的椭园要分配给更多的视频比特来编码。分析讲话人数据库300的列350中的信息，可以把讲话人与非讲话人区分开。

此后，为了对视频信号编码，程序控制将进行到步骤630(图6)，并以上述方式继续。这是使用新规定的视频比特并通过量化每一个保留的空间—时间频率分段来实现的。

如前所述，图11所说明的个人监视子程序由动态比特分配和编码程序在步骤635执行。个人监视子程序将分析视频图象来确定：摄象机前是否有任何人很可能在注视着显示屏。如果由第一用户的发射机10执行的个人监视子程序确定：第一用户很可能没有注视显示屏，则第二用户的发射机就没有必要很精细地发送视频信号。

如图11所述，最好在步骤1102来予置PERSON WATCHING标志来指示这一用户现在很可能没有注视显示器。此后，在步骤1105进行一个试验来确定；在讲话人定位识别子程序的步骤945期间，NO SPEAKER LOCATED标志是否设置。如果在步骤1105确定：在步骤945已设置NO SPEAKER LOCATED标志，则没有人在摄象机前，很可能没人注视着显示屏。个人监视子程序将在步骤1175退出而不设置PERSON WATCHING标志。然而，如果在步骤1105确定：在步骤945没有设置NO SPEAKER LOCATED，则在摄象机前至少有一人可能注视着显示屏。

因此，在步骤1115进行一个试验来确定：现时帧中所检测出的每个模拟面部的椭园测量的高宽比和初始化时讲话人数据库300中所记录的每个模拟面部的椭园所予期的高宽比之间的差值是否超过了一个予定的阀值。注意，把长轴除以短轴就得到一个椭园的高宽比。如果在步骤1115确定：所测量的高宽比和所予期的高宽比之间的差值超过了予定的阀值，则摄象机前的一人或多人很可能面向着侧面，因而不可能注视着显示屏。这样，个人监视子程序随后将在步骤1175退出而不设置PERSON WATCHING标志。

然而，如果在步骤1115确定：所测量的高宽比和所予期的高宽比之间的差值没有超过一个予定的阀值，程序控制将进行到步骤1125。在步骤1125进行一个试验来确定：模拟唇部的椭园的短轴和模拟面部的椭园的长轴之间的距离是否超过了帧中每个人的一个予定的阀值。如果在步骤1125确定：该帧中每个人的空间距离超过了规定的阀值，那么摄象机前的人们很可能是面向着侧面，因此不可能注视着显示屏。因此个人监视子程序随后将在步骤1175退出而不设置PERSON WATCHING标志。

然而，如果在步骤1125确定：该帧中每个人的距离没有超过规定的阀值，则摄象机前的人们很可能注视着显示屏。因此，在步骤1145将设置PERSON WATCHING标志来指示有某些人很可能注视着显示屏。此后个人监视子程序将在步骤1175退出，并且程序控制将在步骤640返回动态比特分配和编码程序。并以上述的方式进行。可以理解，这里显示和描述的实施例和变化仅是为了说明本发明的原理，本领域的技术人员是可以进行各种修改而不偏离本发明的范围和精神。

Claims

1.用一个视听通信系统中很多可利用的比特来对声频和视频信号编码的方法。上述编码方法包含以下步骤：

分析上述声频信号来确定上述声频信号的内容；

分析上述视频信号来确定上述视频信号的内容；

根据上述声频和视频信号的上述内容对一个用户的感知意义，在该声频和视频信号中分配上述可利用的比特；以及

用上述的分配的比特对该声频和视频信号编码。

2.依据权利要求1的编码方法，那其特征在于，上述视频信号包括至少一个人的面部区域，上述面部区域包括一个唇部区域。那里上述分析该视频信号的步骤确定上述嘴唇是否在活动，如果上述分析步骤确定在该嘴唇活动时有声频活动，则那里上述分配步骤就分配上述可利用的比特的足够数目来保证上述声频信号和上述视频信号中该唇部区域的优质传输。

3.依据权利要求1的编码方法，其特征在于，上述视频信号包括许多人的面部区域，该面部区域每一个包括一个唇部区域，其中分析上述视频信号的上述步骤确定在上述图象中上述面孔中的一个面孔的上述嘴唇是否在活动，上述活动的嘴唇是和讲话人相连系的，同时其中上述分配步骤对于上述讲话人的上述面孔比起对于上述视频信号中的上述其它面孔要分配更多的视频比特来编码。

4.依据权利要求1的编码方法，其特征在于，上述视频信号包括至少一个人的面部区域。上述面部区域包括一个唇部区域，其中上述视频信号包括活动信息和空间细节，并且分析上述视频信号的上述步骤确定上述嘴唇是否在活动，如果上述分析步骤确定上述嘴唇正在活动同时有声频活动时，则那里上述分配步骤分配上述比特的足够数目来保证上述活动信息的优质传输。

5.依据权利要求1的编码方法，其特征在于，上述视频信号包括至少一个人的面部区域，上述面部区域包括一个唇部区域，其中上述视频信号包括活动信息和空间细节，上述分析该视频信号的步骤确定上述嘴唇是否正在活动。如果上述分析步骤确定上述嘴唇没有活动同时没有声频活动，则上述分配步骤将分配上述比特的足够数来保证上述空间细节的高质量传输。

6.依据权利要求1的编码方法，其特征在于，上述视频信号包括至少一个人的面部区域，上述面部区域包括一个唇部区域，其中上述视频信号包括活动信息和空间细节，其中上述分析该视频信号的步骤确定上述嘴唇是否正在活动。如果上述分析步骤确定该人的嘴唇正在活动同时有声频活动时，则那里上述分配步骤对于该人上述唇部区域中的象素比起对于该人上述面部区域的其余部分中的象素要分配更多的上述比特来编码。

7.选择一个声频编码技术的方法，它通过包含声频和视频信息的视听通信系统来对声频信号编码，上述视频信息包括至少一个人的面部区域的图象，上述面部区域包括嘴唇，上述方法包含以下措施：

分析上述声频信号来确定是否有声频活动；

分析上述视频信号来确定在上述图象中该人的嘴唇是否正在活动；以及

如果上述分析方法确定该嘴唇正在活动同时有声频活动时，则用语音特定声频编码技术对上述声频信号编码。如上述分析方法确定上述嘴唇没有活动但是有声频活动时，则用非语音特定声频编码技术来对上述声频信号编码。

8.依据权利要求7对声频信号编码的方法，如果分析上述声频信号的上述方法确定没有声频活动，该方法还包括用一舒适声响编码技术对上述声频信号编码的措施。

9.一个用于检测视频信号中嘴唇活动的方法，该信号由一个或多个图象帧组成，它包括一个人的面部图象，上述视频信号包含活动信息，上述方法包含以下措施：

为了确定在上述视频图象帧中上述面孔的位置，对上述视频信号执行一个面部定位检测子程序；

隔离上述视频信号中发现的上述活动信息；

在上述已检测的面部区域的许多位置里，放置一个试验性唇部区域；

分析上述隔离的活动信息来识别试验性的唇部区域，这个区域是在具有最高的测量的平均亮度的上述面部区域内；以及

如果上述最高的测量的平均亮度超过一个予定的阀值，则推断上述嘴唇是正在活动。

10.在与第一用户相连系的一个视听通信系统的发射机中，对第一声频信号和第一视频信号编码的方法，它是用于传输信号到与第二用户相连系的接收机，上述接收机对该第一声频和视频信号解码并提供给上述第二用户。上述编码方法包含以下措施：

检测上述第二用户是否在注视该显示屏；

如果该检测步骤确定上述第二用户没有注视该显示屏幕，则分配上述可能利用的比特的最小数来对该第一视频信号编码。

11.依据权利要求10的编码方法，其特征在于，上述检测方法包含以下措施：

当已知上述第二用户为了检测和模拟上述第二用户的上述面孔而看着上述摄象机的方向时，在一个参考时间对于与上述第二用户相连系的第二视频信号执行一个面部定位检测子程序，该面孔用参量值规定的一个椭园来模拟，参量值包括一个参考长轴和一个参考短轴，该长轴除以该短轴产生一个参考高宽比；

在一个测试时间对上述第二视频信号执行上述面部定位检测子程序来测量该模拟面部的椭园的长轴和短轴，上述测量的长轴除以短轴产生一个现时测量的高宽比；

在上述的测试时间对上述的第二视频信号执行一个唇部活动检测子程序为的是检测和模拟上述的嘴唇，该嘴唇用参量值规定的一个椭园来模拟，参量值包括一个长轴和一个短轴；以及

如果下面的条件中有一个发生，则可推断上述第二用户在上述测试时间没有看着该摄象机的总方向：

在上述测试时间执行的上述面部定位检测子程序已经确定在上述第二视频信号中没有面孔；

上述现时测量的高宽比与上述参考的高宽比之间的差值超过了一个予定的阀值；或

上述唇部椭园的短轴和上述面部椭园的测量的长轴之间的距离超过了一个予定的阀值。

12.确定摄象机前的一个人在一给定时间是否看着该摄象机的方向的一个方法，该摄象机产生一个代表该人的图象的一个视频信号，该人有一个面孔和嘴唇，上述方法包含以下措施：

当已知该人是看着该摄象机的方向，在一个参考时间执行一个面部定位检测子程序，为的是检测和模拟该面孔，该面孔是用参量值规定的一个椭园来模拟，参量值包括一个长轴和一个短轴，上述长轴除以短轴产生一个参考的高宽比；

在上述给定的时间对该视频信号执行上述面部定位检测子程序来测量在上述给定时间模拟上述面部的椭园的上述长轴和短轴，上述测量的长轴除以上述测量的短轴产生一个现时测量的高宽比；以及

如果下面条件中有一个发生，则可以推断该人在上述给定时间没有看着该摄象机的总方向：

在上述给定时间执行的上述面部定位检测子程序已经确定在上述视频信号中没有面孔；或者

上述现时测量的高宽比和上述参考的高宽比之间的差值超过了一个予定的阀值。

13.依据权利要求12确定是否一个人在看着摄象机的方法，它还包括以下措施：在上述给定时间对上述视频信号执行一个唇部活动检测子程序为的是检测和模拟该嘴唇，该嘴唇用参量值规定的一个椭园来模拟，参量值包括一个长轴和一个短轴；以及

如果上述唇部椭园垢上述短轴和上述面部椭园的上述测量的长轴之间的距离超过了一个予定的阀值，则可以推断在上述给定时间该人没有看着该摄象机的总方向。

14.在与第一用户相连系的一个视听通信系统的发射机中，对第一声频信号和第一视频信号编码的方法，它是用于传输信号到与第二用户相连系的接收机。上述接收机对该第一声频和视频信号解码，并提供给上述第二用户。上述编码方法包含以下措施：

检测上述第二用户是否正在讲话；以及

如果上述检测步骤确定上述第二用户正在讲话，则分配上述可利用比特的最小数给上述第一声频信号编码。

15.依据权利要求14的编码方法，那其特征在于，上述检测方法包括以下措施：

分析与上述第二用户相连系的第二声频信号来确定上述第二用户是否正发生声频活动；

分析包括上述第二用户的一个图象的第二视频信号，该第二视频信号包括该第二用户的面孔和嘴唇的图象，对该第二视频信号的上述分析确定该第二用户的该嘴唇是否活动；以及

如果该分析方法确定有声频活动并且如果该第二用户的该嘴唇正在活动，则可推断该第二用户正在讲话。

16.用一个视听通信系统中许多可利用的比特对声频和视频信号编码的设备，该编码设备包含：

分析该声频信号来确定该声频信号内容的装置；

分析该视频信号来确定该视频信号内容的装置；

在上述声频和视频信号中分配上述可利用比特的一个动态比特分配器，这些信号是以上述声频和视频信号对一个观测者的感知意义为基础的；

用上述的所配给的视频比特对上述视频信号进行编码的一个视频编码器；以及。

用上述的所配给的声频比特对上述声频信号进行编码的一个声频编码器。

17.依据权利要求16的编码设备，其特征在于，上述视频信号包括至少一个人的面部区域，上述面部区域包括一个唇部区域，那里分析上述视频信号的上述装置包括用来确定上述嘴唇是否正在活动的装置，如果上述分析装置确定有声频活动并且如果嘴唇正在活动，则那里上述动态比特分配器将分配足够的上述比特数来保证对上述声频信号和上述视频信号中的上述唇部区域的高质量传输。

18.依据权利要求16的编码设备，其特征在于，上述视频信号包括许多人的面部区域，上述面部区域每个包括一个唇部区域。那里分析上述视频信号的上述装置包括用来确定上述图象中一个上述面孔的上述嘴唇是否活动的装置，上述活动嘴唇与一个讲话人有关。那里上述动态比特分配器对于上述讲话人的上述面孔比起在上述视频信号中的上述其它面孔要分配更多的上述视频比特来编码。

19.依据权利要求16的编码设备，其特征在于，上述视频信号包括至少一个人的面部区域，该面部区域包括一个唇部区域，那里上述视频信号还包括活动信息和空间细节，而那里分析上述视频信号的上述装置包括用来确定上述嘴唇是否正在活动的装置，如果分析上述声频和视频信号的装置确定该嘴唇正在活动同时又有声频活动，则那里上述动态比特分配器将分配足够的上述比特数来保证上述活动信息的高质量传输；如果分析上述声频和视频信号的上述装置确定上述嘴唇没有活动同时没有声频活动，则动态比特分配器将分配足够的上述比特数保证上述空间细节的高质量传输。

20.依据权利要求16的编码方法，其特征在于，上述视频信号包括至少一个人的面部区域，该面部区域包括一个唇部区域。其中上述视频信号还包括活动信息和空间细节，那里用来分析上述视频信号的上述装置包括用来确定上述嘴唇是否活动的装置，如果上述确定该嘴唇是否活动的装置确定该人的该嘴唇是正在活动同时有声频活动，则那里上述动态分配器将对该人的该唇部区域中的象素比起对该人的该面部区域的其余部分中的象素要分配更多的上述比特来编码。

21.使用一个视听通信系统来选择一个声频编码技术对声频信号编码的设备，该系统包括声频和视频信息，上述视频信息包括至少一个人的面部区域的一幅图象，上述面部区域包括嘴唇，上述设备包含以下部分：

用来分析上述声频信号来确定进否有声频活动的装置；

用来分析上述视频信号来确定上述图象中该人的该嘴唇是否正在活动的装置；

如果用于分析上述声频和视频信号的上述装置确定该嘴唇正在活动同时有声频活动，则采用对上述声频信号编码的一个语音特定声频编码器；以及

如果用于分析上述声频和视频信号的上述装置确定该嘴唇没有活动同时有声频活动，则采用对上述声频信号编码的一个非语音特定声频编码器。

22.依据权利要求21的声频编码设备，如果分析上述声频信号的上述步骤确定没有声频活动，则上述设备还包括一个对上述声频信号编码的舒适声响声频编码器。