CN1189059A

CN1189059A - 在基于3维模型的编码系统中产生唇部活动参数的方法及装置

Info

Publication number: CN1189059A
Application number: CN97122076A
Authority: CN
Inventors: 李敏燮
Original assignee: Daewoo Electronics Co Ltd
Current assignee: Fengye Vision Technology Co., Ltd.
Priority date: 1996-12-30
Filing date: 1997-12-22
Publication date: 1998-07-29
Anticipated expiration: 2017-12-22
Also published as: GB9725873D0; CN1167276C; JPH10247254A; GB2320838A; US6014625A; JP4087935B2; GB2320838B

Abstract

在基于3维模型的编码系统中,首先,通过将－3维唇部模型匹配至单独个人的基本唇部而生成根据该单独个人的特征化的3维唇部模型。接着,将其转换成－2维唇部模型并根据实际唇部图象而进行转动,如果该人正在讲话,则根据一识别出的音节而被重构。最后,计算该2维唇部模型与该实际唇部图象之间的差别。由于只传送该所述差别而非整个实际唇部图象,传输数据量可被减少。

Description

在基于3维模型的编码系统中产生唇部活动参数的方法及装置

本发明涉及一种用于对面部表示进行编码的方法及装置；且更具体地涉及一种可在基于3维模型的编码系统中产生唇部活动参数的方法及装置。

在例如电视电话、电信会议及高清晰度电视系统的数字电视系统中，由于视频帧信号中视频行信号包括有一序列称之为象素值的数字数据，需要大量的数字数据定义各视频帧信号。但是由于常规的传输信道的可用频率带宽是有限的，为了通过其发送这么大量的数字数据，需要通过使用各种数据压缩技术来压缩或减少数据量，特别对于例如通过其发送人形的电视电话和电信会议系统的低比特率视频信号编码器。

在视频编码系统中，通常被发送的图象由连续变化的象素组成。然而，在基于3维模型的编码系统中，从这些图象中抽取一具体活动参数且被发送到一接收端。在接收端，为了重构这些图象，例如脸部图象，所发送的活动参数由被预先发送到接收端的例如一人的基本脸形的数据和一通用的头部3维模型组合而成。

在电视电话和电信会议系统中，视频图象主要由头部和肩部镜头，即人的上身组成。而且，观看者更关注的目标是人的脸部且观看者将其注意力集中在活动部分，即正在活动的包括该人唇部的嘴部区域、颚部、头部等，特别在电视场景中，一人正相对于背景场景或其它细节进行讲话时。因此，如果只有有关脸部形状的通用信息被发送，数字数据量可被显著地减少。

在基于3维模型的编码系统中，嘴形，特别是唇形具有脸部中的重要的视觉信息。该人的消息及感觉可通过该唇形而被很好地传送。

参见图1，示出了用于编码数字数据的一常规装置100的概略性方框图。

一唇部图象抽取单元10从例如脸部图象的数字输入信号中抽取对应于一预定特征部分，例如—嘴部的象素的信号，并将这些特征信号提供给一位置信息检测单元15和一形状信息检测单元20。

该位置信息检测单元15检索构成该特征部分的例如上和下唇部的单独元素的实际位置并将其提供给一位置信息表达单元25。

该位置信息表达单元25将这些实际位置变换成绝对坐标。

形状信息检测单元20分析该特征部分的这些元素的形状并检测作为这些元素的端点和中心点的适当的特征点，且将其提供给一形状信息表达单元30。

形状信息表达单元30检测这些特征点的坐标并计算其输出参数，例如表示嘴部尺寸的两端点之间的长度和表示其形状的相对值，例如嘴部等的图象。

然而，由于每个人具有不同的唇形，当输入一新图象时上述装置不能适当地工作。因此，期望将一3维唇部模型进行变换以更好地近似于各人的实际唇部图象。

因此，本发明的目在于提供一种可在基于3维模型的编码系统中产生单独个人的唇部活动参数而减少传输数据的方法及装置。

根据本发明的一个方面，提供了一种在基于3维模型的编码系统中通过使用声音信号和图象信号而产生—唇部活动参数的方法，其中该唇部活动参数是—实际唇部图象和—经变换的2维唇部模型之间的一距离，该实际唇部图象是所显示的一人的连续变化的唇部图象，该方法包括有步骤：

(a)通过使用该人的基本脸部图象和该人的基本唇部的位置和一通用的3维唇部模型来提供一特征化的3维唇部模型，其中该基本脸部图象是该人的无表情且沉默的正面脸部图象；

(b)从该人的声音信号中识别出音节，并在当该音节的沿—时间轴和—频率轴的活动量大于一预定阈值时提供—第一选择信号，并在当该音节的活动量开始低于该预定阈值时提供—第二选择信号；

(c)从这些图象信号中抽取该人的实际唇部图象；

(d)给出—根据—转动角度和该音节而被变换的2维唇部模型；及

(e)将唇部活动参数、声音信号和转动角度发送给—解码器。

根据本发明的另一方面，提供有一种用于在基于3维模型的编码系统中通过使用声音信号和图象信号而产生一唇部活动参数的装置，其中该唇部活动参数是—实际唇部图象和—经变换的2维唇部模型之间的距离，该实际唇部图象是所显示的一人的连续变化的唇部图象，该装置包括有：

识别装置，用于从该人的声音信号中识别出音节以提供—被识别出的音节和—选择信号；

抽取装置，用于从这些图象信号中抽取出该人的实际唇部图象；

提供装置，用于通过使用该人的基本脸部图象和该人的基本唇部的位置及一通用3维唇部模型来提供该人的—特征化的3维唇部模型，其中该基本脸部图象是该人的无表情且沉默的正面脸部图象；

变换装置，用于将该特征化的3维唇部模型变换成—特征化的2维唇部模型，并通过将该特征化的2维唇部模型与该实际的唇部图象进行比较而计算—转动角度以提供—经转动的2维唇部模型和该转动角度；

重构装置，用于根据该音节重构该经转动的2维唇部模型以提供一经重构的2维唇部模型；及

发送装置，用于将这些唇部活动参数、声音信号和该转动角度发送给—解码器。

通过以下结合附图对优选实施例的描述，本发明的以上及其它目的和特征将变得显然，附图中：

图1示出了用于编码数字图象的常规装置100的方框图；

图2示出了根据本发明的用于产生—单独个人的唇部活动参数的装置200的方框图；

图3A和3B示出了根据本发明的将3维模型200的一唇部图象匹配至该人的基本唇部图象300的过程；

图4提供了根据本发明的根据音节的多个唇部图形；及

图5示出了根据本发明的多个唇部活动参数。

在假定一输入图象为一人脸并且待被编码的一脸部图象的预定特征部分为一嘴部分的基础上对本发明的操作进行说明。

参见图2，示出了根据本发明的用于产生一唇部活动参数的装置200的方框图，其中该唇部活动参数表示—实际唇部图象和经变换的2维唇部模型之间的差别，该实际唇部图象为在屏幕上显示的一人的连续变化的唇部图象。

首先，一旦通信信道被连通，该人的基本脸部图象和该人的基本唇部位置被从一基本脸部图象提供单元40和一基本唇部位置提供单元45仅一次地发送给接收端的一解码器，该接收端用于重构该人的整个脸部图象，其中该基本脸部图象为该人的无表情且沉默的正面脸部图象。

接着，从一麦克风(未示出)经线路L10将声音信号输入到—A/D转换器10和多路复用器(MUX)75，并且从一摄像机(未示出)将图象信号提供给一图象分段单元20。

A/D转换器10将这些声音信号变换成数字化的声音信号并将它们提供给一声音标识单元15。同时，该图象分段单元20通过使用一利用图象的分布的常规分段方法，抽取在本发明的优选实施例中作为该预定特征部分的一例子的—实际唇部图象的边沿，并将表示该唇部的边界的一轮廓和该轮廓的内部信息经线路L20提供给转动角度计算单元60和唇部活动计算单元70。

接下来，声音标识单元15通过使用如美国专利号5,675,705，于1997年10月7日授权，题为“SPECTROGRAM-FEATURE-BASED SPEECH SYLLABLE AND WORD RECOGNI TION USING SYLLABLE LANGOAGE DICTION ARY”的专利中所公开的常规的声音标识方法，从数字化的声音信号中抽取音节，并将抽取的音节提供给一声音识别单元30。而且，当音节沿—时间轴和—频率轴的活动量变得大于—预定阈值，表明该人正在讲话时，声音标识单元15将—第一选择信号提供给—开关65，并当该活动量开始低于该预定阈值，表明该人表现一情绪时，提供—第二选择信号给开关65(更详细的内容可参见美国专利5,675,705)。

声音识别单元30通过使用如美国专利5,675,705中所公开的常规声音识别方法，识别自声音标识单元15馈送的音节，并将它们提供给一唇部重构单元35。

同时，基本脸部图象提供单元40和基本唇部位置提供单元45分别将该基本脸部的基本脸部图象和唇部位置信息提供给一基本唇部匹配单元55。并且具有头部的通用3维模型的—3维模型提供单元50将该3维模型的唇部区域提供给该基本唇部匹配单元55，其中用于唇部200的3维模型已被存储为以连接多个多边形的网络形式的线框的3维计算机图形，如图3a所示。

基本唇部匹配单元55通过使用下面说明的方法，将该3维模型的唇部匹配至该人的基本唇部，并将匹配的结果提供给转动角度计算单元60作为—对应一单独个人的特征化的3维唇部模型。

图3a和3b示出了将该3维唇部模型200匹配至该单独个人的基本唇部300的过程。首先，如图3a所示，位于3维唇部模型200的轮廓上的多个点中的最显著的特征点，例如该3维唇部模型的左和右端点(21，23)，该3维唇部模型的上部区域中的形状边沿点(41，43)和沿纵向穿过该3维唇部模型的中心区域的点(31，33，35，37)被选择为具有高优先级的特征点。接着，如图3b所示，在相对于这些各自特征点的规则检索范围内检索该3维唇部模型200和基本唇部300之间的最相似区域以将这些特征点移至基本唇部300的轮廓上。而且，在这些移动的特征点的基础上重构该3维唇部模型的轮廓。对于其它点，如果该重构的3维唇部模型的轮廓上一点与该基本唇部的其相似区域之间的距离大于一预定阈值，重复地执行上述方法。

转动角度计算单元60将自基本唇部匹配单元55馈送的特征化的3维唇部模型变换成特征化的2维唇部模型，并通过使用一常规方法，例如一仿射变换方法将自图象分段单元20馈送的实际唇部图象与该特征化的2维唇部模型进行比较而计算一转动角度以将该转动角度提供给MUX75，并将转动过该转动角度的一转动后的2维唇部模型提供给该唇部重构单元35和该开关65。

该唇部重构单元35根据在声音识别单元30识别的音节，对自转动角度计算单元60馈送的转动后的2维唇部模型的形状以一规定比例进行放大或减小，以将结果提供给开关65作为一重构的2维唇部模型。

图4示出了根据在声音识别单元30识别的基本声音音节的唇部的多个代表性图形，其中这些基本声音音节发生自根据人的发声系统的七个可能的区域，例如，如果“a”声在声音识别单元30被识别出，转动后的2维唇部模型将在唇部重构单元35被向上和向下而不是向左和向右扩展。当该人正讲话时，由于通过使用该被识别出的音节，该2维唇部模型近似于实际唇部图象，编码过程中的数据量可被显著地减少。在图4中，一闭合的音节表示该音节由一辅音结束。

开关65响应于自声音识别单元15馈送的第一选择信号选择自唇部重构单元35馈送的该重构的2维唇部模型，或响应于自声音识别单元15馈送的第二选择信号选择自转动角度计算单元60馈送的该转动后的2维唇部模型，并将所选择的提供给唇部活动计算单元70。

相对于图5所示的下列参数，即该2维唇部模型的两端点的左-右活动参数(L1，L2)，该2维唇部模型的中心区域中最上点和最下点的上-下活动参数(L3，L4)，该2维唇部模型的中心区域中向前-向后活动参数(L5，L6)及该2维唇部模型的端点的上-下活动参数(L7，L8)，该唇部活动计算单元70计算对应于该人正讲话情况的该实际唇部图象和该重构的2维唇部模型之间的活动量或计算对应于该人表达一情绪情况的该实际唇部图象和该转动后的2维唇部模型之间的活动量，以将它们作为唇部活动参数提供给MUX75。这些唇部活动参数在一预定计算范围，例如从-1至1内被选择，其中的中间值“0”表示该实际的唇部图象与该2维唇部模型一致。

MUX75将这些唇部活动参数和这些声音信号及该转动角度进行多路复用以将它们发送给接收端的解码器。

该接收端的解码器在第一阶段中将其自己的3维模型与发送至其的相配对的基本脸部图象进行组合并生成该基本脸部的相配对的3维模型。接着，该3维模型被变换成—2维模型，并且，在一发送数据流中，根据该转动角度和该声音信号，该2维模型以与装置200中的转动角度计算单元60和唇部重构单元35中相同的方式被转动及被重构。最后，该唇部活动参数被加至该2维模型以作出该相配对的实际脸部图象。

尽管已相对于具体实施例对本发明进行了描述，但对本领域的熟练技术人员而言，显然可在不脱离由所附权利要求定义的精神及范围的前提下作出各种改变和改型。

Claims

1、一种用于在基于3维模型的编码系统中通过使用声音信号及图象信号产生一唇部活动参数的方法，其中该唇部活动参数是一实际唇部模型与一变换后的2维唇部模型之间的距离，该实际唇部图象是一被显示的一人连续变化的唇部图象，该方法包括有步骤：

(b)从该人的声音信号中识别出音节，并在当该音节的沿一时间轴和一频率轴的活动量大于一预定阈值时提供—第一选择信号，并在当该音节的活动量开始低于该预定阈值时提供—第二选择信号；

(c)从这些图象信号中抽取该人的实际唇部图象；

(d)给出一根据一转动角度和该音节而被变换的2维唇部模型；及

(e)将唇部活动参数、声音信号和转动角度发送给一解码器。

2、根据权利要求1的方法，其中步骤(a)包括有步骤：

(a1)在该3维唇部模型的一轮廓上选择特征点并将一高的优先级指定给它们；

(a2)通过在一规定检索范围内检索该3维唇部模型与该基本唇部图象之间的一最相似区域，将这些特征点移至该基本唇部图象的一轮廓上；

(a3)在这些移动后的特征点的基础上，重构该3维唇部模型的轮廓；及

(a4)如果该重构后的3维唇部模型的一点与该基本唇部图象的与其最相似区域之间的一距离大于一预定阈值，对于其余点重复步骤(a2)和(a3)。

3、根据权利要求2的方法，其中这些特征点包括有位于该3维唇部模型的轮廓上的点中的该3维唇部模型的左和右端点，该3维唇部模型的上部区域中的形状边沿点和纵向穿过该3维唇部模型的中心区域的点。

4、根据权利要求3的方法，其中的步骤(c)是通过分段方法实现的。

5、根据权利要求4的方法，其中的步骤(d)包括有步骤：

(d1)将该特征化的3唇部模型变换成一特征化的2维唇部模型；

(d2)通过将该特征化的2维唇部模型与该实际唇部图象相比较，计算该转动角度以提供一转动后的2维唇部模型和该转动角度；及

(d3)根据该音节重构该转动后的2维唇部模型以提供一重构的2维唇部模型。

6、根据权利要求5的方法，其中该重构的2维唇部模型是根据7个基本声音音节而被重构的。

7、根据权利要求6的方法，其中该转动角度是通过使用一仿射变换方法而被计算的。

8、根据权利要求7的方法，其的步骤(e)包括有步骤：

(e1)响应于自步骤(b)提供的第一选择信号，在一预定计算范围内计算该实际唇部图象与该重构的2维唇部模型之间的活动量，或响应于自步骤(b)提供的第二选择信号，计算该实际唇部图象与该转动后的2维唇部图象之间的活动量以生成这些唇部活动参数；及

(e2)对这些唇部活动参数、这些声音信号和该转动角度进行多路复用。

9、根据权利要求8的方法，其中这些唇部活动参数包括有该2维唇部模型的左和右端点的左-右活动参数及上-下活动参数，和该2维唇部模型的中心区域中的最上点和最下点的上-下活动参数及前-后活动参数。

10、根据权利要求9的方法，其中该预定计算范围在-1和1之间。

11、一种用于在基于3维模型的编码系统中通过使用声音信号和图象信号而产生一唇部活动参数的装置，其中该唇部活动参数是一实际唇部图象和一经变换的2维唇部模型之间的距离，该实际唇部图象是所显示的一人的连续变化的唇部图象，该装置包括有：

提供装置，用于通过使用该人的基本脸部图象和该人的基本唇部的位置及一通用3维唇部模型来提供该人的一特征化的3维唇部模型，其中该基本脸部图象是该人的无表情且沉默的正面脸部图象；

变换装置，用于将该特征化的3维唇部模型变换成一特征化的2维唇部模型，并通过将该特征化的2维唇部模型与该实际的唇部图象进行比较而计算一转动角度以提供一经转动的2维唇部模型和该转动角度；

重构装置，用于根据该音节重构该经转动的2维唇部模型以提供—经重构的2维唇部模型；及

12、根据权利要求11的装置，其中该识别装置包括有：

转换装置，用于将这些声音信号转换成数字化的声音信号；

标识装置，用于从这些数字化的声音信号标识音节；及

给出装置，用于当所识别的音节沿—时间轴和—频率轴的活动量变得大于—预定阈值时，给出—第一选择信号，及当该所识别的音节的活动量开始低于该预定阈值时，给出—第二选择信号。

13、根据权利要求12的装置，其中该抽取装置包括—分段技术。

14、根据权利要求13的装置，其中该提供装置包括有：

选择装置，用于在该3维唇部模型的轮廓上选择特征点并将—高的优先级指定给它们。

移动装置，用于通过在一规定检索范围内检索该3维唇部模型与该基本唇部图象之间的一最相似区域，将这些特征点移至该基本唇部图象的—轮廓上；

重构装置，用于在这些移动后的特征点的基础上，重构该3维唇部模型的轮廓；及

重复装置，用于如果该重构后的3维唇部模型的一点与该基本唇部图象的与其最相似区域之间的一距离大于一预定阈值，对于其余点重复该移动和重构装置。

15、根据权利要求14的装置，其中这些特征点包括有位于该3维唇部模型的轮廓上的点中的该3维唇部模型的左和右端点，该3维唇部模型的上部区域中的形状边沿点和纵向穿过该3维唇部模型的中心区域的点。

16、根据权利要求15的装置，其中该重构的2维唇部模型是根据7个基本声音音节而被重构的。

17、根据权利要求16的装置，其中该转动角度是通过使用一仿射变换方法而被计算的。

18、根据权利要求17的装置，其中的发送装置包括有：

计算装置，用于响应于自给出装置给出的第一选择信号，在一预定计算范围内计算该实际唇部图象与该重构的2维唇部模型之间的活动量，或响应于自步骤(b)提供的第二选择信号，计算该实际唇部图象与该转动后的2维唇部图象之间的活动量以生成这些唇部活动参数；及

多路复用装置，用于对这些唇部活动参数、这些声音信号和该转动角度进行多路复用。

19、根据权利要求18的装置，其中这些唇部活动参数包括有该2维唇部模型的左和右端点的左-右活动参数及上-下活动参数，和该2维唇部模型的中心区域中的最上点和最下点的上-下活动参数及前-后活动参数。

20、根据权利要求19的装置，其中该预定计算范围在-1和1之间。