CN1189059A - 在基于3维模型的编码系统中产生唇部活动参数的方法及装置 - Google Patents

在基于3维模型的编码系统中产生唇部活动参数的方法及装置 Download PDF

Info

Publication number
CN1189059A
CN1189059A CN97122076A CN97122076A CN1189059A CN 1189059 A CN1189059 A CN 1189059A CN 97122076 A CN97122076 A CN 97122076A CN 97122076 A CN97122076 A CN 97122076A CN 1189059 A CN1189059 A CN 1189059A
Authority
CN
China
Prior art keywords
lip
dimension
model
models
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97122076A
Other languages
English (en)
Other versions
CN1167276C (zh
Inventor
李敏燮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fengye Vision Technology Co., Ltd.
Original Assignee
Daewoo Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1019960078101A external-priority patent/KR100220699B1/ko
Priority claimed from KR1019960078100A external-priority patent/KR100220598B1/ko
Application filed by Daewoo Electronics Co Ltd filed Critical Daewoo Electronics Co Ltd
Publication of CN1189059A publication Critical patent/CN1189059A/zh
Application granted granted Critical
Publication of CN1167276C publication Critical patent/CN1167276C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Abstract

在基于3维模型的编码系统中,首先,通过将-3维唇部模型匹配至单独个人的基本唇部而生成根据该单独个人的特征化的3维唇部模型。接着,将其转换成-2维唇部模型并根据实际唇部图象而进行转动,如果该人正在讲话,则根据一识别出的音节而被重构。最后,计算该2维唇部模型与该实际唇部图象之间的差别。由于只传送该所述差别而非整个实际唇部图象,传输数据量可被减少。

Description

在基于3维模型的编码系统中产生唇部 活动参数的方法及装置
本发明涉及一种用于对面部表示进行编码的方法及装置;且更具体地涉及一种可在基于3维模型的编码系统中产生唇部活动参数的方法及装置。
在例如电视电话、电信会议及高清晰度电视系统的数字电视系统中,由于视频帧信号中视频行信号包括有一序列称之为象素值的数字数据,需要大量的数字数据定义各视频帧信号。但是由于常规的传输信道的可用频率带宽是有限的,为了通过其发送这么大量的数字数据,需要通过使用各种数据压缩技术来压缩或减少数据量,特别对于例如通过其发送人形的电视电话和电信会议系统的低比特率视频信号编码器。
在视频编码系统中,通常被发送的图象由连续变化的象素组成。然而,在基于3维模型的编码系统中,从这些图象中抽取一具体活动参数且被发送到一接收端。在接收端,为了重构这些图象,例如脸部图象,所发送的活动参数由被预先发送到接收端的例如一人的基本脸形的数据和一通用的头部3维模型组合而成。
在电视电话和电信会议系统中,视频图象主要由头部和肩部镜头,即人的上身组成。而且,观看者更关注的目标是人的脸部且观看者将其注意力集中在活动部分,即正在活动的包括该人唇部的嘴部区域、颚部、头部等,特别在电视场景中,一人正相对于背景场景或其它细节进行讲话时。因此,如果只有有关脸部形状的通用信息被发送,数字数据量可被显著地减少。
在基于3维模型的编码系统中,嘴形,特别是唇形具有脸部中的重要的视觉信息。该人的消息及感觉可通过该唇形而被很好地传送。
参见图1,示出了用于编码数字数据的一常规装置100的概略性方框图。
一唇部图象抽取单元10从例如脸部图象的数字输入信号中抽取对应于一预定特征部分,例如—嘴部的象素的信号,并将这些特征信号提供给一位置信息检测单元15和一形状信息检测单元20。
该位置信息检测单元15检索构成该特征部分的例如上和下唇部的单独元素的实际位置并将其提供给一位置信息表达单元25。
该位置信息表达单元25将这些实际位置变换成绝对坐标。
形状信息检测单元20分析该特征部分的这些元素的形状并检测作为这些元素的端点和中心点的适当的特征点,且将其提供给一形状信息表达单元30。
形状信息表达单元30检测这些特征点的坐标并计算其输出参数,例如表示嘴部尺寸的两端点之间的长度和表示其形状的相对值,例如嘴部等的图象。
然而,由于每个人具有不同的唇形,当输入一新图象时上述装置不能适当地工作。因此,期望将一3维唇部模型进行变换以更好地近似于各人的实际唇部图象。
因此,本发明的目在于提供一种可在基于3维模型的编码系统中产生单独个人的唇部活动参数而减少传输数据的方法及装置。
根据本发明的一个方面,提供了一种在基于3维模型的编码系统中通过使用声音信号和图象信号而产生—唇部活动参数的方法,其中该唇部活动参数是—实际唇部图象和—经变换的2维唇部模型之间的一距离,该实际唇部图象是所显示的一人的连续变化的唇部图象,该方法包括有步骤:
(a)通过使用该人的基本脸部图象和该人的基本唇部的位置和一通用的3维唇部模型来提供一特征化的3维唇部模型,其中该基本脸部图象是该人的无表情且沉默的正面脸部图象;
(b)从该人的声音信号中识别出音节,并在当该音节的沿—时间轴和—频率轴的活动量大于一预定阈值时提供—第一选择信号,并在当该音节的活动量开始低于该预定阈值时提供—第二选择信号;
(c)从这些图象信号中抽取该人的实际唇部图象;
(d)给出—根据—转动角度和该音节而被变换的2维唇部模型;及
(e)将唇部活动参数、声音信号和转动角度发送给—解码器。
根据本发明的另一方面,提供有一种用于在基于3维模型的编码系统中通过使用声音信号和图象信号而产生一唇部活动参数的装置,其中该唇部活动参数是—实际唇部图象和—经变换的2维唇部模型之间的距离,该实际唇部图象是所显示的一人的连续变化的唇部图象,该装置包括有:
识别装置,用于从该人的声音信号中识别出音节以提供—被识别出的音节和—选择信号;
抽取装置,用于从这些图象信号中抽取出该人的实际唇部图象;
提供装置,用于通过使用该人的基本脸部图象和该人的基本唇部的位置及一通用3维唇部模型来提供该人的—特征化的3维唇部模型,其中该基本脸部图象是该人的无表情且沉默的正面脸部图象;
变换装置,用于将该特征化的3维唇部模型变换成—特征化的2维唇部模型,并通过将该特征化的2维唇部模型与该实际的唇部图象进行比较而计算—转动角度以提供—经转动的2维唇部模型和该转动角度;
重构装置,用于根据该音节重构该经转动的2维唇部模型以提供一经重构的2维唇部模型;及
发送装置,用于将这些唇部活动参数、声音信号和该转动角度发送给—解码器。
通过以下结合附图对优选实施例的描述,本发明的以上及其它目的和特征将变得显然,附图中:
图1示出了用于编码数字图象的常规装置100的方框图;
图2示出了根据本发明的用于产生—单独个人的唇部活动参数的装置200的方框图;
图3A和3B示出了根据本发明的将3维模型200的一唇部图象匹配至该人的基本唇部图象300的过程;
图4提供了根据本发明的根据音节的多个唇部图形;及
图5示出了根据本发明的多个唇部活动参数。
在假定一输入图象为一人脸并且待被编码的一脸部图象的预定特征部分为一嘴部分的基础上对本发明的操作进行说明。
参见图2,示出了根据本发明的用于产生一唇部活动参数的装置200的方框图,其中该唇部活动参数表示—实际唇部图象和经变换的2维唇部模型之间的差别,该实际唇部图象为在屏幕上显示的一人的连续变化的唇部图象。
首先,一旦通信信道被连通,该人的基本脸部图象和该人的基本唇部位置被从一基本脸部图象提供单元40和一基本唇部位置提供单元45仅一次地发送给接收端的一解码器,该接收端用于重构该人的整个脸部图象,其中该基本脸部图象为该人的无表情且沉默的正面脸部图象。
接着,从一麦克风(未示出)经线路L10将声音信号输入到—A/D转换器10和多路复用器(MUX)75,并且从一摄像机(未示出)将图象信号提供给一图象分段单元20。
A/D转换器10将这些声音信号变换成数字化的声音信号并将它们提供给一声音标识单元15。同时,该图象分段单元20通过使用一利用图象的分布的常规分段方法,抽取在本发明的优选实施例中作为该预定特征部分的一例子的—实际唇部图象的边沿,并将表示该唇部的边界的一轮廓和该轮廓的内部信息经线路L20提供给转动角度计算单元60和唇部活动计算单元70。
接下来,声音标识单元15通过使用如美国专利号5,675,705,于1997年10月7日授权,题为“SPECTROGRAM-FEATURE-BASED SPEECH SYLLABLE AND WORD RECOGNI TION USING SYLLABLE LANGOAGE DICTION ARY”的专利中所公开的常规的声音标识方法,从数字化的声音信号中抽取音节,并将抽取的音节提供给一声音识别单元30。而且,当音节沿—时间轴和—频率轴的活动量变得大于—预定阈值,表明该人正在讲话时,声音标识单元15将—第一选择信号提供给—开关65,并当该活动量开始低于该预定阈值,表明该人表现一情绪时,提供—第二选择信号给开关65(更详细的内容可参见美国专利5,675,705)。
声音识别单元30通过使用如美国专利5,675,705中所公开的常规声音识别方法,识别自声音标识单元15馈送的音节,并将它们提供给一唇部重构单元35。
同时,基本脸部图象提供单元40和基本唇部位置提供单元45分别将该基本脸部的基本脸部图象和唇部位置信息提供给一基本唇部匹配单元55。并且具有头部的通用3维模型的—3维模型提供单元50将该3维模型的唇部区域提供给该基本唇部匹配单元55,其中用于唇部200的3维模型已被存储为以连接多个多边形的网络形式的线框的3维计算机图形,如图3a所示。
基本唇部匹配单元55通过使用下面说明的方法,将该3维模型的唇部匹配至该人的基本唇部,并将匹配的结果提供给转动角度计算单元60作为—对应一单独个人的特征化的3维唇部模型。
图3a和3b示出了将该3维唇部模型200匹配至该单独个人的基本唇部300的过程。首先,如图3a所示,位于3维唇部模型200的轮廓上的多个点中的最显著的特征点,例如该3维唇部模型的左和右端点(21,23),该3维唇部模型的上部区域中的形状边沿点(41,43)和沿纵向穿过该3维唇部模型的中心区域的点(31,33,35,37)被选择为具有高优先级的特征点。接着,如图3b所示,在相对于这些各自特征点的规则检索范围内检索该3维唇部模型200和基本唇部300之间的最相似区域以将这些特征点移至基本唇部300的轮廓上。而且,在这些移动的特征点的基础上重构该3维唇部模型的轮廓。对于其它点,如果该重构的3维唇部模型的轮廓上一点与该基本唇部的其相似区域之间的距离大于一预定阈值,重复地执行上述方法。
转动角度计算单元60将自基本唇部匹配单元55馈送的特征化的3维唇部模型变换成特征化的2维唇部模型,并通过使用一常规方法,例如一仿射变换方法将自图象分段单元20馈送的实际唇部图象与该特征化的2维唇部模型进行比较而计算一转动角度以将该转动角度提供给MUX75,并将转动过该转动角度的一转动后的2维唇部模型提供给该唇部重构单元35和该开关65。
该唇部重构单元35根据在声音识别单元30识别的音节,对自转动角度计算单元60馈送的转动后的2维唇部模型的形状以一规定比例进行放大或减小,以将结果提供给开关65作为一重构的2维唇部模型。
图4示出了根据在声音识别单元30识别的基本声音音节的唇部的多个代表性图形,其中这些基本声音音节发生自根据人的发声系统的七个可能的区域,例如,如果“a”声在声音识别单元30被识别出,转动后的2维唇部模型将在唇部重构单元35被向上和向下而不是向左和向右扩展。当该人正讲话时,由于通过使用该被识别出的音节,该2维唇部模型近似于实际唇部图象,编码过程中的数据量可被显著地减少。在图4中,一闭合的音节表示该音节由一辅音结束。
开关65响应于自声音识别单元15馈送的第一选择信号选择自唇部重构单元35馈送的该重构的2维唇部模型,或响应于自声音识别单元15馈送的第二选择信号选择自转动角度计算单元60馈送的该转动后的2维唇部模型,并将所选择的提供给唇部活动计算单元70。
相对于图5所示的下列参数,即该2维唇部模型的两端点的左-右活动参数(L1,L2),该2维唇部模型的中心区域中最上点和最下点的上-下活动参数(L3,L4),该2维唇部模型的中心区域中向前-向后活动参数(L5,L6)及该2维唇部模型的端点的上-下活动参数(L7,L8),该唇部活动计算单元70计算对应于该人正讲话情况的该实际唇部图象和该重构的2维唇部模型之间的活动量或计算对应于该人表达一情绪情况的该实际唇部图象和该转动后的2维唇部模型之间的活动量,以将它们作为唇部活动参数提供给MUX75。这些唇部活动参数在一预定计算范围,例如从-1至1内被选择,其中的中间值“0”表示该实际的唇部图象与该2维唇部模型一致。
MUX75将这些唇部活动参数和这些声音信号及该转动角度进行多路复用以将它们发送给接收端的解码器。
该接收端的解码器在第一阶段中将其自己的3维模型与发送至其的相配对的基本脸部图象进行组合并生成该基本脸部的相配对的3维模型。接着,该3维模型被变换成—2维模型,并且,在一发送数据流中,根据该转动角度和该声音信号,该2维模型以与装置200中的转动角度计算单元60和唇部重构单元35中相同的方式被转动及被重构。最后,该唇部活动参数被加至该2维模型以作出该相配对的实际脸部图象。
尽管已相对于具体实施例对本发明进行了描述,但对本领域的熟练技术人员而言,显然可在不脱离由所附权利要求定义的精神及范围的前提下作出各种改变和改型。

Claims (20)

1、一种用于在基于3维模型的编码系统中通过使用声音信号及图象信号产生一唇部活动参数的方法,其中该唇部活动参数是一实际唇部模型与一变换后的2维唇部模型之间的距离,该实际唇部图象是一被显示的一人连续变化的唇部图象,该方法包括有步骤:
(a)通过使用该人的基本脸部图象和该人的基本唇部的位置和一通用的3维唇部模型来提供一特征化的3维唇部模型,其中该基本脸部图象是该人的无表情且沉默的正面脸部图象;
(b)从该人的声音信号中识别出音节,并在当该音节的沿一时间轴和一频率轴的活动量大于一预定阈值时提供—第一选择信号,并在当该音节的活动量开始低于该预定阈值时提供—第二选择信号;
(c)从这些图象信号中抽取该人的实际唇部图象;
(d)给出一根据一转动角度和该音节而被变换的2维唇部模型;及
(e)将唇部活动参数、声音信号和转动角度发送给一解码器。
2、根据权利要求1的方法,其中步骤(a)包括有步骤:
(a1)在该3维唇部模型的一轮廓上选择特征点并将一高的优先级指定给它们;
(a2)通过在一规定检索范围内检索该3维唇部模型与该基本唇部图象之间的一最相似区域,将这些特征点移至该基本唇部图象的一轮廓上;
(a3)在这些移动后的特征点的基础上,重构该3维唇部模型的轮廓;及
(a4)如果该重构后的3维唇部模型的一点与该基本唇部图象的与其最相似区域之间的一距离大于一预定阈值,对于其余点重复步骤(a2)和(a3)。
3、根据权利要求2的方法,其中这些特征点包括有位于该3维唇部模型的轮廓上的点中的该3维唇部模型的左和右端点,该3维唇部模型的上部区域中的形状边沿点和纵向穿过该3维唇部模型的中心区域的点。
4、根据权利要求3的方法,其中的步骤(c)是通过分段方法实现的。
5、根据权利要求4的方法,其中的步骤(d)包括有步骤:
(d1)将该特征化的3唇部模型变换成一特征化的2维唇部模型;
(d2)通过将该特征化的2维唇部模型与该实际唇部图象相比较,计算该转动角度以提供一转动后的2维唇部模型和该转动角度;及
(d3)根据该音节重构该转动后的2维唇部模型以提供一重构的2维唇部模型。
6、根据权利要求5的方法,其中该重构的2维唇部模型是根据7个基本声音音节而被重构的。
7、根据权利要求6的方法,其中该转动角度是通过使用一仿射变换方法而被计算的。
8、根据权利要求7的方法,其的步骤(e)包括有步骤:
(e1)响应于自步骤(b)提供的第一选择信号,在一预定计算范围内计算该实际唇部图象与该重构的2维唇部模型之间的活动量,或响应于自步骤(b)提供的第二选择信号,计算该实际唇部图象与该转动后的2维唇部图象之间的活动量以生成这些唇部活动参数;及
(e2)对这些唇部活动参数、这些声音信号和该转动角度进行多路复用。
9、根据权利要求8的方法,其中这些唇部活动参数包括有该2维唇部模型的左和右端点的左-右活动参数及上-下活动参数,和该2维唇部模型的中心区域中的最上点和最下点的上-下活动参数及前-后活动参数。
10、根据权利要求9的方法,其中该预定计算范围在-1和1之间。
11、一种用于在基于3维模型的编码系统中通过使用声音信号和图象信号而产生一唇部活动参数的装置,其中该唇部活动参数是一实际唇部图象和一经变换的2维唇部模型之间的距离,该实际唇部图象是所显示的一人的连续变化的唇部图象,该装置包括有:
识别装置,用于从该人的声音信号中识别出音节以提供—被识别出的音节和—选择信号;
抽取装置,用于从这些图象信号中抽取出该人的实际唇部图象;
提供装置,用于通过使用该人的基本脸部图象和该人的基本唇部的位置及一通用3维唇部模型来提供该人的一特征化的3维唇部模型,其中该基本脸部图象是该人的无表情且沉默的正面脸部图象;
变换装置,用于将该特征化的3维唇部模型变换成一特征化的2维唇部模型,并通过将该特征化的2维唇部模型与该实际的唇部图象进行比较而计算一转动角度以提供一经转动的2维唇部模型和该转动角度;
重构装置,用于根据该音节重构该经转动的2维唇部模型以提供—经重构的2维唇部模型;及
发送装置,用于将这些唇部活动参数、声音信号和该转动角度发送给—解码器。
12、根据权利要求11的装置,其中该识别装置包括有:
转换装置,用于将这些声音信号转换成数字化的声音信号;
标识装置,用于从这些数字化的声音信号标识音节;及
给出装置,用于当所识别的音节沿—时间轴和—频率轴的活动量变得大于—预定阈值时,给出—第一选择信号,及当该所识别的音节的活动量开始低于该预定阈值时,给出—第二选择信号。
13、根据权利要求12的装置,其中该抽取装置包括—分段技术。
14、根据权利要求13的装置,其中该提供装置包括有:
选择装置,用于在该3维唇部模型的轮廓上选择特征点并将—高的优先级指定给它们。
移动装置,用于通过在一规定检索范围内检索该3维唇部模型与该基本唇部图象之间的一最相似区域,将这些特征点移至该基本唇部图象的—轮廓上;
重构装置,用于在这些移动后的特征点的基础上,重构该3维唇部模型的轮廓;及
重复装置,用于如果该重构后的3维唇部模型的一点与该基本唇部图象的与其最相似区域之间的一距离大于一预定阈值,对于其余点重复该移动和重构装置。
15、根据权利要求14的装置,其中这些特征点包括有位于该3维唇部模型的轮廓上的点中的该3维唇部模型的左和右端点,该3维唇部模型的上部区域中的形状边沿点和纵向穿过该3维唇部模型的中心区域的点。
16、根据权利要求15的装置,其中该重构的2维唇部模型是根据7个基本声音音节而被重构的。
17、根据权利要求16的装置,其中该转动角度是通过使用一仿射变换方法而被计算的。
18、根据权利要求17的装置,其中的发送装置包括有:
计算装置,用于响应于自给出装置给出的第一选择信号,在一预定计算范围内计算该实际唇部图象与该重构的2维唇部模型之间的活动量,或响应于自步骤(b)提供的第二选择信号,计算该实际唇部图象与该转动后的2维唇部图象之间的活动量以生成这些唇部活动参数;及
多路复用装置,用于对这些唇部活动参数、这些声音信号和该转动角度进行多路复用。
19、根据权利要求18的装置,其中这些唇部活动参数包括有该2维唇部模型的左和右端点的左-右活动参数及上-下活动参数,和该2维唇部模型的中心区域中的最上点和最下点的上-下活动参数及前-后活动参数。
20、根据权利要求19的装置,其中该预定计算范围在-1和1之间。
CNB97122076XA 1996-12-30 1997-12-22 在基于3维模型的编码系统中产生唇部活动参数的方法及装置 Expired - Fee Related CN1167276C (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR1019960078101A KR100220699B1 (ko) 1996-12-30 1996-12-30 3 차원 모델 기반 코딩 시스템의 입술 형태 정보 추출 장치
KR78101/96 1996-12-30
KR78100/96 1996-12-30
KR78101/1996 1996-12-30
KR1019960078100A KR100220598B1 (ko) 1996-12-30 1996-12-30 3차원 모델 기반 코딩 시스템의 입술 변형 변수 추출 장치
KR78100/1996 1996-12-30

Publications (2)

Publication Number Publication Date
CN1189059A true CN1189059A (zh) 1998-07-29
CN1167276C CN1167276C (zh) 2004-09-15

Family

ID=26632427

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB97122076XA Expired - Fee Related CN1167276C (zh) 1996-12-30 1997-12-22 在基于3维模型的编码系统中产生唇部活动参数的方法及装置

Country Status (4)

Country Link
US (1) US6014625A (zh)
JP (1) JP4087935B2 (zh)
CN (1) CN1167276C (zh)
GB (1) GB2320838B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1294541C (zh) * 2001-05-09 2007-01-10 英特尔公司 在单目脸部跟踪中使用数据驱动模型的方法和系统
CN100377180C (zh) * 2003-01-07 2008-03-26 科乐美股份有限公司 图像显示控制方法及视频游戏装置
CN1967657B (zh) * 2005-11-18 2011-06-08 成都索贝数码科技股份有限公司 节目制作中的说话人声音自动跟踪变调系统和方法
CN102271241A (zh) * 2011-09-02 2011-12-07 北京邮电大学 一种基于面部表情/动作识别的图像通信方法及系统
WO2015042976A1 (zh) * 2013-09-30 2015-04-02 酷派软件技术(深圳)有限公司 图像编码、解码方法和系统以及终端
CN104838339A (zh) * 2013-01-07 2015-08-12 日立麦克赛尔株式会社 便携终端装置以及信息处理系统
WO2019120131A1 (zh) * 2017-12-21 2019-06-27 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3112254B2 (ja) * 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
KR19990039650A (ko) * 1997-11-13 1999-06-05 전주범 입술 애니메이션을 위한 텍스쳐 맵핑 방법
JP3688879B2 (ja) * 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
US7257528B1 (en) 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6975988B1 (en) * 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
US20020198716A1 (en) * 2001-06-25 2002-12-26 Kurt Zimmerman System and method of improved communication
EP1421696A4 (en) * 2001-08-30 2007-08-29 America Online Inc ADAPTIVE STROKE ORDER SYSTEM ON COMPONENT BASIS
US20080317264A1 (en) * 2005-12-21 2008-12-25 Jordan Wynnychuk Device and Method for Capturing Vocal Sound and Mouth Region Images
CN100403338C (zh) * 2006-09-14 2008-07-16 浙江大学 一种基于视频流的人脸表情幻想方法
KR101760345B1 (ko) * 2010-12-23 2017-07-21 삼성전자주식회사 동영상 촬영 방법 및 동영상 촬영 장치
CN104935860A (zh) * 2014-03-18 2015-09-23 北京三星通信技术研究有限公司 视频通话实现方法及装置
CN107039046B (zh) * 2017-03-21 2020-03-10 河南理工大学 一种基于特征融合的语音声效模式检测方法
CN107679449B (zh) * 2017-08-17 2018-08-03 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
CN109087651B (zh) * 2018-09-05 2021-01-19 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5841470A (en) * 1992-06-29 1998-11-24 British Telecommunications Public Limited Company Coding and decoding video signals
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding
CA2162199A1 (en) * 1994-11-07 1996-05-08 Homer H. Chen Acoustic-assisted image processing
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1294541C (zh) * 2001-05-09 2007-01-10 英特尔公司 在单目脸部跟踪中使用数据驱动模型的方法和系统
CN100377180C (zh) * 2003-01-07 2008-03-26 科乐美股份有限公司 图像显示控制方法及视频游戏装置
CN1967657B (zh) * 2005-11-18 2011-06-08 成都索贝数码科技股份有限公司 节目制作中的说话人声音自动跟踪变调系统和方法
CN102271241A (zh) * 2011-09-02 2011-12-07 北京邮电大学 一种基于面部表情/动作识别的图像通信方法及系统
CN104838339A (zh) * 2013-01-07 2015-08-12 日立麦克赛尔株式会社 便携终端装置以及信息处理系统
US10303433B2 (en) 2013-01-07 2019-05-28 Maxell, Ltd. Portable terminal device and information processing system
US11487502B2 (en) 2013-01-07 2022-11-01 Maxell, Ltd. Portable terminal device and information processing system
US11861264B2 (en) 2013-01-07 2024-01-02 Maxell, Ltd. Portable terminal device and information processing system
WO2015042976A1 (zh) * 2013-09-30 2015-04-02 酷派软件技术(深圳)有限公司 图像编码、解码方法和系统以及终端
WO2019120131A1 (zh) * 2017-12-21 2019-06-27 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置
CN109949390A (zh) * 2017-12-21 2019-06-28 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置

Also Published As

Publication number Publication date
GB9725873D0 (en) 1998-02-04
CN1167276C (zh) 2004-09-15
JPH10247254A (ja) 1998-09-14
GB2320838A (en) 1998-07-01
US6014625A (en) 2000-01-11
JP4087935B2 (ja) 2008-05-21
GB2320838B (en) 2001-05-16

Similar Documents

Publication Publication Date Title
CN1167276C (zh) 在基于3维模型的编码系统中产生唇部活动参数的方法及装置
US8798168B2 (en) Video telecommunication system for synthesizing a separated object with a new background picture
JP2753599B2 (ja) 画像符号化装置
KR20030027023A (ko) 모델에 기초한 코딩 및 우선 순위화 기술들을 사용한비디오 통신 시스템
WO1998053438A1 (en) Segmentation and sign language synthesis
JP2002517859A (ja) 表情の3dジオメトリ、色、およびシェーディングを取り込んで表すための方法およびシステム
JP2001160062A (ja) 画像データ検索装置
CN114419702B (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
US20020164068A1 (en) Model switching in a communication system
Boubekker Bandwidth Reduction for the Transmission of Sign Language Over Telephone Lines
US6343151B1 (en) Method and apparatus for transmitting and utilizing analog encoded information
JPH08235384A (ja) 音響支援画像処理
US20040240543A1 (en) Low bandwidth video compression
US5896467A (en) Method and apparatus for encoding a contour image of an object in a video signal
JPH09172378A (ja) モデルベースの局所量子化を使用する画像処理のための方法および装置
CN113593587B (zh) 语音分离方法及装置、存储介质、电子装置
JP2795084B2 (ja) 口形状画像合成方法及び装置
KR100229538B1 (ko) 얼글 움직임을 인코딩하기 위한 방법 및 장치한 방법 및 장치
JPH0338188A (ja) 動画像伝送方式
CN1189055A (zh) 编码一帧内多个轮廓的方法及装置
KR100220598B1 (ko) 3차원 모델 기반 코딩 시스템의 입술 변형 변수 추출 장치
KR102649818B1 (ko) 3d 립싱크 비디오 생성 장치 및 방법
Coianiz et al. Analysis and encoding of lip movements
JPS6269741A (ja) 情報通信方式
JP2955761B2 (ja) 画像の標本化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20030410

Address after: Seoul

Applicant after: Daewoo Electronics Co., Ltd.

Address before: Seoul

Applicant before: Daewoo Electronics Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: FENGYE VISION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: DAEWOO ELECTRONICS CO., LTD.

Effective date: 20130502

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130502

Address after: Ontario

Patentee after: Fengye Vision Technology Co., Ltd.

Address before: Seoul, South Kerean

Patentee before: Daewoo Electronics Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040915

Termination date: 20151222

EXPY Termination of patent right or utility model