CN1914666A

CN1914666A - 声音合成装置

Info

Publication number: CN1914666A
Application number: CNA2005800033678A
Authority: CN
Inventors: 斋藤夏树; 釜井孝浩; 加藤弓子
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2004-01-27
Filing date: 2005-01-17
Publication date: 2007-02-14
Anticipated expiration: 2025-01-17
Also published as: US7571099B2; JP3895758B2; CN1914666B; JPWO2005071664A1; WO2005071664A1; US20070156408A1

Abstract

提供一种从文本数据生成音质的自由度较宽、音质良好的合成声音的声音合成装置。声音合成装置具备：声音合成DB(101a，101z)；声音合成部(103)，取得文本(10)，并且从声音合成DB(101a)生成与包含在文本(10)中的字符对应的音质A的声音合成参数值串(11)，从声音合成DB(101z)生成与包含在文本(10)中的字符对应的音质Z的声音合成参数值串(11)；声音过渡部(105)，从音质A及音质Z的声音合成参数值串(11)生成表示与包含在文本(10)中的文字对应的、音质A及音质Z的中间音质的合成声音的中间声音合成参数值串(13)；扬声器(107)，将生成的中间声音合成参数值串(13)变换为其合成声音并输出。

Description

声音合成装置

技术领域

本发明涉及生成合成声音并输出的声音合成装置。

背景技术

以往以来，提供有生成想要的合成声音并输出的声音合成装置(例如参照专利文献1、专利文献2及专利文献3)。

专利文献1的声音合成装置具备音质分别不同的多个声音单元(音声素片)数据库，通过切换使用这些声音单元数据库来生成想要的合成声音并输出。

此外，专利文献2的声音合成装置(声音变形装置)通过变换声音分析结果的波谱，来生成想要的合成声音并输出。

此外，专利文献3的声音合成装置通过对多个波形数据进行过渡(モ一フィング)处理来生成想要的合成声音并输出。

专利文献1：特开平7-319495号公报

专利文献2：特开2000-330582号公报

专利文献3：特开平9-50295号公报

但是，在上述专利文献1及专利文献2以及专利文献3的声音合成装置中，存在着声音变换的自由度较小、很难进行音质的调节的问题。

即，在专利文献1中，合成声音的音质被限定于预先设定的音质，不能表现该预先设定的音质间的连续变化。

此外，在专利文献2中，如果增大波谱的动态范围则在音质中会产生破绽，难以维持良好的音质。

进而，在专利文献3中，确定多个波形数据的相互对应的部位(例如波形的波峰)而以该部位为基准进行过渡处理，但有时会错误地确定该部位。结果，生成的合成声音的音质变差。

发明内容

所以，本发明是鉴于这样的问题而做出的，其目的是提供一种声音合成装置，能够从文本数据生成音质的自由度较宽、音质良好的合成声音。

为了达到上述目的，有关本发明的声音合成装置的特征在于，具备：存储单元，预先存储有：与属于第1音质的多个声音单元有关的第1声音单元信息、以及与属于不同于上述第1音质的第2音质的多个声音单元有关的第2声音单元信息；声音信息生成单元，取得文本数据，并且根据上述存储单元的第1声音单元信息生成表示与包含在上述文本数据中的字符对应的、上述第1音质的合成声音的第1合成声音信息，并根据上述存储单元的第2声音单元信息生成表示与包含在上述文本数据中的字符对应的、上述第2音质的合成声音的第2合成声音信息；过渡单元，从由上述声音信息生成单元生成的上述第1及第2合成声音信息，生成表示与包含在上述文本数据中的字符对应的、上述第1及第2音质的中间音质的合成声音的中间合成声音信息；以及声音输出单元，将由上述过渡单元生成的上述中间合成声音信息变换为上述中间音质的合成声音并输出；上述声音信息生成单元将上述第1及第2合成声音信息分别作为多个特征参数的串而生成；上述过渡单元通过计算上述第1及第2合成声音信息的相互对应的特征参数的中间值，来生成上述中间合成声音信息。

由此，只要将对应于第1音质的第1声音单元信息、以及对应于第2音质的第2声音单元信息预先存储在存储单元中，就可以输出第1及第2音质的中间音质的合成声音，所以并不限定于预先存储在存储单元中的内容的音质而能够提高音质的自由度。此外，由于以具有第1及第2音质的第1及第2合成声音信息为基础生成中间合成声音信息，所以能够不像以往例那样进行将波谱的动态范围扩大得过大那样的处理，而能够将合成声音的音质维持为良好的状态。此外，有关本发明的声音合成装置由于取得文本数据来输出与包含在其中的字符串对应的合成声音，所以能够提高对用户的使用方便性。进而，有关本发明的声音合成装置由于计算第1及第2合成声音信息的相互对应的特征参数的中间值来生成中间合成声音信息，所以与以往例那样对2个波谱进行过渡处理的情况相比，不会错误地确定作为基准的部位，而能够使合成声音的音质变好，还能够减轻计算量。

这里，也可以使其特征为，上述过渡单元使上述第1及第2合成声音信息对上述中间合成声音信息起作用的比例变化，以使从上述声音输出单元输出的合成声音的音质在其输出过程中连续变化。

由此，由于在合成声音的输出中该合成声音的音质连续变化，所以能够输出例如从平常声音向生气声音连续变化那样的合成声音。

此外，也可以使其特征为，上述存储单元将表示由上述各个第1及第2声音单元信息所表示的各声音单元的基准的内容的特征信息，包含并存储在上述各个第1及第2声音单元信息中；上述声音信息生成单元分别包含上述特征信息而生成上述第1及第2合成声音信息；上述过渡单元在将上述第1及第2合成声音信息利用由各自包含的上述特征信息所表示的基准来整合之后，生成上述中间合成声音信息。例如，上述基准是由上述各个第1及第2声音单元信息表示的各声音单元的声响特征的变化点。另外，上述声响特征的变化点是用HMM(Hidden Markov Model)来表示上述各个第1及第2声音单元信息中所表示的各声音单元的最优路径上的状态迁移点；上述过渡单元在利用上述状态迁移点在时间轴上整合上述第1及第2合成声音信息之后，生成上述中间合成声音信息。

由此，由于在过渡单元进行的中间合成声音信息的生成中，使用上述基准来整合第1及第2合成声音信息，所以与例如通过图形匹配等整合第1及第2合成声音信息那样的情况相比，能够迅速地实现整合而生成中间合成声音信息，结果能够提高处理速度。此外，通过将其基准设定为由HMM(Hidden Markov Model)表示的最优路径上的状态迁移点，能够在时间轴上正确地整合第1及第2合成声音信息。

此外，也可以使其特征为，上述声音合成装置还具备：图像存储单元，预先存储有表示与上述第1音质对应的图像的第1图像信息、以及表示与上述第2音质对应的图像的第2图像信息；图像过渡单元，由上述第1及第2图像信息生成中间图像信息，该中间图像信息表示作为由上述各个第1及第2图像信息所表示的图像的中间图像的、与上述中间合成声音信息的音质对应的图像；显示单元，取得由上述图像过渡单元生成的中间图像信息，与从上述声音输出单元输出的合成声音同步地显示由上述中间图像信息表示的图像。例如，上述第1图像信息表示与上述第1音质对应的脸部图像，上述第2图像信息表示与上述第2音质对应的脸部图像。

由此，由于与该中间音质的合成声音的输出同步显示与上述第1及第2音质的中间音质对应的脸部图像，所以能够将合成声音的音质从脸部图像的表情传递给用户，能够实现表现力的提高。

这里，也可以使其特征为，上述声音信息生成单元依次生成上述各个第1及第2合成声音信息。

由此，能够减轻声音信息生成单元的每单位时间的处理负担，能够使声音信息生成单元的结构变得简单。结果，能够使装置整体小型化，并且能够实现成本降低。

此外，也可以使其特征为，上述声音信息生成单元并列地生成上述各个第1及第2合成声音信息。

由此，能够迅速地生成第1及第2合成声音信息，结果，能够缩短从文本数据的取得到合成声音的输出为止的时间。

另外，本发明也可以作为生成并输出上述声音合成装置的合成声音的方法或程序、保存该程序的存储媒体来实现。

发明效果

在本发明的声音合成装置中，可起到能够从文本数据生成音质的自由度较宽、良好音质的合成声音的效果。

附图说明

图1是表示有关本发明的实施方式1的声音合成装置的结构的结构图。

图2是用来说明同上的声音合成部的动作的说明图。

图3是表示同上的音质指定部的显示器所显示的画面的一例的画面显示图。

图4是表示同上的音质指定部的显示器所显示的另一画面的一例的画面显示图。

图5是用来说明同上的声音过渡部的处理动作的说明图。

图6是表示同上的声音单元与HMM音素模型的一例的例示图。

图7是表示有关同上的变形例的声音合成装置的结构的结构图。

图8是表示有关本发明的实施方式2的声音合成装置的结构的结构图。

图9是用来说明同上的声音过渡部的处理动作的说明图。

图10是表示同上的音质A及音质Z的合成声音波谱、和与它们对应的短时间傅立叶波谱的图。

图11是用来说明同上的波谱过渡部在频率轴上使两短时间傅立叶波谱伸缩的状况的说明图。

图12是用来说明使同上的变换了强度的2个短时间傅立叶波谱叠加的状况的说明图。

图13是表示有关本发明的实施方式3的声音合成装置的结构的结构图。

图14是用来说明同上的声音过渡部的处理动作的说明图。

图15是表示有关本发明的实施方式4的声音合成装置的结构的结构图。

图16是用来说明同上的声音合成装置的动作的说明图。

标号说明

10文本

10a音素信息

11声音合成参数值串

12中间合成音波形数据

12p中间脸部图像数据

13中间声音合成参数值串

30声音单元

31音素模型

32最优路径的形状

41合成音波谱

42中间合成音波谱

50共振峰形状

50a、50b频率

51傅立叶波谱分析窗

61合成音波形数据

101a～101z声音合成DB

103声音合成部

103a语言处理部

103b单元结合部

104音质指定部

104A、104B、104Z音质图标

104i指定图标

105声音过渡部

105a参数中间值计算部

105b波形生成部

106中间合成波形数据

107扬声器

203声音合成部

201a～201z声音合成DB

205声音过渡部

205a波谱过渡部

205b波形生成部

303声音合成部

301a～301z声音合成DB

305声音过渡部

305a波形编辑部

401a～401z图像DB

405图像过渡部

407显示部

P1～P3脸部图像

具体实施方式

下面利用附图详细说明本发明的实施方式。

(实施方式1)

本实施方式的声音合成装置是从文本数据生成音质的自由度较宽、音质良好的合成声音的装置，具备：多个声音合成DB 101a～101z，储存有关多个声音单元(音素)的声音单元数据；多个声音合成部(声音信息生成单元)103，通过利用储存在1个声音合成DB中的声音单元数据，生成与文本10所示的字符串对应的声音合成参数值串11；音质指定部104，根据用户的操作指定音质；声音过渡部105，利用由多个声音合成部103生成的声音合成参数值串11进行声音过渡处理，输出中间合成音波形数据12；扬声器107，根据中间合成音波形数据12输出合成声音。

各个声音合成DB101a～101z存储的声音单元数据表示的音质不同。例如，在声音合成DB101a中储存有笑的音质的声音单元数据，在声音合成DB101z中储存有生气的音质的声音单元数据。此外，本实施方式的声音单元数据以声音生成模型的特征参数值串的形式表现。进而，在储存的各声音单元数据中，附加由这些数据表示的各声音单元的开始及结束的时刻、和表示声响的特征变化点的时刻的标记信息。

多个声音合成部103分别与上述声音合成DB一一对应。对于这样的声音合成部103的动作参照图2进行说明。

图2是用来说明声音合成部103的动作的说明图。

声音合成部103如图2所示，具备语言处理部103a和单元结合部103b。

语言处理部103a取得文本10，将文本10所示字符串变换为音素信息10a。音素信息10a是用音素串的形式表现文本10所示的字符串的信息，此外还可以包含重音位置信息及音素持续长度信息等、在单元选择、结合、变形中需要的信息。

单元结合部103b从所对应的声音合成DB的声音单元数据中提取有关合适的声音单元的部分，进行提取的部分的结合与变形，由此来生成与由语言处理部103a输出的音素信息10a对应的声音合成参数值串11。声音合成参数值串11是将包含有为了生成实际的声音波形而需要的足够的信息的多个特征参数值排列而成的参数值串。例如，声音合成参数值串11在沿着时间序列的每个声音分析合成帧中，包含图2所示那样的5个特征参数而构成。所谓的5个特征参数，是声音的基本频率F0、第一共振峰F1、第二共振峰F2、声音分析合成帧持续长度FR、音源强度(power)PW。此外，如上所述，在声音单元数据中附加有标记信息，所以在这样生成的声音合成参数值串11中也附加有标记信息。

音质指定部104根据用户进行的操作，对声音过渡部105指示利用哪个声音合成参数值串11对该声音合成参数值串11以怎样的比例进行声音过渡处理。进而，音质指定部104使该比例沿着时间序列变化。这样的音质指定部104例如由个人电脑等构成，具备显示由用户操作的结果的显示器。

图3是表示音质指定部104的显示器所显示的画面的一例的画面显示图。

在显示器上显示有表示声音合成DB101a～101z的音质的多个音质图标。另外，在图3中，表示了多个音质图标中的音质A的音质图标104A、音质B的音质图标104B、和音质Z的音质图标104Z。这样的多个音质图标配置为，各自所示的音质越相似越相互靠近，越不相似则越相互远离。

这里，音质指定部104在这样的显示器上显示可对应于用户的操作而移动的指定图标104i。

音质指定部104检查距离由用户配置的指定图标104较近的音质图标，例如如果确定了音质图标104A、104B、104Z，则对声音过渡部105指示利用音质A的声音合成参数值串11、音质B的声音合成参数值串11、和音质Z的声音合成参数值串11。进而，音质指定部104将与各音质图标104A、104B、104Z及指定图标104i的相对配置相对应的比例，指示给声音过渡部105。

即，音质指定部104检查从指定图标104i到各音质图标104A、104B、104Z的距离，指示对应于这些距离的比例。

或者，音质指定部104首先求出用于生成音质A与音质Z的中间音质(临时音质)的比例，接着根据该临时音质和音质B，求出用于生成由指定图标104i表示的音质的比例，并指示这些比例。具体而言，音质指定部104计算出连结音质图标104A及音质图标104Z的直线、和连结音质图标104B及音质图标104i的直线，确定这些直线的交点的位置104t。由该位置104t表示的音质是上述临时音质。并且，音质指定部104求出从位置104t到各音质图标104A、104Z的距离的比例。接着，音质指定部104求出从指定图标104i到音质图标104B及位置104t的距离的比例，指示这样求出的2个比例。

通过操作这样的音质指定部104，用户能够容易地输入想要从扬声器107输出的合成声音的音质的、相对预先设定的音质的类似度。所以，用户在例如想要从扬声器107输出与音质A接近的合成声音时，操作音质指定部104以使指定图标104i接近于音质图标104A。

此外，音质指定部104根据来自用户的操作使上述那样的比例沿着时间序列而连续地变化。

图4是表示音质指定部104的显示器所显示的另一画面的一例的画面显示图。

音质指定部104如图4所示，对应于用户的操作而在显示器上配置3个图标21、22、23，确定从图标21通过图标22到达图标23那样的轨迹。并且，音质指定部104使上述比例沿着时间序列连续地变化，以使指定图标104i沿着该轨迹移动。例如，如果设其轨迹的长度为L，则音质指定部104使该比例变化，以使指定图标104i以每秒0.01×L的速度移动。

声音过渡部105根据上述那样的由音质指定部104指定的声音合成参数值串11和比例来进行声音过渡处理。

图5是用来说明声音过渡部105的处理动作的说明图。

声音过渡部105如图5所示，具备参数中间值计算部105a、和波形生成部105b。

参数中间值计算部105a确定由音质指定部104指定的至少2个声音合成参数值串11和比例，根据这些声音合成参数值串11，在每个相互对应的声音分析合成帧间生成对应于该比例的中间声音合成参数值串13。

例如，参数中间值计算部105a如果根据音质指定部104的指定而确定音质A的声音合成参数值串11、音质Z的声音合成参数值串11、以及比例50∶50，则首先从分别对应的声音合成部103取得该音质A的声音合成参数值串11和音质Z的声音合成参数值串11。接着，参数中间值计算部105a在相互对应的声音分析合成帧中，以50∶50的比例计算出包含在音质A的声音合成参数值串11中的各特征参数、和包含在音质Z的声音合成参数值串11中的各特征参数，将该计算结果作为中间声音合成参数值串13生成。具体而言，在相互对应的声音分析合成帧中，在音质A的声音合成参数值串11的基板频率F0的值为300、音质Z的声音合成参数值串11的基板频率F0的值为280的情况下，参数中间值计算部105a生成该声音分析合成帧中的基本频率F0为290的中间声音合成参数值串13。

此外，如利用图3说明的那样，在通过音质指定部104指定了音质A的声音合成参数值串11、音质B的声音合成参数值串11、和音质Z的声音合成参数值串11，并且指定了用来生成音质A和音质Z的中间的临时音质的比例(例如3∶7)、以及用来由该临时音质和音质B生成由指定图标104i表示的音质的比例(例如9∶1)的情况下，声音过渡部105首先利用音质A的声音合成参数值串11和音质Z的声音合成参数值串11，进行对应于3∶7比例的声音过渡处理。由此，生成对应于临时音质的声音合成参数值串。进而，声音过渡部105利用前面生成的声音合成参数值串和音质B的声音合成参数值串11，进行对应于9∶1比例的声音过渡处理。由此，生成对应于指定图标104i的中间声音合成参数值串13。这里，上述所谓的对应于3∶7比例的声音过渡处理，是指使音质A的声音合成参数值串11以恰好3/(3+7)接近音质Z的声音合成参数值串11的处理，反之，是指使音质Z的声音合成参数值串11以恰好7/(3+7)接近音质A的声音合成参数值串11的处理。结果，生成的声音合成参数值串与音质Z的声音合成参数值串11相比更类似于音质A的声音合成参数值串11。

波形生成部105b取得由参数中间值计算部105a生成的中间声音合成参数值串13，生成对应于该中间声音合成参数值串13的中间合成音波形数据12，对扬声器107输出。

由此，从扬声器107输出对应于中间声音合成参数值串13的合成声音。即，从扬声器107输出预先设定的多个音质的中间音质的合成声音。

这里，一般包含在多个声音合成参数值串11中的声音分析合成帧的总数各不相同，所以参数中间值计算部105a在如上述那样利用相互不同的音质的声音合成参数值串11进行声音过渡处理时，为了进行声音分析合成帧间的对应而进行时间轴对准。

即，参数中间值计算部105a根据赋予给声音合成参数值串11的标记信息，实现这些声音合成参数值串11的时间轴上的整合。

标记信息如上所述，表示各声音单元的开始及结束时刻、和声响的特征变化点的时刻。声响的特征变化点例如是由与声音单元对应的非特定讲话者HMM(Hidden Markov Model：隐马尔可夫模型)音素模型表示的最优路径的状态迁移点。

图6是表示声音单元与HMM音素模型的一例的例示图。

例如，如图6所示，在由非特定讲话者HMM音素模型(以下简称作音素模型)31识别了规定的声音单元30的情况下，该音素模型31包含开始状态(S₀)和结束状态(S_E)，由4个状态(S₀，S₁，S₂，S_E)构成。这里，最优路径的形状32在从时刻4到时刻5中，具有从状态S1向状态S2的状态迁移。即，在与保存在声音合成DB101a～101z中的声音单元数据的声音单元30对应的部分中，附加了该声音单元30的开始时刻1、结束时刻N、以及表示声响的特征变化点的时刻5的标记信息。

因而，参数中间值计算部105a根据由该标记信息表示的开始时刻1、结束时刻N、以及表示声响的特征变化点的时刻5，进行时间轴的伸缩处理。即，参数中间值计算部105a对于所取得的声音合成参数值串11将其时刻期间线性地伸缩，以使由标记信息表示的时刻一致。

由此，参数中间值计算部105a能够对各声音合成参数值串11进行各自的声音分析合成帧的对应。即能够进行时间轴对准。此外，通过这样在本实施方式中利用标记信息进行时间轴对准，与例如通过各声音合成参数值串11的图形匹配等进行时间轴对准的情况相比，能够迅速地进行时间轴对准。

如上所述，在本实施方式中，参数中间值计算部105a对由音质指定部104指示的多个声音合成参数值串11实行对应于由音质指定部104指定的比例的声音过渡处理，所以能够扩大合成声音的音质的自由度。

例如，在图3所示的音质指定部104的显示器上，如果通过用户操作音质指定部104使指定图标104i接近于音质图标104A、音质图标104B及音质图标104Z，则声音过渡部105利用根据音质A的声音合成DB101a而由声音合成部103生成的声音合成参数值串11、根据音质B的声音合成DB101b而由声音合成部103生成的声音合成参数值串11、以及根据音质Z的声音合成DB101z而由声音合成部103生成的声音合成参数值串11，以相同的比例对它们分别进行声音过渡处理。结果，能够使从扬声器107输出的合成声音成为音质A、音质B和音质C的中间的音质。此外，如果用户通过操作音质指定部104使指定图标104i接近于音质图标104A，则能够使从扬声器107输出的合成声音的音质接近于音质A。

此外，本实施方式的音质指定部104由于根据用户的操作而使其比例沿着时间序列变化，所以能够使从扬声器107输出的合成声音的音质沿着时间序列平滑地变化。例如，在如图4中说明那样、音质指定部104改变比例以使指定图标104i以每秒0.01×L的速度在轨迹上移动的情况下，可以从扬声器107输出音质在100秒期间平滑地连续变化的合成声音。

由此，能够实现例如“开始说时比较冷静，但在说的同时逐渐变得生气”那样的、以往不可能的、表现力较高的声音合成装置。此外，还能够使合成声音的音质在1次发声中连续地变化。

进而，在本实施方式中，由于进行了声音过渡处理，所以不会如以往例那样在音质中发生破绽而能够维持合成声音的品质。此外，在本实施方式中，由于计算音质不同的声音合成参数值串11的相互对应的特征参数的中间值来生成中间声音合成参数值串13，所以与以往例那样对2个波谱进行过渡处理的情况相比，不会错误地确定作为基准的部位，而能够使合成声音的音质变好，还能够减轻计算量。此外，在本实施方式中，通过利用HMM的状态迁移点，能够在时间轴上正确地整合多个声音合成参数值串11。即，有时即使在音质A的音素中，以状态迁移点为基准的前半与后半的声响特征也不同，即使在音质B的音素中，以状态迁移点为基准的前半与后半的声响特征也不同。在这种情况下，即使将音质A的音素与音质B的音素分别单纯地在时间轴上伸缩来匹配各自的发声时间、即即使进行时间轴对准，在从两音素过渡处理后的音素中，各音素的前半与后半也会错乱。但是，如果像上述那样使用HMM的状态迁移点，则能够防止各音素的前半与后半错乱。结果，能够使过渡处理后的音素的音质变好，能够输出所期望的中间音质的合成声音。

另外，在本实施方式中，在多个声音合成部103的每一个中生成音素信息10a及声音合成参数值串11，但在与作为声音过渡处理所需的音质对应的音素信息10a都相同时，也可以仅在1个声音合成部103的语言处理部103a中生成音素信息10a，在多个声音合成部103的单元结合部103b中进行从该音素信息10a生成声音合成参数值串11的处理。

(变形例)

这里，对有关本实施方式的声音合成部的变形例进行说明。

图7是表示有关变形例的声音合成装置的结构的结构图。

有关本变形例的声音合成装置具备生成相互不同的音质的声音合成参数值串11的1个声音合成部103c。

该声音合成部103c取得文本10，将文本10所示的字符串变换为音素信息10a后，依次切换并参照多个声音合成DB101a～101z，由此来依次生成与该音素信息10a对应的多个音质的声音合成参数值串11。

声音过渡部105待机直到生成所需的声音合成参数值串11，然后，通过与上述同样的方法生成中间合成音波形数据12。

另外，在上述那样的情况下，音质指定部104对声音合成部103c进行指示，使其仅生成声音过渡部105所需的声音合成参数值串11，由此能够缩短声音过渡部105的待机时间。

这样，在本变形例中，通过具备1个声音合成部103c，能够实现声音合成装置整体的小型化及成本降低。

(实施方式2)

本实施方式的声音合成装置利用频率波谱来代替实施方式1的声音合成参数值串11，进行通过该频率波谱的声音过渡处理。

这种声音合成装置具备：多个声音合成DB201a～201z，储存有关多个声音单元的声音单元数据；多个声音合成部203，通过利用储存在1个声音合成DB中的声音单元数据，生成与文本10所示的字符串对应的合成音波谱41；音质指定部104，根据用户的操作指定音质；声音过渡部205，利用由多个声音合成部203生成的合成音波谱41进行声音过渡处理，输出中间合成音波形数据12；扬声器107，根据中间合成音波形数据12输出合成声音。

各个声音合成DB201a～201z存储的声音单元数据表示的音质与实施方式1的声音合成DB101a～101z同样，是不同的。此外，本实施方式中的声音单元数据以频率波谱的形式表现。

多个声音合成部203分别与上述声音合成DB一一对应。并且，各声音合成部203取得文本10，将文本10所表示的字符串变换为音素信息。进而，声音合成部203从对应的声音合成DB的声音单元数据中提取有关合适的声音单元的部分，进行提取的部分的结合与变形，来生成作为与前面生成的音素信息对应的频率波谱即合成音波谱41。这种合成音波谱41既可以是声音的傅立叶解析结果的形式，也可以是将声音的对数倒频(cepstrum)参数值以时间序列排列的形式。

音质指定部104与实施方式1同样，根据用户的操作，对声音过渡部205指示利用哪个合成音波谱41、对该合成音波谱41以怎样的比例进行声音过渡处理。进而，音质指定部104使该比例沿着时间序列变化。

本实施方式的声音过渡部205取得从多个声音合成部203输出的合成音波谱41，生成具有其中间性质的合成音波谱，再将该中间性质的合成音波谱变形为中间合成音波形数据12并输出。

图9是用来说明声音过渡部205的处理动作的说明图。

声音过渡部205如图9所示，具备波谱过渡部205a、和波形生成部205b。

波谱过渡部205a确定由音质指定部104指定的至少2个合成音波谱41和比例，根据这些合成音波谱41，生成对应于该比例的中间合成音波谱42。

即，波谱过渡部205a从多个合成音波谱41中选择由音质指定部104指定的2个以上的合成音波谱41。接着，波谱过渡部205a提取表示这些合成音波谱41的形状特征的共振峰形状50，在将使该共振峰形状50尽可能一致的变形施加给合成音波谱41后，进行各合成音波谱41的叠加。另外，上述合成音波谱41的形状特征也可以不是共振峰形状，例如只要是某种程度以上较强地呈现、并且其轨迹可连续地追踪就可以。如图9所示，共振峰形状50对音质A的合成音波谱41及音质Z的合成音波谱41分别示意地显示波谱形状的特征。

具体而言，波谱过渡部205a如果根据来自音质指定部104的指定而确定了音质A及音质Z的合成音波谱41、和4∶6的比例，则首先取得该音质A的合成音波谱41和音质Z的合成音波谱41，从这些合成音波谱41中提取共振峰形状50。接着，波谱过渡部205a在频率轴及时间轴上对音质A的合成音波谱41进行伸缩处理，以使音质A的合成音波谱41的共振峰形状50以40％接近音质Z的合成音波谱41的共振峰形状50。进而，波谱过渡部205a在频率轴及时间轴上对音质Z的合成音波谱41进行伸缩处理，以使音质Z的合成音波谱41的共振峰形状50以60％接近音质A的合成音波谱41的共振峰形状50。最后，波谱过渡部205a将伸缩处理后的音质A的合成音波谱41的强度设为60％、并且将伸缩处理后的音质Z的合成音波谱41的强度设为40％，然后将两合成音波谱41叠加。结果，以4∶6的比例进行音质A的合成音波谱41与音质Z的合成音波谱41的声音过渡处理，生成中间合成音波谱42。

利用图10～图12更详细地说明这种生成中间合成音波谱42的声音过渡处理。

图10是表示音质A及音质Z的合成声音波谱41、以及与它们对应的短时间傅立叶波谱的图。

波谱过渡部205a在以4∶6的比例进行音质A的合成音波谱41与音质Z的合成音波谱41的声音过渡处理时，首先为了如上述那样使这些合成音波谱41的共振峰形状50相互接近，进行各合成音波谱41彼此的时间轴对准。这种时间轴对准是通过进行各合成音波谱41的共振峰形状50彼此的图形匹配来实现的。另外，也可以利用有关各合成音波谱41或共振峰形状50的其他特征量来进行图形匹配。

即，波谱过渡部205a如图10所示，在两合成音波谱41的各自的共振峰形状50中，对两合成音波谱41进行时间轴上的伸缩，以使在图形一致的傅立叶波谱分析窗51的部位时刻一致。由此来实现时间轴对准。

此外，如图10所示，在相互图形一致的傅立叶波谱分析窗51的各自的短时间傅立叶波谱41a中，共振峰形状50的频率50a、50b相互不同地显示。

所以，在时间轴对准结束后，波谱过渡部205a在对准后的声音的各时刻，根据共振峰形状50来进行频率轴上的伸缩处理。即，波谱过渡部205a在频率轴上对两短时间傅立叶波谱41a进行伸缩，以使在各时刻的音质A及音质B的短时间傅立叶波谱41a中频率50a、50b一致。

图11是用来说明波谱过渡部205a在频率轴上使两短时间傅立叶波谱41a伸缩的状况的说明图。

波谱过渡部205a使音质A的短时间傅立叶波谱41a在频率轴上伸缩，以使音质A的短时间傅立叶波谱41a上的频率50a、50b以40％接近音质Z的短时间傅立叶波谱41a上的频率50a、50b，并生成中间短时间傅立叶波谱41b。与此同样，波谱过渡部205a使音质Z的短时间傅立叶波谱41a在频率轴上伸缩，以使音质Z的短时间傅立叶波谱41a上的频率50a、50b以60％接近音质A的短时间傅立叶波谱41a上的频率50a、50b，并生成中间短时间傅立叶波谱41b。结果，在中间的两短时间傅立叶波谱41b中，共振峰形状50的频率成为统一为频率f1、f2的状态。

例如，假设为在音质A的短时间傅立叶波谱41a上共振峰形状50的频率50a、50b是500Hz及3000Hz，在音质Z的短时间傅立叶波谱41a上共振峰形状50的频率50a、50b是400Hz及4000Hz，并且各合成音的奈奎斯特频率为11025Hz的情况进行说明。波谱过渡部205a首先对音质A的短时间傅立叶波谱41a进行频率轴上的伸缩移动，以使音质A的短时间傅立叶波谱41a的频带f＝0～500Hz成为0～(500+(400-500)×0.4)Hz、频带f＝500～3000Hz成为(500+(400-500)×0.4)～(3000+(4000-3000)×0.4)Hz、频带f＝3000～11025Hz成为(3000+(4000-3000)×0.4)～11025Hz。与此同样，波谱过渡部205a对音质Z的短时间傅立叶波谱41a进行频率轴上的伸缩移动，以使音质Z的短时间傅立叶波谱41a的频带f＝0～400Hz成为0～(400+(500-400)×0.6)Hz、频带f＝400～4000Hz成为(400+(500-400)×0.6)～(4000+(3000-4000)×0.6)Hz、频带f＝4000～11025Hz成为(4000+(3000-4000)×0.6)～11025Hz。在由该伸缩移动的结果生成的2个短时间傅立叶波谱41b中，共振峰形状50的频率成为统一为频率f1、f2的状态。

接着，波谱过渡部205a将进行了这种频率轴上的变形的两短时间傅立叶波谱41b的强度变形。即，波谱过渡部205a将音质A的短时间傅立叶波谱41b的强度变换为60％，将音质Z的短时间傅立叶波谱41b的强度变换为40％。接着，波谱过渡部205a如上所述，将变换了强度的这些短时间傅立叶波谱叠加。

图12是用来使变换了强度的2个短时间傅立叶波谱叠加的状况的说明图。

如该图12所示，波谱过渡部205a将变换了强度的音质A的短时间傅立叶波谱41c、和同样变换了强度的音质B的短时间傅立叶波谱41c叠加，生成新的短时间傅立叶波谱41d。此时，波谱过渡部205a在使相互的短时间傅立叶波谱41c的上述频率f1、f2一致的状态下，将两短时间傅立叶波谱41c叠加。

并且，波谱过渡部205a每当进行两合成音波谱41的时间轴对准的时刻，进行上述那样的短时间傅立叶波谱41d的生成。结果，以4∶6的比例进行音质A的合成音波谱41与音质Z的合成音波谱41的声音过渡处理，生成中间合成音波谱42。

声音过渡部205的波形生成部205b将上述那样由波谱过渡部205a生成的中间合成音波谱42变换为中间合成音波形数据12，将其输出给扬声器107。结果，从扬声器107输出与中间合成音波谱42对应的合成声音。

这样，在本实施方式中也与实施方式1同样，能够从文本10生成音质自由度较宽、音质良好的合成声音。

(变形例)

这里对本实施方式的波谱过渡部的动作的变形例进行说明。

有关本变形例的波谱过渡部不是如上述那样从合成音波谱41提取表示其形状特征的共振峰形状50来利用，而是读出预先保存在声音合成DB中的样条(spline)曲线的控制点的位置，代替共振峰形状50而使用该样条曲线。

即，将对应于各声音单元的共振峰形状50看作频率对时间的2维平面上的多条样条曲线，将该样条曲线的控制点的位置预先保存在声音合成DB中。

这样，有关本变形例的波谱过渡部不特意从合成音波谱41中提取共振峰形状50，而是利用预先保存在声音合成DB中的表示控制点的位置的样条曲线来进行时间轴及频率轴上的变换处理，所以能够迅速地进行上述变换处理。

另外，也可以不是将上述那样的样条曲线的控制点位置、而是将共振峰形状50本身预先保存在声音合成DB201a～201z中。

(实施方式3)

本实施方式的声音合成装置利用声音波形来代替实施方式1的声音合成参数值串11、及实施方式2的合成音波谱41，来进行通过该声音波形的声音过渡处理。

这种声音合成装置具备：多个声音合成DB301a～301z，储存有关多个声音单元的声音单元数据；多个声音合成部303，通过利用储存在1个声音合成DB中的声音单元数据，生成与文本10所示的字符串对应的合成音波形数据61；音质指定部104，根据用户的操作指定音质；声音过渡部305，利用由多个声音合成部303生成的合成音波形数据61进行声音过渡处理，输出中间合成音波形数据12；扬声器107，根据中间合成音波形数据12输出合成声音。

多个声音合成DB301a～301z的各个存储的声音单元数据表示的音质与实施方式1的声音合成DB101a～101z同样，是不同的。此外，本实施方式中的声音单元数据以声音波形的形式表现。

多个声音合成部303分别与上述声音合成DB一一对应。并且，各声音合成部303取得文本10，将文本10所示字符串变换为音素信息。进而，声音合成部303从对应的声音合成DB的声音单元数据中提取有关合适的声音单元的部分，进行提取的部分的结合与变形，由此来生成作为与前面生成的音素信息对应的声音波形的合成音波形数据61。

音质指定部104与实施方式1同样，根据用户的操作，对声音过渡部305指示利用哪个合成音波形数据61、对该合成音波形数据61以怎样的比例进行声音过渡处理。进而，音质指定部104使该比例沿着时间序列变化。

本实施方式的声音过渡部305取得从多个声音合成部303输出的合成音波形数据61，生成具有其中间性质的中间合成音波形数据12并输出。

图14是用来说明声音过渡部305的处理动作的说明图。

本实施方式的声音过渡部305具备波形编辑部305a。

该波形编辑部305a确定由音质指定部104指定的至少2个合成音波形数据61和比例，根据这些合成音波形数据61，生成对应于该比例的中间合成音波形数据12。

即，波形编辑部305a从多个合成音波形数据61中选择由音质指定部104指定的2个以上的合成音波形数据61。接着，波形编辑部305a根据由音质指定部104指定的比例，对该选择的各个合成音波形数据61，使例如各声音的各取样时刻的间距频率及振幅、各声音的各有声区间的持续时间长等变形。波形编辑部305a将这样变形的合成音波形数据61叠加，由此来生成中间合成音波形数据12。

扬声器107从波形编辑部305a取得这样生成的中间合成音波形数据12，输出与该中间合成音波形数据12对应的合成声音。

(实施方式4)

本实施方式的声音合成装置显示对应于输出的合成声音的音质的脸部图像，具备：包含在实施方式1中的结构要素；多个图像DB401a～401z，储存有关多个脸部图像的图像信息；图像过渡部405，利用储存在这些图像DB401a～401z中的脸部图像的信息进行图像过渡处理，并输出中间脸部图像数据12p；显示部407，从图像过渡部405取得中间脸部图像数据12p，显示与该中间脸部图像数据12p对应的脸部图像。

各个图像DB401a～401z存储的图像信息所表示的脸部图像的表情不同。例如，在与生气的音质的声音合成DB101a对应的图像DB401a中储存有有关生气的表情的脸部图像的图像信息。此外，在储存在图像DB401a～401z中的脸部图像的图像信息中，附加有脸部图像的眉毛及嘴边或中央、眼睛的中心点等、用来控制该脸部图像表示的表情的印象的特征点。

图像过渡部405从与由音质指定部104指定的各合成声音参数值串102各自的音质相对应的图像DB中取得图像信息。接着，图像过渡部405利用所取得的图像信息进行与由音质指定部104指定的比例对应的图像过渡处理。

具体而言，图像过渡部405将所取得的一个脸的图像变形(warping)，以使由该一个图像信息表示的脸部图像的特征点的位置，以由音质指定部104指定的比例向由所取得的另一个图像信息表示的脸部图像的特征点的位置位移，与此同样，将另一个脸图像变形，以使该另一个脸部图像的特征点的位置以由音质指定部104指定的比例向该一个脸部图像的特征点的位置位移。并且，图像过渡部405通过根据由音质指定部104指定的比例将变形后的各个图像进行交替叠化(cross dissolve)，来生成中间脸部图像数据12p。

由此，在本实施方式中，例如能够总是使代理(ェ一ジェンと)的脸部图像与合成声音的音质的印象总是一致。即，本实施方式的声音合成装置在进行代理的平常声音与生气声音之间的声音过渡，生成稍微生气的音质的合成声音时，以与声音过渡同样的比例进行代理的平常脸部图像与生气脸部图像之间的图像过渡，并显示代理的适合于其合成声音的稍微生气的脸部图像。换言之，能够使用户对于具有感情的代理感到的听觉印象与视觉印象一致，能够提高代理提示的信息的自然性。

图16是用来说明本实施方式的声音合成装置的动作的说明图。

例如，如果用户通过操作音质指定部104而将图3所示的显示器上的指定图标104i配置在将连结音质图标104A与音质图标104Z的线段4∶6分割的位置上，则声音合成装置利用音质A及音质Z的声音合成参数值串11，进行对应于该4∶6的比例的声音过渡处理，并输出音质A及音质B的中间音质x的合成声音，以使从扬声器107输出的合成声音以10％靠近音质A。与此同时，声音合成装置利用与音质A对应的脸部图像P1、和与音质Z对应的脸部图像P2，进行对应于与上述比例相同的4∶6的比例的图像过渡处理，生成这些图像的中间脸部图像P3并显示。这里，声音合成装置在进行图像过渡时，如上述那样将脸部图像P1变形，以使脸部图像P1的眉毛及嘴边等特征点的位置以40％的比例朝向脸部图像P2的眉毛及嘴边等特征点的位置变化，与此同样，将脸部图像P2变形，以使脸部图像P2的特征点的位置以60％的比例朝向脸部图像P1的特征点的位置变化。接着，图像过渡部405对变形后的脸部图像P1以60％的比例、对变形后的脸部图像P2以40％的比例进行交替叠化，结果，生成脸部图像P3。

这样，本实施方式的声音合成装置在从扬声器107输出的合成声音的音质为“生气”时，在显示部407上显示“生气”模样的脸部图像，在音质为“哭泣”时，在显示部407上显示“哭泣”模样的脸部图像。进而，本实施方式的声音合成装置在其音质为“生气”与“哭泣”中间时，显示“生气”的脸部图像与“哭泣”的脸部图像的中间脸部图像，并且，在其音质从“生气”随时间向“哭泣”变化时，使中间脸部图像与其音质一致地随时间变化。

另外，图像过渡可以通过其他各种方法来进行，但只要是能够通过指定作为源的图像间的比例来指定目的图像的方法，采用哪种方法都可以。

工业实用性

本发明具有能够从文本数据生成音质自由度较宽、音质良好的合成声音的效果，能够应用在对用户输出表现感情的合成声音的声音合成装置等中。

Claims

1、一种声音合成装置，其特征在于，具备：

存储单元，预先存储有：与属于第1音质的多个声音单元有关的第1声音单元信息、以及与属于不同于上述第1音质的第2音质的多个声音单元有关的第2声音单元信息；

声音信息生成单元，取得文本数据，并且根据上述存储单元的第1声音单元信息生成表示与包含在上述文本数据中的字符对应的、上述第1音质的合成声音的第1合成声音信息，并根据上述存储单元的第2声音单元信息生成表示与包含在上述文本数据中的字符对应的、上述第2音质的合成声音的第2合成声音信息；

过渡单元，从由上述声音信息生成单元生成的上述第1及第2合成声音信息，生成表示与包含在上述文本数据中的字符对应的、上述第1及第2音质的中间音质的合成声音的中间合成声音信息；以及

声音输出单元，将由上述过渡单元生成的上述中间合成声音信息变换为上述中间音质的合成声音并输出，

上述声音信息生成单元将上述第1及第2合成声音信息分别作为多个特征参数的串而生成，

上述过渡单元通过计算上述第1及第2合成声音信息的相互对应的特征参数的中间值，来生成上述中间合成声音信息。

2、如权利要求1所述的声音合成装置，其特征在于，

上述过渡单元使上述第1及第2合成声音信息对上述中间合成声音信息起作用的比例变化，以使从上述声音输出单元输出的合成声音的音质在其输出过程中连续变化。

3、如权利要求1所述的声音合成装置，其特征在于，

上述存储单元将特征信息包含并存储在上述各个第1及第2声音单元信息中，其中该特征信息的内容表示由上述各个第1及第2声音单元信息所表示的各声音单元中的基准，

上述声音信息生成单元分别包含上述特征信息而生成上述第1及第2合成声音信息，

上述过渡单元在将上述第1及第2合成声音信息利用由各自包含的上述特征信息所表示的基准来整合之后，生成上述中间合成声音信息。

4、如权利要求3所述的声音合成装置，其特征在于，

上述基准是由上述各个第1及第2声音单元信息所表示的各声音单元的声响特征的变化点。

5、如权利要求4所述的声音合成装置，其特征在于，

上述声响特征的变化点是用HMM(Hidden Markov Model)来表示由上述各个第1及第2声音单元信息所表示的各声音单元的最优路径上的状态迁移点，

上述过渡单元在利用上述状态迁移点在时间轴上整合上述第1及第2合成声音信息之后，生成上述中间合成声音信息。

6、如权利要求1所述的声音合成装置，其特征在于，

上述声音合成装置还具备：

图像存储单元，预先存储有表示与上述第1音质对应的图像的第1图像信息、以及表示与上述第2音质对应的图像的第2图像信息；

图像过渡单元，根据上述第1及第2图像信息生成中间图像信息，该中间图像信息表示作为由上述各个第1及第2图像信息所表示的图像的中间图像的、与上述中间合成声音信息的音质对应的图像；以及

显示单元，取得由上述图像过渡单元生成的中间图像信息，与从上述声音输出单元输出的合成声音同步地显示由上述中间图像信息表示的图像。

7、如权利要求6所述的声音合成装置，其特征在于，

上述第1图像信息表示与上述第1音质对应的脸部图像，上述第2图像信息表示与上述第2音质对应的脸部图像。

8、如权利要求1所述的声音合成装置，其特征在于，

上述声音合成单元还具备：

指定单元，将表示上述第1及第2音质的固定点、以及根据用户的操作而移动的移动点分别配置表示在N维的坐标上，其中N为自然数，并根据上述固定点及移动点的配置，导出上述第1及第2合成声音信息对上述中间合成声音信息起作用的比例，将导出的比例指示给上述过渡单元，

上述过渡单元根据由上述指定单元指定的比例，生成上述中间合成声音信息。

9、如权利要求1所述的声音合成装置，其特征在于，

上述声音信息生成单元依次生成上述各个第1及第2合成声音信息。

10、如权利要求1所述的声音合成装置，其特征在于，

上述声音信息生成单元并列地生成上述各个第1及第2合成声音信息。

11、一种声音合成方法，通过利用预先存储有与属于第1音质的多个声音单元有关的第1声音单元信息、以及与属于不同于上述第1音质的第2音质的多个声音单元有关的第2声音单元信息的存储器，生成合成声音并输出，其特征在于，具有：

文本取得步骤，取得文本数据；

声音信息生成步骤，根据上述存储器的第1声音单元信息，生成表示与包含在上述文本数据中的字符对应的、上述第1音质的合成声音的第1合成声音信息，并且根据上述存储器的第2声音单元信息，生成表示与包含在上述文本数据中的字符对应的、上述第2音质的合成声音的第2合成声音信息；

过渡步骤，从由上述声音信息生成步骤生成的上述第1及第2合成声音信息，生成表示与包含在上述文本数据中的字符对应的、上述第1及第2音质的中间音质的合成声音的中间合成声音信息；以及

声音输出步骤，将由上述过渡步骤生成的上述中间合成声音信息变换为上述中间音质的合成声音并输出，

在上述声音信息生成步骤中，将上述第1及第2合成声音信息分别作为多个特征参数的串而生成，

在上述过渡步骤中，通过计算上述第1及第2合成声音信息的相互对应的特征参数的中间值，来生成上述中间合成声音信息。

12、如权利要求11所述的声音合成方法，其特征在于，

在上述过渡步骤中，使上述第1及第2合成声音信息对上述中间合成声音信息起作用的比例变化，以使由上述声音输出步骤输出的合成声音的音质在其输出过程中连续变化。

13、如权利要求11所述的声音合成方法，其特征在于，

上述存储器将特征信息包含并存储在上述各个第1及第2声音单元信息中，其中该特征信息的内容表示由上述各个第1及第2声音单元信息所表示的各声音单元中的基准，

在上述声音信息生成步骤中，分别包含上述特征信息而生成上述第1及第2合成声音信息，

在上述过渡步骤中，在将上述第1及第2合成声音信息利用由各自包含的上述特征信息所表示的基准来整合之后，生成上述中间合成声音信息。

14、如权利要求13所述的声音合成方法，其特征在于，

15、如权利要求14所述的声音合成方法，其特征在于，

在上述过渡步骤中，在利用上述状态迁移点在时间轴上整合上述第1及第2合成声音信息之后，生成上述中间合成声音信息。

16、如权利要求11所述的声音合成方法，其特征在于，

上述声音合成方法还利用预先存储有表示与上述第1音质对应的图像的第1图像信息、以及表示与上述第2音质对应的图像的第2图像信息的图像存储器；以及

上述声音合成方法还具有：

图像过渡步骤，根据上述图像存储器的第1及第2图像信息生成中间图像信息，该中间图像信息表示作为由上述各个第1及第2图像信息所表示的图像的中间图像的、与上述中间合成声音信息的音质对应的图像；和

显示步骤，与由上述声音输出步骤输出的合成声音同步地显示由上述图像过渡步骤生成的中间图像信息所表示的图像。

17、如权利要求16所述的声音合成方法，其特征在于，

18、一种程序，用来通过利用预先存储有与属于第1音质的多个声音单元有关的第1声音单元信息、以及与属于不同于上述第1音质的第2音质的多个声音单元有关的第2声音单元信息的存储器，生成合成声音并输出，其特征在于，该程序使计算机执行：

文本取得步骤，取得文本数据；