CN101351841A

CN101351841A - 音质转换系统

Info

Publication number: CN101351841A
Application number: CNA2006800453611A
Authority: CN
Inventors: 舛田刚志
Original assignee: Asahi Kasei Kogyo KK
Current assignee: Asahi Kasei Corp
Priority date: 2005-12-02
Filing date: 2006-11-28
Publication date: 2009-01-21
Anticipated expiration: 2026-11-28
Also published as: US8099282B2; JPWO2007063827A1; EP2017832A1; KR20080070725A; US20100198600A1; KR101015522B1; EP2017832A4; CN101351841B; WO2007063827A1; JP4928465B2

Abstract

提供可以用较少的学习负担进行音质转换的音质转换学习系统、音质转换系统、音质转换客户服务器系统、以及程序。服务器10的中间转换函数生成部101生成中间转换函数F，目标转换函数生成部102生成目标转换函数G。便携终端20的中间音质转换部211使用转换函数F从原说话者的声音生成中间说话者的声音，目标音质转换部212使用转换函数G将由中间音质转换部211生成的中间说话者的声音转换为目标说话者的声音。

Description

音质转换系统

技术领域

本发明涉及将原说话者的声音转换为目标说话者的声音的音质转换学习系统、音质转换系统、音质转换客户服务器系统、以及程序。

背景技术

以往，已知有将某说话者的声音转换为另一个说话者的声音的音质转换技术(例如，参照专利文献1、非专利文献1)。

在图22中表示音质转换处理的基本过程。音质转换处理的过程由学习过程和转换过程构成。在学习过程中，收录原说话者以及成为转换目标的目标说话者的声音，并存储学习用声音数据，根据该学习用声音数据进行学习，由此生成用于将原说话者的声音转换为目标说话者的声音的转换函数。在转换过程中，利用在学习过程中生成的转换函数，将原说话者发出的任意的声音转换为目标说话者的声音。利用计算机进行这些处理。

专利文献1：日本特开2002-215198号公报

非专利文献1：Alexander Kain and Michael W.Macon“SPECTRAL VOICE CONVERSI ON FOR TEXT-TO-SPEECHSYNTHESIS”

发明内容

发明要解决的问题

在这种音质转换技术中，为了将原说话者的声音转换为目标说话者的声音，需要对原说话者的音质和目标说话者的音质的组合生成固有的转换函数。因此，在存在多个原说话者以及目标说话者、要生成用于从各个原说话者的声音向各个目标说话者的声音转换的转换函数的情况下，需要进行原说话者与目标说话者的组合的数量的学习。

例如，如图23所示，存在26个原说话者A、B、...、Z和10个目标说话者1、2、...、10，在作成用于将各个原说话者的声音转换为各个目标说话者的声音的转换函数的情况下，需要进行26个原说话者与10个目标说话者的组合的数量260(＝26×10)的学习来生成转换函数。在要使音质转换实用化并对原说话者提供音质转换服务的情况下，转换函数的数量随着原说话者以及目标说话者的数量的增加而增加，因此计算机进行学习以及转换函数生成的负荷增大。另外，需要用于存储大量生成的转换函数的大容量的存储装置。

另外，作为学习用声音数据，原说话者和目标说话者需要收录大约50句(将其称为一组的声音内容)发声内容相同的文章。如果，从10个目标说话者收录的声音组为各自不同的声音内容的情况下，1个原说话者需要收录10种声音组。在假设收录一组的声音内容所需的时间为30分钟的情况下，1个原说话者收录学习用声音数据要花费5个小时。

并且，在目标说话者的声音为卡通人物、名人的声音、过世人等的情况下，依靠这些人来进行音质转换所需的声音组的发声的声音收录，在费用上不现实或者不可能实现。

本发明是为了解决如上所述的现有的问题而完成的，提供可以用较少的学习负担进行音质转换的音质转换学习系统、音质转换系统、音质转换客户服务器系统、以及程序。

用于解决问题的方案

为了解决上述问题，权利要求1所述的发明提供一种音质转换系统，其将原说话者的声音转换为目标说话者的声音，其特征在于，具备音质转换单元，该音质转换单元将原说话者的声音经由向中间说话者的声音的转换而转换为目标说话者的声音。

根据本发明，音质转换系统将原说话者的声音经由向中间说话者的声音的转换而转换为目标说话者的声音，因此在存在多个原说话者和目标说话者的情况下，只要准备用于将各个原说话者的声音转换为中间说话者的声音的转换函数、以及用于将中间说话者的声音转换为各个目标说话者的声音的转换函数，就可以将各个原说话者的声音转换为各个目标说话者的声音。因此，与以往那样直接将各个原说话者的声音转换为各个目标说话者的声音的情况相比，所需的转换函数的数量减少，因此可以利用以较少的学习负担生成的转换函数进行音质转换。

权利要求2所述的发明提供一种音质转换学习系统，其学习用于将一个以上的原说话者的各自的声音转换为一个以上的目标说话者的各自的声音的函数，其特征在于，具备：中间转换函数生成单元，其学习并生成用于将上述原说话者的声音转换为对上述一个以上的各个原说话者共用设置的一个中间说话者的声音的中间转换函数；以及目标转换函数生成单元，其学习并生成用于将上述中间说话者的声音转换为上述目标说话者的声音的目标转换函数。

根据本发明，音质转换学习系统学习并生成用于将一个以上的原说话者的各自的声音转换为一个中间说话者的声音的中间转换函数、和用于将一个中间说话者的声音转换为一个以上的目标说话者的各自的声音的目标转换函数，因此在存在多个原说话者和目标说话者的情况下，与直接将各个原说话者的声音转换为各个目标说话者的声音的情况相比，应该生成的转换函数的数量减少，可以用较少的负担进行音质转换学习，可以利用以较少的学习负担生成的中间转换函数以及目标转换函数将原说话者的声音转换为目标说话者的声音。

权利要求3所述的发明的特征在于，在权利要求2所述的音质转换学习系统中，上述目标转换函数生成单元作为上述目标转换函数而生成用于将上述原说话者的声音通过上述中间转换函数转换后的声音转换为上述目标说话者的声音的函数。

根据本发明，在进行实际的音质转换时，通过中间转换函数对原说话者的声音进行转换，利用目标转换函数对其转换后的声音进行转换，由此生成目标说话者的声音，因此与作为目标转换函数而生成用于将所收录的实际的中间说话者的声音转换为目标说话者的声音的函数的情况相比，音质转换时的音质的精度更高。

权利要求4所述的发明的特征在于，在权利要求2或3所述的音质转换学习系统中，在上述学习中使用的中间说话者的声音是从用规定的音质输出任意声音内容的声音合成装置输出的声音。

根据本发明，将在学习中使用的中间说话者的声音设为从声音合成装置输出的声音，由此可以容易地从声音合成装置输出与原说话者、目标说话者的声音内容相同的声音内容，因此不存在学习时的原说话者、目标说话者的发声内容的限制，从而便利性更高。

权利要求5所述的发明的特征在于，在权利要求2至4中的任一项所述的音质转换学习系统中，在上述学习中使用的原说话者的声音是从用规定的音质输出任意声音内容的声音合成装置输出的声音。

根据本发明，将在学习中使用的原说话者的声音设为从声音合成装置输出的声音，由此可以容易地从声音合成装置输出与目标说话者的声音内容相同的声音内容，因此不存在学习时的目标说话者的声音内容的限制，从而便利性更高。例如，在作为目标说话者的声音而使用在电影中收录的演员的声音的情况下，即使只收录有限的声音内容，也能够容易地进行学习。

权利要求6所述的发明的特征在于，在权利要求2至5中的任一项所述的音质转换学习系统中，还具备转换函数合成单元，该转换函数合成单元合成由上述中间转换函数生成单元生成的中间转换函数和由上述目标转换函数生成单元生成的目标转换函数，由此生成用于将上述原说话者的声音转换为上述目标说话者的声音的函数。

根据本发明，使用所合成的函数的情况与使用中间转换函数以及目标转换函数的情况相比，缩短将原说话者的声音转换为目标说话者的声音所需的计算时间。另外，可以减小在音质转换处理时使用的存储器尺寸。

权利要求7所述的发明提供一种音质转换系统，其特征在于，具备音质转换单元，该音质转换单元使用由权利要求2至6中的任一项所述的音质转换学习系统生成的函数，将上述原说话者的声音转换为上述目标说话者的声音。

根据本发明，音质转换系统可以使用以较少学习负担生成的函数将一个以上的原说话者的各自的声音转换为一个以上的目标说话者的各自的声音。

权利要求8所述的发明的特征在于，在权利要求7所述的音质转换系统中，作为上述音质转换单元具备：中间音质转换单元，其使用上述中间转换函数，根据上述原说话者的声音生成上述中间说话者的声音；以及目标音质转换单元，其使用上述目标转换函数，根据由上述中间音质转换单元生成的上述中间说话者的声音生成上述目标说话者的声音。

根据本发明，音质转换系统可以使用数量比以往少的转换函数将各个原说话者的声音转换为各个目标说话者的声音。

权利要求9所述的发明的特征在于，在权利要求7所述的音质转换系统中，上述音质转换单元使用合成了上述中间转换函数和上述目标转换函数而得到的函数，将上述原说话者的声音转换为上述目标说话者的声音。

根据本发明，音质转换系统可以使用合成了中间转换函数和目标转换函数而得到的函数将原说话者的声音转换为目标说话者的声音。因此，与使用中间转换函数以及目标转换函数的情况相比，缩短将原说话者的声音转换为目标说话者的声音所需的计算时间。另外，可以减小在音质转换处理时使用的存储器尺寸。

权利要求10所述的发明的特征在于，在权利要求7至9中的任一项所述的音质转换系统中，上述音质转换单元转换作为声音的特征量的频谱序列。

根据本发明，通过转换从现有的声音编码器对声音解码器发送的编码数据，可以容易地进行音质转换。

权利要求11所述的发明提供一种音质转换客户服务器系统，其客户计算机与服务器计算机通过网络进行连接，将一个以上的用户的各自的声音转换为一个以上的目标说话者的各自的声音，其特征在于，上述客户计算机具备：用户声音获取单元，其获取上述用户的声音；用户声音发送单元，其将由上述用户声音获取单元获取的上述用户的声音发送给上述服务器计算机；中间转换函数接收单元，其从上述服务器计算机接收中间转换函数，该中间转换函数用于将上述用户的声音转换为对上述一个以上的各个用户共用设置的一个中间说话者的声音；以及目标转换函数接收单元，其从上述服务器计算机接收用于将上述中间说话者的声音转换为上述目标说话者的声音目标转换函数，上述服务器计算机具备：用户声音接收单元，其从上述客户计算机接收上述用户的声音；中间说话者声音存储单元，其预先存储上述中间说话者的声音；中间转换函数生成单元，其生成用于将上述用户的声音转换为上述中间说话者的声音的中间转换函数；目标说话者声音存储单元，其预先存储上述目标说话者的声音；目标转换函数生成单元，其生成用于将上述中间说话者的声音转换为上述目标说话者的声音的目标转换函数；中间转换函数发送单元，其将上述中间转换函数发送该上述客户计算机；以及目标转换函数发送单元，其将上述目标转换函数发送该上述客户计算机，上述客户计算机还具备：中间音质转换单元，其使用上述中间转换函数，根据上述用户的声音生成上述中间说话者的声音；以及目标转换单元，其使用上述目标转换函数，根据该中间说话者的声音生成上述目标说话者的声音。

根据本发明，服务器计算机进行用户用的中间转换函数、以及目标转换函数的生成，客户计算机从服务器计算机接收中间转换函数以及目标转换函数，由此客户计算机可以将用户的声音转换为目标说话者的声音。

权利要求12所述的发明提供一种程序，其使计算机执行如下步骤中的至少一个步骤：中间转换函数生成步骤，生成用于将一个以上的原说话者的各自的声音转换为一个中间说话者的声音的各个中间转换函数；以及目标转换函数生成步骤，生成用于将一个中间说话者的声音转换为一个以上的目标说话者的各自的声音的各个目标转换函数。

根据本发明，将上述程序存储在1或2个以上的计算机中，由此可以生成用于在音质转换中使用的中间转换函数以及目标转换函数。

权利要求13所述的发明提供一种程序，其使计算机执行如下步骤：转换函数获取步骤，获取用于将原说话者的声音转换为中间说话者的声音的中间转换函数、以及用于将上述中间说话者的声音转换为目标说话者的声音的目标转换函数；中间音质转换步骤，使用在上述转换函数获取步骤中获取的中间转换函数，从上述原说话者的声音生成上述中间说话者的声音；以及目标音质转换步骤，使用在上述转换函数获取步骤中获取的目标转换函数，从在上述中间音质转换步骤中生成的上述中间说话者的声音生成上述目标说话者的声音。

根据本发明，通过将上述程序存储在计算机中，计算机可以将原说话者的声音通过向中间说话者的声音的转换而转换为目标说话者的声音。

发明的效果

根据本发明，音质转换学习系统学习并生成用于将一个以上的原说话者的各自的声音转换为一个中间说话者的声音的中间转换函数和用于将上述一个中间说话者的声音转换为一个以上的目标说话者的各自的声音的目标转换函数，因此在存在多个原说话者和目标说话者的情况下，与以往那样直接将各个原说话者的声音转换为各个目标说话者的声音的情况相比，减少应该生成的转换函数的数量，可以用较少的负担进行音质转换学习。音质转换系统可以使用由音质转换学习系统生成的函数将原说话者的声音转换为目标说话者的声音。

附图说明

图1是表示本发明的实施方式所涉及的音质学习/转换系统的结构的图。

图2是表示本实施方式所涉及的服务器的结构功能的图。

图3是用于表示代替使用转换函数F(x)以及转换函数Gy(i)、而使用将转换函数F(x)以及转换函数Gy(i)合成而生成的转换函数Hy(x)来将原说话者x的声音转换为目标说话者y的声音的过程的图。

图4是用于表示本实施方式所涉及的w1(f)、w2(f)、w’(f)的一例的图。

图5是表示本实施方式所涉及的便携终端的功能结构的图。

图6是用于说明本实施方式所涉及的从各原说话者向各目标说话者的音质转换所需的转换函数的数量的图。

图7是表示本实施方式所涉及的服务器中的转换函数Gy(i)的学习以及存储处理的流程的流程图。

图8是表示本实施方式所涉及的便携终端中的原说话者x用的转换函数F的获取过程的流程图。

图9是表示本实施方式所涉及的便携终端中的音质转换处理的过程的流程图。

图10是用于说明本实施方式所涉及的转换函数学习方式为转换后特征量转换方式的情况下的转换函数生成处理以及音质转换处理的第一模式的流程图。

图11是用于说明本实施方式所涉及的转换函数学习方式为转换后特征量转换方式的情况下的转换函数生成处理以及音质转换处理的第二模式的流程图。

图12是用于说明本实施方式所涉及的转换函数学习方式为转换后特征量转换方式的情况下的转换函数生成处理以及音质转换处理的第三模式的流程图。

图13是用于说明本实施方式所涉及的转换函数学习方式为转换后特征量转换方式的情况下的转换函数生成处理以及音质转换处理的第四模式的流程图。

图14是用于说明本实施方式所涉及的转换函数学习方式为转换前特征量转换方式的情况下的转换函数生成处理以及音质转换处理的第一模式的流程图。

图15是用于说明本实施方式所涉及的转换函数学习方式为转换前特征量转换方式的情况下的转换函数生成处理以及音质转换处理的第二模式的流程图。

图16是用于说明本实施方式所涉及的转换函数学习方式为转换前特征量转换方式的情况下的转换函数生成处理以及音质转换处理的第三模式的流程图。

图17是用于对本实施方式所涉及的方法和现有方法中的倒谱失真进行比较的图。

图18是表示在变形例所涉及的便携终端具备中间转换函数生成部的情况下便携终端中的转换函数F的生成过程的流程图。

图19是表示在对输入到变形例所涉及的发送侧的便携电话机的声音的音质进行转换后从接收侧的便携电话机输出的情况下利用发送侧的便携电话机进行音质转换的情况下的处理模式的一例的图。

图20是表示在对输入到变形例所涉及的发送侧的便携电话机的声音的音质进行转换后从接收侧的便携电话机输出的情况下利用接收侧的便携电话机进行音质转换的情况下的处理模式的一例的图。

图21是表示利用变形例所涉及的服务器进行音质转换的情况下的处理模式的一例的图。

图22是表示现有的音质转换处理的基本过程的图。

图23是用于说明现有的将原说话者的声音转换为目标说话者的声音所需的转换函数的数量的一例的图。

附图标记说明

1：音质转换客户服务器系统；10：服务器；101：中间转换函数生成部；102：目标转换函数生成部；20：便携终端；21：音质转换部；211：中间音质转换部；212：目标音质转换部。

具体实施方式

下面参照附图来说明本发明所涉及的实施方式。

图1是表示本发明的实施方式所涉及的音质转换客户服务器系统1的结构的图。

如本附图所示，本发明的实施方式所涉及的音质转换客户服务器系统1构成为包括服务器(相当于“音质转换学习系统”)10以及多个便携终端(相当于“音质转换系统”)20。服务器10学习并生成用于将携带有便携终端20的用户的声音转换为目标说话者的声音的转换函数。便携终端20从服务器10获取转换函数，并根据该转换函数将用户的声音转换为目标说话者的声音。在此，声音表示波形、或者利用某些方法从该波形提取的参数序列等。

(服务器的功能结构)

接着，说明服务器10的结构功能。如图2所示，服务器10具备中间转换函数生成部101和目标转换函数生成部102。安装在服务器10中的CPU按照存储在存储装置中的程序来执行处理，由此实现这些功能。

中间转换函数生成部101根据原说话者的声音和中间说话者的声音进行学习，由此生成用于将原说话者的声音转换为中间说话者的声音的转换函数F(相当于“中间转换函数”)。在此，原说话者的声音以及中间说话者的声音使用预先使原说话者和中间说话者发出相同的大约50句(一组的声音内容)的声音并收录的内容。在中间说话者是一人(规定的音质)而存在多个原说话者的情况下，分别进行多个原说话者的各自的声音和一个中间说话者的声音之间的学习。也就是说，可以说对一个以上的各个原说话者共用设置一个中间说话者。作为学习的方法例如可以使用基于混合正态分布模型(GMM)的特征量转换法。此外，也可以使用所有公知的方法。

目标转换函数生成部102生成用于将中间说话者的声音转换为目标说话者的声音的转换函数G(相当于“目标转换函数”)。

在此，目标转换函数生成部102所进行的转换函数G的学习方式存在两种学习方式。第一学习方式是学习利用转换函数F对所收录的原说话者的声音进行转换后的声音的特征量与所收录的目标说话者的声音的特征量之间的对应关系的方式。该第一转换方式被称为“转换后特征量转换方式”。在进行实际的音质转换时，利用转换函数F对原说话者的声音进行转换，利用转换函数G对其转换后的声音进行转换，由此生成目标说话者的声音，因此，在该方式中，可以进行考虑了实际的音质转换时的处理过程的学习。

第二学习方式是不考虑进行实际的音质转换时的处理过程、而学习所收录的中间说话者的声音的特征量与所收录的目标说话者的声音的特征量之间的对应关系的方式。该第二转换方式被称为“转换前特征量转换方式”。

此外，转换函数F、G的形式不限于数学式，也可以利用转换表格的形式来表现。

转换函数合成部103合成由中间转换函数生成部101生成的转换函数F和由目标转换函数生成部102生成的转换函数G，由此生成用于将原说话者的声音转换为目标说话者的声音的函数。

图3是表示代替使用转换函数F(x)以及转换函数Gy(i)将原说话者x的声音转换为目标说话者y的声音(图3(a))、而使用通过将转换函数F(x)以及转换函数Gy(i)合成而生成的转换函数Hy(x)来将原说话者x的声音转换为目标说话者y的声音(图3(b))的过程的图。使用转换函数Hy(x)的情况与使用转换函数F(x)以及转换函数Gy(i)的情况相比，将原说话者x的声音转换为目标说话者y的声音所需的计算时间大约节省一半。另外，由于不生成中间说话者的特征量，因此可以减少音质转换处理时所使用的存储器的尺寸。

下面说明可以通过合成转换函数F与转换函数G来生成用于将原说话者的声音转换为目标说话者的声音的函数。作为具体示例，示出特征量为频谱参数的情况。在以一次函数表示相对于频谱参数的函数的情况下，设f为频率时，用下面公式表示从转换前频谱s(f)向转换后频谱s’(f)的转换。

S’(f)＝s(w(f))

其中，w()是表示频率的转换的函数。假设从原说话者向中间说话者的频率的转换为w1()、从中间说话者向目标说话者的频率的转换为w2()、原说话者的频谱为s(f)、中间说话者的频谱为s’(f)、目标说话者的频谱为s”(f)时，则成为：

s’(f)＝s(w1(f))

s”(f)＝s’(w2(f))。

例如，如图4所示，设：

w1(f)＝f/2

w2(f)＝2f+5，

设w1(f)与w2(f)的合成函数为w’(f)时，则成为：

w’(f)＝2(f/2)+5＝f+5。

其结果是，可以表示为：

s”(f)＝s(w’(f))

由此可知，通过合成转换函数F与转换函数G可以生成用于将原说话者的声音转换为目标说话者的声音的函数。

(便携终端的功能结构)

接着说明便携终端20的功能结构。便携终端20例如相当于便携电话机。此外，除了便携电话机以外，也可以是连接有麦克风的个人计算机。图5表示便携终端20的功能结构。此外，安装在便携终端20上的CPU按照存储在非易失性存储器中的程序来执行处理，由此实现该功能结构。如本附图所示，便携终端20具备音质转换部21。作为音质转换方法，例如音质转换部21通过转换频谱序列来转换音质。或者，音质转换部21通过进行频谱序列的转换和音源信号的两者的转换来进行音质转换。作为频谱序列，可以利用倒谱系数或者LSP(Line Spectral Pair：线形频谱对)系数等。通过不仅对频谱序列、也对音源信号进行音质转换，可以得到更接近目标说话者的声音。

音质转换部21由中间音质转换部211和目标音质转换部212构成。

中间音质转换部211利用转换函数F将原说话者的声音转换为中间说话者的声音。

目标音质转换部212利用转换函数G将由中间音质转换部211转换得到的中间说话者的声音转换为目标说话者的声音。

此外，在本实施方式中，在服务器10中作成转换函数F、G，下载到便携终端20。

图6是用于说明在存在原说话者A、B、…、Y、Z、中间说话者i以及目标说话者1、2、…、9、10的情况下、从各原说话者向各目标说话者的音质转换所需的转换函数的数量的图。

如本附图所示，为了能够将原说话者A、B、…、Y、Z的各自的声音转换为目标说话者i的声音，转换函数F需要26种F(A)、F(B)、…、F(Y)、F(Z)。另外，为了能够将中间说话者i的声音转换为目标说话者1、2、…、9、10各自的声音，转换函数G需要10种G1(i)、G2(i)、…、G9(i)、G10(i)。因此，需要合计26+10＝36种转换函数。与此相对，如上所述，在现有例中需要260种转换函数。由此，在本实施方式中，可以大幅减少转换函数的数量。

(服务器中的转换函数G的学习以及存储处理)

接着参照图7来说明服务器10的转换函数Gy(i)的学习以及存储处理。

在此，原说话者x以及中间说话者i是人或者TTS(Text-to-Speech：从文本到语音)，由具有服务器10的厂家侧准备。TTS是指将任意文本(字符)转换为相对应的声音并将该声音以规定的音质输出的公知的装置。

图7(a)表示利用转换后特征量转换方式来学习转换函数G的情况下的处理过程。

如本附图所示，首先，中间转换函数生成部101根据原说话者x的声音和预先取得并存储在存储装置内的中间说话者i的声音(相当于“中间说话者声音存储单元”)来进行学习，生成转换函数F(x)。然后，输出利用转换函数F(x)对原说话者x的声音进行转换后的声音x’(步骤S101)。

接着，目标转换函数生成部102根据转换声音x’和预先取得并存储在存储装置内的目标说话者y(相当于“目标说话者声音存储单元”)的声音来进行学习，生成转换函数Gy(i)(步骤S102)，将所生成的转换函数Gy(i)存储到服务器10所具备的存储装置中(步骤S103)。

图7(b)表示利用转换前特征量转换方式来学习转换函数G的情况下的处理过程。

如本附图所示，目标转换函数生成部102根据中间说话者i的声音和目标说话者y的声音来进行学习，生成转换函数Gy(i)(步骤S201)。然后，将所生成的转换函数Gy(i)存储到服务器10所具备的存储装置中(步骤S202)。

以往，需要在服务器10中进行原说话者的人数×目标说话者的人数的数量的学习，但是在本实施方式中，仅进行中间说话者的人数1人×目标说话者的人数的量的学习即可，因此生成的转换函数G的数量减少。因此，用于学习的处理负荷降低，另外，容易管理转换函数G。

(便携终端中的转换函数F的获取过程)

接着参照图8说明便携终端20中的原说话者x用的转换函数F(x)的获取过程。

图8(a)表示使用人的声音作为中间说话者i的声音的情况下的过程。

如本附图所示，首先，当原说话者x向便携终端20发声时，便携终端20利用麦克风收集原说话者x的声音(相当于“用户声音获取单元”)，将该声音发送到服务器10(相当于“用户声音发送单元”)(步骤S301)。服务器10接收原说话者x的声音(相当于“用户声音接收单元”)，中间转换函数生成部101根据原说话者x的声音和中间说话者i的声音进行学习，生成转换函数F(x)(步骤S302)。服务器10将所生成的转换函数F(x)发送到便携终端20(相当于“中间转换函数发送单元”)(步骤S303)。

图8(b)表示使用从TTS输出的声音作为中间说话者i的声音的情况下的处理过程。

如本附图所示，首先，当原说话者x向便携终端20发声时，便携终端20利用麦克风收集原说话者x的声音，将该声音发送到服务器10(步骤S401)。

通过声音识别装置或者人工将由服务器10接收的原说话者x的声音的内容转换为文本(步骤S402)，对TTS输入该文本(步骤S403)。TTS根据输入的文本生成并输出中间说话者i(TTS)的声音(步骤S404)。

中间转换函数生成部101根据原说话者x的声音和中间说话者i的声音来进行学习，生成转换函数F(x)(步骤S405)。服务器10将生成的转换函数F(x)发送到便携终端20(步骤S406)。

便携终端20将所接收的转换函数F(x)存储到非易失性存储器。如图1所示，在将转换函数F(x)存储到便携终端20中之后，只要原说话者x将期望的转换函数G从服务器10下载到便携终端20(相当于“目标转换函数发送单元”、“目标转换函数接收单元”)，就可以将原说话者x的声音转换为期望的目标说话者的声音。以往，原说话者x需要按照各目标说话者的声音组的内容进行发声来获取每个目标说话者的转换函数，但是在本实施方式中，原说话者x仅发出一组声音获取一个转换函数F(x)即可，从而减轻原说话者x的负担。

(音质转换处理)

接着参照图9来说明便携终端20进行音质转换时的处理过程。此外，假设在便携终端20的非易失性存储器中存储有从服务器10下载的用于将原说话者A的声音转换为中间说话者的声音的转换函数F(A)、和用于将中间说话者的声音转换为目标说话者y的声音的转换函数G。

首先，当对便携终端20输入原说话者A的声音时，中间音质转换部211利用转换函数F(A)，将原说话者A的声音转换为中间说话者的声音(步骤S501)。接着，目标音质转换部212利用转换函数Gy(i)将该中间说话者的声音转换为目标说话者y的声音(步骤S502)，输出目标说话者y的声音(步骤S503)。在此，输出的声音例如通过通信网络发送到通信对象的便携终端，从该便携终端所具备的扬声器输出。另外，也可以从便携终端20所具备的扬声器输出，以使原说话者A确认转换后的声音。

(转换函数生成处理以及音质转换处理的各种处理模式)

接着，参照图10～16来说明转换函数生成处理以及音质转换处理的各种处理模式。

[1]转换后特征量转换方式

首先，说明转换函数学习方式是转换后特征量转换方式的情况。

(1)在图10中示出为了在学习中使用而收录的中间说话者的声音为一组(setA)的情况下的学习过程以及转换过程。

首先，中间转换函数生成部101根据原说话者Src.1的声音setA和中间说话者In.的声音setA进行学习，并生成转换函数F(Src.1(A))(步骤S1101)。

同样地，中间转换函数生成部101根据原说话者Src.2的声音setA和中间说话者In.的声音setA进行学习，并生成转换函数F(Src.2(A))(步骤S1102)。

接着，目标转换函数生成部102用在步骤S1101中生成的转换函数F(Src.1(A))转换原说话者Src.1的声音setA，生成转换后Tr.setA(步骤S1103)。然后，目标转换函数生成部102根据转换后Tr.setA和目标说话者Tag.1的声音setA进行学习，生成转换函数G1(Tr.(A))(步骤S1104)。

同样地，目标转换函数生成部102根据转换后Tr.setA和目标说话者Tag.2的声音setA进行学习，并生成转换函数G2(Tr.(A))(步骤S1105)。

在转换过程中，中间音质转换部211使用在学习过程中生成的转换函数F(Src.1(A))来将原说话者Src.1的任意的声音转换为中间说话者In.的声音(步骤S1107)。接着，目标音质转换部212使用转换函数G1(Tr.(A))或转换函数G2(Tr.(A))来将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1108)。

同样地，中间音质转换部211使用转换函数F(Src.2(A))将原说话者Src.2的任意声音转换为中间说话者In.的声音(步骤S1109)。接着，目标音质转换部212使用转换函数G1(Tr.(A))或转换函数G2(Tr.(A))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1110)。

如上所述，在学习时仅使用setA的一组中间说话者的发声的情况下，需要原说话者的发声内容和目标说话者的发声内容也是相同的setA，但是与以往相比，能够使应该生成的转换函数的数量减少。

(2)在图11中，示出中间说话者的声音为由TTS或人发出的多组(setA、setB)声音的情况下的学习过程以及转换过程。

首先，中间转换函数生成部101根据原说话者Src.1的声音setA和中间说话者In.的声音setA进行学习，并生成转换函数F(Src.1(A))(步骤S1201)。

同样地，中间转换函数生成部101根据原说话者Src.2的声音setB和中间说话者In.的声音setB进行学习，并生成转换函数F(Src.2(B))(步骤S1202)。

接着，目标转换函数生成部102用在步骤S1201中生成的转换函数F(Src.1(A))原说话者Src.1的声音setA进行转换，生成转换后Tr.setA(步骤S1203)。然后，目标转换函数生成部102根据转换后Tr.setA和目标说话者Tag.1的声音setA进行学习，生成转换函数G1(Tr.(A))(步骤S1204)。

同样地，目标转换函数生成部102用在步骤S1202中生成的转换函数F(Src.2(B))对原说话者Src.2的声音setB进行转换，生成转换后Tr.setB(步骤S1205)。然后，目标转换函数生成部102根据转换后Tr.setB和目标说话者Tag.2的声音setB进行学习，生成转换函数G2(Tr.(B))(步骤S1206)。

在转换过程中，中间音质转换部211使用转换函数F(Src.1(A))将原说话者Src.1的任意的声音转换为中间说话者In.的声音(步骤S1207)。接着，目标音质转换部212使用转换函数G1(Tr.(A))或转换函数G2(Tr.(B))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1208)。

同样地，中间音质转换部211使用转换函数F(Src.2(B))将原说话者Src.2的任意的声音转换为中间说话者In.的声音(步骤S1209)。接着，目标音质转换部212使用转换函数G1(Tr.(A))或转换函数G2(Tr.(B))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2(步骤S1210)。

在这种模式的情况下，在学习时需要原说话者的发声内容与目标说话者的发声内容相同(setA之间、setB之间)。另一方面，在将中间说话者设为TTS的情况下，中间说话者的发声内容可以按照原说话者以及目标说话者的声音内容发声，因此仅使原说话者和目标说话者的发声内容一致即可，从而提高学习时的便利性。另外，在将中间说话者设为TTS的情况下，能够半永久性地发出中间说话者的声音。

(3)在图12中示出在学习中使用的原说话者的声音的一部分是由TTS或人发出的多组(setA、setB、setC)声音、中间说话者的声音是一组(setA)声音的情况下的学习过程以及转换过程。

首先，中间转换函数生成部101根据原说话者的声音setA和中间说话者I n.的声音setA生成用于将原说话者的声音转换为中间说话者In.的声音的转换函数F(TTS(A))(步骤S1301)。

接着，目标转换函数生成部102用生成的转换函数F(TTS(A))对原说话者的声音setB进行转换，作成转换后Tr.setB(步骤S 1302)。接着，目标转换函数生成部102根据转换后Tr.setB和目标说话者Tag.1的声音setB进行学习，并作成用于将中间说话者In.的声音转换为目标说话者Tag.1的声音的转换函数G1(Tr.(B))(步骤S1303)。

同样地，目标转换函数生成部102以生成的转换函数F(TTS(A))来对原说话者的声音setC进行转换，并作成转换后Tr.setC(步骤S1304)。

接着，目标转换函数生成部102根据转换后Tr.setC和目标说话者Tag.1的声音setC进行学习，并作成用于将中间说话者In.的声音转换为目标说话者Tag.2的声音的转换函数G2(Tr.(C))(步骤S1305)。

另外，中间转换函数生成部101根据原说话者Src.1的声音setA和中间说话者In.的声音setA、生成用于将原说话者Src.1的声音转换为中间说话者In.的声音的转换函数F(Src.1(A))(步骤S1306)。

同样地，中间转换函数生成部101根据原说话者Src.1的声音setA和中间说话者In.的声音setA、生成用于将原说话者Src.2的声音转换为中间说话者In.的声音的转换函数F(Src.2(A))(步骤S1307)。

在转换过程中，中间音质转换部211使用转换函数F(Src.1(A))将原说话者Src.1的任意的声音转换为中间说话者In.的声音(步骤S1308)。接着，目标音质转换部212使用转换函数G1(Tr.(B))或转换函数G2(Tr.(C))将中间说话者In.的声音向目标说话者Tag.1或目标说话者Tag.2的声音转换(步骤S1309)。

同样地，中间音质转换部211使用转换函数F(Src.2(A))将原说话者Src.2的任意的声音转换为中间说话者In.的声音(步骤S1310)。接着，目标音质转换部212使用转换函数G1(Tr.(B))或转换函数G2(Tr.(C))将中间说话者In.的声音向目标说话者Tag.1或目标说话者Tag.2转换(步骤S1311)。

如上所述，在这种模式的情况下，可以使中间说话者的声音内容与目标说话者之间的声音内容充当非平行语料库。另外，在使用TTS作为原说话者的情况下，可以按照目标说话者的发声内容灵活地改变作为原说话者的TSS的发声内容，因此能够灵活地进行转换函数的学习。此外，中间说话者In.的声音内容仅有一组(setA)，因此在携带有便携终端10的原说话者Src.1、Src.2获取用于进行音质转换的转换函数F的情况下，需要原说话者Src.1、Src.2所发声的内容是与中间说话者In.的发声内容相同的setA。

(4)在图13中示出在学习中使用的原说话者的声音的一部分是由TTS或人发出的多组(setA、setB)声音、中间说话者的声音是由TTS或人发出的多组(setA、setC、setD)声音的情况下的学习过程以及转换过程。

首先，中间转换函数生成部101根据原说话者的声音setA和中间说话者In.的声音setA进行学习，并生成用于将原说话者的声音setA转换为中间说话者In.的声音setA的转换函数F(TTS(A))(步骤S1401)。

接着，目标转换函数生成部102用在步骤S1401中生成的转换函数F(TTS(A))对原说话者的声音setA进行转换，由此作成转换后Tr.setA(步骤S1402)。

接着，目标转换函数生成部102根据转换后Tr.setA和目标说话者Tag.1的声音setA进行学习，并作成用于将中间说话者的声音转换为目标说话者Tag.1的声音的转换函数G1(Tr.(A))(步骤S1403)。

同样地，目标转换函数生成部102用转换函数F(TTS(A))对原说话者的声音setB进行转换，由此作成转换后Tr.setB(步骤S1404)。接着，目标转换函数生成部102根据转换后Tr.setB和目标说话者Tag.2的声音setB进行学习，并作成用于将中间说话者的声音转换为目标说话者Tag.2的声音的转换函数G2(Tr.(B))(步骤S1405)。

另外，中间转换函数生成部101根据原说话者Src.1的声音setC和中间说话者In.的声音setC进行学习，并生成用于将原说话者Src.1的声音转换为中间说话者In.的声音的函数F(Src.1(C))(步骤S1406)。

同样地，中间转换函数生成部101根据原说话者Src.2的声音setD和中间说话者In.的声音setD进行学习，并生成用于将原说话者Src.2的声音转换为中间说话者In.的声音的函数F(Src.2(D))(步骤S1407)。

在转换过程中，中间音质转换部211使用转换函数F(Src.1(C))将原说话者Src.1的任意的声音转换为中间说话者In.的声音(步骤S1408)。接着，目标音质转换部212使用转换函数G1(Tr.(A))或转换函数G2(Tr.(B))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1409)。

同样地，中间音质转换部211使用转换函数F(Src.2(D))将原说话者Src.2的任意的声音转换为中间说话者In.的声音(步骤S1410)。接着，目标音质转换部212使用转换函数G1(Tr.(A))或转换函数G2(Tr.(B))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2(步骤S1411)。

在这种模式的情况下，可以使学习时的原说话者和目标说话者、以及中间说话者和目标说话者之间的声音内容充当非平行语料库。

另外，在中间说话者为TTS的情况下，可以从TTS输出任意的发声内容，因此在携带便携终端10的原说话者Src.1、Src.2获取用于进行音质转换的转换函数F的情况下，原说话者Src.1、Src.2所发声的内容也可以不是已决定的内容。另外，在原说话者为TTS的情况下，目标说话者的发声内容也可以不是已决定的内容。

[2]转换前特征量转换方式

接着，说明转换函数学习方式为转换前特征量转换方式的情况。在上述的转换后特征量转换方式中，考虑实际的音质转换处理的过程而生成了转换函数G。与此相对，在转换前特征量转换方式中，单独地学习转换函数F和转换函数G。在这种方式中，减少学习过程，但是转换后的音质的精度会有所降低。

(1)在图14中示出学习用的中间说话者的声音为一组(setA)声音的情况下的学习过程以及转换过程。

首先，中间转换函数生成部101根据原说话者Src.1的声音setA和中间说话者In.的声音setA进行学习，并生成转换函数F(Src.1(A))(步骤S1501)。同样地，中间转换函数生成部101根据原说话者Src.2的声音setA和中间说话者In.的声音setA进行学习，并生成转换函数F(Src.2(A))(步骤S1502)。

接着，目标转换函数生成部102根据中间说话者In.的声音setA和目标说话者Tag.1的声音setA进行学习，并生成转换函数G1(In.(A))(步骤S1503)。同样地，目标转换函数生成部102根据中间说话者In.的声音setA和目标说话者Tag.2的声音setA进行学习，并生成转换函数G2(In.(A))(步骤S1503)。

在转换过程中，中间音质转换部211使用转换函数F(Src.1(A))将原说话者Src.1的任意的声音转换为中间说话者In.的声音(步骤S1505)。接着，目标音质转换部212使用转换函数G1(In.(A))或转换函数G2(In.(A))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1506)。

同样地，中间音质转换部211使用转换函数F(Src.2(A))将原说话者Src.2的任意的声音转换为中间说话者In.的声音(步骤S1507)。接着，目标音质转换部212使用转换函数G1(In.(A))或转换函数G2(In.(A))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1508)。

这样地，在仅收录setA的一组中间说话者的发声内容来进行学习的情况下，与转换后特征量转换方式相同地，需要原说话者的发声内容与目标说话者的发声内容是相同的发声内容的组(setA)，但是与以往相比，应该通过学习而生成的转换函数的数量减少。

(2)在图15中示出中间说话者的声音为由TTS或人发声的多组(setA、setB、setC、setD)声音的情况下的学习过程以及转换过程。

首先，中间转换函数生成部101根据原说话者Src.1的声音setA和中间说话者In.的声音setA进行学习，并生成转换函数F(Src.1(A))(步骤S1601)。同样地，中间转换函数生成部101根据原说话者Src.2的声音setB和中间说话者In.的声音setB进行学习，并生成转换函数F(Src.2(B))(步骤S1602)。

接着，目标转换函数生成部102根据中间说话者In.的声音setC和目标说话者Tag.1的声音setC进行学习，并生成转换函数G1(In.(C))(步骤S1603)。同样地，目标转换函数生成部102根据中间说话者In.的声音setD和目标说话者Tag.2的声音setA进行学习，并生成转换函数G2(In.(D))(步骤S 1604)。

在转换过程中，中间音质转换部211使用转换函数F(Src.1(A))将原说话者Src.1的任意的声音转换为中间说话者In.的声音(步骤S1605)。接着，目标音质转换部212使用转换函数G1(In.(C))或转换函数G2(In.(D))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1606)。

同样地，中间音质转换部211使用转换函数F(Src.2(B))将原说话者Src.2的任意的声音转换为中间说话者In.的声音(步骤S1607)。接着，目标音质转换部212使用转换函数G1(In.(C))或转换函数G2(In.(D))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1608)。

如上所述，在将中间说话者设为TTS的情况下，可以半永久性地使中间说话者发出规定音质的声音。另外，不论原说话者以及中间说话者的发声内容，都可以从TTS输出与原说话者以及中间说话者的发声内容一致的声音内容，因此不会制约学习时的原说话者以及中间说话者的发声内容。从而便利性提高，能够容易地生成转换函数。另外，可以使原说话者与目标说话者之间的发声内容充当非平行语料库。

(3)在图16中示出原说话者的声音的一部分为由TTS或人发出的多组(在此，setA、setB)声音，中间说话者的声音为由TTS或人发出的多组(在此，setA、setC、setD)声音的情况下的学习过程以及转换过程。

目标转换函数生成部102根据中间说话者In.的声音setA和目标说话者Tag.1的声音setA进行学习，并生成转换函数G1(In.(A))(步骤S1701)。

同样地，目标转换函数生成部102根据中间说话者In.的声音setB和目标说话者Tag.2的声音setB进行学习，并生成转换函数G2(In.(B))(步骤S1702)。

中间转换函数生成部101根据原说话者Src.1的声音setC和中间说话者In.的声音setC进行学习，并生成转换函数F(Src.1(C))(步骤S1703)。

同样地，中间转换函数生成部101根据原说话者Src.2的声音setD和中间说话者In.的声音setD进行学习，并生成转换函数F(Src.2(D))(步骤S1704)。

在转换过程中，中间音质转换部211使用转换函数F(Src.1(C))将原说话者Src.1的任意的声音转换为中间说话者In.的声音(步骤S1705)。接着，目标音质转换部212使用转换函数G1(In.(A))或转换函数G2(In.(B))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1706)。

同样地，中间音质转换部211使用转换函数F(Src.2(D))将原说话者Src.2的任意的声音转换为中间说话者In.的声音(步骤S1707)。接着，目标音质转换部212使用转换函数G1(In.(A))或转换函数G2(In.(B))将中间说话者In.的声音转换为目标说话者Tag.1或目标说话者Tag.2的声音(步骤S1708)。

在这种模式的情况下，在将中间说话者设为TTS的情况下，可以根据原说话者以及目标说话者的发声内容，使原说话者的发声内容发生变化，可以灵活地进行转换函数的学习。另外，可以使学习时的原说话者与目标说话者之间的声音内容充当非平行语料库。

(评价)

接着，为了客观地评价现有方法以及本申请的发明的方法的音质转换的精度而说明实施的实验过程以及实验结果。

在此，作为音质转换的方法，使用基于混合正态分布模型(GMM)的特征量转换法(例如，参照A.Kain and M.W.Macon，“Spectral voice conversion for text-to-speech synthesis，”Proc.ICASSP，pp.285-288，Seattle，U.S.A.May，1998.)。

下面说明基于GMM的音质转换方法。在时间区域中，将与每个帧相对应的成为转换源的说话者的声音的特征量x以及成为转换目的方的说话者的声音的特征量y，分别表示为：

[式1]

x＝[x₀，x₁...，x_p-1，]^T

y＝[y₀，y₁，...，y_p-1，]^T

在此，p是特征量的维数，T表示转置。在GMM中，将声音的特征量x的概率分布p(x)表示为：

[式2]

p (x) = Σ_{i = 1}^{m} α_{i} N (x; μ_{i}, Σ_{i})

Σ_{i = 1}^{m} α_{i} = 1, α_{i} &GreaterEqual; 0

在此，αi是类i的加权，m是类数。另外，N(x；μi，∑i)是具有类i中的平均向量μi以及协方差矩阵∑i的正态分布，表示为：

[式3]

N (x; μ_{i}, Σ_{i}) = \frac{{| Σ_{i} |}^{- 1 / 2}}{{(2 π)}^{p / 2}} \exp [- \frac{1}{2} {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})]

接着，从原说话者的声音的特征量x向目标说话者的声音的特征量y进行转换的转换函数F(x)表示为：

[式4]

F (x) = Σ_{i = 1}^{m} h_{i} (x) [μ_{i}^{(y)} + Σ_{i}^{(yx)} {(Σ_{i}^{(xx)})}^{- 1} (x - μ_{i}^{(x)})]

在此，μi(x)、μi(y)分别表示x以及y的类i中的平均向量。另外，∑i(xx)表示x的类i中的协方差矩阵，∑i(yx)表示y和x的类i中的相互协方差矩阵。hi(x)为：

[式5]

h_{i} (x) = \frac{α_{i} N (x; μ_{i}^{(x)}, Σ_{i}^{(xx)})}{Σ_{J = 1}^{m} α_{J} N (x; μ_{J}^{(x)}, Σ_{J}^{(xx)})}

通过估计作为转换参数的(αi、μi(x)、μi(y)、∑i(xx)、∑i(yx))来进行转换函数F(x)的学习。将x以及y的结合特征量向量z定义为：

[式6]

z＝[x^T，y^T]^T

z的概率分布p(z)根据GMM表示为：

[式7]

p (z) = Σ_{i = 1}^{m} α_{i} N (z; μ_{i}^{(z)}, Σ_{i}^{(z)})

Σ_{i = 1}^{m} α_{i} = 1, α_{i} &GreaterEqual; 0

在此，将z的类i中的协方差矩阵∑i(z)以及平均向量μi(z)分别表示为：

[式8]

Σ_{i}^{(z)} = [\begin{matrix} Σ_{i}^{(xx)} & Σ_{i}^{(xy)} \\ Σ_{i}^{(yx)} & Σ_{i}^{(yy)} \end{matrix}]

μ_{i}^{(z)} = [\begin{matrix} μ_{i}^{(x)} \\ μ_{i}^{(y)} \end{matrix}]

可以利用公知的EM算法来进行转换参数(αi、μi(x)、μi(y)、∑i(xx)、∑i(yx))的推断。

在学习时完全不使用文本等语言信息，全部使用计算机自动进行特征量的提取、GMM的学习。在实验中，作为原说话者用男女各一名(男性说话者A、女性说话者B)，作为中间说话者I用女性说话者一名，作为目标说话者T用男性一名。

作为学习数据，使用ATR音素平衡句(例如，参照阿部匡伸、匂坂芳典、梅田哲夫、桑原尚夫著、“研究用日本語音声デ一タベ一ス利用解説書(速読音声デ一タ編)、”ATRテクニカルレポ一ト、TR-I-0166，1990.)中的子组50句，作为评价数据而使用不包含在学习数据中的子组50句。

对声音进行STRAIGHT分析(例如，参照H.Kawahara etal.“Restructuring speech representation using a pitch-adaptivetime-frequency smoothing and aninstantaneous-frequency-basedf0 extraction：possible role of a repetitive structure in sounds，”Speech Communication，Vol.27，No.3-4，pp.187-207，1999.)。采样周期为16kHz、帧移位是5ms。作为声音的频谱特征量，使用从S TRAIGHT频谱转换的1～41次的倒谱系数。GMM的混合数设为64。使用倒谱失真(Cepstral Distortion)作为转换精度的评价标准。评价是计算从原说话者转换的倒谱与目标说话者的倒谱之间的失真。以式(1)表现倒谱失真，值越小评价越高。

[式9]

CepstralDistortion [dB] = \frac{20}{\ln 10} \sqrt{2 Σ_{i = 1}^{p} {(c_{i}^{(x)} - c_{i}^{(y)})}^{2}}

在此，Ci(x)表示目标说话者的声音的倒谱系数，Ci(y)表示转换声音的倒谱系数，p表示倒谱系数的次数。在本实验中，为p＝41。

图17是表示实验结果的图。图的纵轴是倒谱失真，该值是将对各帧中的每一个帧通过式(1)求得的倒谱失真在全帧中进行平均得到的值。

(a)表示原说话者(A、B)的倒谱与目标说话者T的倒谱之间的失真。(b)相当于现有方法，表示从直接以原说话者(A、B)和目标说话者T进行学习的情况下的从原说话者(A、B)转换得到的倒谱与目标说话者T的倒谱之间的失真。(c)、(d)应用了本申请的发明的方法。下面具体说明(c)，将从原说话者A向中间说话者I的中间转换函数设为F(A)，将从由原说话者A使用F(A)生成的声音向目标说话者T的声音的目标转换函数设为G(A)。另外，同样地，将从原说话者B向中间说话者I的中间转换函数设为F(B)，将从由原说话者B使用F(B)生成的声音向目标说话者T的声音的目标转换函数设为G(B)。在此，表示从原说话者A使用F(A)一次转换为中间说话者I的倒谱、再次使用G(A)转换为目标说话者T的倒谱与目标说话者T的倒谱之间的失真(原说话者A→目标说话者T)。同样地，也表示从原说话者B使用F(B)一次转换为中间说话者I的倒谱、再次使用G(B)转换为目标说话者T的倒谱与目标说话者T的倒谱之间的失真(原说话者B→目标说话者T)。

(d)表示在(c)中使用本人以外的目标转换函数G的情况。具体地说，表示从原说话者A使用F(A)转换为中间说话者I之后、使用G(B)转换为目标说话者T的倒谱与目标说话者T的倒谱之间的失真(原说话者A→目标说话者T)。另外，同样地，也表示从原说话者B使用F(B)转换为中间说话者I之后、使用G(A)转换为目标说话者T的倒谱与目标说话者T的倒谱之间的失真(原说话者B→目标说话者T)。

根据这些图可知利用现有方法(b)和本申请的发明的方法(c)取得大致相同值的倒谱的失真，因此，即使进行通过中间说话者的转换，也能够保持与现有方法相同程度的质量。并且，可知利用现有方法(b)和本申请的发明的方法(d)取得大致相同值的倒谱的失真，因此，可知当进行通过中间说话者的转换时，即使从中间说话者向目标说话者的目标转换函数共用使用由任意的原说话者作成的、对每个目标说话者一种的G，也能够保持与现有方法相同程度的质量。

如上所述，服务器10学习并生成用于将一个以上的原说话者的各自的声音转换为一个中间说话者的声音的转换函数F和用于将上述一个中间说话者的声音转换为一个以上的目标说话者的各自的声音的转换函数G，因此在存在多个原说话者和目标说话者的情况下，只要准备了用于将各个原说话者的声音转换为中间说话者的声音的转换函数、以及用于将中间说话者的声音转换为各个目标说话者的声音的转换函数，就能够将各个原说话者的声音转换为各个目标说话者的声音。也就是说，能够用比以往那样准备用于将各个原说话者的声音转换为各个目标说话者的声音的转换函数更少的转换函数进行音质转换。因此，能够以较少的负担进行学习并生成转换函数，并且能够利用该转换函数进行音质转换。

另外，利用便携终端20对自己声音进行音质转换的用户作成一个用于将自己的声音转换为中间说话者的声音的转换函数F，并存储在便携终端20中，从服务器10下载用于从中间说话者转换为用户期望的目标说话者的声音的转换函数G，由此可以容易地将自己的声音转换为目标说话者的声音。

另外，目标转换函数生成部102能够作为中间转换函数而生成用于将原说话者的声音通过转换函数F转换后的声音转换为目标说话者的声音的函数。因此，能够生成与实际的音质转换时的处理一致的转换函数，与生成用于将直接从中间说话者收集的声音转换为目标说话者的声音的转换函数相比，能够使实际的音质转换时的音质精度提高。

另外，通过将中间说话者的声音设为从TTS输出的声音，即使原说话者、目标说话者发出任何内容的声音，都能够在TTS中发出相同内容的声音。因此，不对学习时的原说话者、目标说话者的发声内容进行限制，能够节省用于从原说话者、目标说话者收集特定的声音内容的时间，能够容易地进行转换函数的学习。

另外，在转换后特征量转换方式中，将原说话者的声音设为TTS，由此能够按照目标说话者的发声内容，使作为原说话者的TTS发出任意的声音内容，可以不对目标说话者的发声内容进行限制，容易地对转换函数G进行学习。

例如，即使目标说话者的声音是卡通人物、电影演员的声音，也能够使用过去收录的音源容易地进行学习。

另外，使用合成了转换函数F和转换函数G的转换函数进行音质转换，由此能够减少音质转换所需的时间、存储器。

(变形例)

(1)在上述的实施方式中，说明了构成音质转换客户服器务系统1的装置中，服务器10具备中间转换函数生成部101以及目标转换函数生成部102、便携终端20具备中间音质转换部211以及目标音质转换部212。但是，不限于此，音质转换客户服务器系统1的装置结构、以及构成音质转换客户服务器系统1的装置的中间转换函数生成部101、目标转换函数生成部102、中间音质转换部211和目标音质转换部212的配置可以是任何配置。

例如，也可以由一个装置具备中间转换函数生成部101、目标转换函数生成部102、中间音质转换部211、目标音质转换部212的所有功能。

另外，也可以在转换函数学习功能中，便携终端20具备中间转换函数生成部101，服务器10具备目标转换函数生成部102。在这种情况下，需要在便携终端20的非易失性存储器中存储用于学习并生成转换函数F的程序。

下面参照图18说明便携终端20具备中间转换函数生成部101的情况下的便携终端20中的转换函数F的生成过程。

在图18(a)中示出原说话者A的发声内容固定的情况的过程。在原说话者x的发声内容固定的情况下，预先使该内容的中间说话者的声音存储在便携终端20的非易失性存储器中。然后，根据利用便携终端20所具备的麦克风收集的原说话者x的声音和存储在便携终端20中的中间说话者i的声音进行学习(步骤S601)，获取转换函数F(x)(步骤S602)。

在图18(b)中示出原说话者A的发声内容为自由的情况下的处理过程。在这种情况下，在便携终端20上配置将声音转换为文本的声音识别装置和将文本转换为声音的TTS。

首先，声音识别装置对利用便携终端20所具备的麦克风收集的原说话者x的声音的进行声音识别，将原说话者x的发声内容转换为文本(步骤S701)，输出到TTS。TTS从文本生成中间说话者i(TTS)的声音(步骤S702)。

中间转换函数生成部101根据中间说话者i(TTS)的声音和原说话者的声音进行学习(步骤S703)，获取转换函数F(x)(步骤S704)。

(2)在上述的实施方式中，说明了音质转换部21由使用转换函数F将原说话者的声音转换为中间说话者的声音的中间音质转换部211、和使用转换函数G将中间说话者的声音转换为目标说话者的声音的目标音质转换部212构成。这仅仅是一个示例，音质转换部21也可以具备使用合成了转换函数F与转换函数G的函数而直接将原说话者的声音转换为目标说话者的声音的功能。

(3)通过将本发明所涉及的音质转换功能应用到发送侧以及接收侧的便携电话机，可以对输入到发送侧的便携电话机的声音的音质进行转换，从接收侧的便携电话机输出。在这种情况下，作为发送侧以及接收侧的便携电话机中的处理模式，可以考虑下面的模式。

1)在发送侧的便携电话机中转换LSP(Line Spectral Pair)系数之后(参照图19(a))，在接收侧便携电话机中进行解码(参照图19(c))。

2)在发送侧的便携电话机中转换LSP系数以及音源信号之后(参照图19(b))，在接收侧的便携电话机中进行解码(参照图19(c))。

3)在发送侧的便携电话机中进行编码之后(参照图20(a))，在接收侧的便携电话机中转换LSP系数之后进行解码(参照图20(b))。

4)在发送侧的便携电话机中进行编码之后(参照图20(a))，在接收侧的便携电话机中转换LSP系数以及音源信号之后进行解码(参照图20(c))。

此外，为了如上述3)、4)那样在接收侧的便携电话机中进行转换，正确的是，需要发送者(声音收入者)的转换函数或决定发送者所属的转换函数的簇的索引等与发送者的转换函数相关的信息。

如上所述，仅通过对现有的便携电话机追加利用了LSP系数转换、音源信号转换等的音质转换的功能，就能够不伴随系统、基础的变更而对在便携电话机之间发送接收的声音进行音质转换。

另外，如图21所示，也可以在服务器中进行了音质转换。在图21中，对LSP系数以及音源信号的两者进行转换，但是也可以仅对LSP系统进行转换。

(4)在上述的实施方式中，作为声音合成装置使用了TTS，但是也可以使用将输入的声音内容转换为规定的音质并输出的装置。

(5)在上述的实施方式中，说明了通过向中间说话者的声音的转换的两阶段音质转换。但是，不限于此，也可以是通过向多个中间说话者的声音进行转换的多阶段音质转换。

产业上的可利用性

能够利用于可以用较少的转换学习以及较少的转换函数将较多用户的声音转换为多种目标说话者的声音的音质转换服务。

Claims

1.一种音质转换系统，其将原说话者的声音转换为目标说话者的声音，其特征在于，具备：

音质转换单元，其将原说话者的声音经由向中间说话者的声音的转换而转换为目标说话者的声音。

2.一种音质转换学习系统，其学习用于将一个以上的原说话者各自的声音转换为一个以上的目标说话者各自的声音的函数，其特征在于，具备：

中间转换函数生成单元，其学习并生成用于将上述原说话者的声音转换为对上述一个以上的各个原说话者共用设置的一个中间说话者的声音的中间转换函数；以及

目标转换函数生成单元，其学习并生成用于将上述中间说话者的声音转换为上述目标说话者的声音的目标转换函数。

3.根据权利要求2所述的音质转换学习系统，其特征在于，

上述目标转换函数生成单元作为上述目标转换函数而生成用于将上述原说话者的声音通过上述中间转换函数转换后的声音转换为上述目标说话者的声音的函数。

4.根据权利要求2或3所述的音质转换学习系统，其特征在于，

在上述学习中使用的中间说话者的声音是从用规定的音质输出任意声音内容的声音合成装置输出的声音。

5.根据权利要求2至4中的任一项所述的音质转换学习系统，其特征在于，

在上述学习中使用的原说话者的声音是从用规定的音质输出任意声音内容的声音合成装置输出的声音。

6.根据权利要求2至5中的任一项所述的音质转换学习系统，其特征在于，还具备：

转换函数合成单元，其合成由上述中间转换函数生成单元生成的中间转换函数和由上述目标转换函数生成单元生成的目标转换函数，由此生成用于将上述原说话者的声音转换为上述目标说话者的声音的函数。

7.一种音质转换系统，其特征在于，具备：

音质转换单元，其使用由权利要求2至6中的任一项所述的音质转换学习系统生成的函数，将上述原说话者的声音转换为上述目标说话者的声音。

8.根据权利要求7所述的音质转换系统，其特征在于，

上述音质转换单元具备：

中间音质转换单元，其使用上述中间转换函数，根据上述原说话者的声音生成上述中间说话者的声音；以及

目标音质转换单元，其使用上述目标转换函数，根据由上述中间音质转换单元生成的上述中间说话者的声音生成上述目标说话者的声音。

9.根据权利要求7所述的音质转换系统，其特征在于，

上述音质转换单元使用合成了上述中间转换函数和上述目标转换函数而得到的函数，将上述原说话者的声音转换为上述目标说话者的声音。

10.根据权利要求7至9中的任一项所述的音质转换系统，其特征在于，

上述音质转换单元转换作为声音的特征量的频谱序列。

11.一种音质转换客户服务器系统，其客户计算机与服务器计算机通过网络进行连接，将一个以上的用户各自的声音转换为一个以上的目标说话者各自的声音，其特征在于，

上述客户计算机具备：

用户声音获取单元，其获取上述用户的声音；

用户声音发送单元，其将由上述用户声音获取单元获取的上述用户的声音发送给上述服务器计算机；

中间转换函数接收单元，其从上述服务器计算机接收中间转换函数，该中间转换函数用于将上述用户的声音转换为对上述一个以上的各个用户共用设置的一个中间说话者的声音；以及

目标转换函数接收单元，其从上述服务器计算机接收用于将上述中间说话者的声音转换为上述目标说话者的声音的目标转换函数，

上述服务器计算机具备：

用户声音接收单元，其从上述客户计算机接收上述用户的声音；

中间说话者声音存储单元，其预先存储上述中间说话者的声音；

中间转换函数生成单元，其生成用于将上述用户的声音转换为上述中间说话者的声音的中间转换函数；

目标说话者声音存储单元，其预先存储上述目标说话者的声音；

目标转换函数生成单元，其生成用于将上述中间说话者的声音转换为上述目标说话者的声音的目标转换函数；

中间转换函数发送单元，其将上述中间转换函数发送给上述客户计算机；以及

目标转换函数发送单元，其将上述目标转换函数发送给上述客户计算机，

上述客户计算机还具备：

中间音质转换单元，其使用上述中间转换函数，根据上述用户的声音生成上述中间说话者的声音；以及

目标转换单元，其使用上述目标转换函数，根据该中间说话者的声音生成上述目标说话者的声音。

12.一种程序，其使计算机执行如下步骤中的至少一个步骤：

中间转换函数生成步骤，生成用于将一个以上的各个原说话者的声音转换为一个中间说话者的声音的各个中间转换函数；以及

目标转换函数生成步骤，生成用于将一个中间说话者的声音转换为一个以上的各个目标说话者的声音的各个目标转换函数。

13.一种程序，其使计算机执行如下步骤：

转换函数获取步骤，获取用于将原说话者的声音转换为中间说话者的声音的中间转换函数、以及用于将上述中间说话者的声音转换为目标说话者的声音的目标转换函数；

中间音质转换步骤，使用在上述转换函数获取步骤中获取的中间转换函数，根据上述原说话者的声音生成上述中间说话者的声音；以及

目标音质转换部步骤，使用在上述转换函数获取步骤中获取的目标转换函数，根据在上述中间音质转换步骤中生成的上述中间说话者的声音生成上述目标说话者的声音。