CN1442845A

CN1442845A - 语音识别系统及方法、语音合成系统及方法及程序产品

Info

Publication number: CN1442845A
Application number: CN03105163A
Authority: CN
Inventors: 真锅宏幸; 平岩明; 杉村利明
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2002-03-04
Filing date: 2003-03-03
Publication date: 2003-09-17
Also published as: US20070100630A1; CN1681002B; JP2003255993A; CN1681002A; EP1345210A3; EP1345210A2; US7680666B2; US20030171921A1; EP1345210B1; EP1667108A1; DE60321256D1; US7369991B2; DE60330400D1; EP1667108B1

Abstract

本发明涉及用于识别语音信号的语音识别系统和方法，根据语音识别进行合成语音信号的语音合成系统和方法以及在其中使用的程序产品。本发明的语音识别系统包括被配置用来获取声音信号并且根据获取的声音信号计算声音信号参数的声音信号处理器；配置用来获取对象表面的潜在改变以作为肌电图信号，并且根据获取的肌电图信号计算肌电图信号参数的肌电图信号处理器；配置用来通过取得对象的图像来获取图像信息，并且根据获取的图像信息来计算图像信息参数的图像信息处理器；配置用来根据声音信号参数、肌电图信号参数以及图像信息参数，识别由对象发出的语音信号的语音识别器；以及配置用来提供语音识别器识别的结果的识别结果提供器。

Description

语音识别系统及方法、语音合成系统及方法及程序产品

技术领域

本发明涉及用于识别语音信号的语音识别系统和方法，根据语音识别进行合成语音信号的语音合成系统和方法以及在其中使用的程序产品。

背景技术

本申请是申请号为P2002-057818，申请日期为2002年3月4日提出的日本在先专利申请的优先权基础上提出的，该申请的全部内容在此被引入作为参考。

传统的语音探测装置采用语音识别技术通过对发声声音信号中的频率进行分析来对语音信号进行识别和处理。语音识别技术通过使用谱带包络或类似技术获取。

然而，对于传统的语音探测装置来讲，不可能在没有向常规语音探测装置中输入发声的声音信号的条件下来探测语音信号。此外，为了通过使用语音识别技术来获取好的语音探测结果，要求声音信号以一定的音量发出声音。

因此，传统的语音探测装置不能够在需要无声的条件下使用，这些情况例如，在办公室、在图书馆以及在公共机构等地方，当说话者可能会对周围的他/她带来不便时。传统的语音探测装置具有的问题就是在高噪音的条件下，会带来交叉说话的问题并且语音探测功能的性能会降低。

另一方面，已出现了对从除声音信号外的信息获取语音信号的技术的研究。从除声音信号外的信息获取语音信号的技术使得在没有发声的声音信号的条件下获取语音信号成为可能，因此可以解决上述的问题。

根据视频相机输入的图像信息进行图像处理的方法是一种根据嘴唇的视觉信息进行识别语音信号的方法。

此外，还进行了通过处理随着嘴周围(附近)的肌肉运动产生的肌电图(下面称之为EMG)信号来识别发出的元音类型的技术研究。该研究在”Noboru Sugie等’的A speech Employing a Speech SyntghesizerVowel Discrimination from Perioral Muscles Activities and VowelProduction，’IEEE tansactions on Biomedical Engineering，卷32，第7期，485-490页”中公开，其中公开了通过将EMG信号通过通带过滤器并统计通过的EMG信号穿过阈值的次数来区别五个元音字母“a，i，u，e，o”的技术。

众所周知，存在通过使用神经系统网络处理EMG信号来探测说话者的元音和辅音的方法。此外，使用不只是一个输入渠道而是多个输入渠道输入的信息的多模式接口被提出并已经获取。

在另一方面，传统的语音合成系统存储用于表征说话者的语音信号的数据，并且使用当说话者发声时的数据来合成语音信号。

然而，存在的一个问题是传统的语音探测方法使用从信息而不是从声音信号获取语音信号的技术，因此与使用从声音信号获取语音信号的语音探测方法相比，该技术在识别上具有低的成功率。特别是，很难从嘴内肌肉的运动来识别所发出的辅音。

此外，传统的语音合成系统存在的一个问题在于语音信号是根据表征说话者的语音信号的数据合成的，因此合成的语音信号听起来很生硬，表达不自然，并且不可能确切地表达说话者的感情。

发明内容

终上所述，本发明的一个目的是提供一种语音识别系统和方法，其在没有噪音影响的条件下，识别较低音量的声音信号时具有高的识别率。本发明的另一个目的是提供一种语音合成系统和方法，其使用识别的语音信号来合成语音信号，从而使得合成的语音信号更自然和清晰，并且能够确切地表达说话者的感情。

本发明的第一个方面可归纳为一种语音识别系统，其包括声音信号处理器、肌电图(EMG)信号处理器、图像信息处理器、语音识别器以及识别结果提供器。

声音信号处理器被配置用来从一个对象获取声音信号，并且根据获取的声音信号计算声音信号参数。EMG信号处理器被配置用来获取对象表面的潜在改变以作为EMG信号，并且根据获取的EMG信号计算EMG信号参数。图像信息处理器被配置用来通过取得对象的图像来获取图像信息，并且根据获取的图像信息来计算图像信息参数。语音识别器被配置用来根据声音信号参数、EMG信号参数以及图像信息参数，识别由对象发出的语音信号。识别结果提供器被配置用来提供语音识别器识别的结果。

在本发明的第一个方面，语音识别器可以根据声音信号参数、EMG信号参数以及图像信息参数中的每一个来识别语音信号，对比识别的每一个语音信号以及根据对比结果识别语音信号。

在本发明的第一个方面，语音识别器可以同时使用声音信号参数、EMG信号参数以及图像信息参数来识别语音信号。

在本发明的第一个方面，语音识别器可以包括一个分层网络，在该网络中含有输入单元和输出单元的多个非线性组件被从上到下分层定位。上层的非线性组件的输出单元连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定给该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者连接的组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。声音信号参数、EMG信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中。识别的语音信号被作为输出数据从分层网络中的最下层的非线性组件中输出。语音识别器根据输出的数据识别语音信号。

在本发明的第一个方面，语音识别器可以包括学习功能，其被配置用来根据输入的从下层向上层传送的样品数据来改变指定给非线性组件的加权值。

在本发明的第一个方面，声音信号处理器可以包括麦克风，其被配置用来从声音源获取声音信号。麦克风被配置用来与通信装置进行通信。EMG信号处理器可以包括电极，其被配置用来获取声音源周围面上的潜在改变，以作为EMG信号。该电极被安装在通信装置的表面。图像信息处理器可以包括照相机，其被配置用来通过拍摄声音源移动的图像来获取图像信息。该照相机被安装在与通信装置分离的终端上。通信装置使用该终端发送和接收数据。

在本发明的第一个方面，终端可包括一个装有照相机的主体，以及固定主体的带子。识别结果提供器可以为用于显示结果的显示器，该显示器被安装在主体的表面。

在本发明的第一个方面，系统可以包括一个定位设备以及支撑设备。声音信号处理器可以包括麦克风，其被配置用来从声音源获取声音信号。EMG信号处理器可以包括电极，其被配置用来获取声音源周围面上的潜在改变以作为EMG信号。图像信息处理器可以包括照相机，其被配置用来通过拍摄声音源移动的图像来获取图像信息。定位设备可以固定与声音源接近的麦克风以及电极。支撑设备可以支撑照相机以及定位设备。

在本发明的第一个方面，识别结果提供器可以在半透明的显示设备中显示结果。识别结果提供器被安装在支撑设备中。

本发明的第二个方面可归纳为一种语音合成系统，其包括语音识别器、声音信号获取器、第一谱带获取器、第二谱带产生器、调节谱带产生器以及输出器。

语音识别器被配置用来识别语音信号。声音信号获取器被配置用来获取声音信号。第一谱带获取器被配置用来取得获取的声音信号的谱带来作为第一谱带。第二谱带产生器被配置用来根据语音识别器识别的语音信号来产生声音信号的二次配置谱带，并将其作为第二谱带。调节谱带产生器被配置用来根据第一谱带和第二谱带来产生调节后的谱带。输出器被配置用来根据调节后的谱带来输出合成的语音信号。

在本发明的第二个方面，输出器可以包括通信装置，其被配置用来发送作为数据的合成的语音信号。

本发明的第三个方面可归纳为一种语音识别方法，包括以下步骤：(A)从对象获取声音信号，并且根据获取的声音信号计算声音信号参数；(B)获取对象的表面的潜在改变作为EMG信号，并且根据获取的EMG信号计算EMG信号参数；(C)取得对象的图像来获取图像信息，并且根据获取的图像信息来计算图像信息参数；(D)根据声音信号参数、EMG信号参数以及图像信息参数，识别对象发出的语音信号；以及(E)提供语音识别器识别的结果。

在本发明的第三个方面中，步骤(D)可以包括以下步骤：(D1)根据声音信号参数、EMG信号参数以及图像信息参数中的每一个来识别语音信号；(D2)对比每个识别的语音信号；以及(D3)根据对比结果识别语音信号。

在本发明的第三个方面中，语音信号可以通过在步骤(D)中同时使用声音信号参数、EMG信号参数以及图像信息参数来识别。

在本发明的第三个方面，含有输入单元和输出单元的多个非线性组件在分层的网络中处于从上到下被分层的位置。上层的非线性组件的输出单元被连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定到该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。步骤(D)包括以下步骤：(D11)将声音信号参数、EMG信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中；(D12)将识别的语音信号作为输出数据由分层网络中的最下层的非线性组件中输出；并且(D13)根据输出的数据来识别语音信号。

在本发明的第三个方面中，所述方法可以包括根据输入从下层向上层传送的样品数据来改变指定给非线性组件的加权值的步骤。

本发明的第四个方面可归纳为一种语音合成方法，包括以下步骤：(A)识别语音信号；(B)获取声音信号；(C)取得获取的声音信号的谱带作为第一谱带；(D)根据语音识别器识别的语音信号来产生声音信号的二次配置谱带，并将其作为第二谱带；(E)根据第一谱带和第二谱带来产生调节后的谱带；以及(F)根据调节后的谱带来输出合成的语音信号。

在本发明的第四个方面中，步骤(F)可以包括发送作为数据的合成的语音信号的步骤。

本发明的第五个方面可归纳为在计算机中用于识别语音信号的程序产品。计算机执行以下步骤：(A)从对象获取声音信号，并且根据获取的声音信号计算声音信号参数；(B)获取对象的表面的潜在改变作为EMG信号，并且根据获取的EMG信号计算EMG信号参数；(C)取得对象的图像来获取图像信息，并且根据获取的图像信息来计算图像信息参数；(D)根据声音信号参数、EMG信号参数以及图像信息参数，识别对象发出的语音信号；以及(E)提供语音识别器识别的结果。

在本发明的第五个方面中，步骤(D)可以包括以下步骤：(D1)根据声音信号参数、EMG信号参数以及图像信息参数中的每一个识别语音信号；(D2)对比每个识别的语音信号；以及(D3)根据对比结果识别语音信号。

在本发明的第五个方面的步骤(D)中，语音信号可以同时使用声音信号参数、EMG信号参数以及图像信息参数来识别。

在本发明的第五个方面，含有输入单元和输出单元的多个非线性组件在分层的网络中从上到下被分层的位置。上层的非线性组件的输出单元连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定到该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。步骤(D)包括以下步骤：(D11)将声音信号参数、EMG信号参数以及图像信息参数作为输入数据输入到分层网络中的最上层的非线性组件中；(D12)从分层网络中的最下层的非线性组件的输出单元输出识别的语音信号作为输出数据；并且(D13)根据输出的数据来识别语音信号。

在本发明的第五个方面，计算机可以进行根据输入的从下向上传送的样品数据来改变指定给非线性组件的加权值的步骤。

本发明的第六个方面可归纳为用于在计算机中合成语音信号的程序产品。计算机执行以下的步骤：(A)识别语音信号；(B)获取声音信号；(C)取得获取的声音信号的谱带作为第一谱带；(D)根据语音识别器识别的语音信号来产生声音信号的二次配置谱带，并将其作为第二谱带；(E)根据第一谱带和第二谱带来产生调节后的谱带；以及(F)根据调节后的谱带来输出合成的语音信号。

在本发明的第六个方面中，步骤(F)可以包括发送作为数据的合成的语音信号的步骤。

附图说明

图1为根据本发明的实施例的语音识别系统的功能单元图。

图2A到2D为根据本发明的实施例在语音识别系统中摘取声音信号以及EMG信号的过程例子。

图3A到3D为根据本发明的实施例的在语音识别系统中摘取图像信息的过程的例子。

图4为根据本发明的实施例的在语音识别系统中的语音识别器的功能单元图。

图5为根据本发明的实施例的在语音识别系统中的语音识别器的功能单元图。

图6为在根据本发明的实施例的在语音识别系统中为解释语音识别器的详图。

图7为根据本发明的实施例的在语音识别系统中的描述语音识别过程操作的流程图。

图8为根据本发明的实施例的在语音识别系统中的描述学习过程操作的流程图。

图9为根据本发明的实施例的语音合成系统的功能单元图。

图10A到10D为在根据本发明的实施例的在语音识别系统中的除去噪音操作的解释图。

图11为根据本发明的实施例的在语音系统中描述语音合成过程操作的流程图。

图12为根据本发明的实施例的对语音识别系统和语音合成系统一体化系统的完整的配置。

图13为根据本发明的实施例的对语音识别系统和语音合成系统一体化的系统的完整配置。

图14表示记录了根据本发明的实施例程序的计算机可读记录媒体。

具体实施方式(根据本发明的第一实施例的语音识别系统的配置)

以下将详细描述根据本发明的第一实施例的语音识别系统的配置。图1描述了根据本实施例的语音识别系统的功能单元图。

如图1所示，语音识别系统配置有声音信号处理器10、EMG信号处理器13、图像信息处理器16、信息积分器/识别器19、语音识别器20和识别结果提供器21。

声音信号处理器10被配置用于处理由说话人发出的声音信号。声音信号处理器10配置有声音信号获取单元11和声音信号处理单元12。

声音信号获取单元11是一种用于从说话人(目标)口中获取声音信号的装置，例如麦克风。声音信号获取单元11探测说话人发出的声音信号，并且将获取的声音信号传送到声音信号处理单元12。

声音信号处理单元12被配置用于从声音信号获取单元11中获取的声音信号中通过分离谱带包络或微细结构来获取声音信号参数。

声音信号处理单元12是一种用于计算声音信号参数的装置，该声音信号参数可以在语音识别器20中根据由声音信号获取单元11获取的声音信号而被处理。声音信号处理单元12每隔一时间—窗口设置时切断声音信号，并且通过常用于语音识别时的分析计算声音信号参数，例如对切断的声音信号进行短时间谱带分析，对数倒频谱分析，最大可能性谱估计方法，协方差方法，PARCOR分析和LSP分析。

EMG信号处理器13被配置用于探测和处理当发出声音信号时说话人嘴附近肌肉的运动。EMG信号处理器13配置有EMG信号获取单元14和EMG信号处理单元15。

EMG信号获取单元14被配置用于获取(摘取)当发出声音信号时说话人嘴附近肌肉的运动。EMG信号获取单元14探测说话人(目标)嘴附近皮肤表面的可能的变化。也就是说，为了识别嘴附近伴随着发出声音信号的多块肌肉的运动，EMG信号获取单元14通过位于与多块肌肉相关的皮肤表面上的多个电极来探测多个EMG信号，并且放大EMG信号传输到EMG信号处理单元15。

EMG信号处理单元15被配置用于通过计算由EMG获取单元14获取的EMG信号的功率和分析EMG信号的频率来摘取EMG信号参数。EMG信号处理单元15是一种根据多个由EMG信号获取单元14传输的EMG信号来计算EMG信号参数的装置。更具体的，EMG信号处理单元15在每隔一时间—窗口设置切断EMG信号，并且通过计算平均振荡特征，如RMS(均方根)，ARV(平均矫正值)或IEMG(积分EMG)来计算EMG信号参数。

参考图2A到2D，将对声音信号获取单元12和EMG信号处理单元15进行详细描述。

由声音信号获取单元11或EMG信号获取单元14探测到的声音信号或EMG信号被声音信号处理器12或EMG信号处理器15在每时间—窗口时被切断(图2A中的S401)。然后，通过FFT由切割信号提取谱带(图2B中S402)。然后，对摘取的谱带进行1/3倍频程分析计算出每个频率的功率(图2C中S403)。计算出的与每个频率相关的功率被传输到语音识别器20作为语音信号参数或EMG信号参数(图2D中S404)。该语音信号参数或EMG信号参数被语音识别器20识别。

声音信号处理单元12或EMG信号处理单元15也可以通过使用不是在图2A到2D中的方法来摘取声音信号参数或EMG信号参数。

图像信息处理器16被配置用于探测当发出声音信号时说话人嘴附近的空间变化。图像信息处理器16配置有图像信息获取单元17和图像信息处理单元18。

图像信息获取单元17被配置用于通过获取当发出声音信号时说话人嘴附近的空间变化的图像来获取图像信息。图像信息获取单元17配置有获取当发出声音信号时说话人嘴附近的空间变化图像的照相机，如视频相机。图像信息获取单元17探测嘴附近的运动作为图像信息，并且传送该图像信息到图像信息处理单元18。

图像信息处理单元18被配置用于根据图像信息获取单元17获取的图像信息来计算说话人嘴周围的运动参数(图像信息参数)。更具体的，图像信息处理单元18用光流摘取嘴周围的运动特征计算图像信息。

参考图3A到3D，下面将对图像信息处理单元18进行详细描述。

在说话人嘴附近的特征位置根据时间t0时的图像信息进行摘取。(如图3A中的S501)。有可能通过获取标记处的位置作为特征位置，或在拍摄的图像信息中查找特征位置来摘取嘴周围的特征位置。图象信息处理单元18能够从图像信息中摘取特征位置并将其作为二维空间位置。图象信息处理单元18通过使用多个照相机来获取特征位置并将其作为三维空间位置。

相似地，在经过从t0到t1这段时间后，在时间t1时摘取嘴周围的特征位置(如图3B中的S502)。然后，图像信息处理单元18通过计算在时间t0时的特征点和在时间t1时的特征点之间的差别，计算得到每个特征点的运动(如图3C中的S503)。图像信息处理单元18根据计算得到的差值产生图像信息参数(如图3D中的S504)。

对于图像信息处理单元18来说，可以使用除在图3A到3D中的方法以外的其他方法来获取图像信息参数。

图像信息积分器/识别器19被配置用来对从声音信号处理器10、EMG信号处理器13以及图像信息处理器16获取的各种信息进行积分和识别。图像信息积分器/识别器19配有语音识别器20和识别结果提供器21。

语音识别器20通过将声音信号处理器10发送的声音信号参数、EMG信号处理器13发送的EMG信号参数以及图像信息处理器16发送的图像信息参数进行对比和积分，从而进行语音识别的处理器。

语音识别器20当周围的噪音级别较小时、当发出的声音信号的音量较大时或当能够根据声音信号参数以足够的级别进行语音识别时，语音识别器20能够仅根据声音信号参数来识别语音。

在另一方面，当周围的噪音级别较大时、当发出的声音信号的音量较小时或当不能够根据声音信号参数以足够的级别进行语音识别时，语音识别器20不仅能够根据声音信号参数，还能够根据EMG信号参数以及图像信息参数来识别语音。

此外，语音识别器20能够仅仅根据声音信号参数来识别特殊的音素等，而这种特殊的音素不能够通过使用EMG信号参数以及图像信息参数来正确识别，从而可以提高识别的成功率。

参考图4，下面将对语音识别器20的例子进行具体描述。在图4所示的例子中，语音识别器20根据声音信号参数、EMG信号参数以及图像信息参数中的每一个来识别语音信号，并将每一个识别的语音信号进行对比，并且根据对比的结果来识别语音信号。

如图4所示，更加具体地，语音识别器20分别仅根据声音信号参数、EMG信号参数或图像信息参数来分别识别语音。然后语音识别器20根据各个参数对识别的结果进行积分，从而进行语音识别。

当根据各个参数得到的(所有识别结果中的)多个识别结果相互吻合时，语音识别器20将这个结果作为最终的识别结果。在另一方面，当根据各个参数得到的(所有识别结果中)没有识别结果相互吻合时，识别器20将在识别上具有最高识别率的识别结果作为最终的结果。

例如，在前面就已经知道的在识别特殊的音素或特殊的说话方式时，根据EMG参数进行的语音识别具有较低的成功率，然而，假设特殊的音素或特殊的说话方式被发出，则根据通过非EMG信号的参数进行语音识别时，语音识别器20忽略根据EMG信号参数得到的识别结果，从而可以提高识别成功率。

在基于声音信号参数的语音识别时，当确定周围的噪音级别较大时或发出的声音信号的音量较小时，语音识别器20减小基于声音信号参数得到的识别结果对最终结果的影响，并且通过将重点放在基于EMG信号参数以及图像信息参数得到的识别结果上来进行语音识别。根据各个参数进行的语音识别可以采用常规的语音识别方法。

基于语音识别器20中的声音信号的语音识别可以采用传统的使用各种声音信号的语音识别方法。基于EMG信号进行的语音识别可以采用在技术文献“Noboru Sugie et al.，‘A speech Employing a Speech SynthesizerVowel Discriminatgion from Perioral Muscles Activities and VowelProduction’IEEE transactions on Biomedial Enginnering，32卷，第7期，485-490页”中公开的方法或在JP-A-181888等中公开的方法。基于图像信息进行的语音识别可以采用在JP-A-2001-51963或JP-A-2000-206986等中公开的方法。

如图4中所示的语音识别器20，当声音信号参数、EMG信号参数以及图像信息参数中的任何参数对于语音识别都没有意义时，例如当周围的噪音级别较大时、当发出的声音信号的音量较小时或当没有探测到EMG信号时，语音识别器20可以根据有意义的参数来识别语音，从而可在整个语音识别系统中充分地提高对噪音的抗扰性。

参考图5，下面将对语音识别器20的另外一个例子进行具体描述。在图5所示的例子中，语音识别器20同时根据声音信号参数、EMG信号参数以及图像信息参数中来识别语音信号。

更加具体的，语音识别器20包括一个分层网络(例如，神经系统网络20a)，其中多个包含输入单元和输出单元的非线性组件从上到下被分层地进行定位。

在神经系统网络20a中，上层的非线性组件的输出单元被连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定到该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。

声音信号参数、EMG信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中。识别的语音信号(元音和辅音)被作为输出数据输出到分层语音识别器中的最下层的非线性组件中。语音识别器20根据由最下层的非线性组件的输出单元输出的数据来识别语音信号。

通过参考“Nishikawa and Kitamura，’Neural network and control ofmeasure’，Asakura Syoten，18-50页”可知，神经系统网络能够采用全连接型的三层神经系统网络。

语音识别器20包括学习功能，其被配置用来根据输入的从下向上传送的样品数据来改变指定给非线性组件的加权。

即是说，有必要通过例如反向传播的方法，事先学习神经系统网络20a中的加权。

为了学习加权，语音识别器20获取根据发出特殊的方式的操作所产生的声音信号参数、EMG信号参数以及图像信息参数，并且通过使用作为学习信号的特殊的方式来学习加权。

当说话者发音时，EMG信号比声音信号和图像信息先输入到语音识别系统中，语音识别器20通过向神经网络20a仅延迟EMG信号参数的输入，而不延迟声音信号参数以及图像信息参数的输入，从而使得语音识别器20具有同步声音信号、EMG信号以及图像信息的功能。

接收作为输入数据的各种参数的神经系统网络20a输出与输入参数相关的音素。

神经系统网络20a采用递归神经系统网络(RNN)，其将下一个处理得到的识别结果返回作为输入数据。根据本实施例，语音识别算法除采用神经系统网络外，还可采用各种语音识别算法，例如Hidden MarkovModel(HMM)。

如图6所示，被EMG信号获取单元14探测到的多个EMG信号1，2在EMG处理单元15(S601)中被放大并且每隔时间—窗口被切断。通过对切断的EMG信号进行FFT进行谱带的计算。在输入神经系统网络20之前，对计算得到的谱带(S602)进行1/3倍频程分析，进行EMG信号参数的计算。

声音信号获取单元11探测到的声音信号被放大并且在声音信号处理单元12(S611)中每隔时间—窗口进行切断。通过对切断的声音信号进行FFT进行谱带的计算。在输入神经系统网络20之前，对计算得到的谱带(S612)进行1/3倍频程分析，进行声音信号参数的计算。

图像信息处理单元18根据图像信息获取单元17(S621)获取的图像信息来获取说话人嘴周围的特征位置的运动作为光流。作为光流摘取的图像信息参数被输入到神经系统网络20a中。

在一连串的时间内拍摄的图像信息中可以摘取嘴周围的各自的特征位置，从而摘取特征位置的运动。也可以将标志放在嘴周围的特征点，并放置参考点，根据探测相对于参考点的特征点的位移，从而摘取特征点的运动。

被输入各种参数的神经系统网络20a输出与输入参数相关的音素。

此外，当语音通过如图4中的语音识别方法不能够根据任何参数进行识别时，依照本实施例的语音识别器20可以被配置用来使用如图5中的语音识别方法进行语音识别。通过将图4中的语音识别方法识别的结果与图5中的语音识别方法识别的结果进行对比或将它们进行积分，语音识别器20可以被配置用来对语音进行识别。

识别结果提供器21是一种提供(输出)语音识别器20识别结果的设备。识别结果提供器21能够采用语音产生器将语音识别器20识别结果作为语音信号输出到说话人或作为文本信息输出到显示结果的显示器中。识别结果提供器21可以包括一个通讯接口，其除了提供结果给说话人外，还传送结果到应用程序中作为数据，该应用程序运行于如个人电脑这样的终端中。

(根据实施例的语音识别系统的操作)

根据实施例的语音识别系统的操作将参考图7和图8描述如下。首先，参考图7，根据实施例的语音识别系统中进行语音识别的操作。

在步骤S101中，说话者开始发声。在步骤S102到S104中，声音信号获取单元11、EMG信号获取单元14以及图像信息获取单元17分别探测当说话者发声时所产生的声音信号、EMG信号以及图像信息。

在步骤S105到S107中，声音信号处理单元12、EMG信号处理单元15以及图像信息处理单元18根据声音信号、EMG信号以及图像信息分别计算声音信号参数、EMG信号参数和图像信息参数。

在步骤S108中，语音识别器20根据计算的参数来识别语音。在步骤109中，识别结果提供器21提供由语音识别器20识别得到的结果。识别结果提供器21能够将识别的结果作为语音信号输出或显示识别结果。

其次，参考图8，为根据本实施例的在语音识别系统中的学习过程的操作。

对于提高识别成功率来说，学习每个说话者的发音特征是很重要的。在实施例中，下面将对使用图5中的神经系统网络20a进行学习过程的操作进行描述。在不使用神经系统网络20a的语音识别方法的情况下，根据本发明的语音识别系统采用了与语音识别方法相关的学习功能。

如图8所示，在步骤S301和S302中，说话者开始发声。在步骤S305中，说话者用键盘等输入所说的内容，即是说，当发音时输入学习信号(样品数据)。在步骤S303中，声音信号获取单元11、EMG信号获取单元14以及图像信息获取单元17分别探测声音信号、EMG信号以及图像信息。在步骤S304中，声音信号处理单元12、EMG信号处理单元15以及图像信息处理单元18分别摘取声音信号参数、EMG信号参数和图像信息参数。

在步骤S306中，神经系统网络20a根据键盘输入的学习信号学习摘取得到的参数。即是说，神经系统网络20a通过输入从下到上传送的学习信号(样品数据)来改变指定给非线性组件的加权。

在步骤S307中，当识别的错误率低于阈值时，神经系统网络20a确定学习过程已经结束。然后操作结束(S308)。

在另一方面，在步骤S307中，当神经系统网络20a确定学习过程没有完成时，则将重复步骤S302到S306的操作。(根据实施例的语音识别系统的功能及其作用)

本实施例的语音识别系统可以根据从声音信号、EMG信号以及图像信息计算得到的多个参数来识别语音，从而可以充分地提高抗噪音干扰等能力。

即是说，本实施例的语音识别系统包含三种类型的输入接口(声音信号处理器10、EMG信号处理器13以及图像信息处理器16)用于提高抗噪音干扰的能力。当所有的输入接口都不可用时，语音识别系统能够使用可用的输入接口来识别语音，从而提高识别成功率。

因此，本发明能够提供一种语音识别系统，其在周围的噪音级别较大时或当发出的声音信号的音量较小时，能够以足够的级别来识别语音。(根据本发明的第二个实施例的语音合成系统)

参考图9到11，将对根据本发明的第二个实施例的语音合成系统进行描述。上面所描述的语音识别系统被用于根据本发明的语音合成系统。

如图9所示，根据本发明相的语音合成系统配置有声音信号处理器10、EMG信号处理器13、图像信息处理器16、语音识别器20以及语音合成器55。语音合成器55配置有第一谱带获取器51，第二谱带产生器52、调节谱带产生器53以及输出器54。

声音信号处理器10、EMG信号处理器13、图像信息处理器16、语音识别器20与第一个实施例中的语音识别系统具有相同的功能。

第一谱带获取器51被配置用来获取声音信号的谱带并将其作为第一个谱带，其中声音信号由声音信号获取单元11来获取。获取的第一个谱带中含有噪音(参考图10C)。

第二谱带产生器52被配置用来根据语音识别器20识别的语音信号(结果)产生经过重新配置的声音信号的谱带并将其作为第二个谱带。如图10A所示，更具体地，第二谱带产生器52根据从语音识别器20识别的结果中摘取的发音音素，例如共振峰频率，来重新配置发音音素的谱带。

调节谱带产生器53被配置用来根据第一谱带和第二谱带来产生调节的谱带。如图10D所示，更具体地，调节谱带产生器53通过用第二谱带(参考图10A)与第一谱带(参考图10C)相乘，从而产生没有噪音的调节谱带。

输出器54被配置用来根据调节谱带输出合成的语音信号。输出器54包括通信装置，其被配置用来发送作为数据的合成的语音信号。如图10C所示，更具体地，输出器54通过对不含噪音的调节谱带进行傅立叶反向转变(参考图10D)，获得不含噪音的声音信号，并且将获得的声音信号作为合成的语音信号输出。

即是说，根据本实施例的语音合成系统通过将含有噪音的声音信号通过过滤器来获得不含噪音的声音信号，其中过滤器具有由重新配置的谱带所代表的频率特征，并且输出获得的声音信号。

根据本实施例的语音合成系统通过使用各种方法来识别语音，能够将说话者发出的声音信号与周围的噪音从对识别结果进行重新配置得到的信号和声音信号获取单元11所探测的信号中分离出来，从而当周围的噪音级别较大时可以输出清晰的合成语音。

因此，根据本实施例的语音合成系统能够在噪音较大或发出的声音信号较小时，输出合成的语音信号，该信号听起来就好像说话者在没有噪音的环境中所发出来的。

根据本实施例的语音合成系统采用了根据第一个实施例的语音识别系统，然而，本发明并不局限于该实施例。根据本实施例的语音合成系统能够根据除声音信号参数以外的参数来识别语音。

参考图11，下面将对根据本实施例的语音合成系统的操作进行描述。

如图11所示，在步骤S201到S208中，进行与第一个实施例中的识别过程相同的识别过程。

在步骤S209中，第一谱带获取器51通过声音信号获取单元11来获得声音信号的谱带并将其作为第一谱带。第二谱带产生器52根据语音识别器20识别的结果来产生经过重新配置的声音信号的谱带并将其作为第二谱带。调节谱带产生器53根据第一谱带和第二谱带来产生调节后的谱带，在该谱带中噪音(不是说话者所发出的声音信号)已从声音信号获取单元11所获得的声音信号中消除。

在步骤S201中，输出器54根据调节谱带输出清晰的合成语音信号。

(根据本发明的第三个实施例的系统)

参考图12，下面将对整合语音识别系统和语音合成系统的系统进行描述。

如图12所示，根据本实施例的系统配置有通信装置30以及与之相分离的手表型终端31。

通讯终端30被配置用来添加声音信号处理器10、EMG信号处理器13、语音识别器20以及语音合成器55到常规的移动终端中。

EMG信号获取单元14包括多个安装的能够与说话者32的皮肤接触的皮肤表面电极114，其被配置用来获得说话者(声音源)32的嘴周围面上的潜在改变以作为EMG信号。声音信号获取单元11包括麦克风111，其被配置用来从说话者(声音源)32处获取声音信号。麦克风111可被配置用来与通信装置30进行通信。例如，麦克风111被安装在通信装置30的表面。麦克风111可以为安装在说话者32嘴附近的无线麦克风。皮肤表面电极114可以被安装在通信装置30的表面。

通信终端30具有发送基于语音识别器20识别的结果而合成的语音信号作为由说话者32发出的声音信号的功能。

手表型的终端31配置有图像信息处理器16和识别结果处理器21。用于拍摄说话者(声音源)32的嘴运动图像的视频照相机117被安装在手表型的终端31上作为图像信息采集单元17。用于显示识别结果的显示设备121被安装在手表型的终端31上作为识别结果提供器21。手表型的终端31包括一个用于对其进行固定的带子33。

对语音识别系统和语音合成系统积分的系统通过安装在通信装置30上的EMG信号获取单元14和声音信号获取单元11获得EMG信号和声音信号，并且通过安装在手表型的终端31上的图像信息获取单元17来获得图像信息。

通信装置30通过有线通信或无线通信使用手表型的终端31对数据进行发送和接收。通信装置30和手表型的终端31收集并发送信号到构建在通信装置30中的语音识别器20上，语音识别器20根据所收集的信号来识别语音，安装在手表型的终端31中的识别结果提供器21对通过有线通信或无线通信从语音识别器20发送的识别结果进行显示。通信装置30可以发送不含噪音的清晰的合成语音信号到手表型的终端31中。

在本实施例中，语音识别器20被构建在通信装置30中，并且构建在手表型的终端31中的识别结果提供器21显示识别结果。但是，语音识别器20也可被安装在手表型的终端31中，或其他能与通信装置30通信的终端中，该手表型的终端31能够识别和合成语音。

识别结果可以从通信装置中输出作为语音信号，可以显示在手表型的终端31(或通信装置30)的监视器上，或者可以从另一个能够与通信装置30和手表型的终端31通信的终端输出。(根据本发明的第四个实施例的系统)

参考图13，下面将对用于对根据本实施例的语音识别系统和语音合成系统进行积分的系统进行描述。

如图13所示，根据本实施例的系统配置有固定装置41，该装置作为眼镜形式；作为图像信息获取单元17的视频照相机117，其可被调节以拍摄说话者(声音源)32的嘴的运动；定位装置42；作为识别结果提供器的头悬挂显示装置(HMD)121；以及内建于固定装置41中的语音识别器20。固定装置41可以悬挂在说话者52的头上。

作为EMG信号获取单元14的皮肤表面电极114被配置用来获取说话者32(声音源)的嘴周围面上的潜在改变；并且作为声音信号获取单元11且被配置用来从说话者32(声音源)的嘴中获取声音信号的麦克风111被可调节地固定在说话者32的嘴周围。

戴有与根据实施例的系统的说话者32能够识别和合成语音，由于使用戴的方式，可以将他/她的双手解放出来。

语音识别器20能够内建于固定设备装置41中或与固定设备装置41进行通信的外部终端中。识别结果可以显示在HMD(半透明显示设备)中，或作为语音信号从输出设备如扬声器设备中输出。输出设备如扬声器设备能够根据识别结果输出合成的语音信号。(根据本发明的第五个实施例的系统)

根据上述的实施例的语音识别系统、语音识别方法、语音合成系统或语音合成方法可以通过在普通用途的计算机(例如，个人计算机)215或包含在通信装置30中的IC芯片或相似的设备上执行用预先确定的程序语言描述的程序来获得。

此外，程序可以记录在存储媒介上，该媒介能够被普通用途的计算机215所读取。即，如图14所示，程序可以存储在软盘216、CD-ROM 217、RAM 218、盒式磁带219等设备上。通过使用将含有程序的存储媒介插入到计算机215或将程序安装到通信装置30的内存中等方法可以实现本发明的系统或方法。

与本发明相对应的语音识别系统、方法以及程序在对没有被噪音影响的较低音量的声音信号进行识别时可以保持高的成功率。

与本发明相对应的语音合成系统、方法以及程序能够使用识别的语音信号来合成语音信号，从而使得合成的语音信号更加自然和清晰，并且可以适当地表达说话者的感情等。

Claims

1.一种语音识别系统，其包括：

声音信号处理器，其被配置用来从对象获取声音信号，并且根据所获取的声音信号计算声音信号参数；

肌电图信号处理器，其被配置用来获取对象表面的潜在改变以作为肌电图信号，并且根据所获取的肌电图信号计算肌电图信号参数；图像信息处理器，其被配置用来通过取得对象的图像来获取图像信息，并且根据获取的图像信息来计算图像信息参数；

语音识别器，其被配置用来根据声音信号参数、肌电图信号参数以及图像信息参数识别由对象发出的语音信号；以及

识别结果提供器，其被配置用来提供语音识别器识别的结果。

2.根据权利要求1的语音识别系统，其中，语音识别器根据声音信号参数、肌电图信号参数以及图像信息参数中的每一个来识别语音信号，对比识别的每一个语音信号并且根据对比结果识别语音信号。

3.根据权利要求1得到的语音识别系统，其中，语音识别器同时使用声音信号参数、肌电图信号参数以及图像信息参数来识别语音信号。

4.根据权利要求1的语音识别系统，其中，语音识别器包括一个分层网络，其中含有输入单元和输出单元的多个非线性组件从上到下被分层定位；

上层的非线性组件的输出单元连接到邻近的非线性组件中的下层的非线性组件的输入单元；

加权值被指定给该连接或该连接的组合；

每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接，

声音信号参数、肌电图信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中；

识别的语音信号被作为输出数据从分层网络中的最下层的非线性组件中输出；

语音识别器根据输出的数据识别语音信号。

5.根据权利要求4所述的语音识别系统，其中，语音识别器包括学习功能，其被配置用来根据输入的从下层向上层传送的样品数据来改变指定给非线性组件的加权值。

6.根据权利要求1的语音识别系统，其中，

声音信号处理器包括麦克风，其被配置用来从声音源获取声音信号，并且麦克风被配置用来与通信装置进行通信；

肌电图信号处理器包括电极，其被配置用来获取声音源周围表面上的潜在改变，以作为肌电图信号，该电极被安装在通信装置的表面；

图像信息处理器包括照相机，其被配置用来通过拍摄声音源移动的图像来获取图像信息，该照相机被安装在与通信装置分离的终端上；并且

通信装置由该终端发送和接收数据。

7.根据权利要求6所述的语音识别系统，其中，

终端可包括一个装有照相机的主体，以及固定主体的带子；并且识别结果提供器为用于显示结果的显示器，该显示器被安装在主体的表面。

8.根据权利要求1所述的语音识别系统，其中

声音信号处理器包括麦克风，其被配置用来从声音源获取声音信号；

肌电图信号处理器包括电极，其被配置用来获取声音源周围表面上的潜在改变以作为肌电图信号；

图像信息处理器包括照相机，其被配置用来通过拍摄声音源移动的图像来获取图像信息；

定位设备用于固定与声音源接近的麦克风以及电极；

支撑设备可以支撑照相机以及定位设备。

9.根据权利要求6所述的语音识别系统，其中，识别结果提供器可以在半透明的显示设备中显示结果，识别结果提供器被安装在支撑设备中。

10.一种音合成系统包括：

配置用来识别语音信号的语音识别器；

配置用来获取声音信号的声音信号获取器；

配置用来取得获取的声音信号的谱带作为第一谱带的第一谱带获取器；

配置用来根据语音识别器识别的语音信号产生声音信号的二次配置谱带，并将其作为第二谱带的第二谱带产生器；

配置用来根据第一谱带和第二谱带产生调节后的谱带的调节谱带产生器；以及

配置用来根据调节后的谱带输出合成的语音信号的输出器。

11.根据权利要求10所述的语音合成系统，其中，输出器包括通信装置，其被配置用来传送合成的语音信号作为数据。

12.一种语音识别方法，包括以下步骤：

(A)从对象获取声音信号，并且根据获取的声音信号计算声音信号参数；

(B)获取对象的表面的潜在改变作为肌电图信号，并且根据获取的肌电图信号计算肌电图信号参数；

(C)取得对象的图像来获取图像信息，并且根据获取的图像信息来计算图像信息参数；

(D)根据声音信号参数、肌电图信号参数以及图像信息参数，识别对象发出的语音信号；以及

(E)提供由语音识别器识别的结果。

13.一种语音合成方法，包括以下步骤：

(A)识别语音信号；

(B)获取声音信号；

(C)取得获取的声音信号的谱带作为第一谱带；

(D)根据语音识别器识别的语音信号来产生声音信号的二次配置谱带，并将其作为第二谱带；

(E)根据第一谱带和第二谱带来产生调节后的谱带；以及

(F)根据调节后的谱带来输出合成的语音信号。

14.一种在计算机中用于识别语音信号的程序产品，其中，计算机执行以下步骤：

(E)提供语音识别器识别的结果。

15.种在计算机中用于合成语音信号的程序产品，其中，计算机执行以下步骤：

(A)识别语音信号；

(B)获取声音信号；

(B)取得获取的声音信号的谱带作为第一谱带；

(E)根据第一谱带和第二谱带来产生调节后的谱带；以及

(F)根据调节后的谱带来输出合成的语音信号。