CN1442845A - 语音识别系统及方法、语音合成系统及方法及程序产品 - Google Patents

语音识别系统及方法、语音合成系统及方法及程序产品 Download PDF

Info

Publication number
CN1442845A
CN1442845A CN03105163A CN03105163A CN1442845A CN 1442845 A CN1442845 A CN 1442845A CN 03105163 A CN03105163 A CN 03105163A CN 03105163 A CN03105163 A CN 03105163A CN 1442845 A CN1442845 A CN 1442845A
Authority
CN
China
Prior art keywords
voice signal
bands
spectrum
parameter
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN03105163A
Other languages
English (en)
Inventor
真锅宏幸
平岩明
杉村利明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN1442845A publication Critical patent/CN1442845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

本发明涉及用于识别语音信号的语音识别系统和方法,根据语音识别进行合成语音信号的语音合成系统和方法以及在其中使用的程序产品。本发明的语音识别系统包括被配置用来获取声音信号并且根据获取的声音信号计算声音信号参数的声音信号处理器;配置用来获取对象表面的潜在改变以作为肌电图信号,并且根据获取的肌电图信号计算肌电图信号参数的肌电图信号处理器;配置用来通过取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数的图像信息处理器;配置用来根据声音信号参数、肌电图信号参数以及图像信息参数,识别由对象发出的语音信号的语音识别器;以及配置用来提供语音识别器识别的结果的识别结果提供器。

Description

语音识别系统及方法、语音合成系统及方法及程序产品
技术领域
本发明涉及用于识别语音信号的语音识别系统和方法,根据语音识别进行合成语音信号的语音合成系统和方法以及在其中使用的程序产品。
背景技术
本申请是申请号为P2002-057818,申请日期为2002年3月4日提出的日本在先专利申请的优先权基础上提出的,该申请的全部内容在此被引入作为参考。
传统的语音探测装置采用语音识别技术通过对发声声音信号中的频率进行分析来对语音信号进行识别和处理。语音识别技术通过使用谱带包络或类似技术获取。
然而,对于传统的语音探测装置来讲,不可能在没有向常规语音探测装置中输入发声的声音信号的条件下来探测语音信号。此外,为了通过使用语音识别技术来获取好的语音探测结果,要求声音信号以一定的音量发出声音。
因此,传统的语音探测装置不能够在需要无声的条件下使用,这些情况例如,在办公室、在图书馆以及在公共机构等地方,当说话者可能会对周围的他/她带来不便时。传统的语音探测装置具有的问题就是在高噪音的条件下,会带来交叉说话的问题并且语音探测功能的性能会降低。
另一方面,已出现了对从除声音信号外的信息获取语音信号的技术的研究。从除声音信号外的信息获取语音信号的技术使得在没有发声的声音信号的条件下获取语音信号成为可能,因此可以解决上述的问题。
根据视频相机输入的图像信息进行图像处理的方法是一种根据嘴唇的视觉信息进行识别语音信号的方法。
此外,还进行了通过处理随着嘴周围(附近)的肌肉运动产生的肌电图(下面称之为EMG)信号来识别发出的元音类型的技术研究。该研究在”Noboru Sugie等’的A speech Employing a Speech SyntghesizerVowel Discrimination from Perioral Muscles Activities and VowelProduction,’IEEE tansactions on Biomedical Engineering,卷32,第7期,485-490页”中公开,其中公开了通过将EMG信号通过通带过滤器并统计通过的EMG信号穿过阈值的次数来区别五个元音字母“a,i,u,e,o”的技术。
众所周知,存在通过使用神经系统网络处理EMG信号来探测说话者的元音和辅音的方法。此外,使用不只是一个输入渠道而是多个输入渠道输入的信息的多模式接口被提出并已经获取。
在另一方面,传统的语音合成系统存储用于表征说话者的语音信号的数据,并且使用当说话者发声时的数据来合成语音信号。
然而,存在的一个问题是传统的语音探测方法使用从信息而不是从声音信号获取语音信号的技术,因此与使用从声音信号获取语音信号的语音探测方法相比,该技术在识别上具有低的成功率。特别是,很难从嘴内肌肉的运动来识别所发出的辅音。
此外,传统的语音合成系统存在的一个问题在于语音信号是根据表征说话者的语音信号的数据合成的,因此合成的语音信号听起来很生硬,表达不自然,并且不可能确切地表达说话者的感情。
发明内容
终上所述,本发明的一个目的是提供一种语音识别系统和方法,其在没有噪音影响的条件下,识别较低音量的声音信号时具有高的识别率。本发明的另一个目的是提供一种语音合成系统和方法,其使用识别的语音信号来合成语音信号,从而使得合成的语音信号更自然和清晰,并且能够确切地表达说话者的感情。
本发明的第一个方面可归纳为一种语音识别系统,其包括声音信号处理器、肌电图(EMG)信号处理器、图像信息处理器、语音识别器以及识别结果提供器。
声音信号处理器被配置用来从一个对象获取声音信号,并且根据获取的声音信号计算声音信号参数。EMG信号处理器被配置用来获取对象表面的潜在改变以作为EMG信号,并且根据获取的EMG信号计算EMG信号参数。图像信息处理器被配置用来通过取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数。语音识别器被配置用来根据声音信号参数、EMG信号参数以及图像信息参数,识别由对象发出的语音信号。识别结果提供器被配置用来提供语音识别器识别的结果。
在本发明的第一个方面,语音识别器可以根据声音信号参数、EMG信号参数以及图像信息参数中的每一个来识别语音信号,对比识别的每一个语音信号以及根据对比结果识别语音信号。
在本发明的第一个方面,语音识别器可以同时使用声音信号参数、EMG信号参数以及图像信息参数来识别语音信号。
在本发明的第一个方面,语音识别器可以包括一个分层网络,在该网络中含有输入单元和输出单元的多个非线性组件被从上到下分层定位。上层的非线性组件的输出单元连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定给该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者连接的组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。声音信号参数、EMG信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中。识别的语音信号被作为输出数据从分层网络中的最下层的非线性组件中输出。语音识别器根据输出的数据识别语音信号。
在本发明的第一个方面,语音识别器可以包括学习功能,其被配置用来根据输入的从下层向上层传送的样品数据来改变指定给非线性组件的加权值。
在本发明的第一个方面,声音信号处理器可以包括麦克风,其被配置用来从声音源获取声音信号。麦克风被配置用来与通信装置进行通信。EMG信号处理器可以包括电极,其被配置用来获取声音源周围面上的潜在改变,以作为EMG信号。该电极被安装在通信装置的表面。图像信息处理器可以包括照相机,其被配置用来通过拍摄声音源移动的图像来获取图像信息。该照相机被安装在与通信装置分离的终端上。通信装置使用该终端发送和接收数据。
在本发明的第一个方面,终端可包括一个装有照相机的主体,以及固定主体的带子。识别结果提供器可以为用于显示结果的显示器,该显示器被安装在主体的表面。
在本发明的第一个方面,系统可以包括一个定位设备以及支撑设备。声音信号处理器可以包括麦克风,其被配置用来从声音源获取声音信号。EMG信号处理器可以包括电极,其被配置用来获取声音源周围面上的潜在改变以作为EMG信号。图像信息处理器可以包括照相机,其被配置用来通过拍摄声音源移动的图像来获取图像信息。定位设备可以固定与声音源接近的麦克风以及电极。支撑设备可以支撑照相机以及定位设备。
在本发明的第一个方面,识别结果提供器可以在半透明的显示设备中显示结果。识别结果提供器被安装在支撑设备中。
本发明的第二个方面可归纳为一种语音合成系统,其包括语音识别器、声音信号获取器、第一谱带获取器、第二谱带产生器、调节谱带产生器以及输出器。
语音识别器被配置用来识别语音信号。声音信号获取器被配置用来获取声音信号。第一谱带获取器被配置用来取得获取的声音信号的谱带来作为第一谱带。第二谱带产生器被配置用来根据语音识别器识别的语音信号来产生声音信号的二次配置谱带,并将其作为第二谱带。调节谱带产生器被配置用来根据第一谱带和第二谱带来产生调节后的谱带。输出器被配置用来根据调节后的谱带来输出合成的语音信号。
在本发明的第二个方面,输出器可以包括通信装置,其被配置用来发送作为数据的合成的语音信号。
本发明的第三个方面可归纳为一种语音识别方法,包括以下步骤:(A)从对象获取声音信号,并且根据获取的声音信号计算声音信号参数;(B)获取对象的表面的潜在改变作为EMG信号,并且根据获取的EMG信号计算EMG信号参数;(C)取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数;(D)根据声音信号参数、EMG信号参数以及图像信息参数,识别对象发出的语音信号;以及(E)提供语音识别器识别的结果。
在本发明的第三个方面中,步骤(D)可以包括以下步骤:(D1)根据声音信号参数、EMG信号参数以及图像信息参数中的每一个来识别语音信号;(D2)对比每个识别的语音信号;以及(D3)根据对比结果识别语音信号。
在本发明的第三个方面中,语音信号可以通过在步骤(D)中同时使用声音信号参数、EMG信号参数以及图像信息参数来识别。
在本发明的第三个方面,含有输入单元和输出单元的多个非线性组件在分层的网络中处于从上到下被分层的位置。上层的非线性组件的输出单元被连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定到该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。步骤(D)包括以下步骤:(D11)将声音信号参数、EMG信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中;(D12)将识别的语音信号作为输出数据由分层网络中的最下层的非线性组件中输出;并且(D13)根据输出的数据来识别语音信号。
在本发明的第三个方面中,所述方法可以包括根据输入从下层向上层传送的样品数据来改变指定给非线性组件的加权值的步骤。
本发明的第四个方面可归纳为一种语音合成方法,包括以下步骤:(A)识别语音信号;(B)获取声音信号;(C)取得获取的声音信号的谱带作为第一谱带;(D)根据语音识别器识别的语音信号来产生声音信号的二次配置谱带,并将其作为第二谱带;(E)根据第一谱带和第二谱带来产生调节后的谱带;以及(F)根据调节后的谱带来输出合成的语音信号。
在本发明的第四个方面中,步骤(F)可以包括发送作为数据的合成的语音信号的步骤。
本发明的第五个方面可归纳为在计算机中用于识别语音信号的程序产品。计算机执行以下步骤:(A)从对象获取声音信号,并且根据获取的声音信号计算声音信号参数;(B)获取对象的表面的潜在改变作为EMG信号,并且根据获取的EMG信号计算EMG信号参数;(C)取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数;(D)根据声音信号参数、EMG信号参数以及图像信息参数,识别对象发出的语音信号;以及(E)提供语音识别器识别的结果。
在本发明的第五个方面中,步骤(D)可以包括以下步骤:(D1)根据声音信号参数、EMG信号参数以及图像信息参数中的每一个识别语音信号;(D2)对比每个识别的语音信号;以及(D3)根据对比结果识别语音信号。
在本发明的第五个方面的步骤(D)中,语音信号可以同时使用声音信号参数、EMG信号参数以及图像信息参数来识别。
在本发明的第五个方面,含有输入单元和输出单元的多个非线性组件在分层的网络中从上到下被分层的位置。上层的非线性组件的输出单元连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定到该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。步骤(D)包括以下步骤:(D11)将声音信号参数、EMG信号参数以及图像信息参数作为输入数据输入到分层网络中的最上层的非线性组件中;(D12)从分层网络中的最下层的非线性组件的输出单元输出识别的语音信号作为输出数据;并且(D13)根据输出的数据来识别语音信号。
在本发明的第五个方面,计算机可以进行根据输入的从下向上传送的样品数据来改变指定给非线性组件的加权值的步骤。
本发明的第六个方面可归纳为用于在计算机中合成语音信号的程序产品。计算机执行以下的步骤:(A)识别语音信号;(B)获取声音信号;(C)取得获取的声音信号的谱带作为第一谱带;(D)根据语音识别器识别的语音信号来产生声音信号的二次配置谱带,并将其作为第二谱带;(E)根据第一谱带和第二谱带来产生调节后的谱带;以及(F)根据调节后的谱带来输出合成的语音信号。
在本发明的第六个方面中,步骤(F)可以包括发送作为数据的合成的语音信号的步骤。
附图说明
图1为根据本发明的实施例的语音识别系统的功能单元图。
图2A到2D为根据本发明的实施例在语音识别系统中摘取声音信号以及EMG信号的过程例子。
图3A到3D为根据本发明的实施例的在语音识别系统中摘取图像信息的过程的例子。
图4为根据本发明的实施例的在语音识别系统中的语音识别器的功能单元图。
图5为根据本发明的实施例的在语音识别系统中的语音识别器的功能单元图。
图6为在根据本发明的实施例的在语音识别系统中为解释语音识别器的详图。
图7为根据本发明的实施例的在语音识别系统中的描述语音识别过程操作的流程图。
图8为根据本发明的实施例的在语音识别系统中的描述学习过程操作的流程图。
图9为根据本发明的实施例的语音合成系统的功能单元图。
图10A到10D为在根据本发明的实施例的在语音识别系统中的除去噪音操作的解释图。
图11为根据本发明的实施例的在语音系统中描述语音合成过程操作的流程图。
图12为根据本发明的实施例的对语音识别系统和语音合成系统一体化系统的完整的配置。
图13为根据本发明的实施例的对语音识别系统和语音合成系统一体化的系统的完整配置。
图14表示记录了根据本发明的实施例程序的计算机可读记录媒体。
具体实施方式(根据本发明的第一实施例的语音识别系统的配置)
以下将详细描述根据本发明的第一实施例的语音识别系统的配置。图1描述了根据本实施例的语音识别系统的功能单元图。
如图1所示,语音识别系统配置有声音信号处理器10、EMG信号处理器13、图像信息处理器16、信息积分器/识别器19、语音识别器20和识别结果提供器21。
声音信号处理器10被配置用于处理由说话人发出的声音信号。声音信号处理器10配置有声音信号获取单元11和声音信号处理单元12。
声音信号获取单元11是一种用于从说话人(目标)口中获取声音信号的装置,例如麦克风。声音信号获取单元11探测说话人发出的声音信号,并且将获取的声音信号传送到声音信号处理单元12。
声音信号处理单元12被配置用于从声音信号获取单元11中获取的声音信号中通过分离谱带包络或微细结构来获取声音信号参数。
声音信号处理单元12是一种用于计算声音信号参数的装置,该声音信号参数可以在语音识别器20中根据由声音信号获取单元11获取的声音信号而被处理。声音信号处理单元12每隔一时间—窗口设置时切断声音信号,并且通过常用于语音识别时的分析计算声音信号参数,例如对切断的声音信号进行短时间谱带分析,对数倒频谱分析,最大可能性谱估计方法,协方差方法,PARCOR分析和LSP分析。
EMG信号处理器13被配置用于探测和处理当发出声音信号时说话人嘴附近肌肉的运动。EMG信号处理器13配置有EMG信号获取单元14和EMG信号处理单元15。
EMG信号获取单元14被配置用于获取(摘取)当发出声音信号时说话人嘴附近肌肉的运动。EMG信号获取单元14探测说话人(目标)嘴附近皮肤表面的可能的变化。也就是说,为了识别嘴附近伴随着发出声音信号的多块肌肉的运动,EMG信号获取单元14通过位于与多块肌肉相关的皮肤表面上的多个电极来探测多个EMG信号,并且放大EMG信号传输到EMG信号处理单元15。
EMG信号处理单元15被配置用于通过计算由EMG获取单元14获取的EMG信号的功率和分析EMG信号的频率来摘取EMG信号参数。EMG信号处理单元15是一种根据多个由EMG信号获取单元14传输的EMG信号来计算EMG信号参数的装置。更具体的,EMG信号处理单元15在每隔一时间—窗口设置切断EMG信号,并且通过计算平均振荡特征,如RMS(均方根),ARV(平均矫正值)或IEMG(积分EMG)来计算EMG信号参数。
参考图2A到2D,将对声音信号获取单元12和EMG信号处理单元15进行详细描述。
由声音信号获取单元11或EMG信号获取单元14探测到的声音信号或EMG信号被声音信号处理器12或EMG信号处理器15在每时间—窗口时被切断(图2A中的S401)。然后,通过FFT由切割信号提取谱带(图2B中S402)。然后,对摘取的谱带进行1/3倍频程分析计算出每个频率的功率(图2C中S403)。计算出的与每个频率相关的功率被传输到语音识别器20作为语音信号参数或EMG信号参数(图2D中S404)。该语音信号参数或EMG信号参数被语音识别器20识别。
声音信号处理单元12或EMG信号处理单元15也可以通过使用不是在图2A到2D中的方法来摘取声音信号参数或EMG信号参数。
图像信息处理器16被配置用于探测当发出声音信号时说话人嘴附近的空间变化。图像信息处理器16配置有图像信息获取单元17和图像信息处理单元18。
图像信息获取单元17被配置用于通过获取当发出声音信号时说话人嘴附近的空间变化的图像来获取图像信息。图像信息获取单元17配置有获取当发出声音信号时说话人嘴附近的空间变化图像的照相机,如视频相机。图像信息获取单元17探测嘴附近的运动作为图像信息,并且传送该图像信息到图像信息处理单元18。
图像信息处理单元18被配置用于根据图像信息获取单元17获取的图像信息来计算说话人嘴周围的运动参数(图像信息参数)。更具体的,图像信息处理单元18用光流摘取嘴周围的运动特征计算图像信息。
参考图3A到3D,下面将对图像信息处理单元18进行详细描述。
在说话人嘴附近的特征位置根据时间t0时的图像信息进行摘取。(如图3A中的S501)。有可能通过获取标记处的位置作为特征位置,或在拍摄的图像信息中查找特征位置来摘取嘴周围的特征位置。图象信息处理单元18能够从图像信息中摘取特征位置并将其作为二维空间位置。图象信息处理单元18通过使用多个照相机来获取特征位置并将其作为三维空间位置。
相似地,在经过从t0到t1这段时间后,在时间t1时摘取嘴周围的特征位置(如图3B中的S502)。然后,图像信息处理单元18通过计算在时间t0时的特征点和在时间t1时的特征点之间的差别,计算得到每个特征点的运动(如图3C中的S503)。图像信息处理单元18根据计算得到的差值产生图像信息参数(如图3D中的S504)。
对于图像信息处理单元18来说,可以使用除在图3A到3D中的方法以外的其他方法来获取图像信息参数。
图像信息积分器/识别器19被配置用来对从声音信号处理器10、EMG信号处理器13以及图像信息处理器16获取的各种信息进行积分和识别。图像信息积分器/识别器19配有语音识别器20和识别结果提供器21。
语音识别器20通过将声音信号处理器10发送的声音信号参数、EMG信号处理器13发送的EMG信号参数以及图像信息处理器16发送的图像信息参数进行对比和积分,从而进行语音识别的处理器。
语音识别器20当周围的噪音级别较小时、当发出的声音信号的音量较大时或当能够根据声音信号参数以足够的级别进行语音识别时,语音识别器20能够仅根据声音信号参数来识别语音。
在另一方面,当周围的噪音级别较大时、当发出的声音信号的音量较小时或当不能够根据声音信号参数以足够的级别进行语音识别时,语音识别器20不仅能够根据声音信号参数,还能够根据EMG信号参数以及图像信息参数来识别语音。
此外,语音识别器20能够仅仅根据声音信号参数来识别特殊的音素等,而这种特殊的音素不能够通过使用EMG信号参数以及图像信息参数来正确识别,从而可以提高识别的成功率。
参考图4,下面将对语音识别器20的例子进行具体描述。在图4所示的例子中,语音识别器20根据声音信号参数、EMG信号参数以及图像信息参数中的每一个来识别语音信号,并将每一个识别的语音信号进行对比,并且根据对比的结果来识别语音信号。
如图4所示,更加具体地,语音识别器20分别仅根据声音信号参数、EMG信号参数或图像信息参数来分别识别语音。然后语音识别器20根据各个参数对识别的结果进行积分,从而进行语音识别。
当根据各个参数得到的(所有识别结果中的)多个识别结果相互吻合时,语音识别器20将这个结果作为最终的识别结果。在另一方面,当根据各个参数得到的(所有识别结果中)没有识别结果相互吻合时,识别器20将在识别上具有最高识别率的识别结果作为最终的结果。
例如,在前面就已经知道的在识别特殊的音素或特殊的说话方式时,根据EMG参数进行的语音识别具有较低的成功率,然而,假设特殊的音素或特殊的说话方式被发出,则根据通过非EMG信号的参数进行语音识别时,语音识别器20忽略根据EMG信号参数得到的识别结果,从而可以提高识别成功率。
在基于声音信号参数的语音识别时,当确定周围的噪音级别较大时或发出的声音信号的音量较小时,语音识别器20减小基于声音信号参数得到的识别结果对最终结果的影响,并且通过将重点放在基于EMG信号参数以及图像信息参数得到的识别结果上来进行语音识别。根据各个参数进行的语音识别可以采用常规的语音识别方法。
基于语音识别器20中的声音信号的语音识别可以采用传统的使用各种声音信号的语音识别方法。基于EMG信号进行的语音识别可以采用在技术文献“Noboru Sugie et al.,‘A speech Employing a Speech SynthesizerVowel Discriminatgion from Perioral Muscles Activities and VowelProduction’IEEE transactions on Biomedial Enginnering,32卷,第7期,485-490页”中公开的方法或在JP-A-181888等中公开的方法。基于图像信息进行的语音识别可以采用在JP-A-2001-51963或JP-A-2000-206986等中公开的方法。
如图4中所示的语音识别器20,当声音信号参数、EMG信号参数以及图像信息参数中的任何参数对于语音识别都没有意义时,例如当周围的噪音级别较大时、当发出的声音信号的音量较小时或当没有探测到EMG信号时,语音识别器20可以根据有意义的参数来识别语音,从而可在整个语音识别系统中充分地提高对噪音的抗扰性。
参考图5,下面将对语音识别器20的另外一个例子进行具体描述。在图5所示的例子中,语音识别器20同时根据声音信号参数、EMG信号参数以及图像信息参数中来识别语音信号。
更加具体的,语音识别器20包括一个分层网络(例如,神经系统网络20a),其中多个包含输入单元和输出单元的非线性组件从上到下被分层地进行定位。
在神经系统网络20a中,上层的非线性组件的输出单元被连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定到该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。
声音信号参数、EMG信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中。识别的语音信号(元音和辅音)被作为输出数据输出到分层语音识别器中的最下层的非线性组件中。语音识别器20根据由最下层的非线性组件的输出单元输出的数据来识别语音信号。
通过参考“Nishikawa and Kitamura,’Neural network and control ofmeasure’,Asakura Syoten,18-50页”可知,神经系统网络能够采用全连接型的三层神经系统网络。
语音识别器20包括学习功能,其被配置用来根据输入的从下向上传送的样品数据来改变指定给非线性组件的加权。
即是说,有必要通过例如反向传播的方法,事先学习神经系统网络20a中的加权。
为了学习加权,语音识别器20获取根据发出特殊的方式的操作所产生的声音信号参数、EMG信号参数以及图像信息参数,并且通过使用作为学习信号的特殊的方式来学习加权。
当说话者发音时,EMG信号比声音信号和图像信息先输入到语音识别系统中,语音识别器20通过向神经网络20a仅延迟EMG信号参数的输入,而不延迟声音信号参数以及图像信息参数的输入,从而使得语音识别器20具有同步声音信号、EMG信号以及图像信息的功能。
接收作为输入数据的各种参数的神经系统网络20a输出与输入参数相关的音素。
神经系统网络20a采用递归神经系统网络(RNN),其将下一个处理得到的识别结果返回作为输入数据。根据本实施例,语音识别算法除采用神经系统网络外,还可采用各种语音识别算法,例如Hidden MarkovModel(HMM)。
如图6所示,被EMG信号获取单元14探测到的多个EMG信号1,2在EMG处理单元15(S601)中被放大并且每隔时间—窗口被切断。通过对切断的EMG信号进行FFT进行谱带的计算。在输入神经系统网络20之前,对计算得到的谱带(S602)进行1/3倍频程分析,进行EMG信号参数的计算。
声音信号获取单元11探测到的声音信号被放大并且在声音信号处理单元12(S611)中每隔时间—窗口进行切断。通过对切断的声音信号进行FFT进行谱带的计算。在输入神经系统网络20之前,对计算得到的谱带(S612)进行1/3倍频程分析,进行声音信号参数的计算。
图像信息处理单元18根据图像信息获取单元17(S621)获取的图像信息来获取说话人嘴周围的特征位置的运动作为光流。作为光流摘取的图像信息参数被输入到神经系统网络20a中。
在一连串的时间内拍摄的图像信息中可以摘取嘴周围的各自的特征位置,从而摘取特征位置的运动。也可以将标志放在嘴周围的特征点,并放置参考点,根据探测相对于参考点的特征点的位移,从而摘取特征点的运动。
被输入各种参数的神经系统网络20a输出与输入参数相关的音素。
此外,当语音通过如图4中的语音识别方法不能够根据任何参数进行识别时,依照本实施例的语音识别器20可以被配置用来使用如图5中的语音识别方法进行语音识别。通过将图4中的语音识别方法识别的结果与图5中的语音识别方法识别的结果进行对比或将它们进行积分,语音识别器20可以被配置用来对语音进行识别。
识别结果提供器21是一种提供(输出)语音识别器20识别结果的设备。识别结果提供器21能够采用语音产生器将语音识别器20识别结果作为语音信号输出到说话人或作为文本信息输出到显示结果的显示器中。识别结果提供器21可以包括一个通讯接口,其除了提供结果给说话人外,还传送结果到应用程序中作为数据,该应用程序运行于如个人电脑这样的终端中。
(根据实施例的语音识别系统的操作)
根据实施例的语音识别系统的操作将参考图7和图8描述如下。首先,参考图7,根据实施例的语音识别系统中进行语音识别的操作。
在步骤S101中,说话者开始发声。在步骤S102到S104中,声音信号获取单元11、EMG信号获取单元14以及图像信息获取单元17分别探测当说话者发声时所产生的声音信号、EMG信号以及图像信息。
在步骤S105到S107中,声音信号处理单元12、EMG信号处理单元15以及图像信息处理单元18根据声音信号、EMG信号以及图像信息分别计算声音信号参数、EMG信号参数和图像信息参数。
在步骤S108中,语音识别器20根据计算的参数来识别语音。在步骤109中,识别结果提供器21提供由语音识别器20识别得到的结果。识别结果提供器21能够将识别的结果作为语音信号输出或显示识别结果。
其次,参考图8,为根据本实施例的在语音识别系统中的学习过程的操作。
对于提高识别成功率来说,学习每个说话者的发音特征是很重要的。在实施例中,下面将对使用图5中的神经系统网络20a进行学习过程的操作进行描述。在不使用神经系统网络20a的语音识别方法的情况下,根据本发明的语音识别系统采用了与语音识别方法相关的学习功能。
如图8所示,在步骤S301和S302中,说话者开始发声。在步骤S305中,说话者用键盘等输入所说的内容,即是说,当发音时输入学习信号(样品数据)。在步骤S303中,声音信号获取单元11、EMG信号获取单元14以及图像信息获取单元17分别探测声音信号、EMG信号以及图像信息。在步骤S304中,声音信号处理单元12、EMG信号处理单元15以及图像信息处理单元18分别摘取声音信号参数、EMG信号参数和图像信息参数。
在步骤S306中,神经系统网络20a根据键盘输入的学习信号学习摘取得到的参数。即是说,神经系统网络20a通过输入从下到上传送的学习信号(样品数据)来改变指定给非线性组件的加权。
在步骤S307中,当识别的错误率低于阈值时,神经系统网络20a确定学习过程已经结束。然后操作结束(S308)。
在另一方面,在步骤S307中,当神经系统网络20a确定学习过程没有完成时,则将重复步骤S302到S306的操作。(根据实施例的语音识别系统的功能及其作用)
本实施例的语音识别系统可以根据从声音信号、EMG信号以及图像信息计算得到的多个参数来识别语音,从而可以充分地提高抗噪音干扰等能力。
即是说,本实施例的语音识别系统包含三种类型的输入接口(声音信号处理器10、EMG信号处理器13以及图像信息处理器16)用于提高抗噪音干扰的能力。当所有的输入接口都不可用时,语音识别系统能够使用可用的输入接口来识别语音,从而提高识别成功率。
因此,本发明能够提供一种语音识别系统,其在周围的噪音级别较大时或当发出的声音信号的音量较小时,能够以足够的级别来识别语音。(根据本发明的第二个实施例的语音合成系统)
参考图9到11,将对根据本发明的第二个实施例的语音合成系统进行描述。上面所描述的语音识别系统被用于根据本发明的语音合成系统。
如图9所示,根据本发明相的语音合成系统配置有声音信号处理器10、EMG信号处理器13、图像信息处理器16、语音识别器20以及语音合成器55。语音合成器55配置有第一谱带获取器51,第二谱带产生器52、调节谱带产生器53以及输出器54。
声音信号处理器10、EMG信号处理器13、图像信息处理器16、语音识别器20与第一个实施例中的语音识别系统具有相同的功能。
第一谱带获取器51被配置用来获取声音信号的谱带并将其作为第一个谱带,其中声音信号由声音信号获取单元11来获取。获取的第一个谱带中含有噪音(参考图10C)。
第二谱带产生器52被配置用来根据语音识别器20识别的语音信号(结果)产生经过重新配置的声音信号的谱带并将其作为第二个谱带。如图10A所示,更具体地,第二谱带产生器52根据从语音识别器20识别的结果中摘取的发音音素,例如共振峰频率,来重新配置发音音素的谱带。
调节谱带产生器53被配置用来根据第一谱带和第二谱带来产生调节的谱带。如图10D所示,更具体地,调节谱带产生器53通过用第二谱带(参考图10A)与第一谱带(参考图10C)相乘,从而产生没有噪音的调节谱带。
输出器54被配置用来根据调节谱带输出合成的语音信号。输出器54包括通信装置,其被配置用来发送作为数据的合成的语音信号。如图10C所示,更具体地,输出器54通过对不含噪音的调节谱带进行傅立叶反向转变(参考图10D),获得不含噪音的声音信号,并且将获得的声音信号作为合成的语音信号输出。
即是说,根据本实施例的语音合成系统通过将含有噪音的声音信号通过过滤器来获得不含噪音的声音信号,其中过滤器具有由重新配置的谱带所代表的频率特征,并且输出获得的声音信号。
根据本实施例的语音合成系统通过使用各种方法来识别语音,能够将说话者发出的声音信号与周围的噪音从对识别结果进行重新配置得到的信号和声音信号获取单元11所探测的信号中分离出来,从而当周围的噪音级别较大时可以输出清晰的合成语音。
因此,根据本实施例的语音合成系统能够在噪音较大或发出的声音信号较小时,输出合成的语音信号,该信号听起来就好像说话者在没有噪音的环境中所发出来的。
根据本实施例的语音合成系统采用了根据第一个实施例的语音识别系统,然而,本发明并不局限于该实施例。根据本实施例的语音合成系统能够根据除声音信号参数以外的参数来识别语音。
参考图11,下面将对根据本实施例的语音合成系统的操作进行描述。
如图11所示,在步骤S201到S208中,进行与第一个实施例中的识别过程相同的识别过程。
在步骤S209中,第一谱带获取器51通过声音信号获取单元11来获得声音信号的谱带并将其作为第一谱带。第二谱带产生器52根据语音识别器20识别的结果来产生经过重新配置的声音信号的谱带并将其作为第二谱带。调节谱带产生器53根据第一谱带和第二谱带来产生调节后的谱带,在该谱带中噪音(不是说话者所发出的声音信号)已从声音信号获取单元11所获得的声音信号中消除。
在步骤S201中,输出器54根据调节谱带输出清晰的合成语音信号。
(根据本发明的第三个实施例的系统)
参考图12,下面将对整合语音识别系统和语音合成系统的系统进行描述。
如图12所示,根据本实施例的系统配置有通信装置30以及与之相分离的手表型终端31。
通讯终端30被配置用来添加声音信号处理器10、EMG信号处理器13、语音识别器20以及语音合成器55到常规的移动终端中。
EMG信号获取单元14包括多个安装的能够与说话者32的皮肤接触的皮肤表面电极114,其被配置用来获得说话者(声音源)32的嘴周围面上的潜在改变以作为EMG信号。声音信号获取单元11包括麦克风111,其被配置用来从说话者(声音源)32处获取声音信号。麦克风111可被配置用来与通信装置30进行通信。例如,麦克风111被安装在通信装置30的表面。麦克风111可以为安装在说话者32嘴附近的无线麦克风。皮肤表面电极114可以被安装在通信装置30的表面。
通信终端30具有发送基于语音识别器20识别的结果而合成的语音信号作为由说话者32发出的声音信号的功能。
手表型的终端31配置有图像信息处理器16和识别结果处理器21。用于拍摄说话者(声音源)32的嘴运动图像的视频照相机117被安装在手表型的终端31上作为图像信息采集单元17。用于显示识别结果的显示设备121被安装在手表型的终端31上作为识别结果提供器21。手表型的终端31包括一个用于对其进行固定的带子33。
对语音识别系统和语音合成系统积分的系统通过安装在通信装置30上的EMG信号获取单元14和声音信号获取单元11获得EMG信号和声音信号,并且通过安装在手表型的终端31上的图像信息获取单元17来获得图像信息。
通信装置30通过有线通信或无线通信使用手表型的终端31对数据进行发送和接收。通信装置30和手表型的终端31收集并发送信号到构建在通信装置30中的语音识别器20上,语音识别器20根据所收集的信号来识别语音,安装在手表型的终端31中的识别结果提供器21对通过有线通信或无线通信从语音识别器20发送的识别结果进行显示。通信装置30可以发送不含噪音的清晰的合成语音信号到手表型的终端31中。
在本实施例中,语音识别器20被构建在通信装置30中,并且构建在手表型的终端31中的识别结果提供器21显示识别结果。但是,语音识别器20也可被安装在手表型的终端31中,或其他能与通信装置30通信的终端中,该手表型的终端31能够识别和合成语音。
识别结果可以从通信装置中输出作为语音信号,可以显示在手表型的终端31(或通信装置30)的监视器上,或者可以从另一个能够与通信装置30和手表型的终端31通信的终端输出。(根据本发明的第四个实施例的系统)
参考图13,下面将对用于对根据本实施例的语音识别系统和语音合成系统进行积分的系统进行描述。
如图13所示,根据本实施例的系统配置有固定装置41,该装置作为眼镜形式;作为图像信息获取单元17的视频照相机117,其可被调节以拍摄说话者(声音源)32的嘴的运动;定位装置42;作为识别结果提供器的头悬挂显示装置(HMD)121;以及内建于固定装置41中的语音识别器20。固定装置41可以悬挂在说话者52的头上。
作为EMG信号获取单元14的皮肤表面电极114被配置用来获取说话者32(声音源)的嘴周围面上的潜在改变;并且作为声音信号获取单元11且被配置用来从说话者32(声音源)的嘴中获取声音信号的麦克风111被可调节地固定在说话者32的嘴周围。
戴有与根据实施例的系统的说话者32能够识别和合成语音,由于使用戴的方式,可以将他/她的双手解放出来。
语音识别器20能够内建于固定设备装置41中或与固定设备装置41进行通信的外部终端中。识别结果可以显示在HMD(半透明显示设备)中,或作为语音信号从输出设备如扬声器设备中输出。输出设备如扬声器设备能够根据识别结果输出合成的语音信号。(根据本发明的第五个实施例的系统)
根据上述的实施例的语音识别系统、语音识别方法、语音合成系统或语音合成方法可以通过在普通用途的计算机(例如,个人计算机)215或包含在通信装置30中的IC芯片或相似的设备上执行用预先确定的程序语言描述的程序来获得。
此外,程序可以记录在存储媒介上,该媒介能够被普通用途的计算机215所读取。即,如图14所示,程序可以存储在软盘216、CD-ROM 217、RAM 218、盒式磁带219等设备上。通过使用将含有程序的存储媒介插入到计算机215或将程序安装到通信装置30的内存中等方法可以实现本发明的系统或方法。
与本发明相对应的语音识别系统、方法以及程序在对没有被噪音影响的较低音量的声音信号进行识别时可以保持高的成功率。
与本发明相对应的语音合成系统、方法以及程序能够使用识别的语音信号来合成语音信号,从而使得合成的语音信号更加自然和清晰,并且可以适当地表达说话者的感情等。

Claims (15)

1.一种语音识别系统,其包括:
声音信号处理器,其被配置用来从对象获取声音信号,并且根据所获取的声音信号计算声音信号参数;
肌电图信号处理器,其被配置用来获取对象表面的潜在改变以作为肌电图信号,并且根据所获取的肌电图信号计算肌电图信号参数;图像信息处理器,其被配置用来通过取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数;
语音识别器,其被配置用来根据声音信号参数、肌电图信号参数以及图像信息参数识别由对象发出的语音信号;以及
识别结果提供器,其被配置用来提供语音识别器识别的结果。
2.根据权利要求1的语音识别系统,其中,语音识别器根据声音信号参数、肌电图信号参数以及图像信息参数中的每一个来识别语音信号,对比识别的每一个语音信号并且根据对比结果识别语音信号。
3.根据权利要求1得到的语音识别系统,其中,语音识别器同时使用声音信号参数、肌电图信号参数以及图像信息参数来识别语音信号。
4.根据权利要求1的语音识别系统,其中,语音识别器包括一个分层网络,其中含有输入单元和输出单元的多个非线性组件从上到下被分层定位;
上层的非线性组件的输出单元连接到邻近的非线性组件中的下层的非线性组件的输入单元;
加权值被指定给该连接或该连接的组合;
每一个非线性组件根据输入到输入单元的数据以及指定给连接或者组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接,
声音信号参数、肌电图信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中;
识别的语音信号被作为输出数据从分层网络中的最下层的非线性组件中输出;
语音识别器根据输出的数据识别语音信号。
5.根据权利要求4所述的语音识别系统,其中,语音识别器包括学习功能,其被配置用来根据输入的从下层向上层传送的样品数据来改变指定给非线性组件的加权值。
6.根据权利要求1的语音识别系统,其中,
声音信号处理器包括麦克风,其被配置用来从声音源获取声音信号,并且麦克风被配置用来与通信装置进行通信;
肌电图信号处理器包括电极,其被配置用来获取声音源周围表面上的潜在改变,以作为肌电图信号,该电极被安装在通信装置的表面;
图像信息处理器包括照相机,其被配置用来通过拍摄声音源移动的图像来获取图像信息,该照相机被安装在与通信装置分离的终端上;并且
通信装置由该终端发送和接收数据。
7.根据权利要求6所述的语音识别系统,其中,
终端可包括一个装有照相机的主体,以及固定主体的带子;并且识别结果提供器为用于显示结果的显示器,该显示器被安装在主体的表面。
8.根据权利要求1所述的语音识别系统,其中
声音信号处理器包括麦克风,其被配置用来从声音源获取声音信号;
肌电图信号处理器包括电极,其被配置用来获取声音源周围表面上的潜在改变以作为肌电图信号;
图像信息处理器包括照相机,其被配置用来通过拍摄声音源移动的图像来获取图像信息;
定位设备用于固定与声音源接近的麦克风以及电极;
支撑设备可以支撑照相机以及定位设备。
9.根据权利要求6所述的语音识别系统,其中,识别结果提供器可以在半透明的显示设备中显示结果,识别结果提供器被安装在支撑设备中。
10.一种音合成系统包括:
配置用来识别语音信号的语音识别器;
配置用来获取声音信号的声音信号获取器;
配置用来取得获取的声音信号的谱带作为第一谱带的第一谱带获取器;
配置用来根据语音识别器识别的语音信号产生声音信号的二次配置谱带,并将其作为第二谱带的第二谱带产生器;
配置用来根据第一谱带和第二谱带产生调节后的谱带的调节谱带产生器;以及
配置用来根据调节后的谱带输出合成的语音信号的输出器。
11.根据权利要求10所述的语音合成系统,其中,输出器包括通信装置,其被配置用来传送合成的语音信号作为数据。
12.一种语音识别方法,包括以下步骤:
(A)从对象获取声音信号,并且根据获取的声音信号计算声音信号参数;
(B)获取对象的表面的潜在改变作为肌电图信号,并且根据获取的肌电图信号计算肌电图信号参数;
(C)取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数;
(D)根据声音信号参数、肌电图信号参数以及图像信息参数,识别对象发出的语音信号;以及
(E)提供由语音识别器识别的结果。
13.一种语音合成方法,包括以下步骤:
(A)识别语音信号;
(B)获取声音信号;
(C)取得获取的声音信号的谱带作为第一谱带;
(D)根据语音识别器识别的语音信号来产生声音信号的二次配置谱带,并将其作为第二谱带;
(E)根据第一谱带和第二谱带来产生调节后的谱带;以及
(F)根据调节后的谱带来输出合成的语音信号。
14.一种在计算机中用于识别语音信号的程序产品,其中,计算机执行以下步骤:
(A)从对象获取声音信号,并且根据获取的声音信号计算声音信号参数;
(B)获取对象的表面的潜在改变作为肌电图信号,并且根据获取的肌电图信号计算肌电图信号参数;
(C)取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数;
(D)根据声音信号参数、肌电图信号参数以及图像信息参数,识别对象发出的语音信号;以及
(E)提供语音识别器识别的结果。
15.种在计算机中用于合成语音信号的程序产品,其中,计算机执行以下步骤:
(A)识别语音信号;
(B)获取声音信号;
(B)取得获取的声音信号的谱带作为第一谱带;
(D)根据语音识别器识别的语音信号来产生声音信号的二次配置谱带,并将其作为第二谱带;
(E)根据第一谱带和第二谱带来产生调节后的谱带;以及
(F)根据调节后的谱带来输出合成的语音信号。
CN03105163A 2002-03-04 2003-03-03 语音识别系统及方法、语音合成系统及方法及程序产品 Pending CN1442845A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002057818 2002-03-04
JP2002057818A JP2003255993A (ja) 2002-03-04 2002-03-04 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2005100693792A Division CN1681002B (zh) 2002-03-04 2003-03-03 语音合成系统及方法

Publications (1)

Publication Number Publication Date
CN1442845A true CN1442845A (zh) 2003-09-17

Family

ID=27764437

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2005100693792A Expired - Lifetime CN1681002B (zh) 2002-03-04 2003-03-03 语音合成系统及方法
CN03105163A Pending CN1442845A (zh) 2002-03-04 2003-03-03 语音识别系统及方法、语音合成系统及方法及程序产品

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2005100693792A Expired - Lifetime CN1681002B (zh) 2002-03-04 2003-03-03 语音合成系统及方法

Country Status (5)

Country Link
US (2) US7369991B2 (zh)
EP (2) EP1345210B1 (zh)
JP (1) JP2003255993A (zh)
CN (2) CN1681002B (zh)
DE (2) DE60330400D1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100367186C (zh) * 2004-01-14 2008-02-06 国际商业机器公司 采用肌电描记传感器启动与基于语音的装置的口头交流的方法和设备
CN101111886B (zh) * 2005-01-28 2011-11-16 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN103338330A (zh) * 2013-06-18 2013-10-02 腾讯科技(深圳)有限公司 一种图像处理方法、装置和终端
CN105321519A (zh) * 2014-07-28 2016-02-10 刘璟锋 话语辨识系统与单元
CN105765656A (zh) * 2013-12-09 2016-07-13 高通股份有限公司 控制计算装置的语音辨识过程
CN105929931A (zh) * 2015-02-27 2016-09-07 联想(新加坡)私人有限公司 针对关联的讲话人激活语音处理的方法、设备及产品
CN106233379A (zh) * 2014-03-05 2016-12-14 三星电子株式会社 声音合成设备和用于合成声音的方法
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN108364660A (zh) * 2018-02-09 2018-08-03 腾讯音乐娱乐科技(深圳)有限公司 重音识别方法、装置及计算机可读存储介质
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004016658A (ja) 2002-06-19 2004-01-22 Ntt Docomo Inc 生体信号測定可能な携帯型端末および測定方法
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US8200486B1 (en) * 2003-06-05 2012-06-12 The United States of America as represented by the Administrator of the National Aeronautics & Space Administration (NASA) Sub-audible speech recognition based upon electromyographic signals
JP4713111B2 (ja) * 2003-09-19 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
US20060129394A1 (en) * 2004-12-09 2006-06-15 International Business Machines Corporation Method for communicating using synthesized speech
JP4632831B2 (ja) * 2005-03-24 2011-02-16 株式会社エヌ・ティ・ティ・ドコモ 音声認識方法および音声認識装置
US7792314B2 (en) * 2005-04-20 2010-09-07 Mitsubishi Electric Research Laboratories, Inc. System and method for acquiring acoustic signals using doppler techniques
US8417185B2 (en) 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
US7885419B2 (en) 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) * 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
US8082149B2 (en) * 2006-10-26 2011-12-20 Biosensic, Llc Methods and apparatuses for myoelectric-based speech processing
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
WO2010070552A1 (en) * 2008-12-16 2010-06-24 Koninklijke Philips Electronics N.V. Speech signal processing
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9223415B1 (en) 2012-01-17 2015-12-29 Amazon Technologies, Inc. Managing resource usage for task performance
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
KR101240588B1 (ko) 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
US11921471B2 (en) 2013-08-16 2024-03-05 Meta Platforms Technologies, Llc Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source
US10042422B2 (en) 2013-11-12 2018-08-07 Thalmic Labs Inc. Systems, articles, and methods for capacitive electromyography sensors
US10188309B2 (en) 2013-11-27 2019-01-29 North Inc. Systems, articles, and methods for electromyography sensors
US20150124566A1 (en) 2013-10-04 2015-05-07 Thalmic Labs Inc. Systems, articles and methods for wearable electronic devices employing contact sensors
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9367203B1 (en) 2013-10-04 2016-06-14 Amazon Technologies, Inc. User interface techniques for simulating three-dimensional depth
JP2015212732A (ja) * 2014-05-01 2015-11-26 日本放送協会 音喩認識装置、及びプログラム
US9880632B2 (en) 2014-06-19 2018-01-30 Thalmic Labs Inc. Systems, devices, and methods for gesture identification
US9390725B2 (en) 2014-08-26 2016-07-12 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
US20160284363A1 (en) * 2015-03-24 2016-09-29 Intel Corporation Voice activity detection technologies, systems and methods employing the same
JP6518134B2 (ja) 2015-05-27 2019-05-22 株式会社ソニー・インタラクティブエンタテインメント 眼前装着型表示装置
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
US11331045B1 (en) 2018-01-25 2022-05-17 Facebook Technologies, Llc Systems and methods for mitigating neuromuscular signal artifacts
CN110300542A (zh) 2016-07-25 2019-10-01 开创拉布斯公司 使用可穿戴的自动传感器预测肌肉骨骼位置信息的方法和装置
EP3487595A4 (en) 2016-07-25 2019-12-25 CTRL-Labs Corporation SYSTEM AND METHOD FOR MEASURING MOVEMENTS OF ARTICULATED RIGID BODIES
EP3487402B1 (en) 2016-07-25 2021-05-05 Facebook Technologies, LLC Methods and apparatus for inferring user intent based on neuromuscular signals
US10687759B2 (en) 2018-05-29 2020-06-23 Facebook Technologies, Llc Shielding techniques for noise reduction in surface electromyography signal measurement and related systems and methods
US11216069B2 (en) 2018-05-08 2022-01-04 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
US11635736B2 (en) 2017-10-19 2023-04-25 Meta Platforms Technologies, Llc Systems and methods for identifying biological structures associated with neuromuscular source signals
WO2020112986A1 (en) 2018-11-27 2020-06-04 Facebook Technologies, Inc. Methods and apparatus for autocalibration of a wearable electrode sensor system
CN110312471B (zh) 2016-07-25 2022-04-29 脸谱科技有限责任公司 从神经肌肉活动测量中导出控制信号的自适应系统
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
JP6874842B2 (ja) * 2017-07-03 2021-05-19 日本電気株式会社 信号処理装置、信号処理方法およびプログラム
US11481030B2 (en) 2019-03-29 2022-10-25 Meta Platforms Technologies, Llc Methods and apparatus for gesture detection and classification
WO2019147958A1 (en) 2018-01-25 2019-08-01 Ctrl-Labs Corporation User-controlled tuning of handstate representation model parameters
US11907423B2 (en) 2019-11-25 2024-02-20 Meta Platforms Technologies, Llc Systems and methods for contextualized interactions with an environment
US10937414B2 (en) 2018-05-08 2021-03-02 Facebook Technologies, Llc Systems and methods for text input using neuromuscular information
US11493993B2 (en) 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
WO2019147949A1 (en) 2018-01-25 2019-08-01 Ctrl-Labs Corporation Real-time processing of handstate representation model estimates
US10970936B2 (en) 2018-10-05 2021-04-06 Facebook Technologies, Llc Use of neuromuscular signals to provide enhanced interactions with physical objects in an augmented reality environment
US10504286B2 (en) 2018-01-25 2019-12-10 Ctrl-Labs Corporation Techniques for anonymizing neuromuscular signal data
US11961494B1 (en) 2019-03-29 2024-04-16 Meta Platforms Technologies, Llc Electromagnetic interference reduction in extended reality environments
US11150730B1 (en) 2019-04-30 2021-10-19 Facebook Technologies, Llc Devices, systems, and methods for controlling computing devices via neuromuscular signals of users
EP3742961A4 (en) 2018-01-25 2021-03-31 Facebook Technologies, Inc. CALIBRATION TECHNIQUES FOR MODELING A HAND CONDITION USING NEUROMUSCULAR SIGNALS
US10817795B2 (en) 2018-01-25 2020-10-27 Facebook Technologies, Llc Handstate reconstruction based on multiple inputs
EP3743892A4 (en) 2018-01-25 2021-03-24 Facebook Technologies, Inc. VISUALIZATION OF INFORMATION ON THE STATE OF A RECONSTRUCTED HAND
CN108957392A (zh) * 2018-04-16 2018-12-07 深圳市沃特沃德股份有限公司 声源方向估计方法和装置
CN112424859A (zh) * 2018-05-08 2021-02-26 脸谱科技有限责任公司 使用神经肌肉信息改善语音识别的系统和方法
US10592001B2 (en) * 2018-05-08 2020-03-17 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
US11687770B2 (en) 2018-05-18 2023-06-27 Synaptics Incorporated Recurrent multimodal attention system based on expert gated networks
EP3801743A4 (en) 2018-05-25 2021-08-04 Facebook Technologies, LLC PROCESSES AND APPARATUS FOR OBTAINING A SUB-MUSCULAR COMMAND
EP3807795A4 (en) 2018-06-14 2021-08-11 Facebook Technologies, LLC. USER IDENTIFICATION AND AUTHENTICATION BY MEANS OF NEUROMUSCULAR SIGNATURES
WO2020018892A1 (en) 2018-07-19 2020-01-23 Ctrl-Labs Corporation Methods and apparatus for improved signal robustness for a wearable neuromuscular recording device
WO2020036958A1 (en) 2018-08-13 2020-02-20 Ctrl-Labs Corporation Real-time spike detection and identification
WO2020047429A1 (en) 2018-08-31 2020-03-05 Ctrl-Labs Corporation Camera-guided interpretation of neuromuscular signals
WO2020061451A1 (en) 2018-09-20 2020-03-26 Ctrl-Labs Corporation Neuromuscular text entry, writing and drawing in augmented reality systems
WO2020069181A1 (en) 2018-09-26 2020-04-02 Ctrl-Labs Corporation Neuromuscular control of physical objects in an environment
JP6920361B2 (ja) * 2019-02-27 2021-08-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 判定装置、判定方法、及びプログラム
US10905383B2 (en) 2019-02-28 2021-02-02 Facebook Technologies, Llc Methods and apparatus for unsupervised one-shot machine learning for classification of human gestures and estimation of applied forces
CN110232907B (zh) * 2019-07-24 2021-11-02 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置、可读存储介质及计算设备
WO2021076662A1 (en) 2019-10-16 2021-04-22 Invicta Medical, Inc. Adjustable devices for treating sleep apnea, and associated systems and methods
JP2021081527A (ja) * 2019-11-15 2021-05-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US20220134102A1 (en) 2020-11-04 2022-05-05 Invicta Medical, Inc. Implantable electrodes with remote power delivery for treating sleep apnea, and associated systems and methods
US20210104244A1 (en) * 2020-12-14 2021-04-08 Intel Corporation Speech recognition with brain-computer interfaces
US11868531B1 (en) 2021-04-08 2024-01-09 Meta Platforms Technologies, Llc Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) * 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
US4862503A (en) * 1988-01-19 1989-08-29 Syracuse University Voice parameter extractor using oral airflow
FR2632725B1 (fr) * 1988-06-14 1990-09-28 Centre Nat Rech Scient Procede et dispositif d'analyse, synthese, codage de la parole
JPH04273298A (ja) 1991-02-28 1992-09-29 Fujitsu Ltd 音声認識装置
US5522013A (en) * 1991-04-30 1996-05-28 Nokia Telecommunications Oy Method for speaker recognition using a lossless tube model of the speaker's
DE4212907A1 (de) * 1992-04-05 1993-10-07 Drescher Ruediger Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.
US5586215A (en) 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JPH0612483A (ja) 1992-06-26 1994-01-21 Canon Inc 音声入力方法及び装置
US5457394A (en) * 1993-04-12 1995-10-10 The Regents Of The University Of California Impulse radar studfinder
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
US5454375A (en) * 1993-10-21 1995-10-03 Glottal Enterprises Pneumotachograph mask or mouthpiece coupling element for airflow measurement during speech or singing
JP3455921B2 (ja) 1993-12-24 2003-10-14 日本電信電話株式会社 発声代行装置
FR2715755B1 (fr) * 1994-01-28 1996-04-12 France Telecom Procédé et dispositif de reconnaissance de la parole.
JPH08187368A (ja) 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US5573012A (en) * 1994-08-09 1996-11-12 The Regents Of The University Of California Body monitoring and imaging apparatus and method
JP3536363B2 (ja) 1994-09-02 2004-06-07 松下電器産業株式会社 音声認識装置
EP0796489B1 (en) * 1994-11-25 1999-05-06 Fleming K. Fink Method for transforming a speech signal using a pitch manipulator
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5717828A (en) * 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
JP3647499B2 (ja) 1995-03-31 2005-05-11 フオスター電機株式会社 音声ピックアップシステム
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
JPH09326856A (ja) 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JPH10123450A (ja) 1996-10-15 1998-05-15 Sony Corp 音声認識機能付ヘッドアップディスプレイ装置
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
GB9714001D0 (en) * 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
JPH11296192A (ja) * 1998-04-10 1999-10-29 Pioneer Electron Corp 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6263306B1 (en) * 1999-02-26 2001-07-17 Lucent Technologies Inc. Speech processing technique for use in speech recognition and speech coding
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6862558B2 (en) * 2001-02-14 2005-03-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Empirical mode decomposition for analyzing acoustical signals

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100367186C (zh) * 2004-01-14 2008-02-06 国际商业机器公司 采用肌电描记传感器启动与基于语音的装置的口头交流的方法和设备
CN101111886B (zh) * 2005-01-28 2011-11-16 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN103338330A (zh) * 2013-06-18 2013-10-02 腾讯科技(深圳)有限公司 一种图像处理方法、装置和终端
CN105765656A (zh) * 2013-12-09 2016-07-13 高通股份有限公司 控制计算装置的语音辨识过程
CN105765656B (zh) * 2013-12-09 2019-08-20 高通股份有限公司 控制计算装置的语音辨识过程
CN106233379A (zh) * 2014-03-05 2016-12-14 三星电子株式会社 声音合成设备和用于合成声音的方法
CN105321519A (zh) * 2014-07-28 2016-02-10 刘璟锋 话语辨识系统与单元
CN105321519B (zh) * 2014-07-28 2019-05-14 刘璟锋 话语辨识系统与单元
CN105929931A (zh) * 2015-02-27 2016-09-07 联想(新加坡)私人有限公司 针对关联的讲话人激活语音处理的方法、设备及产品
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN108364660A (zh) * 2018-02-09 2018-08-03 腾讯音乐娱乐科技(深圳)有限公司 重音识别方法、装置及计算机可读存储介质
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Also Published As

Publication number Publication date
US20070100630A1 (en) 2007-05-03
CN1681002B (zh) 2010-04-28
JP2003255993A (ja) 2003-09-10
CN1681002A (zh) 2005-10-12
EP1345210A3 (en) 2005-08-17
EP1345210A2 (en) 2003-09-17
US7680666B2 (en) 2010-03-16
US20030171921A1 (en) 2003-09-11
EP1345210B1 (en) 2008-05-28
EP1667108A1 (en) 2006-06-07
DE60321256D1 (de) 2008-07-10
US7369991B2 (en) 2008-05-06
DE60330400D1 (de) 2010-01-14
EP1667108B1 (en) 2009-12-02

Similar Documents

Publication Publication Date Title
CN1442845A (zh) 语音识别系统及方法、语音合成系统及方法及程序产品
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN1229773C (zh) 语音识别对话装置
CN1158642C (zh) 检测和产生听觉信号中的瞬态条件的方法和系统
CN1187734C (zh) 机器人控制设备
CN1703734A (zh) 从声音确定音符的方法和装置
CN1101446A (zh) 语音教学计算机化系统
CN1932807A (zh) 用于翻译语音和进行翻译结果的语音合成的装置和方法
CN1894740A (zh) 信息处理系统、信息处理方法以及信息处理用程序
AU2571900A (en) Speech converting device and method
CN1462366A (zh) 说话人声音的后台学习
CN1622200A (zh) 多传感语音增强方法和装置
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
Hansen et al. On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks
KR20150104345A (ko) 음성 합성 장치 및 음성 합성 방법
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
KR20210054800A (ko) 사용자의 음성샘플 수집
Srisuwan et al. Comparison of feature evaluation criteria for speech recognition based on electromyography
WO2017008075A1 (en) Systems and methods for human speech training
CN1253851C (zh) 基于事先知识的说话者检验及说话者识别系统和方法
CN1009320B (zh) 语音识别
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
CN114550701A (zh) 一种基于深度神经网络的汉语电子喉语音转换装置及方法
Berger Measurement of vowel nasalization by multi-dimensional acoustic analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication