WO2002054383A1 - Dispositif de synthese vocale de texte et support d'enregistrement de programme - Google Patents

Dispositif de synthese vocale de texte et support d'enregistrement de programme Download PDF

Info

Publication number
WO2002054383A1
WO2002054383A1 PCT/JP2001/011511 JP0111511W WO02054383A1 WO 2002054383 A1 WO2002054383 A1 WO 2002054383A1 JP 0111511 W JP0111511 W JP 0111511W WO 02054383 A1 WO02054383 A1 WO 02054383A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
waveform
text
information
mixing
Prior art date
Application number
PCT/JP2001/011511
Other languages
English (en)
French (fr)
Inventor
Tomokazu Morio
Osamu Kimura
Original Assignee
Sharp Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Kabushiki Kaisha filed Critical Sharp Kabushiki Kaisha
Priority to US10/451,825 priority Critical patent/US7249021B2/en
Publication of WO2002054383A1 publication Critical patent/WO2002054383A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present invention relates to a text-to-speech synthesizing apparatus that generates a synthesized speech signal from text, and a program recording medium that records a text-to-speech synthesis processing program.
  • FIG. 11 is a block diagram showing the configuration of a general text-to-speech synthesis apparatus.
  • the text-to-speech synthesizer is roughly composed of a text input terminal 1, a text analyzer 2 , a prosody generator 3, a speech unit selector 4, a speech unit database 5, a speech synthesizer 6, and an output terminal 7. You.
  • text analyzer 2 reads input text information “left” and reads information (for example, "Hidari") and output.
  • the input text is not limited to text mixed with Japanese kanji kana, and reading symbols such as alphabets may be directly input.
  • the prosody generator 3 generates prosody information (information of voice pitch, loudness, and utterance speed) based on the read information “hidari” from the text analyzer 2.
  • the voice pitch information is set by the vowel pitch (fundamental frequency).
  • the pitches of the vowels “i”, “a”, and “i” are set in time order.
  • the information on the loudness and utterance speed of the voice is based on the amplitude and duration of the voice waveform for each phoneme “h”, “i”, “d”, “ a ”, “r”, and “i”. Set by length.
  • the prosody information thus generated is sent to the speech unit selector 4 together with the reading information “hidari”.
  • the speech unit selector 4 refers to the speech unit database 5 and selects speech unit data necessary for speech synthesis based on the reading information “hidari” from the prosody generator 3.
  • consonant + vowel (CV: Consonant, Vowel) syllable units eg, “kaj”, “gu”
  • vowel + consonant + vowel (VCV) units eg, “aki”, “ ito ”
  • VCV vowel + consonant + vowel
  • the speech unit database 5 analyzes, for example, speech data appropriately extracted in VCV units from the speech data uttered by the announcer, and stores the waveforms and parameters converted into a format necessary for the synthesis process. It is stored as one piece of data. In the case of general Japanese text speech synthesis using a VCV speech unit as a synthesis unit, about 800 VCV speech unit data are stored. As in this example, when the reading information “hidar is input to the speech unit selector 4, the speech unit selector
  • the speech synthesizer 6 selects speech unit data of V C V segments “* hi”, “idaj”, “ari”, and “i *” from the speech unit database 5.
  • the symbol “*” represents silence.
  • the selection result information thus obtained is sent to the speech synthesizer 6 together with the prosody information.
  • the speech synthesizer 6 reads out the corresponding speech unit data from the speech unit database 5 based on the input selection result information. Then, based on the input prosody information and the obtained speech unit data, the above-described sequence of the selected VCV speech units is divided into vowel sections while controlling the pitch, loudness and utterance speed of the voice according to the prosody information. The connection is made smoothly, and output from the output terminal 7.
  • the speech synthesizer 6 includes a method generally called a waveform superposition method (for example, Japanese Patent Application Laid-Open No. 60-21098) and a method generally called a vocoder method or a formant synthesis method (for example, The “Basics of Speech Information Processing” Ohmsha P76-77) is widely used.
  • a waveform superposition method for example, Japanese Patent Application Laid-Open No. 60-21098
  • a method generally called a vocoder method or a formant synthesis method for example, The “Basics of Speech Information Processing” Ohmsha P76-77
  • the above text-to-speech synthesizer can increase the voice quality (speaker) by changing the pitch of the voice and the speech unit database. Further, a sound effect such as an echo is performed by separately performing signal processing on an output audio signal from the audio synthesizer 6. Furthermore, the voice signal output from the voice synthesizer 6 is subjected to a pitch conversion process applied also to force rake and the like, and the original synthesized voice signal and the pitch-converted voice signal are combined to simultaneously produce voices from a plurality of speakers. It has been proposed to carry out (for example, Japanese Patent Application Laid-Open No. HEI 3-2-115797).
  • the text analyzer 2 and the prosody generator 3 in the text speech synthesizer are driven in a time-division manner, and By providing a plurality of sections, a plurality of synthesized voices can be output simultaneously.
  • the preprocessing needs to be performed in the B division, and the device becomes complicated.
  • a pitch conversion process is performed on the audio signal output from the audio synthesizer 6 so that a standard synthesized audio signal A plurality of speakers can be uttered simultaneously by the converted voice signal.
  • the pitch conversion process requires a process with a large processing amount, which is generally called pitch extraction, and such an apparatus configuration has a problem that the processing amount increases and the cost increases. Disclosure of the invention
  • an object of the present invention is to provide a text-to-speech synthesizing apparatus capable of causing a plurality of speakers to simultaneously utter the same text with simpler processing, and a program recording medium storing a text-to-speech synthesis processing program. It is in.
  • the first invention is to select necessary speech unit information from a speech unit database based on input text information reading and part-of-speech information, and to select the selected speech unit information.
  • a text-to-speech synthesizer for generating a speech signal based on a text analysis means for analyzing the input text information to obtain reading and part-of-speech information;
  • a step a plurality of voice instruction means for instructing the simultaneous utterance of a plurality of voices for the same input text, and an instruction received from the plurality of voice instruction means, selected from the prosody information from the prosody generation means and the speech unit database. It is characterized by having a plurality of speech synthesis means for generating a plurality of synthesized speech signals based on the obtained speech unit information.
  • reading and prosody information are generated from one piece of text information by the text analysis means and the prosody generation means.
  • the plural voice synthesizing means makes a plurality of synthesizings based on the prosodic information generated from the one piece of text information and the voice unit information selected from the voice unit database.
  • An audio signal is generated. Therefore, simultaneous utterance of a plurality of voices based on the same input text is performed by simple processing without adding time division processing / pitch conversion processing of the text analysis means and the prosody generation means.
  • the plurality of speech synthesizing units include: a waveform superimposing unit that generates an audio signal by a waveform superposition method based on the speech unit information and the prosody information; Waveform expansion and contraction means for expanding and contracting the time axis of the waveform of the audio signal generated by the waveform superimposing means based on the instruction information from the plurality of audio instruction means to generate audio signals having different voice pitches. And a mixing means for mixing the audio signal from the waveform superimposing means and the audio signal from the waveform expansion means.
  • a standard audio signal is generated by the waveform superimposing means.
  • the time axis of the waveform of the standard audio signal is expanded / contracted by the waveform expanding / contracting means to generate an expanded / contracted audio signal.
  • the standard audio signal and the telescopic audio signal are mixed by the mixing means.
  • male and female voices based on the same input text are uttered simultaneously.
  • the plurality of speech synthesizing means includes a first waveform superimposing means for generating an audio signal by a waveform superimposing method based on the speech unit information and the prosody information; On the basis of the segment information, the prosody information, and the instruction information from the plurality of audio instruction means, a second signal for generating an audio signal by the waveform superposition method at a fundamental period different from that of the first wave superimposing means is used.
  • the first waveform superimposing means generates the first audio signal based on the speech unit.
  • the second waveform superimposing means generates a second audio signal having only a fundamental cycle different from the first audio signal based on the audio unit. Then, the first audio signal and the second audio signal are mixed by the mixing means.
  • a male voice based on the same input text and a higher male voice are uttered simultaneously.
  • one waveform superimposing means operates as the first waveform superimposing means and the second waveform superimposing means by time division. It is possible to reduce the cost by simplifying the configuration.
  • the plurality of speech synthesizing units include: a first waveform superimposing unit that generates an audio signal by a waveform superposition method based on the speech unit information and the prosody information; A second speech unit database storing speech unit information different from the first speech unit database as a speech unit database; speech unit information selected from the second speech unit database; A second waveform superimposing means for generating an audio signal by the waveform superimposing method based on the prosody information and the instruction information from the plurality of audio instruction means; and an audio signal from the first waveform superimposing means. It is characterized by comprising mixing means for mixing the audio signal from the second waveform superimposing means.
  • the second waveform superimposing means simultaneously utters a male voice and a female voice based on the same input text.
  • the plurality of speech synthesizing units include: a waveform superimposing unit that generates an audio signal by a waveform superimposing method based on the speech unit and the prosody information; Waveform expansion / contraction means for expanding / contracting the time axis of the waveform of the speech unit based on the instruction information from the voice instruction means and generating an audio signal by the waveform superposition method; And the audio signal from the waveform expansion / contraction means And mixing means for mixing the two.
  • a standard speech signal is generated by the waveform superimposing means using the speech unit.
  • the time axis of the waveform of the speech unit is expanded and contracted by the waveform expansion / contraction means, and an audio signal having a different pitch from the standard audio signal and a modified frequency spectrum is generated.
  • the two audio signals are mixed by the mixing means.
  • male and female voices based on the same input text are uttered simultaneously.
  • the plural voice synthesizing means includes: a first excitation waveform generating means for generating a first excitation waveform based on the prosody information; an instruction from the prosody information and the plural voice instruction means; A second excitation waveform generating means for generating a second excitation waveform having a frequency different from the first excitation waveform based on the information; and a mixing means for mixing the first excitation waveform and the second excitation waveform.
  • the first excitation waveform generated by the first excitation waveform generation means and the second excitation waveform generated by the second excitation waveform generation means have different frequencies from each other.
  • An excitation waveform mixed with the waveform is generated by the mixing means.
  • a synthesized voice is generated by a synthesis filter in which the vocal tract articulation characteristics are set by the vocal tract articulation characteristic parameters included in the selected speech unit information. .
  • a synthesis filter in which the vocal tract articulation characteristics are set by the vocal tract articulation characteristic parameters included in the selected speech unit information.
  • the sixth embodiment is characterized in that a plurality of the above-mentioned waveform expansion / contraction means, second waveform superposition means, waveform expansion / contraction superposition means or second excitation waveform generation means are provided.
  • the number of people who simultaneously utter a voice based on the same input text can be increased to three or more, and a variety of text-synthesized voices can be generated.
  • the seventh embodiment is characterized in that the mixing means performs the mixing at a mixing ratio based on the instruction information from the multiple voice instruction means.
  • a program recording medium stores a text-to-speech synthesis processing program for causing a computer to function as the text analysis means, the prosody generation means, the multiple-speech instruction means, and the multiple-speech synthesis means in the first aspect. It is characterized by:
  • simultaneous utterance of a plurality of voices based on the same input text is performed by time-division processing of the text analysis unit and the prosody generation unit. It is performed with simple processing without performing.
  • FIG. 1 is a block diagram of the text-to-speech synthesis apparatus of the present invention.
  • FIG. 2 is a block diagram showing an example of the configuration of the multiple speech synthesizer in FIG.
  • FIGS. 3A to 3C are diagrams showing audio waveforms generated by each unit of the multiple speech synthesizer shown in FIG.
  • FIG. 4 is a block diagram showing a configuration of a multiple speech synthesizer different from FIG.
  • FIGS. 5A to 5C are diagrams showing speech waveforms generated by each unit of the multiple speech synthesizer shown in FIG.
  • FIG. 6 is a block diagram showing a configuration of a multiple speech synthesizer different from FIGS. 2 and 4.
  • FIG. 7 is a block diagram showing a configuration of a multiple speech synthesizer different from FIGS. 2, 4 and 6.
  • FIGS. 8A to 8C are diagrams showing audio waveforms generated by each unit of the multiple audio synthesizer shown in FIG.
  • Fig. 9 is a block diagram showing the configuration of a multiple speech synthesizer different from Figs. 2, 4, 6, and 7.
  • FIGS. 10A to 10D are diagrams showing signal waveforms generated in each section of the multiple speech synthesizer shown in FIG.
  • FIG. 11 is a block diagram showing a configuration of a conventional text-to-speech synthesis apparatus.
  • FIG. 1 is a block diagram of a text-to-speech synthesis apparatus according to the present embodiment.
  • This text-to-speech synthesizer consists of a text input terminal 11, a textual analyzer 12, a prosody generator 13, a speech unit selector 14, a speech unit database 15, a multiple speech synthesizer 16, and multiple speech It is roughly composed of an indicator 17 and an output terminal 18.
  • the above-mentioned text input terminal 11, text analyzer 12, prosody generator 13, speech unit selector 14, speech unit database 15 and output terminal 18 correspond to the conventional text speech shown in Fig. 11. These are the same as the text input terminal 1, text analyzer 2, prosody generator 3, speech unit selector 4, speech unit database 5, and output terminal 7 in the synthesizer. That is, the text information input from the input terminal 11 is converted into reading information by the text analyzer 12. Then, a prosody generator 13 generates prosody information based on the read information, and a speech unit selector 14 selects a VCV speech unit from the speech unit database 15 based on the read information. However, the selection result information is sent to the plural speech synthesizers 16 together with the prosody information.
  • the multiple voice indicator 17 instructs the multiple voice synthesizer 16 as to what types of multiple voices are to be uttered simultaneously. Then, the multiple voice synthesizer 16 simultaneously synthesizes multiple voice signals in accordance with the instruction from the multiple voice indicator 17. By doing so, it is possible for multiple speakers to speak simultaneously based on the same input text. For example, it is possible for two people, a male voice and a female voice, to simultaneously say "Hello! As described above, the multiple voice indicator 17 instructs the multiple voice synthesizer 16 as to what multiple voices are to be uttered. As an example of the instruction in such a case, there is a method of designating a pitch change ratio with respect to a normal synthesized voice and a mixing ratio of a voice signal with the changed pitch.
  • the multiple voice synthesizer 16 performs a process of simultaneously uttering multiple voices according to the instruction from the multiple voice indicator 17. As will be described later, this multiple-speech synthesizer 16 is implemented by partially expanding the processing of the speech synthesizer 6 in the conventional text-to-speech synthesizer that utters one voice shown in FIG. Can be. Therefore, it is possible to suppress an increase in the amount of processing for generating a plurality of voices, as compared with a configuration in which pitch conversion processing is performed as post-processing as in the case of Japanese Patent Application Laid-Open No. H3-12-19797. It is.
  • FIG. 2 is a block diagram showing an example of the configuration of the multiple speech synthesizer 16.
  • the multiple speech synthesizer 16 is composed of a waveform superimposer 21, a waveform expander 22 and a mixer 23.
  • the waveform superimposer 21 reads out the speech unit data selected by the speech unit selector 14, and performs waveform superposition based on the speech unit data and the prosody information from the speech unit selector 14. To generate an audio signal. Then, the generated audio signal is sent to waveform expander 22 and mixer 23.
  • the waveform expander 22 2 determines the time of the waveform of the audio signal from the waveform superimposer 21. Change the pitch of the voice by expanding and contracting the axis. Then, the expanded and contracted audio signal is transmitted to the mixer 23.
  • the mixer 23 mixes the two audio signals, the standard audio signal from the waveform superimposer 21 and the audio signal after expansion from the waveform expander 22, and outputs the mixed signal to the output terminal 18. is there. 'In the above configuration, as a process of generating a synthesized sound by the waveform superimposing device 21, for example, a waveform superimposing method disclosed in Japanese Patent Application Laid-Open No.
  • 60-21098 is used.
  • a speech unit is stored in a speech unit database 15 as a waveform in a basic cycle unit.
  • the waveform superimposer 21 generates an audio signal by repeatedly generating this waveform at a time interval corresponding to the designated pitch.
  • Various realization methods have been developed for waveform superimposition processing.For example, if the repetition time interval is longer than the fundamental frequency of the speech unit, the missing data is padded with zero data. Properly so that the end of There is a method of terminating the process after performing the windowing process.
  • FIG. 3 shows a voice signal waveform generated by each section of the multiple voice synthesizer 16 in the present embodiment.
  • FIG. 3A shows a speech waveform in a vowel section generated by the waveform superimposing method by the waveform superimposing device 21.
  • Waveform expansion unit 2 based on the pitch, which is one of the prosody information from the speech unit selection unit 1 4, the pitch change rate of the information indicated by the plural-speech-indicator 1 7, a waveform superimposing unit 2
  • the audio waveform of Fig. 3A generated in 1 is expanded and contracted for each basic period A. As a result, as shown in FIG.
  • the mixer 23 generates the audio waveform of FIG. 3A generated by the waveform superimposer 21 and the waveform expander 22 by the waveform expander 22 in accordance with the mixing ratio given from the multiple voice indicators 17. Mix the two audio waveforms with the audio waveform shown in Figure 3B.
  • Fig. 3C shows an example of the resulting speech waveform.
  • the plurality of speech synthesizers 16 and It has a voice indicator 17. Furthermore, the multiple speech synthesizer 16 is composed of a waveform superimposer 21, a waveform expander 22 and a mixer 23. Then, the multiple voice indicator 17 gives the multiple voice synthesizer 16 a change rate of the pitch (pitch change rate) with respect to the standard synthesized voice signal, and a mixing rate of the voice signal with the changed pitch. Instruct. Then, the waveform superimposer 21 generates a standard speech signal by waveform superposition based on the speech unit data read from the speech unit database 15 and the prosody information from the speech unit selector 14.
  • the waveform expander 22 expands and contracts the time axis of the waveform of the standard voice signal based on the prosodic information from the voice unit selector 14 and the above-mentioned instruction from the multiple voice indicators 17. Change the pitch of your voice. Then, the mixer 23 mixes the standard audio signal from the waveform superimposer 21 with the expansion / contraction audio signal from the waveform expander 22 and outputs it to the output terminal 18.
  • the text analyzer 12 and the prosody generator 13 need only perform the text analysis process and the prosody generation process on one piece of input text information without performing the time-sharing process. Also, there is no need to add pitch conversion processing as post-processing of the multiple speech synthesizers 16. That is, according to the present embodiment, simultaneous utterance of synthesized speech by a plurality of speakers based on the same text can be realized with simpler processing and with a simpler device.
  • FIG. 4 is a block diagram showing a configuration of the multiple speech synthesizer 16 in the present embodiment.
  • This multiple speech synthesizer 16 is composed of a first waveform superimposer 25, a second waveform superimposer 26 and a mixer 27.
  • the first waveform superimposer 25 generates a speech signal by the above waveform superposition based on the speech unit data read from the speech unit database 15 and the prosodic information from the speech unit selector 14. And send it to mixer 27.
  • the second waveform superimposer 26 changes the pitch, which is one of the prosody information of the speech unit selector 14, based on the pitch change rate specified by the plurality of speech indicators 17. .
  • an audio signal is generated by the waveform superposition. Then, the generated audio signal is sent to the mixer 27.
  • Mixer 27 is the first waveform superimposer Since the two audio signals, the standard audio signal from 25 and the audio signal from the second waveform superimposer 26, are mixed according to the mixing ratio from the multiple audio indicators 17 and output to the output terminal 18, is there.
  • the synthetic speech generation processing by the first waveform superimposer 25 is the same as that of the waveform superimposer 21 in the first embodiment.
  • the synthetic speech generation processing by the second waveform superimposer 26 is performed in the same manner as the waveform superimposer 21 except that the pitch is changed in accordance with the pitch change rate instruction from the multiple voice indicators 17. This is the same normal waveform superposition processing as in the case. Therefore, in the case of the multiple speech synthesizer 16 in the first embodiment, since the waveform expander 22 having a different configuration from the waveform superimposer 21 is provided, although a processing power for expanding and contracting the waveform is required separately, in the present embodiment, two waveform superimposers 25 and 26 having the same basic function are used. By using the superimposer 25 twice in the time-division processing, the second waveform superimposer 26 can be eliminated, and the configuration can be simplified and the cost can be reduced.
  • FIG. 5 shows an audio signal waveform generated by each unit according to the present embodiment.
  • the audio signal generation processing will be described with reference to FIG.
  • FIG. 5A shows a speech waveform in a vowel section generated by the first waveform superimposer 25 using the standard waveform superimposition method.
  • FIG. 5B shows a voice generated by the second waveform superimposer 26 at a pitch different from the standard pitch using a pitch changed based on the pitch change rate indicated by the multiple voice indicators 17. It is a waveform.
  • an audio signal having a pitch higher than usual is generated.
  • the pitch of the audio signal generated by the second waveform superimposer 26 is changed with respect to the audio waveform of FIG.
  • the frequency spectrum is the same as the standard voice waveform by the first waveform superimposer 25.
  • a synthesized voice signal of a male voice whose pitch has been increased by the second superimposer 26 is created based on the synthesized voice signal of a male voice as the standard voice signal. is there.
  • the mixer 27 generates the voice waveform of FIG. 5A generated by the first waveform superimposer 25 and the second waveform superimposer 2. Mix the two audio waveforms with the audio waveform of Figure 5B generated in 6.
  • Figure 5C mixed 5 shows an example of a sound waveform obtained as a result. Thus, simultaneous speech by two speakers is realized based on the same text.
  • the plurality of speech synthesizers 16 include the first waveform superimposer 25, the second waveform superimposer 26, and the mixer 27. Then, the first waveform superimposer 25 generates a standard voice signal based on the voice unit data read from the voice unit database 15. On the other hand, using the pitch obtained by changing the pitch from the speech unit selector 14 based on the pitch change rate from the plurality of speech indicators 17 by the second waveform superposition unit 26, Based on the above, an audio signal is generated by the waveform superposition. Then, the two audio signals from the two waveform superimposers 25 and 26 are mixed by the mixer 27 and output to the output terminal 18. Therefore, simultaneous utterances by two speakers can be performed by simple processing based on the same text.
  • the second waveform superimposer 25 is used twice in the time-division processing to obtain the second waveform superimposition.
  • the superimposer 26 can be omitted, and the configuration can be simplified and the cost can be reduced as compared with the first embodiment.
  • FIG. 6 is a block diagram showing the configuration of the multiple speech synthesizer 16 in the present embodiment.
  • the multi-speech synthesizer 16 includes a waveform superimposer 31, a waveform expansion / contraction superimposer 32, and a mixer 33.
  • the waveform superimposer 31 generates an audio signal by waveform superimposition based on the speech unit data read from the speech unit database 15 and the prosody information from the speech unit selector 14. It is sent to the mixer 33.
  • the waveform stretching and superimposing device 32 transmits the waveform of the same speech unit as the speech unit data used by the waveform superimposing device 31 read from the speech unit database 15 to the plural speech indicators 17.
  • the audio signal is generated by expanding and contracting at time intervals corresponding to the specified pitch, and repeatedly generating it.
  • linear interpolation or the like can be used as the above-mentioned method of expansion and contraction. That is, in the present embodiment, the waveform superimposing function itself is provided with a waveform expansion / contraction function, and the waveform of the speech unit is expanded / contracted in the process of waveform superposition.
  • the audio signal thus generated is sent to the mixer 33.
  • the mixer 28 combines the two audio signals of the standard audio signal from the waveform superimposer 31 and the expanded and contracted audio signal from the waveform expander and contractor 32 into the mixed signal given from the multiple audio indicators 17. They mix according to the ratio and output to the output terminal 18.
  • the waveforms of the audio signals generated by the waveform superimposing device 31, the waveform expanding / contracting multiplexer 32, and the mixer 33 in the multiple speech synthesizer 16 of the present embodiment are the same as those in FIG.
  • the pitch of the audio signal output from the second waveform superimposer 26 in the second embodiment also changes, but the frequency spectrum does not change. A voice is output.
  • the frequency spectrum of the audio signal output from the waveform stretching / superimposing device 32 in the present embodiment is also changed.
  • FIG. 7 is a block diagram showing a configuration of the multiple speech synthesizer 16 in the present embodiment.
  • the multiple speech synthesizer 16 includes a first waveform superimposer 35, a second waveform superimposer 36, and a mixer 37, as in the case of the second embodiment.
  • a speech unit database exclusively used by second waveform superimposer 36 is provided independently of speech unit database 15 used by first waveform superimposer 35.
  • the speech unit database 15 used by the first waveform superposition unit 35 will be referred to as first speech unit data
  • the speech unit database used by the second waveform superposition unit 36 will be referred to as the second speech unit database 38. Called.
  • the speech unit database 15 created from the voice of a certain speaker is used, but in the present embodiment, the speech unit is used.
  • the database 15 is provided with a second speech unit database 38 created from a different speaker, and is used by the second waveform superimposer 36.
  • two kinds of speech databases 15 and 38 having originally different voice qualities are used, it is possible to simultaneously utter a plurality of voice qualities richer in a variation than in the above embodiments.
  • the instruction to perform a plurality of speech synthesis using a plurality of speech unit databases is output from the plurality of speech indicator 17.
  • "normal synthesized speech Use the data of a male speaker to generate the voice, and use the database of a female speaker separately to generate another synthesized voice, and mix the two at the same ratio.
  • FIG. 8 shows a waveform of an audio signal generated by each unit of the multiple audio synthesizer 16 in the present embodiment.
  • the audio signal generation processing will be described with reference to FIG.
  • FIG. 8A shows a standard speech waveform generated by the first waveform superimposer 35 using the first speech segment database 15.
  • FIG. 8B is an audio signal waveform having a higher pitch than the standard audio waveform generated by the second waveform superimposer 36 using the second audio unit database 38.
  • FIG. 8C shows an audio waveform obtained by mixing the above two audio waveforms.
  • the first speech unit database 15 is created from a male speaker and the second speech unit database 38 is created from a female speaker, the second waveform superimposer 36 will generate a waveform.
  • a female voice can be generated without performing the stretching process.
  • FIG. 9 is a block diagram showing a configuration of the multiple speech synthesizer 16 in the present embodiment.
  • the multiple speech synthesizer 16 includes a first excitation waveform generator 41, a second excitation waveform generator 42, a mixer 43, and a synthesis filter 44.
  • the first excitation waveform generator 41 generates a standard excitation waveform based on one pitch of the prosody information from the speech unit selector 14. Further, the second excitation waveform generator 42 changes the pitch based on the pitch change rate instructed by the plural voice indicators 17. Then, an excitation waveform is generated based on the changed pitch.
  • the mixer 43 mixes the two excitation waveforms from the first and second excitation waveform generators 41 and 42 in accordance with the mixing ratio from the plural voice indicators 17 to form a mixed excitation waveform.
  • the synthesis filter 44 acquires a parameter expressing the vocal tract articulation characteristics included in the speech unit data from the speech unit database 15. Then, using this vocal tract articulation characteristic parameter, an audio signal is generated based on the mixed excitation waveform.
  • the present multiple speech synthesizer 16 performs a speech synthesis process using a vocoder method.
  • a voiced section such as a vowel
  • it is composed of a panoramic sequence with a time interval corresponding to the pitch
  • a voiced section such as frictional In the unvoiced section
  • an excitation waveform composed of white noise is generated.
  • the excitation waveform is converted to a synthetic file that provides vocal tract articulation characteristics according to the selected speech unit.
  • a synthetic speech signal is generated by passing through a filter.
  • FIG. 10 shows an audio signal waveform generated by each section of the multiple audio synthesizer 16 in the present embodiment.
  • FIG. 10A shows a standard excitation waveform generated by the first excitation waveform generator 41.
  • FIG. 10B shows an excitation waveform generated by the second excitation waveform generator 42.
  • the pitch is generated at a higher pitch than the normal pitch obtained by changing the pitch from the speech unit selector 14 based on the pitch change rate designated by the plural speech designators 17.
  • the mixer 43 mixes the above two excitation waveforms according to the mixing ratio from the plural voice indicators 17 to generate a mixed excitation waveform as shown in FIG. 10C.
  • FIG. 10D shows an audio signal obtained by inputting the mixed excitation waveform to the synthesis filter 44.
  • the vocal tract tone sound characteristic parameters for each speech segment (e.g., linear prediction parameter) data is stored I have.
  • the plurality of speech synthesizers 16 are composed of the first excitation waveform generator 41, the second excitation waveform generator 42, the mixer 43, and the synthesis filter 44. Make up. Then, a standard excitation waveform is generated by the first excitation waveform generator 41.
  • the second excitation waveform generator 42 uses the pitch changed from V by the pitch from the speech unit selector 14 based on the pitch change rate from the multiple speech indicators 17 to generate the excitation waveform. Generate Then, the two excitation waveforms from the dual excitation waveform generators 4 1 and 4 2 are mixed by the mixer 4 3, and the synthesis filter 4 4 set to the vocal tract articulation characteristic according to the selected speech unit is used. To generate a synthesized speech signal.
  • the text analysis processing and the prosody generation processing are performed in a time-division manner, and the pitch conversion processing is not added as post-processing, so that the synthesized speech by a plurality of speakers based on the same text can be used. Can be realized by simple processing.
  • the unvoiced section such as a fricative consonant is described above. Is not performed, and only a synthesized speech signal of one speaker is generated. In other words, signal processing is performed only in the voiced section where the pitch exists, so that the two persons are speaking simultaneously.
  • the waveform expander 22 in the first embodiment, the second waveform superimposer 26 in the second embodiment, the waveform expander 32 in the third embodiment, the second waveform superimposer 32 in the fourth embodiment By providing a plurality of waveform superimposers 36 and the second excitation waveform generators 42 in the fifth embodiment, it is possible to increase the number of persons who simultaneously utter based on the same input text to three or more.
  • the functions as the text analysis means, the prosody generation means, the multiple voice instruction means and the multiple voice synthesis means in each of the above embodiments are realized by a text voice synthesis processing program recorded in a program recording medium.
  • the above-mentioned program recording medium is a program medium composed of ROM (read 'only' memory). Alternatively, it may be a program medium that is mounted on and read from an external auxiliary storage device.
  • the program reading means for reading the text-to-speech synthesis processing program from the program medium may have a configuration of directly accessing and reading the program medium, or a RAM (random 'access).
  • a configuration may be adopted in which a program storage area (not shown) provided in the 'memory' is down-loaded to access and read the program storage area. It is assumed that a download program for downloading from the program medium to the program storage area of the RAM is stored in the main unit in advance.
  • the above-mentioned program medium is configured so as to be separable from the main unit side, such as a magnetic tape, a tape system such as a cassette tape, a magnetic disk such as a floppy disk or a hard disk, or a CD (compact disk)-ROM, MO ( Disk systems for optical disks such as magneto-optical (MD) disks, MD (mini disks), and DVD (digital video disks); card systems for IC (integrated circuit) cards and optical cards; masks R OM, EPR OM
  • the text-to-speech synthesizing apparatus may be configured to include a modem and be connectable to a communication network including the Internet.
  • the program medium may be a medium that carries a program in a fluid manner by downloading from a communication network. In this case, it is assumed that a download program for downloading from the communication network is stored in the main device in advance. Or, it shall be installed from another recording medium. '

Description

明 細 書 テキスト音声合成装置およびプログラム記録媒体 技術分野
この発明は、 テキストから合成音声信号を生成するテキスト音声合成装置およ びテキスト音声合成処理プログラムを記録したプログラム記録媒体に関する。 背景技術
図 1 1は、 一般的なテキスト音声合成装置の構成を示すプロック図である。 テ キスト音声合成装置は、 テキスト入力端子 1,テキスト解析器2,韻律生成器 3, 音声素片選択器 4,音声素片データベース 5,音声合成器 6およぴ出力端子 7で概 略構成される。
以下、 従来のテキスト音声合成装置の動作について説明する。 入力端子 1から 単語や文章等の日本語の漢字仮名混じりテキスト情報 (例えば、 漢字「左」)が入力 されると、 テキスト解析器 2は、 入力テキスト情報「左」を読みの情報 (例えば、 「hidari」) に変換して出力する。 尚、 入力テキストとしては、 日本語の漢字仮名 混じりテキストに限定されるものではなく、 アルファべット等の読み記号を直接 入力しても差し支えない。
上記韻律生成器 3は、 上記テキスト解析器 2からの読み情報「hidari」に基づい て、 韻律情報 (声の高さ,大きさ,発声速度の情報)を生成する。 ここで、 声の高さ の情報は母音のピッチ (基本周波数)で設定され、 本例の場合においては、 時間順 に母音「i」,「a」,「i」のピッチが設定される。 また、 声の大きさおよび発声速度 の情報は、 各音素「h」,「i」,「d」,「a」,「r」,「i」毎に音声波形の振幅およぴ継 続時間長で設定される。 こうして生成された韻律情報は、 読み情報「hidari」と共 に音声素片選択器 4に送出される。
そうすると、 上記音声素片選択器 4は、 音声素片データベース 5を参照して、 韻律生成器 3からの読み情報「hidari」に基づいて音声合成に必要な音声素片デー タを選択する。 ここで、 音声合成単位としては、 子音 +母音(C V: Consonant, Vowel)の音節単位 (例えば「k a j ,「g u」)や、 高音質化を目的に音素連鎖の過渡 部の特徴量を保持した母音 +子音 +母音(V C V)の単位 (例えば「 a k i」,「i t o」)等が広く用いられている。 以下の説明においては、 音声素片の基本単位 (音 声合成単位)として V C V単位を用いる場合について説明する。
上記音声素片データベース 5には、 例えばアナウンサーの発声した音声データ から V C Vの単位で適切に切り出された音声データを分析し、 合成処理に必要な 形式に変換された波形やパラメータが、 上記音声素片データとして格納されてい る。 V C V音声素片を合成単位として用いる一般的な日本語テキスト音声合成の 場合には、 8 0 0個程度の V C V音声素片データが格納されている。 本例のごと く読み情報「hidar が音声素片選択器 4に入力された場合には、 音声素片選択器
4は、 音声素片データベース 5から、 V C V素片「* h i」,「 i d a j ,「a r i」, 「i * *」の音声素片データを選択するのである。 尚、 記号「*」は無音を表す。 こうして得られた選択結果情報は、 韻律情報と共に音声合成器 6に送出される。 最後に、 上記音声合成器 6は、 入力された選択結果情報に基づいて音声素片デ ータベース 5から該当する音声素片データを読み出す。 そして、 入力された韻律 情報と上記得られた音声素片データとに基づいて、 韻律情報に従って声の高さや 大きさや発声速度を制御しながら、 上記選択された V C V音声素片の系列を母音 区間で滑らかに接続して、 出力端子 7から出力するのである。 ここで、 上記音声 合成器 6には、 一般に波形重畳方式と呼ばれる手法 (例えば、 特開昭 6 0 - 2 1 0 9 8号公報)や、 一般にボコーダ一方式またはホルマント合成方式と呼ばれる 手法 (例えば、 「音声情報処理の基礎」オーム社 P 7 6 - 7 7 )が広く用いられてい る。
上記テキスト音声合成装置は、 声の高さや音声素片データベースを変更するこ とによって、 声質 (話者)を増やすことができる。 また、 上記音声合成器 6からの 出力音声信号に対して別途信号処理を行うことによって、 エコー等の音響効果を 施すことも行われている。 さらに、 音声合成器 6からの出力音声信号に対して力 ラオケ等にも応用されているピッチ変換処理を施し、 元々の合成音声信号とピッ チ変換音声信号とを組み合わせて複数話者の同時発声を行うことが提案されてい る(例えば、 特開平 3 - 2 1 1 5 9 7号公報)。 また、 上記テキスト音声合成装置 におけるテキスト解析器 2および韻律生成器 3を時分割で駆動すると共に、 音声 合成器 6等によつて構成される音声出力部を複数設けることによって、 複数のテ キストに対する複数の音声を同時に出力する装置も提案されている(例えば、 特 開平 6 - 7 5 5 9 4号公報)。
しかしながら、 上記従来のテキスト音声合成装置においては、 音声素片データ ベースを変更することによって、 指定したテキストを種々の話者に切り替えて発 声することは可能ではある。 ところが、 例えば、 同一内容を複数人で同時に発声 させることは不可能であるという問題がある。
また、 上記特開平 6 - 7 5 5 9 4号公報に開示されているように、 上記テキス ト音声合成装置におけるテキスト解析器 2および韻律生成器 3を時分割で駆動す ると共に、 上記音声出力部を複数設けることによって、 複数の合成音声を同時に 出力することができる。 しかしながら、 Bき分割で前処理を行う必要があり、 装置 が複雑化するという問題がある。
また、 上記特開平 3 - 2 1 1 5 9 7号公報に開示されているように、 上記音声 合成器 6からの出力音声信号に対してピッチ変換処理を施して、 標準の合成音声 信号とピッチ変換音声信号とによって複数話者を同時発声させることができる。 しかしながら、 上記ピッチ変換処理には、 一般にピッチ抽出と言われる処理量の 大きい処理が必要であり、 そのような装置構成では処理量が多くなると共にコス トの增加も大きいという問題がある。 発明の開示
そこで、 この発明の目的は、 より簡単な処理で同一テキストを複数の話者に同 時に発声させることが可能なテキスト音声合成装置、 および、 テキスト音声合成 処理プログラムを記録したプログラム記録媒体を提供することにある。
上記目的を達成するため、 第 1の発明は、 入力されたテキスト情報の読み及び 品詞情報に基づいて音声素片データベースから必要な音声素片情報を選択し,こ の選択された音声素片情報に基づいて音声信号を生成するテキスト音声合成装置 において、 上記入力テキスト情報を解析して読みおよび品詞情報を得るテキスト 解析手段と、 上記読みおよび品詞情報に基づいて韻律情報を生成する韻律生成手 段と、 同一の入力テキストに対する複数音声の同時発声を指示する複数音声指示 手段と、 上記複数音声指示手段からの指示を受け,上記韻律生成手段からの韻律 情報と上記音声素片データベースから選択された音声素片情報とに基づいて,複 数の合成音声信号を生成する複数音声合成手段を備えたことを特徴としている。
上記構成によれば、 一つのテキスト情報からテキスト解析手段おょぴ韻律生成 手段によって読みおよび韻律情報が生成される。 そして、 複数音声指示手段から の指示に従って、 複数音声合成手段によって、 上記一つのテキスト情報から生成 された韻律情報と音声素片データベースから選択された音声素片情報とに基づ 、 て複数の合成音声信号が生成される。 したがって、 同一の入力テキストに基づく 複数音声の同時発声が、 テキスト解析手段および韻律生成手段の時分割処理ゃピ ツチ変換処理の追加等を行うことなく簡単な処理で行われる。
また、 第 1の実施例は、 上記複数音声合成手段を、 上記音声素片情報と韻律情 報とに基づいて,波形重畳法によつて音声信号を生成する波形重畳手段と、 上記 韻律情報と上記複数音声指示手段からの指示情報とに基づいて,上記波形重畳手 段によつて生成された音声信号の波形の時間軸を伸縮して声の高さが異なる音声 信号を生成する波形伸縮手段と、 上記波形重畳手段からの音声信号と上記波形伸 縮手段からの音声信号とを混合する混合手段を備えるように成したことを特徴と している。
この実施例によれば、 波形重畳手段によって、 標準の音声信号が生成される。 一方、 波形伸縮手段によって、 上記標準の音声信号の波形の時間軸が伸縮されて 伸縮音声信号が生成される。 そして、 混合手段によって、 上記標準の音声信号と 伸縮音声信号とが混合される。 こうして、 例えば、 同一の入力テキストに基づく 男性の音声と女性の音声とが、 同時に発声される。
また、 第 2の実施例は、 上記複数音声合成手段を、 上記音声素片情報と韻律情 報とに基づいて,波形重畳法によつて音声信号を生成する第 1波形重畳手段と、 上記音声素片情報と韻律情報と上記複数音声指示手段からの指示情報とに基づ ヽ て,上記第 1波^重畳手段とは異なる基本周期で,上記波形重畳法によって音声信 号を生成する第 2波形重畳手段と、 上記第 1波形重畳手段からの音声信号と上記 第 2波形重畳手段からの音声信号とを混合する混合手段を備えるように成したこ とを特徴としている。
この実施例によれば、 第 1波形重畳手段によって、 上記音声素片に基づいて第 1の音声信号が生成される。 一方、 第 2波形重畳手段によって、 上記音声素片に 基づいて上記第 1の音声信号とは基本周期のみが異なる第 2の音声信号が生成さ れる。 そして、 混合手段によって、 上記第 1の音声信号と第 2の音声信号とが混 合される。 こうして、 例えば、 同一の入力テキストに基づく男性の音声と男性の 更に高音の音声とが、 同時に発声される。
さらに、 上記第 1波形重畳手段と第 2波形重畳手段との基本構成は同じである ため、 1つの波形重畳手段を時分割によつて上記第 1波形重畳手段と第 2波形重 畳手段として動作させることが可能であり、 構成を簡単にして低コスト化を図る ことが可能になる。
また、 第 3の実施例は、 上記複数音声合成手段を、 上記音声素片情報と韻律情 報とに基づいて,波形重畳法によつて音声信号を生成する第 1波形重畳手段と、 上記音声素片データベースとしての第 1音声素片データベースとは異なる音声素 片情報が格納された第 2音声素片データベースと、 上記第 2音声素片データべ一 スから選択された音声素片情報と,上記韻律情報と,上記複数音声指示手段からの 指示情報とに基づいて,上記波形重畳法によつて音声信号を生成する第 2波形重 畳手段と、 上記第 1波形重畳手段からの音声信号と上記第 2波形重畳手段からの 音声信号とを混合する混合手段を備えるように成したことを特徴としている。 この実施例によれば、 例えば、 第 1音声素片データベースに男性用の音声素片 情報を格納する一方、 第 2音声素片データベースに女性用の音声素片情報を格納 しておけば、 上記第 2波形重畳手段は上記第 2音声素片データベースから選択さ れた音声素片情報を用いることによって、 同一の入力テキストに基づく男性の音 声と女性の音声とが、 同時に発声される。
また、 第 4の実施例は、 上記複数音声合成手段を、 上記音声素片と韻律情報と に基づいて,波形重畳法によつて音声信号を生成する波形重畳手段と、 上記韻律 情報と上記複数音声指示手段からの指示情報とに基づいて上記音声素片の波形の 時間軸を伸縮し,上記波形重畳法によつて音声信号を生成する波形伸縮重畳手段 と、 上記波形重畳手段からの音声信号と上記波形伸縮重畳手段からの音声信号と を混合する混合手段を備えるように成したことを特徴としている。
この実施例によれば、 波形重畳手段によって、 上記音声素片が用いられて標準 の音声信号が生成される。 一方、 波形伸縮重畳手段によって、 上記音声素片の波 形の時間軸が伸縮されて、 上記標準の音声信号とはピッチが異なり且つ周波数ス ぺクトルが変形された音声信号が生成される。 そして、 混合手段によって、 上記 両音声信号が混合される。 こうして、 例えば、 同一の入力テキストに基づく男性 の音声と女性の音声とが、 同時に発声される。
また、 第 5の実施例は、 上記複数音声合成手段を、 上記韻律情報に基づいて, 第 1励振波形を生成する第 1励振波形生成手段と、 上記韻律情報と上記複数音声 指示手段からの指示情報とに基づ 、て,上記第 1励振波形とは周波数が異なる第 2励振波形を生成する第 2励振波形生成手段と、 上記第 1励振波形と第 2励振波 形とを混合する混合手段と、 上記音声素片情報に含まれている声道調音特性パラ メータを取得し,この声道調音特性パラメータを用いて,上記混合された励振波形 に基づいて合成音声信号を生成する合成フィルタを備えるように成したことを特 徴としている。
この実施例によれば、 第 1励振波形生成手段によつて生成された第 1励振波形 と第 2励振波形生成手段によつて生成された上記第 1励振波形とは周波数が異な る第 2励振波形との混合励振波形が、 混合手段によって生成される。 そして、 こ の混合励振波形に基づいて、 上記選択された音声素片情報に含まれる声道調音特 性パラメータによつて声道調音特性が設定された合成フィルタによって、 合成音 声が生成される。 こうして、 例えば、 同一の入力テキストに基づく複数の声の高 さの音声が、 同時に発声される。
また、 第 6の実施例は、 上記波形伸縮手段,第 2波形重畳手段,波形伸縮重畳手 段あるいは第 2励振波形生成手段を、 複数設けたことを特徴としている。
この実施例によれば、 同一の入力テキストに基づいて同時発声させる際の人数 を 3人以上に増加でき、 バラエティーに富んだテキスト合成音声が生成される。 また、 第 7の実施例は、 上記混合手段を、 上記複数音声指示手段からの指示情 報に基づく混合率で上記混合を行うように成したことを特徴としている。
この実施例によれば、 同一の入力テキストに基づいて同時発声させる複数の人 夫々に遠近感を持たせたりして、 種々の場面に応じた複数人による同時発声が可 能になる。
また、 第 2の発明のプログラム記録媒体は、 コンピュータを、 上記第 1の発明 におけるテキスト解析手段,韻律生成手段,複数音声指示手段および複数音声合成 手段として機能させるテキスト音声合成処理プログラムが記録されたことを特徴 としている。
上記構成によれば、 上記第 1の発明の場合と同様に、 同一の入力テキストに基 づく複数音声の同時発声が、 テキスト解析手段および韻律生成手段の時分割処理 ゃピツチ変換処理の追加等を行うことなく簡単な処理で行われる。 図面の簡単な説明
図 1は、 この発明のテキスト音声合成装置におけるプロック図である。
図 2は、 図 1における複数音声合成器の構成の一例を示すプロック図である。 図 3 A〜Cは、 図 2に示す複数音声合成器の各部で生成される音声波形を示す 図である。
図 4は、 図 2とは異なる複数音声合成器の構成を示すプロック図である。 図 5 A〜 Cは、 図 4に示す複数音声合成器の各部で生成される音声波形を示す 図である。
図 6は、 図 2および図 4とは異なる複数音声合成器の構成を示すプロック図で ある。
図 7は、 図 2 ,図 4および図 6とは異なる複数音声合成器の構成を示すプロッ ク図である。
図 8 A〜Cは、 図 7に示す複数音声合成器の各部で生成される音声波形を示す 図である。
図 9は、 図 2 ,図 4,図 6および図 7とは異なる複数音声合成器の構成を示すブ 口ック図である。
図 1 0 A〜Dは、 図 9に示す複数音声合成器の各部で生成される信号波形を示 す図である。
図 1 1は、 従来のテキスト音声合成装置の構成を示すプロック図である。 発明を実施するための最良の形態
以下、 この発明を図示の実施の形態により詳細に説明する。
(第 1実施の形態)
図 1は、 本実施の形態のテキスト音声合成装置におけるプロック図である。 本 テキスト音声合成装置は、 テキスト入力端子 1 1 ,デキスト解析器 1 2 ,韻律生成 器 1 3,音声素片選択器 1 4,音声素片データベース 1 5 ,複数音声合成器 1 6,複 数音声指示器 1 7および出力端子 1 8で概略構成される。
上記テキスト入力端子 1 1,テキスト解析器 1 2,韻律生成器 1 3,音声素片選 択器 1 4 ,音声素片データベース 1 5および出力端子 1 8は、 図 1 1に示す従来 のテキスト音声合成装置におけるテキスト入力端子 1,テキスト解析器 2,韻律生 成器 3,音声素片選択器 4,音声素片データベース 5および出力端子 7と同様であ る。 すなわち、 入力端子 1 1から入力されたテキスト情報は、 テキスト解析器 1 2によって読みの情報に変換される。 そして、 韻律生成器 1 3によって上記読み 情報に基づいて韻律情報が生成され、 音声素片選択器 1 4によって、 音声素片デ ータベース 1 5から上記読み情報に基づいて V C V音声素片が選択され、 選択結 果情報が韻律情報と共に複数音声合成器 1 6に送出されるのである。
上記複数音声指示器 1 7は、 上記複数音声合成器 1 6に対してどのような複数 の音声を同時に発声するのかを指示する。 そうすると、 複数音声合成器 1 6は、 複数音声指示器 1 7からの指示に従って複数の音声信号を同時に合成するのであ る。 そうすることによって、 同一の入力テキストに基づいて複数の話者によって 同時に発声させることができるのである。 例えば、 「いらっしゃいませ」という発 声を、 男声と女声との 2名の話者で同時に行うことが可能になるのである。 上記複数音声指示器 1 7は、 上述したように、 上記複数音声合成器 1 6に対し て、 どのような複数の声で発声させるかを指示する。 その場合の指示の例として は、 通常の合成音声に対するピッチの変ィ匕率と、 ピッチを変化させた音声信号の 混合率とを指定する方法がある。 例えば「1オクターブ上の音声信号を、 振幅を 半分にして混合する」という指定である。 尚、 上述の例では、 2つの音声を同時 に発声させる例で説明しているが、 処理量やデータベースのサイズの增加は生じ るものの、 3つ以上の音声の同時発声にも容易に拡張できる。
上記複数音声合成器 1 6は、 上記複数音声指示器 1 7からの指示に従って、 複 数の音声を同時に発声させる処理を行う。 後に説明するように、 この複数音声合 成器 1 6は図 1 1に示す 1つの音声を発声させる従来のテキスト音声合成装置に おける音声合成器 6の処理を部分的に拡充して実現することができる。 したがつ て、 上記特開平 3 - 2 1 1 5 9 7号公報の場合のようにピッチ変換処理を後処理 として加える構成に比べて、 複数音声生成の処理量の増加を少なく抑えることが できるのである。
以下、 上記複数音声合成器 1 6の構成および動作について具体的に説明する。 図 2は、 複数音声合成器 1 6の構成の一例を示すブロック図である。 図 2におい て、 複数音声合成器 1 6は、 波形重畳器 2 1,波形伸縮器 2 2および混合器 2 3 カゝら構成される。 上記波形重畳器 2 1は、 音声素片選択器 1 4によって選択され た音声素片データを読み出し、 この音声素片データと音声素片選択器 1 4からの 韻律情報とに基づいて、 波形重畳によって音声信号を生成する。 そして、 生成さ れた音声信号は、 波形伸縮器 2 2と混合器 2 3とに送出される。 そうすると、 波 形伸縮器 2 2は、 音声素片選択器 1 4からの韻律情報と複数音声指示器 1 7から の上記指示とに基づいて、 波形重畳器 2 1からの音声信号の波形の時間軸を伸縮 して声の高さを変える。 そして、 伸縮後の音声信号が混合器 2 3に送出される。 混合器 2 3は、 波形重畳器 2 1からの標準の音声信号と波形伸縮器 2 2からの伸 縮後の音声信号との二つの音声信号を混合して、 出力端子 1 8に出力するのであ る。 ' 上記構成において、 上記波形重畳器 2 1で合成音を生成する処理としては、 例 えば、 特開昭 6 0 - 2 1 0 9 8号公報に開示されている波形重畳方式を用いてい る。 この波形重畳方式においては、 音声素片データベース 1 5内に音声素片を基 本周期単位の波形として記憶している。 そして、 波形重畳器 2 1は、 この波形を 指定のピツチに応じた時間間隔で繰り返し生成することによつて音声信号を生成 するのである。 波形重畳の処理として種々の実現方法が開発されているが、 例え ば繰り返す時間間隔が音声素片の基本周波数より長い場合は不足している部分に 0のデータを埋め、 逆に短い場合は波形の終端が急峻に変化しないように適当に 窓掛け処理を行った後に処理を打ち切る方法等がある。
次に、 上記波形伸縮器 2 2によって行われる上記波形重畳方式で生成された標 準の音声信号による声の高さを変える処理について説明する。 ここで、 声の高さ を変える処理は、 上記特開平 3 - 2 1 1 5 9 7号公報等に開示された従来の技術 においてはテキスト音声合成の出力信号に対して行うため、 ピッチ抽出処理が必 要である。 これに対して、 本実施の形態においては、 複数音声合成器 1 6に入力 される韻律情報に含まれるピッチ情報を用いるために、 ピッチ抽出処理を省くこ とができ効率的に実現できるのである。
図 3は、 本実施の形態における上記複数音声合成器 1 6の各部で生成される音 声信号波形を示す。 以下、 図 3に従って、 声の高さを変える処理について説明す る。 図 3 Aは、 波形重畳器 2 1によって上記波形重畳方式で生成された母音区間 の音声波形である。 波形伸縮器 2 2は、 音声素片選択器 1 4からの韻律情報の 1 つであるピッチと、 複数音声指示器 1 7から指示されたピッチ変化率の情報とに 基づいて、 波形重畳器 2 1で生成された図 3 Aの音声波形を基本周期 A毎に波形 伸縮する。 その結果、 図 3 Bに示すように、 全体が時間軸方向に伸縮された音声 波形が得られる。 その際に、 上記伸縮によって全体の時間長が変化しないように、 ピッチを高くする場合には適当に基本周期単位の波形を多く繰り返し、 逆にピッ チを低くする場合には間引くようにする。 図 3 Bの場合には基本周期を狭めた波 形に縮めているので、 図 3 Aの音声波形に比べピッチが高くなり、 周波数スぺク トルも高域に伸張された信号となる。 効果を分かり易く例で説明すると、 上記標 準の音声信号としての男声の合成音声信号に基づいて、 波形伸縮器 2 2によって 上記伸縮された音声信号としての女声の合成音声信号が作成されたことになるの である。
次に、 上記混合器 2 3は、 上記複数音声指示器 1 7から与えられる混合率に従 つて、 波形重畳器 2 1で生成された図 3 Aの音声波形と波形伸縮器 2 2で生成さ れた図 3 Bの音声波形との 2つの音声波形を混合する。 図 3 Cに混合された結果 の音声波形の一例を示す。 こうして、 同一のテキストに基づいて二人の話者によ る同時発声が実現されるのである。
上述したごとく、 本実施の形態においては、 上記複数音声合成器 1 6と複数音 声指示器 1 7とを有している。 さらに、 複数音声合成器 1 6を波形重畳器 2 1, 波形伸縮器 2 2および混合器 2 3で構成している。 そして、 複数音声指示器 1 7 によって、 複数音声合成器 1 6に対して、 標準の合成音声信号に対するピッチの 変化率(ピッチ変化率)と、 ピッチを変ィ匕させた音声信号の混合率とを指示する。 そうすると、 上記波形重畳器 2 1は、 音声素片データベース 1 5から読み出さ れた音声素片データと音声素片選択器 1 4からの韻律情報に基づいて、 波形重畳 によって標準音声信号を生成する。 一方、 波形伸縮器 2 2は、 音声素片選択器 1 4からの韻律情報と複数音声指示器 1 7からの上記指示とに基づいて、 上記標準 の音声信号の波形の時間軸を伸縮して声の高さを変える。 そして、 混合器 2 3に よって、 波形重畳器 2 1力 らの標準の音声信号と波形伸縮器 2 2からの伸縮音声 信号とを混合して、 出力端子 1 8に出力するようにしている。
したがって、 上記テキスト解析器 1 2および韻律生成器 1 3は、 時分割処理を 行うことなく 1つの入力テキスト情報に対してテキスト解析処理と韻律生成処理 とを行えばよい。 また、 複数音声合成器 1 6の後処理として、 ピッチ変換処理を 加える必要もない。 すなわち、 本実施の形態によれば、 同一のテキストに基づく 複数話者による合成音声の同時発声を、 より簡単な処理で、 より簡単な装置で実 現することができるのである。
(第 2実施の形態)
以下、 上記複数音声合成器 1 6の他の実施の形態について説明する。 図 4は、 本実施の形態における複数音声合成器 1 6の構成を示すプロック図である。 本複 数音声合成器 1 6は、 第 1波形重畳器 2 5,第 2波形重畳器 2 6および混合器 2 7で構成されている。 第 1波形重畳器 2 5は、 音声素片データベース 1 5から読 み出された音声素片データと音声素片選択器 1 4からの韻律情報とに基づいて、 上記波形重畳によって音声信号を生成して混合器 2 7に送出する。 一方、 第 2波 形重畳器 2 6は、 音声素片選択器 1 4カゝらの韻律情報の 1つであるピツチを複数 音声指示器 1 7から指示されたピッチ変化率に基づいて変更する。 そして、 第 1 波形重畳器 2 5が用いた音声素片データと同一の音声素片データと上記変更後の ピッチとに基づいて、 上記波形重畳によって音声信号を生成する。 そして、 生成 した音声信号を混合器 2 7に送出するのである。 混合器 2 7は、 第 1波形重畳器 2 5からの標準の音声信号と第 2波形重畳器 2 6からの音声信号との二つの音声 信号を、 複数音声指示器 1 7からの混合率に従って混合して出力端子 1 8に出力 するのである。
尚、 上記第 1波形重畳器 2 5による合成音声生成処理は、 上記第 1実施の形態 における波形重畳器 2 1の場合と同じである。 また、 上記第 2波形重畳器 2 6に よる合成音声生成処理も、 複数音声指示器 1 7からのピッチ変化率の指示に従つ てピッチを変更する点を除けば、 波形重畳器 2 1の場合と同じ通常の波形重畳処 理である。 したがって、 上記第 1実施の形態における複数音声合成器 1 6の場合 には、 波形重畳器 2 1とは構成を異にする波形伸縮器 2 2を有しているため、 指 定の基本周期に波形を伸縮する処理力別途必要であるのに対して、 本実施の形態 においては、 基本の機能が同じ二つの波形重畳器 2 5 , 2 6を用いるので、 実際 の構成においては、 第 1波形重畳器 2 5を時分割処理で 2回使用することによつ て第 2波形重畳器 2 6を削除することも可能であり、 構成を簡単にしてコストを 低減することも可能なのである。
図 5は、 本実施の形態における各部で生成される音声信号波形を示す。 以下、 図 5に従って音声信号生成処理について説明する。 図 5 Aは、 第 1波形重畳器 2 5によって標準の波形重畳方式で生成された母音区間の音声波形である。 図 5 B は、 第 2波形重畳器 2 6によって、 複数音声指示器 1 7から指示されたピッチ変 化率に基づいて変更したピツチを用いて、 標準のピツチとは異なるピッチで生成 された音声波形である。 この例では通常より高いピッチの音声信号が生成されて いる。 尚、 図 5 Bから分かるように、 第 2波形重畳器 2 6によって生成された音 声信号は、 図 5 Aの音声波形に対してピツチは変化しているが波形伸縮は行われ ないので、 周波数スぺクトルは第 1波形重畳器 2 5による標準の音声波形と同じ である。 効果を分かり易く例で説明すると、 上記標準の音声信号としての男声の 合成音声信号に基づいて、 第 2重畳器 2 6によってピッチを高めた男声の合成音 声信号が作成されたことになるのである。
次に、 上記混合器 2 7は、 上記複数音声指示器 1 7から与えられる混合率に従 つて、 第 1波形重畳器 2 5で生成された図 5 Aの音声波形と第 2波形重畳器 2 6 で生成された図 5 Bの音声波形との 2つの音声波形を混合する。 図 5 Cに混合さ れた結果の音声波形の一例を示す。 こうして、 同一のテキストに基づいて二人の 話者による同時発声が実現されるのである。
上述したごとく、 本実施の形態においては、 上記複数音声合成器 1 6を第 1波 形重畳器 2 5,第 2波形重畳器 2 6および混合器 2 7で構成している。 そして、 第 1波形重畳器 2 5によって、 音声素片データベース 1 5から読み出された音声 素片データに基づいて標準の音声信号を生成する。 一方、 第 2波形重畳器 2 6に よって、 音声素片選択器 1 4からのピッチを複数音声指示器 1 7からのピッチ変 化率に基づいて変更したピッチを用いて、 上記音声素片データに基づいて上記波 形重畳によって音声信号を生成する。 そして、 混合器 2 7によって、 両波形重畳 器 2 5, 2 6からの二つの音声信号を混合して、 出力端子 1 8に出力するように している。 したがって、 同一のテキストに基づいて二人の話者による同時発声を 簡単な処理で行うことができるのである。
また、 本実施の形態によれば、 基本の機能が同じ二つの波形重畳器 2 5 , 2 6 を用いるので、 第 1波形重畳器 2 5を時分割処理で 2回使用することによって第 2波形重畳器 2 6を削除することも可能であり、 上記第 1実施の形態に比して、 構成を簡単にしてコスト低減を図ることが可能になる。
(第 3実施の形態)
図 6は、 本実施の形態における複数音声合成器 1 6の構成を示すプロック図で ある。 本複数音声合成器 1 6は、 波形重畳器 3 1,波形伸縮重畳器 3 2及び混合 器 3 3で構成されている。 波形重畳器 3 1は、 音声素片データベース 1 5から読 み出された音声素片データと音声素片選択器 1 4からの韻律情報とに基づいて、 上記波形重畳によって音声信号を生成して混合器 3 3に送出する。 一方、 波形伸 縮重畳器 3 2は、 音声素片データベース 1 5から読み出された波形重畳器 3 1が 用いた音声素片データと同じ音声素片の波形を、 複数音声指示器 1 7から指示さ れたピッチ変化率に基づいて指定のピツチに応じた時間間隔に伸縮して繰り返し 生成することによつて音声信号を生成する。 その場合における上記伸縮の方法と しては、 線形補間等がある。 すなわち、 本実施の形態においては、 波形重畳器自 体に波形伸縮機能を持たせて波形重畳の処理過程において音声素片の波形を伸縮 するのである。 こうして生成された音声信号は混合器 3 3に送出される。 そうすると、 混合器 2 8は、 波形重畳器 3 1からの標準の音声信号と波形伸縮重畳器 3 2からの伸縮 音声信号との二つの音声信号を、 複数音声指示器 1 7から与えられた混合率に従 つて混合し、 出力端子 1 8に出力するのである。
本実施の形態の複数音声合成器 1 6における上記波形重畳器 3 1,波形伸縮重 畳器 3 2および混合器 3 3よって生成される音声信号の波形は、 図 3と同様であ る。 尚、 上記第 2実施の形態における第 2波形重畳器 2 6から出力される音声信 号もピッチは変化しているが、 周波数スペクトルは変化していないので、 声質的 には似ている複数の声が出力される。 これに対して、 本実施の形態における波形 伸縮重畳器 3 2から出力される音声信号は、 周波数スぺクトルも変化されている のである。
(第 4実施の形態)
図 7は、 本実施の形態における複数音声合成器 1 6の構成を示すブロック図で ある。 本複数音声合成器 1 6は、 第 2実施の形態の場合と同様に、 第 1波形重畳 器 3 5 ,第 2波形重畳器 3 6および混合器 3 7で構成されている。 さらに、 本実 施の形態においては、 第 2波形重畳器 3 6が専用に用いる音声素片データベース を、 第 1波形重畳器 3 5が用いる音声素片データベース 1 5と独立して設けてい る。 以下、 第 1波形重畳器 3 5が用いる音声素片データベース 1 5を第 1音声素 片データと称する一方、 第 2波形重畳器 3 6が用いる音声素片データベースを第 2音声素片データベース 3 8と称する。
上記第 1実施の形態〜第 3実施の形態においては、 ある一人の話者の声から作 成された音声素片データベース 1 5のみを用いているが、 本実施の形態において は、 音声素片データベース 1 5とは別の話者から作成された第 2音声素片データ ベース 3 8を備えて、 第 2波形重畳器 3 6によって用いられるのである。 この発 明の場合には、 元々異なる声質の 2種類の音声データベース 1 5, 3 8を用いる ので、 上記各実施の形態以上にパリエーションに富んだ複数の音質の同時発声が 可能になる。
尚、 この場合には、 上記複数音声指示器 1 7からは、 複数の音声素片データべ ースを用いて複数の音声合成を行う指定が出力される。 例えば「通常の合成音声 の生成には男性話者のデータを用い、 もう一つの合成音声の生成には別途女性話 者のデータベースを用いて、 二つを同比率で混合する」という指定である。
図 8は、 本実施の形態における上記複数音声合成器 1 6の各部によって生成さ れる音声信号波形を示す。 以下、 図 8に従って音声信号生成処理について説明す る。 図 8 Aは、 第 1音声素片データベース 1 5を用いて第 1波形重畳器 3 5によ つて生成された標準音声波形である。 また、 図 8 Bは、 第 2音声素片データべ一 ス 3 8を用いて第 2波形重畳器 3 6によって生成された標準音声波形よりもピッ チが高い音声信号波形である。 また、 図 8 Cは、 上記 2つの音声波形を混合した 音声波形である。 尚、 この場合、 第 1音声素片データベース 1 5を男性話者から 作成する一方、 第 2音声素片データベース 3 8を女性話者から作成しておけば、 第 2波形重畳器 3 6において波形の伸縮処理は行わずに女性の音声を生成できる のである。
(第 5実施の形態)
図 9は、 本実施の形態における複数音声合成器 1 6の構成を示すブロック図で ある。 本複数音声合成器 1 6は、 第 1励振波形生成器 4 1,第 2励振波形生成器 4 2 ,混合器 4 3および合成フィルタ 4 4で構成されている。 第 1励振波形生成 器 4 1は、 音声素片選択器 1 4からの韻律情報の 1つのピッチに基づいて標準の 励振波形を生成する。 また、 第 2励振波形生成器 4 2は、 上記ピッチを複数音声 指示器 1 7から指示されたピッチ変化率に基づいて変更する。 そして、 この変更 後のピッチに基づいて励振波形を生成する。 また、 混合器 4 3は、 第 1,第 2励 振波形生成器 4 1 , 4 2からの 2つの励振波形を、 複数音声指示器 1 7からの混 合率に従って混合して混合励振波形を生成する。 また、 合成フィルタ 4 4は、 音 声素片データベース 1 5からの音声素片データに含まれている声道調音特性を表 現するパラメータを取得する。 そして、 この声道調音特性パラメータを用いて、 上記混合励振波形に基づいて音声信号を生成する。
すなわち、 本複数音声合成器 1 6は、 ボコーダ一方式による音声合成処理を行 うものであり、 母音等の有声区間ではピツチに応じた時間間隔のパノレス列で成る 一方、 摩擦性の子音等の無声区間では白色雑音で成る励振波形を生成する。 そし て、 その励振波形を、 選択された音声素片に応じた声道調音特性を与える合成フ ィルタを通すことによつて合成音声信号を生成するのである。
図 1 0は、 本実施の形態における上記複数音声合成器 1 6の各部によって生成 される音声信号波形を示す。 以下、 図 1 0に従って、 本実施の形態における音声 信号生成処理について説明する。 図 1 0 Aは、 第 1励振波形生成器 4 1によって 生成された標準の励振波形である。 また、 図 1 0 Bは、 第 2励振波形生成器 4 2 によって生成された励振波形である。 この例の場合には、 複数音声指定器 1 7か ら指示されたピッチ変化率に基づいて、 音声素片選択器 1 4からのピッチを変更 した通常のピッチより高いピッチで生成されている。 混合器 4 3は、 複数音声指 示器 1 7からの混合率に従って上記 2つの励振波形を混合し、 図 1 0 Cに示すよ うな混合された励振波形を生成する。 図 1 0 Dは、 この混合励振波形を合成フィ ルタ 4 4に入力して得られた音声信号である。
上記各実施の形態における音声素片データベース 1 5, 3 8には波形重畳用の 音声素片の波形データが記憶されている。 これに対して、 本実施の形態における ボコーダ一方式用の上記音声素片データベース 1 5には、 各音声素片毎に声道調 音特性パラメータ(例えば、 線形予測パラメータ)のデータが記憶されている。 上述したごとく、 本実施の形態においては、 上記複数音声合成器 1 6を第 1励 振波形生成器 4 1 ,第 2励振波形生成器 4 2,混合器 4 3およぴ合成フィルタ 4 4 で構成している。 そして、 第 1励振波形生成器 4 1によって標準の励振波形を生 成する。 一方、 第 2励振波形生成器 4 2によって、 音声素片選択器 1 4からのピ ッチを複数音声指示器 1 7からのピッチ変化率に基づ V、て変更したピッチを用い て励振波形を生成する。 そして、 混合器 4 3によって、 両励振波形生成器 4 1 , 4 2からの二つの励振波形を混合し、 上記選択された音声素片に応じた声道調音 特性に設定された合成フィルタ 4 4を通すことによって合成音声信号を生成する ようにしている。
したがって、 本実施の形態によれば、 上記テキスト解析処理おょぴ韻律生成処 理を時分割で行ったり、 ピッチ変換処理を後処理として加えることなく、 同一の テキストに基づく複数話者による合成音声の同時発声を簡単な処理で実現するこ とができるのである。
尚、 上記各実施の形態においては、 摩擦性の子音等の無声区間に関しては上述 の処理は行わず、 一人の話者の合成音声信号のみを生成するようにしている。 つ まり、 二人が同時に発声しているように信号処理するのはピッチが存在する有声 区間のみなのである。 また、 上記第 1実施の形態における波形伸縮器 2 2,第 2 実施の形態における第 2波形重畳器 2 6 ,第 3実施の形態における波形伸縮重畳 器 3 2 ,第 4実施の形態における第 2波形重畳器 3 6および第 5実施の形態にお ける第 2励振波形生成器 4 2を複数設けて、 同一の入力テキストに基づいて同時 発声させる際の人数を 3人以上にすることもできる。
ところで、 上記各実施の形態における上記テキスト解析手段,韻律生成手段,複 数音声指示手段及び複数音声合成手段としての機能は、 プログラム記録媒体に記 録されたテキスト音声合成処理プログラムによって実現される。 上記プログラム 記録媒体は、 R OM (リード 'オンリ'メモリ)でなるプログラムメディアである。 または、 外部補助記憶装置に装着されて読み出されるプログラムメディアであつ てもよい。 尚、 何れの場合においても、 上記プログラムメディアからテキスト音 声合成処理プログラムを読み出すプログラム読み出し手段は、 上記プログラムメ ディアに直接アクセスして読み出す構成を有していてもよいし、 RAM (ランダ ム'アクセス'メモリ)に設けられたプロダラム記憶ェリァ(図示せず)にダウン口 一ドして、 上記プログラム記憶ェリアにアクセスして読み出す構成を有していて もよい。 尚、 上記プログラムメディアから R AMの上記プログラム記憶エリアに ダウンロードするためのダウンロードプログラムは、 予め本体装置に格納されて いるものとする。
ここで、 上記プログラムメディアとは、 本体側と分離可能に構成され、 磁気テ ープゃカセットテープ等のテープ系、 フロッピーディスク,ハードディスク等の 磁気ディスクや C D (コンパクトディスク) - R OM, MO (光磁気)ディスク, MD (ミ二ディスク), D VD (ディジタルビデオディスク)等の光ディスクのディスク 系、 I C (集積回路)カードや光カード等のカード系、 マスク R OM, E P R OM
(紫外線消去型 R OM) , E E P R OM (電気的消去型 R OM),フラッシュ R OM 等の半導体メモリ系を含めた、 固定的にプログラムを担持する媒体である。 また、 上記各実施の形態におけるテキスト音声合成装置は、 モデムを備えてィ ンターネットを含む通信ネットワークと接続可能な構成を有していれば、 上記プ ログラムメディアは、 通信ネットワークからのダウンロード等によつて流動的に プログラムを坦持する媒体であっても差し支えない。 尚、 その場合における上記 通信ネットワークからダウンロードするためのダウンロードプログラムは、 予め 本体装置に格納されているものとする。 または、 別の記録媒体からインストール されるものとする。 '
尚、 上記記録媒体に記録されるものはプログラムのみに限定されるものではな く、 データも記録することが可能である。

Claims

請 求 の 範 囲
1 . 入力されたテキスト情報の読みおょぴ品詞情報に基づいて音声素片データ ベースから必要な音声素片情報を選択し、 この選択された音声素片情報に基づい て音声信号を生成するテキスト音声合成装置において、
上記入力テキスト情報を解析して読みおよび品詞情報を得るテキスト解析手段 (12)と、
上記読みおよび品詞情報に基づいて韻律情報を生成する韻律生成手段 ( 13)と、 同一の入力テキストに対する複数音声の同時発声を指示する複数音声指示手段 (17)と、
上記複数音声指示手段 (17)からの指示を受け、 上記韻律生成手段 (13)からの韻 律情報と上記音声素片データベース(15)から選択された音声素片情報とに基づい て、 複数の合成音声信号を生成する複数音声合成手段 (16)を備えたことを特徴と するテキスト音声合成装置。
2 . 請求項 1に記載のテキスト音声合成装置において、
上記複数音声合成手段 (16)は、
上記音声素片情報と韻律情報とに基づいて、 波形重畳法によつて音声信号を生 成する波形重畳手段 1)と、
上記韻律情報と上記複数音声指示手段 (17)からの指示情報とに基づいて、 上記 波形重畳手段 (21)によつて生成された音声信号の波形の時間軸を伸縮して声の高 さが異なる音声信号を生成する波形伸縮手段 (22)と、
上記波形重畳手段 (21)からの音声信号と上記波形伸縮手段 (22)からの音声信号 とを混合する混合手段 (23)
を備えていることを特徴とするテキスト音声合成装置。
3 . 請求項 1に記載のテキスト音声合成装置において、
上記複数音声合成手段 (16)は、
上記音声素片情報と韻律情報とに基づ 、て、 波形重畳法によつて音声信号を生 成する第 1波形重畳手段 (25)と、
上記音声素片情報と韻律情報と上記複数音声指示手段 (17)からの指示情報とに 基づいて、 上記第 1波形重畳手段 (25)とは異なる基本周期で、 上記波形重畳法に よつて音声信号を生成する第 2波形重畳手段 (26)と、
上記第 1波形重畳手段からの音声信号と上記第 2波形重畳手段からの音声信号 とを混合する混合手段 (27)
を備えていることを特徴とするテキスト音声合成装置。
4. 請求項 1に記載のテキスト音声合成装置において、
上記複数音声合成手段 (16)は、
上記音声素片情報と韻律情報とに基づいて、 波形重畳法によって音声信号を生 成する第 1波形重畳手段 (35)と、
上記音声素片データベース(15)としての第 1音声素片データベースとは異なる 音声素片情報が格納された第 2音声素片データベース(38)と、
上記第 2音声素片データベース(38)から選択された音声素片情報と、 上記韻律 情報と、 上記複数音声指示手段 (17)からの指示情報とに基づいて、 上記波形重畳 法によって音声信号を生成する第 2波形重畳手段 (36)と、
上記第 1波形重畳手段 (35)からの音声信号と上記第 2波形重畳手段 (36)からの 音声信号とを混合する混合手段 (37)
を備えていることを特徴とするテキスト音声合成装置。
5 . 請求項 1に記載のテキスト音声合成装置において、
上記複数音声合成手段 (16)は、
上記音声素片と韻律情報とに基づいて、 波形重畳法によって音声信号を生成す る波形重畳手段 (31)と、
上記韻律情報と上記複数音声指示手段 (17)からの指示情報とに基づいて上記音 声素片の波形の時間軸を伸縮し、 上記波形重畳法によつて音声信号を生成する波 形伸縮重畳手段 (32)と、
上記波形重畳手段 (31)からの音声信号と上記波形伸縮重畳手段 (32)からの音声 信号とを混合する混合手段 (33)
を備えていることを特徴とするテキスト音声合成装置。
6 . 請求項 1に記載のテキスト音声合成装置において、
上記複数音声合成手段 (16)は、 上記韻律情報に基づいて、 第 1励振波形を生成する第 1励振波形生成手段 (41) と、
上記韻律情報と上記複数音声指示手段 (17)からの指示情報とに基づいて、 上記 第 1励振波形とは周波数が異なる第2励振波形を生成する第2励振波形生成手段 (42)と、
上記第 1励振波形と第 2励振波形とを混合する混合手段 (43)と、
上記音声素片情報に含まれて ヽる声道調音特性パラメータを取得し、 この声道 調音特性パラメータを用いて、 上記混合された励振波形に基づいて合成音声信号 を生成する合成フィルタ(44)
を備えていることを特徴とするテキスト音声合成装置。
7 . 請求項 2に記載のテキスト音声合成装置において、
上記波形伸縮手段 (22)は、 複数存在することを特徴とするテキスト音声合成装
8 . 請求項 3に記載のテキスト音声合成装置において、
上記第 2波形重畳手段 (26)は、 複数存在することを特徴とするテキスト音声合
9 . 請求項 4に記載のテキスト音声合成装置において、 上記第 2波形重畳手段 (36)は、 複数存在することを特徴とするテキスト音声合成装置。
1 0 . 請求項 5に記載のテキスト音声合成装置において、 上記波形伸縮重畳手 段 (32)は、 複数存在することを特徴とするテキスト音声合成装置。
1 1 . 請求項 6に記載のテキスト音声合成装置において, 上記第 2励振波形生 成手段 (42)は、 複数存在することを特徴とするテキスト音声合成装置。
1 2 . 請求項 2に記載のテキスト音声合成装置において、
上記混合手段 (23)は、 上記複数音声指示手段 (17)からの指示情報に基づく混合 率で上記混合を行うようになっていることを特徴とするテキスト音声合成装置。
1 3 . 請求項 3に記載のテキスト音声合成装置において、
上記混合手段 (27)は、 上記複数音声指示手段 (17)からの指示情報に基づく混合 率で上記混合を行うようになっていることを特徴とするテキスト音声合成装置。
1 4 · 請求項 4に記載のテキスト音声合成装置において、 上記混合手段 (37)は、 上記複数音声指示手段 (17)からの指示情報に基づく混合 率で上記混合を行うようになっていることを特徴とするテキスト音声合成装置。
1 5 . 請求項 5に記載のテキスト音声合成装置において、
上記混合手段 (33)は、 上記複数音声指示手段 (17)からの指示情報に基づく混合 率で上記混合を行うようになっていることを特徴とするテキスト音声合成装置。
1 6 . 請求項 6に記載のテキスト音声合成装置において、
上記混合手段 (43)は、 上記複数音声指示手段 (17)からの指示情報に基づく混合 率で上記混合を行うようになっていることを特徴とするテキスト音声合成装置。 1 7 . コンピュータを、
請求項 1におけるテキスト解析手段 (12),韻律生成手段(13) ,複数音声指示手段 (17)および複数音声合成手段(IS)
として機能させるテキスト音声合成処理プログラムが記録されたことを特徴とす るコンピュータ読出し可能なプログラム記録媒体。
PCT/JP2001/011511 2000-12-28 2001-12-27 Dispositif de synthese vocale de texte et support d'enregistrement de programme WO2002054383A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US10/451,825 US7249021B2 (en) 2000-12-28 2001-12-27 Simultaneous plural-voice text-to-speech synthesizer

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000400788A JP3673471B2 (ja) 2000-12-28 2000-12-28 テキスト音声合成装置およびプログラム記録媒体
JP2000-400788 2000-12-28

Publications (1)

Publication Number Publication Date
WO2002054383A1 true WO2002054383A1 (fr) 2002-07-11

Family

ID=18865310

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/011511 WO2002054383A1 (fr) 2000-12-28 2001-12-27 Dispositif de synthese vocale de texte et support d'enregistrement de programme

Country Status (3)

Country Link
US (1) US7249021B2 (ja)
JP (1) JP3673471B2 (ja)
WO (1) WO2002054383A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366732A (zh) * 2012-04-06 2013-10-23 上海博泰悦臻电子设备制造有限公司 语音播报方法及装置、车载系统

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
US7571099B2 (en) * 2004-01-27 2009-08-04 Panasonic Corporation Voice synthesis device
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
JP2006065105A (ja) * 2004-08-27 2006-03-09 Canon Inc 音声処理装置および方法
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
JP2006337468A (ja) * 2005-05-31 2006-12-14 Brother Ind Ltd 音声合成装置及び音声合成プログラム
US20070083367A1 (en) * 2005-10-11 2007-04-12 Motorola, Inc. Method and system for bandwidth efficient and enhanced concatenative synthesis based communication
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
JP2009025328A (ja) * 2007-07-17 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
JP4785909B2 (ja) * 2008-12-04 2011-10-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置
US8731932B2 (en) 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
RU2606312C2 (ru) * 2014-11-27 2017-01-10 Роман Валерьевич Мещеряков Устройство синтеза речи
EP3598434A4 (en) * 2017-03-13 2020-04-22 Sony Corporation LEARNING DEVICE, LEARNING METHOD, LANGUAGE SYNTHETIZER AND LANGUAGE SYNTHESIS METHOD
US11295721B2 (en) * 2019-11-15 2022-04-05 Electronic Arts Inc. Generating expressive speech audio from text data

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01197793A (ja) * 1988-02-02 1989-08-09 Sharp Corp 音声合成装置
JPH01169879U (ja) * 1988-05-20 1989-11-30
JPH0675594A (ja) * 1992-08-26 1994-03-18 Oki Electric Ind Co Ltd テキスト音声変換システム
JPH08123455A (ja) * 1994-10-19 1996-05-17 Ibm Japan Ltd 音声合成方法及びシステム
JPH08129398A (ja) * 1994-11-01 1996-05-21 Oki Electric Ind Co Ltd テキスト解析装置
JPH10124292A (ja) * 1996-10-24 1998-05-15 Mitsubishi Electric Corp 音声マンマシンインタフェース装置
JPH10290225A (ja) * 1997-04-15 1998-10-27 Nippon Telegr & Teleph Corp <Ntt> ディジタル音声ミキシング装置
JPH11243456A (ja) * 1998-02-26 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> ディジタル音声ミキシング方法
JP2000010580A (ja) * 1998-06-22 2000-01-14 Toshiba Corp 音声合成方法及び装置
JP2002023778A (ja) * 2000-06-30 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
JP2002023787A (ja) * 2000-07-06 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6021098A (ja) 1983-07-15 1985-02-02 沖電気工業株式会社 音声合成方法
JPH03211597A (ja) 1990-01-17 1991-09-17 Hitachi Ltd カラオケ装置
JP3083624B2 (ja) 1992-03-13 2000-09-04 株式会社東芝 音声規則合成装置
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
IT1266943B1 (it) * 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
JPH09244693A (ja) 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JP3678522B2 (ja) 1997-01-06 2005-08-03 オリンパス株式会社 ズームレンズを備えたカメラ
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
JPH11243256A (ja) 1997-12-03 1999-09-07 Canon Inc 分布帰還形半導体レーザとその駆動方法
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout &amp; Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US6823309B1 (en) * 1999-03-25 2004-11-23 Matsushita Electric Industrial Co., Ltd. Speech synthesizing system and method for modifying prosody based on match to database
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01197793A (ja) * 1988-02-02 1989-08-09 Sharp Corp 音声合成装置
JPH01169879U (ja) * 1988-05-20 1989-11-30
JPH0675594A (ja) * 1992-08-26 1994-03-18 Oki Electric Ind Co Ltd テキスト音声変換システム
JPH08123455A (ja) * 1994-10-19 1996-05-17 Ibm Japan Ltd 音声合成方法及びシステム
JPH08129398A (ja) * 1994-11-01 1996-05-21 Oki Electric Ind Co Ltd テキスト解析装置
JPH10124292A (ja) * 1996-10-24 1998-05-15 Mitsubishi Electric Corp 音声マンマシンインタフェース装置
JPH10290225A (ja) * 1997-04-15 1998-10-27 Nippon Telegr & Teleph Corp <Ntt> ディジタル音声ミキシング装置
JPH11243456A (ja) * 1998-02-26 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> ディジタル音声ミキシング方法
JP2000010580A (ja) * 1998-06-22 2000-01-14 Toshiba Corp 音声合成方法及び装置
JP2002023778A (ja) * 2000-06-30 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
JP2002023787A (ja) * 2000-07-06 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366732A (zh) * 2012-04-06 2013-10-23 上海博泰悦臻电子设备制造有限公司 语音播报方法及装置、车载系统

Also Published As

Publication number Publication date
US20040054537A1 (en) 2004-03-18
JP3673471B2 (ja) 2005-07-20
US7249021B2 (en) 2007-07-24
JP2002202789A (ja) 2002-07-19

Similar Documents

Publication Publication Date Title
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JP3361066B2 (ja) 音声合成方法および装置
WO2011004579A1 (ja) 声質変換装置、音高変換装置および声質変換方法
JPS62160495A (ja) 音声合成装置
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
WO2004097792A1 (ja) 音声合成システム
JPH1138989A (ja) 音声合成装置及び方法
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4490818B2 (ja) 定常音響信号のための合成方法
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JPH08335096A (ja) テキスト音声合成装置
JPH11249679A (ja) 音声合成装置
JP3233036B2 (ja) 歌唱音合成装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP3575919B2 (ja) テキスト音声変換装置
JP2577372B2 (ja) 音声合成装置および方法
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP2002304186A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JP2002244693A (ja) 音声合成装置および音声合成方法
JP4305022B2 (ja) データ作成装置、プログラム及び楽音合成装置
JPH09325788A (ja) 音声合成装置及び方法
JP2001312300A (ja) 音声合成装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 10451825

Country of ref document: US

122 Ep: pct application non-entry in european phase