WO1999034354A1 - Sound encoding method and sound decoding method, and sound encoding device and sound decoding device - Google Patents

Sound encoding method and sound decoding method, and sound encoding device and sound decoding device Download PDF

Info

Publication number
WO1999034354A1
WO1999034354A1 PCT/JP1998/005513 JP9805513W WO9934354A1 WO 1999034354 A1 WO1999034354 A1 WO 1999034354A1 JP 9805513 W JP9805513 W JP 9805513W WO 9934354 A1 WO9934354 A1 WO 9934354A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
speech
driving
time
codebook
Prior art date
Application number
PCT/JP1998/005513
Other languages
English (en)
French (fr)
Inventor
Tadashi Yamaura
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=18439687&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO1999034354(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to JP2000526920A priority Critical patent/JP3346765B2/ja
Priority to EP98957197A priority patent/EP1052620B1/en
Priority to CA002315699A priority patent/CA2315699C/en
Priority to IL13672298A priority patent/IL136722A0/xx
Priority to AU13526/99A priority patent/AU732401B2/en
Priority to US09/530,719 priority patent/US7092885B1/en
Priority to DE69825180T priority patent/DE69825180T2/de
Publication of WO1999034354A1 publication Critical patent/WO1999034354A1/ja
Priority to NO20003321A priority patent/NO20003321D0/no
Priority to NO20035109A priority patent/NO323734B1/no
Priority to NO20040046A priority patent/NO20040046L/no
Priority to US11/090,227 priority patent/US7363220B2/en
Priority to US11/188,624 priority patent/US7383177B2/en
Priority to US11/653,288 priority patent/US7747441B2/en
Priority to US11/976,883 priority patent/US7747433B2/en
Priority to US11/976,840 priority patent/US7747432B2/en
Priority to US11/976,878 priority patent/US20080071526A1/en
Priority to US11/976,830 priority patent/US20080065375A1/en
Priority to US11/976,877 priority patent/US7742917B2/en
Priority to US11/976,841 priority patent/US20080065394A1/en
Priority to US11/976,828 priority patent/US20080071524A1/en
Priority to US12/332,601 priority patent/US7937267B2/en
Priority to US13/073,560 priority patent/US8190428B2/en
Priority to US13/399,830 priority patent/US8352255B2/en
Priority to US13/618,345 priority patent/US8447593B2/en
Priority to US13/792,508 priority patent/US8688439B2/en
Priority to US14/189,013 priority patent/US9263025B2/en
Priority to US15/043,189 priority patent/US9852740B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the present invention relates to a speech encoding method, a speech decoding method, a speech encoding device, and a speech decoding device.
  • the present invention relates to a voice coding / decoding method and a voice coding / decoding device used for compression coding / decoding of a voice signal into a digital signal, and particularly to a quality at a low bit rate.
  • TECHNICAL FIELD The present invention relates to a speech encoding method and a speech decoding method for reproducing high-sound speech, and a speech encoding device and a speech decoding device.
  • CELP Code-Excited Linear Prediction: CELP
  • BSAtal ICASSP '85, pp.937-940, 1985
  • Fig. 6 shows an example of the overall configuration of the CELP speech coding and decoding method.
  • 101 is an encoding unit
  • 102 is a decoding unit
  • 103 is multiplexing means
  • 10 is a multiplexing unit.
  • 4 is a separation means.
  • the encoding unit 101 includes a linear prediction parameter analysis unit 105, a linear prediction parameter encoding unit 106, a synthesis filter 107, an adaptive codebook 108, and a driving code.
  • the decoding unit 102 includes a linear prediction parameter decoding unit 112, a synthesis filter 113, an adaptive codebook 114, a driving codebook 115, and a gain decoding unit. 1 16 and weighting and adding means 13 9.
  • the linear prediction parameter analysis means 105 analyzes the input voice S101 and extracts the linear prediction parameter that is the spectrum information of the voice.
  • the linear prediction parameter coding means 106 codes the linear prediction parameter and sets the coded linear prediction parameter as a coefficient of the synthesis filter 107.
  • the adaptive codebook 108 stores the previous driving excitation signal, and the past driving excitation signal is periodically repeated in accordance with the adaptive code input from the distance calculating means 111. Outputs time-series vectors.
  • the driving codebook 109 stores, for example, a plurality of time-series vectors configured to learn so as to reduce distortion between the learning speech and the encoded speech, and stores the distance vector. Outputs the time-series vector corresponding to the drive code input from the calculation means 111.c
  • Each of the time-series vectors from the adaptive codebook 108 and the drive codebook 109 is gain-coded.
  • the weighting and adding means 1338 weights and adds the weights according to the respective gains given from the means 110, and supplies the result of the addition to the synthesis filter 107 as a driving sound source signal.
  • the distance calculation means 111 finds the distance between the coded speech and the input speech S101, and searches for an adaptive code, a driving code, and a gain that minimize the distance. After the above coding is completed, the code of the linear prediction parameter, the input voice and the code The adaptive code, drive code, and gain code that minimize distortion with the encoded speech are output as encoding results.
  • the linear prediction parameter decoding means 112 decodes the linear prediction parameters from the codes of the linear prediction parameters, and outputs them as coefficients of the synthesis filter 113.
  • adaptive codebook 1 14 outputs a time-series vector in which past driving excitation signals are periodically repeated corresponding to the adaptive code
  • driving codebook 1 15 outputs the driving codebook.
  • the time series vector corresponding to the signal is output.
  • These time series vectors are weighted and added by weighting and adding means 1339 according to the respective gains decoded from the gain codes by the gain decoding means 116, and The result of the addition is supplied to the synthesis filter 113 as a driving sound source signal, and an output voice S103 is obtained.
  • FIG. 7 in which the same reference numerals are assigned to the corresponding means as in FIG. 6 shows an example of the overall configuration of this conventional speech coding / decoding method.
  • State determining means, 118 driving codebook switching means, 119 is a first driving codebook, and 120 is a second driving codebook.
  • reference numeral 121 denotes a driving codebook switching means
  • 122 denotes a first driving codebook
  • 123 denotes a second driving codebook.
  • the operation of the encoding / decoding method having such a configuration will be described.
  • the voice state determination means 117 analyzes the input voice S101 and determines the voice state, for example, as voiced / unvoiced. Judge which of the two states it is.
  • the driving codebook switching means 1 18 uses the first driving codebook 1 19 if it is voiced and the second driving codebook 1 20 if it is unvoiced according to the voice state determination result. As a result, the driving codebook used for encoding is switched, and which driving codebook is used is encoded.
  • the driving codebook switching means 122 1 determines whether or not the driving codebook is used in the coding means 101, and the driving codebook switching means 1221, in the coding means 101, The first driving codebook 122 and the second driving codebook 122 are switched assuming that the same driving codebook is used.
  • a driving codebook suitable for encoding is prepared for each state of speech, and the driving codebook is switched according to the state of input speech. By using this, the quality of the reproduced sound can be improved.
  • a conventional speech coding / decoding method for switching between a plurality of driving codebooks without increasing the number of transmission bits is disclosed in Japanese Patent Application Laid-Open No. Hei 8-185198. is there. In this method, a plurality of driving codebooks are switched and used according to the pitch period selected in the adaptive codebook. As a result, it is possible to use a drive codebook adapted to the characteristics of the input speech without increasing the transmission information.
  • a synthesized speech is generated using a single driving codebook.
  • the time-series vector stored in the driving codebook is non-noise with many pulses. For this reason, when noise-like speech such as background noise or fricative consonants is coded and synthesized, the coded speech produces unnatural sounds such as jaggies and ticks. there were.
  • This problem can be solved by constructing the driving codebook only from noise-like time-series vectors, but the quality of the entire coded speech Deteriorates.
  • a plurality of driving codebooks are switched according to the state of input speech to generate coded speech.
  • the driving codebook is composed of a noise-like time-sequence vector, and if it is other voiced parts, it is composed of a non-noise time-series vector
  • the decoding side uses the same driving codebook as the encoding side, it is necessary to encode and transmit information on which driving codebook is newly used, which is a low bit rate. There was a problem when it hindered the conversion to a computer.
  • the driving codebook is switched in accordance with a pitch period selected by an adaptive codebook. Have been replaced.
  • the pitch period selected in the adaptive codebook is different from the pitch period of the actual voice, and it is not possible to judge whether the state of the input voice is noisy or non-noise just from its value. The problem of unnatural coded speech is not solved.
  • the present invention has been made in order to solve such a problem, and an object of the present invention is to provide an audio encoding / decoding method and apparatus for reproducing high quality audio even at a low bit rate. Disclosure of the invention
  • a speech encoding method provides a method for encoding speech information.
  • Using at least one code or coding result of the information and pitch information, the noise The degree was evaluated, and one of multiple driving codebooks was selected according to the evaluation result.
  • the speech encoding method of the next invention comprises a plurality of driving codebooks having different degrees of noise in the stored time-series vectors, and responds to the evaluation result of the degree of noise in speech.
  • a plurality of driving codebooks are switched.
  • the speech encoding method of the next invention changes the degree of noise of the time-series vector stored in the driving codebook according to the evaluation result of the degree of noise of speech. I went.
  • the speech encoding method includes a driving codebook storing a noise-like time-series vector, and a signal sample of a driving sound source is provided in accordance with an evaluation result of the degree of noise of speech. By decimating, time series vectors with a low degree of noise are generated.
  • the speech coding method of the next invention is characterized in that a first driving codebook storing a noise-like time-series vector and a second driving codebook storing a non-noise-like time-series vector. And the weighting of the time series vector of the first driving codebook and the time series vector of the second driving codebook according to the evaluation result of the degree of noise in speech. The added time series vector is generated.
  • the speech decoding method of the next invention is characterized in that at least one of the spectrum information, the power information and the pitch information or the decoding result is used and the noise of the speech in the decoding section is reduced. Then, one of multiple driving codebooks was selected according to the evaluation result.
  • the speech decoding method comprises a plurality of driving codebooks having different degrees of noise in the stored time-series vectors, and according to the evaluation result of the degree of noise in the speech. To switch between multiple drive codebooks. I was afraid.
  • the degree of noise of the time-series vector stored in the driving codebook is changed according to the evaluation result of the degree of noise of speech. I did it.
  • the speech decoding method further comprises a driving codebook storing a noise-like time-series vector, and the signal sample of the driving sound source is determined according to the evaluation result of the degree of noise of the speech. By decimating, time series vectors with a low degree of noise are generated.
  • the speech decoding method is characterized in that the first driving codebook storing a noise-like time-series vector and the second driving codebook storing a non-noise-like time-series vector. Weighting the time series vector of the first driving codebook and the time series vector of the second driving codebook according to the evaluation result of the degree of noise in speech. Then, an added time series vector is generated.
  • a speech encoding apparatus encodes spectrum information of input speech and outputs the encoded information as one element of an encoding result.
  • the encoding is performed by using at least one code or encoding result of the spectrum information and the part information obtained from the encoded spectrum information from the spectrum information encoding unit.
  • a noise level evaluation unit that evaluates the degree of noise of speech in the section and outputs an evaluation result; a first driving codebook in which a plurality of non-noise time-series vectors are stored; A second driving codebook in which a time-series vector is stored, and a driving code for switching between the first driving codebook and the second driving codebook based on the evaluation result of the noise degree evaluation unit.
  • a book switching unit and a time series vector from the first driving codebook or the second driving codebook.
  • a weighted addition unit for weighted summing in accordance with Le to gain each time series base click preparative Le The weighted time-series vector is used as a driving sound source signal, and a synthesized sound is obtained based on the driving sound source signal and the coded spectrum information from the spectrum information coding unit.
  • the distance between the filter and the coded speech and the input speech is obtained, a drive code and a gain that minimize the distance are searched, and the result is used as a drive code and a gain code as an encoding result.
  • a distance calculation unit for outputting.
  • the speech decoding apparatus further comprises a spectrum information decoding section for decoding the spectrum information from the code of the spectrum information, and the spectrum information decoding section. Using at least one decoding result of the spectrum information and power information obtained from the decoded spectrum information from the decoding unit or the code of the spectrum information.
  • a noise evaluation unit that evaluates the degree of noise of the voice in the decoding section and outputs an evaluation result; and a first driving codebook storing a plurality of non-noise time-series vectors. .
  • a second driving codebook in which a plurality of noise-like time-series vectors are stored; and a first driving codebook and a second driving codebook based on the evaluation result of the noise degree evaluation unit.
  • a drive codebook switching unit that switches between the first drive codebook and the second drive codebook.
  • a weighting and adding unit for weighting and adding the vectors in accordance with the gains of the respective time-series vectors, and the weighted time-series vectors as a drive sound source signal, and the drive sound source signal and the spectrum
  • a synthesis filter for obtaining a decoded speech based on the decoded spectrum information from the torque information decoding unit.
  • a speech encoding apparatus is a code-driven linear prediction (CELP) speech encoding apparatus, wherein at least one of the spectrum information, the power information, and the pitch information is encoded or encoded.
  • CELP code-driven linear prediction
  • a noise evaluation unit that evaluates the degree of noise of the speech in the coding section using the result, and switches a plurality of driving codebooks according to the evaluation result of the noise evaluation unit. And a driving codebook switching unit.
  • a speech decoding apparatus is a code-driven linear prediction (CELP) speech decoding apparatus, wherein at least one of the spectrum information, power information, and pitch information or a decoding result is used.
  • CELP code-driven linear prediction
  • a noise level estimating unit for evaluating the degree of noise of speech in the decoding section, and a driving codebook switching unit for switching a plurality of driving codebooks according to the evaluation result of the noise level estimating unit. It is characterized by. BRIEF DESCRIPTION OF THE FIGURES
  • FIG. 1 is a block diagram showing an overall configuration of a first embodiment of a speech coding and decoding apparatus according to the present invention.
  • FIG. 2 is a table for explaining the evaluation of the degree of noise in Embodiment 1 of FIG.
  • FIG. 3 is a block diagram showing an overall configuration of a third embodiment of the speech coding and decoding apparatus according to the present invention.
  • FIG. 4 is a block diagram showing an overall configuration of a fifth embodiment of the speech coding and decoding apparatus according to the present invention.
  • FIG. 5 is a schematic diagram for explaining the weight determination process in the fifth embodiment of FIG.
  • FIG. 6 is a block diagram showing the overall configuration of a conventional CELP speech coding / decoding device.
  • FIG. 7 is a block diagram showing the overall configuration of a conventional improved CELP speech coding and decoding apparatus.
  • FIG. 1 shows an overall configuration of a first embodiment of a speech encoding method and a speech decoding method according to the present invention.
  • 1 is an encoding unit
  • 2 is a decoding unit
  • 3 is a multiplexing unit
  • 4 is a demultiplexing unit.
  • the coding section 1 includes a linear prediction parameter analysis section 5, a linear prediction parameter coding section 6 , a synthesis filter 7, an adaptive codebook 8, a gain coding section 10 and a distance calculation section 1.
  • the decoding unit 2 includes a linear prediction parameter decoding unit 12, a synthesis filter 13, an adaptive codebook 14, a first driving codebook 22, and a second driving codebook 23.
  • Fig. 1, 5 is a linear prediction parameter analysis unit that analyzes input speech S1 and extracts linear prediction parameters that are speech spectrum information. Is a spectrum information encoding unit that encodes the linear prediction parameter, which is spectrum information, and sets the coded linear prediction parameter as a coefficient of the synthesis filter 7.
  • the linear predictive parameter coding unit, 19, 22 is the first driving codebook in which a plurality of non-noise time-series vectors are stored, and 20, 23 are A second driving codebook that stores multiple noise-like time-series vectors, 24 and 26 are noise degree evaluation units that evaluate the degree of noise, and 25 and 27 are driven by the degree of noise.
  • a driving codebook switching unit that switches codebooks.
  • the linear prediction parameter analysis unit 5 analyzes the input speech S1, and extracts linear prediction parameters, which are speech spectrum information.
  • Linear prediction parameter coding The unit 6 encodes the linear prediction parameter, sets the encoded linear prediction parameter as a coefficient of the synthesis filter 7, and outputs the coefficient to the noise evaluation unit 24. I do.
  • the adaptive codebook 8 stores the past driving excitation signal, and stores a time-series data obtained by periodically repeating the past driving excitation signal corresponding to the adaptive code input from the distance calculator 11. Outputs a vector.
  • the noise degree evaluator 24 uses the coded linear prediction parameter input from the linear prediction parameter encoder 6 and the adaptive code as a vector, for example, as shown in FIG.
  • the degree of noise in the coding section is evaluated from the slope, short-term prediction gain, and pitch fluctuation of the coding section, and the evaluation result is output to the driving codebook switching section 25.
  • the driving codebook switching unit 25 uses the first driving codebook 19 if the noise level is low, and uses the second driving codebook 20 if the noise level is high, according to the evaluation result of the noise level. As a result, the driving codebook used for encoding is switched.
  • the first driving codebook 19 includes a plurality of non-noise time-series vectors, for example, a plurality of time-series vectors configured to learn so as to reduce distortion between the training speech and its encoded speech. Are stored.
  • the second driving codebook 20 stores a plurality of noise-like time-series vectors, for example, a plurality of time-series vectors generated from random noise. Outputs the time-series vectors corresponding to the drive codes input from 1 respectively.
  • Each time-series vector from the adaptive codebook 8, the first excitation codebook 19 or the second excitation codebook 20 depends on the respective gains given from the gain encoding unit 10
  • the weighted addition is performed by the weighting and adding section 38, and the result of the addition is supplied to the synthesis filter 7 as a drive excitation signal to obtain an encoded voice.
  • the distance calculation unit 11 calculates the distance between the coded speech and the input speech S1, and calculates the optimal Search for adaptive codes, driving codes, and gains.
  • the code of the linear prediction parameter, the adaptive code that minimizes the distortion between the input speech and the coded speech, the driving code, and the code of the gain are output as the coding result S2. .
  • the above is the characteristic operation of the speech encoding method according to the first embodiment.
  • the decoding unit 2 will be described.
  • the linear prediction parameter decoding unit 12 decodes the linear prediction parameter from the code of the linear prediction parameter and sets it as a coefficient of the synthesis filter 13.
  • the signal is output to the noise level evaluation unit 26.
  • decoding of sound source information will be described.
  • the adaptive codebook 14 outputs a time-series vector in which past driving source signals are periodically repeated according to the adaptive code.
  • the noise degree evaluation unit 26 includes a noise degree evaluation unit 24 of the encoding unit 1 based on the decoded linear prediction parameter input from the linear prediction parameter decoding unit 12 and the adaptive code. The degree of noise is evaluated in the same manner, and the evaluation result is output to driving codebook switching section 27.
  • the driving codebook switching unit 27 according to the evaluation result of the noise degree, performs the first driving codebook 22 and the second driving codebook 2 3 similarly to the driving codebook switching unit 25 of the encoding unit 1. Switch between and.
  • the first driving codebook 22 contains a plurality of non-noise time-series vectors, for example, a plurality of learning sequences configured to reduce distortion between the training speech and its encoded speech.
  • the time series vector is stored in the second driving codebook 23, and a plurality of noise-like time series vectors, for example, a plurality of time series vectors generated from random noise are stored.
  • the time series vector corresponding to each drive code is output.
  • the time-series vectors from the adaptive codebook 14 and the first driving codebook 22 or the second driving codebook 23 are decoded from the gain code by the gain decoding unit 16.
  • Each gain The weighted addition is performed by the weighting and adding unit 39 according to the sum, and the result of the addition is supplied to the synthesis filter 13 as a drive sound source signal to obtain an output sound S 3.
  • the above is the characteristic operation of the speech decoding method according to the first embodiment.
  • the degree of noise in the input speech is evaluated from the code and the coding result, and a different driving codebook is used in accordance with the evaluation result. High quality audio can be played.
  • Embodiment 1 described above two driving codebooks are switched and used. Instead, three or more driving codebooks are provided and switched according to the degree of noise. May be. According to the second embodiment, it is possible to use a driving codebook suitable not only for two kinds of speech, that is, noise and non-noise, but also for intermediate speech such as a little noise. As a result, high-quality audio can be reproduced.
  • FIG. 3 where the same reference numerals are assigned to corresponding parts as in FIG. 1 shows the overall configuration of the third embodiment of the speech encoding method and speech decoding method of the present invention, in which 28 and 30 indicate noise.
  • the driving codebook that stores a time series vector is a sample thinning unit that sets the amplitude of low-amplitude samples in the time series vector to zero.
  • the encoding unit 1 performs linear prediction
  • the lame analyzer 5 analyzes the input speech S 1 and extracts linear prediction parameters, which are speech spectrum information.
  • the linear prediction parameter encoding unit 6 encodes the linear prediction parameter, sets the encoded linear prediction parameter as a coefficient of the synthesis filter 7, and performs noise level evaluation. Output to part 24.
  • the adaptive codebook 8 stores the past driving excitation signal, and stores a time-series data obtained by periodically repeating the past driving excitation signal corresponding to the adaptive code input from the distance calculator 11. Outputs a vector.
  • the noise degree evaluation unit 24 uses the coded linear prediction parameter input from the linear prediction parameter coding unit 6 and the adaptive code, for example, from the slope of the spectrum, the short-term prediction gain, and the pitch variation. The degree of noise in the coding section is evaluated, and the evaluation result is output to the sample thinning unit 29.
  • the drive codebook 28 stores, for example, a plurality of time-series vectors generated from random noise, and outputs a time-series vector corresponding to the drive code input from the distance calculator 11. I do.
  • the sample decimating unit 29 responds to the evaluation result of the noise level, and if the noise level is low, the time series vector input from the driving codebook 28 does not reach a predetermined amplitude value, for example. A time series vector with the sample amplitude value set to zero is output, and if the noise level is high, the time series vector input from the driving codebook 28 is output as it is.
  • the time series vectors from the adaptive codebook 8 and the sample thinning unit 29 are weighted and added by the weighting and adding unit 38 according to the respective gains given from the gain coding unit 10 and added. Then, the result of the addition is supplied to the synthesis filter 7 as a driving sound source signal to obtain an encoded speech.
  • the distance calculator 11 calculates the distance between the coded speech and the input speech S1, and searches for an adaptive code, a driving code, and a gain that minimize the distance. After the above coding is completed, the linear prediction parameters The code, the adaptive code that minimizes the distortion between the input speech and the encoded speech, the driving code, and the gain code are output as the encoding result S2.
  • the above is the characteristic operation of the speech encoding method according to the third embodiment.
  • the decoding unit 2 decodes the linear prediction parameter from the code of the linear prediction parameter, and sets it as the coefficient of the synthesis filter 13. In addition, it is output to the noise level evaluation unit 26.
  • the adaptive codebook 14 outputs a time-series vector obtained by periodically repeating the past driving excitation signal in accordance with the adaptive code.
  • the noise degree evaluator 26 includes a noise degree evaluator 24 of the encoder 1 based on the decoded linear prediction parameter input from the linear prediction parameter decoder 12 and the adaptive code. The degree of noise is evaluated in the same manner, and the evaluation result is output to the sample thinning unit 31.
  • the driving codebook 30 outputs a time-series vector corresponding to the driving code.
  • the sample thinning unit 31 is the same as the sample thinning unit 29 of the coding unit 1 according to the noise level evaluation result.
  • the time series vector from the adaptive codebook 14 and the sample decimating unit 31 is converted into a time series vector from the gain decoding unit 16.
  • the weighted addition is performed by the weighting and adding unit 39 according to the sum, and the result of the addition is supplied to the synthesis filter 13 as a drive sound source signal to obtain an output sound S 3.
  • a driving codebook that stores a noise-like time-series vector is provided, and a signal sample of a driving sound source is thinned out according to the evaluation result of the degree of noise in speech.
  • the time series vector samples are thinned out and not thinned out.
  • the samples are thinned out according to the degree of noise, May be changed.
  • a time series vector suitable for not only two kinds of speech, that is, noise and non-noise, but also intermediate speech such as a little noise is generated. Since it can be used, high-quality sound can be reproduced.
  • FIG. 4 in which the same reference numerals are given to the corresponding parts as in FIG. 1 shows the overall configuration of a fifth embodiment of the voice coding method and voice decoding method of the present invention, in which 32 and 35 are noise levels.
  • the first driving codebook that stores a time series vector is a non-noise
  • the second driving codebook that stores a time series vector is a noisy one. Is a weight determining unit.
  • the linear prediction parameter analysis unit 5 analyzes the input speech S1, and extracts the linear prediction parameters that are the speech spectrum information.
  • the linear prediction parameter coding unit 6 codes the linear prediction parameter, sets the coded linear prediction parameter as a coefficient of the synthesis filter 7, and sets a noise level. Output to evaluation section 24.
  • Adaptive codebook 8 stores past driving excitation signals, and is a time-series vector obtained by periodically repeating past driving excitation signals corresponding to the adaptive code input from distance calculator 11. Is output.
  • the noise degree evaluation unit 24 encodes the coded data inputted from the linear prediction parameter coding unit 6. From the linear prediction parameters and the adaptive code, the degree of noise in the coding section is evaluated based on, for example, the slope of the spectrum, short-term prediction gain, and pitch fluctuation, and the evaluation result is output to the weight determination unit 34.
  • the first driving codebook 32 stores, for example, a plurality of noise-like time-series vectors generated from random noise, and outputs a time-series vector corresponding to the driving code.
  • the second driving codebook 33 stores, for example, a plurality of time-series vectors configured by learning such that distortion between the learning speech and the encoded speech is reduced, and It outputs a time-series vector corresponding to the driving code input from the calculation unit 11.
  • the weight determining unit 34 calculates the time series vector from the first driving codebook 32 and the second vector according to the noise level evaluation result input from the noise level evaluating unit 24 according to, for example, FIG. Determine the weight given to the time series vector from the driving codebook 33 of.
  • Each time-series vector from the first driving codebook 32 and the second driving codebook 33 is weighted and added according to the weight given from the weight determining unit 34.
  • the time series vector output from the adaptive codebook 8 and the time series vector generated by the weighted addition are weighted and added by the weighting addition unit 3 according to the respective gains given from the gain encoding unit 10.
  • the weighted sum is added by 8, and the result of the addition is supplied to the synthesis filter 7 as a driving sound source signal to obtain an encoded speech.
  • the distance calculator 11 calculates the distance between the coded speech and the input speech S1, and searches for an adaptive code, a driving code, and a gain that minimize the distance. After this coding is completed, the code of the linear prediction parameter, the adaptive code that minimizes the distortion between the input speech and the coded speech, the driving code, and the code of the gain are output as the coding results.
  • the decryption unit 2 will be described.
  • the linear prediction parameter decoding unit 12 decodes the linear prediction parameter from the code of the linear prediction parameter.
  • the radiator is decoded, set as a coefficient of the synthesis filter 13, and output to the noise degree evaluation unit 26.
  • the adaptive codebook 14 outputs a time-series vector obtained by periodically repeating the past driving excitation signal in accordance with the adaptive code.
  • the noise degree evaluation unit 26 uses the decoded linear prediction parameter input from the linear prediction parameter decoding unit 12 and the adaptive code to calculate the noise level in the same manner as the noise degree evaluation unit 24 of the encoding unit 1. Then, the evaluation result is output to the weight determining unit 37.
  • the first driving codebook 35 and the second driving codebook 36 output time-series vectors corresponding to the driving codes. It is assumed that the weight determining unit 37 gives a weight in the same manner as the weight determining unit 34 of the encoding unit 1 in accordance with the noise evaluation result input from the noise evaluation unit 26.
  • the respective time-series vectors from the first driving codebook 35 and the second driving codebook 36 are weighted and added according to the respective weights given from the weight determining unit 37.
  • the time series vector output from the adaptive codebook 14 and the time series vector generated by the weighted addition are decoded from the gain code by the gain decoding unit 16.
  • Each of the gains is weighted and added by a weighting and adding unit 39 according to each of the gains, and the addition result is supplied to the synthesis filter 13 as a driving sound source signal to obtain an output sound S3.
  • the degree of speech noise is evaluated from the coding and coding results, and a noise-like time series vector and a non-noise time-series vector are weighted according to the evaluation result.
  • the gain codebook may be changed according to the evaluation result of the degree of noise.
  • Embodiment 6 According to this, it is possible to use an optimal gain codebook according to the driving codebook, and thus it is possible to reproduce high-quality speech.
  • the degree of noise in speech is evaluated, and the driving codebook is switched according to the evaluation result.However, voiced rising, bursting consonants, etc. are determined respectively.
  • the evaluation may be performed, and the driving codebook may be switched according to the evaluation result.
  • the degree of noise in the coding section is evaluated based on the spectrum slope, short-term prediction gain, and pitch fluctuation shown in FIG. 2, but the magnitude of the gain value with respect to the adaptive codebook output is evaluated. It may be evaluated by using. Industrial applicability
  • the speech encoding method and the speech decoding method and the speech encoding device and the speech decoding device according to the present invention, at least one of the spectrum information, the power information, and the pitch information is encoded or encoded.
  • the result is used to evaluate the degree of noise of speech in the coding section, and different driving codebooks are used in accordance with the evaluation result. Therefore, high-quality speech can be reproduced with a small amount of information.
  • the speech encoding method and the speech decoding method a plurality of driving codebooks having different degrees of noise of the driving sound sources stored therein are provided, and the evaluation result of the degree of noise of speech is obtained. Depending on multiple driving notes Since the number book is switched, high-quality audio can be reproduced with a small amount of information.
  • the degree of noise of the time-series vector stored in the driving codebook is determined according to the evaluation result of the degree of noise of speech. As a result, high-quality sound can be reproduced with a small amount of information.
  • a driving codebook storing a noise-like time-series vector is provided, and according to the evaluation result of the degree of noise of speech, Since the time series vector with low noise level is generated by thinning out the signal samples of the time series vector, high quality sound can be reproduced with a small amount of information.
  • a first driving codebook storing a noise-like time-series vector and a non-noise-like time-series vector are used in the speech encoding method and the speech decoding method.
  • the second driving codebook and the second driving codebook are stored in accordance with the evaluation result of the degree of noise of the speech. Since time-series vectors are generated by weighting and adding vectors, high-quality sound can be reproduced with a small amount of information.

Description

明 細 書 発明の名称
音声符号化方法及び音声複号化方法並びに音声符号化装置及び音声 複号化装置 技術分野
こ の発明は音声信号をディ ジタル信号に圧縮符号化復号化する際 に使用する音声符号化 · 複号化方法及び音声符号化 · 複号化装置に 関 し、 特に低ビッ ト レー ト で品質の高い音声を再生するための音声 符号化方法及び音声複号化方法並びに音声符号化装置及び音声復号 化装置に関する。 背景技術
従来 、 高能率音声符号化方法 と し て は 、 符号駆動線形予測
( Code-Excited Linear Prediction : C E L P ) 符号化が代表的で あ り 、 その技術につレヽて ίま、 「 Code-excited linear prediction ( C E L P ) : High-quality speech at very low bit rates」 ( M.R.Shroeder and B.S.Atal著、 ICASSP '85, pp.937-940, 1985) に述べられてレヽ る。
図 6 は、 C E L P音声符号化複号化方法の全体構成の一例を示す もので、 図中 1 0 1 は符号化部、 1 0 2 は復号化部、 1 0 3 は多重 化手段、 1 0 4 は分離手段である。 符号化部 1 0 1 は線形予測パラ メ ータ分析手段 1 0 5 、 線形予測パラ メ ータ符号化手段 1 0 6 、 合 成フ ィ ルタ 1 0 7 、 適応符号帳 1 0 8 、 駆動符号帳 1 0 9 、 ゲイ ン 符号化手段 1 1 0 、 距離計算手段 1 1 1 、 重み付け加算手段 1 3 8 よ り 構成されている。 また、 復号化部 1 0 2 は線形予測パラ メ 一タ 複号化手段 1 1 2 、 合成フ ィ ルタ 1 1 3 、 適応符号帳 1 1 4 、 駆動 符号帳 1 1 5 、 ゲイ ン復号化手段 1 1 6 、 重み付け加算手段 1 3 9 よ り構成されている。
C E L P音声符号化では、 5〜 50m s 程度を 1 フ レーム と して、 そのフ レームの音声をスぺク トル情報と音源情報に分けて符号化す る。 まず、 C E L P音声符号化方法の動作について説明する。 符号 化部 1 0 1 において、 線形予測パラメ 一タ分析手段 1 0 5 は入力音 声 S 1 0 1 を分析し、 音声のスぺク トル情報である線形予測パラ メ ータ を抽出する。 線形予測パラ メ ータ符号化手段 1 0 6 はその線形 予測パラ メ一タ を符号化 し、 符号化した線形予測パラメ ータを合成 フ ィ ルタ 1 0 7 の係数と して設定する。
次に音源情報の符号化について説明する。適応符号帳 1 0 8 には、 '過去の駆動音源信号が記憶されており 、 距離計算手段 1 1 1 から入 力される適応符号に対応 して過去の駆動音源信号を周期的に繰り 返 した時系列べク ト ルを出力する。 駆動符号帳 1 0 9 には、 例えば学 習用音声とその符号化音声との歪みが小さ く なる よ う に学習 して構 成された複数の時系列べク トルが記憶されてお り 、 距離計算手段 1 1 1 から入力 される駆動符号に対応 した時系列べク トルを出力する c 適応符号帳 1 0 8 、 駆動符号帳 1 0 9 からの各時系列べク トルはゲ イ ン符号化手段 1 1 0 から与えられるそれぞれのゲイ ンに応じて重 み付け加算手段 1 3 8 で重み付け して加算され、 その加算結果を駆 動音源信号と して合成フ ィ ルタ 1 0 7 へ供給し符号化音声を得る。 距離計算手段 1 1 1 は符号化音声と入力音声 S 1 0 1 と の距離を求 め、 距離が最小と なる適応符号、 駆動符号、 ゲイ ンを探索する。 上 記符号化が終了 した後、 線形予測パラ メ ータの符号、 入力音声と符 号化音声との歪みを最小にする適応符号、 駆動符号、 ゲイ ンの符号 を符号化結果と して出力する。
次に C P E L音声復号化方法の動作について説明する。
一方復号化部 1 0 2 において、 線形予測パラ メ ータ複号化手段 1 1 2 は線形予測パラメ ータの符号から線形予測パラ メータ を復号化 し、 合成フィルタ 1 1 3 の係数と して設定する。 次に、 適応符号帳 1 1 4 は、 適応符号に対応して、 過去の駆動音源信号を周期的に繰 り 返した時系列べク トルを出力 し、 また駆動符号帳 1 1 5 は駆動符 号に対応 した時系列べク トルを出力する。 これらの時系列べク トル は、 ゲイ ン復号化手段 1 1 6 でゲイ ンの符号から復号化したそれぞ れのゲイ ンに応 じて重み付け加算手段 1 3 9 で重み付け して加算さ れ、 その加算結果が駆動音源信号と して合成フ ィ ルタ 1 1 3 へ供給 され出力音声 S 1 0 3 が得られる。
また C E L P音声符号化復号化方法で再生音声品質の向上を目的 と し て 改 良 さ れ た 従 来 の 音 声 符 号 化 復 号 化 方 法 と し て 、 厂 Phoneticailv 一 basea vector excitation coamg of speech at 3.6kbps」 (S.Wang and A.Gersho著、 ICASSP '89, pp.49-52, 1989) に示されたものがある。 図 6 との対応手段分に同一符号を付けた図 7 は、 こ の従来の音声符号化複号化方法の全体構成の一例を示し、 図中符号化部 1 0 1 において 1 1 7 は音声状態判定手段、 1 1 8駆 動符号帳切替手段、 1 1 9 は第 1 の駆動符号帳、 1 2 0 は第 2の駆 動符号帳である。 また図中複号化手段 1 0 2 において 1 2 1 は駆動 符号帳切替手段、 1 2 2 は第 1 の駆動符号帳、 1 2 3 は第 2 の駆動 符号帳である。 このよ う な構成による符号化復号化方法の動作を説 明する。 まず符号化手段 1 0 1 において、 音声状態判定手段 1 1 7 は入力音声 S 1 0 1 を分析し、 音声の状態を例えば有声/無声の 2 つの状態の う ち どち らであるかを判定する。 駆動符号帳切替手段 1 1 8 はその音声状態判定結果に応 じて、 例えば有声であれば第 1 の 駆動符号帳 1 1 9 を、 無声であれば第 2 の駆動符号帳 1 2 0 を用い る と して符号化に用いる駆動符号帳を切 り 替え、 また、 どち らの駆 動符号帳を用いたかを符号化する。
次に複号化手段 1 0 2 において、 駆動符号帳切替手段 1 2 1 は符 号化手段 1 0 1 でどち らの駆動符号帳を用いたかの符号に応じて、 符号化手段 1 0 1 で用いたのと同 じ駆動符号帳を用いる と して第 1 の駆動符号帳 1 2 2 と第 2 の駆動符号帳 1 2 3 と を切 り替える。 こ のよ う に構成する こ と によ り 、 音声の各状態毎に符号化に適した駆 動符号帳を用意 し、 入力 された音声の状態に応 じて駆動符号帳を切 り 替えて用いる こ とで再生音声の品質を向上する こ とができ る。 また送出ビッ ト数を増加する こ と なく 、 複数の駆動符号帳を切 り 替える従来の音声符号化復号化方法と して特開平 8— 1 8 5 1 9 8 号公報に開示されたものがある。 これは、 適応符号帳で選択したピ ツチ周期に応 じて、 複数個の駆動符号帳を切 り 替えて用いる もので ある。 これによ り 、 伝送情報を増やさずに入力音声の特徴に適応 し た駆動符号帳を用いる こ とができ る。
上述したよ う に図 6 に示す従来の音声符号化復号化方法では、 単 —の駆動符号帳を用いて合成音声を生成 している。 低ビッ ト レー ト でも品質の高い符号化音声を得るためには、 駆動符号帳に格納する 時系列べク ト ルはパルスを多く 含む非雑音的なもの となる。 このた め、 背景雑音や摩擦性子音など雑音的な音声を符号化、 合成した場 合、 符号化音声はジ リ ジ リ 、 チ リ チ リ と いった不自然な音を発する とい う 問題があっ た。 駆動符号帳を雑音的な時系列べク ト ルからの み構成すればこ の問題は解決するが、 符号化音声全体と しての品質 が劣化する。
また改良 された図 7 に示す従来の音声符号化複号化方法では、 入 力音声の状態に応 じて複数の駆動符号帳を切 り 替えて符号化音声を 生成している。 これによ り 例えば入力音声が雑音的な無声部分では 雑音的な時系列べク トルから構成された駆動符号帳を、 またそれ以 外の有声部分では非雑音的な時系列べク トルから構成された駆動符 号帳を用いる こ と ができ 、 雑音的な音声を符号化、 合成しても不自 然なジ リ ジリ した音を発する こ と はな く なる。 しかし、 複号化側で も符号化側と 同 じ駆動符号帳を用いるために、 新たにどの駆動符号 帳を使用 したかの情報を符号化、 伝送する必要が生じ、 これが低ビ ッ ト レー ト化の妨げになる とレ、 う 問題があった。
また送出ビッ ト数を増加する こ と な く 、 複数の駆動符号帳を切 り 替える従来の音声符号化復号化方法では、 適応符号帳で選択される ピッチ周期に応じて駆動符号帳を切 り 替えている。 しかし、 適応符 号帳で選択される ピッチ周期は実際の音声のピッチ周期 と は異な り その値からだけでは入力音声の状態が雑音的か非雑音的かを判定で きないので、 音声の雑音的な部分の符号化音声が不自然である と い う課題は解決されない。
この発明はかかる課題を解決するためになされたものであ り 、 低 ビッ ト レ一 トでも品質の高い音声を再生する音声符号化複号化方法 及び装置を提供する ものである。 発明の開示
上述の課題を解決するためにこの発明の音声符号化方法は、 ス ベク トル情報、 ノ、。ヮ一情報、 ピッチ情報の う ち少な く と も 1 つの符 号または符号化結果を用いて該符号化区間における音声の雑音性の 度合いを評価し、 評価結果に応 じて複数の駆動符号帳の う ち 1 つを 選択する よ う に した。
さ らに次の発明の音声符号化方法は、 格納している時系列べク ト ルの雑音性の度合いが異なる複数の駆動符号帳を備え、 音声の雑音 性の度合いの評価結果に応 じて、 複数の駆動符号帳を切 り 替える よ う に した。
さ らに次の発明の音声符号化方法は、 音声の雑音性の度合いの評 価結果に応じて、 駆動符号帳に格納している時系列べク ト ルの雑音 性の度合いを変化させる よ う にした。
さ らに次の発明の音声符号化方法は、 雑音的な時系列べク トルを 格納している駆動符号帳を備え、 音声の雑音性の度合いの評価結果 に応じて、 駆動音源の信号サンプルを間引 く こ と によ り 雑音性の度 合いが低い時系列べク ト ルを生成する よ う にした。
さ らに次の発明の音声符号化方法は、 雑音的な時系列べク トルを 格納している第 1 の駆動符号帳と 、 非雑音的なの時系列ベク トルを 格納している第 2 の駆動符号帳と を備え、 音声の雑音性の度合いの 評価結果に応 じて、 第 1 の駆動符号帳の時系列べク トルと第 2の駆 動符号帳の時系列べク トルを重み付け し加算した時系列べク トルを 生成する よ う に した。
また次の発明の音声復号化方法は、 スぺク ト ル情報、 パワー情報、 ピッチ情報の う ち少な く と も 1 つの符号または復号化結果を用いて 該複号化区間における音声の雑音性の度合いを評価し、 評価結果に 応じて複数の駆動符号帳の う ちの 1 つを選択する よ う にした。
さ らに次の発明の音声複号化方法は、 格納している時系列べク ト ルの雑音性の度合いが異なる複数の駆動符号帳を備え、 音声の雑音 性の度合いの評価結果に応じて、 複数の駆動符号帳を切 り 替える よ う に した。
さ らに次の発明の音声複号化方法は、 音声の雑音性の度合いの評 価結果に応じて、 駆動符号帳に格納 している時系列べク ト ルの雑音 性の度合いを変化させる よ う にした。
さ らに次の発明の音声復号化方法は、 雑音的な時系列べク トルを 格納している駆動符号帳を備え、 音声の雑音性の度合いの評価結果 に応じて、 駆動音源の信号サンプルを間引 く こ と によ り雑音性の度 合いが低い時系列べク トルを生成する よ う に した。
さ らに次の発明の音声復号化方法は、 雑音的な時系列べク トルを 格納している第 1 の駆動符号帳と 、 非雑音的な時系列ベク トルを格 納している第 2 の駆動符号帳と を備え、 音声の雑音性の度合いの評 価結果に応じて、 第 1 の駆動符号帳の時系列べク トルと第 2 の駆動 符号帳の時系列べク ト ルを重み付け し加算 した時系列べク トルを生 成する よ う に した。
さ らに次の発明の音声符号化装置は、 入力音声のスぺク ト ル情報 を符号化 し、 符号化結果の 1 要素と して出力するスぺク トル情報符 号化部と 、 このスぺク トル情報符号化部からの符号化されたスぺク トル情報から得られるスぺク トル情報、 パヮ一情報の う ち少なく と も 1 つの符号または符号化結果を用いて該符号化区間における音声 の雑音性の度合いを評価 し、 評価結果を出力する雑音度評価部と 、 非雑音的な複数の時系列べク トルが記憶された第 1 の駆動符号帳と 雑音的な複数の時系列べク トルが記憶された第 2 の駆動符号帳と 、 前記雑音度評価部の評価結果によ り 、 第 1 の駆動符号帳と第 2 の駆 動符号帳と を切 り 替える駆動符号帳切替部と 、 前記第 1 の駆動符号 帳または第 2 の駆動符号帳からの時系列べク ト ルをそれぞれの時系 列べク ト ルのゲイ ンに応じて重み付け し加算する重み付け加算部と この重み付けされた時系列べク トルを駆動音源信号と し、 この駆動 音源信号と前記スペク トル情報符号化部からの符号化されたスぺク トル情報と に基づいて符号化音声を得る合成フ ィ ルタ と 、 こ の符号 化音声と前記入力音声と の距離を求め、距離が最小と なる駆動符号、 ゲイ ンを探索 し、 その結果を駆動符号, ゲイ ンの符号を符号化結果 と して出力する距離計算部と を備えた。
さ らに次の発明の音声復号化装置は、 スぺク トル情報の符号から スぺク ト ル情報を複号化するスぺク ト ル情報複号化部と 、 このスぺ ク トル情報復号化部からの復号化されたスぺク トル情報から得られ るスぺク トル情報、 パワー情報の う ち少な く と も 1 つの復号化結果 または前記スぺク トル情報の符号を用いて該復号化区間における音 声の雑音性の度合いを評価 し、評価結果を出力する雑音度評価部と 、 非雑音的な複数の時系列べク ト ルが記憶された第 1 の駆動符号帳と . 雑音的な複数の時系列べク トルが記憶された第 2 の駆動符号帳と 、 前記雑音度評価部の評価結果によ り 、 第 1 の駆動符号帳と第 2の駆 動符号帳と を切 り 替える駆動符号帳切替部と 、 前記第 1 の駆動符号 帳または第 2 の駆動符号帳からの時系列ベク トルをそれぞれの時系 列ベク トルのゲイ ンに応じて重み付け し加算する重み付け加算部と この重み付けされた時系列ベク ト ルを駆動音源信号と し、 こ の駆動 音源信号と前記スぺク トル情報復号化部からの復号化されたスぺク ト ル情報とに基づいて復号化音声を得る合成フ ィ ルタ と を備えた。 こ の発明に係る音声符号化装置は、 符号駆動線形予測 ( C E L P ) 音声符号化装置において、 スぺク トル情報、 パワー情報、 ピ ッチ情 報の う ち少なく と も 1 つの符号または符号化結果を用いて該符号化 区間における音声の雑音性の度合いを評価する雑音度評価部と、 上 記雑音度評価部の評価結果に応 じて複数の駆動符号帳を切 り 替える 駆動符号帳切替部とを備えたこ とを特徴とする。
この発明に係る音声復号化装置は、 符号駆動線形予測 ( C E L P ) 音声復号化装置において、 スぺク トル情報、 パワー情報、 ピッチ情 報の う ち少なく と も 1 つの符号または復号化結果を用いて該復号化 区間における音声の雑音性の度合いを評価する雑音度評価部と、 上 記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り替える 駆動符号帳切替部とを備えたこ とを特徴とする。 図面の簡単な説明
図 1 は、 この発明による音声符号化及び音声複号化装置の実施の 形態 1 の全体構成を示すプロ ック図である。
図 2は、 図 1 の実施の形態 1 における雑音の度合い評価の説明に 供する表である。
図 3は、 この発明による音声符号化及び音声複号化装置の実施の 形態 3 の全体構成を示すブロ ック図である。
図 4は、 この発明による音声符号化及び音声複号化装置の実施の 形態 5 の全体構成を示すブロ ック図である。
図 5は、 図 4 の実施の形態 5 における重み付け決定処理の説明に 供する略線図である。
図 6は、 従来の C E L P音声符号化復号化装置の全体構成を示す ブロ ック図である。
図 7は、 従来の改良された C E L P音声符号化複号化装置の全体 構成を示すプロ ック図である。 発明を実施するための最良の形態
以下図面を参照しながら、 この発明の実施の形態について説明す る。
実施の形態 1 .
図 1 は、 この発明によ る音声符号化方法及び音声複号化方法の実 施の形態 1 の全体構成を示す。 図中、 1 は符号化部、 2 は復号化部、 3 は多重化部、 4 は分離部である。 符号化部 1 は、 線形予測パラ メ ータ分析部 5 、 線形予測パラ メ ータ符号化部 6 、 合成フ ィ ルタ 7 、 適応符号帳 8 、 ゲイ ン符号化部 1 0 、 距離計算部 1 1 、 第 1 の駆動 符号帳 1 9 、 第 2 の駆動符号帳 2 0 、 雑音度評価部 2 4 、 駆動符号 帳切替部 2 5 、 重み付け加算部 3 8 よ り構成されている。 また、 復 号化部 2 は線形予測パラ メ ータ復号化部 1 2 、 合成フ ィ ルタ 1 3 、 適応符号帳 1 4 、 第 1 の駆動符号帳 2 2 、 第 2 の駆動符号帳 2 3 、 雑音度評価部 2 6 、 駆動符号帳切替部 2 7 、 ゲイ ン複号化部 1 6 、 重み付け加算部 3 9 よ り 構成されている。 図 1 中 5 は入力音声 S 1 を分析 し、 音声のスぺク トル情報である線形予測パラメ ータを抽出 するスペク ト ル情報分析部と しての線形予測パラ メ ータ分析部、 6 はスぺク ト ル情報であるその線形予測パラ メ 一タ を符号化 し、 符号 ィ匕した線形予測パラ メ ータを合成フィ ルタ 7 の係数と して設定する スペク ト ル情報符号化部と しての線形予測パラ メ ータ符号化部、 1 9 、 2 2 は非雑音的な複数の時系列べク ト ルが記憶された第 1 の駆 動符号帳、 2 0 、 2 3 は雑音的な複数の時系列ベク トルが記憶され た第 2 の駆動符号帳、 2 4 、 2 6 は雑音の度合いを評価する雑音度 評価部、 2 5 、 2 7 は雑音の度合いによ り 駆動符号帳を切 り 替える 駆動符号帳切替部である。
以下、 動作を説明する。 まず、 符号化部 1 において、 線形予測パ ラ メ一タ分析部 5 は入力音声 S 1 を分析し、 音声のスぺク トル情報 である線形予測パラ メ ータを抽出する。 線形予測パラメ ータ符号化 部 6 はその線形予測パラ メ 一タ を符号化 し、 符号化した線形予測パ ラメ ータ を合成フ ィ ルタ 7 の係数と して設定する と と もに、 雑音度 評価部 2 4 へ出力する。 次に、 音源情報の符号化について説明する。 適応符号帳 8 には、 過去の駆動音源信号が記憶されてお り 、 距離計 算部 1 1 から入力 される適応符号に対応して過去の駆動音源信号を 周期的に繰り 返した時系列べク トルを出力する。 雑音度評価部 2 4 は、 前記線形予測パラ メ ータ符号化部 6 から入力 された符号化した 線形予測パラ メ ータ と適応符号と から、 例えば図 2 に示すよ う にス べク トルの傾斜、 短期予測利得、 ピッチ変動から該符号化区間の雑 音の度合いを評価し、評価結果を駆動符号帳切替部 2 5 に出力する。 駆動符号帳切替部 2 5 は前記雑音度の評価結果に応じて、 例えば雑 音度が低ければ第 1 の駆動符号帳 1 9 を、 雑音度が高ければ第 2 の 駆動符号帳 2 0 を用いる と して符号化に用いる駆動符号帳を切り 替 える。
第 1 の駆動符号帳 1 9 には、 非雑音的な複数の時系列べク トル、 例えば学習用音声 とその符号化音声との歪みが小さ く なる よ う に学 習 して構成された複数の時系列べク トルが記憶されている。 また、 第 2 の駆動符号帳 2 0 には、 雑音的な複数の時系列べク トル、 例え ばラ ンダム雑音から生成した複数の時系列ベク ト ルが記憶されてお り 、 距離計算部 1 1 から入力されるそれぞれ駆動符号に対応した時 系列べク トルを出力する。 適応符号帳 8 、 第 1 の駆動音源符号帳 1 9 または第 2 の駆動符号帳 2 0 からの各時系列べク トルは、 ゲイ ン 符号化部 1 0 から与え られるそれぞれのゲイ ンに応じて重み付け加 算部 3 8 で重み付け して加算され、 その加算結果を駆動音源信号と して合成フ ィ ルタ 7 へ供給され符号化音声を得る。 距離計算部 1 1 は符号化音声と入力音声 S 1 との距離を求め、 距離が最小と なる適 応符号、 駆動符号、 ゲイ ンを探索する。 以上符号化が終了 した後、 線形予測パラメ ータ の符号、 入力音声と符号化音声との歪みを最小 にする適応符号、 駆動符号, ゲイ ンの符号を符号化結果 S 2 と して 出力する。 以上がこの実施の形態 1 の音声符号化方法に特徴的な動 作である。
次に復号化部 2 について説明する。 復号化部 2 では、 線形予測パ ラメ 一タ復号化部 1 2 は線形予測パラ メ ータの符号から線形予測パ ラメ 一タ を復号化 し、 合成フ ィ ルタ 1 3 の係数と して設定する と と もに、 雑音度評価部 2 6 へ出力する。 次に、 音源情報の復号化につ いて説明する。 適応符号帳 1 4 は、 適応符号に対応 して、 過去の駆 動音源信号を周期的に繰 り 返した時系列べク トルを出力する。 雑音 度評価部 2 6 は、 前記線形予測パラ メ 一タ復号化部 1 2から入力 さ れた復号化した線形予測パラメ ータ と適応符号とから符号化部 1 の 雑音度評価部 2 4 と同様の方法で雑音の度合いを評価し、 評価結果 を駆動符号帳切替部 2 7 に出力する。 駆動符号帳切替部 2 7 は前記 雑音度の評価結果に応じて、 符号化部 1 の駆動符号帳切替部 2 5 と 同様に第 1 の駆動符号帳 2 2 と第 2 の駆動符号帳 2 3 と を切 り替え る。
第 1 の駆動符号帳 2 2 には非雑音的な複数の時系列べク トル、 例 えば学習用音声とその符号化音声との歪みが小さ く なる よ う に学習 して構成された複数の時系列べク ト ルが、 第 2 の駆動符号帳 2 3 に は雑音的な複数の時系列べク トル、 例えばランダム雑音から生成 し た複数の時系列べク トルが記憶されてお り 、 それぞれ駆動符号に対 応した時系列べク トルを出力する。 適応符号帳 1 4 と第 1 の駆動符 号帳 2 2 または第 2 の駆動符号帳 2 3 からの時系列べク トルは、 ゲ イ ン復号化部 1 6 でゲイ ンの符号から復号化したそれぞれのゲイ ン に応じて重み付け加算部 3 9 で重み付け して加算され、 その加算結 果を駆動音源信号と して合成フ ィ ルタ 1 3 へ供給され出力音声 S 3 が得られる。 以上がこの実施の形態 1 の音声復号化方法に特徴的な 動作である。
この実施の形態 1 によれば、 入力音声の雑音の度合いを符号およ び符号化結果から評価し、 評価結果に応じて異なる駆動符号帳を用 いる こ と によ り 、 少ない情報量で、 品質の高い音声を再生する こ と ができる。
また、 上記実施の形態では、 駆動符号帳 1 9, 2 0, 2 2 , 2 3 には、 複数の時系列べク トルが記憶されている場合を説明 したが、 少なく と も 1 つの時系列べク トルが記憶されていれば、 実施可能で ある。
実施の形態 2 .
上述の実施の形態 1 では、 2つの駆動符号帳を切 り替えて用いて いるが、 これに代え、 3 つ以上の駆動符号帳を備え、 雑音の度合い に応じて切 り替えて用いる と しても良い。 この実施の形態 2 によれ ば、 音声を雑音 Z非雑音の 2通 り だけでな く 、 やや雑音的であるな どの中間的な音声に対してもそれに適した駆動符号帳を用いる こ と ができ るので、 品質の高い音声を再生する こ とができる。
実施の形態 3 .
図 1 との対応部分に同一符号を付けた図 3 は、 この発明の音声符 号化方法及び音声複号化方法の実施の形態 3 の全体構成を示し、 図 中 2 8、 3 0 は雑音的な時系列ベク トルを格納した駆動符号帳、 2 9、 3 1 は時系列べク トルの低振幅なサンプルの振幅値を零にする サンプル間引き部である。
以下、 動作を説明する。 まず、 符号化部 1 において、 線形予測パ ラメ一タ分析部 5 は入力音声 S 1 を分析し、 音声のスぺク トル情報 である線形予測パラメ 一タを抽出する。 線形予測パラメ 一タ符号化 部 6 はその線形予測パラ メ 一タ を符号化し、 符号化した線形予測パ ラメ一タ を合成フ ィルタ 7 の係数と して設定する と と もに、 雑音度 評価部 2 4へ出力する。 次に、 音源情報の符号化について説明する。 適応符号帳 8 には、 過去の駆動音源信号が記憶されてお り 、 距離計 算部 1 1 から入力 される適応符号に対応して過去の駆動音源信号を 周期的に繰り 返した時系列べク トルを出力する。 雑音度評価部 2 4 は、 前記線形予測パラ メ ータ符号化部 6 から入力 された符号化した 線形予測パラメータ と適応符号とから、 例えばスぺク トルの傾斜、 短期予測利得、 ピッチ変動から該符号化区間の雑音の度合いを評価 し、 評価結果をサンプル間引き部 2 9 に出力する。
駆動符号帳 2 8 には、 例えばラ ンダム雑音から生成した複数の時 系列べク トルが記憶されており 、 距離計算部 1 1 から入力 される駆 動符号に対応した時系列べク トルを出力する。 サンプル間引き部 2 9 は、 前記雑音度の評価結果に応 じて、 雑音度が低ければ前記駆動 符号帳 2 8から入力された時系列べク トルに対して、 例えば所定の 振幅値に満たないサンプルの振幅値を零に した時系列べク トルを出 力し、 また、 雑音度が高ければ前記駆動符号帳 2 8 から入力 された 時系列ベク トルをそのまま出力する。 適応符号帳 8 、 サンプル間引 き部 2 9 からの各時系列べク トルは、 ゲイ ン符号化部 1 0 から与え られるそれぞれのゲイ ンに応じて重み付け加算部 3 8 で重み付け し て加算され、 その加算結果を駆動音源信号と して合成フ ィ ルタ 7 へ 供給され符号化音声を得る。 距離計算部 1 1 は符号化音声と入力音 声 S 1 と の距離を求め、 距離が最小と なる適応符号、 駆動符号、 ゲ イ ンを探索する。 以上符号化が終了 した後、 線形予測パラ メ ータの 符号、 入力音声と符号化音声との歪みを最小にする適応符号、 駆動 符号, ゲイ ンの符号を符号化結果 S 2 と して出力する。 以上がこ の 実施の形態 3 の音声符号化方法に特徴的な動作である。
次に復号化部 2 について説明する。 複号化部 2 では、 線形予測パ ラメ ータ復号化部 1 2 は線形予測パラ メータの符号から線形予測パ ラメ ータを復号化し、 合成フィ ルタ 1 3 の係数と して設定する と と もに、 雑音度評価部 2 6 へ出力する。 次に、 音源情報の復号化につ いて説明する。 適応符号帳 1 4 は、 適応符号に対応して、 過去の駆 動音源信号を周期的に繰 り 返した時系列べク トルを出力する。 雑音 度評価部 2 6 は、 前記線形予測パラメ ータ複号化部 1 2から入力さ れた復号化した線形予測パラメ ータ と適応符号と から符号化部 1 の 雑音度評価部 2 4 と同様の方法で雑音の度合いを評価し、 評価結果 をサンプル間引き部 3 1 に出力する。
駆動符号帳 3 0 は駆動符号に対応した時系列べク トルを出力する( サンプル間引き部 3 1 は、 前記雑音度評価結果に応じて、 前記符号 化部 1 のサンプル間引き部 2 9 と 同様の処理によ り 時系列べク トル を出力する。 適応符号帳 1 4 、 サンプル間引き部 3 1 からの各時系 列べク トルは、 ゲイ ン複号化部 1 6 から与えられるそれぞれのゲイ ンに応じて重み付け加算部 3 9 で重み付け して加算され、 その加算 結果を駆動音源信号と して合成フ ィルタ 1 3 へ供給され出力音声 S 3 が得られる。
この実施の形態 3 によれば、 雑音的な時系列べク トルを格納して いる駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、 駆動音源の信号サ ンプルを間引 く こ と によ り雑音性の度合いが低い 駆動音源を生成する こ と によ り 、 少ない情報量で、 品質の高い音声 を再生する こ とができ る。 また、 複数の駆動符号帳を備える必要が ないので、 駆動符号帳の記憶に要する メ モ リ 量を少なく する効果も ある。
実施の形態 4 .
上述の実施の形態 3 では、 時系列べク トルのサンプルを間引 く ノ 間引かないの 2通 り と しているが、 これに代え、 雑音の度合いに応 じてサンプルを間引 く 際の振幅閾値を変更する と しても良い。 こ の 実施の形態 4 によれば、 音声を雑音 Z非雑音の 2 通 り だけでなく 、 やや雑音的であるなどの中間的な音声に対してもそれに適した時系 列べク トルを生成し、 用いる こ と ができ るので、 品質の高い音声を 再生する こ とができる。
実施の形態 5 .
図 1 と の対応部分に同一符号を付けた図 4 は、 この発明の音声符 号化方法及び音声複号化方法の実施の形態 5 の全体構成を示し、 図 中 3 2 、 3 5 は雑音的な時系列べク トルを記憶している第 1 の駆動 符号帳、 3 3 、 3 6 は非雑音的な時系列ベク トルを記憶している第 2の駆動符号帳、 3 4 、 3 7 は重み決定部である。
以下、 動作を説明する。 まず、 符号化部 1 において、 線形予測パ ラメ 一タ分析部 5 は入力音声 S 1 を分析し、 音声のスぺク トル情報 である線形予測パラメ ータを抽出する。 線形予測パラメ一タ符号化 部 6 はその線形予測パラ メ ータを符号化し、 符号化した線形予測パ ラメ ータ を合成フ ィ ルタ 7 の係数と して設定する と と もに、 雑音度 評価部 2 4 へ出力する。 次に、 音源情報の符号化について説明する。 適応符号帳 8 には、 過去の駆動音源信号が記憶されており 、 距離計 算部 1 1 から入力 される適応符号に対応して過去の駆動音源信号を 周期的に繰り 返した時系列ベク トルを出力する。 雑音度評価部 2 4 は、 前記線形予測パラ メ ータ符号化部 6 から入力 された符号化した 線形予測パラメ ータ と適応符号とから、 例えばスぺク トルの傾斜、 短期予測利得、 ピッチ変動から該符号化区間の雑音の度合いを評価 し、 評価結果を重み決定部 3 4 に出力する。
第 1 の駆動符号帳 3 2 には、 例えばランダム雑音から生成した複 数の雑音的な時系列べク トルが記憶されてお り 、 駆動符号に対応し た時系列ベク トルを出力する。 第 2の駆動符号帳 3 3 には、 例えば 学習用音声とその符号化音声との歪みが小さ く なる よ う に学習 して 構成された複数の時系列ベク トルが記憶されてお り 、 距離計算部 1 1 から入力される駆動符号に対応 した時系列べク トルを出力する。 重み決定部 3 4 は前記雑音度評価部 2 4 から入力 された雑音度の評 価結果に応じて、 例えば図 5 に従って、 第 1 の駆動符号帳 3 2から の時系列べク トルと第 2 の駆動符号帳 3 3 からの時系列べク トルに 与える重みを決定する。 第 1 の駆動符号帳 3 2 、 第 2の駆動符号帳 3 3 からの各時系列べク トルは上記重み決定部 3 4 から与え られる 重みに応 じて重み付け して加算される。 適応符号帳 8 から出力され た時系列べク トルと、 前記重み付け加算 して生成された時系列べク トルはゲイ ン符号化部 1 0 から与えられるそれぞれのゲイ ンに応じ て重み付け加算部 3 8 で重み付け して加算され、 その加算結果を駆 動音源信号と して合成フィルタ 7 へ供給し符号化音声を得る。 距離 計算部 1 1 は符号化音声と入力音声 S 1 と の距離を求め、 距離が最 小と なる適応符号、 駆動符号、 ゲイ ンを探索する。 この符号化が終 了 した後、 線形予測パラ メータの符号、 入力音声と符号化音声と の 歪みを最小にする適応符号、 駆動符号、 ゲイ ンの符号を符号化結果 と して出力する。
次に複号化部 2 について説明する。 復号化部 2 では、 線形予測パ ラメ 一タ復号化部 1 2 は線形予測パラメ ータの符号から線形予測パ ラメ 一タ を復号化し、 合成フィルタ 1 3 の係数と して設定する と と もに、 雑音度評価部 2 6 へ出力する。 次に、 音源情報の複号化につ いて説明する。 適応符号帳 1 4 は、 適応符号に対応して、 過去の駆 動音源信号を周期的に繰 り 返した時系列べク トルを出力する。 雑音 度評価部 2 6 は、 前記線形予測パラメータ復号化部 1 2 から入力 さ れた復号化した線形予測パラメータ と適応符号と から符号化部 1 の 雑音度評価部 2 4 と同様の方法で雑音の度合いを評価し、 評価結果 を重み決定部 3 7 に出力する。
第 1 の駆動符号帳 3 5 および第 2 の駆動符号帳 3 6 は駆動符号に 対応した時系列べク トルを出力する。 重み決定部 3 7 は前記雑音度 評価部 2 6 から入力された雑音度評価結果に応じて、 符号化部 1 の 重み決定部 3 4 と 同様に重みを与える とする。 第 1 の駆動符号帳 3 5 、 第 2 の駆動符号帳 3 6 からの各時系列べク トルは上記重み決定 部 3 7から与えれるそれぞれの重みに応じて重み付け して加算され る。 適応符号帳 1 4 から出力された時系列べク トルと、 前記重み付 け加算して生成された時系列べク トルは、 ゲイ ン複号化部 1 6 でゲ イ ンの符号から復号化したそれぞれのゲイ ンに応 じて重み付け加算 部 3 9 で重み付け して加算され、 その加算結果が駆動音源信号と し て合成フ ィルタ 1 3 へ供給され出力音声 S 3 が得られる。
この実施の形態 5 によれば、 音声の雑音の度合いを符号および符 号化結果から評価し、 評価結果に応じて雑音的な時系列べク トルと 非雑音的な時系列べク トルを重み付き加算 して用いる こ と によ り 、 少ない情報量で、 品質の高い音声を再生する こ とができ る。
実施の形態 6 .
上述の実施の形態 1 〜 5 でさ らに、 雑音の度合いの評価結果に応 じてゲイ ンの符号帳を変更する と しても良い。 こ の実施の形態 6 に よれば、 駆動符号帳に応 じて最適なゲイ ンの符号帳を用いる こ とが でき るので、 品質の高い音声を再生する こ とができ る。
実施の形態 7 .
上述の実施の形態 1 〜 6 では、 音声の雑音の度合いを評価し、 そ の評価結果に応じて駆動符号帳を切り 替えているが、 有声の立ち上 が りや破裂性の子音などをそれぞれ判定、 評価し、 その評価結果に 応じて駆動符号帳を切 り 替えても良い。 この実施の形態 7 によれば、 音声の雑音的な状態だけでなく 、 有声の立ち上が りや破裂性子音な どさ らに細かく 分類し、 それぞれに適した駆動符号帳を用いるこ と ができ るので、 品質の高い音声を再生する こ とができ る。
実施の形態 8 .
上述の実施の形態 1 ~ 6 では、 図 2 に示すスペク トル傾斜、 短期 予測利得、 ピッチ変動から、 符号化区間の雑音の度合いを評価して いるが、 適応符号帳出力に対するゲイ ン値の大小を用いて評価して も良い。 産業上の利用可能性
本発明に係る音声符号化方法及び音声復号化方法並びに音声符号 化装置及び音声復号化装置によれば、 スぺク トル情報、 パワー情報、 ピッチ情報の う ち少なく と も 1 つの符号または符号化結果を用いて 該符号化区間における音声の雑音性の度合いを評価し、 評価結果に 応じて異なる駆動符号帳を用いるので、 少ない情報量で品質の高い 音声を再生する こ とができ る。
またこの発明によれば、 音声符号化方法及び音声複号化方法で、 格納している駆動音源の雑音性の度合いが異なる複数の駆動符号帳 を備え、 音声の雑音性の度合いの評価結果に応じて、 複数の駆動符 号帳を切 り 替えて用いるので、 少ない情報量で品質の高い音声を再 生する こ とができ る。
またこの発明によれば、 音声符号化方法及び音声複号化方法で、 音声の雑音性の度合いの評価結果に応じて、 駆動符号帳に格納して いる時系列べク トルの雑音性の度合いを変化させたので、 少ない情 報量で品質の高い音声を再生する こ とができる。
またこの発明によれば、 音声符号化方法及び音声復号化方法で、 雑音的な時系列べク トルを格納している駆動符号帳を備え、 音声の 雑音性の度合いの評価結果に応じて、 時系列べク トルの信号サンプ ルを間引 く こ と によ り雑音性の度合いが低い時系列べク トルを生成 したので、少ない情報量で品質の高い音声を再生する こ とができ る。 またこの発明によれば、 音声符号化方法及び音声復号化方法で、 雑音的な時系列べク トルを格納している第 1 の駆動符号帳と、 非雑 音的な時系列べク トルを格納している第 2 の駆動符号帳と を備え、 音声の雑音性の度合いの評価結果に応じて、 第 1 の駆動符号帳の時 系列べク トルと第 2の駆動符号帳の時系列べク トルを重み付け加算 した時系列べク トルを生成したので、 少ない情報量で品質の高い音 声を再生する こ とができる。

Claims

請求の範囲
1 . 符 号 駆 動 線 形 予 測 ( C o de-Excited Linear Prediction: C E L P ) 音声符号化方法において、 スぺク トル情報、 パワー情報、 ピッチ情報の う ち少なく と も 1 つの符号または符号化 結果を用いて該符号化区間における音声の雑音性の度合いを評価し、 評価結果に応じて複数の駆動符号帳の う ち 1 つを選択する こ と を特 徴とする音声符号化方法。
2 . 格納している時系列べク トルの雑音性の度合いが 異なる複数の駆動符号帳を備え、 音声の雑音性の度合いの評価結果 に応じて、 上記複数の駆動符号帳を切 り替えて用いる こ と を特徴と する請求項 1 に記載の音声符号化方法。
3 . 音声の雑音性の度合いの評価結果に応じて、 駆動 符号帳に格納 している時系列ベク トルの雑音性の度合いを変化させ る こ と を特徴とする請求項 1 に記載の音声符号化方法。
4 . 雑音的な時系列べク トルを格納 している駆動符号 帳を備え、 音声の雑音性の度合いの評価結果に応 じて、 上記時系列 べク トルの信号サンプルを間引 く こ と によ り雑音性の度合いが低い 時系列べク トルを生成する こ と を特徴とする請求項 3 に記載の音声 符号化方法。
5 . 雑音的な時系列べク トルを格納している第 1 の駆 動符号帳と、 非雑音的な時系列べク トルを格納している第 2 の駆動 符号帳と を備え、 音声の雑音性の度合いの評価結果に応じて、 上記 第 1 の駆動符号帳の時系列べク トルと上記第 2 の駆動符号帳の時系 列べク ト ルを重み付けし加算した時系列べク トルを生成する こ と を 特徴とする請求項 3 に記載の音声符号化方法。
6 . 符号駆動線形予測 ( C E L P ) 音声複号化方法に おいて、 スペク トル情報、 パワー情報、 ピッチ情報の う ち少なく と も 1 つの符号または復号化結果を用いて該復号化区間における音声 の雑音性の度合いを評価し、 評価結果に応 じて複数の駆動符号帳の う ち 1 つを選択する こ と を特徴とする音声複号化方法。
7 . 格納している時系列べク トルの雑音性の度合いが 異なる複数の駆動符号帳を備え、 音声の雑音性の度合いの評価結果 に応じて、 上記複数の駆動符号帳を切 り替えて用いる こ と を特徴と する請求項 6 に記載の音声復号化方法。
8 . 音声の雑音性の度合いの評価結果に応じて、 駆動 符号帳に格納している時系列ベク トルの雑音性の度合いを変化させ るこ と を特徴とする請求項 6 に記載の音声復号化方法。
9 . 雑音的な時系列べク トルを格納 している駆動符号 帳を備え、 音声の雑音性の度合いの評価結果に応じて、 上記時系列 べク トルの信号サンプルを間引 く こ と によ り雑音性の度合いが低い 時系列べク トルを生成する こ と を特徴とする請求項 8 に記載の音声 復号化方法。
1 0 . 雑音的な時系列べク トルを格納している第 1 の 駆動符号帳と 、 非雑音的な時系列べク トルを格納 している第 2の駆 動符号帳と を備え、 音声の雑音性の度合いの評価結果に応じて、 上 記第 1 の駆動符号帳の時系列べク トルと上記第 2 の駆動符号帳の時 系列べク トルを重み付け し加算した時系列べク トルを生成する こ と を特徴とする請求項 8 に記載の音声複号化方法。
1 1 . 入力音声のスぺク トル情報を符号化し、 符号化 結果の 1 要素と して出力するスぺク トル情報符号化部と 、
このスぺク トル情報符号化部からの符号化されたスぺク トル情報 から得られるスぺク トル情報、 パワー情報の う ち少なく と も 1 つの 符号または符号化結果を用いて該符号化区間における音声の雑音性 の度合いを評価し、 評価結果を出力する雑音度評価部と 、
非雑音的な複数の時系列べク トルが記憶された第 1 の駆動符号帳 と、
雑音的な複数の時系列べク トルが記憶された第 2 の駆動符号帳と 、 前記雑音度評価部の評価結果によ り 、 第 1 の駆動符号帳と第 2 の 駆動符号帳と を切 り替える駆動符号帳切替部と 、
前記第 1 の駆動符号帳または第 2の駆動符号帳からの時系列べク トルをそれぞれの時系列べク トルのゲイ ンに応じて重み付けし加算 する重み付け加算部と
この重み付けされた時系列べク トルを駆動音源信号と し、 この駆 動音源信号と前記スぺク トル情報符号化部からの符号化されたスぺ ク トル情報と に基づいて符号化音声を得る合成フィルタ と、
この符号化音声と前記入力音声との距離を求め、 距離が最小と な る駆動符号、 ゲイ ンを探索し、 その結果を駆動符号, ゲイ ンの符号 を符号化結果と して出力する距離計算部と を備えたこ と を特徴とす る音声符号化装置。
1 2 . スぺク トル情報の符号からスぺク トル情報を復 号化するスぺク トル情報復号化部と、
このスぺク トル情報復号化部からの復号化されたスぺク トル情報 から得られるスぺク トル情報、 パワー情報の う ち少なく と も 1 つの 複号化結果または前記スぺク トル情報の符号を用いて該複号化区間 における音声の雑音性の度合いを評価し、 評価結果を出力する雑音 度評価部と、
非雑音的な複数の時系列ベク トルが記憶された第 1 の駆動符号帳 と、
雑音的な複数の時系列べク トルが記憶された第 2 の駆動符号帳と 前記雑音度評価部の評価結果によ り 、 第 1 の駆動符号帳と第 2 の 駆動符号帳と を切 り替える駆動符号帳切替部と 、
前記第 1 の駆動符号帳または第 2の駆動符号帳からの時系列べク トルをそれぞれの時系列べク トルのゲイ ンに応じて重み付けし加算 する重み付け加算部と
この重み付けされた時系列べク トルを駆動音源信号と し、 この駆 動音源信号と前記スぺク トル情報複号化部からの複号化されたスぺ ク トル情報と に基づいて復号化音声を得る合成フ ィ ルタ と を備えた こ と を特徴とする音声復号化装置。
1 3 . 符号駆動線形予測 ( C E L P ) 音声符号化装置 において、 スぺク トル情報、 パワー情報、 ピッチ情報の う ち少なく と も 1 つの符号または符号化結果を用いて該符号化区間における音 声の雑音性の度合いを評価する雑音度評価部と 、
上記雑音度評価部の評価結果に応 じて複数の駆動符号帳を切 り替 える駆動符号切替部と を備えたこ と を特徴とする音声符号化装置。
1 4 . 符号駆動線形予測 ( C E L P ) 音声複号化装置 において、 スぺク トル情報、 パワー情報、 ピッチ情報の う ち少なく と も 1 つの符号または複号化結果を用いて該複号化区間における音 声の雑音性の度合いを評価する雑音度評価部と、
上記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り 替 える駆動符号帳切替部と を備えたこ と を特徴とする音声複号化装置 c
PCT/JP1998/005513 1997-12-24 1998-12-07 Sound encoding method and sound decoding method, and sound encoding device and sound decoding device WO1999034354A1 (en)

Priority Applications (27)

Application Number Priority Date Filing Date Title
JP2000526920A JP3346765B2 (ja) 1997-12-24 1998-12-07 音声復号化方法及び音声復号化装置
EP98957197A EP1052620B1 (en) 1997-12-24 1998-12-07 Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
CA002315699A CA2315699C (en) 1997-12-24 1998-12-07 A method for speech coding, method for speech decoding and their apparatuses
IL13672298A IL136722A0 (en) 1997-12-24 1998-12-07 A method for speech coding, method for speech decoding and their apparatuses
AU13526/99A AU732401B2 (en) 1997-12-24 1998-12-07 A method for speech coding, method for speech decoding and their apparatuses
US09/530,719 US7092885B1 (en) 1997-12-24 1998-12-07 Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
DE69825180T DE69825180T2 (de) 1997-12-24 1998-12-07 Audiokodier- und dekodierverfahren und -vorrichtung
NO20003321A NO20003321D0 (no) 1997-12-24 2000-06-23 FremgangsmÕte for talekoding, fremgangsmÕte for laledekoding, samt deres apparater
NO20035109A NO323734B1 (no) 1997-12-24 2003-11-17 Fremgangsmate for talekoding, fremgangsmate for taledekoding, samt deres apparater
NO20040046A NO20040046L (no) 1997-12-24 2004-01-06 Fremgangsmate for talekoding, fremgangsmate for taledekoding, samt deres apparater
US11/090,227 US7363220B2 (en) 1997-12-24 2005-03-28 Method for speech coding, method for speech decoding and their apparatuses
US11/188,624 US7383177B2 (en) 1997-12-24 2005-07-26 Method for speech coding, method for speech decoding and their apparatuses
US11/653,288 US7747441B2 (en) 1997-12-24 2007-01-16 Method and apparatus for speech decoding based on a parameter of the adaptive code vector
US11/976,883 US7747433B2 (en) 1997-12-24 2007-10-29 Method and apparatus for speech encoding by evaluating a noise level based on gain information
US11/976,828 US20080071524A1 (en) 1997-12-24 2007-10-29 Method for speech coding, method for speech decoding and their apparatuses
US11/976,840 US7747432B2 (en) 1997-12-24 2007-10-29 Method and apparatus for speech decoding by evaluating a noise level based on gain information
US11/976,841 US20080065394A1 (en) 1997-12-24 2007-10-29 Method for speech coding, method for speech decoding and their apparatuses Method for speech coding, method for speech decoding and their apparatuses
US11/976,878 US20080071526A1 (en) 1997-12-24 2007-10-29 Method for speech coding, method for speech decoding and their apparatuses
US11/976,830 US20080065375A1 (en) 1997-12-24 2007-10-29 Method for speech coding, method for speech decoding and their apparatuses
US11/976,877 US7742917B2 (en) 1997-12-24 2007-10-29 Method and apparatus for speech encoding by evaluating a noise level based on pitch information
US12/332,601 US7937267B2 (en) 1997-12-24 2008-12-11 Method and apparatus for decoding
US13/073,560 US8190428B2 (en) 1997-12-24 2011-03-28 Method for speech coding, method for speech decoding and their apparatuses
US13/399,830 US8352255B2 (en) 1997-12-24 2012-02-17 Method for speech coding, method for speech decoding and their apparatuses
US13/618,345 US8447593B2 (en) 1997-12-24 2012-09-14 Method for speech coding, method for speech decoding and their apparatuses
US13/792,508 US8688439B2 (en) 1997-12-24 2013-03-11 Method for speech coding, method for speech decoding and their apparatuses
US14/189,013 US9263025B2 (en) 1997-12-24 2014-02-25 Method for speech coding, method for speech decoding and their apparatuses
US15/043,189 US9852740B2 (en) 1997-12-24 2016-02-12 Method for speech coding, method for speech decoding and their apparatuses

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP9/354754 1997-12-24
JP35475497 1997-12-24

Related Child Applications (5)

Application Number Title Priority Date Filing Date
US09530719 A-371-Of-International 1998-12-07
US09/530,719 Division US7092885B1 (en) 1997-12-24 1998-12-07 Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
US09/530,719 A-371-Of-International US7092885B1 (en) 1997-12-24 1998-12-07 Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
US11/090,227 Division US7363220B2 (en) 1997-12-24 2005-03-28 Method for speech coding, method for speech decoding and their apparatuses
US11/188,624 Division US7383177B2 (en) 1997-12-24 2005-07-26 Method for speech coding, method for speech decoding and their apparatuses

Publications (1)

Publication Number Publication Date
WO1999034354A1 true WO1999034354A1 (en) 1999-07-08

Family

ID=18439687

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/005513 WO1999034354A1 (en) 1997-12-24 1998-12-07 Sound encoding method and sound decoding method, and sound encoding device and sound decoding device

Country Status (11)

Country Link
US (18) US7092885B1 (ja)
EP (8) EP2154679B1 (ja)
JP (2) JP3346765B2 (ja)
KR (1) KR100373614B1 (ja)
CN (5) CN100583242C (ja)
AU (1) AU732401B2 (ja)
CA (4) CA2636684C (ja)
DE (3) DE69825180T2 (ja)
IL (1) IL136722A0 (ja)
NO (3) NO20003321D0 (ja)
WO (1) WO1999034354A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1083546A2 (en) * 1999-09-07 2001-03-14 Mitsubishi Denki Kabushiki Kaisha Speech coding method using linear prediction and algebraic code excitation
JP2001222298A (ja) * 2000-02-10 2001-08-17 Mitsubishi Electric Corp 音声符号化方法および音声復号化方法とその装置
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
JP2003504669A (ja) * 1999-07-02 2003-02-04 テラブス オペレーションズ,インコーポレイティド 符号化領域雑音制御
WO2007129726A1 (ja) * 2006-05-10 2007-11-15 Panasonic Corporation 音声符号化装置及び音声符号化方法
WO2008072732A1 (ja) * 2006-12-14 2008-06-19 Panasonic Corporation 音声符号化装置および音声符号化方法

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154679B1 (en) * 1997-12-24 2016-09-14 BlackBerry Limited Method and apparatus for speech coding
JP4619549B2 (ja) * 2000-01-11 2011-01-26 パナソニック株式会社 マルチモード音声復号化装置及びマルチモード音声復号化方法
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3566220B2 (ja) * 2001-03-09 2004-09-15 三菱電機株式会社 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
KR100467326B1 (ko) * 2002-12-09 2005-01-24 학교법인연세대학교 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기
US20040244310A1 (en) * 2003-03-28 2004-12-09 Blumberg Marvin R. Data center
DE602006010687D1 (de) * 2005-05-13 2010-01-07 Panasonic Corp Audiocodierungsvorrichtung und spektrum-modifikationsverfahren
CN1924990B (zh) * 2005-09-01 2011-03-16 凌阳科技股份有限公司 Midi音讯的播放架构和方法与其应用的多媒体装置
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
DK2102619T3 (en) * 2006-10-24 2017-05-15 Voiceage Corp METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
SG166095A1 (en) * 2006-11-10 2010-11-29 Panasonic Corp Parameter decoding device, parameter encoding device, and parameter decoding method
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
US9056697B2 (en) * 2008-12-15 2015-06-16 Exopack, Llc Multi-layered bags and methods of manufacturing the same
US8649456B2 (en) 2009-03-12 2014-02-11 Futurewei Technologies, Inc. System and method for channel information feedback in a wireless communications system
US8675627B2 (en) * 2009-03-23 2014-03-18 Futurewei Technologies, Inc. Adaptive precoding codebooks for wireless communications
US9070356B2 (en) * 2012-04-04 2015-06-30 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
CA2886140C (en) 2012-11-15 2021-03-23 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
EP3008726B1 (en) 2013-06-10 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
RU2644123C2 (ru) 2013-10-18 2018-02-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации
EP3058568B1 (en) 2013-10-18 2021-01-13 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
KR101855945B1 (ko) * 2014-05-01 2018-05-10 니폰 덴신 덴와 가부시끼가이샤 부호화 장치, 복호 장치 및 그 방법, 프로그램, 기록 매체
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
EP3537432A4 (en) * 2016-11-07 2020-06-03 Yamaha Corporation LANGUAGE SYNTHESIS PROCEDURE
US10878831B2 (en) 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection
JP6514262B2 (ja) * 2017-04-18 2019-05-15 ローランドディー.ジー.株式会社 インクジェットプリンタおよび印刷方法
CN112201270B (zh) * 2020-10-26 2023-05-23 平安科技(深圳)有限公司 语音噪声的处理方法、装置、计算机设备及存储介质
EP4053750A1 (en) * 2021-03-04 2022-09-07 Tata Consultancy Services Limited Method and system for time series data prediction based on seasonal lags

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0333900A (ja) * 1989-06-30 1991-02-14 Fujitsu Ltd 音声符号化方式
JPH08110800A (ja) * 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JPH08328598A (ja) * 1995-05-26 1996-12-13 Sanyo Electric Co Ltd 音声符号化・復号化装置
JPH08328596A (ja) * 1995-05-30 1996-12-13 Sanyo Electric Co Ltd 音声符号化装置
JPH0922299A (ja) * 1995-07-07 1997-01-21 Kokusai Electric Co Ltd 音声符号化通信方式
JPH09281997A (ja) * 1996-04-12 1997-10-31 Olympus Optical Co Ltd 音声符号化装置

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0197294A (ja) 1987-10-06 1989-04-14 Piran Mirton 木材パルプ等の精製機
US5261027A (en) 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
CA2019801C (en) 1989-06-28 1994-05-31 Tomohiko Taniguchi System for speech coding and an apparatus for the same
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
CA2021514C (en) * 1989-09-01 1998-12-15 Yair Shoham Constrained-stochastic-excitation coding
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JP2776050B2 (ja) 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JPH05232994A (ja) 1992-02-25 1993-09-10 Oki Electric Ind Co Ltd 統計コードブック
JPH05265496A (ja) * 1992-03-18 1993-10-15 Hitachi Ltd 複数のコードブックを有する音声符号化方法
JP3297749B2 (ja) 1992-03-18 2002-07-02 ソニー株式会社 符号化方法
US5495555A (en) 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
CA2107314C (en) * 1992-09-30 2001-04-17 Katsunori Takahashi Computer system
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
JP2624130B2 (ja) 1993-07-29 1997-06-25 日本電気株式会社 音声符号化方式
JPH0749700A (ja) 1993-08-09 1995-02-21 Fujitsu Ltd Celp型音声復号器
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JPH0869298A (ja) 1994-08-29 1996-03-12 Olympus Optical Co Ltd 再生装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3292227B2 (ja) 1994-12-28 2002-06-17 日本電信電話株式会社 符号励振線形予測音声符号化方法及びその復号化方法
DE69609089T2 (de) * 1995-01-17 2000-11-16 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
KR0181028B1 (ko) 1995-03-20 1999-05-01 배순훈 분류 디바이스를 갖는 개선된 비디오 신호 부호화 시스템
US5864797A (en) 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
EP0773533B1 (en) 1995-11-09 2000-04-26 Nokia Mobile Phones Ltd. Method of synthesizing a block of a speech signal in a CELP-type coder
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP4063911B2 (ja) 1996-02-21 2008-03-19 松下電器産業株式会社 音声符号化装置
GB2312360B (en) 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JP3094908B2 (ja) 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707154B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 音声符号化方法及び装置
JP3174742B2 (ja) 1997-02-19 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置及びcelp型音声復号化方法
DE69721595T2 (de) 1996-11-07 2003-11-27 Matsushita Electric Ind Co Ltd Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
US5867289A (en) * 1996-12-24 1999-02-02 International Business Machines Corporation Fault detection for all-optical add-drop multiplexer
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
CA2202025C (en) 1997-04-07 2003-02-11 Tero Honkanen Instability eradicating method and device for analysis-by-synthesis speeech codecs
US6029125A (en) 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6058359A (en) 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
JPH11119800A (ja) 1997-10-20 1999-04-30 Fujitsu Ltd 音声符号化復号化方法及び音声符号化復号化装置
EP2154679B1 (en) * 1997-12-24 2016-09-14 BlackBerry Limited Method and apparatus for speech coding
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6104992A (en) 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
ITMI20011454A1 (it) 2001-07-09 2003-01-09 Cadif Srl Procedimento impianto e nastro a base di bitume polimero per il riscaldamento superficiale ed ambiantale delle strutture e delle infrastrutt

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0333900A (ja) * 1989-06-30 1991-02-14 Fujitsu Ltd 音声符号化方式
JPH08110800A (ja) * 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JPH08328598A (ja) * 1995-05-26 1996-12-13 Sanyo Electric Co Ltd 音声符号化・復号化装置
JPH08328596A (ja) * 1995-05-30 1996-12-13 Sanyo Electric Co Ltd 音声符号化装置
JPH0922299A (ja) * 1995-07-07 1997-01-21 Kokusai Electric Co Ltd 音声符号化通信方式
JPH09281997A (ja) * 1996-04-12 1997-10-31 Olympus Optical Co Ltd 音声符号化装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1052620A4 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
JP4818556B2 (ja) * 1999-07-01 2011-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 確率論的ロバスト音声処理
JP2003504669A (ja) * 1999-07-02 2003-02-04 テラブス オペレーションズ,インコーポレイティド 符号化領域雑音制御
EP1083546A2 (en) * 1999-09-07 2001-03-14 Mitsubishi Denki Kabushiki Kaisha Speech coding method using linear prediction and algebraic code excitation
EP1083546A3 (en) * 1999-09-07 2004-03-10 Mitsubishi Denki Kabushiki Kaisha Speech coding method using linear prediction and algebraic code excitation
JP2001222298A (ja) * 2000-02-10 2001-08-17 Mitsubishi Electric Corp 音声符号化方法および音声復号化方法とその装置
JP4510977B2 (ja) * 2000-02-10 2010-07-28 三菱電機株式会社 音声符号化方法および音声復号化方法とその装置
WO2007129726A1 (ja) * 2006-05-10 2007-11-15 Panasonic Corporation 音声符号化装置及び音声符号化方法
WO2008072732A1 (ja) * 2006-12-14 2008-06-19 Panasonic Corporation 音声符号化装置および音声符号化方法

Also Published As

Publication number Publication date
CN1494055A (zh) 2004-05-05
US20130204615A1 (en) 2013-08-08
EP1052620B1 (en) 2004-07-21
EP1426925B1 (en) 2006-08-02
CN1790485A (zh) 2006-06-21
US20120150535A1 (en) 2012-06-14
US20080065394A1 (en) 2008-03-13
JP3346765B2 (ja) 2002-11-18
NO20040046L (no) 2000-06-23
EP2154681A3 (en) 2011-12-21
CA2636684C (en) 2009-08-18
EP1596368A2 (en) 2005-11-16
JP4916521B2 (ja) 2012-04-11
CN100583242C (zh) 2010-01-20
AU732401B2 (en) 2001-04-26
US20080065375A1 (en) 2008-03-13
US20050171770A1 (en) 2005-08-04
US20070118379A1 (en) 2007-05-24
EP2154679A3 (en) 2011-12-21
NO20035109D0 (no) 2003-11-17
EP2154680A2 (en) 2010-02-17
CA2636684A1 (en) 1999-07-08
US7363220B2 (en) 2008-04-22
US7092885B1 (en) 2006-08-15
KR20010033539A (ko) 2001-04-25
US20080071525A1 (en) 2008-03-20
DE69825180D1 (de) 2004-08-26
AU1352699A (en) 1999-07-19
EP2154681A2 (en) 2010-02-17
US7742917B2 (en) 2010-06-22
DE69736446T2 (de) 2007-03-29
US8688439B2 (en) 2014-04-01
EP1596368A3 (en) 2006-03-15
US9263025B2 (en) 2016-02-16
US20090094025A1 (en) 2009-04-09
DE69736446D1 (de) 2006-09-14
US20080065385A1 (en) 2008-03-13
EP1596367A2 (en) 2005-11-16
CN1737903A (zh) 2006-02-22
US7747441B2 (en) 2010-06-29
EP1426925A1 (en) 2004-06-09
KR100373614B1 (ko) 2003-02-26
US20080071526A1 (en) 2008-03-20
NO20003321L (no) 2000-06-23
CN1658282A (zh) 2005-08-24
US8190428B2 (en) 2012-05-29
US9852740B2 (en) 2017-12-26
US7747432B2 (en) 2010-06-29
CA2315699C (en) 2004-11-02
NO20035109L (no) 2000-06-23
EP2154680B1 (en) 2017-06-28
CA2636552A1 (en) 1999-07-08
EP1596367A3 (en) 2006-02-15
NO323734B1 (no) 2007-07-02
US7747433B2 (en) 2010-06-29
EP1686563A3 (en) 2007-02-07
CA2722196C (en) 2014-10-21
CA2722196A1 (en) 1999-07-08
CN1283298A (zh) 2001-02-07
NO20003321D0 (no) 2000-06-23
DE69837822T2 (de) 2008-01-31
DE69825180T2 (de) 2005-08-11
EP1596368B1 (en) 2007-05-23
US20080071527A1 (en) 2008-03-20
JP2009134303A (ja) 2009-06-18
US20110172995A1 (en) 2011-07-14
CA2315699A1 (en) 1999-07-08
EP2154680A3 (en) 2011-12-21
US7383177B2 (en) 2008-06-03
EP1686563A2 (en) 2006-08-02
US20140180696A1 (en) 2014-06-26
US20050256704A1 (en) 2005-11-17
EP2154679B1 (en) 2016-09-14
CN1143268C (zh) 2004-03-24
US8352255B2 (en) 2013-01-08
CA2636552C (en) 2011-03-01
US20080071524A1 (en) 2008-03-20
EP1052620A1 (en) 2000-11-15
DE69837822D1 (de) 2007-07-05
EP2154679A2 (en) 2010-02-17
US7937267B2 (en) 2011-05-03
US20130024198A1 (en) 2013-01-24
US20160163325A1 (en) 2016-06-09
US8447593B2 (en) 2013-05-21
EP1052620A4 (en) 2002-08-21
IL136722A0 (en) 2001-06-14

Similar Documents

Publication Publication Date Title
WO1999034354A1 (en) Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
JP3134817B2 (ja) 音声符号化復号装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JP3746067B2 (ja) 音声復号化方法及び音声復号化装置
KR100561018B1 (ko) 음성 부호화 장치와 방법, 및 음성 복호화 장치와 방법
JP2538450B2 (ja) 音声の励振信号符号化・復号化方法
JP4800285B2 (ja) 音声復号化方法及び音声復号化装置
JP4510977B2 (ja) 音声符号化方法および音声復号化方法とその装置
JP2613503B2 (ja) 音声の励振信号符号化・復号化方法
JP3003531B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3144284B2 (ja) 音声符号化装置
JP3299099B2 (ja) 音声符号化装置
JP3292227B2 (ja) 符号励振線形予測音声符号化方法及びその復号化方法
JP3563400B2 (ja) 音声復号化装置及び音声復号化方法
JP3462958B2 (ja) 音声符号化装置および記録媒体
JP4170288B2 (ja) 音声符号化方法及び音声符号化装置
JP3736801B2 (ja) 音声復号化方法及び音声復号化装置
JP3166697B2 (ja) 音声符号化・復号装置及びシステム
JPH10105197A (ja) 音声符号化装置
JP2000347700A (ja) Celp型音声復号化装置及びcelp型音声復号化方法
JPH10124091A (ja) 音声符号化装置および情報記憶媒体
JP2001022399A (ja) Celp型音声符号化装置とcelp型音声符号化方法、及びcelp型音声復号化装置とcelp型音声復号化方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 136722

Country of ref document: IL

Ref document number: 98812682.6

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GE GH GM HU ID IL IN IS JP KE KG KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09530719

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 13526/99

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: IN/PCT/2000/82/CHE

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 1998957197

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2315699

Country of ref document: CA

Ref document number: 2315699

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1020007007047

Country of ref document: KR

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 1998957197

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020007007047

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 13526/99

Country of ref document: AU

WWG Wipo information: grant in national office

Ref document number: 1020007007047

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1998957197

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 202/CHENP/2006

Country of ref document: IN