WO2009117967A1 - 编码、解码的方法及装置 - Google Patents

编码、解码的方法及装置 Download PDF

Info

Publication number
WO2009117967A1
WO2009117967A1 PCT/CN2009/071030 CN2009071030W WO2009117967A1 WO 2009117967 A1 WO2009117967 A1 WO 2009117967A1 CN 2009071030 W CN2009071030 W CN 2009071030W WO 2009117967 A1 WO2009117967 A1 WO 2009117967A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
superframe
background noise
current
coding
Prior art date
Application number
PCT/CN2009/071030
Other languages
English (en)
French (fr)
Inventor
舒默特·艾雅
张立斌
代金良
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP09726234.9A priority Critical patent/EP2224428B1/en
Publication of WO2009117967A1 publication Critical patent/WO2009117967A1/zh
Priority to US12/820,805 priority patent/US8370135B2/en
Priority to US12/881,926 priority patent/US7912712B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Definitions

  • the present application claims priority to Chinese Patent Application No. 200810084077.6, the entire disclosure of which is incorporated herein by reference. .
  • TECHNICAL FIELD The present invention relates to the field of communications technologies, and in particular, to a method and an apparatus for encoding and decoding.
  • the codec for background noise is performed according to the noise processing scheme specified in G.729B established by the ITU (International Telecommunications Union).
  • a silent compression technique is introduced in the speech coder, and its signal processing principle block diagram is shown in FIG. 1 .
  • the mute compression technology mainly includes three modules: VAD (Voice Activity Detection), DTX (Discontinuous Transmission), and CNG (Comfort Noise Generator), where VAD and DTX are in the encoder.
  • Module, CNG is the module in the decoding end.
  • Figure 1 is a block diagram of a simple silent compression system.
  • the VAD module analyzes and detects the current input signal to detect whether the current signal is in the current signal. Contains voice signals, if included, sets the current frame as a speech frame, otherwise it is set to a non-speech frame.
  • the encoder encodes the current signal according to the VAD detection result. If the VAD detection result is a speech frame, the signal enters the speech encoder for speech encoding, and the output is a speech frame; if the VAD detection result is a non-speech frame, the signal enters the DTX.
  • the module performs background noise processing with a non-speech encoder and outputs non-speech frames.
  • the received signal frame (including the speech frame and the non-speech frame) is decoded at the receiving end (decoding end). If the received signal frame is a speech frame, it is decoded by a speech decoder, otherwise it enters the CNG module, and the CNG module decodes the background noise according to the parameters transmitted from the non-speech frame to generate comfortable background noise or mute, so that decoding The latter signal sounds more natural and continuous. Introducing this variable rate coding method in the encoder, by adapting the signal in the silent phase When the encoding, the mute compression technology effectively solves the problem of background noise discontinuity and improves the signal synthesis quality. Therefore, the background noise at the decoding end can also be called comfort noise.
  • the average coding rate of the system is also greatly reduced, thereby effectively saving bandwidth.
  • G.729B processes the signal, the signal is processed by framing, and the frame length is 10ms. In order to save bandwidth,
  • G.729.1 also defines the requirements of the silent compression system, which is required to encode and transmit the background noise in the case of background noise without degrading the overall coding quality of the signal, ie, DTX and CNG are defined.
  • the more important requirement is to require its DTX/CNG system to be compatible with G.729B.
  • G.729B's DTX/CNG system can be easily ported to G.729.1, there are two problems to be solved: First, the processing lengths of the two encoders are different, direct migration will bring some problems, and 729B
  • the DTX/CNG system is somewhat simple, especially the parameter extraction part.
  • the 729B DTX/CNG system needs to be extended.
  • the signal bandwidth processed by G.729.1 is broadband, and the bandwidth processed by G.729B is narrowband.
  • the high-band portion of the background noise signal (4000Hz ⁇ 7000Hz) is also added. Make it a complete system.
  • the existing G.729B system has a narrow bandwidth background noise, and the quality of the encoded signal cannot be guaranteed when transplanted into the G.729.1 system.
  • an object of one or more embodiments of the present invention is to provide a method and an apparatus for encoding and decoding, which can implement the requirements of the G.729.1 technical standard after extending G.729B.
  • the communication bandwidth of the signal is significantly reduced.
  • an embodiment of the present invention provides a coding method, including:
  • a decoding method comprising: obtaining a CNG parameter of a first frame of a first superframe from a speech encoded frame preceding a first frame of a first superframe; and according to the CNG parameter, for the first The first frame of the superframe performs background noise decoding, the CNG parameters including: a target excitation gain determined by a fixed codebook gain quantized by a long time smoothed speech coded frame; an LPC filter coefficient, the LPC Filter coefficients are quantized by long time smoothed speech coded frames
  • An encoding device including: a first extracting unit, configured to: extract a background noise characteristic parameter in a trailing time;
  • a second coding unit configured to: after the first superframe after the tailing time, according to the extracted background noise characteristic parameter in the trailing time and the background noise characteristic parameter of the first superframe, Performing background noise coding; a second extracting unit, configured to: perform background noise feature parameter extraction on each frame after the superframe after the first superframe;
  • a DTX decision unit configured to: perform a DTX decision on each frame after the first superframe; and a third coding unit, configured to: a superframe after the first superframe, Background noise coding is performed according to the background noise characteristic parameter of the extracted current superframe and the background noise characteristic parameters of several superframes before the current superframe, and the final DTX decision result.
  • a decoding apparatus comprising: a CNG parameter obtaining unit, configured to: obtain a CNG parameter of a first frame of a first superframe from a voice coded frame before a first frame of a first superframe; a first decoding unit, configured to: perform background noise decoding on a first frame of the first superframe according to the CNG parameter, where the CNG parameter includes: a target excitation gain, where the target excitation gain is smoothed by a long time Fixed codebook gain determination for coded frame quantization;
  • the embodiment of the invention has the following advantages:
  • the embodiment of the present invention extracts the background noise characteristic parameter in the trailing time; and the first superframe after the trailing time, according to the extracted background noise characteristic parameter and the background noise of the first superframe Characteristic parameters, performing background noise coding; for the superframe after the first superframe, performing background noise feature parameter extraction and DTX decision for each frame; for the superframe after the first superframe, according to the extracted current superframe.
  • the background noise characteristic parameter of the frame and the background noise characteristic parameters of several superframes before the current superframe, and the final DTX decision result perform background noise coding. Achieved:
  • the communication bandwidth of the signal is significantly reduced in the case of ensuring the quality of the coding.
  • FIG. 1 shows a block diagram of a simple silent compression system
  • Figure 2 shows the functional block diagram of the G.729.1 encoder
  • Figure 3 shows the G.729.1 decoder system block diagram
  • FIG. 5 is a schematic flow chart of encoding the first superframe
  • FIG. 6 is a flow chart of narrowband partial parameter extraction and DTX decision
  • Shown, is a flowchart of the background noise parameter extraction and DTX decision of the narrowband part in the current superframe
  • Figure 8 is a flow chart showing a first embodiment of the decoding method of the present invention
  • Figure 9 is a block diagram showing a first embodiment of the encoding apparatus of the present invention
  • Figure 10 is an implementation of the decoding apparatus of the present invention.
  • the block diagram of the first example is a schematic flow chart of encoding the first superframe
  • FIG. 6 is a flow chart of narrowband partial parameter extraction and DTX decision
  • Shown is a flowchart
  • the synthesis filter parameters are mainly line spectrum frequency LSF quantization parameters
  • the excitation signal parameters include: pitch delay parameters, pitch gain parameters, fixed codebook parameters, and fixed codebook gain parameters.
  • the quantization bit number and the quantization form of these parameters are different; the same encoder, if it contains multiple rates, at different rates, the quantization bits of the coding parameters are different due to the different emphasis of the description signal characteristics The number and quantization form are also different.
  • the background noise coding parameters describe the background noise characteristics. Since the excitation signal of the background noise can be regarded as a simple random sequence of noise, these sequences can be simply generated by the random noise generation module at the codec end.
  • the excitation signal characteristic parameters can be simply represented by energy parameters without further description of other characteristic parameters, so the background noise coding is performed.
  • the excitation parameter is the energy parameter of the current background noise frame, which is different from the speech frame; the same as the speech frame, the synthesis filter parameter in the background noise coded stream is also the line spectrum frequency LSF quantization parameter, but The specific methods of quantification are different.
  • the mute compression scheme of G.729B is an early silent compression technology.
  • the algorithm model based on background noise codec technology is CELP, so the background noise parameters transmitted by it are also extracted based on CELP model, which is to describe background noise.
  • the synthesis filter parameters and excitation parameters wherein the excitation parameters are energy parameters describing the background noise energy, the adaptive and fixed codebook parameters of the speech excitation are not described, and the filter parameters are basically consistent with the speech coding parameters, which are LSF parameters.
  • the encoder sends the signal to the DTX module, and the background noise parameter is extracted in the DTX module.
  • the background noise is encoded: if the filter parameters and energy parameters extracted by the current frame and the previous frames change greatly, then the current background noise characteristic is compared with the previous background noise characteristic. For larger differences, the noise encoding module encodes the background noise parameters extracted by the current frame, and assembles them into a SID frame (Sience Insertion Descriptor) to the decoding end, otherwise sends a NODATA frame (no data) to the decoding end. . SID frames and NODATA frames are called non-speech frames. At the decoding end, if the background noise phase is entered, comfort noise describing the background noise characteristics of the encoding end is synthesized in the CNG module according to the received non-speech frames.
  • SID frame Ses Insertion Descriptor
  • G.729B processes the signal
  • the signal is processed by framing, and the frame length is 10ms.
  • the 729B DTX, noise coding and CNG modules are described in three sections below.
  • the DTX module is mainly used to estimate and quantize the background noise parameters and send SID frames.
  • the DTX module needs to send background noise information to the decoding end, and the background noise information is encapsulated and sent in the SID frame. If the current background noise is not smooth, the SID frame is sent, otherwise the SID frame is not sent, and no transmission is performed.
  • the NODATA frame of the data The interval between the other two adjacent SID frames is limited, and is limited to two frames. If the background noise is not stable and the SID frame needs to be continuously transmitted, the transmission of the latter SID frame is delayed.
  • the DTX module receives the VAD module's output, autocorrelation coefficients, and past excitation samples from the encoder.
  • the DTX module uses three values 0, 1, and 2 to describe the non-transmitted frames, respectively.
  • the content of the background noise estimation is the energy level of the background noise and the spectral envelope. This is consistent with the speech coding parameters. Therefore, the calculation of the spectral envelope and the calculation of the speech coding parameters are basically the same.
  • the parameters used include the former.
  • the parameters of the two frames; and the energy parameter is also an average of the energy of the first few frames.
  • the Levinson-Durbin algorithm will calculate the residual energy. And use this as a simple estimate of the frame excitation energy.
  • the frame type of the current frame is estimated in the following way:
  • the algorithm compares the previous SID frame parameters with the current corresponding parameters, if the current filter differs from the previous filter or the current excitation energy is compared with the previous excitation energy. Large, then the flag 3 ⁇ 4g_ c to «g e is equal to 1, otherwise the value of the flag does not change.
  • the current counter count_fr represents the number of frames between the current frame and the previous SID. If the value is greater than N mm , then the SID frame is sent; in addition, if flag_change is equal to 1, the SID frame is also sent. In other cases, the current frame is not sent:
  • R a (0) ⁇ a sid (kf d, frame energy:
  • the parameters in the SID frame are the LPC filter coefficients (spectral envelope) and the quantization parameters of the energy.
  • the stability between adjacent noise frames is considered in the calculation of the SID-LPC filter: First, the average LPC filter (z) of the frame before the current SID frame is calculated, which uses the autocorrelation function and ( ), It will then be sent to the Levinson-Durbin algorithm to get 0), which is expressed as:
  • the algorithm calculates the average LPC filter coefficients of the first few frames (and then compares it with the current LPC filter coefficient 4 (if the difference between the two is small, then the current frame is selected when the LPC coefficients are quantized)
  • the average of a few frames (otherwise, the current frame is 4 (after selecting the LPC filter coefficients, the algorithm converts these LPC filter coefficients into the LSF domain, then performs quantitative encoding, and the quantization coding is selected in a manner that is encoded with speech.
  • the quantization coding method is the same.
  • the quantization of the energy parameters is done in the logarithmic domain, using linear quantization, and then encoding with 5 bits.
  • the encoding of the background noise is completed, and then the coding bits are encapsulated in the SID frame.
  • Table A Table A
  • the parameters in the SID frame consist of four codebook indices, one for indicating the energy quantization index (5 bits) and the other three for indexing the spectral quantization (10 bits).
  • the algorithm uses a level-controllable pseudo white noise to excite an interpolated LPC synthesis filter to obtain comfortable background noise, which is essentially the same as speech synthesis.
  • the excitation level and the LPC filter coefficient are respectively obtained from the previous SID frame.
  • the LPC filter coefficients of the subframe are obtained by interpolation of the LSP parameters in the SID frame, and the interpolation method is consistent with the interpolation method in the speech coder.
  • the pseudo white noise excitation ex(n) is a mixture of the speech excitation exl(n) and the Gaussian white noise excitation ex2(n).
  • the gain of exl(n) is small, and the purpose of exl(n) is to make the transition between speech and non-speech more natural.
  • the 80 sample points are divided into two sub-frames.
  • the excitation signal of the CNG module is synthesized in the following manner:
  • the synthetic stimulus ex(" can be synthesized as follows:
  • G.729.1 is the latest release of the new generation of speech codec standards (see reference [1]), which is an extension of 111; 0.729 on 8-321 ⁇ /8 scalable broadband (50-70001 ⁇ ).
  • the input frequency of the input and decoder outputs is 16000 Hz.
  • the code stream generated by the encoder is scalable, and includes 12 embedded layers, which are called layers 1-12.
  • the first layer is the core layer, and the corresponding bit rate is 8 kbit/s. This layer is consistent with the G.729 code stream, which makes G.729EV and G.729 interoperable.
  • the second layer is a narrowband enhancement layer, which is increased by 4 kbit/s, while the third to 12th layers are broadband enhancement layers, which are increased by 20 kbit/s at a rate of 2 kbit/s per layer.
  • the G.729.1 codec is based on a three-stage architecture: Embedded Code Excited Linear Estimation (CELP) codec, Time Domain Bandwidth Extension (TDBWE), and Estimated Conversion Codec, known as Time Domain Aliasing Elimination (TDAC).
  • CELP Embedded Code Excited Linear Estimation
  • TDBWE Time Domain Bandwidth Extension
  • TDAC Time Domain Aliasing Elimination
  • the embedded CELP stage produces Layers 1 and 2, producing 8 kbit/s and 12 kbit/s narrowband composite signals (50-4000 Hz).
  • Stage 3 TDBWE generating layer generates Mkbit / s wideband output signal (5 0- 7 000 Hz).
  • the TDAC phase works in the improved discrete cosine transform (MDCT) domain to generate layers 4-12, improving signal quality from 14 kbit/s to 32 kbit/s.
  • the TDAC codec represents both a 50-4000 Hz band weighted CELP codec error signal and a
  • the encoder operates in a 20 ms input superframe.
  • the input signal ( «) is sampled at 16000 Hz. Therefore, the input superframe has 320 sample lengths.
  • the input signal 3 ⁇ 4» is QMF filtered (H ⁇ H ( ) is divided into two sub-bands, and the low sub-band signal is preprocessed by a high-pass filter with a cutoff frequency of 50 Hz.
  • the output signal ( «) uses 8 kb/s to 12 kb/s.
  • the difference signal between the local composite signals ⁇ ; ⁇ ) of the CELP encoder is d», which is subjected to perceptual weighting filtering to obtain a signal ("), and (") is transformed into the frequency domain by MDCT.
  • the weighting filter W LB (z) contains gain compensation to maintain the spectral continuity between the filter output d» and the high subband input signal.
  • the high sub-band component is multiplied by (-1)" to obtain the signal ⁇ after folding, and the ⁇ » is preprocessed by a low-pass filter with a cutoff frequency of 3000 Hz, and the filtered signal is encoded using a TDBWE encoder.
  • the MDCT is transformed into a frequency domain signal.
  • the two sets of MDCT coefficients / and ⁇ are finally encoded using a TDAC encoder.
  • some parameters are transmitted using an FEC (Frame Loss Error Concealed) encoder to improve frame loss during transmission. The error caused by it.
  • FEC Full Loss Error Concealed
  • the block diagram of the decoder system is shown in Figure 3.
  • the actual mode of operation of the decoder is determined by the number of code streams received, and is also equivalent to the received code rate.
  • the code stream of the first layer or the first two layers is decoded by the embedded CELP decoder.
  • the output signal is generated by a QMF synthesis filter bank, wherein the high frequency composite signal ⁇ is set to zero.
  • the TDBWE decoder In addition to the CELP decoder decoding the narrowband component, the TDBWE decoder also decodes the highband signal component s ( «). For MDCT transformation, the high sub-band component is above 3000Hz (corresponding to the 16kHz sampling rate)
  • the low-band signal (") is processed via the perceptual weighting filter.
  • forward/backward echo monitoring and compression are performed on the low- and high-band signals » and ⁇ .
  • the signal ⁇ (") is processed by post-filtering, and the high-band composite signal ⁇ (") is processed by (-l) n-frequency folding.
  • G.729.1 also defines the requirements of the silent compression system, which requires the background code to be encoded and transmitted with low-rate coding mode without degrading the overall coding quality of the signal in the case of background noise.
  • the demand for DTX and CNG more importantly, requires that its DTX/CNG system be compatible with G.729B.
  • G.729B's DTX/CNG system can be easily ported to G.729.1, there are two problems to be solved: First, the processing lengths of the two encoders are different, direct migration will bring some problems, and 729B The DTX/CNG system is somewhat simple, especially the parameter extraction part.
  • the 729B DTX/CNG system needs to be extended.
  • the signal bandwidth processed by G.729.1 is broadband, and the bandwidth processed by G.729B is narrowband.
  • the high-band portion of the background noise signal (4000Hz ⁇ 7000Hz) is also added. Make it a complete system.
  • the high and low bands of background noise can be processed separately.
  • the processing method of the high frequency band is relatively simple, and the coding mode of the background noise characteristic parameter can refer to the TDBWE coding mode of the speech encoder, and the decision part can simply compare the stability of the frequency domain envelope and the time domain envelope.
  • the technical solution of the present invention and the problem to be solved are in the low frequency band, that is, the narrow band.
  • the G.729.1 DTX/CNG system referred to below refers to the related processing applied to the narrowband DTX/CNG part.
  • Step 401 Extract background noise characteristic parameters in a trailing time
  • Step 402 Perform background noise coding according to the extracted background noise characteristic parameter of the trailing time and the background noise characteristic parameter of the first superframe for the first superframe after the tailing time. Code, get the first SID frame;
  • Step 403 Perform background noise feature parameter extraction and DTX decision on each frame for the superframe after the first superframe.
  • Step 404 Perform background noise on the superframe after the first superframe, according to the background noise characteristic parameter of the extracted current superframe, the background noise characteristic parameter of several superframes before the current superframe, and the final DTX decision result. coding.
  • the background noise characteristic parameter in the trailing time is extracted; and the first superframe after the trailing time is based on the extracted background noise characteristic parameter and the first
  • the background noise characteristic parameter of a superframe is subjected to background noise coding; for the superframe after the first superframe, background noise characteristic parameter extraction and DTX decision are performed for each frame;
  • background noise coding is performed according to the background noise characteristic parameter of the extracted current superframe and the background noise characteristic parameters of several superframes before the current superframe, and the final DTX decision result. Achieved:
  • the communication bandwidth of the signal is significantly reduced in the case of ensuring the quality of the coding.
  • the frame included in each superframe may be set to 10 milliseconds by setting each superframe to 20 milliseconds in order to accommodate the requirements of the related technical standards of G.729.1.
  • the extension to G.729B can be achieved to meet the technical specifications of G.729.1.
  • the technical solutions provided by the various embodiments of the present invention can also achieve the lower frequency band occupation of the background noise. High communication quality. That is, the scope of application of the present invention is not limited to the G.729.1 system.
  • the present invention mainly describes the DTX/CNG system of G729.1 for this difference, that is, by upgrading and expanding the G729B DTX/CNG system to adapt to the system characteristics of ITU729.1.
  • the first 120 ms of the background noise is encoded with the speech coding rate
  • the background noise is not immediately entered.
  • the background noise is continued to be encoded with the speech coding rate.
  • This tailing time is generally 6 superframes, which is 120ms (refer to AMR and AMRWB).
  • the duration of noise learning can be set according to actual needs, not limited to 120ms; the tailing time can be set to other values as needed.
  • FIG. 5 it is a schematic diagram of the process of coding the first superframe, including the steps: performing the first superframe after the end of the smearing phase, and performing the background noise characteristic parameters extracted from the noise learning phase and the current superframe.
  • the first SID superframe is obtained. Since the first superframe after the smear phase is to be encoded and transmitted with the background noise parameter, this superframe is generally referred to as the first SID superframe; The first SID superframe is decoded after being sent to the decoder. Since one superframe corresponds to two 10ms frames, in order to accurately obtain the coding parameters, the characteristic parameters 4 of the background noise are extracted in the second 10ms frame (and £,:
  • Step 501 Calculate an average of all autocorrelation coefficients in the cache:
  • the estimated residual energy A can be smoothed for a long time and smoothed.
  • E t E_LT where "the value range is: 0 ⁇ « ⁇ 1, as a preferred embodiment, "the value may be 0.9. It can also be set to other values as needed.
  • Step 503 The algorithm converts the LPC filter coefficient 4 (to the LSF domain, and then performs quantization coding;
  • Step 504 The quantization of the residual energy parameter A is performed in the logarithmic domain, and linear quantization is used. After the encoding of the narrowband portion of the background noise is completed, the encoded bits are enclosed in the SID frame and transmitted to the decoding end, thus completing the encoding of the narrowband portion of the first SID frame.
  • the encoding of the narrowband portion of the first SID frame fully considers the characteristics of the background noise in the trailing phase, and reflects the characteristics of the background noise in the tailing phase in the encoding parameters, thereby making these encoding parameters Maximizes the characteristics of the current background noise. Therefore, parameter extraction in the embodiment of the present invention is more accurate and reasonable than G.729B.
  • FIG. 6 it is a flowchart of narrowband partial parameter extraction and DTX decision, including the steps of: first, performing background noise parameter extraction and DTX decision of the first 10 millisecond frame after the first superframe;
  • Step 601 According to the nearest four adjacent 10 ms frame autocorrelation coefficients r (t _ l) 2 (j) . ⁇ ( ⁇ _ ⁇ ) ⁇ (]) and r _ 2 2 (values, calculate the steady-state average R' of the current autocorrelation coefficient (j):
  • the algorithm estimates the estimated frame energy in order to obtain a more stable
  • E_LT ⁇ oE_LT+ ( ⁇ -a)E tl
  • Step 603 After the parameter is extracted, perform a DTX decision of the current 10 ms frame; the specific content of the DTX decision is:
  • the algorithm will use the previous SID superframe (the SID superframe is the background noise superframe that will be finally encoded after the DTX decision. If the DTX decision result, the superframe is not sent, it is not called the SID superframe).
  • the parameter is compared with the corresponding encoding parameter of the current 10 millisecond frame, if the current LPC filter coefficient is significantly different from the LPC filter coefficient in the previous SID superframe, or the current energy parameter is different from the energy parameter in the previous SID superframe. Larger (see the formula below), the parameter change flag flag_change_first of the current 10ms frame is set to 1, otherwise cleared.
  • the specific determination method in this step is similar to G.729B:
  • Flag _ change _ first 0
  • R a (0) ⁇ a sid (kf Secondly, calculate the average of the residual energy of four 10ms frames for the current 10ms frame and the last three 10ms frames:
  • the difference between the two excitation energies can be set to other values according to actual needs, which does not exceed the protection scope of the present invention.
  • the background noise parameter extraction and DTX decision of the second 10 ms frame are performed.
  • the background noise parameter extraction and DTX decision flow of the second 10ms frame is consistent with the first 1 Oms frame, wherein the relevant parameters of the second 10ms frame are: Steady-state average R U of the adjacent four 10ms frame autocorrelation coefficients /) , the average of 2 adjacent 10ms frame frame energy 2 and the DTX flag of the second 10ms frame flag_change_second.
  • the background noise parameter extraction and DTX decision of the narrowband part in the current superframe are: Steady-state average R U of the adjacent four 10ms frame autocorrelation coefficients /) , the average of 2 adjacent 10ms frame frame energy 2 and the DTX flag of the second 10ms frame flag_change_second.
  • FIG. 7 it is a narrowband part background noise parameter extraction and DTX decision flow diagram in the current superframe, including steps:
  • Step 701 Determine a final DTX flag flag_change of a narrowband portion of the current superframe, where the determining manner is as follows:
  • Flag _ change flag _ change _ first 11 flag _ change _ sec ond
  • the final decision result of the narrowband portion of the current superframe is 1.
  • Step 702 Determine a final DTX decision result of the current superframe; and obtain a final DTX decision result of the current superframe including the current superframe high frequency band portion, and then consider a characteristic of the high frequency band portion, by a narrowband portion and a high frequency The band part combines the final DTX decision result of the current superframe. If the final DTX decision result of the current superframe is 1, proceed to step 703; if the DTX decision result of the current superframe is 0, no encoding is performed, and only the NODATA frame without any data is sent to the decoding end.
  • Step 703 If the final DTX decision result of the current superframe is 1, extracting the background noise characteristic parameter of the current superframe; extracting the source of the background noise characteristic parameter of the current superframe is the parameter of the current two 1 Oms frames, The parameters of the current two 1 Oms frames are smoothed to obtain the background noise coding parameters of the current superframe.
  • the process includes: First, calculating two 10ms frame autocorrelation coefficients
  • E smooth _ rateE t j+(l - smooth _rate) E t 2
  • the background noise feature parameter extraction and DTX control fully rely on the characteristics of each 10ms frame of the current superframe, so the algorithm is more rigorous. 5.
  • the encoding of the SID frame is the same as that of G.729B. When the spectral parameters of the SID frame are finally encoded, the adjacent noise frames are considered. The stability of the situation, the specific operation and G.729B -
  • the algorithm will calculate the average LPC filter coefficients of the first few superframes (and then use it to compare with the current LPC filter coefficient 4 (if the difference between the two is small, then the current superframe is The average of the first few superframes is selected when the LPC coefficients are quantized (otherwise, it is 4 of the current superframe).
  • the specific comparison method is the same as the DTX decision of the 10ms frame in step 602, where t/?r3 is specific.
  • the threshold value is generally between 1.0 and 1.5, which is 1.0966466 in this embodiment. Those skilled in the art can take other values according to actual needs, which does not exceed the protection scope of the present invention.
  • the algorithm After selecting the LPC filter coefficients, the algorithm converts these LPC filter coefficients into the LSF domain and then performs quantization coding, and the quantization coding selection is similar to the G.729B quantization coding method.
  • the quantification of the energy parameters is done in the logarithmic domain, using linear quantization and then encoding. This encodes the background noise and then encapsulates the encoded bits in the SID frame. Sixth, the way of CNG
  • the decoding process is also included in the coding end, and the CNG system is no exception, that is, the coding end also includes CNG in G.729.1.
  • the processing flow is based on G.729B.
  • the frame length is 20ms
  • the background noise is processed with a data processing length of 10ms.
  • the encoding parameters of the first SID superframe will be encoded in the second 10ms frame, but the system needs to generate CNG in the first 10ms frame of the first SID superframe. Parameters.
  • the CNG parameter of the first 10 ms frame of the first SID superframe cannot be obtained from the coding parameters of the SID superframe, but only from the previous speech coding superframe. Due to this special case, the CNG mode of the first 10 ms frame of the first SID superframe of G.729.1 is different from that of G.729B, compared with the CNG mode of G.729B introduced in the foregoing. Different performances are:
  • Target excitation gain Fixed codebook gain quantized by long-time smoothed speech coded superframes Definition:
  • LT _A(z) LT _A(z) + ( ⁇ - )A q (z)
  • the smoothing factor has a value range of 0 ⁇ 1, which is 0.5 in this embodiment.
  • the CNG mode of all other 10ms frames is consistent with G.729B.
  • the trailing time is 120 milliseconds or 140 milliseconds.
  • the background noise characteristic parameter in the extraction tailing time is specifically: in the trailing time, the autocorrelation coefficient of the background noise of each frame is saved for each frame of each superframe. .
  • background noise coding for the first superframe after the smear time, the background noise characteristic parameter according to the extracted smear time and the background noise characteristic of the first superframe Parameters, background noise coding include:
  • the extracting the LPC filter coefficients is specifically: calculating four superframes in the trailing time before the first superframe and the first superframe The average of the autocorrelation coefficients;
  • the extracting the residual energy A is specifically:
  • the residual energy is linearly quantized in the log domain.
  • the value of the background noise characteristic parameter is extracted for each frame of the superframe after the first superframe in the above embodiment.
  • the background noise LPC filter coefficients and residual energy are calculated according to the Levinson-durbin algorithm.
  • the method further includes:
  • the smoothing mode is:
  • E _LT aE _LT ⁇ + ( ⁇ -a)E tk -
  • the smoothed current frame energy estimate is assigned to the residual energy; the assignment method is:
  • the parameter change flag of the current 10 millisecond frame is set to zero.
  • the energy estimation of the current frame is significantly different from the energy estimation in the previous SID superframe. Calculating an average value of residual energy of a total of 4 frames of the current 10 millisecond frame and the previous 3 frames as an energy estimate of the current frame;
  • the performing DTX decision for each frame is specifically as follows: If the DTX decision result of one frame in the current superframe is 1, the DTX decision result of the narrowband portion of the current superframe is 1.
  • the final DTX decision result of the current superframe is 1, then: "for the superframe after the first superframe, according to the background noise characteristic parameter of the extracted current superframe.
  • the background noise characteristic parameters of the plurality of superframes before the current superframe, and the final DTX decision result, performing background noise coding" processes include:
  • determining a smoothing factor including:
  • the smoothing factor is 0.1, otherwise the smoothing factor is 0.5;
  • parameter smoothing on the two frames of the current superframe, and using the parameter smoothed parameter as a feature parameter for performing background noise coding on the current superframe, where the parameter smoothing includes:
  • Rt (j) smooth rateR" ( )+(l - smooth rate)R t (j) , the smoothing rate is the smoothing factor, and is the steady-state average value of the autocorrelation coefficient of the first frame, ' 2 ( is the steady-state average of the autocorrelation coefficients of the second frame;
  • the LPC filter coefficients are obtained according to the Levinson-Durbin algorithm.
  • the “background noise coding is performed according to the background noise characteristic parameter of the extracted current superframe and the background noise characteristic parameter of several superframes before the current superframe, and the final DTX decision result. for: Calculating an average of autocorrelation coefficients of several superframes before the current superframe;
  • the average LPC filter coefficient and the LPC filter coefficient difference of the current superframe are less than or equal to a preset value, converting the average LPC filter coefficient into an LSF domain, performing quantization coding; if the average LPC filtering The difference between the LPC filter coefficient of the current superframe and the current superframe is greater than a preset value, and the LPC filter coefficients of the current superframe are converted into an LSF domain for quantization coding; for the energy parameter, linear quantization is performed in a logarithmic domain coding.
  • the number of the several frames is 5. Those skilled in the art can also select other numbers of frames as needed.
  • the method before the step of extracting the background noise characteristic parameter in the trailing time, the method further includes:
  • the background noise during the trailing time is encoded with a speech coding rate.
  • FIG. 8 it is a first embodiment of the decoding method of the present invention, including the steps:
  • Step 801 Obtain a CNG parameter of the first frame of the first superframe from the voice coded frame before the first frame of the first superframe.
  • Step 802 Perform background noise decoding on the first frame of the first superframe according to the CNG parameter, where the CNG parameters include:
  • the target excitation gain being determined by a fixed codebook gain quantized by a long time smoothed speech encoded frame parameter
  • the long-term smoothing factor takes a value ranging from greater than 0 to less than 1.
  • the long-term smoothing factor may be 0.5.
  • the above 0.4.
  • the first embodiment of the encoding apparatus of the present invention includes: a first extracting unit 901, configured to: extract a background noise characteristic parameter in a trailing time; and a second encoding unit 902, configured to: a first superframe after the trailing time, performing background noise encoding according to the extracted background noise characteristic parameter of the trailing time and the background noise characteristic parameter of the first superframe;
  • a second extracting unit 903 configured to: perform background noise feature parameter extraction on each frame for the superframe after the first superframe;
  • the DTX decision unit 904 is configured to: perform a DTX decision on each frame for the superframe after the first superframe;
  • a third encoding unit 905 configured to:: a superframe after the first superframe, a background noise characteristic parameter of the extracted current superframe, and a background noise characteristic parameter of the plurality of superframes before the current superframe, and a final DTX
  • the result of the decision is to encode the background noise.
  • the trailing time is 120 milliseconds or 140 milliseconds.
  • the first extracting unit is specifically configured to: a cache module, configured to: save, in the trailing time, an autocorrelation coefficient of each frame of background noise for each frame of each superframe.
  • the second coding unit is specifically: An extraction module, configured to: save an autocorrelation coefficient of each frame of background noise in the first frame and the second frame; and an encoding module, configured to: in the second frame, according to the extracted autocorrelation coefficients of the two frames And the background noise characteristic parameter in the trailing time, extracting the LPC filter coefficient and the residual energy of the first superframe, and performing background noise coding.
  • the second coding unit may further include: a residual energy smoothing module, configured to: perform long-term smoothing on the residual energy;
  • the second extraction unit is specifically:
  • a first calculating module configured to: calculate a steady state average value of the current autocorrelation coefficient according to a value of a correlation coefficient of the last four adjacent frames, where a steady state average value of the autocorrelation coefficient is the nearest four neighbors The average of the autocorrelation coefficients of the two frames with the intermediate autocorrelation coefficient norm in the frame;
  • a second calculation module is configured to: calculate the background noise LP C filter coefficients and residual energy according to the Levinson-durbin algorithm for the steady state average.
  • the second extraction unit may further include:
  • a second residual energy smoothing module configured to: perform long-term smoothing on the residual energy to obtain a current frame energy estimate; and the smoothing manner is:
  • E _LT aE _LT ⁇ + ( ⁇ -a)E tk -
  • the smoothed current frame energy estimate is assigned to the residual energy; the assignment method is:
  • the DTX decision unit is specifically:
  • a threshold comparison module configured to: generate a decision instruction if a value of a current frame LPC filter coefficient and a previous SID superframe LPC filter coefficient exceed a preset threshold
  • An energy comparison module configured to: calculate an average value of residual energy of a total frame of four frames of the current frame and the previous three frames as an energy estimate of the current frame, and use an average value of the residual energy to quantify the amount of the quantizer If the difference between the decoded logarithm energy and the logarithmic energy of the previous SID superframe is greater than a preset value, generating a decision instruction; the first determining module is configured to: according to the decision instruction, the current frame Parameter change flag set to
  • the foregoing embodiment may further include: a second determining unit, configured to: if a DTX decision result of one frame in the current superframe is 1, the DTX decision result of the narrowband portion of the current superframe is 1;
  • the third coding unit is specifically configured to: a smoothing indication module, configured to: if the final DTX decision result of the current superframe is 1, generate a smoothing instruction; and a smoothing factor determining module, configured to: receive the smoothing instruction After determining the smoothing factor of the current superframe:
  • the parameter smoothing module is configured to:
  • the two frames are subjected to parameter smoothing, and the smoothed parameter is used as a characteristic parameter for performing background noise encoding on the current superframe, and includes: calculating a moving average of the steady-state average values of the autocorrelation coefficients of the two frames (:
  • R' (j) smooth _ rateR t )+(l - smooth _ rate) ⁇ ' 2 (j) , the smoothing-rate is the smoothing factor, ⁇ /) is the autocorrelation coefficient steady state of the first frame The average value, ' 2 ( ) is the steady-state average of the autocorrelation coefficients of the second frame;
  • the third coding unit is specifically: a third calculating module, configured to: calculate an average LPC filter coefficient of the plurality of superframes before the current superframe according to the average value of the autocorrelation coefficients of the plurality of superframes before the current superframe; And if the difference between the average LPC filter coefficient and the LPC filter coefficient of the current superframe is less than or equal to a preset value, converting the average LPC filter coefficient into an LSF domain, performing quantization coding; For: if the average LPC filter coefficient and the LPC filter coefficient difference of the current superframe are greater than a preset value, converting the LPC filter coefficients of the current superframe into an LSF domain, performing quantization coding; An encoding module for: performing linear quantization coding on the energy parameter in the logarithmic domain.
  • a first coding unit configured to: encode, by using a speech coding rate, background noise in a trailing time; the coding process of the present invention is specifically adapted to the coding method of the present invention, and correspondingly, has a corresponding method The same technical effects of the embodiment.
  • FIG. 10 it is a first embodiment of the decoding apparatus of the present invention, including:
  • LPC filter coefficient is defined by a long-time smoothed speech coded frame quantized LPC filter coefficient, wherein, in practical use, the defined LPC filter coefficient may be specifically:
  • LPC filter coefficient long time smoothed speech coded frame quantized LPC filter coefficients.
  • the long-term smoothing factor ranges from greater than 0 to less than 1. In a preferred case, the long-term smoothing factor may be 0.5. In the foregoing embodiment, the method may further include:
  • a second decoding unit configured to: perform background noise coding according to the acquired CNG after acquiring CNG parameters from the previous SID superframe for all frames except the first superframe.
  • the 0.4.

Description

编码、 解码的方法及装置
本申请要求于 2008 年 03 月 26 日提交中国专利局、 申请号为 200810084077.6、 发明名称为"编码、 解码的方法及装置"的中国专利申请的优 先权, 其全部内容通过引用结合在本申请中。 技术领域 本发明涉及通信技术领域, 特别是涉及编码、 解码的方法及装置。
背景技术
在语音通信中, 对于背景噪声的编解码是按 ITU(International Telecom Union,国际电信联盟)制定的 G.729B中规定的噪声处理方案进行的。 在语音编码器中引入了静音压缩技术, 其信号处理原理框图如图 1所示。 静音压缩技术主要包括三大模块: VAD( Voice Activity Detection , 语音激 活检测)、DTX( Discontinuous Transmission,非连续传输)和 CNG( Comfort Noise Generator, 舒适噪声生成), 其中 VAD、 DTX是编码器中的模块, CNG是解 码端中的模块。 图 1为一个简单的静音压缩系统原理框图, 其基本流程为: 首先在发送端(编码端), 对每一输入信号帧, VAD模块对当前的输入信 号进行分析和检测, 检测当前信号中是否包含语音信号, 如果包含, 则将当前 帧设为语音帧, 否则设为非语音帧。 其次, 编码器根据 VAD检测结果对当前信号进行编码, 如果 VAD检测 结果为语音帧, 则信号进入语音编码器进行语音编码, 输出为语音帧; 如果 VAD检测结果为非语音帧, 则信号进入 DTX模块用非语音编码器进行背景噪 声处理, 并输出非语音帧。 最后, 在接收端 (解码端)对接收到的信号帧 (包括语音帧和非语音帧) 进行解码。 如果接收到的信号帧为语音帧, 则用语音解码器对其解码, 否则进 入 CNG模块, 在 CNG模块根据非语音帧传过来的参数对背景噪声进行解码, 产生舒适背景噪声或静音, 使解码后的信号听起来更为自然和连续。 在编码器中引入这种变速率的编码方式, 通过对静音阶段的信号进行适 当的编码,静音压缩技术有效的解决了背景噪声不连续的问题,提高了信号合 成质量, 因此, 解码端的背景噪声也可称为舒适噪声。 另外, 由于背景噪声的 编码速率要远远小于语音编码速率, 因此系统的平均编码速率也大大降低,从 而有效的节省了带宽。 G.729B处理信号时对信号釆用分帧处理, 帧长为 10ms。 为了节省带宽,
G.729.1还定义了静音压缩系统的需求, 要求其在背景噪声的情况下在不降低 信号整体编码质量的前提下釆用低速率的编码方式对背景噪声进行编码传输, 即定义了 DTX和 CNG的需求,更重要的一点是要求其 DTX/CNG系统要能够 兼容 G.729B。 虽然可以将 G.729B的 DTX/CNG系统简单移植到 G.729.1中, 但有两个问题需要解决: 一是这两个编码器的处理帧长不同, 直接移植会带来 一些问题, 而且 729B的 DTX/CNG系统有些简单, 尤其是参数提取部分, 为 了满足 G.729.1DTX/CNG系统的需求需要对 729B的 DTX/CNG系统进行扩展。 二是 G.729.1处理的信号带宽为宽带,而 G.729B处理的带宽为窄带,在 G.729.1 的 DTX/CNG 系统还要加入背景噪声信号高频带部分( 4000Hz ~ 7000Hz ) 的 处理方式, 使其成为一个完整的系统。 现有技术中至少存在如下问题: 现有的 G.729B系统由于处理的带宽为窄 带背景噪声, 在移植到 G.729.1系统中时, 不能保证编码信号的质量。
发明内容
有鉴于此, 本发明一个或多个实施例的目的在于提供一种编码、解码的方 法及装置, 以实现在将 G.729B进行扩展后, 能够符合 G.729.1技术标准的要 求, 实现了在保证编码质量的情况下, 显著降低信号的通信带宽。
为解决上述问题, 本发明实施例提供了一种编码的方法, 包括:
提取拖尾时间内的背景噪声特征参数;
对所述拖尾时间后的第一个超帧,根据提取的所述拖尾时间内的背景噪声 特征参数和所述第一个超帧的背景噪声特征参数, 进行背景噪声编码; 对第一个超帧后的超帧, 对每一帧都进行背景噪声特征参数提取和 DTX 判决;
对第一个超帧后的超帧 ,根据提取的当前超帧的背景噪声特征参数和所述 当前超帧之前若干超帧的背景噪声特征参数, 以及最终 DTX判决结果, 进行 背景噪声编码。
还提供了一种解码方法, 包括: 从第一个超帧的第一帧之前的语音编码帧, 获得第一个超帧的第一帧的 CNG参数; 根据所述 CNG参数,对第一个超帧的第一帧进行背景噪声解码,所述 CNG 参数包括: 目标激励增益,所述目标激励增益由长时平滑的语音编码帧量化的固定码 本增益确定; LPC滤波器系数, 所述 LPC滤波器系数由长时平滑的语音编码帧量化的
LPC滤波器系数定义。 还提供了一种编码装置, 包括: 第一提取单元, 用于: 提取拖尾时间内的背景噪声特征参数;
第二编码单元, 用于: 对所述拖尾时间后的第一个超帧, 根据提取的所述 拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数,进行 背景噪声编码; 第二提取单元, 用于: 对所述第一个超帧后的超帧, 对每一帧都进行背景 噪声特征参数提取;
DTX判决单元,用于:对所述第一个超帧后的超帧,对每一帧都进行 DTX 判决; 第三编码单元, 用于: 对所述第一个超帧后的超帧, 根据提取的当前超帧 的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数,以及 最终 DTX判决结果, 进行背景噪声编码。 还提供了一种解码装置, 包括: CNG参数获得单元, 用于: 从第一个超帧的第一帧之前的语音编码帧, 获得第一个超帧的第一帧的 CNG参数; 第一解码单元, 用于: 根据所述 CNG参数, 对第一个超帧的第一帧进行 背景噪声解码, 所述 CNG参数包括: 目标激励增益,所述目标激励增益由长时平滑的语音编码帧量化的固定码 本增益确定;
LPC滤波器系数, 所述 LPC滤波器系数由长时平滑的语音编码帧量化的 LPC滤波器系数定义。 与现有技术相比, 本发明实施例具有以下优点:
本发明实施例通过提取拖尾时间内的背景噪声特征参数;对所述拖尾时间 后的第一个超帧 ,根据提取的所述背景噪声特征参数和所述第一个超帧的背景 噪声特征参数, 进行背景噪声编码; 对第一个超帧后的超帧, 对每一帧都进行 背景噪声特征参数提取和 DTX判决; 对第一个超帧后的超帧, 根据提取的当 前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参 数, 以及最终 DTX判决结果, 进行背景噪声编码。 实现了:
首先, 在保证编码质量的情况下, 显著降低信号的通信带宽。
其次, 通过对于 G.729B系统的扩展, 符合了 G.729.1系统指标的要求。 再次,通过灵活准确的背景噪声特征参数的提取,使得背景噪声的编码更 加精确。
附图说明
图 1所示, 为一个简单的静音压缩系统原理框图; 图 2所示, 是 G.729.1编码器功能框图; 图 3所示, 是 G.729.1解码器系统框图; 图 4所示, 是本发明的编码的方法的实施例一的流程图; 图 5所示, 是对第一个超帧编码的流程示意图; 图 6所示, 是窄带部分参数提取及 DTX判决的流程图; 图 7所示, 是当前超帧中的窄带部分背景噪声参数提取及 DTX判决流程 图; 图 8所示, 是本发明的解码方法的实施例一的流程图; 图 9所示, 是本发明的编码装置的实施例一的框图; 图 10所示, 是本发明的解码装置的实施例一的框图。
具体实施方式 下面结合附图对本发明具体实施方式做进一步的详细阐述。
首先, 介绍 G.729B系统的有关原理。
1.1.2.语音编码码流和背景噪声编码码流中编码参数的异同 在当前的语音编码器中, 背景噪声的合成原理与语音的合成原理相同, 釆用的模型均是 CELP ( Code Excited Linear Prediction, 码激励线性预测)模 型。 语音的合成原理是: 语音 可以看成是一个激励信号 激励一个合成 滤波器 «)所产生的输出, 即^ = 这就是语音产生的数学模型。 在 合成背景噪声时用的也是这个模型 ,所以背景噪声编码码流中所传输的描述背 景噪声和静音特性的特征参数内容与语音编码码流中的特征参数基本相同,为 信号合成时的合成滤波器参数和激励参数。 在语音编码码流中, 合成滤波器参数主要为线谱频率 LSF量化参数, 而 激励信号参数包括: 基音延迟参数、 基音增益参数、 固定码本参数和固定码本 增益参数。 不同的语音编码器, 这些参数的量化比特数和量化形式有所不同; 相同的编码器, 如果其包含多个速率, 在不同速率下, 由于描述信号特性的侧 重点不同, 编码参数的量化比特数和量化形式也有所不同。 与语音编码参数不同, 背景噪声编码参数描述的是背景噪声特性, 由于 背景噪声的激励信号可以认为是简单的噪声随机序列,而这些序列在编解码端 均可以简单的用随机噪声产生模块产生, 然后用能量参数控制这些序列的幅 度, 就可产生最终的激励信号, 因此激励信号特征参数可以简单的用能量参数 来表示, 而不需要用其它的一些特征参数来进一步描述, 所以在背景噪声编码 码流中, 其激励参数为当前背景噪声帧的能量参数, 这与语音帧不同; 与语音 帧相同的是, 背景噪声编码码流中的合成滤波器参数也为线谱频率 LSF量化 参数, 只是具体的量化方法有所差别。 通过以上分析, 可以认为对背景噪声的 编码方式本质上就是一种简单的 "语音 "编码方式。 G.729B的噪声处理方案 (引用 729B协议)
1.2.1 DTX/CNG总体技术介绍
G.729B 的静音压缩方案是较早的一种静音压缩技术, 其背景噪声编解码 技术基于的算法模型是 CELP, 因此其所传输的背景噪声参数也是基于 CELP 模型来提取的,是描述背景噪声的合成滤波器参数与激励参数, 其中激励参数 是描述背景噪声能量的能量参数, 没有描述语音激励的自适应和固定码本参 数, 滤波器参数与语音编码参数基本一致, 是 LSF参数。 在编码端, 对每帧 输入的语音信号, 若 VAD的判决结果为 "0", 表示当前的信号为背景噪声, 那 么编码器将信号送入 DTX模块,在 DTX模块对背景噪声参数进行提取,然后 根据每帧参数变化情况来对背景噪声编码:若当前帧提取的的滤波器参数和能 量参数与前几帧的变化较大,那么表示当前的背景噪声特性与之前的背景噪声 特性相比有较大的差别 ,则在噪声编码模块将当前帧提取的背景噪声参数进行 编码, 组装成 SID帧 ( Silence Insertion Descriptor, 静音描述帧)发送到解码 端, 否则发送 NODATA帧(无数据)到解码端。 SID帧和 NODATA帧称为非 语音帧。 在解码端, 若进入背景噪声阶段, 则在 CNG模块中根据接收的非语 音帧合成出描述编码端背景噪声特性的舒适噪声。
G.729B处理信号时对信号釆用分帧处理, 帧长为 10ms。 下面分三节分别 描述 729B的 DTX、 噪声编码和 CNG模块。
1.2.2 DTX模块 DTX模块主要用来做背景噪声参数的估计与量化以及 SID帧的发送。 在 非话音阶段, DTX模块需要将背景噪声信息发送到解码端, 背景噪声信息被 封装在 SID帧中发送, 若当前的背景噪声不平稳那么发送 SID帧, 否则不发 送 SID帧, 而发送没有任何数据的 NODATA帧。 另外两个相邻 SID帧间的间 隔是有限制的, 限制为两帧, 若背景噪声不平稳, 需要连续的发送 SID帧, 那 么后一个 SID帧的发送会延迟。 在编码端, DTX模块会从编码器中接收 VAD模块的输出, 自相关系数以 及过去的激励样点, 在每一帧, DTX模块会用三个值 0、 1、 2来分别描述非 发送帧, 语音帧和 SID帧, 它们的帧类型分别为 ¾p = 0、 Ftyp = ^ Ftyp = 2。 背景噪声估计的内容是背景噪声的能量电平和频谱包络, 这个和语音编 码参数在本质上是一致的,因此频谱包络的计算和语音编码参数的计算基本一 致, 用到的参数包括了前两帧的参数; 而能量参数也是前几帧能量的一个平均 值。
DTX模块的主要操作: a、 每帧自相关系数的存储 对每一输入的信号帧, 包括语音帧的和非语音帧, 将当前帧 t的自相关系 数保留在緩存中, 这些自相关系数表示为: r;( ), = 0...10。 其中 _/·为每帧自相 关函数的序号。 b、 估计当前的帧类型 如果当前是一个语音帧, 即 VAD = 1, 那么将当前的帧类型设为 1, 若为 非语音帧, 则依据前一帧和本帧的自相关系数计算一个当前的 LPC 滤波器 At{z) , 在计算 4( 之前会首先计算相邻两帧自相关系数的平均值:
R j)= ∑r;U)J = 0...\0 其中 N = 2 , 计算出 R f)后依据 Levinson-Durbin 算法计算出 4( 。 另外 Levinson-Durbin 算法也会计算出残差能量 , 并以此做帧激励能量的简单估 计。 当前帧的帧类型会用以下的方式进行估计:
(1)、 如果当前的帧是第一个非活动帧, 那么将此帧设为 SID帧, 并令表 征信号能量的变量 等于 A , 表征帧数目的参数 会设成 1:
Ftyp = 2
E=Et (2)、 对于其它的非语音帧, 算法将之前的 SID帧参数与当前相应的参数 进行对比,如果当前的滤波器与之前的滤波器差别较大或者当前的激励能量与 之前的激励能量较大, 那么令标志 ¾g_cto«ge等于 1 , 否则标志的值不变。
(3)、 当前的计数器 count _fr表示了当前帧与上一个 SID之间的帧的数目。 如果其值大于 Nmm , 那么发送 SID帧; 另外如果 flag—change等于 1 , SID帧也 会发送, 其它情况下, 不发送当前帧:
count fr≥ Nmm )
flag _chang = \ J
Otherwise Ftypt = 0 在 SID帧的情况下, 计数器 count _fr和标志 flag change重新初始化成 0。 c、 LPC滤波器系数:
设上一个 SID的 LPC滤波器 的系数为 d /), ' = 0...10 ,如果当前帧和 上一帧的 SID-LPC滤波器的 Itakura距离超过了一定的门限, 就认为二者有很 大的不同:
10
^Ra(i) xR' (i)≥ Et x thrl 其中, Rfl /), = 0...10是 SID滤波器系数的自相关系数:
U) = 2∑asld (k) yasid (k + j) if(j≠ 0)
Ra (0) =∑asid (kf d、 帧能量:
计算帧能量的和:
Figure imgf000010_0001
然后对 用 5比特的对数量化器量化。解码之后的对数能量 会与上一个解码 后的 SID对数能量 £ 进行比较, 如果二者的差超过了 2dB, 那么认为二者的 能量差别较大。
1.2.3 噪声编码及 SID帧
SID帧中的参数就是 LPC滤波器系数(频谱包络)和能量的量化参数。 在对 SID-LPC滤波器计算时考虑了相邻噪声帧之间的稳定情况: 首先, 计算当前 SID帧之前 ^帧的平均 LPC滤波器 (z) , 这要用到自相 关函数和 ( ) ,然后将 送入 Levinson-Durbin算法中得到 0) ,而 表 示为:
RP(J = ∑rk (j)J = 0... \0
k=t -Np 其中^的值定为 6。 帧数目 t'的范围是 [t_l, t _ NJ。 这样, SID-LPC滤波器表
if dis tan ce(At (z), Ap (z)) > thr3
otherwise
Figure imgf000011_0001
即算法会计算前几帧的平均 LPC滤波器系数 ( ,然后用其与当前的 LPC滤 波器系数 4( 进行比较, 若二者差值较小, 那么当前帧在量化 LPC系数时选 择的就是前几帧的平均值 ( , 否则就是当前帧的 4( 。 选择好 LPC滤波器 系数之后, 算法将这些 LPC滤波器系数转化到 LSF域, 然后进行量化编码, 而量化编码选择的方式与语音编码的量化编码方式是一样的。 能量参数的量化在对数域完成, 釆用的是线性的量化, 然后用 5bit进行 编码。这样对背景噪声的编码就已完成,然后将这些编码比特封装在 SID帧中。 如表 A所示: 表 A
TABLE B..2/G.729
Figure imgf000012_0001
SID帧中的参数由四个码本索引构成,其中一个用来指示能量量化索引(5 比特), 另三个指示频谱量化的索引 (10比特)。
1.2.4 CNG模块
在解码端, 算法用一个电平可控的伪白噪声激励一个经内插得到的 LPC 合成滤波器得到舒适的背景噪声, 这在本质上与语音的合成方式一样。 其中激 励电平和 LPC滤波器系数分别从上一个 SID帧中得到。 子帧的 LPC滤波器系 数通过 SID帧中的 LSP参数的内插来得到, 而内插方法与语音编码器中的内 插方式是一致的。
伪白噪声激励 ex(n)是语音激励 exl(n)和高斯白噪声激励 ex2(n)的一个混 合。 exl(n)的增益较小, 而釆用 exl(n)的目的是为了让语音和非语音间的过渡 更为自然。
这样得到激励信号后用其激励合成滤波器即可得到舒适的背景噪声。 由于编解码双方的非语音编解码要保持同步,所以在双方都要为 SID帧和 不发送帧产生激励信号。
首先, 定义目标激励增益 , 令其作为当前帧激励平均能量的平方根, 由下面的平滑算法得到, 其中 ^是解码后的 SID帧的增益: 〜 = 1)
Figure imgf000013_0001
80个釆样点被分成两个子帧, 对每个子帧, CNG模块的激励信号会用如下的 方式来合成:
(1)、 在 [40,103]范围内随机选择基音延迟;
(2)、 子帧的固定码本矢量中非零脉冲的位置和符号随机选择(这些非零 脉冲的位置和符号的结构与 G.729是一致的);
(3)、 选择一个带增益的自适应码本激励信号, 将其标记为 = 0...39 , 而选择的固定码本激励信号标记为 («),« = 0...39。 然后以子帧能量为依据计算 自适应增益 G。和固定码本增益 Gf
—∑{Gaxea(n) + Gfxef(n)f
Figure imgf000013_0002
需要注意的是 Gf可以选择负值 , K = 40xG , 而由 ACELP的激励
Figure imgf000013_0003
如果将自适应码本增益 G。固定, 那么表现 的方程就变成了一个关于 Gf 的二阶方程: r 2 , Gaxl^ , EaxGa 2-K n
rf H rf H = U
J 2 J 4 G。的值会被限定以确保上面的方程有解, 更近一步, 可以对一些大的自 适应码本增益值的应用进行限制, 这样, 自适应码本增益 G。可以在如下的范 围内随机的选择: 0, Maxl 0.5, J— , with A = E -I2/4
A 将方程丄!
Figure imgf000014_0001
的根中绝对值最小的作为 Gf的值。 最后, 用下式构建 G.729的激励信号:
e j (ri) = Gaxea(n) + Gfxef[n],n = 0...39
合成激励 ex(")可由如下方法合成:
设 是 的能量, £2是 ex2(")的能量, £3是 和 ex2(")的点积:
E2 =^∑ex2 2(n)
Figure imgf000014_0002
而计算的点数超过自身的大小。
令《和 分别是混合激励中 和 ex2(«)的比例系数, 其中 设为 0.6, 而 β依照下面的二次方程确定:
β2Ε2 + 2 βΕ3 + (a2 - 1^ = 0, with β>0
如果 没有解, 那么 将被设成 0, 而"设成 1。 最终的 CNG模块的激励变为 ex(n):
ex(n) = aex (n) + ββχ2 (η) 以上即为 729.Β编码器的 DTX/CNG模块的基本原理。 1.3 G.729.1 编解码器的基本流程
G.729.1是 ITU最新发布的新一代语音编解码标准 (见参考文献 [1]), 其是 111; 0.729在8-321^^/8可分级宽带(50-70001^)上的扩展。 默认情况下, 编码 器输入和解码器输出端釆样频率为 16000Hz。 编码器产生的码流具有可分级 性, 包含 12个嵌入式层, 分别被称作第 1 ~ 12层。 第 1层为核心层, 对应比特率 为 8kbit/s。 该层与 G.729码流一致, 从而使得 G.729EV与 G.729具有互操作性。 第 2层为窄带增强层,增加了 4 kbit/s,而第 3 ~ 12层是宽带增强层,以每层 2 kbit/s 速度共增加 20 kbit/s。
G.729.1编解码器基于三阶段结构: 嵌入式码激励线性估计 (CELP)编解码, 时域带宽扩展 ( TDBWE ) 以及被称为时域混叠消除(TDAC ) 的估计转换编 解码。 嵌入式 CELP阶段产生第 1和第 2层, 生成 8 kbit/s和 12 kbit/s窄带合成信号 (50-4000 Hz)。TDBWE阶段产生第 3层,生成 Mkbit/s宽带输出信号 (50-7000 Hz)。 TDAC阶段工作在改进离散余弦变换(MDCT )域, 生成第 4 ~ 12层, 将信号质 量从 14 kbit/s提高到 32 kbit/s。 TDAC编解码同时代表 50-4000 Hz频带加权 CELP编解码误码信号和 4000-7000 Hz频带输入信号。
参考图 2所示, 给出了 G.729.1编码器功能框图。 编码器工作于 20 ms输入 超帧。 默认情况下, 输入信号 («)在 16000 Hz进行釆样。 因此, 输入超帧具 有 320个釆样点长度。
首先, 输入信号¾»经过 QMF滤波 (H^ H ( )分成两个子带, 低子带 信号 经过 50Hz截止频率的高通滤波器进行预处理, 输出信号 («)使用 8kb/s~12kb/s 的窄带嵌入式 CELP 编码器进行编码, 和 12Kb/s码率下
CELP编码器的本地合成信号^;^)之间的差值信号为 d» , 将其经过知觉加 权滤波 后得到信号 (") , 将 (")通过 MDCT变换到频域。 加权滤波 器 WLB (z)包含了增益补偿, 用来保持滤波器输出 d»与高子带输入信号 之间的谱连续性。 高子带分量乘上 (-1)"进行语折叠之后获得信号^ , 将^ »通过截止 频率为 3000HZ的低通滤波器进行预处理, 滤波后的信号 使用 TDBWE 编码器进行编码。 信号 也通过 MDCT变换为频域信号。 两组 MDCT系数/ 和^ 最后使用 TDAC编码器进行编码。 另外, 还有一些参数用 FEC (丟帧错误隐蔽)编码器进行传输, 用以改进在 传输中出现丟帧时造成的错误。
解码器系统框图如图 3所示, 解码器的实际工作模式由接收到的码流层数 决定, 也等价于由接收到的码率决定。 (1)、如果接收到的码率为 8kb/s或 12kb/s (即仅接收到第一层或者前两层): 第一层或者前两层的码流由嵌入式 CELP解码器进行解码, 得到解码后的信号 s LB(n) , 再进行后滤波得到 并经高通滤波获得 ^(") = /(")。 输出信 号由 QMF合成滤波器组产生, 其中高频合成信号 ^ ^被置零。
(2)、 如果接收到的码率为 14kb/s (即接收到前三层) : 除了 CELP解码器 解码出窄带分量以外, TDBWE解码器也解码出高带信号分量 s («)。 对 进行 MDCT变换, 把高子带分量语中 3000Hz以上 (对应于 16kHz釆样率中
7000Hz以上)频率分量置 0, 然后进行逆 MDCT变换, 迭加之后并进行谱翻转, 然后在 QMF滤波器组中将重建的高频带信号 SHB (" 与 CELP解码器解出的低 带分量 (")=^»—起合成 16kHz的宽带信号 (不进行高通滤波) 。 (3)、 如果接收到 14kb/s以上速率的码流(对应于前四层或者更多层) : 除了 CELP解码器解码出低子带分量 («)、 TDBWE解码器解码出高子带分 量 以外, TDAC解码器还负责重建 MDCT系数 和 ^« ( ) , 二者分 别对应于低频带(0-4000 Hz )重建加权差值和高频带( 4000-7000 Hz )重建信 号 (注意到在高频带中, 非接收子带和 TDAC零码分配子带被替换为电平调 整子带信号 ) 。 )及^^ )通过反向 MDCT和重叠相加变换为时域 信号。 然后, 低频带信号 (")经由感知加权滤波器进行处理。 为减少变化编 码带来的影响, 对低频带和高频带信号 »和^ 进行前向 /后向回声监测 和压缩。 低频带合成信号^ (")经由后滤波处理, 而高频带合成信号 ^ (")经 由 (-l)n频语折叠处理。然后 , QMF合成滤波器组对信号 = 和 进行组合和上釆样, 得到最终的 16kHz的宽带信号。
1.4 G.729.1 DTX/CNG系统的需求
为了节省带宽, G.729.1还定义了静音压缩系统的需求, 要求其在背景噪 声的情况下在不降低信号整体编码质量的前提下釆用低速率的编码方式对背 景噪声进行编码传输, 即定义了 DTX和 CNG的需求, 更重要的一点是要求 其 DTX/CNG系统要能够兼容 G.729B。虽然可以将 G.729B的 DTX/CNG系统 简单移植到 G.729.1中, 但有两个问题需要解决: 一是这两个编码器的处理帧 长不同, 直接移植会带来一些问题, 而且 729B的 DTX/CNG系统有些简单, 尤其是参数提取部分, 为了满足 G.729.1DTX/CNG系统的需求需要对 729B的 DTX/CNG系统进行扩展。二是 G.729.1处理的信号带宽为宽带, 而 G.729B处 理的带宽为窄带, 在 G.729.1的 DTX/CNG系统还要加入背景噪声信号高频带 部分( 4000Hz ~ 7000Hz ) 的处理方式, 使其成为一个完整的系统。
在 G.729.1中, 可以将背景噪声的高频带和低频带分别进行处理。 其中高 频带的处理方式比较简单,其背景噪声特征参数的编码方式可参考语音编码器 的 TDBWE编码方式, 判决部分简单比较频域包络和时域包络的稳定性即可。 本发明的技术方案及要解决的问题是在低频带, 也即窄带。 以下所指的 G.729.1DTX/CNG系统, 是指应用于对窄带 DTX/CNG部分的有关处理过程。
参考图 4所示, 是本发明的编码的方法的实施例一, 包括步骤: 步骤 401、 提取拖尾时间内的背景噪声特征参数;
步骤 402、 对所述拖尾时间后的第一个超帧, 根据提取的所述拖尾时间内 的背景噪声特征参数和所述第一个超帧的背景噪声特征参数,进行背景噪声编 码, 得到第一个 SID帧;
步骤 403、 对第一个超帧后的超帧, 对每一帧都进行背景噪声特征参数提 取和 DTX判决;
步骤 404、 对第一个超帧后的超帧, 根据提取的当前超帧的背景噪声特征 参数和所述当前超帧之前若干超帧的背景噪声特征参数, 以及最终 DTX判决 结果, 进行背景噪声编码。
利用本发明实施例,通过提取拖尾时间内的背景噪声特征参数; 对所述拖 尾时间后的第一个超帧,根据提取的所述拖尾时间内的背景噪声特征参数和所 述第一个超帧的背景噪声特征参数, 进行背景噪声编码; 对第一个超帧后的超帧, 对每一帧都进行背景噪声特征参数提取和 DTX 判决;
对第一个超帧后的超帧 ,根据提取的当前超帧的背景噪声特征参数和所述 当前超帧之前若干超帧的背景噪声特征参数, 以及最终 DTX判决结果, 进行 背景噪声编码。 实现了:
首先, 在保证编码质量的情况下, 显著降低信号的通信带宽。
其次, 通过对于 G.729B系统的扩展, 符合了 G.729.1系统指标的要求。 再次,通过灵活准确的背景噪声特征参数的提取,使得背景噪声的编码更 加精确。
在本发明的各个实施例中, 如果为了适应 G.729.1相关技术标准的要求, 可以通过将每个超帧设置为 20毫秒, 将每个超帧所包含的帧设置为 10毫秒。 利用本发明的各个实施例, 均可以实现对于 G.729B的扩展, 满足 G.729.1 的 技术指标。 同时, 对于所属领域的技术人员而言, 可以明白, 对于非 G.729.1 系统,应用本发明的各个实施例所提供的技术方案, 同样可以达到对背景噪声 以较低的频带占用, 带来较高的通信质量。 即本发明的应用范围不仅仅局限于 G.729.1系统之内。
下面结合附图, 详细介绍本发明的编码的方法的实施例二:
由于 G729.1和 G729B的编码帧长不同, 其中, 前者是 20ms—帧, 后者 是 10ms—帧。 也就是说, G729.1的一帧与 G729B的两帧的长度相对应。 为 描述方便, 这里将 G729.1 的一帧为超帧 ( superframe ), G729B 的一帧为帧 ( frame ), 本发明主要针对这种差别来描述 G729.1的 DTX/CNG系统, 即通 过对 G729B DTX/CNG系统进行升级和扩展, 以适应 ITU729.1的系统特点。
一、 噪声的学习:
首先, 用语音编码速率对背景噪声的前 120ms进行编码;
为了准确的对背景噪声的特征参数进行提取, 在语音帧结束(根据 VAD 结果的指示,表明当前帧已经从活动的语音变为非活动的背景噪声)之后一段 时间内, 并不马上进入背景噪声处理阶段, 而是继续用语音编码速率对背景噪 声进行编码。 这一拖尾的时间一般为 6个超帧, 即 120ms (可参考 AMR及 AMRWB )。
其次, 在这一拖尾时间内, 对每一个超帧的每一 10ms帧, 均对背景噪声 的自相关系数 ^ ( ·), · = 0... 10进行緩存, 其中 t为超帧序号, k=l,2为每个超帧 中第 1个和第 2个 10ms帧的序号。 由于这些自相关系数表征了拖尾阶段背景 噪声的特性, 因此在对背景噪声进行编码时就可以依据这些自相关系数, 准确 的提取出背景噪声的特征参数,从而使得对背景噪声的编码更加精确。在实际 运用中, 噪声学习所持续的时间长度, 可以根据实际需要进行设定, 不限于 120ms; 可以根据需要将拖尾时间设置为其他的数值。
二、 对拖尾阶段后第一个超帧进行编码
在拖尾阶段结束之后, 釆用背景噪声的处理方式对背景噪声进行处理。 参 考图 5所示, 是对第一个超帧编码的流程示意图, 包括步骤: 在拖尾阶段结束后的第一个超帧,对噪声学习阶段以及当前超帧提取出来 的背景噪声特征参数进行编码, 得到第一个 SID超帧, 由于在拖尾阶段之后的 第一个超帧要进行背景噪声参数的编码传输, 因此这一超帧一般称为第一个 SID超帧; 编码后生成的第一个 SID超帧在发送到解码端后进行解码。 由于一 个超帧对应两个 10ms帧, 为了准确获得编码参数, 会在第 2个 10ms帧提取出背 景噪声的特征参数 4( 和£,:
LPC滤波器 4( 和残差能量 A的计算方式如下: 步骤 501、 计算緩存中所有自相关系数的平均值:
Rt^ = ^T ∑ ∑ r ( ), = 0...10 其中 =5 , 也就是緩存的大小为 10个 10ms帧。 步骤 502、 由自相关系数的平均值 ( , 根据 Levinson-Durbin算法计算出 LPC滤波器 4( , 其系数为 = 0,...,10 , 同时 Levinson-Durbin算法也会计算 出残差能量 , 并以此作为当前超帧能量参数的简单估计。 其中, 在实际运用中, 为了获得更加稳定的超帧能量参数估计, 还可以对 估计出的残差能量 A进行了长时的平滑, 并将平滑后的能量估计 £_JJ作为当 前超帧能量参数的最终估计重新赋给 A, 平滑操作如下: E LT = ocE LT + (1 - a)Et
Et =E_LT 其中, "取值范围为: 0<« <1, 作为优选实施例中, "取值可以为 0.9。 也可 以根据需要设置为其他值。
步骤 503、 算法将 LPC滤波器系数 4( 转化到 LSF域, 然后进行量化编 码;
步骤 504、 残差能量参数 A的量化在对数域完成, 釆用的是线性的量化。 在背景噪声窄带部分的编码完成之后,将这些编码比特封闭在 SID帧中传 送到解码端, 这样就完成了第一个 SID帧窄带部分的编码。
在本发明的实施例中,对于第一个 SID帧窄带部分的编码充分考虑了拖尾 阶段背景噪声的特性,将背景噪声在拖尾阶段的特性反映在了编码参数中,从 而使得这些编码参数最大限度地表征了当前背景噪声的特性。 因此, 本发明的 实施例中的参数提取相对于 G.729B更加准确合理。
三、 DTX的判决
为了清楚描述的需要, 设提取的参数的表现形式是 Λ47? Λ, 其中 t为超帧 序号, "k=l,2,,为每个超帧中第 1个和第 2个 10ms帧的序号。 那么对于除了第 一个超帧之外的其他非语音超帧,需要对每一 10ms帧的参数进行提取和 DTX 判决。
参考图 6所示, 是窄带部分参数提取及 DTX判决的流程图, 包括步骤: 首先, 进行第一个超帧后的第一个 10毫秒帧的背景噪声参数提取及 DTX 判决;
对于所述第一个 10毫秒帧, 背景噪声的谱参数 4»和激励能量参数 的 计算方式如下: 步骤 601、根据最近四个相邻 10ms帧自相关系数 r(t_l)2(j) . τ_ι)Λ(]) 和 r _2 2 ( 的值, 计算当前自相关系数的稳态平均值 R" (j):
RtlU) = 0.5*rmml( ) + 0.5*rmm2( ), = 0...10 其中, ml /)和 m2 /)表示 (7·) 、 (7·) 、 ^_1λ1( ·)和^ _ 2( 中具有次最小和 次次最小自相关系数范数值的自相关系数,也就是除去具有最大和最小自相关 系数范数值所剩下的具有中间自相关系数范数值的两个 10ms 帧的自相关系 数: r{t_l)2(j) , r _O )和^_ 2( 的自相关系数范数分别为:
10 , 2
normtl = ru ( )
"隱 — ",2
«隱(,— 1λ1
Figure imgf000021_0001
10 2
"隱 2 =∑ 2 CO 将这四个自相关系数范数值进行排序, 则 rmml /)和 rmm2 /)对应于具有中间 自相关系数范数值大小的两个 10ms帧的自相关系数。
步骤 602、 由当前自相关系数的稳态平均值 R" /), 根据 Levinson-Durbin 算法计算出背景噪声的 LPC滤波器 4, ), 其系数为《,( '), ' = 0,...,10 , 同时 Levinson-Durbin算法也会计算出残差能量 ;
其中, 在实际运用中, 算法为了获得更加稳定的帧能量估计, 对估计出的
ΕιΛ ,还可以进行长时的平滑, 并将平滑后的能量估计 £_Jr作为当前帧激励能 量估计重新赋值给 , 操作如下:
E_LT\ = oE_LT+ (\ -a)Et l
ΕίΛ = E_LT\
"取值为 0.9。
步骤 603、 参数提取之后, 进行当前 10ms帧的 DTX判决; DTX判决的具体 内容是:
算法将之前的 SID超帧 ( SID超帧就是经 DTX判决后最终要编码发送的背 景噪声超帧, 如果 DTX判决结果, 该超帧不发送, 则不称之为 SID超帧) 中窄 带部分编码参数与当前 10毫秒帧相应的编码参数进行对比,如果当前的 LPC滤 波器系数与之前 SID超帧中的 LPC滤波器系数差别较大, 或者当前的能量参数 与之前 SID超帧中的能量参数差别较大(见下面的公式), 则将当前 10ms帧的 参数变化标志 flag—change—first置 1 , 否则清零。 本步骤中的具体的确定方法与 G.729B类似:
首先, 设上一个 SID超帧中的 LPC滤波器 Ο)的系数为 asi人 j、,j = 0...10 , 如果当前 10ms帧和上一 SID超帧的 LPC滤波器的 Itakura距离超过了一定的 门限, 令 flag—change—first 3Λ , 否则置零: 10
if Ra (/) x Rt l (/) > Et l x thr) flag _ change _ first = 1
else
flag _ change _ first = 0
其中, t/?r是具体的门限值,一般在 1.0到 1.5之间,本实施例中为 1.342676475, RflOU = 0...l0是上一 SID超帧 LPC滤波器系数的自相关系数: U) = 2∑asid(k) asid(k + j) if(j≠ 0)
Ra(0) =∑asid(kf 其次,计算当前 10ms帧和最近三个 10ms帧共四个 10ms帧残差能量的平 均值:
Et, ― (Et +£^,2 + Et_^ + Et_22) / 4 需要注意的是,如果当前超帧是噪声编码阶段的第二个超帧 (即前一个超帧是 第一个超帧), 那么 _22的值为 0。 对 用对数量化器量化。 将解码之后的对 数能量 i与上一 SID超帧解码后的对数能量 £ 进行比较,如果二者的差超过
3 dB , 就令 flag _ change _ first置一 , 否则置零:
if abs(E d -Eql)>3
flag change first = 1
else
flag change first = 0
对于所属领域的技术人员而言,可以根据实际需要将两个激励能量的差设 置为其他的值, 这没有超出本发明的保护范围。
在进行了第一个 10ms帧的背景噪声参数提取及 DTX判决之后, 就进行第 二个 10ms帧的背景噪声参数提取及 DTX判决。 第二个 10ms帧的背景噪声参数提取及 DTX判决流程与第一个 1 Oms帧一 致, 其中第二个 10ms帧的相关参数为: 相邻四个 10ms帧自相关系数的稳态平 均值 RU /) , 相邻四个 10ms帧帧能量的平均值 2以及第二个 10ms帧的 DTX标 志 flag—change— second。 四、 当前超帧中的窄带部分背景噪声参数提取及 DTX判决。
参考图 7所示, 是当前超帧中的窄带部分背景噪声参数提取及 DTX判决流 程图, 包括步骤:
步骤 701、 确定当前超帧窄带部分的最终 DTX标志 flag—change , 其确定方 式如下:
flag _ change = flag _ change _ first 11 flag _ change _ sec ond
即只要有一个 10ms帧的 DTX判决结果为 1 , 则当前超帧窄带部分的最终判 决结果为 1。
步骤 702、 确定当前超帧的最终 DTX判决结果; 包括当前超帧高频带部分 在内的当前超帧的最终 DTX判决结果, 则还要考虑高频带部分的特性, 由窄带 部分和高频带部分综合决定当前超帧的最终 DTX判决结果。如果当前超帧的最 终 DTX判决结果为 1 , 则进入步骤 703; 如果当前超帧的 DTX判决结果为 0, 则 不进行编码, 只向解码端发送没有任何数据的 NODATA帧。
步骤 703、如果当前超帧的最终 DTX判决结果为 1 , 则对当前超帧的背景噪 声特征参数进行提取; 提取当前超帧的背景噪声特征参数的来源是当前两个 1 Oms帧的参数, 即将当前两个 1 Oms帧的参数进行平滑得到当前超帧的背景噪 声编码参数。 提取背景噪声特征参数并进行背景噪声特征参数平滑的过程如 下: 首先, 确定平滑因子 smooth rate:
if {flag _ change _ first == 0 & & flag _ change _ sec ond == 1)
smooth _ rate = 0.1
else
smooth rate = 0.5 即: 如果第一个 10ms帧的 DTX判决结果为 0, 而第二个 10ms帧的 DTX判决 结果为 1 , 则在平滑时, 第一个 10ms帧背景噪声特征参数的平滑权重为 0.1,第 二个 10ms帧背景噪声特征参数的平均权重为 0.9, 否则两个 10ms帧背景噪声特 征参数的平滑权重都为 0.5。 然后,对两个 10ms帧的背景噪声特征参数进行平滑,得到当前超帧的 LPC 滤波器系数和计算两个 10ms帧帧能量的平均值, 其过程包括: 首先, 计算两个 10ms帧自相关系数稳态平均值的滑动平均值 ( : Rt (j)= smooth _ rateR''1 - smooth _ rate)R''2 (j) 得到自相关系数的滑动平均值 ( 之后, 根据 Levinson-Durbin算法, 得到 LPC 滤波器 4 ( , 其系数为 at (j'), = 0,...,10; 其次, 计算两个 10ms帧帧能量的平均值^ :
E = smooth _ rateEt j+(l - smooth _rate)Et 2 这样就得到当前超帧的窄带部分的编码参数: LPC滤波器系数和帧能量平 均值。 背景噪声特征参数提取以及 DTX控制充分靠了了当前超帧每一 10ms 帧的特性, 因此算法较为严谨。 五、 SID帧的编码 与 G.729B—样, 在对 SID帧的谱参数最终编码时, 考虑了相邻噪声帧之间 的稳定情况, 具体的操作与 G.729B—致:
首先, 计算当前超帧之前^个超帧的平均 LPC滤波器 (z) , 这要用到自 相关函数平均值 (_/·) , 然后将 (_/·)送入 Levinson-Durbin算法中得到 0) , 而 ( )表示为:
Figure imgf000026_0001
其中^的值定为 5。 这样, SID-LPC滤波器表示为:
At ∑) if dist ce(At (z), Ap (z)) > thr3
Ap (z) otherwise 即算法会计算前几个超帧的平均 LPC 滤波器系数 ( 然后, 用其与当前的 LPC滤波器系数 4( 进行比较, 若二者差别较小, 那么当前超帧在量化 LPC 系数时选择的就是前几个超帧的平均值 ( , 否则就是当前超帧的 4( , 具 体的比较方法与步骤 602中 10ms帧 DTX判决的方法一样,其中 t/?r3是具体的 门限值, 一般在 1.0到 1.5之间, 本实施例中为 1.0966466。 所述领域的技术人 员可以根据实际需要, 取其他的值, 这没有超出本发明的保护范围。
选择好 LPC滤波器系数之后,算法将这些 LPC滤波器系数转化到 LSF域, 然后进行量化编码, 而量化编码选择的方式与 G.729B的量化编码方式类似。
能量参数的量化在对数域完成, 釆用的是线性的量化, 然后进行编码。 这 样对背景噪声的编码就已完成, 然后将这些编码比特封装在 SID帧中。 六、 CNG的方式
在基于 CELP模型的编码中, 为了获得最佳的编码参数, 在编码端也包含 了解码的过程, 对于 CNG系统也不例外, 即在 G.729.1中编码端也要包含 CNG 模块。 对于 G.729.1中的 CNG来说, 其处理的流程基于 G.729B, 虽然其帧长为 20ms, 但还是以 10ms为基本的数据处理长度来处理背景噪声。 但是, 从上一 节可知, 第一个 SID超帧的编码参数在第 2个 10ms帧才会对进行编码, 但这时 系统需要在第一个 SID超帧的第一个 10ms帧就产生 CNG的参数。 显然, 第一个 SID超帧的第一个 10ms帧的 CNG参数不能从 SID超帧的编码参数中得到, 而只 能从之前语音编码超帧中得到。 由于存在这种特殊情况, 因此 G.729.1的第一个 SID超帧的第一个 10ms帧的 CNG方式与 G.729B有所不同,相对前述有关内容介 绍的 G.729B的 CNG方式, 这种不同表现在:
(1) 目标激励增益 由长时平滑的语音编码超帧量化的固定码本增益 定义:
G=LT_Gf *y
其中, 0< <1, 本实施例中可以选择 ^ = 0.4。
(2) LPC滤波器系数 由长时平滑的语音编码超帧量化的 LPC滤波器 系数 Jr_:? (z)定义:
Asid(z) = LT_A(z)
其他的操作与 729B—致。
设语音编码帧量化的固定码本增益和 LPC滤波器系数分别为 gain— code和 Aq(z), 则这些长时平滑的参数分别计算如下:
LT _Gf = βυΓ _Gf + (1 - β) gain code
LT _A(z) = LT _A(z) + (\- )Aq(z)
以上操作在语音超帧的每一子帧都进行平滑, 其中平滑因子 的取值范围为 0<β<1, 本实施例中为 0.5。 另外, 除了第一个 SID超帧的第一个 10ms帧与 729B略有不同外, 其他所有 10ms帧的 CNG方式均与 G.729B—致。
其中, 在上述实施例中, 所述拖尾时间为 120毫秒或 140毫秒。
其中,在上述实施例中,所述提取拖尾时间内的背景噪声特征参数具体为: 在所述拖尾时间内 ,对每一个超帧的每一帧,保存每帧背景噪声的自相关 系数。
其中, 在上述实施例中, 对所述拖尾时间后的第一个超帧, 所述根据提取 的所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参 数, 进行背景噪声编码包括:
在第一帧和第二帧保存每个帧背景噪声的自相关系数;
在第二帧,根据所述提取出的所述两帧的自相关系数和所述拖尾时间内的 背景噪声特征参数, 提取出所述第一个超帧的 LPC滤波器系数和残差能量, 进行背景噪声编码。
其中, 在上述实施例中, 所述提取所述 LPC滤波器系数具体为: 计算所述第一个超帧和所述第一个超帧之前的所述拖尾时间内的四个超 帧的自相关系数的平均值;
由所述自相关系数的平均值, 根据 Levinson-Durbin算法计算出 LPC滤波 器系数;
所述提取所述残差能量 A具体为:
根据 Levinson-Durbin算法计算出残差能量;
所述在第二帧进行背景噪声编码具体为:
将所述 LPC滤波器系数转化到 LSF域, 进行量化编码;
将所述残差能量在对数域进行线性量化编码。
其中, 在上述实施例中, 在计算出所述残差能量后, 进行量化编码之前, 还包括: 对所述残差能量进行长时的平滑; 平滑公式为: E_LT = oE_LT + (\_o Et, 取值范围为: 0< <1; 将平滑后的能量估计 £_JJ的值作为残差能量的值。 其中, 在上述实施例中, 所述对第一个超帧后的超帧, 对每一帧都进行背 景噪声特征参数提取具体为:
根据最近四个相邻帧自相关系数的值, 计算当前自相关系数的稳态平均 值,所述自相关系数的稳态平均值是所述最近四个相邻帧中具有中间自相关系 数范数值的两帧的自相关系数的平均值;
对所述稳态平均值, 根据 Levinson-durbin算法计算背景噪声 LPC滤波器系 数和残差能量。
其中, 在上述实施例中, 在计算所述残差能量后, 还包括:
对所述残差能量进行长时平滑, 得到当前帧能量估计; 平滑方式为:
E _LT = aE _LT\ + (\-a)Etk-
"取值为: 0< « <1;
将平滑后的当前帧能量估计赋值给所述残差能量; 赋值方式为:
Et,k=E一 LT。
其中 k=l,2, 分别表示第一帧和第二帧。
其中, 各个实施例中: 《 =0.9。
其中, 在上述实施例中, 所述对第一个超帧后的超帧, 对每一帧都进行 DTX判决具体为:
如果当前帧 LPC滤波器系数和上一 SID超帧 LPC滤波器系数的值超过预设 的门限值,或者当前帧的能量估计与上一 SID超帧中的能量估计相比差别较大, 则将当前帧的参数变化标志设为 1;
如果当前 10毫秒帧 LPC滤波器系数和上一 SID超帧 LPC滤波器系数的值没 有超过预设的门限值, 或者当前 10毫秒帧的能量估计与上一 SID超帧中的能量 估计相比差别不大, 则将当前 10毫秒帧的参数变化标志设为 0。
其中, 在上述实施例中, 所述当前帧的能量估计与前一 SID超帧中的能量 估计相比差别较大具体为: 计算当前 10毫秒帧和之前最近 3个帧共 4个帧的残差能量的平均值作为当 前帧的能量估计;
将所述残差能量的平均值使用对数量化器量化;
如果解码后的对数能量与上一 SID超帧解码后的对数能量的差超过预设 值,则确定所述当前帧的能量估计与前一 SID超帧中的能量估计相比差别较大。
其中, 在上述实施例中, 所述对每一个帧都进行 DTX判决具体为: 如果当前超帧中有一个帧的 DTX判决结果为 1 , 则当前超帧窄带部分的 DTX判决结果为 1。
其中, 在上述实施例中, 述当前超帧的所述最终 DTX判决结果为 1 , 则所 述: "对第一个超帧后的超帧, 根据提取的当前超帧的背景噪声特征参数和所 述当前超帧之前若干超帧的背景噪声特征参数, 以及最终 DTX判决结果,进行 背景噪声编码"过程包括:
对于所述当前超帧, 确定平滑因子, 包括:
如果当前超帧第一帧的 DTX为零, 第二帧的 DTX为 1 , 则所述平滑因子为 0.1 , 否则所述平滑因子为 0.5;
对所述当前超帧的两个帧进行参数平滑,将参数平滑后的参数作为对所述 当前超帧的进行背景噪声编码的特征参数, 所述参数平滑包括:
计算所述两个帧自相关系数稳态平均值的滑动平均值 ( :
Rt (j)= smooth rateR" ( )+(l - smooth rate)Rt (j) , 戶斤 i^l smooth rate为所述平 滑因子, )为第一帧的自相关系数稳态平均值, '2( 为第二帧的自相关 系数稳态平均值;
对所述两个帧自相关系数稳态平均值的滑动平均值 ( ·) , 根据 Levinson-Durbin算法, 得到 LPC滤波器系数,
计算所述两个帧帧能量估计的滑动平均值
Έ = smooth _rateE l+{\― smooth _rate)Et 2 ,所述 a为第一帧的能量估计, E 2为 第二帧的能量估计。
其中, 在上述实施例中, 所述"根据提取的当前超帧的背景噪声特征参数 和所述当前超帧之前若干超帧的背景噪声特征参数,以及最终 DTX判决结果, 进行背景噪声编码"具体为: 计算当前超帧之前若干超帧的自相关系数的平均值;
根据所述自相关系数的平均值,计算当前超帧之前若干个超帧的平均 LPC 滤波器系数;
如果所述平均 LPC滤波器系数与当前超帧的 LPC滤波器系数差值小于或 等于预设值, 则将所述平均 LPC滤波器系数转化到 LSF域, 进行量化编码; 如果所述平均 LPC滤波器系数与当前超帧的 LPC滤波器系数差值大于预 设值, 则将所述当前超帧的 LPC滤波器系数转化到 LSF域, 进行量化编码; 对能量参数, 在对数域进行线性量化编码。 其中, 在上述实施例中, 所述若干帧的数量为 5。 所属领域的技术人员也 可以根据需要选择其他数量的帧数。
其中,在上述实施例中,在所述提取拖尾时间内的背景噪声特征参数步骤 之前, 还包括:
用语音编码速率对所述拖尾时间内的背景噪声进行编码。
参考图 8所示, 是本发明的解码方法的实施例一, 包括步骤:
步骤 801、 从第一个超帧的第一帧之前的语音编码帧, 获得第一个超帧的 第一帧的 CNG参数;
步骤 802、 根据所述 CNG参数, 对第一个超帧的第一帧进行背景噪声解 码, 所述 CNG参数包括:
目标激励增益,所述目标激励增益由长时平滑的语音编码帧参数量化的固 定码本增益确定;
其中,在实际运用中, 所述确定目标增益可以具体为: 目标激励增益 = * 固定码本增益, 0 < < 1 ; 滤波器系数 ,所述滤波器系数由长时平滑的语音编码帧参数量化的滤波器 系数定义;
其中, 在实际运用中, 所述定义所述滤波器系数可以具体为: 滤波器系数 =长时平滑的语音编码帧量化的滤波器系数。 其中, 上述实施例中, 所述长时平滑因子取值范围为:大于 0且小于 1。 其中, 上述实施例中, 所述长时平滑因子可以为 0.5。 其中, 上述实施例中, 所述 = 0.4。 其中, 上述实施例中, 所述对第一个超帧的第一帧进行背景噪声解码过程 之后, 还可以包括: 对除所述第一个超帧的第一帧之外的所有帧,从上一个 SID超帧获取 CNG 参数后, 根据获取的所述 CNG参数进行背景噪声解码。 参考图 9所示, 是本发明的编码装置的实施例一, 包括: 第一提取单元 901 , 用于: 提取拖尾时间内的背景噪声特征参数; 第二编码单元 902, 用于: 对所述拖尾时间后的第一个超帧, 根据提取的 所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数, 进行背景噪声编码;
第二提取单元 903 , 用于: 对第一个超帧后的超帧, 对每一帧都进行背景 噪声特征参数提取;
DTX判决单元 904,用于:对第一个超帧后的超帧,对每一帧都进行 DTX 判决;
第三编码单元 905 , 用于: 对第一个超帧后的超帧, 根据提取的当前超帧 的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数,以及 最终 DTX判决结果, 进行背景噪声编码。 其中, 上述实施例中, 所述拖尾时间为 120毫秒或 140毫秒。 其中, 上述实施例中, 所述第一提取单元具体为: 緩存模块, 用于: 在所述拖尾时间内, 对每一个超帧的每一帧, 保存每帧 背景噪声的自相关系数。 其中, 上述实施例中, 所述第二编码单元具体为: 提取模块, 用于: 在第一帧和第二帧保存每帧背景噪声的自相关系数; 编码模块, 用于: 在第二帧, 根据所述提取出的所述两个帧的自相关系数 和所述拖尾时间内的背景噪声特征参数, 提取出所述第一个超帧的 LPC滤波 器系数和残差能量, 进行背景噪声编码。 其中, 上述实施例中, 所述第二编码单元还可以包括: 残差能量平滑模块, 用于: 对所述残差能量进行长时的平滑;
平滑公式为: E—LT = E—LT + (\_a、Et, 取值范围为: 0< <1; 将平滑后的能量估计 £_JJ的值作为所述残差能量的值。 其中, 上述实施例中, 所述第二提取单元具体为:
第一计算模块, 用于: 根据最近四个相邻帧自相关系数的值, 计算当前自 相关系数的稳态平均值,所述自相关系数的稳态平均值是所述最近四个相邻帧 中具有中间自相关系数范数值的两个帧的自相关系数的平均值;
第二计算模块, 用于: 对所述稳态平均值, 根据 Levinson-durbin算法计算 背景噪声 LP C滤波器系数和残差能量。
其中, 上述实施例中, 所述第二提取单元还可以包括:
第二残差能量平滑模块, 用于: 对所述残差能量进行长时平滑, 得到当前 帧能量估计; 平滑方式为:
E _LT = aE _LT\ + (\-a)Etk-
"取值为: 0< « <1;
将平滑后的当前帧能量估计赋值给所述残差能量; 赋值方式为:
Et,k=E一 LT。
其中 k=l,2, 分别表示第一帧和第二帧。
其中, 上述实施例中, 所述 DTX判决单元具体为:
门限比较模块, 用于: 如果当前帧 LPC滤波器系数和上一 SID超帧 LPC滤 波器系数的值超过预设的门限值, 则生成判决指令;
能量比较模块, 用于: 计算当前帧和之前最近 3个帧共 4个帧的残差能量 的平均值作为当前帧的能量估计,将所述残差能量的平均值使用对数量化器量 化, 如果解码后的对数能量与上一 SID超帧解码后的对数能量的差超过预设 值, 则生成判决指令; 第一判决模块, 用于: 根据所述判决指令, 将当前帧的参数变化标志设为
1。
其中, 上述实施例中, 还可以包括: 第二判决单元, 用于: 如果当前超帧中有一个帧的 DTX判决结果为 1, 则当前超帧窄带部分的 DTX判决结果为 1;
所述第三编码单元具体为: 平滑指示模块, 用于: 如果当前超帧的所述最终 DTX判决结果为 1, 则 生成平滑指令;; 平滑因子确定模块, 用于: 收到所述平滑指令后, 确定所述当前超帧的平 滑因子:
如果当前超帧第一帧的 DTX为零, 第二帧的 DTX为 1, 则所述平滑因子 为 0.1, 否则所述平滑因子为 0.5; 参数平滑模块, 用于: 对所述当前超帧的两个帧进行参数平滑, 将平滑后 的参数作为对所述当前超帧的进行背景噪声编码的特征参数, 包括: 计算所述两个帧自相关系数稳态平均值的滑动平均值 ( :
R' (j)= smooth _ rateRt )+(l - smooth _ rate)^'2 (j) ,所逸 smooth— rate为所述平滑 因子, ^ /)为第一帧的自相关系数稳态平均值, '2( )为第二帧的自相关系 数稳态平均值;
对所述两个帧自相关系数稳态平均值的滑动平均值 (·) , 根据 Levinson-Durbin算法, 得到 LPC滤波器系数,
计算所述两个帧帧能量估计的滑动平均值
E= smooth _rateEtl+(l - smooth _rate)Et2 ,所述 为第一帧的能量估计, 2为 第二帧的能量估计。 其中, 上述实施例中, 所述第三编码单元具体为: 第三计算模块, 用于: 根据计算得到的当前超帧之前若干超帧的自相关系 数的平均值, 计算当前超帧之前若干个超帧的平均 LPC滤波器系数; 第一编码模块, 用于: 如果所述平均 LPC滤波器系数与当前超帧的 LPC 滤波器系数差值小于或等于预设值,则将所述平均 LPC滤波器系数转化到 LSF 域, 进行量化编码; 第二编码模块, 用于: 如果所述平均 LPC滤波器系数与当前超帧的 LPC 滤波器系数差值大于预设值,则将所述当前超帧的 LPC滤波器系数转化到 LSF 域, 进行量化编码; 第三编码模块, 用于: 对能量参数, 在对数域进行线性量化编码。 其中, 上述实施例中, 《 = 0.9。 其中, 上述实施例中, 还可以包括:
第一编码单元,用于:用语音编码速率对拖尾时间内的背景噪声进行编码; 本发明的编码装置具体与本发明的编码方法相适应的工作过程, 相应地, 也具有与相应的方法实施例同样的技术效果。 参考图 10所示, 是本发明的解码装置的实施例一, 包括:
CNG参数获得单元 1001 , 用于: 从第一个超帧的第一帧之前的语音编码 帧 , 获得第一个超帧的第一帧的 CNG参数; 第一解码单元 1002, 用于: 根据所述 CNG参数, 对第一个超帧的第一帧 进行背景噪声解码, 所述 CNG参数包括: 目标激励增益,所述目标激励增益由长时平滑的语音编码帧量化的固定码 本增益确定, 其中, 在实际运用中, 所述目标激励增益确定具体为: 目标激励增益 = *固定码本增益, 所述 的取值范围是: 0 < < 1 ;
LPC滤波器系数, 所述 LPC滤波器系数由长时平滑的语音编码帧量化的 LPC滤波器系数定义, 其中, 在实际运用中, 所述定义 LPC滤波器系数可以 具体为:
LPC滤波器系数 =长时平滑的语音编码帧量化的 LPC滤波器系数。 其中, 在上述实施例中, 所述长时平滑因子取值范围为:大于 0且小于 1。 在优选的情况下, 所述长时平滑因子可以为 0.5。 其中, 在上述实施例中, 还可以包括:
第二解码单元, 用于: 对除所述第一个超帧之外的所有帧, 从上一个 SID 超帧获取 CNG参数后, 根据获取的所述 CNG进行背景噪声编码。 其中, 在上述实施例中, 所述 = 0.4。 本发明的解码装置具体与本发明的解码方法相适应的工作过程, 相应地, 也具有与相应的解码方法实施例同样的技术效果。 以上所述的本发明实施方式, 并不构成对本发明保护范围的限定。任何在 本发明的精神和原则之内所作的修改、等同替换和改进等, 均应包含在本发明 的保护范围之内。

Claims

权 利 要 求
1、 一种编码方法, 其特征在于, 包括:
提取拖尾时间内的背景噪声特征参数;
对所述拖尾时间后的第一个超帧,根据提取的所述拖尾时间内的背景噪声 特征参数和所述第一个超帧的背景噪声特征参数, 进行背景噪声编码; 对第一个超帧后的超帧,对每一帧都进行背景噪声特征参数提取和非连续 传输 DTX判决; 对第一个超帧后的超帧 ,根据提取的当前超帧的背景噪声特征参数和所述 当前超帧之前若干超帧的背景噪声特征参数, 以及最终 DTX判决结果, 进行 背景噪声编码。
2、 如权利要求 1所述的方法, 其特征在于, 所述拖尾时间为 120毫秒或 140毫秒。
3、 如权利要求 1所述的方法, 其特征在于, 所述提取拖尾时间内的背景 噪声特征参数具体为: 在所述拖尾时间内, 对超帧的每一帧, 得到每帧背景噪声的自相关系数。
4、 如权利要求 1所述的方法, 其特征在于, 对所述拖尾时间后的第一个 超帧,所述根据提取的所述拖尾时间内的所述背景噪声特征参数和所述第一个 超帧的背景噪声特征参数, 进行背景噪声编码包括: 在第一帧和第二帧保存每个帧背景噪声的自相关系数; 在第二帧,根据提取出的所述两帧的自相关系数和所述拖尾时间内的背景 噪声特征参数, 提取出所述第一个超帧的 LPC滤波器系数和残差能量 进 行背景噪声编码。
5、 如权利要求 4所述的方法, 其特征在于, 所述提取所述 LPC滤波器系 数具体为:
计算所述第一个超帧和所述第一个超帧之前的所述拖尾时间内的四个超 帧的自相关系数的平均值; 由所述自相关系数的平均值, 根据 Levinson-Durbin算法计算出 LPC滤波 器系数; 所述提取所述残差能量 A具体为: 根据 Levinson-Durbin算法计算出残差能量; 所述在第二帧进行背景噪声编码具体为: 将所述 LPC滤波器系数转化到 LSF域, 进行量化编码; 将所述残差能量在对数域进行线性量化编码。
6、 如权利要求 5所述的方法, 其特征在于, 在计算出所述残差能量后, 进行量化编码之前, 还包括: 对所述残差能量进行长时的平滑; 平滑公式为: E_LT = oE_LT + (\_o Et, 取值范围为: 0< <1; 将平滑后的能量估计 £_JJ的值作为残差能量的值。
7、 如权利要求 1所述的方法, 其特征在于, 所述对第一个超帧后的超帧, 对每一帧都进行背景噪声特征参数提取具体为:
根据最近四个相邻帧自相关系数的值, 计算当前自相关系数的稳态平均 值,所述自相关系数的稳态平均值是所述最近四个相邻帧中具有中间自相关系 数范数值的两个帧的自相关系数的平均值;
对所述稳态平均值, 根据 Levinson-durbin算法计算背景噪声 LPC滤波器系 数和残差能量。
8、 如权利要求 7所述的方法, 其特征在于, 在计算所述残差能量后, 还包 括:
对所述残差能量进行长时平滑, 得到当前帧能量估计; 平滑方式为: E _LT = aE _LT\ + (\-a)Etk-
"取值为: 0< « <1;
将平滑后的当前帧能量估计赋值给所述残差能量; 赋值方式为:
Et,k=E一 LT。
其中 k=l,2, 分别表示第一帧和第二帧。
9、 如权利要求 1所述的方法, 其特征在于, 所述对第一个超帧后的超帧, 对每一帧都进行 DTX判决具体为:
如果当前帧 LPC滤波器系数和上一 SID超帧 LPC滤波器系数的值超过预设 的门限值,或者当前帧的能量估计与上一 SID超帧中的能量估计相比差别较大, 则将当前帧的参数变化标志设为 1;
如果当前帧 LPC滤波器系数和上一 SID超帧 LPC滤波器系数的值没有超过 预设的门限值, 或者当前帧的能量估计与上一 SID超帧中的能量估计相比差别 不大, 则将当前帧的参数变化标志设为 0。
10、 如权利要求 9所述的方法, 其特征在于, 所述当前帧的能量估计与前 一 SID超帧中的能量估计相比差别较大具体为:
计算当前帧和之前最近 3个帧的残差能量的平均值作为当前帧的能量估 计;
将所述残差能量的平均值使用对数量化器量化;
如果解码后的对数能量与上一 SID超帧解码后的对数能量的差超过预设 值,则确定所述当前帧的能量估计与前一 SID超帧中的能量估计相比差别较大。
11、 如权利要求 1所述的方法, 其特征在于, 所述对每一帧都进行 DTX判 决具体为:
如果当前超帧中有一个帧的 DTX判决结果为 1 , 则当前超帧窄带部分的 DTX判决结果为 1。
12、 如权利要求 11所述的方法, 其特征在于, 如果所述当前超帧的所述最 终 DTX判决结果为 1 , 则所述: "对第一个超帧后的超帧, 根据提取的当前超帧 的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数,以及 最终 DTX判决结果, 进行背景噪声编码"过程包括:
对于所述当前超帧, 确定平滑因子, 包括:
如果当前超帧第一帧的 DTX为零, 第二帧的 DTX为 1 , 则所述平滑因子为
0.1 , 否则所述平滑因子为 0.5;
对所述当前超帧的两个帧进行参数平滑,将参数平滑后的参数作为对所述 当前超帧的进行背景噪声编码的特征参数, 所述参数平滑包括:
计算所述两个帧自相关系数稳态平均值的滑动平均值 ( : R ( (j)= smooth _ rateR tA ( )十(1 - smooth _ rate)R t (j) ,所述 smooth _ rate为所述平滑 因子, ^ /)为第一帧的自相关系数稳态平均值, '2 ( )为第二帧的自相关系 数稳态平均值;
对所述两个帧自相关系数稳态平均值的滑动平均值 ( ·) , 根据 Levinson-Durbin算法, 得到 LPC滤波器系数,
计算所述两个帧帧能量估计的滑动平均值
Et = mooth _ rateEt l+(\― smooth _rate)Et 2 ,所述 为第一帧的能量估计, Et 为 第二帧的能量估计。
13、 如权利要求 1所述的方法, 其特征在于, 所述"根据提取的当前超帧 的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数,以及 最终 DTX判决结果, 进行背景噪声编码"具体为: 计算当前超帧之前若干超帧的自相关系数的平均值; 根据所述自相关系数的平均值,计算当前超帧之前若干个超帧的平均 LPC 滤波器系数; 如果所述平均 LPC滤波器系数与当前超帧的 LPC滤波器系数差值小于或 等于预设值, 则将所述平均 LPC滤波器系数转化到 LSF域, 进行量化编码; 如果所述平均 LPC滤波器系数与当前超帧的 LPC滤波器系数差值大于预 设值, 则将所述当前超帧的 LPC滤波器系数转化到 LSF域, 进行量化编码; 对能量参数, 在对数域进行线性量化编码。
14、 如权利要求 13所述的方法, 其特征在于, 所述若干超帧的数量为 5。
15、 如权利要求 1所述的方法, 其特征在于, 在所述提取拖尾时间内的背 景噪声特征参数步骤之前, 还包括: 用语音编码速率对所述拖尾时间内的背景噪声进行编码。
16、 如权利要求 6、 8任一项所述的方法, 其特征在于, 《 = 0.9。
17、 一种解码方法, 其特征在于, 包括: 从第一个超帧的第一帧之前的语音编码帧,获得第一个超帧的第一帧的舒 适噪声生成 CNG参数;
根据所述 CNG参数,对第一个超帧的第一帧进行背景噪声解码,所述 CNG 参数包括:
目标激励增益,所述目标激励增益由长时平滑的语音编码帧量化的固定码 本增益确定;
LPC滤波器系数, 所述 LPC滤波器系数由长时平滑的语音编码帧量化的 LPC滤波器系数定义。
18、 如权利要求 17所述的方法, 其特征在于, 所述长时平滑的因子取值 范围为:大于 0且小于 1。
19、 如权利要求 17所述的方法, 其特征在于, 所述对第一个超帧的第一 帧进行背景噪声解码过程之后, 还包括:
对除所述第一个超帧的第一帧之外的所有帧,从上一个 SID超帧获取 CNG 参数后, 根据获取的所述 CNG参数进行背景噪声解码。
20、如权利要求 18所述的方法,其特征在于,所述长时平滑的因子为 0.5。
21、 如权利要求 17所述的方法, 其特征在于, 所述确定所述目标激励增 益具体为: 所述目标激励增益 = *固定码本增益, 0 < < 1。
22、 如权利要求 21所述的方法, 其特征在于, 所述 = 0.4。
23、 如权利要求 17所述的方法, 其特征在于, 所述定义所述 LPC滤波器 系数具体为: 所述 LPC滤波器系数 =长时平滑的语音编码帧量化的 LPC滤波 器系数。
24、 一种编码装置, 其特征在于, 包括: 第一提取单元, 用于: 提取拖尾时间内的背景噪声特征参数;
第二编码单元, 用于: 对所述拖尾时间后的第一个超帧, 根据提取的所述 拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数,进行 背景噪声编码;
第二提取单元, 用于: 对所述第一个超帧后的超帧, 对每一帧都进行背景 噪声特征参数提取;
DTX判决单元,用于:对所述第一个超帧后的超帧,对每一帧都进行 DTX 判决;
第三编码单元, 用于: 对所述第一个超帧后的超帧, 根据提取的当前超帧 的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数,以及 最终 DTX判决结果, 进行背景噪声编码。
25、 如权利要求 24所述的装置, 其特征在于, 所述拖尾时间为 120毫秒 或 140毫秒。
26、 如权利要求 24所述的装置, 其特征在于, 所述第一提取单元具体为: 緩存模块, 用于: 在所述拖尾时间内, 对超帧的每一帧, 得到每帧背景噪 声的自相关系数。
27、 如权利要求 24所述的装置, 其特征在于, 所述第二编码单元具体为: 提取模块, 用于: 在第一帧和第二帧保存每个帧背景噪声的自相关系数; 编码模块, 用于: 在第二帧, 根据所述提取出的所述两帧的自相关系数和 所述拖尾时间内的背景噪声特征参数, 提取出所述第一个超帧的 LPC滤波器 系数和残差能量 , 进行背景噪声编码。
28、 如权利要求 27所述的装置, 其特征在于, 所述第二编码单元还包括: 残差能量平滑模块, 用于: 对所述残差能量 A进行长时的平滑;
平滑公式为: E—LT = E—LT + (\ _ a、Et , 取值范围为: 0 < < 1 ; 将平滑后的能量估计 £_JJ的值作为所述残差能量的值。
29、 如权利要求 24所述的装置, 其特征在于, 所述第二提取单元具体为: 第一计算模块, 用于: 根据最近四个相邻帧自相关系数的值, 计算当前自 相关系数的稳态平均值,所述自相关系数的稳态平均值是所述最近四个相邻帧 中具有中间自相关系数范数值的两帧的自相关系数的平均值;
第二计算模块, 用于: 对所述稳态平均值, 根据 Levinson-durbin算法计算 背景噪声 LP C滤波器系数和残差能量。
30、 如权利要求 29所述的装置, 其特征在于, 所述第二提取单元还包括: 第二残差能量平滑模块, 用于: 对所述残差能量进行长时平滑, 得到当前 帧能量估计; 平滑方式为:
E _ LT = aE _ LT \ + (\ - a)Et k -
"取值为: 0 < « < 1 ;
将平滑后的当前帧能量估计赋值给所述残差能量; 赋值方式为:
Et,k =E一 LT。
其中 k=l,2, 分别表示第一帧和第二帧。
31、 如权利要求 24所述的装置, 其特征在于, 所述 DTX判决单元具体为: 门限比较模块, 用于: 如果当前帧 LPC滤波器系数和上一 SID超帧 LPC滤 波器系数的值超过预设的门限值, 则生成判决指令;
能量比较模块, 用于: 计算当前帧和之前最近 3个帧的残差能量的平均值 作为当前帧的能量估计, 将所述残差能量的平均值使用对数量化器量化,如果 解码后的对数能量与上一 SID超帧解码后的对数能量的差超过预设值,则生成 判决指令; 第一判决模块, 用于: 根据所述判决指令, 将当前帧的参数变化标志设为
1。
32、 如权利要求 31所述的装置, 其特征在于, 还包括: 第二判决单元, 用于: 如果当前超帧中有一个帧的 DTX判决结果为 1 , 则当前超帧窄带部分的 DTX判决结果为 1 ; 所述第三编码单元具体为: 平滑指示模块, 用于: 如果当前超帧的所述最终 DTX判决结果为 1 , 则 生成平滑指令; 平滑因子确定模块, 用于: 收到所述平滑指令后, 确定所述当前超帧的平 滑因子:
如果当前超帧第一帧的 DTX为零, 第二帧的 DTX为 1 , 则所述平滑因子 为 0.1 , 否则所述平滑因子为 0.5; 参数平滑模块, 用于: 对所述当前超帧的两帧进行参数平滑, 将平滑后的 参数作为对所述当前超帧的进行背景噪声编码的特征参数, 包括: 计算所述两帧自相关系数稳态平均值的滑动平均值 ( :
R' (j)= smooth _ rateRt )+(1 - smooth _ rate)^'2 (j) ,所述層 c»c»t z_rate为所述平滑 因子, ^ /)为第一帧的自相关系数稳态平均值, '2 ( )为第二帧的自相关系 数稳态平均值;
对所述两个帧自相关系数稳态平均值的滑动平均值 ( ·) , 根据 Levinson-Durbin算法, 得到 LPC滤波器系数,
计算所述两个帧帧能量估计的滑动平均值
E = smooth _rateEt l+(l - smooth _rate)Et 2 ,所述 为第一帧的能量估计, 2为 第二帧的能量估计。
33、 如权利要求 24所述的装置, 其特征在于, 所述第三编码单元具体为: 第三计算模块, 用于: 根据计算得到的当前超帧之前若干超帧的自相关系 数的平均值, 计算当前超帧之前若干个超帧的平均 LPC滤波器系数; 第一编码模块, 用于: 如果所述平均 LPC滤波器系数与当前超帧的 LPC 滤波器系数差值小于或等于预设值,则将所述平均 LPC滤波器系数转化到 LSF 域, 进行量化编码; 第二编码模块, 用于: 如果所述平均 LPC滤波器系数与当前超帧的 LPC 滤波器系数差值大于预设值,则将所述当前超帧的 LPC滤波器系数转化到 LSF 域, 进行量化编码; 第三编码模块, 用于: 对能量参数, 在对数域进行线性量化编码。
34、 如权利要求 28或 30任一项所述的装置, 其特征在于, 《 = 0.9。
35、 如权利要求 24所述的装置, 其特征在于, 还包括: 第一编码单元, 用于: 用语音编码速率对所述拖尾时间内的背景噪声进行 编码。
36、 一种解码装置, 其特征在于, 包括:
CNG参数获得单元, 用于: 从第一个超帧的第一帧之前的语音编码帧, 获得第一个超帧的第一帧的 CNG参数;
第一解码单元, 用于: 根据所述 CNG参数, 对第一个超帧的第一帧进行 背景噪声解码, 所述 CNG参数包括: 目标激励增益,所述目标激励增益由长时平滑的语音编码帧量化的固定码 本增益确定;
LPC滤波器系数, 所述 LPC滤波器系数由长时平滑的语音编码帧量化的 LPC滤波器系数定义。
37、 如权利要求 36所述的装置, 其特征在于, 所述长时平滑的因子取值 范围为:大于 0且小于 1。
38、如权利要求 37所述的装置,其特征在于,所述长时平滑的因子为 0.5。
39、 如权利要求 36所述的装置, 其特征在于, 还包括:
第二解码单元, 用于: 对除所述第一个超帧之外的所有帧, 从上一个 SID 超帧获取 CNG参数后, 根据获取的所述 CNG进行背景噪声编码。
40、 如权利要求 36所述的装置, 其特征在于, 所述确定所述目标激励增 益具体为: 所述目标激励增益 = *固定码本增益, 所述 的取值范围是: 0 < < 1。
41、 如权利要求 40所述的装置, 其特征在于, 所述 = 0.4。
42、 如权利要求 36所述的装置, 其特征在于, 所述定义所述 LPC滤波器 系数具体为:
所述 LPC滤波器系数 =长时平滑的语音编码帧量化的 LPC滤波器系数。
PCT/CN2009/071030 2008-03-26 2009-03-26 编码、解码的方法及装置 WO2009117967A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP09726234.9A EP2224428B1 (en) 2008-03-26 2009-03-26 Coding methods and devices
US12/820,805 US8370135B2 (en) 2008-03-26 2010-06-22 Method and apparatus for encoding and decoding
US12/881,926 US7912712B2 (en) 2008-03-26 2010-09-14 Method and apparatus for encoding and decoding of background noise based on the extracted background noise characteristic parameters

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2008100840776A CN101335000B (zh) 2008-03-26 2008-03-26 编码的方法及装置
CN200810084077.6 2008-03-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/820,805 Continuation US8370135B2 (en) 2008-03-26 2010-06-22 Method and apparatus for encoding and decoding

Publications (1)

Publication Number Publication Date
WO2009117967A1 true WO2009117967A1 (zh) 2009-10-01

Family

ID=40197557

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2009/071030 WO2009117967A1 (zh) 2008-03-26 2009-03-26 编码、解码的方法及装置

Country Status (7)

Country Link
US (2) US8370135B2 (zh)
EP (1) EP2224428B1 (zh)
KR (1) KR101147878B1 (zh)
CN (1) CN101335000B (zh)
BR (1) BRPI0906521A2 (zh)
RU (1) RU2461898C2 (zh)
WO (1) WO2009117967A1 (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4368575B2 (ja) 2002-04-19 2009-11-18 パナソニック株式会社 可変長復号化方法、可変長復号化装置およびプログラム
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009720A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US20100114568A1 (en) * 2008-10-24 2010-05-06 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
PT2559028E (pt) * 2010-04-14 2015-11-18 Voiceage Corp Livro de códigos de inovação combinados flexível e evolutivo a utilizar num codificador e descodificador celp
US20130268265A1 (en) * 2010-07-01 2013-10-10 Gyuhyeok Jeong Method and device for processing audio signal
CN101895373B (zh) * 2010-07-21 2014-05-07 华为技术有限公司 信道译码方法、系统及装置
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP2013076871A (ja) * 2011-09-30 2013-04-25 Oki Electric Ind Co Ltd 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
CN103093756B (zh) * 2011-11-01 2015-08-12 联芯科技有限公司 舒适噪声生成方法及舒适噪声生成器
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US20130155924A1 (en) * 2011-12-15 2013-06-20 Tellabs Operations, Inc. Coded-domain echo control
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9065576B2 (en) 2012-04-18 2015-06-23 2236008 Ontario Inc. System, apparatus and method for transmitting continuous audio data
CN104603874B (zh) * 2012-08-31 2017-07-04 瑞典爱立信有限公司 用于语音活动性检测的方法和设备
MY185490A (en) 2012-09-11 2021-05-19 Ericsson Telefon Ab L M Generation of comfort noise
CA2948015C (en) 2012-12-21 2018-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
AU2013366642B2 (en) 2012-12-21 2016-09-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
ES2905846T3 (es) 2013-01-29 2022-04-12 Fraunhofer Ges Forschung Aparato y procedimiento para generar una señal de frecuencia reforzada mediante la suavización temporal de las subbandas
PL3471093T3 (pl) * 2013-01-29 2021-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wypełnianie szumem w perceptualnym transformatowym kodowaniu audio
EP3550562B1 (en) * 2013-02-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for dtx hangover in audio coding
EP2981963B1 (en) 2013-04-05 2017-01-04 Dolby Laboratories Licensing Corporation Companding apparatus and method to reduce quantization noise using advanced spectral extension
CN106169297B (zh) 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
WO2014202539A1 (en) 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
PL3011555T3 (pl) * 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP3057377B1 (en) * 2013-11-07 2021-12-29 Huawei Technologies Co., Ltd. Network device, terminal device and voice service control method
SG11201606512TA (en) * 2014-01-15 2016-09-29 Samsung Electronics Co Ltd Weight function determination device and method for quantizing linear prediction coding coefficient
CN111312277B (zh) 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
US10157620B2 (en) * 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
EP3913628A1 (en) * 2014-03-24 2021-11-24 Samsung Electronics Co., Ltd. High-band encoding method
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
US9572103B2 (en) * 2014-09-24 2017-02-14 Nuance Communications, Inc. System and method for addressing discontinuous transmission in a network device
CN105846948B (zh) * 2015-01-13 2020-04-28 中兴通讯股份有限公司 一种实现harq-ack检测的方法及装置
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN106160944B (zh) * 2016-07-07 2019-04-23 广州市恒力安全检测技术有限公司 一种超声波局部放电信号的变速率编码压缩方法
US11670308B2 (en) 2018-06-28 2023-06-06 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive comfort noise parameter determination
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
CN109490848B (zh) * 2018-11-07 2021-01-01 国科电雷(北京)电子装备技术有限公司 一种基于两级信道化的长短雷达脉冲信号检测方法
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) * 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
CN112037803B (zh) * 2020-05-08 2023-09-29 珠海市杰理科技股份有限公司 音频编码方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0785541B1 (en) * 1996-01-22 2003-04-16 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US6711537B1 (en) * 1999-11-22 2004-03-23 Zarlink Semiconductor Inc. Comfort noise generation for open discontinuous transmission systems
CN1513168A (zh) * 2000-11-27 2004-07-14 ��˹��ŵ�� 话音通信中产生舒适噪声的方法和系统
EP1288913B1 (en) * 2001-08-31 2007-02-21 Fujitsu Limited Speech transcoding method and apparatus
CN101335000A (zh) * 2008-03-26 2008-12-31 华为技术有限公司 编码、解码的方法及装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2020899C (en) * 1989-08-18 1995-09-05 Nambirajan Seshadri Generalized viterbi decoding algorithms
JP2877375B2 (ja) * 1989-09-14 1999-03-31 株式会社東芝 可変レートコーデックを用いたセル転送方式
JP2776094B2 (ja) * 1991-10-31 1998-07-16 日本電気株式会社 可変変調通信方法
US5559832A (en) * 1993-06-28 1996-09-24 Motorola, Inc. Method and apparatus for maintaining convergence within an ADPCM communication system during discontinuous transmission
JP3090842B2 (ja) * 1994-04-28 2000-09-25 沖電気工業株式会社 ビタビ復号法に適応した送信装置
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
US5774849A (en) * 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
US6269331B1 (en) 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
KR100389853B1 (ko) 1998-03-06 2003-08-19 삼성전자주식회사 카타로그정보의기록및재생방법
SE9803698L (sv) * 1998-10-26 2000-04-27 Ericsson Telefon Ab L M Metoder och anordningar i ett telekommunikationssystem
EP1133886B1 (en) * 1998-11-24 2008-03-12 Telefonaktiebolaget LM Ericsson (publ) Efficient in-band signaling for discontinuous transmission and configuration changes in adaptive multi-rate communications systems
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
KR100312335B1 (ko) 2000-01-14 2001-11-03 대표이사 서승모 음성부호화기 중 쾌적 잡음 발생기의 새로운 sid프레임 결정방법
US6687668B2 (en) * 1999-12-31 2004-02-03 C & S Technology Co., Ltd. Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
US7099387B2 (en) * 2002-03-22 2006-08-29 Realnetorks, Inc. Context-adaptive VLC video transform coefficients encoding/decoding methods and apparatuses
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
EP1897085B1 (en) * 2005-06-18 2017-05-31 Nokia Technologies Oy System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US7573907B2 (en) * 2006-08-22 2009-08-11 Nokia Corporation Discontinuous transmission of speech signals
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
PL2118889T3 (pl) * 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
US8315756B2 (en) * 2009-08-24 2012-11-20 Toyota Motor Engineering and Manufacturing N.A. (TEMA) Systems and methods of vehicular path prediction for cooperative driving applications through digital map and dynamic vehicle model fusion

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0785541B1 (en) * 1996-01-22 2003-04-16 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US6711537B1 (en) * 1999-11-22 2004-03-23 Zarlink Semiconductor Inc. Comfort noise generation for open discontinuous transmission systems
CN1513168A (zh) * 2000-11-27 2004-07-14 ��˹��ŵ�� 话音通信中产生舒适噪声的方法和系统
EP1288913B1 (en) * 2001-08-31 2007-02-21 Fujitsu Limited Speech transcoding method and apparatus
CN101335000A (zh) * 2008-03-26 2008-12-31 华为技术有限公司 编码、解码的方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"An 8-32 kbit/s scalable wideband coder bitstream interoperable with G729", ITU-T RECOMMENDATION G.729.1 (EX G.729EV) : G729-BASED EMBEDDED VARIABLE BIT-RATE CODER, May 2006 (2006-05-01), pages 3 - 9 *
"Technical Specification Group Services and System Aspects; Mandatory Speech Codec speech processing functions; AMR Speech Codec; Comfort noise aspects", 3GPP TS 26.092 V4.0.0, 3RD GENERATION PARTNERSHIP PROJECT, March 2001 (2001-03-01), pages 7 - 9 *
ITU-T RECOMMENDATION G.729 ANNEX B: A SILENCE COMPRESSION SCHEME FOR G729 OPTIMIZED FOR TERMINALS CONFORMING TO RECOMMENDATION V70, November 1996 (1996-11-01), pages 9 - 15 *
JIAO C. ET AL.: "A New Wideband Speech CODEC AMR-WB", COMPUTER SIMULATION, vol. 22, no. 1, January 2005 (2005-01-01), pages 150 - 152 *

Also Published As

Publication number Publication date
US8370135B2 (en) 2013-02-05
EP2224428A4 (en) 2011-01-12
EP2224428A1 (en) 2010-09-01
KR101147878B1 (ko) 2012-06-01
BRPI0906521A2 (pt) 2019-09-24
US20100280823A1 (en) 2010-11-04
CN101335000A (zh) 2008-12-31
RU2010130664A (ru) 2012-05-10
RU2461898C2 (ru) 2012-09-20
US20100324917A1 (en) 2010-12-23
CN101335000B (zh) 2010-04-21
EP2224428B1 (en) 2015-06-10
US7912712B2 (en) 2011-03-22
KR20100105733A (ko) 2010-09-29

Similar Documents

Publication Publication Date Title
WO2009117967A1 (zh) 编码、解码的方法及装置
US8630864B2 (en) Method for switching rate and bandwidth scalable audio decoding rate
US8532983B2 (en) Adaptive frequency prediction for encoding or decoding an audio signal
KR101425944B1 (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
US9672840B2 (en) Method for encoding voice signal, method for decoding voice signal, and apparatus using same
JP6752936B2 (ja) ノイズ変調とゲイン調整とを実行するシステムおよび方法
MX2011000383A (es) Esquema de codificacion/decodificacion de audio a baja tasa de bits con pre-procesamiento comun.
EP1979895A1 (en) Method and device for efficient frame erasure concealment in speech codecs
WO2010028301A1 (en) Spectrum harmonic/noise sharpness control
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
WO2009067883A1 (fr) Procédé de codage/décodage et dispositif pour le bruit de fond
EP2202726B1 (en) Method and apparatus for judging dtx
CN108231083A (zh) 一种基于silk的语音编码器编码效率提高方法
Krishnan et al. EVRC-Wideband: the new 3GPP2 wideband vocoder standard
CN101651752B (zh) 解码的方法及装置
Patel et al. Implementation and Performance Analysis of g. 723.1 speech codec

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09726234

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 4288/DELNP/2010

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2009726234

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20107016392

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2010130664

Country of ref document: RU