WO1999037028A1 - Codage d'onde vibratoire et procede - Google Patents

Codage d'onde vibratoire et procede Download PDF

Info

Publication number
WO1999037028A1
WO1999037028A1 PCT/JP1998/000418 JP9800418W WO9937028A1 WO 1999037028 A1 WO1999037028 A1 WO 1999037028A1 JP 9800418 W JP9800418 W JP 9800418W WO 9937028 A1 WO9937028 A1 WO 9937028A1
Authority
WO
WIPO (PCT)
Prior art keywords
code
vector data
input
data
representative vector
Prior art date
Application number
PCT/JP1998/000418
Other languages
English (en)
French (fr)
Inventor
Kineo Matsui
Munetoshi Iwakiri
Original Assignee
Kowa Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kowa Co., Ltd. filed Critical Kowa Co., Ltd.
Priority to KR10-2000-7007692A priority Critical patent/KR100478959B1/ko
Priority to EP98901084A priority patent/EP1049259B1/en
Priority to US09/600,095 priority patent/US6539356B1/en
Priority to DE69839312T priority patent/DE69839312T2/de
Publication of WO1999037028A1 publication Critical patent/WO1999037028A1/ja

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Definitions

  • the present invention relates to an encoding method and a decoding method for synthesizing and encoding other data such as text data indicating sentence damage and authentication data indicating a caller with a vibration wave such as an audio signal.
  • a plurality of N sample values of a sound waveform are not regarded as an N-dimensional vector. , which is a vector data consisting of N sample values, and which is a vector data representing a predetermined time period of the audio waveform).
  • VQ Vector Q uant i zat ion
  • the vector data as described above is sequentially input, and each time the vector data is input, a plurality of representative vectors sequentially numbered in advance. Select the representative vector data that most closely matches the vector data entered this time from the code book (code book) that stores the vector data, and indicate the number of the selected representative vector data
  • the voice is encoded in such a way that the binary data is output as a code representing the vector data input this time.
  • encoded codes are sequentially input, and each time the codes are input, the representative vector data of the number indicated by the codes is used as a codebook used for encoding.
  • the voice waveform is restored by reproducing the waveform corresponding to the code input this time from the extracted representative vector data.
  • CELP Code Excited Linear Prediction
  • ITU International Telecommunication Union
  • LD Low-delay code excitation linear predictive coding
  • LD-CELP is based on CELP and is known as a method with a small encoding processing delay despite a low bit rate.
  • CELP and LD-CELP see, for example, Reference 1 “Re commendation G.728, ITU (1992) J, Reference 2 ⁇ / J, Sawa Kazunori: Highly efficient speech codes for digital mobile communications. Encoding technology; Trikebbs Co., Ltd. (1992) J, and Reference 3 "Hiroshi Yasuda: International standard for multimedia coding; Maruzen Co., Ltd. (1991) J, etc.
  • the digital code (voice code) of voice coded by this type of coding method can be easily duplicated, and may be used secondarily without permission. For this reason, there is a problem that it is difficult to protect digital works.
  • the present invention has been made in view of such a problem, and when encoding a vibration wave such as an audio signal by vector quantization, a vibration wave capable of secretly synthesizing other data. It is an object of the present invention to provide an encoding method and a method of decoding a vibration wave capable of reliably extracting other data from a code generated by the encoding method. Disclosure of the invention
  • a number is sequentially determined in advance each time vector data representing a waveform for a predetermined time of the vibration wave is input. From the codebook that stores the attached representative vector data, select the representative vector data that is the closest to the vector data entered this time, and select the representative vector data of the selected representative vector data. Binary data indicating the number is output as a code indicating the vector data input this time.
  • the oscillating wave is encoded by the vector quantization represented by the CELP and LD-CELP described above.
  • the output code is obtained by the following procedure.
  • the other information is embedded in the information of the vibration wave by embedding the data that constitutes the other information.
  • division instruction information indicating whether each of the representative vector data stored in the codebook belongs to the first group or the second group is stored in advance in a predetermined storage unit.
  • the other binary data to be combined with the vibration wave is read, and the read binary data is set to “0”. ", The representative vector data indicated to belong to the first group by the divided instruction information stored in the storage means among the representative vector data stored in the codebook. Only the representative vector data closest to the vector data input this time is selected. If the read binary data is “1”, the representative vector stored in the codebook is selected.
  • the representative vector data indicated to belong to the second group by the division instruction information stored in the storage means is used, and the closest similarity to the vector data input this time is obtained.
  • the read binary data is combined with the code representing the vector data input this time.
  • the output code is binary data representing any number of the representative vector data belonging to the first group. If the read binary data is “1”, the output code is binary data representing any of the numbers of the representative vector data belonging to the second group.
  • the selection range of the representative vector data in the codebook is determined by the first group determined by the division instruction information according to the other binary data to be combined.
  • the binary data of other information is combined (embedded) with the code representing the input vector data.
  • the representative vector data of the number indicated by the code is extracted from the same codebook as the codebook described in claim 1, and the extracted representative vector is extracted.
  • the vibration wave is restored by reproducing the waveform corresponding to the code input this time from the torque data. That is, the vibration wave is reproduced by the decoding procedure of the encoding method using the vector quantization.
  • the same division instruction information as the division instruction information described in claim 1 is stored in a predetermined storage unit.
  • the number indicated by the code input this time is firstly represented by the division instruction information stored in the storage unit of the representative vector data stored in the codebook. If it is the number of the representative vector data indicating that it belongs to the group, it is regarded that the binary data of “0” is synthesized with the code, and the number indicated by the code input this time is If the representative vector data of the representative vector data stored in the codebook is the number of the representative vector data indicated to belong to the second group by the division instruction information stored in the storage means, the corresponding Assuming that the binary data whose code is “1” is synthesized, the other binary data is separated from the code input this time.
  • the encoding method described in claim 1 and the decoding method described in claim 5 unless the person who knows the division instruction information for dividing the representative vector data in the codebook into two groups, Other binary data cannot be extracted from the encoded code. Therefore, when encoding the vibration wave, other data
  • the combined data can be secretly extracted and the combined data can be extracted secretly t
  • the division instruction information can be divided into the number of the representative vector data belonging to the first group and the representative vector belonging to the second group If the data numbers are set so as to be randomly distributed, for example, even if binary data that is “0” is synthesized for all codes, the The possibility of third parties noticing that the numbers are not biased and that other data is embedded can be extremely low.
  • a change condition determination process is performed to determine whether or not the bit sequence of the code is in a predetermined arrangement pattern, and an affirmative determination is made by the change condition determination process (that is, the previously output code). If it is determined that the bit sequence of the obtained code has a predetermined arrangement pattern), the division instruction information stored in the storage unit is changed according to a predetermined change rule.
  • the division instruction information used when combining other binary data with the code to be output next is Changes are made in accordance with predetermined change rules.
  • the output code Each time the packet sequence has a predetermined arrangement pattern, the selection range (first group and second group) of the representative vector data corresponding to the binary data to be synthesized is changed, and the encoding is performed. It is possible to prevent any characteristic from appearing in the bit value of each code. Therefore, it is possible to reduce the possibility that a third party will notice that other data has been synthesized.
  • the binary method synthesized as described above while restoring the vibration wave by the decoding method according to the sixth aspect. Data can be separated.
  • the vibration wave is reproduced and the other binary data is separated from the input code by exactly the same procedure as the decoding method according to the fifth aspect.
  • the number indicated by the code input this time indicates that among the representative vector data stored in the codebook, it belongs to the first group according to the division instruction information stored in the storage means. If it is a representative vector data number, it is considered that binary data of “0” is synthesized with the code, and the number indicated by the code input this time is represented by the representative vector stored in the codebook. If the number of the representative vector data is the number of the representative vector data indicated to belong to the second group by the division instruction information stored in the storage means, the binary data having “1” as the code is synthesized. That has been Considering this, the separation process that separates other binary data from the code input this time is performed.
  • the same change condition determination process as the change condition determination process according to claim 2 is performed on the code input last time.
  • the change condition determination processing that is, when it is determined that the bit sequence of the previously input code is a predetermined arrangement pattern
  • the division instruction information to be stored in the storage unit is stored. Same as the change rule described in claim 2 W
  • the division instruction information can be changed in exactly the same way as the encoding method described in claim 2, and as a result, the encoding method described in claim 2 can be performed.
  • Other binary data can be reliably extracted from the code generated by the method.
  • the vibration wave is encoded by vector quantization, similar to the encoding method according to claim 1, but when the encoding is performed, The following procedure combines other data with the output code.
  • division instruction information indicating to which of the first group and the second group each of the representative vector data stored in the codebook belongs. However, it is stored in a predetermined storage means in advance.
  • the bit sequence of the previously output code has a predetermined arrangement pattern. Judgment is performed. A synthesis condition judgment process is performed.
  • a code for embedding other binary data can be irregularly determined, and the combined data can be decoded by a third party. Performance can be reduced. In other words, a third party who does not know the determination content of the synthesis condition determination process cannot specify which code is combined with other binary data.
  • an oscillating wave is reproduced according to a decoding procedure of an encoding method using vector quantization.
  • the same division instruction information as the division instruction information described in claim 3 is stored in a predetermined storage unit.
  • the decoding condition determination according to claim 3 is performed on the code input last time.
  • the representative number indicated by the code input this time indicates that the representative belongs to the first group by the divided instruction information stored in the storage means. If it is a vector data number, it is considered that binary data with "0" is synthesized with the code, and the number indicated by the code input this time is the representative vector stored in the codebook.
  • the data is the number of representative vector data indicating that it belongs to the second group according to the division instruction information stored in the storage means, the binary data whose code is “1” Is regarded as being synthesized, and the other binary data is separated from the code inputted this time.
  • the encoding method most closely approximates the vector data input this time.
  • a change condition determination process is performed on the previously output code to determine whether or not the bit sequence of the code has a predetermined arrangement pattern. If an affirmative determination is made by the condition determination process (that is, if it is determined that the bit sequence of the code output last time is a predetermined arrangement pattern), the division instruction information stored in the storage unit is changed by a predetermined change. Change according to rules Change.
  • the decoding method according to claim 8 restores the oscillating wave, as described above. Value data can be separated.
  • the vibration wave is reproduced by the same procedure as the decoding method according to the seventh aspect (similar procedure).
  • the other binary data is separated from the code, and before the synthesis condition determination process is performed, the same change condition determination process as in claim 4 is performed on the previously input code, If a positive determination is made in the change condition determination process, the division instruction information stored in the storage unit is changed according to the same change rule as the change rule described in claim 4.
  • the division instruction information can be changed in exactly the same way as the encoding method according to the fourth aspect, and as a result, the code according to the fourth aspect can be changed.
  • Other binary data can be reliably extracted from the code generated by the conversion method.
  • FIG. 1 is a block diagram showing a configuration of the digital telephone according to the embodiment.
  • FIG. 2 is a block diagram showing an outline of a basic process of voice encoding and decoding performed by the encoding device and the decoding device of FIG.
  • FIG. 3 is an explanatory diagram for explaining the waveform codebook and the divided key data ki dx
  • FIG. 5 is a graph showing the appearance rate of bit ⁇ 1 ”at the bit position
  • FIG. 5 is a flowchart showing the first half of the operation of the encoding device
  • FIG. 6 is an operation of the encoding device.
  • Fig. 7 is a flowchart showing the operation of the decoding device.
  • Fig. 8 is a graph of the experimental result showing the relationship between the embedding density and SN Rseg.
  • Fig. 10 is a diagram showing the result of observing the shape of the waveform.
  • Fig. 10 is a graph showing the appearance rate of bit 1J at each bit position of the embedded speech code.
  • FIG. 1 is a block diagram illustrating a configuration of a digital telephone (hereinafter, simply referred to as a telephone) 1 according to an embodiment.
  • a digital telephone hereinafter, simply referred to as a telephone
  • the present embodiment uses the above-mentioned 16-kbit Zs LD-CELP method of ITU-T recommendation G.728 (hereinafter simply referred to as G.728 LD-CELP) to code the audio waveform.
  • G.728 LD-CELP ITU-T recommendation
  • the present invention is applied to a portable digital telephone that performs encryption and decryption.
  • the other telephones 3 are telephones that are all configured in the same manner as the telephone 1 shown in FIG. 1 as indicated by a reference number in parentheses in FIG.
  • the telephone 1 of the present embodiment receives the voice and performs sampling at a predetermined time (in this embodiment, 8 kHz: 0.125 ms), thereby
  • a voice input device 5 for sequentially outputting a digital voice signal s representing an instantaneous amplitude value of a voice waveform, a plurality of input keys for inputting characters, and a text corresponding to the characters input by the input keys;
  • Character input device 7 that sequentially stores the bit sequence t X of the
  • the digital audio signal s from the input device 5 is sequentially input, the digital audio signal s is encoded by G.728 LD-CELP, and the encoded code is stored in the character input device 7.
  • Encoding unit 9 that synthesizes each bit of the bit sequence tX and outputs it as an audio code c to be transmitted, and an antenna that wirelessly modulates the audio code c output from the encoding device 9 11 and a radio signal transmitted from another telephone 3 via a central station (not shown) via the antenna 11, and the received signal is demodulated to obtain the other telephone. And a transmission / reception device 13 for outputting the voice code c ′ from 3.
  • the telephone 1 sequentially inputs the voice code c ′ from the other telephone 3 output from the transmission / reception device 13, and decodes the voice code c ′ using G.
  • a decoding device 15 that outputs a signal s ′ and extracts and outputs each bit of a bit sequence tX ′ of text data from the speech code c ′, and a data output from the decoding device 15
  • FIG. 2A is a block diagram showing an outline of processing in the encoding device 9
  • FIG. 2B is a block diagram showing an outline of processing in the decoding device 15.
  • the encoding device 9 and the decoding device 15 are actually configured with a well-known microcomputer or digital signal processor (DSP) as a main part.
  • DSP digital signal processor
  • G. 728 1_ 0— ⁇ 51_ is based on the assumption that the size of one frame is 5 samples (that is, 8 kHz This is a method that realizes low delay and reproduces high-quality sound, with five digital audio signals s obtained by sampling as one frame.
  • each frame of the digital audio signal s is encoded into an audio code c which is binary data of 10 digits (10 bits).
  • n in parentheses is an order label indicating the order of each frame of the digital audio signal s.
  • c (n) J represents a 10-bit audio code c corresponding to the n-th frame of the digital audio signal s.
  • the encoding device 9 converts the digital audio signal (hereinafter referred to as “input”) from the audio input device 5 in order to perform audio encoding according to G.728 LD-CELP.
  • S is sequentially input, and the signal s is converted into a PCM signal and output by a PCM conversion unit 2 "I, and five PCM signals sequentially output from the PCM conversion unit 21 ( That is, the five PCM signals are stored as vector data (hereinafter, referred to as VQ target vector) representing a five-dimensional vector to be vector-quantized. n)), and an excitation waveform codebook 25 for storing 102 four types of representative vector data numbered in advance from 0.
  • the excitation waveform codebook 25 is a nonvolatile memory such as a ROM provided in the encoder 9. It is composed of moly.
  • the encoding device 9 analyzes the representative vector data closest to the VQ target vector X (n) from the excitation waveform codebook 25 to a synthesis analysis (Abs: Analysis by synthesis).
  • a synthesis analysis (Abs: Analysis by synthesis).
  • the signal represented by the representative vector data selected from the excitation waveform codebook 25 is set by the rear adaptive gain setting unit 29.
  • Amplifying unit 27 that amplifies with the following backward adaptive gain ⁇ ( ⁇ ), and filtering unit 50 that filters the output of amplifying unit 27 50
  • Filter unit 31 that forms 0th-order backward adaptive linear prediction filter F ( ⁇ ) and backward
  • An adaptive predictor 33 an adder 35 that outputs the difference between the VQ target vector X ( ⁇ ) from the vector buffer 23 and the output of the filter 31, and an output of the adder 35 Filter 37, which forms an audible weighting filter W (z), and representative vector data in the excitation waveform codebook 25, which is input to the amplifier 27, is switched based on the output of the filter 37.
  • the representative vector data closest to the VQ target vector X (n) can be searched, the 10-bit binary data representing the number of the representative vector data is added to the VQ target vector.
  • a phonetic code c (n) representing the vector X (n) A search unit 39 for outputting to the transmission / reception device 13 is provided.
  • the representative vector data y (n) to be selected is selected from the excitation waveform code book 25, and the binary data representing the number of the selected representative vector data y (n) is converted to the speech code c (
  • the basic procedure of the process performed by the encoding device 9 to output as n) will be described. This procedure is described in Reference 1 mentioned above.
  • j j is the number of the waveform code y j stored in the waveform code book
  • ⁇ i is the number of the gain code g i stored in the gain code book.
  • the coding device 9 includes a 50th-order backward adaptive linear prediction filter F ( Z ), an audible weighting filter W (z), and a 10th-order backward adaptive filter in the n-th input speech vector V (n).
  • a search based on the synthesis analysis (Abs) method is performed.
  • H (z) F (z) W (z).
  • H (z) F (z) W (z).
  • D II x (n)-oxij II 2
  • Equation 3 can be expanded as Equation 4 below.
  • Equation 9 D ′ in Equation 5 becomes as shown in Equation 9 below.
  • D ' — bi-P j + ci-E j... Equation 9
  • the encoding device 9 outputs the 3-bit binary data representing the number i min of the gain code g imin and the 7-bit binary data representing the number j min of the waveform code y jmin at this time. Are concatenated in this order to form a 10-bit voice code c (n) and output the voice code c (n).
  • the decoding device 15 receives the same speech code c ′ (n) as the speech code c (n) output from the encoding device 9 of the other telephone 3, The signals are sequentially input via the antenna 11 and the transmitting / receiving device 13. Then, as shown in FIG. 2 (B), the decoding device 15 performs the decoding of the excitation waveform codebook 25 on the coding device 9 side in order to perform speech decoding using G.728 LD—CELP. It has exactly the same excitation waveform codebook 4 1.
  • the excitation waveform code book 41 is also constituted by a nonvolatile memory such as a ROM provided in the decoding device 15.
  • the decoding device 15 includes an amplification unit 4 similar to the amplification unit 27, the backward adaptive gain setting unit 29, the filter unit 31, and the backward adaptive prediction unit 33 provided in the encoding device 9. 3, backward adaptive gain setting section 45, filter section 47, and backward adaptive prediction section 49, post filter 51 for further filtering the output of filter section 47, and output of post filter 51 And an inverse PCM converter 53 that generates a digital audio signal s ′ representing the instantaneous amplitude value of the audio waveform from the signal and outputs the digital audio signal s ′ to the audio output device 17.
  • an inverse PCM converter 53 that generates a digital audio signal s ′ representing the instantaneous amplitude value of the audio waveform from the signal and outputs the digital audio signal s ′ to the audio output device 17.
  • the decoding device 15 converts the representative vector data of the number indicated by the speech code c ′ (n) into the excitation waveform codebook 4. 1, and based on the extracted representative vector data, the amplification unit 43, the backward adaptive gain setting unit 45, the filter unit 47, the backward adaptive prediction unit 49, the post filter 51, and the inverse P
  • the CM converter 53 reproduces one frame of the digital audio signal s ′ (n) corresponding to the audio code c ′ (n), and outputs it to the audio output device 17.
  • the encoding device 9 and the decoding device 15 provided in the telephones 1 and 3 of the present embodiment encode and decode speech by using G.728 LD-CELP.
  • the encoding device 9 stores the voice code c to be output and the character input device 7
  • Each bit of the bit sequence tX of the text data is synthesized, and the decoding device 15 separates and extracts the bits of the bit sequence tX 'of the text data from the input speech code c'.
  • 9 and the decryption device 15 transfer the divided key data k idx from the ROM to a RAM (not shown) as storage means for use.
  • Each of "0" and "1" are labeled.
  • the waveform code yj corresponding to the bit whose value is “0” becomes the first group, and the divided key data Among the bits of k idx, the waveform code yj corresponding to the bit whose value is ⁇ 1 j is the second group.
  • the coding apparatus 9 synthesizes the text data bit with the speech code c (n) by the following synthesis method.
  • select y jmin i.e., the waveform code yj that minimizes D 'in Equations 5 and 9 .
  • the bit of the text data is synthesized with the speech code c (n) representing the VQ target vector X (n).
  • the lower 7 bits of the output speech code c (n) (that is, j included in the speech code c (n)) are used for the waveform code yj belonging to the first group. If the bit to be synthesized is “1J”, the lower 7 bits of the output speech code c (n) belong to the second group. Represents any number of waveform code yj Data.
  • the bits of the text data are synthesized (embedded) into the speech code c (n).
  • the decoding device 15 separates and extracts the synthesized bits from the speech code c ′ (n) in which the bits of the text data have been synthesized in the manner described above by the following separation method. I do.
  • the lower 7 bits of the speech code c '(n) (that is, j included in the speech code c' (n)) have the waveform code yj of the waveform code yj indicated to belong to the first group by the divided data k idx.
  • each bit value of the divided key data k idx is set at random, for example, even if all the speech codes c (n) are combined with a bit of ⁇ 0 '', they are encoded.
  • the number indicated by the lower bits of the audio code c (n) is not completely different, and thus, the possibility of a third party noticing that other data is embedded is extremely low. Can be.
  • the text data is input from the character input device 7 every time.
  • the bit sequence tX of each bit by bit and combining the read bits into the speech code c ( ⁇ ) by the above-described combining method the bits of the text data are converted into all the speech codes c ( n) can be embedded.
  • the decoding device 15 extracts the bits of the text data from the input speech code c ′ ( ⁇ ) by the above separation method. Good.
  • the speech code c (n) for embedding the bits of the text data is irregularly limited by the method described below, and embedding is performed on any speech code c (n). Is kept secret (that is, whether the bits of the text data are combined) to a third party.
  • the speech code shown in [Table 1] below the speech code ⁇ _1, “Ew” coded by G.728 LD-CELP, the appearance of bit “1” at each bit position of the speech code As a result of examining the rate, it was as shown in Figure 4.
  • J mj indicates a male voice in Japanese (Japanese male voice)
  • JW indicates a female voice in Japanese (Japanese female voice)
  • E m indicates a male English voice (English male voice)
  • E w indicates a female English voice (English female voice).
  • the audio source of each audio shown in [Table 1] was extracted from FM radio and conversation tape for 5 seconds each. For this reason, the number of samples for each sound is 40,000. ⁇ table 1 ⁇
  • each bit value of the speech code is generally irregular because it depends on the input speech. Therefore, in the present embodiment, the speech code to be embedded is irregularly limited and the embedding density is controlled by utilizing the irregularity and the feature shown in FIG.
  • the speech code to be embedded is irregularly limited in the ROMs provided in the encoding device 9 and the decoding device 15, respectively.
  • Key data k I im for storing the key data is stored in advance, and the encoding device 9 and the decoding device 15 transfer the limited key data k I im from the ROM to the RAM for use.
  • the limit ⁇ ⁇ data k I im is a 10-digit (10-bit) binary number equal to the number of bits of the speech code c (n).
  • the encoding apparatus 9 sets the limited key data kl im before selecting the optimal representative vector data y (n + 1) for the next VQ target vector X (n + 1). From the speech code c (n) output this time, the value L is calculated by the following equation 10: This means that before selecting the most suitable representative vector data y (n) for the current VQ target vector x (n), the restriction ⁇ data kl im and the previously output speech code c ( This is the same as finding the value L from n-1). [A N D] represents a logical product.
  • L is a logical product value of the restricted ⁇ data kl im and the speech code c (n). Therefore, the bit sequence of the speech code c (n) is added to the limited ⁇ data kl im , The value of L is 0, and conversely, the speech code c ( ⁇ ) is the sequence pattern in which all bits at the same position as the position of the bit whose value is ⁇ 1 ”are“ 0 ”. Is a sequence pattern in which, in the restricted key data k I im, any bit at the same position as the position of the bit whose value is ⁇ 1 J is ⁇ 1 ”, The value of L is non-zero.
  • the encoding device 9 determines that the synthesizing condition is satisfied, and reads one bit of the bit sequence tX of the text data from the character input device 7, and The read bits are combined with the speech code to be output this time by the combining method. Conversely, if the encoding value is not 0, the encoding device 9 determines that the synthesizing condition is not satisfied, and does not read the bit of the text data from the character input device 7 and performs the normal G . 7 2 8 LD—Encodes with CELP.
  • the embedding code (that is, the speech code to be embedded) is limited by this method.
  • k l im “1111111111”.
  • kim im0100000000 J or the like. This is derived from the fact that, as shown in FIG. 4, the ninth bit from the bottom of the speech code becomes bit ⁇ 1 ”with a probability of about 0.5.
  • the embedding density can be estimated to some extent.
  • which speech code to embed is unspecified depending on the input speech.
  • the decoding device 15 obtains L in the expression 10 for the previously input speech code c ′ (n ⁇ 1), and inputs the current code only when the value of L is 0.
  • a bit of text data may be extracted from the speech code C ′ (n) obtained by the above separation method.
  • find L in Equation 10 and if the value of L is 0, use the above separation method from the speech code c' (n + 1) to be input next time. What is necessary is just to extract the bits of the text data.
  • the divided key data k idx shared by the encoding device 9 and the decoding device 15 is frequently switched by the method described below, and the third party analyzes the divided key data k idx. Is making it difficult.
  • the ROM provided in the encoding device 9 and the ROM provided in the decoding device 15 further include inverted key data k rev and the modified key data k xor
  • the encoding device 9 and the decoding device 15 transfer the inverted key data k rev and the modified ⁇ data k xor from the R • M to the RAM and use them.
  • the inverted key data k rev is a 10-digit (10-bit) binary number similarly to the restricted key data klim.
  • the change key data k xor determines the change rule of the divided ⁇ data k idx, and is a 128-digit (128 bit) binary number like the divided key data k idx.
  • r is the logical product value of the inverted key data k rev and the voice code c (n). Therefore, as in the above expression "10,” the bit sequence of the voice code c (n) is the same as the position of the bit whose value is ⁇ 1 j in the inverted key data k rev. If the sequence pattern is “0”, the value of r is 0, and conversely, the bit sequence of the voice code c (n) is the bit sequence whose value is “1” in the inverted key data k rev. If any of the bits in the same position as the position of the mouse is ⁇ 1 J, the value of r is not 0.
  • the encoding device 9 determines that a change condition for changing the divided key data k idx is satisfied, reads the current divided key data k idx from the RAM, and According to Equation 13 of the above, the bit ⁇ 0 ”and the bit“ 1 ”of the divided key data ki dx are inverted and updated in the RAM.
  • [XOR] represents a disjunctive OR.
  • k idx k idx [XOR] k xor ... Equation 1 3
  • the decoding device 15 obtains r in Expression 12 for the previously input speech code c ′ (n ⁇ 1), and if the value of r is not 0, the decoding device 15 In exactly the same way, the divided key data k idx used so far may be changed by Expression 13. In other words, for the input c '(n), find r in Equation 12 and, if the value of r is not 0, change the divided key data k idx used so far by Equation 13 The changed divided key data k idx may be used from the next time.
  • FIG. 5 is a flowchart showing the first half of the operation of the encoding device 9
  • FIG. 6 is a flowchart showing the second half of the operation of the encoding device 9.
  • FIG. 7 is a flowchart showing the operation of the decoding device 15.
  • S120 it is determined whether or not the value of L is 0. If the value of L is not 0 (S120: NO), the process proceeds to S140 as it is, If the value is 0 (S120: YES), the process proceeds to S130, where the embedding data (that is, the bit sequence tX of the text data stored in the character input device 7) is converted into a speech code. One bit t to be synthesized is extracted, and then the process proceeds to S140.
  • the embedding data that is, the bit sequence tX of the text data stored in the character input device 7
  • the value of D′ min which is the candidate for the minimum value of D ′ described above, is initialized to a maximum value assumed in advance, and in S 150, the value of ⁇ is initialized to 0. And increment the value of n by 1.
  • the nth VQ target vector x (n) to be vector-quantized this time is input, and in the next S160, the value of L is 0. Determine whether or not.
  • D ′ obtained at S 2 O 0 is smaller than the current D ′ min, and if D ′ ⁇ D ′ min, then (S 2 1 0: NO), proceed to S230 as it is, but if D ' ⁇ D'min (S210: YES), proceed to S220 and obtain D' obtained at S200 above.
  • Is set as D′ min, and i and j at the time of obtaining D ′ in S200 are set as i min and j min, respectively, and then, the process proceeds to S230.
  • step S230 determines whether j is smaller than 127 (S230: NO). If it is determined in step S230 that j is not smaller than 127 (S230: NO), the flow shifts to step S250 shown in FIG.
  • the 10-bit speech code c (n) is constructed from i min and j min as described above, and is output to the transmission / reception device 13. Then, the voice code (n) is wirelessly modulated by the transmitting / receiving device 13 and transmitted from the antenna 11.
  • S280 it is determined whether or not the value of r is 0. If the value of r is 0 (S280: YES), the process directly proceeds to S300, but the value of r is If is not 0 (S280: NO), the flow shifts to S290, changes the divided key data k idx according to the above-described expression 13, and then advances to S300. Then, in S300, it is determined whether or not the communication is completed based on the on / off state of a call switch (not shown) or the like. If the communication is not completed (S300: NO), the process returns to SI20 in FIG. If the communication has ended (S300: YES), the operation of the encoding device 9 ends.
  • the gain code g imin and the waveform code y jmin that form the representative vector data y (n) that most closely approximates the torque X ( ⁇ ) are selected from the excitation waveform code book 25, and the gain code g imin and the waveform are selected.
  • the speech code c ( n ) is constructed and output from the numbers i min and j min of the code y jmin.
  • the value of L in Equation 10 is obtained for the previously output speech code, and if ⁇ S is determined to be 0 by S120, S160, the synthesis condition is determined.
  • the bit t of the text data to be synthesized into the speech code is read out (S130), and by switching based on the determination in S170, the synthesis method described in 1> above is performed. I am trying to implement it.
  • the following equation (12) is used for the previously output speech code using S270.
  • the division method used in the next S170 is determined.
  • the data k id x is changed according to the change rule of Expression 13.
  • Each bit of text data can be secretly synthesized with 28 L DC ELP speech code.
  • the processing of S 120, S 160, and S 260 corresponds to the synthesis condition determination processing
  • the processing of 32 70 and 3280 corresponds to the change condition. This corresponds to the determination processing.
  • n the value of n is incremented by one, and at S330, the n-th speech code c '(n) is input from the transmitting / receiving device 13. Then, at S 340, i and j are extracted from the speech code c ′ (n) input at S 3 30, and at S 350, a gain code g corresponding to i and j is extracted. Then, and the waveform code yj are extracted from the excitation waveform codebook 41. Further, in the subsequent S360, the digital audio signal s '(for one frame corresponding to the audio code c' (n) input this time is obtained from the gain code gi and the waveform code yj obtained in the above S350. n) is reproduced and output to the audio output device 17.
  • step S370 it is determined whether or not the value of L is 0. If the value of L is not 0 (S370: NO), the process proceeds to S390 as it is. If the value of is 0 (S370: YES), the flow shifts to S380.
  • step S380 k idx (j) is checked using j extracted from the speech code c ′ (n) in step S340, and the value of k idx (j) is further converted to a text data file. And then proceed to S390.
  • the bits stored in S380 are sequentially output to the display device 19, and the display device 19 reproduces and displays characters from the bit sequence.
  • the speech code c ′ (n) input at S 3 30 From the restricted key data k I im, L is obtained by the above-described equation 10 and then in S 400, the speech code c ′ ( ⁇ ) input in S 330 and the inverted key data k re V are obtained. Then, r is obtained from the above equation (12).
  • S410 it is determined whether or not the value of r is 0. If the value of r is 0 (S410: YES), the process directly proceeds to S430. If the value of r is not 0 (S410: NO), the flow shifts to S420, and the divided key data kidx is changed according to the above-described equation 13, and then S430 Proceed to. Then, in S430, it is determined whether or not the communication is to be terminated based on the on / off state of a call switch (not shown). If not, the communication is not terminated (S430: NO), and the process proceeds to S320. If the communication is terminated (S430: YES), the operation of the decoding device 15 is terminated.
  • the speech code c ′ (n) generated by the encoding device 9 of the other telephone set 3 is sequentially input by S 3 0 2 to S 3 6 0, and G. 7 2 8
  • the audio signal is reproduced by decoding LD-CELP.In S390, the value of L in Equation 10 is obtained for the audio code that has already been input.
  • the voice code is input as the voice code c ′ (n)
  • the data k idx is changed according to the change rule of Expression 13.
  • each bit of the text data combined with the audio code is reproduced. Can be reliably extracted.
  • the processing of S370 and S390 corresponds to the synthesis condition determination processing
  • the processing of S400 and S410 corresponds to the changing condition. This corresponds to the determination processing.
  • the processing of S380 corresponds to the separation processing
  • the processing of S420 corresponds to the change processing.
  • the caller who is the user communicates with both the voice and the sentence. Will be able to do it.
  • the most basic objective sound quality evaluation scale is the signal-to-quantization noise ratio (SNR).
  • SNR signal-to-quantization noise ratio
  • SNR seg segmental SNR
  • N f represents the number of frames in the measurement section
  • SNR f is SNR in f frames.
  • the length of one frame was set to 32 ms.
  • Fig. 8 shows the results of an experiment using the four types of voices in [Table 1] and the key K described above.
  • FIG 8 shows the relationship between the temporal embedding density and SN RSEG, [Table 1] "Em” of “E wJ,” J m “, also of a is shown for each voice” J W ". However, the following four types of restricted key data kl im were used.
  • k I im ⁇ 044 ⁇ , ⁇ 004 ⁇ , ⁇ 020 ⁇ , ⁇ 000 ⁇
  • Fig. 9 shows the results of extracting a part of the reproduced voice waveform and observing the waveform shape.
  • Fig. 9 (a) shows the input audio waveform
  • Fig. 9 (b) shows the reproduced audio waveform without embedding
  • Fig. 9 (c) shows a large amount of embedding
  • 4 shows a reproduced voice waveform that has been applied.
  • these waveforms are the part of the pronunciation "think" in ⁇ E mj in [Table 1], which is a speech section of about 0.2 seconds.
  • the speech code speech data normally transmitted using the method of the present embodiment is only the speech code with the embedding. Therefore, even if the voice code is illegally stolen by a third party, it cannot be compared with the waveform without embedding, so it will be difficult to detect the presence or absence of embedding from the waveform shape of the reproduced voice. .
  • the average opinion value was determined by subjectively evaluating each reproduced voice by eight healthy hearing people in their late 20s.
  • evaluation sound for each experiment voice of [Table 1], prepared and playback voice with a write only filled with the embedded-free playback voice, subjects were evaluated in comparison to hear any number of times (and thus, playback voice If there is a difference in the sound quality of the sound, there should be a large difference in the evaluation values.
  • the encoding device 9 of the above-described embodiment is different from S 120 and FIG. If the processing of S160 and the processing of S260 in FIG. 6 are not performed and the processing of S130 in FIG. 5 is always performed before S140, all Bits of text data can be embedded in the voice code c ( ⁇ ).
  • the decoding device 15 does not perform the processing of S370 and S390 in FIG. 7 and always performs the processing of S380 following S360. What should I do?
  • the encoding device 9 performs the processing of S270 to S290 in FIG. It is sufficient that the decoding is not performed and the decoding device 15 does not perform the processing of S400 to S420 in FIG.
  • the encoding device 9 and the decoding device 15 of the above-described embodiment perform speech encoding / decoding by G.728-LD-CELP.
  • the encoding device 9 and the decoding device 15 use vector quantization. The same method can be applied to this coding method.
  • the voice code c generated by the encoding device 9 is immediately radio-modulated and transmitted. May be stored in a predetermined recording medium.
  • the audio code c may be sequentially read from the recording medium and re-decoded by the decoding device 15.
  • the encoding device 9 and the decoding device 15 of the above embodiment encode and decode speech, but generate vibration waves other than speech such as analog signals output from sensors and measuring instruments. Encoding and decoding may be performed. Specifically, a digital signal obtained by sampling the analog signal at predetermined time intervals is replaced with the input audio signal s, and the encoding device 9 Should be entered.

Description

明細書 振動波の符号化方法及び復号化方法 技術分野
本発明は、 音声信号等の振動波に文害を表すテキス 卜データや通話者 を示す認証データ等の他のデータを合成して符号化するための符号化方 法及び復号化方法に関する。 背景技術
従来より、 振動波の一つである音声を伝送又は蓄積するための符号化 技術として、 音声波形の複数 N個のサンプル値を N次元のべク トルと見 なし、 そのべク トル (詳しくは、 N個のサンプル値からなるべク 卜ルデ ータであって、 延いては、 音声波形の所定時間分の波形を表すベク トル データ) を 1 つの符号に符号化する、 べク トル量子化 ( V Q : Vector Q uant i zat i on ) を用いたものがある。
そして、 このベク トル量子化を用いた符号化方式では、 上記のような ベク トルデータを順次入力し、 そのベク トルデータを入力する毎に、 予 め順次番号が付された複数の代表べク トルデータを記億するコードブッ ク (符号帳) の中から、 今回入力したべク トルデータに最も近似する代 表べク トルデータを選択して、 その選択した代表べク トルデータの番号 を表す 2進データを、 今回入力したべク トルデータを表す符号として出 力する、 といった手順で音声を符号化する。
また、 音声を再生する際には、 符号化された符号を順次入力し、 その 符号を入力する毎に、 その符号が示す番号の代表ベク トルデータを、 符 号化の際に用いたコードブックと同じコードブックの中から抽出すると 共に、 その抽出した代表ベク トルデータから、 今回入力した符号に対応 する波形を再生することにより、 音声波形を復元する。
そして、 このようなべク トル量子化を用いた符号化方式の代表的なも のと しては、 符号励振線形予測符号化 (C E L P : Code Excited Linea r Prediction) や、 I T U (国際電気通信連合) — T勧告 G . 7 2 8の 1 6 k b i t Z s低遅延符号励振線形予測符号化 ( L D— C E L P : Lo w Delay- GELP) 等がある。
尚、 上記 L D— C E L Pは、 C E L Pを原理とするものであり、 低ビ ッ トレートにも関わらず符号化処理遅延の少ない方法として知られてい る。 また、 C E L Pや L D— C E L Pについては、 例えば、 文献 1 「Re commendation G.728, ITU (1992) J 、 文献 2 Γ /J、澤一範著 : ディジタ レ移 動通信のための高能率音声符号化技術 ; 株式会社卜リケッブス(1992) J , 及び文献 3 「安田 浩著 : マルチメディア符号化の国際標準 ; 丸善株式 会社(1991)J 等に詳しく記載されている。
ところで、 この種の符号化方式によって符号化された音声のデジタル 符号 (音声符号) は、 容易に複製することができるため、 無断で 2次利 用される恐れがある。 このため、 デジタル化した著作物の保護が難しい という問題がある。
そこで近年、 こう した問題の対策と して、 電子透かしの適用が検討さ れている。 つまり、 音声符号の中に、 通話者を示す認証データ等の他の データを密かに合成して埋込むのである。
しかしながら、 前述のべク トル量子化によって符号化される音声符号 へ他のデータを密かに合成する (埋め込む) ことのできる好適な方法は 考えられていなかった。 また、 ただ単に他のデータを合成したのでは、 合成した他のデータを第 3者に容易に解読されてしまう可能性が高くな つてしまう。 そして、 このことから、 例えばセンサや計測器等から出力されるアナ 口グ信号といった音声信号以外の振動波をべク トル量子化によって符号 化する際に、 その符号へ利用者を示す認証データや文書を表すテキス ト データ等の他のデータを合成する、 といった電子透かしを行うことがで きなかった。
本発明は、 こう した問題に鑑みなされたものであり、 音声信号等の振 動波をべク トル量子化によって符号化する際に、 他のデータを密かに合 成することのできる振動波の符号化方法と、 その符号化方法によリ生成 された符号から他のデータを確実に取り出すことのできる振動波の復号 化方法とを提供することを目的としている。 発明の開示
上記目的を達成するためになされた本発明の請求項 1 に記載の振動波 の符号化方法では、 振動波の所定時間分の波形を表すべク トルデータを 入力する毎に、 予め順次番号が付された複数の代表べク トルデータを記 憶するコードブックの中から、 今回入力したべク トルデータに最も近似 する代表べク トルデータを選択して、 その選択した代表べク トルデータ の番号を表す 2進データを、 今回入力したべク トルデータを表す符号と して出力する。
つまり、 前述した C E L Pや L D— C E L Pに代表されるべク トル量 子化により振動波を符号化するのであるが、 その符号化を行う際に、 以 下の手順によリ、 出力される符号に他の情報を構成するデータを埋め込 んで、 振動波の情報に他の情報を合成する。
まず、 コードブックに記憶された代表ベク トルデータの各々が第 1 グ ループと第 2グループとの何れに所属するかを示す分割指示情報を、 予 め所定の記憶手段に記憶させておく。 そして、 今回入力したべク トルデータに最も近似する代表べク トルデ ータの選択を行う前に、 振動波に合成すべき他の二値データを読み出し て、 その読み出した二値データが 「0」 である場合には、 コードブック に記憶された代表べク トルデータのうち、 記憶手段に記憶された分割指 示情報によリ第 1 グループに所属していると示される代表べク トルデー タのみから、 今回入力したべク トルデータに最も近似する代表べク トル データを選択し、 また、 前記読み出した二値データが 「 1 」 である場合 には、 コードブックに記憶された代表ベク トルデータのうち、 記憶手段 に記憶された分割指示情報によリ第 2グループに所属していると示され る代表べク トルデータのみから、 今回入力したべク トルデータに最も近 似する代表べク トルデータを選択することにより、 今回入力したべク 卜 ルデータを表す符号に前記読み出した二値データを合成する。
このため、 読み出した二値データが 「0」 である場合には、 出力され る符号が、 第 1 グループに所属する代表べク トルデータの何れかの番号 を表す 2進データとなり、 逆に、 読み出した二値データが 「 1 」 である 場合には、 出力される符号が、 第 2グループに所属する代表ベク トルデ ータの何れかの番号を表す 2進データとなる。
つまり、 本発明の振動波の符号化方法では、 合成すべき他の二値デー タに応じて、 コードブック中における代表べク トルデータの選択範囲を, 分割指示情報によって決定される第 1 グループと第 2グループとに切リ 替えることで、 入力したべク トルデータを表す符号に他の情報のニ値デ ータを合成する (埋め込む) ようにしている。
一方、 このような請求項 1 に記載の符号化方法により生成された符号 からは、 本発明の請求項 5に記載の復号化方法によって、 振動波を復元 しつつ前述の如く合成された二値データを分離することができる。
まず、 本発明の請求項 5に記載の復号化方法では、 上記の符号化方法 によリ生成された符号を順次入力する毎に、 その符号が示す番号の代表 べク トルデータを請求項 1 に記載のコードブックと同じコードブックの 中から抽出すると共に、 その抽出した代表ベク トルデータから、 今回入 力した符号に対応する波形を再生することにより、 振動波を復元する。 つまり、 ベク トル量子化を用いた符号化方式の復号化手順によって、 振 動波を再生する。
ここで特に、 請求項 5に記載の復号化方法では、 まず、 請求項 1 に記 載の分割指示情報と同じ分割指示情報を、 所定の記憶手段に記憶させて おく。
そして、 上記のような復号化を行う際に、 今回入力した符号の示す番 号が、 コードブックに記憶された代表ベク トルデータのうち、 記憶手段 に記憶された分割指示情報によリ第 1 グループに所属していると示され る代表べク トルデータの番号であれば、 当該符号に 「0」 であるニ値デ ータが合成されていると見なし、 今回入力した符号の示す番号が、 コー ドブックに記憶された代表べク トルデータのうち、 記憶手段に記憶され た分割指示情報によリ第 2グループに所属していると示される代表べク トルデータの番号であれば、 当該符号に 「 1 」 である二値データが合成 されていると見なして、 今回入力した符号から他の二値データを分離す る。
よって、 このような請求項 5に記載の復号化方法によれば、 請求項 1 に記載の符号化方法によリ生成された符号から、 振動波を再生しつつ他 のデータを確実に抽出することができる。
そして、 請求項 1 に記載の符号化方法と請求項 5に記載の復号化方法 によれば、 コー ドブック中の代表ベク トルデータを 2つのグループに分 ける分割指示情報を知る者でなければ、 符号化された符号から他の二値 データを抽出できない。 よって、 振動波を符号化する際に他のデータを 密かに合成して、 その合成されたデータを密かに抽出することができる t また、 分割指示情報を、 第 1 グループに所属する代表ベク トルデータ の番号と第 2グループに所属する代表べク トルデータの番号とがランダ ムに分散するように設定しておけば、 例えば仮に、 全ての符号に対して 「0」 である二値データを合成したと しても、 符号化された符号の示す 番号が偏ってしまわず、 他のデータが埋め込まれていることを第 3者に 気付かれる可能性を、 極めて低くすることができる。
しかも、 請求項 1 に記載の符号化方法によれば、 振動波の再生を行う 際に特別な処理が不要であるという大きな利点がある。
ところで、 請求項 1 に記載の符号化方法において、 同じ分割指示情報 を長期間使用していると、 符号化した各符号のビッ 卜値に何等かの特徴 が現れて、 他のデータが合成されていることを第 3者に気付かれてしま う虞もある。
そこで、 請求項 2に記載の振動波の符号化方法では、 請求項 1 に記載 の符号化方法において、 今回入力したべク トルデータに最も近似する代 表ベク トルデータの選択を行う前に、 前回出力した符号について、 その 符号のビッ ト系列が予め定められた所定の並びパターンであるか否かを 判定する変更条件判定処理を行い、 該変更条件判定処理により肯定判定 すると (つまり、 前回出力した符号のビッ ト系列が所定の並びパターン であると判定すると) 、 記憶手段に記憶させる分割指示情報を、 予め定 められた変更規則に従い変更する。
換言すれば、 今回出力した符号のビッ ト系列が予め定められた所定の 並びパターンであったならば、 次に出力する符号に他の二値データを合 成する際に用いる分割指示情報を、 予め定められた変更規則に従って変 更するようにしている。
このため、 請求項 2に記載の符号化方法によれば、 出力した符号のビ ッ ト系列が所定の並びパターンとなる毎に、 合成すべき二値データに応 じた代表べク トルデータの選択範囲 (第 1 グループと第 2グループ) が 変更されることとなり、 符号化した各符号のビッ ト値に何等かの特徴が 現れてしまうことを防ぐことができる。 よって、 他のデータが合成され ていることを第 3者に気付かれてしまう可能性を低減することができる。 一方、 このような請求項 2に記載の符号化方法によリ生成された符号 からは、 請求項 6に記載の復号化方法によって、 振動波を復元しつつ前 述の如く合成された二値データを分離することができる。
まず、 請求項 6に記載の復号化方法では、 請求項 5に記載の復号化方 法と全く同様の手順によって、 振動波を再生すると共に、 入力した符号 から他の二値データを分離する処理 (即ち、 今回入力した符号の示す番 号が、 コードブックに記憶された代表べク トルデータのうち、 記憶手段 に記憶された分割指示情報によリ第 1 グループに所属していると示され る代表ベク トルデータの番号であれば、 当該符号に 「0」 であるニ値デ ータが合成されていると見なし、 今回入力した符号の示す番号が、 コー ドブックに記憶された代表べク トルデータのうち、 記憶手段に記憶され た分割指示情報により第 2グループに所属していると示される代表べク トルデータの番号であれば、 当該符号に 「 1 」 である二値データが合成 されていると見なして、 今回入力した符号から他の二値データを分離す る分離処理) を行う。
そして特に、 請求項 6に記載の復号化方法では、 今回入力した符号に ついて前記分離処理を行う前に、 前回入力した符号について請求項 2に 記載の変更条件判定処理と同じ変更条件判定処理を行い、 その変更条件 判定処理により肯定判定した場合 (つまり、 前回入力した符号のビッ ト 系列が予め定められた所定の並びパターンであると判定した場合) に、 記憶手段に記憶させる分割指示情報を請求項 2に記載の変更規則と同じ W
変更規則に従い変更する変更処理を行う。
このような請求項 6に記載の復号化方法によれば、 請求項 2に記載の 符号化方法と全く同様に分割指示情報を変更することができ、 その結果、 請求項 2に記載の符号化方法によリ生成された符号から、 他の二値デー タを確実に抽出することができる。
ところで、 合成したデータが第 3者によって解読されてしまう可能性 を考えた場合、 全ての符号に対して他の二値データを埋め込むようにす ると不利な面もある。
そこで、 請求項 3に記載の符号化方法では、 請求項 1 に記載の符号化 方法と同様に、 べク トル量子化によって振動波を符号化するのであるが、 その符号化を行う際に、 以下の手順により、 出力される符号に他のデー タを合成する。
まず、 請求項 1 に記載の符号化方法と同様に、 コードブックに記憶さ れた代表べク トルデータの各々が第 1 グループと第 2グループとの何れ に所属するかを示す分割指示情報を、 予め所定の記憶手段に記億させて おく。
そして特に、 今回入力したべク トルデータに最も近似する代表べク 卜 ルデータの選択を行う前に、 前回出力した符号について、 その符号のビ ッ 卜系列が予め定められた所定の並びパターンであるか否かを判定する 合成条件判定処理を行う。
そして、 その合成条件判定処理により肯定判定した場合 (つまり、 前 回出力した符号のビッ ト系列が予め定められた所定の並びパターンであ ると判定した場合) にだけ、 請求項 1 に記載の符号化方法と同様に、 振 動波に合成すべき他の二値データを読み出して、 その読み出したニ値デ ータが 「0」 である場合には、 コードブックに記憶された代表べク トル データのうち、 記憶手段に記憶された分割指示情報により第 1 グループ に所属していると示される代表べク トルデータのみから、 今回入力した べク トルデータに最も近似する代表べク トルデータを選択し、 また、 前 記読み出した二値データが Γ 1 j である場合には、 コードブックに記億 された代表べク トルデータのうち、 記憶手段に記憶された分割指示情報 により第 2グループに所属していると示される代表べク トルデータのみ から、 今回入力したべク トルデータに最も近似する代表べク トルデータ を選択することにより、 今回入力したべク トルデータを表す符号に前記 読み出した二値データを合成する。
換言すれば、 請求項 3に記載の符号化方法では、 今回出力した符号の ビッ ト系列が予め定められた所定の並びパターンであった場合にのみ、 次に出力する符号に対して他の二値データの埋め込みを施すようにして いる。
そして、 このような請求項 3に記載の符号化方法によれば、 他の二値 データを埋め込む符号を不規則に眼定することができ、 合成したデータ が第 3者によって解読されてしまう可能性を低減することができる。 つ まり、 合成条件判定処理の判定内容を知らない第 3者は、 どの符号に他 の二値データが合成されているのかを特定することができないからであ る。
一方、 このような請求項 3に記載の符号化方法によリ生成された符号 からは、 請求項 7に記載の復号化方法によって、 振動波を復元しつつ前 述の如く合成された二値データを分離することができる。
まず、 請求項 7に記載の復号化方法では、 請求項 5に記載の復号化方 法と同様に、 べク トル量子化を用いた符号化方式の復号化手順によって, 振動波を再生する。 また、 請求項 7に記載の復号化方法においても、 請 求項 3に記載の分割指示情報と同じ分割指示情報を、 所定の記憶手段に 記億させておく。 そして特に、 請求項 7に記載の復号化方法では、 請求項 3に記載の符 号化方法によって生成された符号を入力した際に、 前回入力した符号に ついて請求項 3に記載の合成条件判定処理と同じ合成条件判定処理を行 そして、 その合成条件判定処理により肯定判定した場合 (つまり、 前 回入力した符号のビッ ト系列が予め定められた所定の並びパターンであ ると判定した場合) に、 今回入力した符号の示す番号が、 コードブック に記憶された代表べク トルデータのうち、 記憶手段に記憶された分割指 示情報によリ第 1 グループに所属していると示される代表べク トルデー タの番号であれば、 当該符号に 「0」 である二値データが合成されてい ると見なし、 今回入力した符号の示す番号が、 コードブックに記憶され た代表べク トルデータのうち、 記憶手段に記憶された分割指示情報によ リ第 2グループに所属していると示される代表べク トルデータの番号で あれば、 当該符号に 「 1 」 である二値データが合成されていると見なし て、 今回入力した符号から前記他の二値データを分離する。
このような請求項 7に記載の復号化方法によれば、 請求項 3に記載の 符号化方法によリ生成された符号から、 振動波を再生しつつ他のデータ を確実に抽出することができる。
次に、 請求項 4に記載の符号化方法では、 請求項 3に記載の符号化方 法において、 請求項 2に記載の符号化方法と同様に、 今回入力したべク トルデータに最も近似する代表べク トルデータの選択を行う前に、 前回 出力した符号について、 その符号のビッ 卜系列が予め定められた所定の 並びパターンであるか否かを判定する変更条件判定処理を行い、 該変更 条件判定処理により肯定判定すると (つまり、 前回出力した符号のビッ ト系列が予め定められた所定の並びパターンであると判定すると) 、 記 憶手段に記憶させる分割指示情報を、 予め定められた変更規則に従い変 更する。
このため、 請求項 4に記載の符号化方法によれば、 請求項 2に記載の 符号化方法と同様に、 符号化した各符号のビッ 卜値に何等かの特徴が現 れてしまうことを防ぐことができ、 他のデータが合成されていることを 第 3者に気付かれてしまう可能性を更に低減することができる。
また、 このような請求項 4に記載の符号化方法によリ生成された符号 からは、 請求項 8に記載の復号化方法によって、 振動波を復元しつつ前 述の如〈合成された二値データを分離することができる。
まず、 請求項 8に記載の復号化方法では、 請求項 7に記載の復号化方 法と全〈同様の手順によって、 振動波を再生すると共に、 合成条件判定 処理により肯定判定すると、 今回入力した符号から他の二値データを分 離するが、 更に、 合成条件判定処理を行う前に、 前回入力した符号につ いて請求項 4に記載の変更条件判定処理と同じ変更条件判定処理を行い, その変更条件判定処理により肯定判定した場合に、 記憶手段に記憶させ る分割指示情報を請求項 4に記載の変更規則と同じ変更規則に従って変 更する。
そして、 この請求項 8に記載の復号化方法によれば、 請求項 4に記載 の符号化方法と全く同様に分割指示情報を変更することができ、 その結 果、 請求項 4に記載の符号化方法により生成された符号から、 他の二値 データを確実に抽出することができる。 図面の簡単な説明
図 1 は実施形態のデジタル電話機の構成を表すプロック図であり、 図 2は図 1 の符号化装置と復号化装置で行われる音声の符号化及び復号化 の基本的な処理概要を表すブロック図であり、 図 3は波形コードブック と分割鍵データ k i dx を説明する説明図であり、 図 4は音声符号の各ビ ッ ト位置におけるビッ ト Γ 1 」 の出現率を表すグラフであり、 図 5は符 号化装置の動作内容の前半部を表すフローチャー トであり、 図 6は、 符 号化装置の動作内容の後半部を表すフローチヤ一卜であり、 図 7は復号 化装置の動作内容を表すフローチヤ一トであり、 図 8埋め込み密度と S N Rseg との関係を表す実験結果のグラフであり、 図 9音声波形の形状 を観察した結果を表す図であり、 図 1 0は埋め込みを施した音声符号の 各ビッ 卜位置におけるビッ ト Γ 1 J の出現率を表すグラフである。 発明を実施するための最良の形態
以下、 本発明の実施形態について図面を用いて説明する。 尚、 本発明 の実施形態は、 下記のものに何ら限定されることなく、 本発明の技術的 範囲に属する限り、 種々の形態を採り得ることは言うまでもない。
まず図 1 は、 実施形態のデジタル電話機 (以下、 単に、 電話機という) 1 の構成を表すブロック図である。 尚、 本実施形態は、 前述した I T U — T勧告 G. 7 2 8の 1 6 k b i t Z s L D— C E L P方式 (以下、 単 に、 G. 7 2 8 L D— C E L Pという) により、 音声波形の符号化及び 復号化を行う携帯型のデジタル電話機に本発明を適用したものである。 また、 以下の説明において、 他の電話機 3とは、 図 1 にて () 内に符号 を付しているように、 図 1 に示す電話機 1 と全〈同様に構成された電話 機である。
図 1 に示すように、 本実施形態の電話機 1 は、 音声を入力して所定時 間毎 (本実施形態では、 8 k H z : 0. 1 2 5 m s毎) にサンプリング することにより、 その音声波形の瞬時振幅値を表すデジタル音声信号 s を順次出力する音声入力装置 5と、 文字を入力するための多数の入力キ 一を有すると共に、 その入力キーによって入力された文字に対応するテ キス トデータのビッ ト系列 t Xを順次記憶する文字入力装置 7と、 音声 入力装置 5からのデジタル音声信号 sを順次入力して、 そのデジタル音 声信号 sを G. 7 2 8 L D— C E L Pにより符号化すると共に、 その符 号化する符号に文字入力装置 7に記憶されたビッ ト系列 t Xの各ビッ 卜 を合成して、 伝送すべき音声符号 c と して出力する符号化装置 9と、 符 号化装置 9から出力される音声符号 cを無線変調してアンテナ 1 1 から 送信すると共に、 他の電話機 3から図示されない中維局を経由して送信 されて来た無線信号をアンテナ 1 1 を介して受信し、 その受信信号を復 調して上記他の電話機 3からの音声符号 c ' を出力する送受信装置 1 3 とを備えている。
そして更に、 電話機 1 は、 送受信装置 1 3から出力される他の電話機 3からの音声符号 c ' を順次入力し、 その音声符号 c ' を G. 7 2 8 L D— C E L Pにより復号してデジタル音声信号 s ' を出力すると共に、 上記音声符号 c ' からテキス トデータのビッ ト系列 t X ' の各ビッ トを 抽出して出力する復号化装置 1 5と、 復号化装置 1 5から出力されるデ ジタル音声信号 s ' から、 音声を再生して出力する音声出力装置 1 7と, 復号化装置 1 5から出力されるビッ ト系列 t X ' から、 文字を再生して 表示する表示装置 1 9とを備えている。
ここで、 符号化装置 9と復号化装置 1 5で行われる G. 7 2 8 L D - C Eし Pによる音声の符号化及び復号化の基本的な処理概要について、 図 2を参照して説明する。 尚、 図 2 (A) は、 符号化装置 9での処理概 要を表すブロック図であり、 図 2 (B) は、 復号化装置 1 5での処理概 要を表すブロック図である。 但し、 符号化装置 9と復号化装置 1 5は、 実際には、 周知のマイクロコンピュータやデジタル信号プロセッサ (D S P) を主要部と して構成されている。
まず、 G. 7 2 8 1_ 0—〇 51_ は、 前述の文献 1 に記載されている ように、 1 フレームの大きさを 5サンプルと して (つまり、 8 k H zの サンプリングで得られるデジタル音声信号 sの 5個ずつを 1 フレームと して) 低遅延化を実現すると共に、 高音質の音声を再生できる方式であ る。 そして、 G. 7 2 8 L D— C E L Pでは、 デジタル音声信号 sの各 フレームを 1 0桁 ( 1 0ビッ 卜) の 2進データである音声符号 cに符号 化する。
尚、 以下の説明において、 ()内の nは、 デジタル音声信号 sの各フレ ー厶の順番を示す順序ラベルである。 よって、 例えば 「 c (n ) J は、 デ ジタル音声信号 sの n番目のフレームに対応した 1 0ビッ 卜の音声符号 cを表している。
そして、 図 2 (A) に示すように、 符号化装置 9は、 G. 7 2 8 L D 一 C E L Pによる音声の符号化を行うために、 音声入力装置 5からのデ ジタル音声信号 (以下、 入力音声信号ともいう) sを順次入力し、 その 信号 sを P C M信号に変換して出力する P C M変換部 2 "I と、 P C M変 換部 2 1 から順次出力される P CM信号を 5個ずつ (つまり、 1 フレー 厶分ずつ) 記憶して、 その 5個の P C M信号を、 ベク トル量子化対象の 5次元のベク トルを表すベク トルデータ (以下、 V Qターゲッ トべク 卜 ルという) X (n )と して出力するベク トルバッファ 23と、 予め 0番か ら順に番号が付された 1 02 4種類の代表べク トルデータを記憶する励 振波形コードブック 2 5とを備えている。 尚、 励振波形コードブック 2 5は、 符号化装置 9に備えられた R OM等の不揮発性メモリによって構 成されている。
そして更に、 符号化装置 9は、 励振波形コードブック 2 5の中から V Qターゲッ 卜べク トル X (n )に最も近似する代表べク トルデータを、 合 成分析 ( A b s : Analysis by synthesis ) の手法に基づき探索して選 択するために、 励振波形コードブック 2 5から選択された代表ベク トル データが表す信号を、 後方適応ゲイン設定部 2 9により設定される 1 0 次の後方適応ゲイン σ (η )で増幅する増幅部 2 7 と、 増幅部 2 7の出力 をフィルタ リングする 5 0次の後方適応線形予測フィルタ F (ζ )を形成 するフィルタ部 3 1 及び後方適応予測部 3 3と、 べク トルバッファ 2 3 からの V Qターゲッ トべク トル X (η )とフィルタ部 3 1 の出力との差分 を出力する加算器 3 5と、 加算器 3 5の出力をフィルタ リングする聴感 的重み付けフィルタ W(z )を成すフィルタ部 3 7 と、 増幅部 2 7へ入力 させる励振波形コードブック 2 5中の代表べク トルデータをフィルタ部 3 7の出力に基づき切り替えると共に、 V Qターゲッ トべク トル X (n ) に最も近似する代表べク トルデータを探索できたときに、 その代表べク トルデータの番号を表す 1 0ビッ 卜の 2進データを、 V Qターゲッ 卜べ ク トル X (n )を表す音声符号 c ( n )として送受信装置 1 3へ出力する探 索部 3 9とを備えている。
次に、 n番目の入力音声ベク トル V (n ) (つまり、 n番目のフレーム を成す 5個 1 組の入力音声信号 s ) から得られる V Qターゲッ トべク ト ル x (n )に最も近似する代表べク トルデータ y (n )を励振波形コードブ ック 2 5の中から選択して、 その選択した代表べク トルデータ y (n )の 番号を表す 2進データを、 音声符号 c (n )と して出力するために、 符号 化装置 9で行われる処理の基本的な手順について説明する。 尚、 この手 順については、 前述の文献 1 に記載されている。
まず、 本実施形態では、 I T U— T勧告 G. 7 2 8に従い、 代表べク トルデータ y (n )の選択を容易化するために、 励振波形コードブック 2 5を、 波形を表す 1 2 8種類の代表べク トルデータ (以下、 波形コード という) y j ; j = 0 , 1 , -, 1 2 7を記憶する波形コードブック
(図 3参照) と、 波形の極性とスカラー値を表す 8種類の代表ベク トル データ (以下、 ゲインコードという) g i ; i = 0 , 1 , -, 7を記憶 するゲインコードブックとの、 2つの独立したコードブックに分割して いる。
尚、 「 j j は、 波形コードブックに記憶された波形コード y j の番号 であり、 Γ i 」 は、 ゲインコードブックに記憶されたゲインコード g i の番号である。
そして、 符号化装置 9は、 n番目の入力音声ベク トル V (n)における 5 0次の後方適応線形予測フィルタ F (Z ), 聴感的重み付けフィルタ W ( z ), 及び 1 0次の後方適応ゲイン σ (n )を用いて、 合成分析 (A b s ) の手法に基づく探索を行う。
つまり、 まず、 後方適応線形予測フィルタ F (Z )と聴感的重み付けフ ィルタ W(z )から成るフィ ノレタ H (z )を、 H (z )= F (z )W(z )と して、 そのイ ンパルス応答系列 h (k ) ; k = 0, 1 , ···, 4からなる行列を、 下記の式 1 に示す Hとすると、 フィルタ部 3 1 の出力 o X i jは、 下記の 式 2のようになる。
h ( 0 ) 0 0 0 0
h ( 1 ) h ( 0 ) 0 0 0
H = h ( 2 ) h ( 1 ) h ( 0 ) 0 0 -式 1
h ( 3 ) h ( 2 ) h ( 1 ) h ( 0 ) 0
h ( 4 ) h ( 3 ) h ( 2 ) h ( 1 ) h ( 0 )
o x ij= a (n) - g i ' H - y j …式 2
そして、 この o x ijを用いて、 下記の式 3に示す Dを最小化するよう な j を探索する。 但し、 式 3において、 x ' (r>) は、 χ ' ( η ) = X (η)Ζ σ (η )である。 D = II x (n ) - o x i j II 2
= cr2(n) || x ' (n)- g i - H - y j || 2 …式 3
ここで、 この式 3は、 下記の式 4のように展開することができる。
D = σ2(η ) [ || x ' (n ) || 2- 2 - g i- x ' T(n ) -H - y j
+ g i2 II H · y j II 2] …式 4
このとき、 II x ' (n ) II 2と σ 2(n ) の値は、 最適な代表ベク トルデー タ y (n )を探索するあいだ一定であるため、 Dを最小にすることは、 下 記の式 5に示す D' を最小にすることと等しい。
D =— 2 · g I■ p ( n ) · y j + g i - E j …式 5
但し、 p (n )は、 下記の式 6により表され、 Ej は、 下記の式 7によ リ表される。 ρ (η ) = Η τ· χ ' (η ) …式 6
E j = II H■ y j II 2 …式 7
この Ej は、 x ' (n ) に依存せずに、 式 1 の行列 Hのみに依存する。 よって、 符号化装置 9では、 I T U— T勧告 G. 7 2 8に従い、 Ej ; j = 0 , 1 , …, 1 2 7を、 フィルタ H (z )が更新されたときにのみ計 算することで、 計算量を大幅に削減している。 また、 下記の式 8により. 予め b i , c i を計算することで、 計算処理を更に簡単化している。 b i = 2■ g i , c i = g i 2 ; ί = 0 , 1 , ···, 7 …式 8
これらを用いると、 式 5の D' は、 下記の式 9のようになる。 但し、 式 9において、 P j は、 P j = p τ (n )■ y j である。 D ' =— b i - P j+ c i - E j …式 9
そして、 符号化装置 9は、 この式 9を用いて、 全ての i と j の組み合 せについて D ' を評価し、 その D ' を最小にするようなゲインコード g i (以下、 g iminと記す) と波形コード y j (以下、 y jminと記す) を 決定して、 y ( n ) = g imin y jminとすることにより、 励振波形コートブ ック 2 5中での最適な代表べク トルデータ y (n )を求める。
そして更に、 符号化装置 9は、 このときのゲインコード g iminの番号 i min を表す 3 ビッ 卜の 2進データと、 波形コー ド y jminの番号 j min を表す 7 ビッ 卜の 2進データとを、 その順に連結して、 1 0ビッ 卜の音 声符号 c (n )を構成し、 その音声符号 c (n )出力する。
一方、 復号化装置 1 5には、 伝送路でのエラーがなければ、 他の電話 機 3の符号化装置 9から出力された音声符号 c (n )と同じ音声符号 c ' (n ) が、 アンテナ 1 1 及び送受信装置 1 3を介して順次入力される。 そして、 図 2 ( B ) に示すように、 復号化装置 1 5は、 G. 7 2 8 L D— C E L Pによる音声の復号化を行うために、 符号化装置 9側の励振 波形コードブック 2 5 と全く同じ励振波形コードブック 4 1 を備えてい る。 尚、 この励振波形コー ドブック 4 1 も、 復号化装置 1 5に備えられ た R O M等の不揮発性メモリによって構成されている。
また更に、 復号化装置 1 5は、 符号化装置 9に設けられた増幅部 2 7, 後方適応ゲイン設定部 2 9 , フィルタ部 3 1 , 及び後方適応予測部 3 3 と同様の、 増幅部 4 3, 後方適応ゲイン設定部 4 5 , フィルタ部 4 7, 及び後方適応予測部 4 9と、 フィルタ部 4 7の出力を更にフィルタ リン グするポス 卜フィルタ 5 1 と、 ポス トフィルタ 5 1 の出力信号から、 音 声波形の瞬時振幅値を表すデジタル音声信号 s ' を生成して音声出力装 置 1 7へ出力する逆 P C M変換部 5 3とを備えている。 そして、 復号化装置 1 5は、 他の電話機 3からの音声符号 c ' (n) を 入力する毎に、 その音声符号 c ' (n) が示す番号の代表ベク トルデータ を励振波形コードブック 4 1 の中から抽出すると共に、 その抽出した代 表ベク トルデータに基づき、 増幅部 43, 後方適応ゲイン設定部 45, フィルタ部 47, 後方適応予測部 4 9, ポス トフィルタ 5 1 , 及び逆 P CM変換部 53により、 音声符号 c ' (n ) に対応する 1 フレーム分のデ ジタル音声信号 s ' (n ) を再生して、 音声出力装置 1 7へ出力する。 以上のように、 本実施形態の電話機 1 , 3に設けられた符号化装置 9 と復号化装置 1 5は、 G. 7 2 8 L D— C E L Pによって音声の符号化 と復号化を行うのであるが、 特に、 本実施形態の電話機 1 , 3では、 以 下の 〈 1 〉 〜 〈 3〉 に述べるように、 符号化装置 9は、 出力する音声符 号 cに、 文字入力装置 7に記憶されたテキス トデータのビッ ト系列 t X の各ビッ トを合成し、 復号化装置 1 5は、 入力した音声符号 c ' から、 テキス トデータのビッ ト系列 t X ' のビッ トを分離 ■ 抽出する。
< 1 > まず、 音声符号 cにテキス トデータのビッ トを合成するための 基本原理について説明する。
本実施形態において、 符号化装置 9と復号化装置 1 5とに夫々備えら れた ROM (図示省略) には、 前述の波形コードブックに記憶された波 形コード y j ; 〗 = 0, 1 , ···, 1 2 7の各々が第 1 グループと第 2グ ループとの何れに所属するかを示す分割指示情報と しての分割鍵データ k idx が、 予め記憶されており、 符号化装置 9と復号化装置 1 5は、 そ の分割鍵データ k idx を上記 R OMから記憶手段と しての R AM (図示 省略) へ転送して使用する。
尚、 この分割鍵データ k idx は、 図 3に示すように、 波形コードブッ クに記憶された波形コー ド y j ; j = 0, 1 , ·-·, 1 2 7の数と同じ 1 28桁 ( 1 2 8 ビッ ト) の 2進数であり、 その上位ビッ 卜から順に、 波 形コード y j ; j = 0 , 1 , …, 1 2 7の各々に対して 「0」 と 「 1 」 のラベルを付けるものである。 また、 本実施形態では、 分割鐽データ k idx の各ビッ 卜のうちで、 値が 「0」 であるビッ 卜に対応する波形コ一 ド y j が第 1 グループとなリ、 また、 分割鍵データ k idx の各ビッ トの うちで、 値が Γ 1 j であるビッ 卜に対応する波形コード y j が第 2グル ープとなる。
そして、 分割鍵データ k idx の上位ビッ トから j ビッ ト目 (即ち、 j 番目の波形コード y j に対応する分割鍵データ k idx のビッ ト値) を k idx( j ) とすると、 符号化装置 9は、 下記の合成方法により、 音声符号 c (n )にテキス トデータのビッ 卜を合成する。
[合成方法]
合成するビッ トが Γ 0 J である場合には、 k idx( j ) = Γ 0 J を満た す波形コード y j (つまり、 分割鍵データ k idx により第 1 グループに 所属していると示される波形コード y j ) のみから、 y jmin (即ち、 式 5及び式 9の D ' を最小にする波形コード y j ) を選択し、 逆に、 合成 するビッ トが Γ 1 J である場合には、 k idx( j ) = Γ 1 」 を満たす波形 コード y j (つまり、 分割鐽データ k idx により第 2グループに所属し ていると示される波形コード y j ) のみから、 y jminを選択することに より、 今回入力した V Qターゲッ トベク トル X (n )を表す音声符号 c (n ) にテキス トデータのビッ トを合成する。
この要頷でテキス 卜データのビッ 卜を合成すれば、 合成するビッ 卜が
「0」 である場合には、 出力される音声符号 c (n )の下位 7 ビッ ト (つ まり、 音声符号 c (n )に含まれる j ) が、 第 1 グループに所属する波形 コード y j の何れかの番号を表す 2進データとなり、 逆に、 合成するビ ッ トが 「 1 J である場合には、 出力される音声符号 c (n )の下位 7 ビッ 卜が、 第 2グループに所属する波形コード y j の何れかの番号を表す 2 進データとなる。
つまり、 本実施形態では、 合成すべきビッ トの値に応じて、 波形コー ドブック中における波形コード y j ; j = 0 , 1 , …, 1 2 7の選択範 囲を、 分割鐽データ k idx によって決定される第 1 グループと第 2グル ープとに切り替えることで、 音声符号 c (n )にテキス トデータのビッ ト を合成する (埋め込む) ようにしている。
一方、 復号化装置 1 5は、 上記の要領でテキス 卜データのビッ トが合 成された音声符号 c ' (n ) から、 下記の分離方法により、 その合成され ているビッ トを分離 · 抽出する。
[分離方法]
音声符号 c ' (n ) の下位 7 ビッ ト (つまり、 音声符号 c ' (n ) に含ま れる j ) が、 分割鐽データ k idx により第 1 グループに所属していると 示される波形コード y j の番号を表す 2進データであれば、 その音声符 号 c ' (n ) に値が 「0」 のビッ 卜が合成されていると見なし、 逆に、 音 声符号 c ' (n ) の下位 7 ビッ 卜が、 分割鍵データ k idx により第 2グル ープに所属していると示される波形コード y j の番号を表す 2進データ であれば、 その音声符号 c ' (n ) に値が Γ 1 」 のビッ トが合成されてい ると見なして、 その音声符号 c ' (n ) からテキス トデータのビッ トを分 離する。
特に、 本実施形態では、 前述したように、 分割鍵データ k idx の 「0」 であるビッ 卜に対応する波形コード y j が第 1 グループとなり、 分割鐽 データ k idx の 「 1 」 であるビッ 卜に対応する波形コード y j が第 2グ ループとなるようにしているため、 音声符号 c ' (n ) に含まれる j を用 いて k idx( j ) を調べ、 k idx( j ) = Γ 0」 であれば、 Γ 0 J のビッ ト が合成されていると判断し、 逆に、 k idx( j ) = 「 1 」 であれば、 「 1 」 のビッ トが合成されていると判断することができ、 延いては、 その k id x( j ) の値を、 そのまま、 合成されていたビッ トの値と して取り出すこ とができる。
そして、 上記合成方法と分離方法によれば、 分割鍵データ k idx を知 る者でなければ、 音声符号からテキス 卜データを抽出することができな いため、 音声を符号化する際にテキス トデータを密かに合成し、 また、 その合成されたテキス トデータを密かに抽出することができる。 尚、 こ の特徴は、 テキス トデータのビッ トを合成する場合に限らず、 通話者の 認証データ等、 他のデータを構成するビッ 卜を合成する場合についても 同様である。
また、 分割鍵データ k idx の各ビッ ト値をランダムに設定しておけば, 例えば仮に、 全ての音声符号 c (n )に対して 「0」 のビッ 卜を合成した としても、 符号化される音声符号 c (n )の下位フ ビッ 卜が示す番号が僱 つてしまわず、 延いては、 他のデータが埋め込まれていることを第 3者 に気付かれる可能性を、 極めて低〈することができる。
しかも、 上記合成方法によれば、 復号化装置 1 5で音声の再生を行う 際に、 特別な処理が全〈不要であるという大きな利点がある。
ここで、 符号化装置 9が、 今回入力される V Qターゲッ トベク トル X (n )に最も近似する代表べク トルデータ y (n )の選択を行う前毎に、 文 字入力装置 7からテキス トデータのビッ ト系列 t Xを 1 ビッ 卜ずつ読み 出して、 上記合成方法により、 その読み出したビッ トを音声符号 c (π ) に合成すれば、 テキス 卜データのビッ トを全ての音声符号 c (n )に埋め 込むことができる。
また、 この場合、 復号化装置 1 5は、 音声符号 c ' (n ) を入力する毎 に、 その入力した音声符号 c ' (π ) から、 上記分離方法によりテキス ト データのビッ 卜を抽出すれば良い。
そして、 このように全ての音声符号 c (n )にテキス トデータのビッ ト を埋め込むようにすれば、 その埋め込み密度 ( 1 秒間当りに合成される ビッ ト数) は、 200 b y t e Z s (= 1 6 00 b i t Z s ) となる。
〈 2〉 ところで、 埋め込んだデータが第 3者によって解読されてしま う可能性を考えた場合、 全ての音声符号 c (n )に対してデータの埋め込 みを行うようにすると不利な面もある。
そこで更に、 本実施形態では、 以下に述べる手法により、 テキス トデ —タのビッ トを埋め込む音声符号 c (n )を不規則に限定して、 どの音声 符号 c (n )に埋め込みが施されているのか (つまり、 テキス トデータの ビッ 卜が合成されているのか) を第 3者に秘匿するようにしている。 まず、 下記の [表 1 ] に示す音声 Γ Ε ΓΠ_1 , 「 Ew」 を G. 7 28 L D - C E L Pで符号化した音声符号について、 その音声符号の各ビッ 卜 位置におけるビッ ト 「 1 」 の出現率を調べた結果、 図 4のようになった。 尚、 [表 1 ] 及び以下の説明において、 「 J mj は男性による日本語の 音声 (日本語男声) を示し、 「 J W」 は女性による日本語の音声 (日本 語女声) を示し、 「 E m」 は男性による英語の音声 (英語男声) を示し, 「E w」 は女性による英語の音声 (英語女声) を示している。 また、 [表 1 ] に示す各音声の音声源と しては、 F Mラジオならびに会話テー プから各 5秒を抽出したものである。 このため、 各音声のサンプル数は 夫々 40000となっている。 【表 1 】
実験用音声
吕 on 性別 サンプル数 時間 (秒)
J m 日本語 40, 000 5
J w 日本語 女 40, 000 5
Em i*Cpa 男 40, 000 5
E w 女 40.000 5 ここで、 図 4から、 G. 7 2 8 L D— C E L Pで符号化した音声符号 に含まれるビッ ト値の出現率には、 特徴があることが分かる。 そして、 この特徴を利用すれば、 音声符号に対するデータの埋め込み密度を制御 することができると考えられる。
また、 音声符号の各ビッ ト値は、 入力音声に依存するため、 一般に不 規則である。 そこで、 本実施形態では、 この不規則性と図 4に見られる 特徴を利用して、 埋め込みを施す音声符号を不規則に限定すると共に、 埋め込み密度を制御している。
まず、 本実施形態において、 符号化装置 9と復号化装置 1 5とに夫々 備えられた R OMには、 前述した分割鍵データ k idx の他に、 埋め込み を施す音声符号を不規則に限定するための制限鍵データ k I im が、 予め 記億されており、 符号化装置 9と復号化装置 1 5は、 その制限鍵データ k I im を R O Mから R A Mに転送して使用する。 尚、 この制限鐽データ k I im は、 音声符号 c (n )のビッ ト数と同じ 1 0桁 ( 1 0 ビッ ト) の 2 進数である。
そして、 符号化装置 9は、 次回の V Qターゲッ トベク トル X (n +1)に ついて最適な代表べク トルデータ y (n+1)の選択を行う前に、 制限鍵デ ータ k l im と今回出力した音声符号 c (n )とから、 下記の式 1 0により, 値 Lを求める。 尚、 このことは、 今回の V Qターゲッ トベク トル x (n ) について最適な代表べク トルデータ y (n )の選択を行う前に、 制限鐽デ ータ k l im と前回出力した音声符号 c (n-1)とから、 値 Lを求めること と同じである。 また、 [A N D] は、 論理積を表している。
L = k I im [ A N D ] c ( n ) …式 1 0
つまり、 Lは、 制限鐽データ k l im と音声符号 c (n )との論理積値で ある。 よって、 音声符号 c (n )のビッ ト系列が、 制限鐽データ k l im に て値が Γ 1 」 であるビッ 卜の位置と同じ位置のビッ 卜が全て 「0」 であ る、 という並びパターンであれば、 Lの値は 0となり、 逆に、 音声符号 c (η)のビッ ト系列が、 制限鍵データ k I im にて値が Γ 1 J であるビッ 卜の位置と同じ位置の何れかのビッ 卜が Γ 1 」 である、 という並びバタ ーンであれば、 Lの値は 0以外となる。
そして更に、 符号化装置 9は、 Lの値が 0であれば、 合成条件が成立 したと判定して、 文字入力装置 7からテキス 卜データのビッ ト系列 t X を 1 ビッ ト読み出し、 前述した合成方法により、 その読み出したビッ ト を今回出力する音声符号に合成する。 また逆に、 符号化装置 9は、 しの 値が 0でなければ、 合成条件が成立していないと判定して、 文字入力装 置 7からテキス トデータのビッ トを読み出すことなく、 通常の G. 7 2 8 L D— C E L Pにより符号化を行う。
そして、 本実施形態では、 この方法により埋め込み符号 (即ち、 埋め 込みを施す音声符号) を限定している。
例えば、 全ての音声符号に埋め込みを施すならば、 k l im = 「000000 0000」 とすれば良い。 逆に、 殆ど埋め込みを施さないならば、 k l im = 「1111111111」 とすれば良い。 また、 ほぼ半分の量の音声符号に埋め込 みを施すのであれば、 k l im = Γ 0100000000 J 等のように設定すれば良 い。 尚、 これは、 図 4に示されるように、 音声符号の下位から 9ビッ ト 目が約 0. 5の確率でビッ ト Γ 1 」 になることから導かれる。
ここで、 図 4に示した音声符号の各ビッ ト位置におけるビッ ト 「 1 」 の出現率を p i とし、 更に、 制限鐽データ k l im の下位から X ビッ ト目 ( X = 1 , 2, '·', 1 0 ) のビッ ト値を k l im( x ) とすると、 埋め込み 密度 E m b rate [ b i t / s ] は、 下記の式 1 1 により概算することが できる。 10
m brate= 1 600 门 ( 1一 p i · k 1 im( x )) …式 1 1
x=1 このように、 埋め込み密度はある程度見積ることができる。 これに対 して、 埋め込む音声符号がどれであるかは、 入力音声に依存して不特定 である。
よって、 制限鍵データ k l im を知らない第 3者にとって、 大量の音声 符号の中から埋め込みのある音声符号を正確に特定することは、 極めて 困難となる。
—方、 この場合、 復号化装置 1 5は、 前回入力した音声符号 c ' (n - 1) について、 式 1 0の Lを求め、 Lの値が 0であった場合にのみ、 今回入 力した音声符号 C ' (n ) から、 上記分離方法によりテキス トデータのビ ッ トを抽出すれば良い。 換言すれば、 今回入力した c ' (n ) について、 式 1 0の Lを求め、 Lの値が 0であれば、 次回に入力する音声符号 c ' (n +1) から、 上記分離方法によりテキス トデータのビッ トを抽出すれば 良い。
< 3 > 一方、 同じ分割鍵データ k idx を長期間使用していると、 音声 符号のビッ 卜値に何等かの特徴が現れて、 他のデータが合成されている ことを第 3者に気付かれてしまう虞もある。
そこで更に、 本実施形態では、 以下に述べる手法により、 符号化装置 9と復号化装置 1 5とで共有する分割鍵データ k idx を頻繁に切り替え て、 第 3者による分割鍵データ k idx の解析を困難にしている。
まず、 本実施形態において、 符号化装置 9と復号化装置 1 5とに夫々 備えられた R O Mには、 前述した分割鍵データ k idx と制限鍵データ k l im の他に、 更に、 反転鍵データ k rev と変更鍵データ k xor とが予め 記億されており、 符号化装置 9と復号化装置 1 5は、 その反転鍵データ k rev と変更鐽データ k xor を R◦ Mから R A Mに転送して使用する。 尚、 反転鍵データ k rev は、 制限鍵データ k l im と同様に 1 0桁 ( 1 0ビッ ト) の 2進数である。 また、 変更鍵データ k xor は、 分割鐽デー タ k idx の変更規則を決定するものであり、 分割鍵データ k idx と同様 に 1 2 8桁 ( 1 2 8 ビッ ト) の 2進数である。
そして、 符号化装置 9は、 次回の V Qターゲッ トベク トル X (n +1)に ついて最適な代表べク トルデータ y (n +1)の選択を行う前に、 反転鍵デ ータ k rev と今回出力した音声符号 c (n )とから、 下記の式 1 2により、 値 r を求める。 尚、 このことは、 今回の V Qターゲッ トベク トル x (n ) について最適な代表べク トルデータ y (n )の選択を行う前に、 反転鍵デ ータ k rev と前回出力した音声符号 c (n -1)とから、 値 r を求めること と同じである。 r = k rev [ A N D ] c ( n ) …式 1 2
つまり、 rは、 反転鍵データ k rev と音声符号 c ( n )との論理積値で ある。 よって、 前述した式 " 1 0と同様に、 音声符号 c (n )のビッ ト系列 が、 反転鍵データ k rev にて値が Γ 1 j であるビッ 卜の位置と同じ位置 のビッ トが全て 「 0」 である、 という並びパターンであれば、 rの値は 0となり、 逆に、 音声符号 c (n )のビッ ト系列が、 反転鍵データ k rev にて値が 「 1 」 であるビッ 卜の位置と同じ位置の何れかのビッ 卜が Γ 1 J である、 という並びパターンであれば、 rの値は 0以外となる。
そして更に、 符号化装置 9は、 rの値が 0でなければ、 分割鍵データ k idx を変更すべき変更条件が成立したと判定して、 R A Mから現在の 分割鍵データ k idx を読み出し、 下記の式 1 3により、 その分割鍵デー タ k i dx のビッ ト Γ 0」 とビッ ト 「 1 」 とを反転させて R A Mに更新記 憶させる。 尚、 [ X O R] は、 抹他的論理和を表している。 k idx = k idx [ X O R ] k xor …式 1 3
例えば、 変更鍵データ k xor の 1 2 8 ビッ ト全てが 「 1 J ならば、 式 1 3により、 分割鍵データ k idx の全ての 「 0」 と 「 1 」 が反転するこ ととなる。
また逆に、 符号化装置 9は、 rの値が 0であれば、 変更条件が成立し ていないと判定して、 現在の分割鐽データ k idx を継続して使用する。 一方、 この場合、 復号化装置 1 5は、 前回入力した音声符号 c ' (n -1) について、 式 1 2の r を求め、 rの値が 0でなければ、 符号化装置 9の 場合と全く同様に、 それまで使用していた分割鍵データ k idx を式 1 3 により変更すれば良い。 換言すれば、 今回入力した c ' (n ) について、 式 1 2の r を求め、 rの値が 0でなければ、 それまで使用していた分割 鍵データ k idx を式 1 3により変更して、 その変更後の分割鍵データ k idx を次回から用いれば良い。
この方法によれば、 分割鍵データ k idx が不規則に切り替わるため、 反転鍵データ k rev と変更鍵データ k xor を知らない第 3者が音声符号 に埋め込まれたデータを解読してしまう可能性を、 極めて低くすること ができる。
尚、 分割鍵データ k idx を式 1 3のような演算によって変更するので はなく、 複数種類の分割鍵データ k idx を予め用意して切り替えるよう に 3 ることも可能である。
ここで、 前述した符号化装置 9と復号化装置 1 5の動作内容をまとめ ると、 図 5〜図 7に示すフローチャー トのようになる。 尚、 図 5は、 符 号化装置 9の動作内容の前半部を表すフローチヤ一トであり、 図 6は、 符号化装置 9の動作内容の後半部を表すフローチヤ一トである。 そして、 W
29 図 7は、 復号化装置 1 5の動作内容を表すフローチャートである。
まず図 4に示すように、 符号化装置 9が動作を開始すると、 最初のス テツプ (以下、 単に Sと記す) 1 1 0にて、 前述したしと rの値を 1 に 初期設定すると共に、 フレームの順序ラベルである nの値を 0に初期設 定する。
次に、 S 1 20にて、 Lの値が 0であるか否かを判定し、 Lの値が 0 でなければ (S 1 2 0 : N O) 、 そのまま S 1 40へ進むが、 Lの値が 0であれば (S 1 2 0 : Y E S) 、 S 1 30に移行して、 埋め込みデー タ (即ち、 文字入力装置 7に記憶されたテキス トデータのビッ ト系列 t X ) から音声符号に合成すべきビッ ト t を 1 つ抽出し、 その後、 S 1 4 0へ進む。
そして、 S 1 40にて、 前述した D ' の最小値候補である D'minの値 を、 予め想定される最大値に初期化し、 続く S 1 50にて、 〗 の値を 0 に初期化すると共に、 nの値を 1 インクリメン トする。 そして更に、 続 < S 1 5 5にて、 今回べク トル量子化する n番目の VQターゲッ トべク トル x (n)を入力し、 続く S 1 60にて、 Lの値が 0であるか否かを判 定する。
ここで、 Lの値が 0でなければ ( S 1 60 : N O) 、 そのまま S 1 8 0へ進むが、 しの値が 0であれば ( S 1 60 : Y E S) 、 S 1 7 0に移 行して、 分割鍵データ k idx の上位ビッ 卜から j ビッ ト目である k idx ( j ) が、 上記 S 1 3 0で抽出したビッ ト t と等しいか否かを判定し、 k idx( j ) = t であれば ( S 1 7 0 : Y E S) 、 S 1 80へ進む。
そして、 S 1 8 0にて、 上記 S 1 5 5で今回入力した V Qターゲッ ト べク トル X (n )について、 前述の Pj ( = p T(n ) - y j ) を求め、 続く S 1 90にて、 その P j により g i を決定し、 更に続く S 200にて、 前述の式 9により D' ( = - b i- Pj+ c i- Ej) を求める。 次に、 続く S 2 1 0にて、 上記 S 2 O 0で求めた D ' が現在の D ' min よりも小さいか否かを判定し、 D' < D ' minでなければ ( S 2 1 0 : N O ) 、 そのまま S 2 3 0へ進むが、 D' < D'minであれば (S 2 1 0 : Y E S ) 、 S 2 20に移行して、 上記 S 2 00で今回求めた D' を D'm inとして設定すると共に、 上記 S 2 00で D' を求めた際の i と j とを、 夫々、 i min と j min と して設定し、 その後、 S 2 30へ進む。
また、 上記 S 1 7 0にて k idx( j ) = t ではないと判定した場合には ( S 1 70 : Y E S) , S 1 8 0 ~ S 2 20の処理を行うことなく、 そ のまま S 2 3 0へ進む。
そして、 S 2 30にて、 j の値が 1 2 7よりも小さいか否かを判定し、 j < 1 2 7であれば ( S 2 3 0 : Y E S) 、 S 2 40に進んで、 j の値 を 1 インクリメン トした後、 S 1 6 0へ戻る。
一方、 上記 S 2 3 0にて、 j < 1 2 7ではないと判定した場合には (S 2 30 : N O) 、 図 6に示す S 2 50に移行する。
そして、 図 6に示すように、 その S 2 50にて、 i min と j min とか ら前述した如く 1 0ビッ 卜の音声符号 c (n )を構成して送受信装置 1 3 へ出力する。 すると、 その音声符号(n )は、 送受信装置 1 3により無線 変調されてアンテナ 1 1 から送信されることとなる。
次に、 続く S 2 6 0にて、 上記 S 2 5 0で出力した音声符号 c (n)と 制限鍵データ k I im とから、 前述の式 1 0により Lを求め、 更に続く S 2 7 0にて、 上記 S 2 5 0で出力した音声符号 c (n)と反転鍵データ k rev とから、 前述の式 1 2により r を求める。
そして、 続く S 2 8 0にて、 rの値が 0であるか否かを判定し、 rの 値が 0であれば ( S 2 80 : Y E S) 、 そのまま S 300へ進むが、 r の値が 0でなければ ( S 2 80 : N O) 、 S 290に移行して、 前述の 式 1 3により分割鍵データ k idx を変更し、 その後、 S 300へ進む。 そして、 S 3 00にて、 通話スィッチ (図示省略) のオン オフ状態 等に基づき通信終了か否かを判定し、 通信終了でなければ ( S 3 00 : N O) 、 図 5の S I 20へ戻り、 また、 通信終了であれば (S 300 : Y E S) , 当該符号化装置 9の動作を終了する。
つまり、 図 5及び図 6の処理では、 S 1 40 ~ S 1 5 5, S 1 80 ~ S 2 5 0により、 V Qターゲッ トベク トル χ (π )を順次入力して、 その VQターゲッ 卜べク トル X (η )に最も近似する代表べク トルデータ y (n ) を成すゲインコード g iminと波形コード y jminを、 励振波形コードブッ ク 2 5の中から選択し、 そのゲインコード g iminと波形コード y jminの 番号 i min , j min から音声符号 c (n )を構成して出力するようにして いる。
そして特に、 図 5及び図 6の処理では、 今回の V Qターゲッ トべク ト ル X (n )についてゲインコー ド g imin及び波形コード y jminの選択 ( S 1 80 ~ S 2 40 ) を行う前に、 S 2 60により、 前回出力した音声符 号について式 1 0の Lを求めてお〈 と共に、 S 1 20, S 1 6 0により、 その Lの値が 0であると判定すると、 合成条件が成立したと判断して、 音声符号に合成すべきテキス 卜データのビッ ト t を読み出し (S 1 30) 、 S 1 7 0での判定による切り替えによって、 上記 く 1 〉 で述べた合成方 法を実施するようにしている。
そして更に、 今回の V Qターゲッ トべク トル x (n)についてゲインコ ード g imin及び波形コー ド y jminの選択を行う前に、 S 2 7 0により、 前回出力した音声符号について式 1 2の r を求めておく と共に、 S 2 8 0により、 その rの値が 0ではないと判定すると、 変更条件が成立した と判断して、 S 2 90により、 次の S 1 7 0で用いる分割鐽データ k id x を、 式 1 3の変更規則に従い変更するようにしている。
このため、 図 5及び図 6の処理を行う符号化装置 9によれば、 G. 7 2 8 L D-C E L Pによる音声符号に、 テキス トデータの各ビッ トを密 かに合成することができる。
尚、 本実施形態の符号化装置 9においては、 S 1 20, S 1 60 , 及 び S 26 0の処理が、 合成条件判定処理に相当し、 32 7 0及び328 0の処理が、 変更条件判定処理に相当している。
—方、 図 7に示すように、 復号化装置 1 5が動作を開始すると、 まず S 3 1 0にて、 Lと rの値を 1 に初期設定すると共に、 フレームの順序 ラベルである nの値を 0に初期設定する。
次に、 S 3 2 0にて、 nの値を 1 インク リメン トし、 続く S 3 3 0に て、 送受信装置 1 3から、 その n番目の音声符号 c ' (n ) を入力する。 そして、 続く S 3 40にて、 上記 S 3 3 0で入力した音声符号 c ' (n ) から i と j を抽出し、 続く S 3 5 0にて、 その i と j に対応したゲイン コード gに と波形コー ド y j を励振波形コードブック 4 1 から抽出する。 そして更に、 続く S 3 6 0にて、 上記 S 3 50で求めたゲインコード g i と波形コード y j から、 今回入力した音声符号 c ' (n ) に対応する 1 フレーム分のデジタル音声信号 s ' (n) を再生して、 音声出力装置 1 7へ出力する。
次に、 S 3 7 0にて、 Lの値が 0であるか否かを判定し、 Lの値が 0 でなければ (S 3 7 0 : N O) 、 そのまま S 3 90へ進むが、 Lの値が 0であれば ( S 3 7 0 : Y E S) 、 S 3 8 0に移行する。 そして、 この S 380にて、 上記 S 3 40で音声符号 c ' (n ) から抽出した j を用い て k idx( j ) を調べ、 更に、 その k idx( j ) の値をテキス トデータのビ ッ トと して保存し、 その後、 S 3 90へ進む。 尚、 この S 3 80で保存 されたビッ トは、 表示装置 1 9に順次出力され、 表示装置 1 9は、 その ビッ 卜系列から文字を再生して表示することとなる。
そして、 S 3 90にて、 上記 S 3 3 0で入力した音声符号 c ' (n ) と 制限鍵データ k I im とから、 前述の式 1 0により Lを求め、 続く S 4 0 0にて、 上記 S 3 3 0で入力した音声符号 c ' (π ) と反転鍵データ k re V とから、 前述の式 1 2により r を求める。
そして更に、 続く S 4 1 0にて、 rの値が 0であるか否かを判定し、 rの値が 0であれば ( S 4 1 0 : Y E S ) 、 そのまま S 4 3 0へ進むが、 rの値が 0でなければ ( S 4 1 0 : N O) 、 S 4 2 0に移行して、 前述 の式 1 3によリ分割鍵データ k idx を変更し、 その後、 S 4 3 0へ進む。 そして、 S 4 3 0にて、 通話スィッチ (図示省略) のオン オフ状態 等に基づき通信終了か否かを判定し、 通信終了でなければ (S 4 3 0 : N O) 、 S 3 2 0へ戻リ、 また、 通信終了であれば ( S 4 3 0 : Y E S) , 当該復号化装置 1 5の動作を終了する。
つまり、 図 7の処理では、 S 3 2 0〜 S 3 6 0により、 他の電話機 3 の符号化装置 9によって生成された音声符号 c ' (n ) を順次入力して、 G. 7 2 8 L D - C E L Pの復号化によリ音声を再生しているのである が、 S 3 9 0にて、 既に入力した音声符号について式 1 0の Lを求めて おく ことにより、 次の音声符号を今回の音声符号 c ' (n ) として入力し た際に、 S 3 7 0により、 前回入力した音声符号についてのしが 0であ るか否かを判定できるようにしている。 そして、 S 3 7 0にて、 Lの値 が 0であると判定すると (即ち、 前回入力した音声符号について求めた Lが 0であると判定すると) 、 合成条件が成立したと判断して、 S 3 8 0により、 上記 〈 1 〉 で述べた分離方法を実施して、 今回入力した音声 符号 c ' (n ) からテキス トデータのビッ 卜を抽出するようにしている。 そして更に、 図 7の処理では、 S 3 7 0での判定を行う前に、 S 4 0 0により、 前回入力した音声符号について式 1 2の r を求めておく と共 に、 S 4 1 0により、 その rの値が 0ではないと判定すると、 変更条件 が成立したと判断して、 S 4 2 0により、 S 3 8 0で用いる分割鍵デー W
34 タ k idx を、 式 1 3の変更規則に従い変更するようにしている。
このため、 図 7の処理を行う復号化装置 1 5によれば、 符号化装置 9 によって生成された音声符号から音声を再生しつつ、 その音声符号に合 成された亍キス トデータの各ビッ トを確実に抽出することができる。 尚、 本実施形態の復号化装置 1 5においては、 S 3 7 0及び S 3 9 0 の処理が、 合成条件判定処理に相当し、 S 4 0 0及び S 4 1 0の処理が、 変更条件判定処理に相当している。 また、 S 3 8 0の処理が分離処理に 相当し、 S 4 2 0の処理が変更処理に相当している。
そして、 上記のような符号化装置 9と復号化装置 1 5を備えた本実施 形態の電話機 1, 3によれば、 使用者である通話者は、 音声と文章との 両方で意志の疎通を行うことができるようになる。
「実験結果」
ところで、 第 3者に埋め込みの存在を知られないためには、 埋め込み により音質を大幅に劣化させないことが重要である。
そこで以下、 本実施形態の符号化装置 9及び復号化装置 1 5について、 G. 7 2 8 L D— C E L Pのアルゴリズムに基づき実験システムを構成 して、 シミュレーションを実施した結果について説明する。
まず、 実験音声と しては、 前述の [表 1 ] に示した 4種類の音声を用 いた。
また、 音声符号に埋め込む情報としては、 インターネッ トの規格であ る R F C (Request For Comments) に含まれるテキス トデータを用いた。 そして、 分割鐽データ k idx , 反転鐽データ k rev , 及び変更鍵デー タ k xor と しては、 下記のものを用いた。 尚、 以下の説明においては、 これら 3つの鍵データ k idx ' k rev , k xor を、 鍵 Kと総称する。 ま た、 以下の記載において、 {}内に示す各鍵データ k idx , k I im , k re v , k xor の値は、 0 ~ Fの 1 6進数で表現している。 k idx = {6770DFF35BDD9F1CA21C05881A8CCA15}
k rev = [060}
k xor = [FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF]
ここで、 本実験では、 反転鍵データ k rev と変更鍵データ k xor を上 記のように設定したため、 分割鍵データ k idx 中の全ての 「0」 と Γ 1 」 が約 1 3の確率で反転することとなる (図 4参照) 。
一方、 客観的な音質の評価尺度として最も基本的なものに、 信号対量 子化雑音比 ( S N R : Signal— to— quantization Noise Ratio) 力 ある。 尚、 S N R [ d B] の評価式は、 前述の文献 2等に記載されているよう に、 入力音声 (本実施形態でいう入力音声信号) S o (m)とその量子化 誤差 E r (m)を用いて、 下記の式 1 4で表すことができる。
S N R
= 1 01og,0 { ∑ S o (m)/∑ E r 2(m)} [d B] …式 1 4
m m
そこで、 本実験では、 客観的評価法として、 S N Rを改良して主観評 価との対応関係を向上させたセグメンタル S N R ( S N R seg ) を用い た。 この S N R seg は、 上記文献 2等に記載されているように、 下記の 式 1 5で定義される。 尚、 式 1 5において、 N f は、 測定区間のフ レー ム数を表し、 S N R f は、 f フレームにおける S N Rである。 そして、 本実験では、 1 フレームの長さを 3 2 m s とした。
1 f
S N Rseg= —— X S N R f [d B] …式 1 5
N f f=1 また、 本実験では、 主観的評価法として、 評価者の絶対判断によるォ ピニオン評価 ( M O S : Mean Opinion Score) を用いた。 尚、 このオビ 二オン評価についても、 上記文献 2等に記載されている。
次に、 [表 1 ] の 4種類の音声と上記の鍵 Kを用いて実験した結果を、 図 8に示す。
この図 8は、 時間的な埋め込み密度と S N Rseg との関係を、 [表 1 ] の 「 Em」 , 「E wJ , 「 J m」 , 「 J W」 の各音声について示したも のである。 但し、 制限鍵データ k l im と しては、 下記の 4種類を用いた。
k I im = {044} , {004} , {020} , {000}
例えば、 k l im = {020} の場合の埋め込み密度は、 制限鍵データ k l i m の下位から 6 ビッ ト目のみが 「 1 」 であるため、 図 4から p 6 = 0. 3となり、 式 1 1 から、 ほぼ 1 600 X ( 1 — 0. 3 ) = 1 1 2 0 [ b i t / s ] になると見積られる。 また、 埋め込み密度が 0 [ b i t Z s ] のものは、 埋め込み処理のない場合のものである。
図 8の結果から分かるように、 大量の埋め込みを施しても、 埋め込み による S N Rseg の劣化量は少ないことが分かる。 従って、 埋め込みの ない場合と埋め込みのある場合との、 量子化歪みは同程度であると考え bれる。
次に、 以下に述べる実験は、 制限鍵データ k I im として、 k I im = {1 02} を用いて行った。 尚、 この場合の埋め込み密度は、 図 4から、 はぼ p 2 = 0. 1 , p 9 = 0. 5となるため、 式 1 1 から、 1 6 0 0 x ( 1 - 0. 1 ) X ( 1 — 0. 5 ) = 7 2 0 [ b i t Z s ] になると見積られ る。
まず、 再生音声波形の一部を取り出して、 波形の形状を観察した結果 を図 9に示す。 尚、 図 9 ( a ) は、 入力音声波形を示し、 図 9 ( b ) は、 埋め込みのない再生音声波形を示し、 図 9 ( c ) は、 大量の埋め込みを 施した再生音声波形を示している。 また、 これらの波形は、 [表 1 ] の Γ E m j における発音 " t h i n k " の部分であり、 約 0 . 2秒の音声 区間である。
図 9の各波形から分かるように、 音声符号に他のデータを埋め込んだ ことによる影響と考えられるような大きな波形歪みは観測されなかった。 また、 本実施形態の方法を用いて通常伝送される音声符号 (音声デー タ) は、 埋め込みのある音声符号のみである。 よって仮に、 第 3者に音 声符号を不法に奪われたとしても、 埋め込みのない波形と比較すること はできないため、 再生音声の波形形状から埋め込みの有無を発見するこ とは難しいと考えられる。
ところで、 埋め込みを施すことで音声符号のビッ 卜特性に変化が現れ てしまうと、 第 3者が解読の手がかりにする可能性もある。
そこで、 図 4と同様に、 埋め込みを施した音声符号のビッ ト特性を調 ベた結果、 図 1 0のようになった。
この図 1 0と図 4を比較すると、 埋め込みによる大きな影響を生じて いないことが分かる。 従って、 第 3者が、 音声符号のビッ ト特性の変化 から埋め込みの存在を知ることは、 棰めて難しいと考えられる。
次に、 聰感的な音質の違いによる埋め込みの発見の可能性について検 討した。
本実験では、 2 0代後半の健聴者 8名により、 各再生音声を主観的に 評価して平均オピニオン値 (M O S ) を求めた。 また、 評価音声として は、 [表 1 ] の各実験音声について、 埋め込みのない再生音声と埋め込 みのある再生音声とを用意し、 被験者が任意の回数聞き比べて評価した ( よって、 再生音声の音質に違いを感じれば、 評価値に大差が生じるはず である。
この実験結果を、 下記の [表 2 ] に示す。 【表 2】
平均オピニオン値
Figure imgf000040_0001
この [表 2 ] から明らかなように、 埋め込みのない再生音肓の M O S と、 埋め込みのある再生音声の M O Sとは、 ほとんど同じであることが 分かる。
よって、 埋め込みのある場合と埋め込みのない場合との再生音声の音 質は、 ほぼ同程度であり、 聴取による埋め込みの有無の判断は難しいと sんる
尚、 [表 2 ] において、 M O Sが 3程度の値を示したのは、 入力に用 いた実験音声が、 コンパク トディスク等と比べるとやや不明瞭に感じる ためであることが原因と考えられる。 また、 各評価値のばらつきは、 埋 め込みのある音声を被験者が特定できないために生じたランダム誤リに よるものと思われる。
以上の結果から、 原音声信号や埋め込みのない再生音声を持たない不 正な第 3者が、 大量の音声符号の中から他のデータが埋め込まれた音声 符号を特定して、 その埋め込まれた情報を解読することは、 極めて困難 であると言える。
「変形例 1 J
ところで、 前述した実施形態の符号化装置 9が、 図 5の S 1 2 0及び S 1 6 0の処理と、 図 6の S 2 6 0の処理とを行わず、 且つ、 図 5の S 1 3 0の処理を S 1 4 0の前で常に行うようにすれば、 全ての音声符号 c (π )にテキス トデータのビッ トを埋め込むことができる。
そして、 この場合には、 復号化装置 1 5が、 図 7の S 3 7 0及び S 3 9 0の処理を行わず、 且つ、 S 3 8 0の処理を S 3 6 0の次で常に行う ようにすれば良い。
「変形例 2」
また、 前述した実施形態、 或いは、 上記変形例 1 において、 分割鐽デ ータ k idx を変更しないのであれば、 符号化装置 9が、 図 6の S 2 7 0 ~ S 2 9 0の処理を行わないようにし、 復号化装置 1 5が、 図 7の S 4 0 0〜 S 4 2 0の処理を行わないようにすれば良い。
「その他」
前述した実施形態の符号化装置 9及び復号化装置 1 5は、 G. 7 2 8 L D— C E L Pにより音声の符号化ノ復号化を行うものであつたが、 ベ ク トル量子化を用いた他の符号化方式に対しても、 同じ手法を適用する ことができる。
また、 上記実施形態では、 本発明を電話機に適用したものであるため, 符号化装置 9によリ生成された音声符号 cを、 即座に無線変調して送信 するようにしたが、 音声符号 cを所定の記録媒体に記憶させておくよう にしても良い。 そして、 この場合には、 上記記録媒体から音声符号 cを 順次読み出して、 復号化装置 1 5によリ復号化すれば良い。
また更に、 上記実施形態の符号化装置 9及び復号化装置 1 5は、 音声 を符号化 復号化するものであつたが、 センサや計測器などから出力さ れるアナログ信号といった音声以外の振動波を符号化ノ復号化するよう にしても良い。 具体的には、 上記アナログ信号を所定時間毎にサンプリ ングして得たデジタル信号を、 入力音声信号 sに代えて、 符号化装置 9 に入力させれば良い。
そして、 このようにすれば、 センサや計測器から出力されるアナログ 信号の振動波を符号化する際に、 テキス トデータなどの他のデータを合 成することができ、 また、 その符号化信号から他のデータを分離して抽 出することができるようになる。

Claims

請求の範囲
1 . 振動波の所定時間分の波形を表すベク トルデータを順次入力し、 前 記べク トルデータを入力する毎に、 予め順次番号が付された複数の代表 べク トルデータを記憶するコードブックの中から、 前記入力したべク ト ルデータに最も近似する代表べク トルデータを選択して、 その選択した 代表ベク トルデータの番号を表す 2進データを、 前記入力したベク トル データを表す符号と して出力するべク 卜ル量子化によリ、 前記振動波を 符号化する振動波の符号化方法において、
前記コードブックに記憶された代表べク トルデータの各々が第 1 グル 一プと第 2グループとの何れに所属するかを示す分割指示情報を、 所定 の記憶手段に記憶させておき、
今回入力したべク トルデータに最も近似する代表べク トルデータの選 択を行う前に、 前記振動波に合成すべき他の二値データを読み出して、 該読み出した二値データが 「0」 である場合には、 前記コードブックに 記憶された代表べク トルデータのうち、 前記記憶手段に記憶された分割 指示情報により前記第 1 グループに所属していると示される代表べク 卜 ルデータのみから、 今回入力したべク トルデータに最も近似する代表べ ク トルデータを選択し、 前記読み出した二値データが 「 1 」 である場合 には、 前記コードブックに記憶された代表ベク トルデータのうち、 前記 記憶手段に記憶された分割指示情報により前記第 2グループに所属して いると示される代表べク トルデータのみから、 今回入力したべク トルデ ータに最も近似する代表べク トルデータを選択することにより、 今回入 力したべク トルデータを表す符号に前記読み出した二値データを合成す ること、
を特徴とする振動波の符号化方法。
2 . 請求項 1 に記載の振動波の符号化方法において、 今回入力したべク トルデータに最も近似する代表べク 卜ルデータの選 択を行う前に、 前回出力した前記符号について、 該符号のビッ ト系列が 予め定められた所定の並びパターンであるか否かを判定する変更条件判 定処理を行い、 該変更条件判定処理により肯定判定すると、 前記記憶手 段に記憶させる分割指示情報を、 予め定められた変更規則に従い変更す ること、
を特徴とする振動波の符号化方法。
3 . 振動波の所定時間分の波形を表すベク トルデータを順次入力し、 前 記べク トルデータを入力する毎に、 予め順次番号が付された複数の代表 べク トルデータを記憶するコードブックの中から、 前記入力したべク ト ルデータに最も近似する代表べク トルデータを選択して、 その選択した 代表べク トルデータの番号を表す 2進データを、 前記入力したべク トル データを表す符号と して出力するべク トル量子化によリ、 前記振動波を 符号化する振動波の符号化方法において、
前記コードブックに記億された代表べク トルデータの各々が第 1 グル 一プと第 2グループとの何れに所属するかを示す分割指示情報を、 所定 の記憶手段に記憶させておく と共に、
今回入力したべク トルデータに最も近似する代表べク トルデータの選 択を行う前に、 前回出力した前記符号について、 該符号のビッ ト系列が 予め定められた所定の並びパターンであるか否かを判定する合成条件判 定処理を行い、
該合成条件判定処理によリ肯定判定すると、 前記振動波に合成すべき 他の二値データを読み出して、 該読み出した二値データが 「0」 である 場合には、 前記コードブックに記憶された代表ベク トルデータのうち、 前記記憶手段に記憶された分割指示情報によリ前記第 1 グループに所属 していると示される代表べク トルデータのみから、 今回入力したべク 卜 ルデータに最も近似する代表べク トルデータを選択し、 前記読み出した 二値データが 「 1 」 である場合には、 前記コードブックに記憶された代 表べク トルデータのうち、 前記記憶手段に記憶された分割指示情報によ リ前記第 2グループに所属していると示される代表べク トルデータのみ から、 今回入力したべク トルデータに最も近似する代表べク トルデータ を選択することにより、 今回入力したべク トルデータを表す符号に前記 読み出した二値データを合成すること、
を特徴とする振動波の符号化方法。
4 . 請求項 3に記載の振動波の符号化方法において、
今回入力したべク トルデータに最も近似する代表べク トルデータの選 択を行う前に、 前回出力した前記符号について、 該符号のビッ ト系列が 予め定められた所定の並びパターンであるか否かを判定する変更条件判 定処理を行い、 該変更条件判定処理により肯定判定すると、 前記記憶手 段に記憶させる分割指示情報を、 予め定められた変更規則に従い変更す ること、
を特徴とする振動波の符号化方法。
5 . 請求項 1 に記載の符号化方法によリ生成された符号を順次入力し、 前記符号を入力する毎に、 該符号が示す番号の代表べク トルデータを請 求項 1 に記載のコードブックと同じコードブックの中から抽出すると共 に、 その抽出した代表ベク トルデータから、 今回入力した符号に対応す る波形を再生することによリ、 前記振動波を復元する振動波の復号化方 法において、
前記コードブックに記憶された代表べク トルデータの各々が第 1 グル 一プと第 2グループとの何れに所属するかを示す請求項 1 に記載の分割 指示情報と同じ分割指示情報を、 所定の記憶手段に記億させておき、 今回入力した符号の示す番号が、 前記コードブックに記憶された代表 べク トルデータのうち、 前記記憶手段に記憶された分割指示情報により 前記第 1 グループに所属していると示される代表べク トルデータの番号 であれば、 当該符号に 「0」 である二値データが合成されていると見な し、 今回入力した符号の示す番号が、 前記コードブックに記憶された代 表べク トルデータのうち、 前記記憶手段に記憶された分割指示情報によ リ前記第 2グループに所属していると示される代表べク トルデータの番 号であれば、 当該符号に 「 1 」 である二値データが合成されていると見 なして、 今回入力した符号から前記他の二値データを分離すること、 を特徴とする振動波の復号化方法。
6 . 請求項 2に記載の符号化方法によリ生成された符号を順次入力し、 前記符号を入力する毎に、 該符号が示す番号の代表べク トルデータを請 求項 1 に記載のコードブックと同じコードブックの中から抽出すると共 に、 その抽出した代表ベク トルデータから、 今回入力した符号に対応す る波形を再生することにより、 前記振動波を復元する振動波の復号化方 法において、
前記コードブックに記憶された代表べク トルデータの各々が第 1 グル 一プと第 2グループとの何れに所属するかを示す請求項 1 に記載の分割 指示情報と同じ分割指示情報を、 所定の記憶手段に記憶させておき、 今回入力した符号の示す番号が、 前記コードブックに記億された代表 べク トルデータのうち、 前記記憶手段に記億された分割指示情報により 前記第 1 グループに所属していると示される代表べク トルデータの番号 であれば、 当該符号に 「0」 である二値データが合成されていると見な し、 今回入力した符号の示す番号が、 前記コードブックに記憶された代 表べク トルデータのうち、 前記記憶手段に記憶された分割指示情報によ リ前記第 2グループに所属していると示される代表べク トルデータの番 号であれば、 当該符号に 「 1 」 である二値データが合成されていると見 なして、 今回入力した符号から前記他の二値データを分離する分離処理 と、
今回入力した前記符号について前記分離処理を行う前に、 前回入力し た前記符号について請求項 2に記載の変更条件判定処理と同じ変更条件 判定処理を行い、 該変更条件判定処理により肯定判定した場合に、 前記 記憶手段に記憶させる分割指示情報を請求項 2に記載の変更規則と同じ 変更規則に従い変更する変更処理と、
を行うことを特徴とする振動波の複号化方法。
7 . 請求項 3に記載の符号化方法によリ生成された符号を順次入力し、 前記符号を入力する毎に、 該符号が示す番号の代表べク トルデータを請 求項 3に記載のコードブックと同じコードブックの中から抽出すると共 に、 その抽出した代表ベク トルデータから、 今回入力した符号に対応す る波形を再生することにより、 前記振動波を復元する振動波の復号化方 法において、
前記コードブックに記憶された代表べク トルデータの各々が第 1 グル 一プと第 2グループとの何れに所属するかを示す請求項 3に記載の分割 指示情報と同じ分割指示情報を、 所定の記憶手段に記億させておく と共 に、
前記符号を入力した際に、 前回入力した前記符号について請求項 3に 記載の合成条件判定処理と同じ合成条件判定処理を行い、
該合成条件判定処理により肯定判定した場合に、 今回入力した符号の 示す番号が、 前記コードブックに記憶された代表べク トルデータのうち, 前記記憶手段に記憶された分割指示情報によリ前記第 1 グループに所属 していると示される代表べク トルデータの番号であれば、 当該符号に 「0」 である二値データが合成されていると見なし、 今回入力した符号 の示す番号が、 前記コードブックに記憶された代表べク トルデータのう ち、 前記記憶手段に記憶された分割指示情報によリ前記第 2グループに 所属していると示される代表べク トルデータの番号であれば、 当該符号 に 「 1 J である二値データが合成されていると見なして、 今回入力した 符号から前記他の二値データを分離すること、
を特徴とする振動波の復号化方法。
8 . 請求項 4に記載の符号化方法によリ生成された符号を順次入力し、 前記符号を入力する毎に、 該符号が示す番号の代表べク トルデータを請 求項 3に記載のコードブックと同じコードブックの中から抽出すると共 に、 その抽出した代表ベク トルデータから、 今回入力した符号に対応す る波形を再生することによリ、 前記振動波を復元する振動波の復号化方 法において、
前記コードブックに記憶された代表べク トルデータの各々が第 1 グル 一プと第 2グループとの何れに所属するかを示す請求項 3に記載の分割 指示情報と同じ分割指示情報を、 所定の記憶手段に記憶させておく と共 に、
前記符号を入力した際に、 前回入力した前記符号について請求項 3に 記載の合成条件判定処理と同じ合成条件判定処理を行い、
該合成条件判定処理によリ肯定判定した場合に、 今回入力した符号の 示す番号が、 前記コードブックに記憶された代表べク トルデータのうち, 前記記憶手段に記憶された分割指示情報によリ前記第 1 グループに所属 していると示される代表べク トルデータの番号であれば、 当該符号に 「0」 である二値データが合成されていると見なし、 今回入力した符号 の示す番号が、 前記コー ドブックに記憶された代表べク トルデータのう ち、 前記記憶手段に記憶された分割指示情報によリ前記第 2グループに 所属していると示される代表べク トルデータの番号であれば、 当該符号 に 「 1 」 である二値データが合成されていると見なして、 今回入力した 符号から前記他の二値データを分離し、
更に、 前記合成条件判定処理を行う前に、 前回入力した前記符号につ いて請求項 4に記載の変更条件判定処理と同じ変更条件判定処理を行い, 該変更条件判定処理によリ肯定判定した場合に、 前記記憶手段に記憶さ せる分割指示情報を請求項 4に記載の変更規則と同じ変更規則に従い変 更すること、
を特徴とする振動波の復号化方法。
PCT/JP1998/000418 1998-01-13 1998-01-30 Codage d'onde vibratoire et procede WO1999037028A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR10-2000-7007692A KR100478959B1 (ko) 1998-01-13 1998-01-30 진동파의 부호화 방법 및 복호화 방법
EP98901084A EP1049259B1 (en) 1998-01-13 1998-01-30 Vibration wave encoding method and method
US09/600,095 US6539356B1 (en) 1998-01-13 1998-01-30 Signal encoding and decoding method with electronic watermarking
DE69839312T DE69839312T2 (de) 1998-01-13 1998-01-30 Kodierverfahren für vibrationswellen

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10005150A JP3022462B2 (ja) 1998-01-13 1998-01-13 振動波の符号化方法及び復号化方法
JP10/5150 1998-01-13

Publications (1)

Publication Number Publication Date
WO1999037028A1 true WO1999037028A1 (fr) 1999-07-22

Family

ID=11603258

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/000418 WO1999037028A1 (fr) 1998-01-13 1998-01-30 Codage d'onde vibratoire et procede

Country Status (6)

Country Link
US (1) US6539356B1 (ja)
EP (1) EP1049259B1 (ja)
JP (1) JP3022462B2 (ja)
KR (1) KR100478959B1 (ja)
DE (1) DE69839312T2 (ja)
WO (1) WO1999037028A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100375822B1 (ko) * 2000-12-18 2003-03-15 한국전자통신연구원 디지털 오디오의 워터마크 삽입/추출 장치 및 방법
US20030158730A1 (en) * 2002-02-04 2003-08-21 Yasuji Ota Method and apparatus for embedding data in and extracting data from voice code
JP4330346B2 (ja) * 2002-02-04 2009-09-16 富士通株式会社 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム
US7310596B2 (en) 2002-02-04 2007-12-18 Fujitsu Limited Method and system for embedding and extracting data from encoded voice code
JP2004069963A (ja) * 2002-08-06 2004-03-04 Fujitsu Ltd 音声符号変換装置及び音声符号化装置
JP2005202262A (ja) * 2004-01-19 2005-07-28 Matsushita Electric Ind Co Ltd 音声信号符号化方法、音声信号復号化方法、送信機、受信機、及びワイヤレスマイクシステム
JP5461835B2 (ja) 2005-05-26 2014-04-02 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化/復号化方法及び符号化/復号化装置
WO2007004831A1 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
KR100880643B1 (ko) 2005-08-30 2009-01-30 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
WO2007055464A1 (en) 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
JP4859925B2 (ja) 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
WO2007040355A1 (en) 2005-10-05 2007-04-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
KR100857120B1 (ko) 2005-10-05 2008-09-05 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7751485B2 (en) 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7742913B2 (en) 2005-10-24 2010-06-22 Lg Electronics Inc. Removing time delays in signal paths
US7752053B2 (en) 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
US8064722B1 (en) * 2006-03-07 2011-11-22 The United States Of America As Represented By The Secretary Of The Navy Method and system for analyzing signal-vector data for pattern recognition from first order sensors
DE102007007627A1 (de) 2006-09-15 2008-03-27 Rwth Aachen Steganographie in digitalen Signal-Codierern
DK2082527T3 (en) * 2006-10-18 2015-07-20 Destiny Software Productions Inc Methods for watermarking media data
JP5097219B2 (ja) * 2007-03-02 2012-12-12 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 非因果性ポストフィルタ
MX2010009155A (es) 2008-02-20 2010-12-06 D Box Technologies Inc Transporte de señales vibrocineticas en un entorno de cine digital.
JP4900402B2 (ja) * 2009-02-12 2012-03-21 富士通株式会社 音声符号変換方法及び装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5912499A (ja) * 1982-07-12 1984-01-23 松下電器産業株式会社 音声符号化装置
JPH08241403A (ja) * 1995-02-01 1996-09-17 Internatl Business Mach Corp <Ibm> 画像の色変化のないディジタル・ウォーターマーキング
JPH09134125A (ja) * 1995-09-27 1997-05-20 Xerox Corp 文書作成方法及び文書読み取り方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100518470B1 (ko) * 1993-12-23 2005-12-27 코닌클리케 필립스 일렉트로닉스 엔.브이. 적응성디더감산,숨겨진채널비트삽입및필터링을통한다중비트코드화디지탈음향의엔코딩방법및장치와,이방법과함께사용하기위한엔코딩및디코딩장치
JPH10303A (ja) * 1996-06-19 1998-01-06 Tooman:Kk 油性廃液吸着剤
US5839098A (en) * 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
JP3672143B2 (ja) * 1997-02-05 2005-07-13 日本電信電話株式会社 電子すかし作成方法
JP3055672B2 (ja) * 1997-02-14 2000-06-26 日本電気株式会社 画像データのエンコードシステム及び画像入力装置
JPH1144163A (ja) * 1997-07-28 1999-02-16 Takenaka Komuten Co Ltd 耐震扉
JP2000048478A (ja) * 1998-05-26 2000-02-18 Yamaha Corp ディジタルコピー制御方法及びそれを用いた装置
US6140947A (en) * 1999-05-07 2000-10-31 Cirrus Logic, Inc. Encoding with economical codebook memory utilization
JP3178463B2 (ja) * 1999-08-31 2001-06-18 ヤマハ株式会社 電子情報処理方法及びシステム並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5912499A (ja) * 1982-07-12 1984-01-23 松下電器産業株式会社 音声符号化装置
JPH08241403A (ja) * 1995-02-01 1996-09-17 Internatl Business Mach Corp <Ibm> 画像の色変化のないディジタル・ウォーターマーキング
JPH09134125A (ja) * 1995-09-27 1997-05-20 Xerox Corp 文書作成方法及び文書読み取り方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1049259A4 *

Also Published As

Publication number Publication date
KR20010034083A (ko) 2001-04-25
JP3022462B2 (ja) 2000-03-21
DE69839312T2 (de) 2009-04-09
EP1049259A4 (en) 2005-07-06
KR100478959B1 (ko) 2005-03-25
DE69839312D1 (de) 2008-05-08
EP1049259A1 (en) 2000-11-02
EP1049259B1 (en) 2008-03-26
US6539356B1 (en) 2003-03-25
JPH11205153A (ja) 1999-07-30

Similar Documents

Publication Publication Date Title
WO1999037028A1 (fr) Codage d&#39;onde vibratoire et procede
JP4445328B2 (ja) 音声・楽音復号化装置および音声・楽音復号化方法
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
EP1598811A2 (en) Decoding apparatus and method
JP4464484B2 (ja) 雑音信号符号化装置および音声信号符号化装置
CN100514394C (zh) 对于语音代码进行数据嵌入/抽取方法、装置以及系统
Kheddar et al. High capacity speech steganography for the G723. 1 coder based on quantised line spectral pairs interpolation and CNN auto-encoding
JPH1097295A (ja) 音響信号符号化方法及び復号化方法
JP4420562B2 (ja) 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法
EP1554878A2 (fr) Embrouillage adaptatif et progressif de flux audio
EP1665234B1 (fr) Procede de transmission d un flux d information par insertion a l&#39;interieur d&#39;un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre
JPH09214636A (ja) データ埋め込み音声通信方法及び装置
EP1388845A1 (en) Transcoder and encoder for speech signals having embedded data
JPH11272299A (ja) 音声符号化時の透かしビットの埋込方法
JP4339793B2 (ja) 音響チャネルと圧縮によるデータ通信
Ding Wideband audio over narrowband low-resolution media
CN101320564B (zh) 数字语音通信系统
JP3365331B2 (ja) ベクトル量子化装置およびベクトル量子化方法
JP3088964B2 (ja) 振動波の符号化方法、復号化方法、及び振動波の符号化装置、復号化装置
JP6713424B2 (ja) 音声復号装置、音声復号方法、プログラム、および記録媒体
JP5174651B2 (ja) 低演算量符号励振線形予測符号化
JP2003099077A (ja) 電子透かし埋込装置、抽出装置及び方法
JP2005215502A (ja) 符号化装置、復号化装置、およびこれらの方法
JP2005062453A (ja) 秘話送信装置、秘話受信装置、秘話プログラム
JPH08328598A (ja) 音声符号化・復号化装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN IL KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020007007692

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 1998901084

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09600095

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1998901084

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020007007692

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1020007007692

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1998901084

Country of ref document: EP