EP0052041A1 - Procédé de détection de la fréquence de mélodie dans un signal de parole, et dispositif destiné à la mise en oeuvre de ce procédé - Google Patents

Procédé de détection de la fréquence de mélodie dans un signal de parole, et dispositif destiné à la mise en oeuvre de ce procédé Download PDF

Info

Publication number
EP0052041A1
EP0052041A1 EP81401684A EP81401684A EP0052041A1 EP 0052041 A1 EP0052041 A1 EP 0052041A1 EP 81401684 A EP81401684 A EP 81401684A EP 81401684 A EP81401684 A EP 81401684A EP 0052041 A1 EP0052041 A1 EP 0052041A1
Authority
EP
European Patent Office
Prior art keywords
alternations
test
signal
measurements
melody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP81401684A
Other languages
German (de)
English (en)
Other versions
EP0052041B1 (fr
Inventor
Alain Albarello
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thomson CSF SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson CSF SA filed Critical Thomson CSF SA
Publication of EP0052041A1 publication Critical patent/EP0052041A1/fr
Application granted granted Critical
Publication of EP0052041B1 publication Critical patent/EP0052041B1/fr
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the invention relates to the analysis of speech signals and more particularly to a method for detecting the melody frequency of voices heard in a speech signal and to a device intended for implementing this method.
  • voiced sounds are made up of vowels or liquid or sonic consonants and have well-defined spectral properties that are not found in unvoiced sounds made up of deaf consonants. These voiced sounds have a generally greater amplitude than unvoiced sounds and a very marked periodicity in the speech signal.
  • the value of the frequency corresponding to this periodicity is the melody frequency included, depending on the people between 60 and 300 Hz.
  • This melody frequency is a fundamental parameter of speech which is evaluated in most vocoders, the quality of the detection of this frequency directly influencing the quality of the speech restored after decoding.
  • the second, of temporal type seek a periodicity directly on the temporal signal. They generally use a reduced set of data, for example time intervals between zero crossings (or between signal maximums), or counting the signal's zero crossings for a determined duration; decision criteria. take into account the properties observed on the speech signals. Calculations are more reduced with this type of detection, but the corresponding detection devices do not perform very well in the presence of noise and during the transitions between voiced signal and unvoiced signal.
  • a method and a device for detecting the melody period using, as a data set, the measurements of the energy in the successive arches of the speech signal have also been described. This device benefits, compared to more common time type devices, from better noise immunity and from a more selective voicing criterion which limits false detections.
  • detection requires the cutting of the signal into frames of fixed length, the calculations allowing the recognition of a voiced sound can only be carried out with a delay frame. Furthermore, there is a risk of detection of the frequency twice the melody frequency because the criterion making it possible to avoid such detection is only effective in the middle of a neighboring segment. Finally, the division of the signal into frames of fixed length which are not linked to the content of the speech signal harms the quality of the measurement, in particular during the transitions between voiced signal and unvoiced signal.
  • the subject of the invention is a method of real-time detection of the melody frequency in speech, of the time type, using measurements of the energy between zero crossings, as well as measurements of the time intervals between these passages at zero. zero.
  • the method avoids false detections, in particular the detection of the double frequency, has good immunity against noise, and moreover does not significantly increase the complexity of the device intended for its implementation compared with known devices.
  • a method of detecting, in real time, the melody frequency in speech from a reduced set of data measured on this signal is mainly characterized in that this set is composed of a measurements. (i variable) of the energy in the successive alternations of this signal and of measurements t .
  • test procedure implemented on these data includes an acquisition phase during which a first series of tests confers, when it is verified, the acquired character in the neighborhood and results in the calculation of a first melody period value, and a holding phase during which a second series when confirmed, confirms the acquired character of the voicing and results in the updating of the value of the melody period, this second series of tests being repeated as long as the acquired character of the voicing is preserved and a new phase d acquisition being implemented when the acquired character of the settlement is lost.
  • the invention also relates to a device intended for the implementation of this melody frequency detection method.
  • the time intervals t (i variable) between zero crossings are stored in a first table and the corresponding sums a. are stored in a second table. These two tables are established in real time.
  • the discrimination between voiced and unvoiced signal segments is obtained by following different criteria depending on the phase: during a so-called “acquisition” phase, the device follows a first test procedure according to a first set of criteria, while during a second phase called “holding”, the device follows a second test procedure according to a second set of criteria. When, during this holding phase, the test indicates that the voiced character of the signal is lost, a new acquisition phase begins.
  • FIG. 1 The device for detecting the melody frequency intended for the implementation of this process very succinctly described above is represented in FIG. 1.
  • This device comprises an analog processing circuit 10 with two inputs, E 1 and E 2 respectively. suitable for connection to a microphone and line output amplifier.
  • This analog processing device comprises: an amplifier 11 whose input is connected to the input E 1 , a second variable gain amplifier 12 whose input is connected to the output of the amplifier 11 on the one hand, and directly at the entrance E 2 on the other hand.
  • the output of this low pass filter 13 is connected to the input signal from an analog to digital converter 20.
  • This converter also includes a clock input H setting the frequency of the samples taken from the analog signal.
  • This clock input is coupled to the output of a clock 1, delivering a signal at the frequency H. , via a frequency divider 2 whose output delivers a clock signal H.
  • the converter can deliver the digital values of the samples in the form of words of 8 binary elements, one binary element being reserved for the sign of the sample.
  • the device also includes a set of digital circuits 30 and a microprocessor 40.
  • the digital processing circuits are connected on the one hand to the output of the analog digital converter and to the clock output H, on the other hand to the microprocessor.
  • These circuits are more precisely: an accumulator 31 intended to add up the values of the successive samples which are supplied to its multiple signal input in the form of words of 8 binary elements by the converter; the sums are supplied in the form of words of 12 binary elements of which only the 8 most significant are transferred to the microprocessor 40 to be put in memory.
  • a zero detector 32 whose signal input receives the binary element characteristic of the sign of the samples supplied by the converter
  • This zero-crossing detection circuit is a simple logic circuit which compares the sign of the sample present at the output of the converter with the sign of the previous sample stored in this circuit.
  • This detector has an output which supplies an interrupt pulse 1 to the microprocessor 40.
  • the zero detector also includes a clock input H.
  • the digital processing circuits also include a counter 33 having an input connected to the output H of the divider 2 and a reset input, RESET; this counter allows the microprocessor to be given measurements of the time elapsed between two resets.
  • these circuits 30 also include a frame counter 34, the input of which is also connected to the output H of the divider 2 and the output of which supplies interrupt pulses 1 to the microprocessor, for displaying and storing the results obtained during a test procedure; this circuit also has a reset input, not shown.
  • the microprocessor 40 comprises: an MPU processing unit, 41; a random access memory RAM, 44, the content of which can be modified and read at will, and which makes it possible to store the values of the sums a and of time intervals t. as well as the intermediate values useful for detection; a read only memory, PROM, 45 in which the test program making it possible to determine the melody frequency is recorded; a display device 46 displaying when appropriate the detected values.
  • These elements 41 to 46 are connected to each other and to a PIA interface circuit, 42 via a bidirectional link bus 47, the interface circuit also being connected by bidirectional data buses 35, 36, 37 to the accumulator. reader 31 and counters 33 and 34.
  • the address bus and address decoders have not been shown in this diagram for simplicity.
  • Data acquisition from the filtered and sampled signal is obtained by the digital processing circuits in connection with the microprocessor in the following manner.
  • an interrupt pulse I e supplied by the zero crossing detector 32 to the interface circuit 42 controls the transfer of the content a. of the accumulator 31 in a first memory table 44 (via the link bus 35 between the accumulator and the interface circuit 42, the interface circuit 42 and the link bus 47 between the circuit interface and memory 44), and the transfer of content t. of the counter 33 in a second table of the memory 44 (via the link bus 36, the interface 42, and the link bus 47).
  • the interface circuit 42 controls the resetting to zero of the accumulator 31 and of the counter 33.
  • the test procedure takes place in real time, which makes it possible to limit the size of the RAM required, the two tables each having, for example, 256 memory boxes, and the new data being rewritten on the old already tested.
  • reading and writing indices of these tables are provided and an additional test, not detailed here, makes it possible to ensure in reading that the reading index does not exceed the writing index (in order to do not reuse values already tested) and in writing that the writing index does not exceed the reading index (which would cause the loss of untested values).
  • test procedure implemented from this data takes into account the form of the speech signal and takes place from a test program recorded in the program memory 45.
  • the test procedure characteristic of the detection method of the melody frequency will be explained in detail below in conjunction with the signal diagrams of FIGS. 2, 3, 4 and 9 and with the sequential diagrams of the test program represented in FIGS. 5 to 8.
  • FIG. 2 shows an example of a signal segment seen at the start of speech.
  • This signal consists of positive and negative alternations whose maximum amplitude, duration, and energy are variable.
  • the voiced signal is characterized by the fact that two successive alternations sives (of different signs) having energies higher than those of the alternations of the same sign preceding and following, can be detected in this signal. These particular alternations are repeated at an almost constant period, called the melody period.
  • the first test makes it possible to find two successive alternations of contrary signs, whose energies exceed given thresholds, S l p and S 1n , the beginning of the first of these two alternations which can constitute the beginning of the melody period when the following tests are also verified.
  • test I The flowchart of the corresponding test program is shown in FIG. 5, this test being designated by test I below.
  • the reading index of the tables of the memory 44, i is incremented.
  • a sum a i and the corresponding time interval t. are read from memory.
  • a test on the sign of the sum a i then makes it possible to test the value of the sum a i with respect to the thresholds defined above, S 1p and S 1n .
  • the "atest" pointer is set to zero.
  • a new reading of the variables is then undertaken.
  • the corresponding value of the sum a i is loaded into a register and constitutes the value a l p or a 1n , according to the sign of the sum, value likely to constitute the first sum of the beginning of the melody period.
  • the value of the corresponding time interval t. is loaded into a register and constitutes a value t p or t n according to the positive or negative sign of the corresponding sum.
  • This sign is also kept in memory in a "first sign" register in order to subsequently search for the start of the following periods only on sums of the same sign.
  • the value of the read index, i is also kept in memory in an "initial" register for possible later use.
  • the pointer "atest" is incremented by 1.
  • a test on the value of this pointer with respect to 2 is then implemented before searching for the following sum making it possible to characterize completely the beginning of the melody period.
  • This second sum must exceed the corresponding sign threshold. If it does not exceed the threshold, atest is reduced to zero and the test resumes with the following sum.
  • the point "atest” is again incremented and the test of the value of this pointer with respect to 2 is then checked. The first two values a l p and a 1n greater than the thresholds S l p and S 1n , are then found.
  • test procedure then continues to search for the start of the second melody period, at the same time as the time intervals between zero crossings are added to allow a value of the melody period to be determined later.
  • FIG. 6 represents the test procedure making it possible to determine the start of this second period and the first values of time intervals between the sums with the same sign of the first two groups.
  • the reading index is first incremented, then a sum and the corresponding time interval, a i and t i , are read from the memory.
  • the sign of the sum a i is tested and two parallel branches are possible according to the sign of the sum.
  • a check of the alternation of the sums sign is carried out. When this alternation condition is not verified, a referral makes it possible to change branches after correction of the overflow. These branch changes are shown in dotted lines in the figure.
  • the time interval, called "current”, t 12p or t 12n between the sum of the first group, a 1n or a 1p of the same sign as the sum a. being tested and the start of the alternation corresponding to this sum being tested is calculated as follows: t 12 p new value is equal to t 12p old value plus t p plus t. Then the value of the time interval between zero crossings, t i , corresponding to this sum under test is stored in a register (t or t n according to its sign) which makes it possible to calculate the time interval current.
  • Test II is then finished and test III, making it possible to search for the start of the third voiced period, can then begin.
  • FIG. 7 and FIG. 8 represent the test III which makes it possible, from the first and the second group of sums retained, to search for the third group of sums which can characterize this beginning of the third period; the acquisition of all the values of sums retained and the values of corresponding time intervals indicates that the voiced character of the signal is acquired and makes it possible then to calculate a value of the melody period which takes account of the time intervals between beginning of period.
  • T m characterizing a minimum melody period and e a maximum tolerated time difference
  • the first two tests, (1) and (2) on the value of the current time verify that the current time is long enough to constitute a melody period.
  • the third is on the contrary intended to ensure that this current time value is not too large.
  • this condition is that values of sums a i rejected are not greater than the previous sums same sign retained.
  • a l p, a 2 p and a 1n a 2n would normally be retained, but the condition described above implemented in test III will not be verified because a'3p, rejected by the duration criteria, is greater than a 2 p retained.
  • test program III The flow of test program III is shown in Figures 7 and 8. These figures also show the flow of test IV used when the voiced character of the signal is acquired to verify that the voiced character is maintained. Indeed, the sequences corresponding to the third test, test III, and to the fourth test, test IV, differ only by internal connections which depend on the value of the pointer "atest", and by the values of thresholds to which the sums are compared at. being tested. These threshold values and the corresponding test are defined as follows:
  • test branches III and IV Certain branches of the sequence are common to tests III and IV.
  • Non-detailed symmetrical negative branches correspond to the positive branches detailed in these figures. They differ only in the index of variables and thresholds (n instead of p and the direction of comparison for the test with respect to the threshold).
  • the diagram shown has a first entry, start of test III, l, when the voiced character is not acquired; another entry, 2, start test IV, allows when the voiced character is acquired, to reset the test variables and to update the previous values retained at 2 , a 3 and t 23 in a 1 , a 2 and t 12 ( for positive and negative values) when the search advances by a period.
  • This offset appears in FIG. 9 which represents a voiced signal segment tested during a maintenance phase (the old values are put in parentheses above the new values).
  • the reading index is incremented; the sum a and the time interval t i are read from the memory.
  • a test on the sign of the sum allows to choose the branch of the suitable test procedure. In the following it is assumed that the first sum retained in test I is positive, that is to say that the first sum tested in test III is also positive.
  • the current time interval t 23 p is calculated and this time interval is tested.
  • the search is reset from test I.
  • the time interval t. is put in memory and atest is brought back to 4 in order to cancel the previous sum retained and to start again the search for the beginning of the third period.
  • a "first sign" test is carried out. This test makes it possible to ensure that the value about to be retained (a 3n in the example retained) is indeed of opposite sign compared to the first sum retained.
  • a new test which is then the fourth test, is carried out (by switching to entry point 2, start of test IV) to find out whether the voiced character of the signal is maintained.
  • condition (4) over the time intervals is not checked, the value of atest is reduced by 2 and the test is repeated at point 3.
  • the basic procedure is similar to that of the third test but additional branches are provided so that particular signal configurations which do not satisfy all the conditions indicated above (which would lead for test III to a definitive rejection of the alternation considered) are interpreted as voiced signals when the voiced character was previously acquired.
  • These particular configurations are shown in FIG. 10. They are such that one of the alternations of the start of the n th period, the first or the second, which may be positive or negative, has an energy below the threshold S 4 p or S 4n fixed, the other exceeding the corresponding threshold.
  • the values of the different variables used for the procedure are shown in Figure 10 next to the corresponding configuration.
  • the test procedure is such that the correction branches "case 1", "case 2", make it possible to exit the IV test -by retaining the previous sum rejected at i-1 and calculating the period in a normal way.
  • the voiced - unvoiced decision is made directly from the test result, by the value of the period.
  • the value of the period, result of the procedure of test can be corrected by calculating an average value.
  • the measurement of the value of the melody period can be given in real time or with a delay frame, an output register being provided for storing the current value of the melody period at suitably chosen times.
  • the voiced - unvoiced decision logic can be a little more elaborate: For example, an additional duration criterion is introduced so that a voiced segment is always greater than 25 ms for example. Likewise, a segment whose detection method would indicate the unvoiced character but whose duration would be less than 25 ms is masked by the insertion of melody values interpolated from those evaluated on adjacent voiced segments.
  • the melody frequency detection method described above can be performed with a microprocessor of modest performance. It was implemented during its study on a ROCKWELL microcomputer, AIM 65, built around an MPU 6502 microprocessor.
  • test procedure described above by way of example and the detection device associated with it can be modified without departing from the scope of the invention.
  • the device represented in FIG. 1 comprises an interface circuit 42. It is also possible to use two PIA interface circuits, these possibly making it possible to carry out additional interruptions and to introduce several modes of execution, continuous real-time execution mode for a system in operation, or launched execution for a certain number of frames when the processing is carried out on recorded data.
  • the flowcharts of the test procedures described above can be modified, for example by modifying the order of the elementary tests when possible, without departing from the scope of the invention.
  • the threshold values indicated above by way of example can also be chosen for example according to the type of voice (male voice and female voice).

Abstract

L'invention se rapporte à la détection en temps réel de signal voisé et à la mesure de la fréquence de mélodie correspondante dans un signal de parole. Le procédé utilise un ensemble de données caractéristiques du signal de parole, fournies par des circuits de traitement (10, 20, 30): des mesures des intervalles de temps entre passages à zéro et des mesures de l'énergie dans les alternances de ce signal. La procédure de test mise en oeuvre par un microprocesseur (40) retient les alternances dont les énergies dépassent des seuils caractérisant les débuts de période de mélodie. Ces seuils sont prédéterminés pour les deux premières sommes successives retenues, puis dépendent des valeurs d'énergie des alternances précédentes retenues différemment selon que le caractère voisé du signal est acquis ou non. Des tests complémentaires sont mis en oeuvre pour minimiser les erreurs de détection. Application, notamment, au traitement des signaux de parole pour les vocodeurs.

Description

  • L'invention se rapporte à l'analyse de signaux de parole et plus particulièrement à un procédé de détection de la fréquence de mélodie des sons voisés dans un signal de parole et à un dispositif destiné à la mise en oeuvre de ce procédé.
  • Dans la parole, les sons voisés sont constitués de voyelles ou de consonnes liquides ou sonores et possèdent des propriétés spectrales bien définies qui ne se retrouvent pas dans les sons non voisés constitués par des consonnes sourdes. Ces sons voisés présentent une amplitude généralement plus importante que les sons non voisés et une périodicité très marquée dans le signal de parole. La valeur de la fréquence correspondant à cette périodicité (liée à la vibration des cordes vocales) est la fréquence de mélodie comprise, suivant les personnes entre 60 et 300 Hz.
  • Cette fréquence de mélodie est un paramètre fondamental de la parole qui est évalué dans la plupart des vocodeurs, la qualité de la détection de cette fréquence influant directement sur la qualité de la parole restituée après décodage.
  • L'analyse de l'état de la technique permet de distinguer deux classes de procédés et dispositifs de détection de la fréquence de mélodie :
    • Les premiers procèdent par analyse systématique du signal de parole, analyse du spectre ou autocorrélation, et mettent en oeuvre un volume de calculs généralement trop important pour conduire à des réalisations en temps réel au moyen de systèmes relativement simples.
  • Les seconds, de type temporel, recherchent une périodicité directement sur le signal temporel. Ils utilisent en général un ensemble de données réduit, par exemple des intervalles de temps entre passages à zéro (ou entre maximums du signal), ou le comptage des passages à zéro du signal pendant une durée déterminée ; les critères de décision. tiennent compte des propriétés observées sur les signaux de parole. Les calculs sont plus réduits avec ce type de détection, mais les dispositifs de détection correspondants ne sont pas très performants en présence de bruit et pendant les transitions signal voisé - signal non voisé. Un procédé et un dispositif de détection de la période de mélodie utilisant, comme ensemble de données, les mesures de l'énergie dans les arches successives du signal de parole ont également été décrits. Ce dispositif bénéficie, par rapport aux dispositifs de type temporel plus courants, d'une meilleure immunité contre le bruit et d'un critère de voisement plus sélectif qui limite les fausses détections. Cependant, la détection nécessite le découpage du signal en trames de longueur fixe, les calculs permettant la reconnaissance d'un son voisé ne pouvant être effectués qu'avec une trame de retard. Par ailleurs, il existe un risque de détection de la fréquence double de la fréquence de mélodie car le critère permettant d'éviter une telle détection n'est effectif qu'en milieu de segment voisé. Enfin, le découpage du signal en trames de longueur fixe qui ne sont pas liées au contenu du signal de parole nuit à la qualité de la mesure, en particulier pendant les transitions signal voisé - signal non voisé.
  • L'invention a pour objet un procédé de détection en temps réel de la fréquence de mélodie dans la parole, de type temporel, utilisant des mesures de l'énergie entre passages à zéro, ainsi que des mesures des intervalles de temps entre ces passages à zéro. Le procédé évite les fausses détections, en particulier la détection de la fréquence double, a une bonne immunité contre le bruit, et par ailleurs n'augmente pas sensiblement la complexité du dispositif destiné à sa mise en oeuvre par rapport aux dispositifs connus.
  • Selon l'invention, un procédé de détection, en temps réel, de la fréquence de mélodie dans la parole à partir d'un ensemble réduit de données mesurées sur ce signal, est principalement caractérisé en ce que cet ensemble est composé de mesures a. (i variable) de l'énergie dans les alternances successives de ce signal et de mesures t. associées des durées de ces alternances, et en ce que la procédure de test mise en oeuvre sur ces données comporte une phase d'acquisition pendant laquelle une première série de tests confère, lorsqu'elle est vérifiée, le caractère acquis au voisement et aboutit au calcul d'une première valeur de période de mélodie, et une phase de maintien pendant laquelle une seconde série de test confirme lorsqu'elle est vérifiée, le caractère acquis du voisement et aboutit à l'actualisation de la valeur de la période de mélodie, cette seconde série de tests étant répétée tant que le caractère acquis du voisement est conservé et une nouvelle phase d'acquisition étant mise en oeuvre lorsque le caractère acquis du voisement est perdu.
  • L'invention a également pour objet un dispositif destiné à la mise en oeuvre de ce procédé de détection de fréquence de mélodie.
  • L'invention sera mieux comprise et d'autres caractéristiques apparaîtront à l'aide de la description qui suit en référence aux figures annexées.
    • - La figure 1 est le schéma du dispositif de détection suivant l'invention.
    • - La figure 2 représente un exemple de segment de signal voisé, en début de parole ;
    • - Les figures 3 et 4 représentent d'autres exemples de segments de signaux voisés, en début de parole, risquant de conduire à de fausses détections ;
    • - Les figures 5, 6, 7 et 8 représentent des diagrammes séquentiels des différentes phases du procédé de détection de la fréquence de mélodie ;
    • - La figure 9 représente un exemple de segment de signal voisé en cours de parole ;
    • - La figure 10 représente quelques configurations particulières de l'énergie dans les alternances du signal voisé.
  • Le procédé de détection de la fréquence de mélodie utilise, pour rechercher la présence de signal voisé, et pour mesurer la période de mélodie correspondante, un ensemble réduit de données constitué de la façon suivante : le signal de parole est d'abord filtré par un filtre passe bas dont la fréquence de coupure est f = 800 Hz ; ce signal filtré est ensuite échantillonné. Puis, à partir du signal filtré et échantillonné, les données utiles à la détection sont obtenues par détection des passages à zéro de ce signal et "intégration" entre passages à zéro consécutifs ; les sommes correspondantes donnent une estimation de l'énergie dans chaque alternance positive ou négative du signal. Les intervalles de temps t (i variable) entre passages à zéro sont mis en mémoire dans une première table et les sommes correspondantes a. sont mises en mémoire dans une seconde table. Ces deux tables sont établies en temps réel. Enfin, à partir de cet ensemble de données réduit, la discrimination entre segments du signal voisés et non voisés est obtenue en suivant des critères différents selon les phases : durant une phase dite "d'acquisition", le dispositif suit une première procédure de test selon un premier ensemble de critères, tandis que durant une seconde phase dite "de maintien", le dispositif suit une seconde procédure de test selon un second ensemble de critères. Lorsque, au cours de cette phase de maintien, le test indique que le caractère voisé du signal est perdu, une nouvelle phase d'acquisition commence.
  • Durant ces procédures, des tests supplémentaires de protection sont introduits pour éviter les fausses détections.
  • Le dispositif de détection de la fréquence de mélodie destiné à la mise en oeuvre de ce procédé très succinctement décrit ci-dessus est représenté sur la figure 1. Ce dispositif comporte un circuit de traitement analogique 10 à deux entrées, E1 et E2 respectivement adaptées à une connexion à un microphone et à l'amplificateur de sortie d'une ligne. Ce dispositif de traitement analogique comporte : un amplificateur 11 dont l'entrée est reliée à l'entrée E1 , un second amplificateur à gain variable 12 dont l'entrée est reliée à la sortie de l'amplificateur 11 d'une part, et directement à l'entrée E2 d'autre part. Cet amplificateur 12 a sa sortie reliée à l'entrée d'un filtre passe bas 13 dont la fréquence de coupure est, comme indiqué ci-dessus, f = 800 Hz. La sortie de ce filtre passe bas 13 est reliée à l'entrée de signal d'un convertisseur analogique numérique 20. Ce convertisseur comporte par ailleurs une entrée d'horloge H fixant la fréquence des échantillons prélevés sur le signal analogique. Cette entrée d'horloge est couplée à la sortie d'une horloge 1, délivrant un signal à la fréquence H. , par l'intermédiaire d'un diviseur de fréquence 2 dont la sortie délivre un signal d'horloge H.
  • A titre d'exemple, le convertisseur peut délivrer les valeurs numériques des échantillons sous forme de mots de 8 éléments binaires, un élément binaire étant réservé au signe de l'échantillon.
  • Le dispositif comporte également un ensemble de circuits numériques 30 et un microprocesseur 40. Les circuits de traitement numériques sont reliés d'une part à la sortie du convertisseur analogique numérique et à la sortie d'horloge H, d'autre part au microprocesseur. Ces circuits sont plus précisément : un accumulateur 31 destiné à faire la somme des valeurs des échantillons successifs qui sont fournis à son entrée multiple de signal sous forme de mots de 8 éléments binaires par le convertisseur ; les sommes sont fournies sous forme de mots de 12 éléments binaires dont seuls les 8 de plus forts poids sont transférés au microprocesseur 40 pour être mis en mémoire. Un détecteur de zéro 32 dont l'entrée de signal reçoit l'élément binaire caractéristique du signe des échantillons fournis par le convertisseur Ce circuit de détection de passages à zéro est un circuit logique simple qui compare le signe de l'échantillon présent à la sortie du convertisseur avec le signe de l'échantillon précédent mis en mémoire dans ce circuit. Ce détecteur a une sortie qui fournit une impulsion d'interruption 1 au microprocesseur 40. Le détecteur de zéro comporte également une entrée d'horloge H. Les circuits de traitement numériques comportent également un compteur 33 ayant une entrée reliée à la sortie H du diviseur 2 et une entrée de remise à zéro, RAZ ; ce compteur permet de donner au microprocesseur des mesures du temps écoulé entre deux remises à zéro. Enfin, ces circuits 30 comportent également un compteur de trames 34 dont l'entrée est également reliée à la sortie H du diviseur 2 et dont la sortie fournit des impulsions d'interruption 1 au microprocesseur, pour l'affichage et la mise en mémoire des résultats obtenus lors d'une procédure de test ; ce circuit a aussi une entrée de remise à zéro, non représentée.
  • Le microprocesseur 40 comporte : une unité de traitement MPU, 41 ; une mémoire vive RAM, 44, dont le contenu peut être modifié et lu à volonté, et qui permet de mettre en mémoire les valeurs des sommes a et des intervalles de temps t. ainsi que les valeurs intermédiaires utiles à la détection ; une mémoire morte, PROM, 45 dans laquelle est enregistré le programme de test permettant de déterminer la fréquence de mélodie ; un dispositif d'affichage 46 affichant lorsqu'il y a lieu les valeurs détectées. Ces éléments 41 à 46 sont reliés entre eux et à un circuit d'interface PIA, 42 via un bus de liaison bidirectionnel 47, le circuit d'interface étant relié également par des bus de données bidirectionnels 35, 36, 37 à l'accumulateur 31 et aux compteurs 33 et 34. Le bus d'adresse et les décodeurs d'adresse n'ont pas été représentés sur ce schéma pour simplifier.
  • L'acquisition des données à partir du signal filtré et échantillonné est obtenue par les circuits de traitement numériques en liaison avec le microprocesseur de la manière suivante.
  • Comme indiqué ci-dessus, une impulsion d'interruption Ie fournie par le détecteur de passages à zéro 32 au circuit d'interface 42 commande le transfert du contenu a. de l'accumulateur 31 dans une première table de la mémoire 44 (par l'intermédiaire du bus de liaison 35 entre l'accumulateur et le circuit d'interface 42, du circuit d'interface 42 et du bus de liaison 47 entre le circuit d'interface et la mémoire 44), et le transfert du contenu t. du compteur 33 dans une seconde table de la mémoire 44 (via le bus de liaison 36, l'interface 42, et le bus de liaison 47).
  • Après ces transferts, le circuit d'interface 42 commande la remise à zéro de l'accumulateur 31 et du compteur 33. La procédure de test se déroule en temps réel, ce qui permet de limiter la taille de la R.A.M nécessaire, les deux tables possédant chacune, par exemple, 256 cases mémoire, et les nouvelles données étant réinscrites sur les anciennes déjà testées. Pour cela, des indices de lecture et d'écriture de ces tables sont prévus et un test annexe, non détaillé ici, permet de s'assurer en lecture que l'indice de lecture ne dépasse pas l'indice d'écriture (afin de ne pas réutiliser des valeurs déjà testées) et en écriture que l'indice d'écriture ne dépasse pas l'indice de lecture (ce qui ferait perdre des valeurs non testées).
  • La procédure de test mise en oeuvre à partir de ces données prend en compte la forme du signal de parole et se déroule à partir d'un programme de test enregistré dans la mémoire de programme 45. La procédure de test caractéristique du procédé de détection de la fréquence de mélodie va être expliquée en détails ci-après en liaison avec les diagrammes de signaux des figures 2, 3, 4 et 9 et avec les diagrammes séquentiels du programme de test représentés sur les figures 5 à 8.
  • La figure 2 représente un exemple de segment de signal voisé en début de parole. Ce signal est constitué d'alternances positives et négatives dont l'amplitude maximale, la durée, et l'énergie sont variables. Le signal voisé est caractérisé par le fait que deux alternances successives (de signes différents) ayant des énergies supérieures à celles des alternances de même signe précédentes et suivantes, peuvent être détectées dans ce signal. Ces alternances particulières se répètent à une période quasi-constante, dite période de mélodie.
  • D'une manière générale, le procédé de détection suivant l'invention consiste :
    • - pour la phase d'acquisition du signal voisé, à détecter trois groupes de deux alternances successives, dont les énergies (alp et a1n, a 2p et a2n, a et a ) et la configuration dans le temps répondent à un ensemble de critères ; lorsque ces critères sont vérifiés, le caractère voisé du signal est acquis, trois débuts de période de mélodie ayant été trouvés, et une première valeur de la période de mélodie est calculée ;
    • - pour l'entretien du caractère voisé en cours de test, il est vérifié que des alternances ayant des énergies dépassant des seuils définis en fonction des valeurs d'énergie des alternances précédentes retenues sont présentes dans le signal à des intervalles.de temps voisins de la période de mélodie initiale calculée ; la valeur de cette période est alors actualisée.
  • Lorsque le test d'entretien du caractère voisé n'est pas vérifié, une nouvelle procédure d'acquisition est engagée.
  • Un pointeur "atest" est prévu pour l'aiguillage dans les différents tests élémentaires, l'état de ce registre étant caractéristique de l'avancement de la détection :
    • - atest = 0 : début de la phase d'acquisition ; aucun test n'est vérifié ;
    • - atest = 1 : la première alternance susceptible de caractériser le début de la première période voisée est retenue ;
    • - atest = 2 : l'alternance successive de la première période voisée est retenue ;
    • - atest = 3 : la première alternance susceptible de caractériser le début de la seconde période voisée est retenue ;
    • - atest = 4 : l'alternance successive de la seconde période voisée est retenue ;
    • - atest = 5 : la première alternance susceptible de constituer le début de la troisième période voisée est retenue ;
    • - atest = 6 : l'alternance successive de la troisième période voisée est retenue ;
    • - atest = 7 : la première alternance susceptible de constituer le début d'une nième période voisée est retenue ;
    • - atest = 8 : la seconde alternance de la nième période voisée est retenue.
  • Avant de pouvoir effectuer une première mesure de la période de mélodie, le premier test permet de trouver deux alternances successives de signes contraires, dont les énergies dépassent des seuils donnés, Slp et S1n, le début de la première de ces deux alternances pouvant constituer le début de la période de mélodie lorsque les tests suivants sont également vérifiés.
  • L'organigramme du programme de test correspondant est représenté sur la figure 5, ce test étant désigné par test I dans la suite. Après une phase d'initialisation de toutes les variables, l'indice de lecture des tables de la mémoire 44, i, est incrémenté. Ensuite une somme ai et l'intervalle de temps correspondant t. sont lus dans la mémoire. Un test sur le signe de la somme ai permet alors de tester la valeur de la somme ai par rapport aux seuils définis ci-dessus, S1p et S1n. Lorsque ce test est négatif le pointeur "atest" est mis à zéro. Une nouvelle lecture des variables est alors entreprise. Lorsque l'un de ces tests est positif, la valeur correspondante de la somme ai est chargée dans un registre et constitue la valeur alp ou a1n, suivant le signe de la somme, valeur susceptible de constituer la première somme d'un début de période de mélodie. La valeur de l'intervalle de temps correspondant t. est chargée dans un registre et constitue une valeur tp ou tn suivant le signe positif ou négatif de la somme correspondante. Ce signe est par ailleurs gardé en mémoire dans un registre "signe premier" afin de ne rechercher ultérieurement le début des périodes suivantes que sur des sommes de même signe. De plus, la valeur de l'index de lecture, i, est également gardée en mémoire dans un registre "initial" pour être utilisée éventuellement ultérieurement. Lorsque cette première somme est détectée, le pointeur "atest", initialement à zéro, est incrémenté de 1. Un test sur la valeur de ce pointeur par rapport à 2 est alors mis en oeuvre avant de rechercher la somme suivante permettant de caractériser complètement le début de la période de mélodie. Cette seconde somme doit dépasser le seuil de signe correspondant. Si elle ne dépasse pas le seuil, atest est ramené à zéro et le test reprend avec la somme suivante. Lorsque cette deuxième somme de signe contraire est également trouvée, le point "atest" est à nouveau incrémenté et le test de la valeur de ce pointeur par rapport à 2 est alors vérifié. Les deux premières valeurs alp et a1n supérieures aux seuils Slp et S1n, sont alors trouvées.
  • La procédure de test se poursuit alors pour la recherche du début de la seconde période de mélodie, en même temps que les intervalles de temps entre passages à zéro sont additionnés pour permettre de déterminer, ultérieurement, une valeur de la période de mélodie.
  • La figure 6 représente la procédure de test permettant de déterminer le début de cette deuxième période et les premières valeurs d'intervalles de temps entre les sommes retenues de même signe des deux premiers groupes. Comme précédemment l'indice de lecture est d'abord incrémenté, puis une somme et l'intervalle de temps correspondant, ai et ti, sont lus dans la mémoire. Le signe de la somme ai est testé et deux branches parallèles sont possibles suivant le signe de la somme. Au début de chaque branche, une vérification de l'alternance du signe des sommes est effectuée. Lorsque cette condition d'alternance n'est pas vérifiée, un aiguillage permet de changer de branche après correction du débordement. Ces changements de branches sont représentés en pointillés sur la figure. Lorsque la condition d'alternance est bien vérifiée, l'intervalle de temps, dit "courant", t12p ou t12n entre la somme du premier groupe, a1n ou a1p de même signe que la somme a. en cours de test et le début de l'alternance correspondant à cette somme en cours de test est calculé de la façon suivante : t12p nouvelle valeur est égale à t12p ancienne valeur plus tp plus t . Puis la valeur de l'intervalle de temps entre passages à zéro, ti , correspondant à cette somme en cours de test est mise en mémoire dans un registre (t ou tn suivant son signe) qui permet de calculer l'intervalle de temps courant.
  • La valeur de cet intervalle de temps courant, soit t12p ou t12n, est alors comparée à la valeur maximum TM de la période de mélodie ; cette valeur TM étant une donnée préenregistrée :
    • - Lorsque cet intervalle de temps courant est supérieur à TM , les premières alternances retenues, correspondant aux sommes alp et aln' ne pouvaient pas correspondre à un début de période de mélodie et le programme est réaiguillé vers le premier test, après réinitialisation des valeurs de temps courant et de la variable "atest", et incrémentation de la valeur du registre "initial" mise en mémoire.
    • - Par contre, lorsque la valeur de temps courant ne dépasse pas la période maximale TM , la valeur de la somme correspondante ai est comparée à un seuil fonction de la valeur de la première somme de même signe retenue.
    • - En effet, les sommes du deuxième groupe permettant de caractériser le début de la deuxième période ont des valeurs situées dans un voisinage des valeurs des premières sommes retenues. Dans l'exemple mis en oeuvre, le test est effectué par rapport à des valeurs de seuil :
      Figure imgb0001
      c'est-à-dire que ces valeurs de seuil sont égales aux plus grandes, en valeur absolue, des deux valeurs ¾a1p et Slp pour la première, et ¾a1n et S1n pour la seconde :
    • - Lorsque le résultat de ce test est négatif, un test sur la valeur du pointeur "atest" est réalisé, de façon à incrémenter l'indice de lecture i et à calculer directement la valeur du temps courant sans effectuer de test sur la valeur suivante de la somme ; en effet cette somme suivante ne peut pas constituer le début de la seconde période compte tenu de son signe (atest est alors égal à 2).
    • - Par contre, lorsque le résultat du test sur la valeur de la somme est positif, la valeur de la somme correspondante peut constituer la première somme a2p ou a2n du deuxième groupe, correspondant au début de la seconde période, et la variable "atest" est incrémentée. Seule la première des deux sommes a été trouvée et un test du pointeur "atest" par rapport à "4" permet d'engager une nouvelle procédure de test puisque, à ce moment atest = 3. Les mêmes tests sur la valeur suivante permettent soit de vérifier les mêmes critères, au signe près, sur la somme suivante, soit de retourner au début du test I après réinitialisation lorsque le critère de durée par rapport à la période maximale n'est pas vérifié ou au début du test II lorsque le critère de durée est vérifié mais pas le critère sur la valeur de la somme. Alors atest est ramené à la valeur 2 car la somme précédente retenue ne peut constituer le début de la deuxième période puisque la somme suivante ne peut être retenue.
    • - Lorsque les deux valeurs successives ont été trouvées le pointeur "atest", qui est à nouveau incrémenté, a alors la valeur quatre ; ce qui indique que le second test est terminé. Une dernière comparaison de la différence entre la valeur du temps courant t12p et la valeur du temps courant t12n (chacune de ces deux valeurs pouvant donner une valeur de la période de mélodie) permet de vérifier que cette différence est inférieure à un écart de temps déterminé, tpn; ; ce test permet de s'assurer que le signal est suffisamment régulier pour qu'on puisse caractériser une période de mélodie et permet d'éliminer les erreurs évidentes. tpn peut être choisi égal à 256 µS (soit 20 échantillons à 7,8 kHz). Cet écart entre t12p et t12n est aussi l'écart entre les premières alternances des deux groupes retenues.
  • Le test II est alors terminé et le test III, permettant de rechercher le début de la troisième période voisée, peut alors commencer.
  • La figure 7 et la figure 8 représentent le test III qui permet, à partir du premier et du second groupe de sommes retenues, de rechercher le troisième groupe de sommes qui pourra caractériser ce début de troisième période ; l'acquisition de l'ensemble des valeurs de sommes retenues et les valeurs d'intervalles de temps correspondantes indique que le caractère voisé du signal est acquis et permet de calculer alors une valeur de la période de mélodie qui tient compte des intervalles de temps entre débuts de période.
  • Avant de décrire le déroulement du test III, les différents tests qui y sont réalisés sont présentés ci-dessous.
  • Comme pour les deux premiers tests, les valeurs de sommes a sont comparées à des valeurs de seuils ; ces valeurs de seuils S3p et S3n dépendent des sommes précédentes de même signe retenues de la façon suivante :
    Figure imgb0002
    Figure imgb0003
  • De plus, comme dans les deux premiers tests, les intervalles de temps courant (entre la somme retenue de même signe caractérisant le début de la seconde période et la somme en cours de test), t23p et t23n, sont comparés à des valeurs de durée définies de la façon suivante :
    Figure imgb0004
  • Tm caractérisant une période de mélodie minimum et e un écart de temps maximum toléré, sont des données préenregistrées. Les deux premiers tests, (1) et (2) sur la valeur du temps courant permettent de vérifier que le temps courant est assez long pour pouvoir constituer une période de mélodie. Le troisième est au contraire destiné à s'assurer que cette valeur de temps courant n'est pas trop grande.
  • Une condition supplémentaire de monotonie dans la progression des sommes est également requise afin d'éviter de détecter la demi- période. La figure 3 représente un segment de signal voisé qui, si cette condition supplémentaire n'était pas imposée, conduirait à une détection de fréquence double en retenant les sommes indiquées a1p et a1n, a2p et a 2n , et a 3p et a3n, alors que a2p et a2n correspondent à des alternances en milieu de période de mélodie. Cette condition de monotonie est :
    • 1 a 2 - a1| + |a2 - a3| ≤ qmax, qmax étant une donnée préenregistrée, les sommes a1, a2 et a3 étant affectées des indices p ou n selon la branche du test en cours.
  • Par ailleurs, pour se protéger contre des erreurs d'acquisition susceptibles de se produire dans une configuration de signal voisé telle que celle représentée sur la figure 4, où les milieux de période sont retenus au lieu des débuts de période (ce qui peut conduire à une perte de synchronisation en milieu de segment voisé ou à la détection ultérieure de demi- période, fréquence de mélodie double), une autre condition supplémentaire est imposée : cette condition est que des valeurs de sommes ai rejetées ne soient pas supérieures aux sommes précédentes de même signe retenues. Pour le segment voisé représenté sur la figure 4, alp , a 2p et a1n, a 2n seraient normalement retenues, mais la condition décrite ci-dessus mise en oeuvre dans le test III ne sera pas vérifiée car a'3p , rejetée par les critères de durée, est supérieure à a2p retenue. Dans ce cas, ce sont, les valeurs a' qui correspondent aux débuts de période, et auraient dû être retenues, et l'ensemble de la recherche est reprise depuis le début du test I.
  • Le déroulement du programme de test III est représenté sur les figures 7 et 8. Ces figures représentent également le déroulement du test IV utilisé lorsque le caractère voisé du signal est acquis pour vérifier que le caractère voisé se maintient. En effet, les séquences correspondant au troisième test, test III, et au quatrième test, test IV, ne diffèrent que par des branchements internes qui dépendent de la valeur du pointeur "atest", et par les valeurs de seuils auxquelles sont comparées les sommes a. en cours de test. Ces valeurs de seuils et le test correspondant sont définis de la façon suivante :
    Figure imgb0005
  • Ces conditions sont proches de celles du test III mais la tolérance sur les seuils est plus large (¾ et .non plus
    Figure imgb0006
    ). De plus ces seuils, qui pourraient devenir trop faibles ou même changer de signe en fin de segment voisé sont bornés par les seuils prédéterminés S1p et S1n. Enfin, et surtout, lorsqu'une seule de ces conditions est vérifiée, le caractère voisé du signal continue à être considéré comme acquis pourvu que les conditions sur les intervalles de temps soient vérifiées. En effet, si cette disposition n'était pas adoptée, une diminution de l'énergie dans une seule des alternances du signal voisé pourrait conduire à décider que le caractère voisé est perdu, ou à détecter une période de mélodie double alors que la présence de la somme de signe contraire suffit à maintenir une décision correcte. Les tests sur les intervalles de temps sont exactement les mêmes que ceux mis en oeuvre dans le test III.
  • Certaines branches de la séquence sont communes aux tests III et IV. De plus, celles qui, après test du pointeur "atest" correspondent à atest = 4 ou 5 sont des branches de test III et celles qui correspondent à atest = 6 ou 7 sont des branches de test IV. Pour simplifier les figures, seules les branches relatives aux sommes positives ont été représentées. Des branches négatives symétriques non détaillées correspondent aux branches positives détaillées sur ces figures. Elles ne diffèrent que par l'indice des variables et des seuils (n au lieu de p et le sens de la comparaison pour le test par rapport au seuil).
  • Le diagramme représenté comporte une première entrée, début test III, l, lorsque le caractère voisé n'est pas acquis ; une autre entrée, 2, début test IV, permet lorsque le caractère voisé est acquis, de réinitialiser les variables de test et d'actualiser les valeurs précédentes retenues a2 , a 3 et t 23 en a1, a2 et t12 (pour les valeurs positives et négatives) lorsque la recherche avance d'une période. Ce décalage apparaît sur la figure 9 qui représente un segment de signal voisé testé lors d'une phase de maintien (les anciennes valeurs sont mises entre parenthèses au-dessus des nouvelles valeurs). Puis dans une branche commune à test III et test IV, l'indice de lecture est incrémenté ; la somme a et l'intervalle de temps ti sont lus dans la mémoire. Un test sur le signe de la somme permet de choisir la branche de la procédure de test convenable. Dans la suite on suppose que la première somme retenue dans test I est positive, c'est-à-dire que la première somme testée dans test III est également positive. L'intervalle de temps courant t23p est calculé et cet intervalle de temps est testé.
  • Si cet intervalle est trop court pour pouvoir correspondre à une période de mélodie (t23p<t12p - e ou t23p<tmin) et que la somme en cours de test est cependant supérieure à a2p, les premières sommes retenues étaient mauvaises (figure 4) et toute la recherche est réinitialisée à partir du test I, car le caractère voisé n'était pas acquis (atest = 4). Par contre, si cette somme n'est pas supérieure à a2p , ce qui est le cas normal, le temps courant est actualisé et l'indice de lecture est incrémenté pour la lecture d'une valeur de temps ti, mise en mémoire dans le registre permettant de calculer le temps courant, et le temps courant est calculé. Puis le test est repris au niveau de la première incrémentation de l'indice de lecture (point 3), ce qui permet de tester l'alternance suivante de même signe.
  • Si l'intervalle de temps t23p n'est pas trop court mais au contraire qu'il dépasse la valeur t12p + e, toutes les variables sont réinitialisées et la recherche est reprise à partir du test I car le début d'une troisième période n'a pas été trouvé.
  • Si l'intervalle de temps t23p n'est pas trop court et qu'en même temps il ne dépasse pas la valeur t12p + e, cet intervalle peut correspondre à la période de mélodie. En conséquence, le test sur la valeur de la somme par rapport au seuil Sp (S3p dans ce test III) est effectué. Si ce test n'est pas vérifié, la valeur du temps courant est actualisée, l'indice de lecture est incrémenté et l'intervalle de temps ti qui lui correspond est mis en mémoire. Le test de l'alternance suivante de même signe est entrepris par retour au point 3 du test.
  • Lorsque la somme ai est supérieure au seuil la première somme a3 de la troisième période (a3p dans l'exemple retenu, "signe premier" étant positif) est trouvée à condition que le critère de monotonie entre les valeurs a1, a2 et a3 indiqué ci-dessus soit également vérifié. Alors que a3p = a.. Sinon le test est repris au début de test I.
  • La valeur de atest est alors incrémentée (atest = 5) (figure 8), puis cette valeur de atest est comparée à 6 et 8. Comme le test III n'est pas terminé, ce test est négatif. En reprenant le test III au point 3 il reste à vérifier par l'autre branche (branche négative dans l'exemple retenu) que l'énergie dans l'alternance suivante dépasse également le seuil qui lui est associé pour que cette somme puisse être retenue comme la seconde de la troisième période. Pour cela les mêmes tests sur l'intervalle de temps sont réalisés. Lorsque cet intervalle (t23n dans l'exemple retenu est trop court et que la somme a. en cours de test est supérieure à a2n, toute la recherche est réinitialisée à partir de test I, car le caractère voisé n'était pas acquis (atest = 5). Par contre si cette somme n'est pas supérieure à a2n, le temps courant est actualisé, la valeur de atest est ramenée à 4 et le test III reprend au point 3 sur la somme suivante pour recommencer la recherche du début de troisième période.
  • Si l'intervalle de temps (t23n) dépasse la valeur maximale, la recherche est réinitialisée à partir de test I. De même, si la valeur en cours de test ne dépasse pas le seuil correspondant S3n (comme lors d'un échec sur les deux premiers tests de durée) le temps courant est calculé, l'intervalle de temps t. est mis en mémoire et atest est ramené à 4 afin d'annuler la somme précédente retenue et de recommencer la recherche du début de troisième période. Après le test du critère de monotonie (retour au début de test I si ce critère n'est pas vérifié) atest étant égal à 5, un test sur "signe premier" est effectué. Ce test permet de s'assurer que la valeur sur le point d'être retenue (a3n dans l'exemple retenu) est bien de signe contraire par rapport à la première somme retenue.
  • Puis comme précédemment, le pointeur atest est incrémenté et atest est alors égal à 6. La deuxième alternance de la 3e période est trouvée. Le même critère que dans test II sur la différence des périodes débutant à des alternances de signes contraires est alors vérifié pour éliminer les erreurs évidentes: t23n - t23p |<tpn - (4). Si cette condition est vérifiée, la valeur de la période de mélodie est calculée :
    Figure imgb0007
  • Un nouveau test, qui est alors le quatrième test, est effectué (par aiguillage au point d'entrée 2, début test IV) pour rechercher si le caractère voisé du signal se maintient.
  • Si la condition (4) sur les intervalles de temps n'est pas vérifiée, la valeur de atest est diminuée de 2 et le test reprend au point 3.
  • Pour le quatrième test, la procédure de base est semblable à celle du troisième test mais des branches supplémentaires sont prévues afin que des configurations particulières de signaux qui ne satisfont pas toutes les conditions indiquées ci-dessus (ce qui conduirait pour le test III à un rejet définitif de l'alternance considérée) soient interprétées comme des signaux voisés lorsque le caractère voisé était précédemment acquis. Ces configurations particulières sont représentées sur la figure 10. Elles sont telles que l'une des alternances du début de la nième période, la première ou la seconde, qui peut être positive ou négative, a une énergie inférieure au seuil S4p ou S4n fixé, l'autre dépassant le seuil correspondant. Pour chacune de ces configurations, les valeurs des différentes variables utilisées pour le déroulement de la procédure sont indiquées sur la figure 10 à côté de la configuration correspondante.
  • Lorsque, atest étant égal à 6, la somme retenue a; est telle que
    Figure imgb0008
    ou
    Figure imgb0009
    alors que le signe, respectivement négatif et positif, ne correspond pas à celui attendu, "signe premier" étant respectivement positif et négatif, la procédure de test est telle que les branches de correction "cas 1", "cas 2", permettent de sortir du test IV -en retenant la somme précédente rejetée ai-1 et en calculant la période de façon normale.
  • Lorsque, atest étant égal à 7, le signe de la somme en cours de test est celui attendu, ai < 0 et signe premier positif ou ai > 0 et signe premier négatif, mais que cette somme est inférieure en valeur absolue au seuil ou lorsque atest étant égal à 7, l'intervalle de temps courant est devenu trop grand, t23p> t12p + e ou t23n > t12n + e, seule la première somme de la nième période (respectivement a3p et a3n pour les cas 3 et 4) est retenue et la période de mélodie est alors égale à l'intervalle de temps correspondant, t23p ou t23n. Ces corrections sont très importantes car ces configurations particulières se produisent fréquemment et conduiraient si elles n'étaient pas prises en compte à une détection période double.
  • La décision voisé - non voisé est effectuée directement à partir du résultat du test, par la valeur de la période. Lorsque la décision est demandée a un rythme différent de celui du test, au rythme trame (donné le compteur trame 34) par les impulsions d'interruption de sortie 15 appliquées au microprocesseur 40, la valeur de la période, résultat de la procédure de test, peut être corrigée en calculant une valeur moyenne. En effet la mesure de la valeur de la période de mélodie peut être donnée en temps réel ou avec une trame de retard, un registre de sortie étant prévu pour la mise en mémoire de la valeur courante de la période de mélodie à des instants convenablement choisis. Lorsqu'en cours de procédure de test, le test III ou le test IV échoue, ou lorsque aucun passage à zéro n'est détecté pendant une trame, ce.registre de sortie est remis à zéro.
  • Cependant la logique de décision voisé - non voisé peut être un peu plus élaborée : Par exemple, un critère de durée supplémentaire est introduit de façon qu'un segment voisé soit toujours supérieur à 25 ms par exemple. De même un segment dont le procédé de détection indiquerait le caractère non voisé mais dont la durée serait inférieure à 25 ms est masqué par l'insertion de valeurs de mélodie interpolées à partir de celles évaluées sur des segments voisés adjacents.
  • Le procédé de détection de la fréquence de mélodie décrit ci-dessus peut être exécuté avec un microprocesseur de performances modestes. Il a été mis en oeuvre lors de son étude sur un micro-ordinateur ROCKWELL,AIM 65, bâti autour d'un microprocesseur MPU 6502.
  • La procédure de test décrite ci-dessus à titre d'exemple et le dispositif de détection qui lui est associé peuvent être modifiés sans pour autant sortir du cadre de l'invention.
  • Par exemple, le dispositif représenté sur la figure 1 comporte un circuit d'interface 42. Il est également possible d'utiliser deux circuits PIA d'interface, ceux-ci permettant éventuellement d'effectuer des interruptions supplémentaires et d'introduire plusieurs modes d'exécution, mode d'exécution en temps réel continu pour un système en cours d'exploitation, ou exécution lancée pour un certain nombre de trames lorsque le traitement est effectué sur des données enregistrées.
  • Par ailleurs, les organigrammes des procédures de test décrits ci-dessus peuvent être modifiés, par exemple en modifiant l'ordre des tests élémentaires lorsque cela est possible, sans sortir du cadre de l'invention. De plus les valeurs de seuil indiquées ci-dessus à titre d'exemple peuvent également être choisies par exemple en fonction du type de voix (voix d'hommes et voix de femmes).

Claims (10)

1. Procéde de détection, en temps réel, de la fréquence de mélodie dans la parole à partir d'un ensemble réduit de données mesurées sur ce signal, caractérisé en ce que cet ensemble est composé de mesures ai(i variable) de l'énergie dans les alternances successives de ce signal et de mesures ti , associées, des durées de ces alternances, et en ce que la procédure de test mise en oeuvre sur ces données comporte une phase d'acquisition pendant laquelle une première série de tests confère, lorsqu'elle est vérifiée, le caractère acquis au voisement et aboutit au calcul d'une première valeur de période de mélodie, et une phase de maintien pendant laquelle une seconde série de tests confirme lorsqu'elle est vérifiée, le caractère acquis du voisement et aboutit à l'actualisation de la valeur de la période de mélodie, cette seconde série de tests étant répétée tant que le caractère acquis du voisement est conservé et une nouvelle phase d'acquisition étant mise en oeuvre lorsque le caractère acquis du voisement est perdu.
2. Procédé de détection selon la revendication 1, caractérisé en ce que la pemière série de tests consiste à sélectionner, dans la suite des mesures d'énergie dans les alternances successives du signal, ai , trois groupes de deux mesures successives a1p a1n, a2p - a2n, a3p - a3n dépassant des seuils prédéterminés S1p et S1n pour le premier groupe et des seuils S2p et S2n , S3p et S3n définis en fonction des énergies dans les alternances précédentes sélectionnées pour les groupes suivants, les intervalles de temps entre alternances de même signe sélectionnées, calculés à partir des durées ti des alternances, remplissant des critères définis, ces trois groupes d'alternances caractérisant les débuts de trois périodes de mélodie successives.
3. Procédé de détection, selon la revendication 2, caractérisé en ce que les seuils S2p et S2n sont définis comme étant la valeur la plus grande de ¾a1p et de S1p pour la première et de ¾a1n et S1n pour la seconde.
4. Procédé de détection selon la revendication 3, caractérisé en ce que les seuils S3p et S3n sont définis par les relations :
Figure imgb0010
et
Figure imgb0011
5. Procédé de détection selon l'une quelconque des revendications 2 à 4, caractérisé en ce que la seconde série de tests consiste à sélectionner, dans la suite ai des mesures d'énergie dans les alternances successives, deux mesures successives dont l'une au moins dépasse le seuil S4p ou S4n suivant le signe de l'alternance correspondante, ces seuils S4p et S4n définis en fonction des énergies dans les alternances précédentes sélectionnées limitant des voisinages plus larges par rapport aux valeurs précédentes retenues que ceux définis par les seuils S3p et S3n utilisés dans la première série de test, les intervalles de temps entre alternances de même signe sélectionnées, calculées à partir des durées ti des alternances, remplissant des critères définis, ces alternances retenues caractérisant le début d'une nième période de mélodie.
6. Procédé de détection selon la revendication 5, caractérisé en ce que les seuils S4p et S4n sont définis comme étant la valeur la plus grande de ¾[a2p + (a2p - a1p)] et de S1p pour la première et de
Figure imgb0012
(a2n + (a2n - a1n)] et de S1n pour la seconde.
7. Procédé de détection selon l'une quelconque des revendications précédentes, caractérisé en ce que, en plus des critères de seuils sur les mesures d'énergie, un critère de monotonie dans la variation de ces mesures d'énergie dans les alternances retenues est également vérifié dans les séries de test pour éviter la détection de la fréquence double de la fréquence de mélodie réelle.
8. Procédé de détection selon l'une quelconque des revendications précédentes, caractérisé en ce que des tests de protection sont prévus dans la première et dans la seconde série de tests pour écarter des alternances qui ne peuvent pas caractériser le début d'une nouvelle période de mélodie du fait de leur position dans le temps par rapport aux alternances précédentes retenues.
9. Procédé de détection selon l'une quelconque des revendications précédentes, caractérisé en ce qu'à la fin de la première série de test, un test sur les mesures d'énergie rejetées par rapport à l'énergie dans l'alternance précédente de même signe retenue est effectué, pour éviter une initialisation lors de la phase d'acquisition, en cours de période de mélodie et non au début de la période.
10. Dispositif destiné à la mise en oeuvre du procédé de détection selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comporte un circuit de traitement analogique à amplificateur (12) et filtre passe bas (13), un convertisseur analogique-numérique (20), des circuits de traitement numérique (30) délivrant à partir du signal filtré et numérisé des mesures (t.) des intervalles de temps èntre passages à zéro et des mesures de l'énergie (a.) dans les alternances de ce signal ; et un microprocesseur (40) comportant une mémoire de données (44) pour la mise en mémoire de ces mesures, une unité de traitement (41) pour le test de ces mesures selon les procédures de test mises en mémoire dans une mémoire programmable (45) de ce microprocesseur, un circuit d'interface (42) étant prévu entre le microprocesseur et les circuits de traitement numérique.
EP81401684A 1980-11-07 1981-10-23 Procédé de détection de la fréquence de mélodie dans un signal de parole, et dispositif destiné à la mise en oeuvre de ce procédé Expired EP0052041B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR8023881 1980-11-07
FR8023881A FR2494017B1 (fr) 1980-11-07 1980-11-07 Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede

Publications (2)

Publication Number Publication Date
EP0052041A1 true EP0052041A1 (fr) 1982-05-19
EP0052041B1 EP0052041B1 (fr) 1986-01-02

Family

ID=9247815

Family Applications (1)

Application Number Title Priority Date Filing Date
EP81401684A Expired EP0052041B1 (fr) 1980-11-07 1981-10-23 Procédé de détection de la fréquence de mélodie dans un signal de parole, et dispositif destiné à la mise en oeuvre de ce procédé

Country Status (4)

Country Link
US (1) US4443857A (fr)
EP (1) EP0052041B1 (fr)
DE (1) DE3173397D1 (fr)
FR (1) FR2494017B1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0092611A1 (fr) * 1982-04-27 1983-11-02 Koninklijke Philips Electronics N.V. Dispositif d'analyse de la parole
EP0292929A2 (fr) * 1987-05-29 1988-11-30 Kozo Iizuka Director-General of Agency of Industrial Science and Technology Procédé d'extraction de caractéristiques et de reconnaissance de la parole et dispositif de reconnaisance

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2556476B1 (fr) * 1983-12-13 1987-12-18 Thomson Csf Radiogoniometre a ecart de temps d'arrivee, monocanal, adapte au traitement de signaux modules en amplitude de type a3j ou a1
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
US5208861A (en) * 1988-06-16 1993-05-04 Yamaha Corporation Pitch extraction apparatus for an acoustic signal waveform
US5774862A (en) * 1989-06-19 1998-06-30 Ho; Kit-Fun Computer communication system
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
DE19841683A1 (de) * 1998-09-11 2000-05-11 Hans Kull Vorrichtung und Verfahren zur digitalen Sprachbearbeitung
CN104978971B (zh) * 2014-04-08 2019-04-05 科大讯飞股份有限公司 一种口语评测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1170306A (en) * 1967-11-16 1969-11-12 Standard Telephones Cables Ltd Apparatus for Analysing Complex Waveforms
JPS5712999B2 (fr) * 1974-04-08 1982-03-13
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
US4061878A (en) * 1976-05-10 1977-12-06 Universite De Sherbrooke Method and apparatus for speech detection of PCM multiplexed voice channels

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Electronics Letters, Vol. 14, No. 4, 16 Fevrier 1978 Stevenage (GB) N.R. MALIK et al.: "Adaptive Instantaneous Pitch Detector with Microcomputer Error Correction", pages 109-110. * "Hardware" et "Software" * *
IEEE Transactions on Communication Technology, Vol. COM-18, No. 4, Aout 1970 New York (US) T. BIALLY et al.: "A Digital Channel Vocoder", pages 435-441. * pages 438,439: "Pitch Detector" * *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0092611A1 (fr) * 1982-04-27 1983-11-02 Koninklijke Philips Electronics N.V. Dispositif d'analyse de la parole
EP0292929A2 (fr) * 1987-05-29 1988-11-30 Kozo Iizuka Director-General of Agency of Industrial Science and Technology Procédé d'extraction de caractéristiques et de reconnaissance de la parole et dispositif de reconnaisance
EP0292929A3 (en) * 1987-05-29 1990-02-14 Agency Ind Science Techn Method of feature extraction and recognition of voice and recognition apparatus

Also Published As

Publication number Publication date
FR2494017B1 (fr) 1985-10-25
DE3173397D1 (en) 1986-02-13
FR2494017A1 (fr) 1982-05-14
US4443857A (en) 1984-04-17
EP0052041B1 (fr) 1986-01-02

Similar Documents

Publication Publication Date Title
EP0867856B1 (fr) &#34;Méthode et dispositif de detection d&#39;activité vocale&#34;
EP0052041B1 (fr) Procédé de détection de la fréquence de mélodie dans un signal de parole, et dispositif destiné à la mise en oeuvre de ce procédé
NL192701C (nl) Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal.
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
EP0363233B1 (fr) Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d&#39;onde
FR2520912A1 (fr) Procede et appareil de reconnaissance de parole continue
FR2495330A1 (fr) Systeme de mesure de periode
BE1010336A3 (fr) Procede de synthese de son.
EP0027066B1 (fr) Dispositif de détection de signaux vocaux et système d&#39;alternat comportant un tel dispositif
FR2587137A1 (fr) Systeme de reconnaissance de signal vocal
EP1451548A2 (fr) System de detection de parole dans un signal audio en environnement bruite
EP0490740A1 (fr) Procédé et dispositif pour l&#39;évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit.
FR2498845A1 (fr) Montage pour modifier automatiquement le reglage d&#39;appareils de reproduction sonore, notamment de recepteurs radiophoniques
FR2485839A1 (fr) Procede de detection de parole dans un signal de circuit telephonique et detecteur de parole le mettant en oeuvre
FR2846458A1 (fr) Procede de traitement automatique d&#39;un signal de parole.
EP0071505A1 (fr) Procédé et dispositif pour l&#39;échantillonnage d&#39;un signal sinusoidal par un signal de fréquence multiple
Kim et al. Pitch detection with average magnitude difference function using adaptive threshold algorithm for estimating shimmer and jitter
EP0148672B1 (fr) Radiogoniomètre à écart de temps d&#39;arrivée, monocanal, adapté au traitement de signaux modulés en amplitude de type A3J ou A1
EP0337868B1 (fr) Procédé et dispositif de discrimination de signal
FR2944909A1 (fr) Dispositif de detection d&#39;evenements dans un flux audio
FR3039026A1 (fr) Methode pour transmettre une information a enregistrer
FR2684226A1 (fr) Procede et dispositif de decision de voisement pour vocodeur a tres faible debit.
FR2475771A1 (fr) Procedes et dispositif d&#39;enseignement automatique de la prononciation d&#39;une langue
CA2019774C (fr) Dispositif de detection dans un signal binaire d&#39;une signalisation formee nominalement d&#39;une serie continue d&#39;elements binaires de meme valeur
WO2021239280A1 (fr) Procede d&#39;identification d&#39;un locuteur

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Designated state(s): DE GB SE

17P Request for examination filed

Effective date: 19821004

RBV Designated contracting states (corrected)

Designated state(s): DE GB

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Designated state(s): DE GB

REF Corresponds to:

Ref document number: 3173397

Country of ref document: DE

Date of ref document: 19860213

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: 746

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 19920917

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 19920918

Year of fee payment: 12

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Effective date: 19931023

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 19931023

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Effective date: 19940701