WO2004038694A1 - 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法 - Google Patents

楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法 Download PDF

Info

Publication number
WO2004038694A1
WO2004038694A1 PCT/JP2003/013563 JP0313563W WO2004038694A1 WO 2004038694 A1 WO2004038694 A1 WO 2004038694A1 JP 0313563 W JP0313563 W JP 0313563W WO 2004038694 A1 WO2004038694 A1 WO 2004038694A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
music
sections
repetition
chorus
Prior art date
Application number
PCT/JP2003/013563
Other languages
English (en)
French (fr)
Inventor
Masataka Goto
Original Assignee
National Institute Of Advanced Industrial Science And Technology
Japan Science And Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2003025331A external-priority patent/JP4273202B2/ja
Priority claimed from JP2003342676A external-priority patent/JP4243682B2/ja
Application filed by National Institute Of Advanced Industrial Science And Technology, Japan Science And Technology Agency filed Critical National Institute Of Advanced Industrial Science And Technology
Priority to AT03758828T priority Critical patent/ATE556404T1/de
Priority to US10/532,400 priority patent/US7179982B2/en
Priority to EP03758828A priority patent/EP1577877B1/en
Priority to AU2003275618A priority patent/AU2003275618A1/en
Publication of WO2004038694A1 publication Critical patent/WO2004038694A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Definitions

  • the present invention relates to a method for selectively reproducing a special section such as a chorus section in a music piece, a device, and a method for detecting a characteristic section (a chorus section).
  • a rust is incompletely cut out by a specified length as a representative part of a music sound signal.
  • [Log an et al.] [Prior art 1] proposed a method of assigning a label to a clipped short frame (1 second) based on the feature value of that part, and considering the frame with the most frequent label as rust. . This label was assigned using a clustering / hidden Markov model based on the similarity between features in each section.
  • Bartsch et al. (Prior Art 2) divides music into short frames for each beat based on the result of beat tracking, and the similarity between these features over a specified length of section.
  • Foote [Prior Art 3] pointed out the possibility of extracting rust as an application example of boundary detection based on the similarity between features for each very short fragment (frame).
  • Prior art 1 Log an, B. and Chu, S .: Music S umm arizati on Us Key Prases, Proc. Of I CAS SP 2000, 11-749-752 (2000) .
  • Prior art 2 B artsch, MA and Wak efield, G.H .: To Catch A Chorus: Usinng Chroma—based Re presentati on sfor AudioTh humb nailing, Proc. Of WAS P AA 2001, 15-18 (2001).
  • Prior art 3 Foote, J .: Automated Audio Segmentati on Using A Measureof Au dio Novelty, Proc. Of I CME 2000, 1 -452 -455 (20
  • Nobuyuki Otsu Automatic threshold selection method based on discrimination and least square criterion, IEICE (D), J 63-D, 4, 349-356 (1980).
  • Prior art 8 Wak efield, GH: Mathematical R epresentation of Joint Time—Chromoma Distributions, SP IE 1999, 637-645 (1999)
  • Prior art 9 S avitzky, A and Go lay, MJ: Smo othing and D ifferentiation of Da taby S imp lified L east S qu ares Proce du res, An alytical Chemistry, 36, 8, 1627—163 9 (1964).
  • Prior Art 10 Masataka Goto, Hiroki Hashiguchi, Takuichi Nishimura, Ryuichi Oka: Music Database for RWC Research: Poppyura Music Database and Out of Copyright Music Database, Jikken Kenho Music Information Science, 2001—MUS-42 -6, 35-42 (2001).
  • Prior art 1 Van R ijsbergen, C.J .: Info rma ti on R etrieval, Butt rwo rths, sec ond ed 1 tion (1 9 7 9).
  • Another object of the present invention is to provide a music reproducing method and apparatus which can easily reproduce, in particular, a chorus section in a music using a music and audio reproducing apparatus, and an interface used in the apparatus. is there.
  • Another object of the present invention is to provide a music reproducing method and apparatus capable of visually confirming the distribution state of music structure characteristic sections and the reproduction state of music acoustic data, and an interface used in the apparatus. is there.
  • Another object of the present invention is to provide a music reproducing method and apparatus which can selectively reproduce a music structure characteristic section only by an operator operating a selection button, and an interface used for the apparatus. is there.
  • Another object of the present invention is to provide a music structure characteristic section extraction method that can easily extract a music structure characteristic section from statistical data.
  • Another object of the present invention is to provide a method and apparatus for detecting a rust section in music sound data that can overcome the problems of the conventional technology and can comprehensively detect a rust section appearing in a music piece. As well as providing programs.
  • Still another object of the present invention is to provide a method and an apparatus for detecting a rust section in music and audio data, which can detect where one rust section is located, and a producer. To provide a system.
  • Another object of the present invention is to provide a method, an apparatus, and a program for detecting a climax section in music and audio data that can detect a modulated climax section.
  • Another object of the present invention is to provide an apparatus for detecting a climax section in music and audio data, which can display not only a climax section but also other repetition sections on the display means.
  • Still another object of the present invention is to provide an apparatus for detecting a climax section in music and audio data that can reproduce not only a chorus section but also other repetitive sections. Disclosure of the invention
  • Rust is the most typical and exciting part of the overall structure of the song. Rust is usually the most repetitive and memorable in a song, so even people who have not been trained in specialized music can easily determine where it is when listening to music. Furthermore, the results of rust detection are useful in various applications. For example, when browsing a large number of songs or when presenting search results in a song search system, it is convenient to be able to play back (preview) the beginning of the chorus shortly (it can be regarded as a music version of the thumbnail of the image). In music search using singing voice etc. as a search key, accuracy and efficiency will be improved if the search target is limited to chorus sections. If the rust detection technique of the present invention is implemented, the rust section can be automatically indexed.
  • the music reproducing method of the present invention for reproducing music acoustic data using a music acoustic data reproducing apparatus for reproducing music acoustic data executes first to third steps.
  • the music sound data includes various reproducible sound data such as an analog sound signal, a digital sound signal, and MIDI data (standard MIDI file), and may be either compressed or uncompressed.
  • the format of the compression format is arbitrary.
  • the “plurality of music structure feature sections” described later include the above-described rust section and / or repetition section. Of course, only the chorus section or the repetition section may be used as a plurality of music structure feature sections.
  • a plurality of music structure feature section designation data for designating a plurality of music structure feature sections is prepared in advance for music sound data to be reproduced.
  • the plurality of music structure characteristic section designation data is data relating to the start position and the end position of the music structure characteristic section.
  • the start position and end position of the music structure feature section are expressed as position data in the target music sound data or position data expressed as the time required from when the performance actually starts to when it reaches that position. can do.
  • the plurality of music structure feature section designation data may be combined with the music sound data, that is, may be set, but may be present as data different from the music sound data.
  • a person who has already acquired music and sound data can later acquire a plurality of music structure characteristic section designation data corresponding to the music via a network or the like.
  • a plurality of music structure feature section designation data are combined with music sound data, a plurality of music structure feature section designation data are inevitably downloaded when music sound data is downloaded, and the correspondence between the two data is also determined. This is convenient because there is no need to consider it.
  • the method of extracting a plurality of music structure feature sections is arbitrary. For example, it may be automatically extracted from music sound data by an arbitrary method.
  • a person may specify (label) a plurality of music structure feature sections while playing back the music sound data, or may specify a plurality of music structure feature sections using a dedicated labeling editor.
  • a plurality of music structure characteristic sections are specified based on statistical data of reproduction behavior when a plurality of listeners play the target music acoustic data, and a plurality of music structure characteristic sections for specifying the specified plurality of music structure characteristic sections. May be created.
  • a section where the number of times that a plurality of listeners have auditioned or played back a large number of times can be specified as a music structure characteristic section.
  • data of a section where the number of times of reproduction by a plurality of listeners is large may be collected from a plurality of music playback devices for trial listening connected to the network. In this way, a large amount of data can be easily obtained.
  • the obtained data may be made visually recognizable as a histogram, and a plurality of music structure feature sections may be specified from the histogram. This makes it easy to identify the music structure characteristic section from the statistical data. On the basis of such people's audition, the song structure It is possible to easily extract a music structure characteristic portion from a music in which a detected portion is difficult to detect.
  • an interface for selecting an arbitrary music structure feature section from a plurality of music structure feature sections is prepared.
  • This interface relates between the operator and the device, and it suffices that the interface has at least a part selected and operated by the operator and a function of transmitting a selection result. Therefore, the simplest interface can consist of a selection button consisting of analog or digital switches.
  • the selection button When the interface is composed of only the selection buttons, the selection buttons are operated while listening to the music to be played.
  • the selection button alone does not tell which part of the music structure data section has the music structure feature section. Therefore, the selection button may be operated more than necessary. Also, if there are multiple types of music structure feature sections, the selection button alone cannot be used to intentionally listen to the same type of music structure feature sections.
  • the length of the music sound data is displayed by image display using the time axis, and the music sound data playback is also performed.
  • a device having an image display unit that displays the music sound data where the device is playing music sound data and the evening reproduction position and a plurality of music structure characteristic sections by image display using the time axis.
  • the playing time of a song is long, it may not be possible to display the entire playing time on one screen. In such a case, a display corresponding to a part of the playing time may be displayed on the screen, and the screen may be changed in a scrolling manner as time elapses.
  • the image display section When the image display section is provided on the video interface, when a plurality of music structure feature sections are composed of a plurality of chorus sections indicating a chorus portion of a song and a plurality of repeating sections indicating a repetitive portion. It is preferable that the image display unit displays the plurality of chorus sections and the plurality of repeating sections separately. If you do this, you can see the image display It is easy to arbitrarily select a rust section and a repetition section.
  • the interface has one or more selection buttons operated by an operator to select an arbitrary music structure feature section from a plurality of music structure feature sections.
  • selection buttons include an analog selection button that is operated by a human finger, and a selection button that determines on / off by clicking on the display of the button displayed on the display screen with a human finger or a cursor.
  • selection buttons such as an image display button) and a selection button of a type for determining selection by voice recognition are included.
  • the one or more chorus section selection buttons include a first chorus section selection button for selecting a previous chorus section and a second chorus section selection button for selecting a subsequent chorus section. This not only increases the degree of freedom of selection, but also makes it possible to reproduce the chorus section repeatedly.
  • one or more selection buttons include a first repetition section selection button for selecting a previous repetition section when selecting a plurality of repetition sections, and a second repetition section selection button for selecting a subsequent repetition section. May be included. In this case as well, not only the degree of freedom of selection is increased, but also the repeated section can be reproduced repeatedly.
  • the music sound data is reproduced based on the music structure characteristic section designation data corresponding to an arbitrary music structure characteristic section selected by the operator using the interface. Then, the reproduction position of the music sound data by the music sound data reproducing device is changed to the arbitrary music structure characteristic section. In other words, even during a performance, if a command to change the playback position is input to a specific music structure special section from the interface, the playback position will be changed based on the command.
  • the selected section may be reproduced.
  • the music sound data is reproduced based on the music structure feature section designation data corresponding to an arbitrary music structure feature section selected by the operator using the interface. What is necessary is just to make a raw apparatus reproduce
  • a music reproducing apparatus for performing the method of the present invention includes a music sound data reproducing apparatus for reproducing music sound data, and an arbitrary music structure characteristic section selected from a plurality of music structure characteristic sections in the music. It has the function to play back.
  • the music reproducing apparatus of the present invention further includes an interface, music structure characteristic section designation data storage means, and designation data providing means.
  • the interface has a function of selecting an arbitrary music structure feature section from a plurality of music structure feature sections.
  • the music structure feature section designation data storage means stores music structure feature section designation data for designating a plurality of music structure feature sections predetermined corresponding to music sound data to be reproduced.
  • the designated data providing section provides the music sound data reproducing apparatus with music structure characteristic section specifying data for specifying an arbitrary music structure characteristic section selected by the interface.
  • the music sound data reproducing device is configured to change the playback position to the music structure special section specified by the music structure characteristic section specification data provided by the specified data provision means.
  • any music structure characteristic section selected by the interface can be reproduced even while the music is being reproduced.
  • any music structure feature section selected by the interface can be played even when music is not being played.
  • the music structure characteristic section designation data storage means reads and stores the music structure characteristic section designation data accompanying the music sound data. Just fine.
  • the apparatus may further include a characteristic section designation data generating means for automatically extracting a plurality of music structure characteristic section in the music from the music sound data to create the music structure characteristic section designation data. If such means are provided, it becomes easy to apply the present invention even when playing back existing music.
  • the present invention uses an apparatus including a computer, a display that operates based on a command from the computer, and a music sound data reproducing apparatus that reproduces music sound data in accordance with a command from the computer.
  • the function for reproducing an arbitrary music structure feature section selected from a plurality of music structure feature sections in a music piece can also be specified as a program for realizing the function in the combination.
  • This program has several A function of configuring an interface on the display for selecting an arbitrary music structure feature section from the music structure feature sections of the plurality of music structure feature sections; and a plurality of music structure feature sections predetermined corresponding to the music sound data to be reproduced.
  • Function for configuring a music structure feature section designation data storing means for storing designated data, and the music structure feature section for designating the arbitrary music structure feature section selected by the interface A function constituting a designated data assigning means for giving designated data to the music sound data reproducing apparatus; and reproducing the music structure feature section designated by the music structure feature section designation data assigned from the designated data assigning means.
  • the function of giving a command to the music and sound reproducing apparatus is realized by the computer. It has the structure.
  • the function of configuring the interface on the display is to form at least one selection button on the display including a climax section selection button operated by an operator to select a climax section included in a plurality of music structure feature sections. It preferably has the function of performing
  • a music sampler equipped with a “rusting out” function (a rust section selection button).
  • the previewer can jump to the beginning of the chorus section (fast-forward) by simply pressing this chorus section selection button, freeing the user from having to search for the chorus section by himself.
  • playback can jump to the beginning of the repetition section of the next music structure.
  • a feature value extracting step is performed to detect a portion corresponding to the chorus section from the music sound data of the music in order to detect a chorus section repeated in a certain music.
  • a similarity calculation step is performed to calculate a repetition section list step, an integrated repetition section determination step, and a chorus section determination step.
  • sound feature values are sequentially obtained in predetermined time units from music sound data.
  • a predetermined time unit for example, 8 0 m In S
  • sampling is performed.
  • an acoustic characteristic is obtained for the sampled data.
  • the method of obtaining the acoustic feature is arbitrary.
  • a sound feature quantity obtained in the feature quantity extraction step a one-dimensional chroma vector obtained by adding the powers of the frequencies of 12 pitch names included in one octave over a plurality of octaves, respectively, is used. Can be used. 1 If the two-dimensional chroma vector is used as the acoustic feature, it is possible to extract not only the feature of the music over multiple octaves but also the feature that can be compared from the transposed music acoustic data.
  • the similarity calculation step a similarity between a plurality of acoustic features obtained for the music acoustic data is obtained.
  • the arithmetic expression used to determine the similarity is arbitrary, and any of the known similarity arithmetic expressions may be used.
  • the repetition section restore step a plurality of repetition sections that repeatedly appear in the music sound data are listed based on the similarity.
  • the similarity calculation step if the similarity between the acoustic feature obtained this time and all the acoustic features previously obtained is obtained, it is possible to detect the chorus section in real time.
  • the chroma vector at time t (acoustic features) and the lag 1 (0 ⁇ l ⁇ t) (1 is the lowercase letter of the alphabet L) Will be calculated.
  • one axis is a time axis and the other axis is a lag axis, and when the similarity is equal to or greater than a predetermined time length and equal to or greater than a predetermined threshold, the similarity is determined in advance.
  • Similar line segments having a time length corresponding to the length of the portion equal to or larger than the threshold value are listed as repetition sections based on the time axis. This listing may be an arithmetic listing, and does not need to be actually listed on the display means.
  • the time axis and the lag axis may be theoretical axes.
  • a similar line segment is defined as a line segment having a time length corresponding to the length of a portion having a similarity greater than or equal to a threshold when the similarity is greater than or equal to a predetermined time length and greater than or equal to a predetermined threshold.
  • the integrated repetition interval determination step the reciprocal relationship between the restored repetition intervals is checked, and one or more repetition intervals in the common interval on the time axis are integrated to determine one integrated repetition interval.
  • the restored similar segments existing in the common section of the time axis are integrated by grouping to determine an integrated repetition section.
  • the plurality of integrated repetition sections are classified into a plurality of types of integrated repetition section sequences based on the length of the common section and the positional relationship of the grouped similar line segments viewed from the lag axis. More specifically, the interrelationship between the restored repeated sections is determined by whether or not one or more repeated sections (similar line segments) exist in the past lag position corresponding to the common section on the time axis.
  • the integrated repetition section When the integrated repetition section is used, the integrated repetition section corresponding to the second and subsequent repetition sections for which the similarity is obtained can be obtained, but the first repetition section is not included in the integrated repetition section sequence. Therefore, in the integrated repetition interval determination step, the first repetition interval not included in the integrated repetition interval may be supplemented to create an integrated repetition interval sequence.
  • a chorus section is determined from a plurality of types of integrated repeating section sequences.
  • the rust section determination step for example, the integrated repetition section based on the average and the number and the length of the similarity of the integrated repetition section included in the integrated repetition section sequence, The rustiness of the integrated repetition section included in the section sequence is obtained. Then, an integrated repetition section included in the integrated repetition section sequence having the highest rustiness is determined as a rust section. Note that the method of determining the rustiness is not limited to one, but if the judgment is made based on the criterion of rustiness, the detection accuracy can be increased accordingly.
  • the song contains transposition, proceed as follows. First, in the feature extraction step, one or two types of acoustic features with different modulation widths are obtained by shifting the acoustic features consisting of one-dimensional chroma vectors by one modulation width to 11 modulation widths. Next, in the similarity calculation step, the similarity between the acoustic feature obtained this time and all of the 12 types of acoustic features previously obtained is calculated as a one-dimensional chroma representing the present acoustic feature at time t. It is calculated as the similarity between the vector and the one-dimensional chroma vector representing all the past two types of acoustic features by the lag 1 (0 ⁇ l ⁇ t).
  • one axis is set to the time axis t and the other axis is set to lag 1 for each of the two types of acoustic features, and the similarity is equal to or greater than a predetermined threshold and equal to or greater than a predetermined threshold.
  • a similar line segment having a time length corresponding to the length of a portion whose similarity is equal to or greater than a predetermined threshold is set as a repetition section based on the time axis, and 12 types of lists are respectively restored. .
  • the listed similar line segments existing in the common section of the time axis are integrated by grouping to determine an integrated repetition section.
  • the multiple integrated repetition sections defined for the 12 types of lists are defined. It is classified into a plurality of types of integrated repetition section sequences that take into account a plurality of types of modulation. In this way, even in the case of music sound data including transposition, the similarity is obtained by shifting the feature amount of the transposed part by the shift of the 11-step modulation width, so that the feature amount of the transposed part is obtained. Can be correctly extracted. As a result, even if the repetition section is transposed, it is possible to determine with high precision whether or not the repetition section has the same characteristics (A mouth, B melody, rust).
  • a rust interval detecting device of the present invention for detecting a portion corresponding to a rust interval from the evening and displaying the same on a display means includes a feature amount extracting means for sequentially obtaining an acoustic feature amount in predetermined time units from music acoustic data, A similarity calculating means for calculating a similarity between a plurality of acoustic features obtained for the music sound data, and a repetition for listing a plurality of repetition sections repeatedly appearing in the music sound data based on the similarity Examine the interrelationship between the section restoration steps and the multiple repetition sections listed, integrate one or more repetition sections in the common section on the time axis, determine one integrated repetition section, and decide An integrated repetition section determining means for classifying the plurality of integrated repetition sections into a plurality of types of integrated repetition section sequences; and a rust section from the plurality of types of integrated repetition section sequences.
  • the integrated repeating section sequence including the chorus section or a plurality of types of integrated repeating section sequence is displayed on the display means.
  • the integrated repetitive section sequence including the chorus section is displayed in a display mode different from other integrated repetitive section sequences. In this way, the detected rust section can be clearly displayed in distinction from other repeated sections.
  • the integrated repeating section sequence including the chorus section or other integrated repeating section sequence may be selectively reproduced by the sound reproducing means without displaying the integrated repeating section sequence on the display means.
  • the sound reproducing means may be selectively reproduced by the sound reproducing means without displaying the integrated repeating section sequence on the display means.
  • the program used to implement the method of using a computer to detect a portion corresponding to a chorus section from the evening to detect a chorus section repeated in a certain music using a computer is a music sound data program.
  • a feature value extracting step for sequentially obtaining an acoustic feature amount in a predetermined time unit from the audio data, a similarity calculating step for finding a similarity between a plurality of acoustic feature amounts obtained for music acoustic data, and music based on the similarity.
  • Integrating repeated section determination step of classifying into interval sequence returns Ri it is configured to execute a chorus section determination step of determining a chorus sections of a plurality of types of integrated repeated section rows before Symbol computer.
  • FIG. 1 is a block diagram showing the concept of an embodiment of a music reproducing method according to the present invention.
  • Figure 2 (A) shows the screen of the editor for manual rust section labeling.
  • FIG. 3 is a block diagram showing a configuration of an embodiment of the music reproducing apparatus of the present invention.
  • FIG. 4 (A) automatically extracts a plurality of music structure characteristic sections in a music from music sound data.
  • FIG. 4B is a block diagram showing a modification of the music reproducing apparatus of the present invention provided with feature section designation data generating means for creating music section feature section designation data, and
  • FIG. 4B is a block diagram showing another modification. It is.
  • FIGS. 5A and 5B are diagrams showing an example of an interface display screen.
  • FIG. 6 is a flowchart showing an algorithm of a program used for realizing the interface.
  • FIG. 7 is a flowchart showing an algorithm of an operation of the interface when performing a normal reproduction operation.
  • FIGS. 8 (A) to 8 (C) are diagrams used to explain the selection of the chorus section.
  • FIGS. 9A to 9C are diagrams used to explain the selection of the chorus section.
  • FIGS. 10A to 10C are diagrams used to explain the selection of a repetition section.
  • FIGS. 11A and 11B are diagrams used to explain the selection of a repetition section.
  • FIGS. 12 (A) to 12 (C) are diagrams used to explain the selection of a repetition section.
  • FIG. 13 is a diagram used to explain the selection of a repetition section.
  • FIG. 14 is a diagram showing an actually created interface screen.
  • Fig. 15 shows the chorus section detection method of the present invention, which detects chorus sections in songs with modulation.
  • 4 is a flowchart illustrating processing steps of a method according to an embodiment.
  • FIG. 16 is a block diagram schematically showing a configuration of an example of an embodiment of a device for detecting a rust section according to the present invention.
  • FIG. 17 is a flowchart showing an example of an algorithm of a program used when the apparatus of FIG. 16 is realized using a computer.
  • FIG. 18 is a diagram for explaining spiral pitch perception.
  • FIG. 19 is a diagram used to describe a one-dimensional chroma vector.
  • FIG. 20 is a diagram used to explain the concept of calculating the similarity.
  • FIG. 21 is a diagram used to explain the concept of calculating the similarity.
  • Figure 22 shows a similar line segment, similarity r (t, 1), and a parameter set
  • FIG. 23 is a diagram showing an example of a similar line segment actually obtained.
  • FIG. 24 is a diagram used to explain the concept of similar line segments.
  • FIG. 25 is a diagram used to explain the concept of similar line segments.
  • FIG. 26 is a diagram used to explain the concept of similar line segments.
  • FIG. 27 is a diagram used to explain the concept of similar line segments.
  • FIG. 28 is a diagram used to explain how to set a threshold when obtaining a similar line segment.
  • FIG. 29 is a diagram used to explain how to set a threshold when obtaining a similar line segment.
  • FIG. 30 is a diagram used to explain a method of extracting a similar line segment.
  • FIG. 31 is a diagram used to explain integration of repetition sections.
  • FIG. 32 is a diagram used to explain integration of repetition sections.
  • FIG. 33 is a diagram illustrating an example of integration of the repetition section.
  • FIG. 34 is a diagram illustrating an example of integration of a repetition section.
  • FIG. 35 is a diagram showing a display example of the integrated repetition section sequence.
  • Figure 36 shows the difference between the one- and two-dimensional chroma vectors before and after transposition of a certain rust.
  • FIG. 37 is a diagram used to explain shift processing for coping with modulation.
  • FIG. 38 is a diagram showing that 12 types of lists are created for the modulation process.
  • FIG. 39 is a diagram used to explain an example of the assumption of the selection of the chorus section.
  • FIG. 40 is a diagram used to explain an example of the assumption of rust section selection.
  • FIG. 41 is a diagram showing a correct rust detection result at the end of the song of RWC-MDB-P-2001, No. 18. BEST MODE FOR CARRYING OUT THE INVENTION
  • ⁇ a, b ⁇ is either a or b
  • [a] is a symbol indicating that a can be omitted.
  • Nl, n2, n3, and n4 are positive integers representing the number of repetitions (often l ⁇ nl ⁇ 2, 1 ⁇ 2 ⁇ 4, n3 ⁇ 0, n4 ⁇ 0).
  • the intro (intro du ction) refers to the prelude
  • the verses A and B (verse A, verse B) refer to the introduction.
  • the sound signal of a section does not completely match the sound signal of another section that is considered to be a repetition section of the section, to determine that a section is repeated, It is necessary to judge the similarity between the obtained features. At this time, in order to be able to judge that there is repetition, even if the details of the sound signal in that section are slightly different each time it is repeated (the melody may be deformed, or the accompaniment bass or drum may not be played, etc.) Also, the similarity between the feature values in each section needs to be high. However, it is difficult to determine the similarity when the partial spectrum of each section is directly used as the feature amount.
  • the criterion of how high similarity can be considered repetition varies depending on the music. For example, in a song where similar accompaniment is frequently used, the similarity of many parts is generally higher. Therefore, unless the similarity of each section to be compared is a considerably high similarity, it is better not to judge that the section is a repetition section related to rust. Conversely, for a song whose accompaniment changes greatly when chorus is repeated, it is better to judge that the section to be compared is a repeated section even if the similarity of each section is slightly lower. It is easy for humans to manually set these criteria for a particular song. However, in order to automatically detect chorus sections from a wide range of music, the criteria for detecting chorus sections must be automatically changed according to the music currently being processed. This means that when evaluating the performance of a certain chorus section detection method, just because the method was able to detect chorus sections for several sample songs, it does not necessarily mean that the method is versatile. It means that there is no limit.
  • Exercise 3 Estimating the end point (start point and end point) of the repetition section Since the length of the chorus section (section length) varies from song to song, it is necessary to estimate where and how much chorus is along with each section length. At that time, since the section before and after the rust may be repeated together, the estimation of the end point needs to be performed by integrating the information of various places in the music. For example, if a song has a structure like (ABCBCC) (where A, B, and C are sections of A melody, B melody, and chorus, respectively), simply searching for a repeated section yields (BC) It is found as a single section. In this case, a process of estimating the end point of the section of C in (BC) based on the repetition information of the last C is required.
  • ABSCBCC structure like
  • a section that is frequently repeated in a music piece is detected as a chorus.
  • a monaural sound signal of music is used as an input, and there is no particular limitation on the number and types of instruments in a mixed sound.
  • the left and right are mixed and converted to a monaural signal.
  • the following is assumed.
  • the performance tempo is not constant and may vary. However, the chorus section is repeatedly performed as a section of fixed length, with a tempo almost similar each time. It is desirable that the interval be long, but the interval length has an appropriate acceptable range (7.7 to 40 sec in the current implementation).
  • FIG. 1 is a block diagram showing the concept of an embodiment of a music reproducing method according to the present invention.
  • the music playback position is automatically jumped to the beginning of a section (chorus section and repetition section) having a meaning in the music structure.
  • the music structure of music sound data such as music sound signals and standard MIDI files, is analyzed in advance, and the parts (the rust parts, which are repeatedly played) that the listener (user) is interested in are analyzed. Part) In other words, it provides a function that can automatically jump to the performance location to the music structure characteristic section.
  • the music sound data may be prepared on a music player such as a personal computer (server) or a CD player, or may be downloaded from a network.
  • a plurality of music structure feature section designation data for designating a music structure feature section in a music piece is prepared in advance for music sound data to be reproduced (first step).
  • a person specifies a plurality of music structure feature sections while playing back music sound data, and specifies a plurality of music structure feature sections for specifying the plurality of music structure feature sections based on the identification result. Create data. Since this work is a manual work, it takes time, but it is actually judged by humans (for example, not only ordinary people but also specialists and music makers who have a deep understanding of music). In order to specify the collection section, it is possible to obtain necessary music structure characteristic section designation data even for a song whose chorus section is difficult to understand.
  • the start position and the end position of each of the plurality of music structure characteristic sections are expressed as position data represented by the time required from when the performance actually starts to when the performance is reached.
  • a plurality of music structure feature section designation data are combined with music sound data to form one set.
  • the music structure feature section is identified by using one of the automatic rust section detection method, the manual rust section labeling method, and the listener behavior analysis method. Identify the structural feature section.
  • the automatic rust section detection method the manual rust section labeling method
  • the listener behavior analysis method the listener behavior analysis method.
  • Chorus On a editor capable of labeling the music structure, humans specify the music manually while listening to the music. High accuracy, but labor and time consuming. This manual labeling is also effective for songs and music genres for which automatic detection is difficult. It is also possible to use the results of automatic rust area detection and correct it manually on Eddy. As an editor for this, the inventor can divide the music and label each part with rust, first melody (A melody), second melody (B melody), intro, interlude, ending, etc. Music structure labeling For Eddie Yu developed.
  • Figure 2 (A) shows the editor screen. The horizontal axis shown in the upper half of this figure displays the entire music on the time axis (sec).
  • the top mini-window shows the power change
  • the second mini-window shows the labeling result of each part of the music
  • the top of the third mini-window shows a list of chorus sections
  • the bottom five shows the repeating structure.
  • the labeling results of each part of the song are enlarged and displayed, with the time axis of the entire song turned back.
  • the user edits the position information of the force bar represented by the vertical bar. Playback and stop of music can be controlled freely, and the cursor points to the playback position of the music. By moving the cursor freely, the user can repeatedly listen to the sound before and after the force sol, and put breaks in each part of the song at appropriate places. Then, the section between the breaks is labeled.
  • this editor has the function of labeling beats and bar breaks in advance, and moving the cursor in units of bars and bars on the editor, so that the labeling work can be performed quickly. It provides an efficient work environment. As a result of editing on this editor, a list of the start point and end point of the chorus section and the repetition section in the music can be obtained. ' [Auditor behavior analysis method]
  • the points that many listeners listened to in the past are recorded, and the sections that many listeners listened to are analyzed.
  • the section obtained in this way is estimated assuming that it is a chorus section (a section in which the listener is interested).
  • the sections that you listen to often are those that you want to hear in a typical audience, and are effective for a wide range of music genres.
  • this method can provide only functions that are practically the same as those of conventional listening devices, but has the advantage of not requiring analysis and labeling of music content in advance. Note that it is also possible to combine the above two methods. Specifically, it is performed as follows.
  • a histogram of the number of times of reproduction of each part in the music is created, the most frequently reproduced part is found from the histogram, and that part is estimated as a chorus section. Examples of histograms are shown in FIGS. 2 (B) and (C).
  • FIGS. 2 (B) and (C) Examples of histograms are shown in FIGS. 2 (B) and (C).
  • the typical playback operation button as in the past (while repeatedly pressing the fast forward button and skipping in the middle), and the listeners groping for the chorus section etc. listen.
  • the whole music is divided into very short sections (for example, 10 msec), and the number of times of reproduction in each section is counted (histogram is created).
  • the listener listens until the entire rust has been played, so if a large number of listeners do this, the interval played by many listeners with interest will be longer on the histogram. It can be obtained as a high-frequency section (a section that has been reproduced a lot) over the section.
  • a weight is added according to the length of the section played continuously without performing a button operation, and the longer the playback, the larger the value is added to the histogram. I do.
  • the above processing is performed not only by a single listening device, but also by connecting the listening devices via a wide-area network such as the Internet, so that the same music can be heard by listeners around the world. It is also possible to sum up the histogram of whether or not the user listened. As a result, the behavior analysis results of more listeners are reflected in the histogram, The accuracy of finding the rust section is improved. In the case of the method of analyzing the behavior of a tester, it is effective to visualize the histogram, and the user can operate while visually observing where the previous tester often listened.
  • the rust interval (the interval of interest to a typical listener) is defined as the rust interval above the threshold in the histogram. It is convenient to display it explicitly.
  • the present invention is applied to the section defined in this way as a music structure feature section, the user can jump the playback position according to the selection by the interface, similarly to the music structure feature section obtained by another method. It is possible.
  • another display method that replaces such a partition is to obtain a smoothed function by smoothing the histogram, and then perform a first derivative of the function along the time axis (derivative).
  • a line segment (a plurality of segments) may be displayed at a time when the number is equal to or more than a certain threshold.
  • These line segments represent places where the histogram rises sharply, and represent places where many listeners start listening (the start time of the section of interest for typical listeners). Even in this case, when the user selects a line segment by the interface, the reproduction position corresponding to the time of the line segment can be jumped and reproduced.
  • an interface for selecting an arbitrary music structure characteristic section from a plurality of music structure characteristic sections is prepared (second step). This interface will be described later in detail. Then, after the music sound data is reproduced using the music sound data reproducing apparatus and the operator selects an arbitrary music structure characteristic section using the interface, the music corresponding to the selected arbitrary music structure characteristic section is selected. Change the playback position of music sound data by the music sound data playback device to an arbitrary music structure feature section based on the structure feature section designation data (third step)
  • This change in the playback position is a so-called jump to the beginning of the music structure characteristic section.
  • an image display unit is provided in the interface so that the music structure characteristic section can be visually recognized while reflecting the contents of the music. This visualization will be described later in detail.
  • “Cueing of chorus section”, “Cueing of section (repeated section) of previous music structure”, “NEXT music structure” This makes it possible for the listener to listen only to the chorus, or to jump to the beginning of the previous or next music structure to be smarter.
  • FIG. 3 is a block diagram showing a configuration of an embodiment of a music reproducing apparatus according to the present invention for implementing the method of the present invention.
  • the music reproduction device 1 includes a music sound data reproduction device 3 for reproducing music sound data, and has a function of reproducing an arbitrary music structure characteristic section selected from a plurality of music structure characteristic sections in a music.
  • music sound data with music structure characteristic section designation data sent via a network is input to the data separation means 5.
  • the data separating means 5 separates the music sound data and the music structure characteristic section designation data from the music sound data with the music structure characteristic section designation data, and stores the music sound data in the music sound data storage means 7.
  • the music structure characteristic section designation data is stored in the music structure characteristic section designation data storage means 9.
  • the control unit 11 controls the image display unit 17 having the display 15 by incorporating the music sound data reproducing device 3 and the interface 13. Control unit 1
  • the 1 includes a designated data providing means 12.
  • the main components of the music sound data reproducing device 3, the control unit 11, the designated data providing unit 12, the interface 13 and the image display unit 17 are controlled by a computer (not shown) which can be operated by a program. Is achieved.
  • the music structure feature section designation data storage means 9 stores a music structure feature section designation data for designating a plurality of music structure feature sections predetermined corresponding to music sound data to be reproduced.
  • the interface 13 has a function of selecting an arbitrary music structure feature section from a plurality of music structure feature sections, as described in detail later.
  • the designation data providing means 12 reads out the music structure feature section designation data for designating an arbitrary music structure feature section selected by the interface 13 from the music structure feature section designation data storage means 9 and reads the music sound data reproducing device 3 Give to.
  • the music and sound data reproducing apparatus 3 operates in accordance with a command from the interface 13, and in particular, when the music structure feature section designation data is given from the designation data providing means 12, the music structure feature section specified by the designation data is added to the music structure feature section. Change the playback position. In the music playback device 1, even during music playback, the interface 13 An arbitrary selected music structure feature section can be reproduced.
  • the music sound data reproducing device 3 may be configured to be able to reproduce an arbitrary music structure feature section selected by the interface even when the music is not being reproduced.
  • FIG. 4 (A) includes feature section designation data generation means 21 for automatically extracting a plurality of song structure feature sections in a song from music sound data and creating a song structure feature section designation data, and This shows a modification of the music reproducing apparatus 1 ′ of the present invention in which the interface 13 ′ is present independently.
  • the provision of the characteristic section designation data generating means 21 makes it easy to apply the present invention even when playing back existing music.
  • the characteristic section designation data generating means 21 may be configured to be able to execute the above-described automatic rust section detection method.
  • the interface 13 'having one or more selection buttons is prepared as an independent device.
  • the selection button is constituted by a manual switch physically operated by a so-called finger.
  • the selection button may be of the type that can be operated by clicking on the screen displayed on the evening panel with a finger or pen, or by clicking with the mouse, and its structure is arbitrary. It may be of a type operated by a personal computer, and its structure is arbitrary.
  • the image display section 17 ′ including the interface 13 ′ may of course be configured as an independent device.
  • the music sound data and the music structure feature section designation data are separately downloaded, and stored as they are in the music sound data storage means 7 and the music structure feature section designation data storage means 9. .
  • FIG. 5A is a diagram illustrating an example of the configuration of the operation unit and the display unit of the interface 13 displayed on the display 15.
  • the length of the music sound data is displayed in the upper window W1 by the image display A using the time axis, and the music sound data reproducing device 3 reproduces the music sound data.
  • Playback position of music sound data and The image feature section is displayed on the image display B using the time axis, and the various selection buttons SW1 to SW10 are also displayed in the lower window W2 on the display 15 by the image display C on the image display C. ing.
  • stop selection button SW1 In the lower window W2, in order from the left, stop selection button SW1, pause selection button SW2, playback selection button SW3, previous song selection button SW4, fast rewind selection button SW5, fast forward selection button SW6, next
  • the song selection button SW7 is lined up, and the conventional symbols are drawn on these buttons. These select buttons are the same as those used in the existing interface. The elapsed time from the beginning of the song is displayed above the stop selection button SW1.
  • buttons SW8 to SW10 called automatic jump buttons are further provided in the window W2. From the left, in order from the left, a first repetition section selection button SW8 for “Cueing of the previous music structure section”, a second repetition section selection button SW9 for “Cueing of the next music structure section” and “ It is a rust section selection button SW10 for "search for rust section”.
  • Pressing the chorus section selection button SW10 searches for the chorus section after the current playback position (or first if not behind) and jumps to the start point. The birds and rust are repeated several times in the music, but each time you press this button SW10, you can jump between them.
  • the other two buttons, SW8 and SW9 are pressed, a search is made for the start point of the repetition section located immediately after or immediately before the current playback position, and jumps to the beginning. During the search, the end point of the section is ignored.
  • the configuration of the window W1 (music structure display window) will be described on the upper side.
  • a display bar B1 for the chorus section there is a display bar B1 for the chorus section, and below it, a five-section repetition section display bar B2 to B6 is displayed so that it can be visually recognized.
  • a five-section repetition section display bar is used, but the number of display bars is arbitrary and is not limited to this embodiment.
  • a mark of the same color as the color of the display bar B1 of the rust section is displayed on the rust section selection button SW10, and the same color as the color of the section display bar B2 to B6 Color marks are displayed above the two buttons SW8 and SW9. This allows the operator to select a button Can be prevented.
  • This example shows that five types of sections are being played repeatedly.
  • the display A with a thin horizontal bar at the bottom is a playback position slider that indicates the elapsed time in the music.
  • a vertical display bar I is provided so as to cross the six display bars B1 to B6.
  • the vertical display bar I is displaced in synchronization with the display mark a of the playback position slider A to display the current playback position.
  • buttons are provided in the window W2: a button for selecting the first chorus section for "Cueing the next chorus section” and a button for selecting the second chorus section for "Cueing the previous chorus section”. May be.
  • one button is used for the following reasons. (1) If you hit the chorus section selection button SW 10 for the current “climb section cueing” repeatedly, you will return to the first section after making a complete round of the chorus section, so you can move to the desired location in a short time it can. (2) If it is necessary to return immediately to the past chorus section, a means is provided for directly clicking the section in the music structure display window W1. Also, while visually grasping the structure of the entire song, various places can be selectively auditioned.
  • FIG. 5B shows a display mode of another interface.
  • the in-face of Fig. 5 (B) in addition to the first chorus section selection button SW10 used when the chorus section selection button jumps to the next chorus section, a jump is made to the previous chorus section.
  • a second chorus section selection button SW 11 is provided. The other points are the same as the interface in Fig. 5 (A).
  • FIG. 6 is a block diagram showing an algorithm of a program used to realize the interface 13 used in the above embodiment.
  • the algorithm in Fig. 6 Corresponds to the example in Fig. 5 (B).
  • the chorus section selection button has a second chorus section selection button for jumping to the previous chorus section, separately from the first chorus section selection button used when jumping to the next chorus section. ing.
  • step ST1 the rust section and the repetition section are visualized as display bars B1 to B6.
  • step ST2 the playback position is displayed by the vertical display bar I and the display mark a.
  • step ST3 whether any of the stop selection button SW1, the pause selection button SW2, and the reselection selection button SW3 is pressed (whether it is clicked or selected). Is determined. If the stop selection button SW1 is pressed, the playback position of the music sound data is set to the beginning of the data, and the playback state is set to stop. If the pause selection button SW2 is pressed, playback is set to pause.
  • step ST4 it is determined whether the fast-forward selection button SW6 or the fast-reverse selection button SW5 is pressed. If either the fast-forward selection button SW6 or the fast-reverse selection button SW5 is pressed, go to step ST6 and change the playback speed to fast forward or fast reverse only while the button is pressed. Then, in step ST7, set the playback status to playback. As a result, fast forward or fast reverse is performed during playback.
  • the change of the playback position according to the change of the playback speed is displayed in step ST2, and the moving speed of the vertical display panel I and the display mark a is also changed.
  • step ST8 it is determined whether the first and second rust section selection buttons SW10 or SW11 have been pressed to find the next rust section. If any of the first and second chorus section selection buttons SW10 and SW11 has been pressed, the process proceeds to step ST9. In step ST9, it is set to shift the playback position or the playback position to the beginning of the next chorus section. You. Then, the process returns to step ST2 via step ST7, and the vertical display bar I and the jump or displacement of the display mark a are displayed. If it is confirmed in step ST8 that the selection button SW10 or SW11 has not been pressed, the process proceeds to step ST10.
  • step ST10 it is determined whether the first and second repeating section selection buttons SW8 and SW9 for jumping to the beginning of the preceding repeating section or the beginning of the following repeating section are pressed. . If any of the first and second repetition interval selection buttons SW8 and SW9 is pressed, the process proceeds to step ST11. In step ST11, the playback position is displaced from the current playback position or the playback position to the beginning of the next or previous repeated section. Then, the process proceeds to step ST7, where the playback state is set to playback. In step ST2, the display of the playback position is changed. In step ST10, if neither of the first and second repeating section selection buttons SW8 and SW9 is pressed, the process proceeds to step ST12.
  • step ST7 where the playback state is set to playback, and the process proceeds to step ST2, where a change in the playback position is displayed.
  • step ST14 it is determined whether or not an instruction operation for clicking (evening) the mark a on the reproduction position slider and moving the mark a has been performed.
  • the process proceeds to step ST15, where the playback position is set to the destination of the slider mark a, then the playback state is set to playback in step ST7, and the process returns to step ST2.
  • FIG. 7 is a flowchart showing an algorithm when operating using the selection buttons SW1 to SW7.
  • the operation according to the algorithm shown in FIG. 6 and the operation according to the algorithm shown in FIG. 7 proceed in parallel. If the selection buttons SW8 to SW11 are not pressed, the reproduction is performed according to FIG. 6, and if the selection buttons SW8 to SW11 etc. are pressed during the reproduction, predetermined steps of the algorithm in FIG. 6 are executed. It is.
  • the "playback state” includes stop, pause and playback states
  • the "playback position” is the elapsed time from the beginning of the music file
  • the "playback speed” Includes normal playback speed, fast forward playback speed, and fast reverse playback speed.
  • FIGS. 8 (A) to (C) The state shown in FIG. 8 (A) is a state immediately after the reproduction selection button SW3 is pressed and reproduction of certain music sound data is started. In this state, the vertical display bar I and the display mark a are at the initial position of playback.
  • FIG. 8 (B) shows a state in which the reproduction state is continued.
  • FIG. 10 (A) is a state immediately after the reproduction selection button SW3 is pressed to start reproduction of certain music sound data.
  • the vertical display bar I and the display mark a are at the initial position of the playback.
  • Figure 10 (B) shows a state in which the playback state is continued. are doing.
  • the second repetition section selection button SW9 is pressed once in this state, the state becomes as shown in FIG. 10 (C).
  • the vertical display par I and the display mark a jump to the beginning of the display of the [display bar: the second repetition section of 64] of the nearest rear repetition section, and the rear repetition section where the playback position is also closest.
  • FIG. 12 (A) is a state immediately after the reproduction selection button SW3 is pressed and the reproduction of a certain music sound is started.
  • the vertical display par I and the display mark a are at the initial position of playback.
  • FIG. 12 (B) shows a state in which the reproduction state is continued.
  • the first repetition section selection button SW8 is pressed once in this state, the state becomes as shown in FIG. 12 (C).
  • the vertical display bar I and the display mark a jump to the beginning of the display of [the first repeat section of the display bar B 4] of the nearest forward repeat section, and the forward repeat position where the playback position is also closest.
  • FIG. 14 shows an example of an interface screen actually created by the inventor. Next, a description will be given of an actual machine that implements the present invention more specifically and the results thereof.
  • the interface of the actual device operates using a file containing the description of the climax section and the repetition structure obtained using the climax section detection method.
  • RACP Remote Audio Control Port Protocol
  • RMCP Remote Music Control Protocol
  • the actual machine was operated under four conditions, depending on the presence or absence of the two proposed functions (selection buttons SW8 to SW10 for jump and music structure display).
  • the sample to be listened to was selected from among the 100 songs (RWC-MDB-P-2001 No. l ⁇ 100) of "RWC Music Database for Popular Music: Popular Music".
  • the song structure feature section designation data correctly obtained by the automatic chorus section detection method (the number of correct songs in 100 songs by the automatic chorus section detection method was 80).
  • human music college graduates
  • the function to directly click and play the section on the visualized music structure is not used.
  • Condition 3 is equivalent to the case where three selection buttons SW8 to SW10 are added to a normal media player, and it is found that it is more convenient than a normal player without a music structure display. From condition 4, it was found that visualization further assisted the operation and was effective in listening to various parts of the music. Furthermore, it was confirmed that even in the case of using under Condition 4, a listener who did not receive any explanation about the function of the button or the contents of the display window could understand the meaning of these in a short time.
  • the operation unit of the interface is formed on the display.
  • the interface may be configured using an actual switch such as an analog switch.
  • the program is installed in a so-called personal computer. It is realized by a stall.
  • the present invention can be applied to various types of music and sound reproducers such as, for example, so-called radio power sets, CD players, DVD players and the like.
  • the interface used in this embodiment is useful as a general music playback interface, and an operation system for each section within a music has been added to the conventional operation system for each music. Things. Previously, you could skip uninteresting songs on a song-by-song basis, but it was not easy to skip uninteresting parts inside the song.
  • the in-face of the present invention has a great merit that the user can "hear as much as he wants" without having to follow the time series of the original music. Just as the random play (shuffle play) function for each song is possible, the random play function for each section can be realized.
  • labeling the section that does not repeat can also jump the playback position to the beginning of those sections.
  • FIG. 15 is a flowchart showing processing steps of a method for detecting a chorus section in a music piece accompanied by modulation.
  • step S an acoustic signal (acoustic signal data) is obtained (step S).
  • step S3-1 Calculate the similarity between the extracted one-dimensional chroma vector feature and the feature of all past frames (corresponding to task 1) (step S3-1).
  • the pairs of repetition sections are listed up while automatically changing the repetition criteria for each song (corresponding to Task 2) (Step S3— 2)
  • Step S3— 2 Then, by combining those pairs over the entire music, a group of repetitive sections is created, and the end points of each are determined appropriately (corresponding to task 3) (step S3-3).
  • each dimension of the chroma vector corresponds to the pitch name, so the transposed chroma vector whose value is shifted between dimensions according to the modulation width is The value is close to the chroma vector before modulation. Therefore, the similarity of chroma vectors before and after transposition is calculated, taking into account such 12 types of transposition destinations. With that as a starting point, the above-mentioned 12 repetition section detection processes are also performed for 12 types, and all the repetition sections are integrated (corresponding to task 4) (step S4).
  • step S5 the rustiness of each obtained section is evaluated based on the above assumption (step S5).
  • FIG. 16 is a block diagram schematically showing a configuration of an example of an embodiment of a device for detecting a rust section according to the present invention. With this device, the method of FIG. 15 can be realized as a matter of course.
  • FIG. 17 is a flowchart showing an example of an algorithm of a program used when realizing the device of FIG. 16 using a computer. The steps in FIG. 15 and the steps in the flowchart in FIG. 17 will be described together with the configuration of the apparatus in FIG. 16.
  • the sampling means 101 uses a sampling technique such as a Hanning window, which performs sampling one by one while overlapping with a predetermined sampling width, in a predetermined time unit (for example, 80 ms). Is sampled (sampling step ST1 in FIG. 17). If the data is an audio signal, the sampled data is a very short fragment (frame) of the audio signal.
  • a sampling technique such as a Hanning window, which performs sampling one by one while overlapping with a predetermined sampling width, in a predetermined time unit (for example, 80 ms).
  • the feature amount extraction means 103 is sampled by the sampling means 101 in units of time. For the data thus obtained, an acoustic feature amount is obtained (a feature amount extracting step ST2 in FIG. 17).
  • the method of obtaining the acoustic feature value adopted by the feature value extracting means 103 is arbitrary.
  • a 12-dimensional chroma obtained by adding the power of the frequencies of the 12 pitch names included in the range of one octave over a plurality of octaves as the acoustic feature amount obtained in the feature amount extraction step.
  • a vector chroma vector
  • the 12-dimensional chroma vector is a feature amount that expresses the distribution of power with the chroma (tone name, ch roma) disclosed in Prior Art 7 as a frequency axis.
  • the chroma vector is close to the one obtained by discretizing the chroma axis of the chromosome spectrum of prior art 8 into 12 pitch names.
  • the musical pitch perception musical pitch and timbre pitch
  • the musical perception of pitch is expressed in two dimensions: the chroma on the circumference when viewed from directly above, and the vertical height when viewed from the side (octave position, height). be able to.
  • the frequency axis of the power spectrum is considered to follow this spiral structure, and the spiral is crushed in the height axis direction to form a circle.
  • the positions at the same note name in different octaves are added to obtain the position at the note name on the chroma axis.
  • this chroma vector is represented in 12 dimensions, and the value of each dimension of the chroma vector represents the power of a note having a different equal temperament.
  • FIG. 19 shows a state in which the powers at the positions of the same pitches in the six octaves are respectively added to obtain the power at the positions of the pitches on the chroma axis.
  • STFT short-time Fourier transform
  • the calculation result obtained by the short-time Fourier transform is converted to a logarithmic-scale frequency f on the frequency axis, and a power spectrum ⁇ (f, t) is obtained.
  • BPFc. H (f) is a bandpass filter that passes the note at the pitch of the note name (:, octave position h, and is defined by the shape of the Hanning window as in the following equation (4). .
  • the audio signal is A / D converted at a sampling frequency of 16 kHz and a quantization bit number of 16 bits. Then, as window function h (t), window width 4
  • the short-time Fourier transform (STFT) using the 096 Hanning window is calculated by the fast Fourier transform (FFT).
  • FFT Fast Fourier transform
  • the feature amount obtained as described above is stored in the feature amount storage unit 105.
  • the similarity calculation means 107 obtains a similarity between the plurality of acoustic feature amounts obtained for the music sound data input so far (similarity calculation step ST3 in FIG. 17).
  • the arithmetic expression used to determine the similarity is arbitrary, and any of the known similarity arithmetic expressions may be used.
  • the repetitive section list means 109 lists a plurality of repetitive sections repeatedly appearing in the music sound data based on the similarity (the repetitive section list step ST 4 in FIG. 17).
  • the similarity calculating means 107 obtains the similarity between the acoustic feature obtained this time and all the acoustic features previously obtained. This makes it possible to detect the rust section in real time. As shown in FIGS. 20 and 21, the similarity calculating means 107 calculates a 12-dimensional chroma vector (acoustic feature) at time t and a lag based on it.
  • the similarity r (t, 1) is the value obtained by normalizing the chroma vector at each time t with the largest element, calculating the Euclidean distance with the past chroma vector by lag 1, and subtracting the calculation result from 1.
  • FIG. 22 is a conceptual diagram of a later-described similar line segment, similarity r (t, 1), and parameter overnight space Ra1 1 (t, 1) for a certain music piece.
  • the repetitive section list means 109 sets the first axis as a time axis and the other axis as a lag axis, and when the similarity is equal to or greater than a predetermined time length and equal to or greater than a predetermined threshold, List similar line segments as repeated sections based on the time axis.
  • similar line segments are displayed in parallel with the time axis.
  • the time axis and the lag axis may be theoretical axes.
  • a “similar line segment” is defined as a line segment having a time length corresponding to the length of a portion of similarity equal to or greater than a threshold value when the similarity is equal to or greater than a predetermined time length and equal to or greater than a predetermined threshold value. You. The magnitude of the similarity does not appear on the similar line segment. Also, by appropriately changing or adjusting the threshold, noise can be removed.
  • the similarity r (t, 1) is defined within the lower right triangle. As shown in Fig. 23, the actually obtained r (t, 1) contains a lot of noise, and there are also similar line segments that are not related to rust.
  • a similar line segment of the same time length as rust C appears at the time position corresponding to the last rust C and at the part where lag 1 corresponds to the position of rust C before.
  • the sections in which the feature values are compared are indicated by numbers at the lower right of the alphabets of A, B, and C for easy understanding.
  • the display of “A 12 ” indicates that the similarity between the A melody in the A1 section and the feature value of the A melody in the A2 section is calculated and is a similar line segment that appeared due to the high similarity. ing.
  • C 36 indicates that the similarity of the feature values of the rust section of C 3 section and the rust section of C 6 section is calculated, and that the similar line segment appears due to the high similarity.
  • a similar line segment appears as shown in FIG.
  • a one-dimensional parameter space 1 (lag) corresponding to the position of L for each pixel (T, L) on the tl plane ) To accumulate the pixel brightness. Then, it is considered that a line segment exists at the lag at the position where the accumulated value in parameter space 1 is large.
  • the parameter space Ra1 1 (t, 1) at time t can be obtained from the following equation (7).
  • a chroma vector in which each component due to broadband noise is almost equal tends to have a relatively short distance to other chroma vectors, and a straight line with a high similarity in r (t, 1) (Hereinafter referred to as a noise straight line).
  • This noise straight line appears in the t-11 plane in the direction perpendicular (vertical) to the time axis, or diagonally to the upper right and lower left. Therefore, as a preprocessing, the noise straight line is suppressed before the calculation of the above equation (7).
  • First, for each r (t, 1) calculate the average value of the neighborhood in the right, left, top, bottom, top right, and bottom left directions, and find the maximum and minimum values.
  • Step 1 Detection of line segment candidate peaks
  • Ra1 1 (t, 1) A sufficiently high peak in Ra1 1 (t, 1) shown in the right diagram of FIG. 28 is detected as a line segment candidate peak.
  • Step 2 Search for similar line segments
  • the time axis direction of similarity r (t, 1) is regarded as a one-dimensional function, and the section where it is continuously high enough is Search for similar line segments.
  • r sm is smoothed by moving average using the second-order cardinal B-spline function as a weight function in the time axis direction of r (t, 1). . Find th (t, 1). Then r S m. . Of all sections in th (t, 1) that continuously exceed a certain threshold, those with a fixed length (6.4 sec) 'or more are found as similar line segments. . This threshold value is also determined by the automatic threshold value selection method based on the above criterion. However, this time, instead of dealing with peak values, the top five line segment candidate peaks with the highest peak values are selected, and r sm at the position of lag 1 is selected. . The values of th (1) (1 ⁇ and ⁇ t) are divided into two classes.
  • the list of the repeated sections restored as described above is stored in the list storage unit 111 shown in FIG.
  • the integrated repetition section determination means 113 checks the interrelationship of a plurality of repetition sections from the list stored in the list storage means 111, and integrates one or more repetition sections in a common section on the time axis. One integration repeat section is determined. Then, the integrated repetition section determining means 113 classifies the determined plurality of integrated repetition sections into a plurality of types of integrated repetition section sequences.
  • the listed similar line segments existing in the common section of the time axis on the t-11 plane are integrated by grooving.
  • RP for integrated repetition.
  • the plurality of integrated repetition sections RP are classified into a plurality of types of integrated repetition section sequences based on the position and length of the common section and the positional relationship viewed on the lag axis of the similar line segment to be dubbed.
  • interrelationships past the lug position corresponding to the common section on the time axis of the plurality of repeating ku between C 12 -C 56 listed up (similar segments) 1 or more and repeated sections C 12 -C 56 whether (similar segments) are present, on whether the relationship repeated sections (similar segments) are present in a past time zone corresponding to the lug located is there. For example, if there is a similar line fraction C 16 showing the repeating interval in the common section of C 6, a relationship that in the past the lug position is similar segment C 12 corresponding to lug position of the repeated sections.
  • this step if there is one or more repetitive sections (similar line segments) at the past lag position corresponding to the common section, they are grouped and repetitive sections (similar lines) ), And the repetition section is referred to as an integrated repetition section RP2, RP5, RP6, etc.
  • the integrated repetition section RP 1 corresponding to the first repetition section Supplement based on the similar line segment C 12 existing in the section RP 2 and its common section. This supplement can be easily realized by programming. In this way, one type of integrated repetition interval sequence is created.
  • FIG. 33 shows a situation in which a sequence of integrated repetition sections R P1 and R P2 is formed when the length of the common section is long.
  • the length of the common section of the integrated repetition section RP is the integration that forms the integrated repetition section sequence shown in Figs. 31 and 32.
  • This figure shows the situation when the repetition interval is 1Z2.
  • the integrated repetition section determination step the determined plurality of integrated repetition sections are classified into a plurality of types of integrated repetition section sequences. This classification is performed based on the commonality of the length of the common section and the relationship between the positional relationship and the number of repetitive sections (similar segments) existing in the common section.
  • the integrated repetition section determined by the integrated repetition section determination means 113 is stored in the integrated repetition section storage means 115 as an integrated repetition section sequence.
  • FIG. 35 shows an example in which the integrated repeating section sequence is displayed on the display means 1 18.
  • Step 1 Group similar lines
  • Each group [[T si, T ei], is a set T i of the section [T si, T ei] and the 1 ag value u of the similar line segment (if the section is determined, it corresponds to the segment candidate peak).
  • ⁇ ij I j 1, 2 , ⁇ , M (Mi is the number of peaks).
  • Step 2 Re-detect candidate line segment
  • a similar line segment is calculated again based on the similarity r (t, 1) in the section [Ts i, Te ⁇ ].
  • the leaked similar line segment can be detected.
  • two similar line segments corresponding to the repetition of C are located on the long similar line segment corresponding to the repetition of ABCC. Even if it has not been obtained, it can be expected that it will be detected by this process.
  • the peak values of R [Ts i , Tei] (1) in all the sections of ⁇ are divided into two classes.
  • Step 3 Verification of adequacy of similar line segments 1
  • peak detection using smoothing differentiation is performed on R [Ts i , Tei ⁇ (1), and when the number of continuous high peaks at regular intervals (arbitrary intervals) is more than 10, the peak is detected.
  • Step 4 Verification of adequacy of similar line segments 2
  • Ti may include a peak with a high similarity only in a part of the section [T S l , Te i], such a peak with a large variation in the similarity is deleted. Therefore, r sm of the section. . Calculate the standard deviation of th ( te , 1), and delete those that exceed a certain threshold from Ti. This threshold value is determined by considering the maximum value of the standard deviation at these peaks as a constant multiple (1.4 times ).
  • the interval between adjacent similar line segments (line segment candidate peaks) on the 1ag axis must be longer than the line segment length Te i-T s i. Therefore, one of the two peaks having an interval smaller than the length of the line segment is deleted so that a high peak set remains as a whole, so that all intervals are longer than the length of the similar line segment.
  • Step 6 Merge groups with common sections
  • step S4 in FIG. 15 detection of repetition involving modulation
  • the processing described above does not take into account modulation.
  • the above processing Can be easily extended to processing that can handle modulation.
  • the one-dimensional chroma vectors before and after modulation are different. Therefore, in the feature extraction step (step S2 in Fig. 15), as shown in Fig. 37, the acoustic features consisting of one-dimensional chroma vectors were shifted by one modulation width to 11 modulation widths. The 12 types of acoustic features with different modulation widths are obtained.
  • the similarity between the acoustic feature calculated this time and all of the 12 types of acoustic features calculated earlier is calculated at time t.
  • the similarity between the one-dimensional chroma vector representing the current acoustic feature and the past one-two-dimensional chroma vector with all lags 1 (0 ⁇ l ⁇ t) Calculate as degrees.
  • one axis is set to the time axis t and the other axis is lagged for each of the 12 types of acoustic features, as shown in Fig. 38.
  • a similar line segment having a time length corresponding to the length of the portion where the similarity is equal to or greater than the predetermined threshold is set Lists 12 types of lists as repetition sections based on the axis. Integration In the step of determining the repeated section (steps S3-3 and S4 in Fig. 15), for each of the 12 types of lists, similar-to-restored segments existing in the common section of the time axis are grouped together. It is integrated and defined as an integrated repetition section (S3-3).
  • the above processing is performed as follows.
  • each dimension v c (t) Has the advantage of being able to express transposition by shifting the value of tr between dimensions by tr 0
  • the 12-dimensional chroma vector of a performance is V (t) (where V is a vector).
  • V (t) '(where V is a vector) be the 12-dimensional chroma vector of the performance transposed to tr above
  • V (t) S tr v (t) '... (11) ,
  • S is a shift matrix, and is a matrix obtained by shifting the 12th-order square matrix one position to the right as shown in the following equation (12).
  • the above-mentioned process of integrating groups having a common section is performed across tr By searching for a group that has a common interval for t ⁇ ), the repeated interval including the transposition is integrated as one group.
  • the processing described above it is stated that “if the peak of the majority of T k is included in T i, the same integration processing as above will be performed”. Here, the integration processing is always performed.
  • the information on which tr is integrated from is stored, returning to Fig. 16 and the chorus section determination means 1 17 stored in the integrated repetition section storage means 1 15
  • the chorus section is determined from the integrated repeated section sequence.
  • the integrated repeating section sequence including the chorus section or a plurality of types of integrated repeating section sequence is displayed on the display unit 118 (see FIG. 41).
  • the integrated repeated section sequence including the chorus section is displayed in a display mode different from that of other integrated repeated section sequences.
  • the detected rust section can be clearly displayed in distinction from other repeated sections.
  • the integrated repeating section sequence including the chorus section is selected by the sound reproducing means 123 while the integrated repeating section sequence is selected on the display means 118 while being displayed on the display means 118.
  • the repetition section sequence can be reproduced selectively.
  • the average similarity of the integrated repeating section included in the integrated repeating section sequence and the number and length of the integrated repeating section are determined. Based on this, the rustiness of the integrated repetition section captured by the integrated repetition section sequence is obtained. Then, an integrated repetition section included in the integrated repetition section string having the highest rustiness is selected as a rust section.
  • An integrated repetition section that satisfies Assumptions 1 to 3 described above with reference to FIGS. 39 and 40 first has a high likelihood of rust. '' Considering the above assumptions, a method for automatically selecting the chorus section using a computer is described below.
  • a certain group is selected as a chorus section from the set ⁇ of groups of similar line segments described above.
  • the rustiness of each group ⁇ i is evaluated based on the average similarity of similar line segments and the above assumption, and the rustiness is the highest! Is determined to be a chorus section.
  • the similar line segment line segment candidate peak uu
  • the set of pairs of all repetition sections [P su, P en] and their reliability ⁇ u is expressed by the following equation (1 4 ).
  • Rustiness is evaluated by the following procedure.
  • the term ⁇ means that the greater the number of integrated repetition intervals in the group (integrated repetition interval sequence) ⁇ 1 and the higher their reliability, the higher the likelihood of rust. I do.
  • the log term means that the longer the integrated repetition interval included in the group (integrated repetition interval sequence), the higher the likelihood of rust.
  • the constant D 1 en was set to 1.4 sec from the result of the preliminary experiment.
  • step ST6 when the rust section is determined as described above (step ST6), the result is displayed on the display means 118 in FIG. 16 in real time (step ST7). Then, the above processing is repeated until the above processing is completed for all data of the music sound data (step ST8).
  • a music sound signal was input as music sound data.
  • a list of detected rust sections is output in real time.
  • the device obtains a list (list) of sections considered as rust sections in the past audio signal every moment and continuously outputs it along with the repetition structure (repetition section list ⁇ ! Obtained as an intermediate result.
  • An example of visualizing this output is shown in FIG.
  • the horizontal axis shows the entire music on the time axis (sec)
  • the upper half shows the power change
  • the lower half shows the list of integrated repetition sections including the chorus section (the last chorus is transposition).
  • the lower five rows represent the repetition structure of another integrated repetition interval sequence.
  • Table 1 shows the number of correct answers in 1Q0 songs as the evaluation result.
  • the performance of this device is the leftmost 80 songs (80 songs have an average F-number of 0.938). Incorrect detection means that the rust is not repeated more frequently than other parts, This was mainly due to repetition of similar accompaniment. Of the 100 songs, 10 songs with chorus modulation were included, but 9 of them could be detected. When the detection of the repetition with the modulation described above was stopped, the performance deteriorated as shown in the second from the left. On the other hand, when the increase in reliability based on Assumptions 2 and 3 was stopped, the performance further deteriorated as shown in the two right figures. There were 22 songs with significant changes in accompaniment ⁇ melody due to the repetition of chorus, of which 21 songs could be detected, and among them, 16 choruses with change could be detected.
  • the section that is repeated most frequently in the music is detected as rust.
  • the section that is repeated most frequently in the music is detected as rust.
  • by examining the repetition of various sections while integrating the information of the whole music it became possible to obtain a list of start points and end points of all chorus sections, which was not realized conventionally.
  • by introducing the similarity between chroma vectors that can be judged to be repetitive even after transposition it is possible to detect rust transposition.
  • RWC-MDB-P-2001 As a result of evaluating 100 songs from the RWC Music Database for Research (RWC-MDB-P-2001), it was confirmed that 80 songs could be answered correctly and that the chorus section in the sound signal of the real world could be detected.
  • the present invention is also related to music summarization [Prior Art 12], and the device of the present invention can be regarded as a music summarization method for presenting a chorus section as a music summary result. Furthermore, when it is necessary to summarize a section longer than the chorus section, it is possible to present a summary with reduced redundancy of the entire music by using the repeating structure obtained as an intermediate result. For example, if an interim result of (A melody-B melody ⁇ rust) is captured, it can be presented.
  • the present invention can be applied to a case where the input is not a sound signal but a MIDI signal.
  • a MIDI signal or a MIDI signal feature is used instead of the sound feature, and the similarity is determined by the MIDI.
  • a similarity based on the distance between signals or MIDI signal features may be used.
  • a 12-dimensional chroma vector may be used as the MIDI signal feature quantity.
  • any method for obtaining the 12-dimensional chroma vector from the MIDI signal can be used.
  • the octave information of the MIDI note on / off message can be deleted to obtain a 12-dimensional chroma vector.
  • the chorus section is detected from a complex mixed sound in the real world such as a music CD (comp actdisc), and the start point of each chorus section is detected. Not only can a list of end points be found, but it is also possible to detect chorus sections with modulation. At that time, chorus sections are detected based on various repetitive structures (a plurality of integrated repetitive section sequences) included in the entire music. Furthermore, rust detection is based on various repetitive structures contained in the entire song. Therefore, as an intermediate result, a list of repeating structures can be obtained at the same time.
  • Industrial applicability is based on various repetitive structures (a plurality of integrated repetitive section sequences) included in the entire music.
  • rust detection is based on various repetitive structures contained in the entire song. Therefore, as an intermediate result, a list of repeating structures can be obtained at the same time.
  • a music structure characteristic section such as a chorus section can be easily reproduced by using the music sound data reproducing apparatus by selection using an in-face.
  • a music sampler equipped with a “rusting out” function (a rust section selection button).
  • the previewer can jump to the beginning of the chorus section (fast-forward) by simply pressing the chorus section selection button, which has the advantage of freeing the user from having to search for the chorus section by himself.
  • the chorus section selection button which has the advantage of freeing the user from having to search for the chorus section by himself.
  • the playback can jump to the beginning of the repetition section of the next music structure.
  • a modulated rust section can be detected.

Abstract

 本発明は、インターフェースを用いて簡単に楽曲構造特徴区間を音楽音響データ再生装置を用いて再生することができる楽曲再生装置を提供する。複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択する機能と、楽曲構造特徴区間を視覚化する機能とを有するインターフェース13を用いる。インターフェース13によって選択された任意の楽曲構造特徴区間を指定する楽曲構造特徴区間指定データを音楽音響データ再生装置3に与える。音楽音響データ再生装置3は、指定データ付与手段12から付与された楽曲構造特徴区間指定データによって指定された楽曲構造特徴区間に再生位置を変更する。

Description

明 細 書 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法 技術分野
本発明は、 楽曲中のサビ区間等の特徵区間を選択的に再生する方法及び装置並 びに特徴区間 (サビ区間) を検出する方法に関するものである。 背景技術
従来、 音楽情報処理の研究分野では楽曲の検索や音楽理解に関する研究は多か つたものの、 音楽の試聴に着目した研究はなされていなかった。 現在、 レコード 店の店頭でコンパクトディスク (C D ) 等に記録された音楽を 「試聴」 する場合 、 試聴者は、 早送りを行いながら聴きたい部分だけを選び出して試聴している場 合が多い。 これは試聴の主目的が、 自分の探していた楽曲、 好みの楽曲であるか どうかを短時間で判断するためのものだからである。 例えばポピュラー音楽の場 合等では、 楽曲中で一番代表的な盛り上がる主題の部分であるサビ (c h o r u s, r e f r a i n ) 区間や何度も繰り返し演奏されるメロディ区間のような楽 曲の構造に特徴のある区間 (以下楽曲構造特徴区間と言う) を試聴して判断する ことが多い。 そこで試聴者は、 イントロを少し聴いた後に、 サビ区間や繰り返し 区間等の楽曲構造特徴区間を探しながら早送りボタンを何度も押して途中を飛ば し、 楽曲構造特徴区間を再生するというような特殊な聴き方をする。
しかし、 従来の音楽 C Dの試聴機には、 このような試聴固有の聴き方を支援す る機能はなかった。 試聴機は通常の C Dプレーヤ相当の再生操作ポタンを持つが 、 その中で、 早送りと早戻しのポタンしか、 サビの部分を探すために利用できな かった。 一方、 最近 C D販売店に導入され始めたデジタル試聴機では、 M P 3等 の圧縮形式で蓄積されている数十万曲の中から、 ハードディスクあるいはネット ワーク経由で再生することができる。 しかし、 楽曲先頭の短い区間 (通常 4 5秒 ) だけが機械的に切り出されて収録されているため、 試聴者は楽曲構造特徴部分 を必ずしも聴くことはできなかった。 近年、 日本のポピュラー音楽ではサビから 始まる楽曲構造を持つ曲が増えているとはいえ、 発明者の調査では、 日本のポピ ユラ一音楽のヒットチャート (2001年 1月〜 12月の週間ランキングのシン ダル上位 20曲) の楽曲中、 楽曲開始後 40秒以内にサビが始まる曲は約 20% しかなかった。
従来のサビ検出方法の一つでは、 楽曲の音響信号の代表的部分として、 サビを 指定した長さだけ不完全に一箇所切り出す。 L o g an等 〔先行技術 1〕 は、 切 り出した短いフレーム (1秒間) にその部分の特徴量に基づいてラベルを付与し 、 最頻出のラベルをもつフレームをサビとみなす方法を提案した。 このラベルの 付与には、 各区間の特徴量間の類似度に基づくクラスタリングゃ隠れマルコフモ デルを用いていた。 また、 B a r t s c h等 〔先行技術 2〕 は、 ビートトラツキ ングの結果に基づいて楽曲を拍ごとの短いフレームに分割し、 それらの特徴量間 の類似度が、 指定した一定の長さの区間に渡って最も高い箇所を、 サビとして切 り出す方法を提案した。 また、 Fo o t e 〔先行技術 3〕 は、 非常に短い断片 ( フレーム) ごとの特徴量間の類似度に基づく境界検出の応用例として、 サビが切 り出せる可能性を指摘していた。
一方、 標準 MI D Iファイル等の音符相当表現を対象とした従来技術 〔先行技 術 4および 5〕 もあるが、 この技術は音源分離が困難な混合音にはそのまま適用 できなかった。 また従来のサビ区間を検出する技術では、 常に指定した一定の長 さを切り出して提示するだけで、 サビの区間がどこからどこまでかは推定してい なかった。 さらに従来の技術では、 いずれも転調を考慮していなかった。
なお先行する技術としては以下のものがある。
先行技術 1 : L o.g a n, B. an d C h u, S . : Mu s i c S u mm a r i z a t i on Us i ng Key Ph r a s e s, P r o c. o f I CAS S P 2000, 11- 749 - 752 (2000) .
先行技術 2 : B a r t s c h, M. A. and Wak e f i e l d, G. H . : To C a t c h A Cho r u s : Us i ng Ch r oma— b a s e d Re p r e s e n t a t i on s f o r Aud i o T h umb n a i l i ng, P r o c. o f WAS P AA 2001, 15— 18 (2001 ) . 先行技術 3 : F o o t e , J . : Au t oma t i c Aud i o S e gm e n t a t i on Us i ng A Me a s u r e o f Au d i o No v e l t y, P r o c. o f I CME 2000, 1 -452 -455 (20
00) .
先行技術 4 : Me e k, C. and B i rm i n gh am, W. P. : T ema t i c Ex t r a c t o r, P r o c. o f I SM I R 2001,
119 - 128 (2001) .
先行技術 5 :村松純:歌謡曲における 「さび」 の楽譜情報に基づく特徴抽出一 小室哲哉の場合一, 情処研報 音楽情報科学, 2000— MUS— 35— 1, 1 - 6 (2000) .
先行技術 6 :大津展之:判別および最小 2乗規準に基づく自動しきい値選定法 , 信学論 (D) , J 63— D, 4, 349— 356 ( 1 980) .
先行技術 7 : Sh e p a r d, R. N. : C i r c u l a r i t y i n J ud gme n t s o f Re l a t i v e P i t c h, J. A c o u s t . S o c . Am. , 36, 12, 2346-2353 (1 964) .
先行技術 8 : Wak e f i e l d, G. H. : Ma t h ema t i c a l R e p r e s e n t a t i on o f J o i n t T ime— Ch r oma D i s t r i bu t i on s, SP I E 1999, 637 - 645 (1999) 先行技術 9 : S a v i t z k y, A. and Go l ay, M. J. : Smo o t h i n g and D i f f e r e n t i a t i o n o f Da t a b y S imp l i f i e d L e a s t S qu a r e s P r o c e du r e s, An a l y t i c a l Ch em i s t r y, 36, 8, 1627— 163 9 (1 964) .
先行技術 10 :後藤真孝, 橋口博樹, 西村拓一, 岡隆一: RWC研究用音楽デ 一夕ベース;ポピユラ一音楽データベースと著作権切れ音楽データベース, 情処 研報 音楽情報科学, 2001— MUS - 42 - 6, 35— 42 (2001) . 先行技術 1 1 : V a n R i j s b e r g e n, C. J . : I n f o rma t i on R e t r i e v a l , Bu t t e rwo r t h s, s e c ond e d 1 t i o n ( 1 9 7 9 ) .
先行技術 1 2 :平田圭二, 松田周:パピプ一ン: G T T Mに基づく音楽要約シ ステム, 情処研報 音楽情報科学, 2 0 0 2— MU S— 4 6— 5, 2 9— 3 6 (
2 0 0 2 ) ·
本発明の目的は、 インタ一フェースを用いた選択により簡単に楽曲構造特徴区 間を、 音楽音響デ一夕再生装置を用いて再生することができる楽曲再生方法及び 装置並びに該装置に用いるインターフェース及びプログラムを提供することにあ る。
本発明の他の目的は、 特に楽曲中のサビ区間を音楽音響デ一夕再生装置を用い て簡単に再生することができる楽曲再生方法及び装置並びに該装置に用いるイン ターフェースを提供することにある。
本発明の他の目的は、 楽曲中のサビ区間の特定を確実に行える楽曲再生方法及 び装置並びに該装置に用いるインターフェースを提供することにある。
本発明の別の目的は、 楽曲構造特徴区間の分散状況と音楽音響データの再生状 況とを視覚により確認できる楽曲再生方法及び装置並びに該装置に用いるイン夕 一フエ一スを提供することにある。
本発明の他の目的は、 サビ出し区間と繰り返し区間の存在状況を視覚により区 別することができるようにした楽曲再生方法及び装置並びに該装置に用いるイン ターフェースを提供することにある。
本発明の他の目的は、 操作者が選択ポタンを操作するだけで楽曲構造特徴区間 を選択的に再生することができる楽曲再生方法及び装置並びに該装置に用いるィ ン夕ーフェースを提供することにある。
本発明の別の目的は、 楽曲構造特徴区間を統計デ一夕から容易に抽出すること ができる楽曲構造特徴区間の抽出方法を提供することにある。
本発明の他の目的は、 従来の技術の問題点を克服し、 楽曲中に出現するサビ区 間を網羅的に検出することができる音楽音響デ—夕中のサビ区間を検出する方法 及び装置並びにプログラムを提供することにある。
本発明の更に他の目的は、 1つのサビ区間がどこからどこまでかを検出するこ とができる音楽音響データ中のサビ区間を検出する方法及び装置並びにプロダラ ムを提供することにある。
本発明の他の目的は、 転調されたサビ区間も検出できる音楽音響データ中のサ ビ区間を検出する方法及び装置並びにプログラムを提供することにある。
本発明の他の目的は、 サビ区間だけでなく、 その他の繰り返し区間も表示手段 に表示することができる音楽音響データ中のサビ区間を検出する装置を提供する ことにある。
本発明のさらに他の目的は、 サビ区間だけでなく、 その他の繰り返し区間も再 生することができる音楽音響データ中のサビ区間を検出する装置を提供すること にある。 発明の開示
サビは、 楽曲全体の構造の中で、 一番代表的な盛り上がる主題の部分である。 通常、 サビは楽曲中で最も多く繰り返され、 印象に残るため、 専門的な音楽の訓 練を受けていない人が音楽を聴いたときでも、 どこがサビであるかを容易に判断 できる。 さらに、 サビ検出の結果は、 様々な応用において有用である。 例えば、 多数の楽曲をブラウジングするときや、 楽曲検索システムにおいて検索結果を提 示するときに、 サビの冒頭を短く再生 (プレビュー) できると便利である (画像 のサムネールの音楽版とみなせる) 。 また、 歌声等を検索キーとした楽曲検索で は、 検索対象をサビ区間に限定すると精度と効率が上がる。 そして本発明のサビ 検出技術を実施すれば、 サビ区間を自動的にインデキシングすることも可能にな る。
音楽音響データを再生する音楽音響デ一夕再生装置を用いて音楽音響データを 再生する本発明の楽曲再生方法は、 第 1乃至第 3のステップを実行する。 ここで 音楽音響デ一夕とは、 アナログ音響信号、 デジタル音響信号、 M I D Iデータ ( 標準 M I D Iファイル) 等の各種の再生可能な音響データを含むもので、 圧縮/ 非圧縮のいずれでもよい。 なお圧縮されたデ一夕の場合、 圧縮フォーマットの形 式は任意である。 また後述する 「複数の楽曲構造特徴区間」 とは、 前述のサビ区 間及び または繰り返し区間を含むものである。 なおサビ区間または繰り返し区 間だけを複数の楽曲構造特徴区間としてもよいのは勿論である。 第 1のステップでは、 再生の対象となる音楽音響データに関して、 複数の楽曲 構造特徴区間を指定するための複数の楽曲構造特徴区間指定データを予め用意す る。 複数の楽曲構造特徴区間指定データとは、 楽曲構造特徴区間の始まり位置と 終了位置に関するデータである。 例えば、 楽曲構造特徴区間の始まり位置と終了 位置は、 対象となる音楽音響データ中の位置データや、 実際に演奏を開始してか らその位置に達するまでに要する時間で表した位置データとして表現することが できる。 この複数の楽曲構造特徴区間指定デ一夕は、 音楽音響デ一夕と組合せて すなわちセッ卜にしてもよいが、 音楽音響データとは別のデータとして存在させ てもよい。 このようにすると、 すでに音楽音響デ一夕を入手している人は、 ネッ トワーク等を介してその楽曲に対応する複数の楽曲構造特徴区間指定データを後 から入手することができるようになる。 また複数の楽曲構造特徴区間指定データ を音楽音響データと組合せておけば、 音楽音響データをダウンロードするときに 必然的に複数の楽曲構造特徴区間指定データもダウンロードされる上、 両データ の対応関係を考慮する必要がなくなるので便利である。
複数の楽曲構造特徴区間の抽出方法は、 任意である。 例えば、 音楽音響データ から任意の方法で自動抽出してもよい。 あるいは、 音楽音響データを再生しなが ら複数の楽曲構造特徴区間を人が特定したり (ラベリングし) 、 専用のラベリン グ用エディタを用いて複数の楽曲構造特徴区間を特定してもよい。 また対象とす る音楽音響データを複数の試聴者が再生した際の再生行動の統計データに基いて 複数の楽曲構造特徴区間を特定し、 特定した複数の楽曲構造特徴区間を指定する ための複数の楽曲構造特徴区間指定デ一夕を作成するようにしてもよい。 この場 合には、 例えば、 複数の試聴者が試聴した回数または再生した回数が多い区間 ( 予め定めた回数よりも多い区間) を楽曲構造特徴区間として特定することができ る。 なおこの場合には、 ネットワークに接続された複数台の試聴用の楽曲再生装 置から複数の試聴者による再生回数が多い区間のデータを集めてもよい。 このよ うにすると簡単に大量のデ一タを入手できる。 また入手したデータをヒストグラ ムとして視覚により認識可能な状態とし、 ヒストグラムから複数の楽曲構造特徴 区間を特定してもよい。 このようにすると統計データからの楽曲構造特徴区間の 特定が容易になる。 このような人の試聴を基準にすると、 楽曲構造からサビとい われる部分の検出が困難な楽曲からも楽曲構造特徴部分を容易に抽出することが できる。
第 2のステップでは、 複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を 選択するインターフェースを用意する。 このインタ一フェースとは、 操作者と装 置の間を関係づけるものであり、 操作者により選択操作される部分と、 選択結果 を発信する機能とを少なくとも備えていればよい。 したがって最も簡単なインタ 一フェースは、 アナログまたはデジタルのスィッチからなる選択ポタンにより構 成することができる。 選択ポタンだけでインタ一フエ一スを構成する塲合には、 再生される音楽を聴きながら選択ポタンを操作することになる。 選択ポタンだけ では、 音楽音響デ一夕のどの部分に楽曲構造特徴区間が幾つ存在するのかが分か らない。 そのため必要以上に選択ポタンを操作する可能性がある。 また選択ボタ ンだけでは、 複数種類の楽曲構造特徴区間がある場合に同じ種類の楽曲構造特徴 区間を意図的に試聴することができない。
そこでこのような問題を解決するためには、 第 2のステップで用意するインタ 一フェースとして、 音楽音響デ一夕の長さを時間軸を用いた画像表示により表示 し、 併せて音楽音響データ再生装置が音楽音響データを再生している音楽音響デ —夕の再生位置と複数の楽曲構造特徴区間とを時間軸を用いた画像表示により表 示する画像表示部を有するものを用いればよい。 このようなィンタ一フェースを 用いると、 画像表示部の表示を見ることにより、 現在の再生位置と複数の楽曲構 造特徴区間との位置関係または時間関係を視覚を用いて認識できる。 したがって 画像表示部の表示を見ながら、 任意の箇所の楽曲構造特徴区間を任意に選択する ことが可能になる。 なお楽曲の演奏時間が長い場合には、 演奏時間の全時間分の 表示を一画面に表示することができない場合もある。 このような場合には、 演奏 時間の一部に対応する表示を画面に表示しておき、 時間の経過とともにスクロー ル式に画面を変更してもよいのは勿論である。
ィン夕一フェースに画像表示部を設ける場合に、 複数の楽曲構造特徴区間にお いて、 楽曲のサビ部分を示す複数のサビ区間と、 繰り返し部分を示す複数の繰り 返し区間とから構成するときには、 画像表示部が複数のサビ区間と複数の繰り返 し区間とを区別して表示するのが好ましい。 このようにすると画像表示を見なが らサビ区間と繰り返し区間とを任意に選択することが容易になる。
またインターフエ一スは、 複数の楽曲構造特徴区間から任意の楽曲構造特徴区 間を選択するために操作者が操作する 1以上の選択ポタンを有している。 この選 択ボタンとして、 人が指で操作するアナログ式の選択ボタン、 表示画面に表示さ れたポタンの表示を人間の指やカーソルでクリックしてオン ·オフを判定するタ イブの選択ボタン (画像表示ボタン) 、 音声認識により選択を判別するタイプの 選択ボタン等の各種の選択ボタンが含まれる。 特に、 1以上の選択ポタンに、 複 数の楽曲構造特徴区間からサビ区間だけを選択する 1以上のサビ区間選択ボタン をインターフエ一スに配置するのが好ましい。 このような専用選択ポタンを配置 すると、 特別な知識を持たない人でも簡単にサビ区間の再生を実行できるので、 汎用性が非常に高くなる。 また 1以上のサビ区間選択ポタンは、 前のサビ区間を 選択する第 1のサビ区間選択ポタンと、 後のサビ区間を選択する第 2のサビ区間 選択ポタンとから構成するのが好ましい。 このようにすると選択の自由度が増す だけでなく、 繰り返しサビ区間を再生することが可能になる。 また 1以上の選択 ボタンには、 複数の繰り返し区間を選択する際に前の繰り返し区間を選択する第 1の繰り返し区間選択ポタンと、 後の繰り返し区間を選択する第 2の繰り返し区 間選択ポタンが含まれてもよい。 この場合にも選択の自由度が増すだけでなく、 繰り返し区間を繰り返し再生することが可能になる。
第 3のステップでは、 音楽音響データ再生装置を用いて音楽音響データの再生 を開始した後、 操作者がインターフェースを用いて選択した任意の楽曲構造特徴 区間に対応する楽曲構造特徴区間指定データに基いて、 音楽音響データ再生装置 による音楽音響データの再生位置を前記任意の楽曲構造特徴区間に変更する。 す なわち演奏途中であっても、 インターフェースから特定の楽曲構造特徵区間に再 生位置を変更する指令が入力されると、 その指令に基づいて再生位置を変更する ことになる。
なおィンターフェース上で任意の楽曲構造特徴区間を選択した場合にのみ、 そ の選択された区間の再生を行うようにしてもよいのは勿論である。 その場合には 、 第 3のステップでは、 操作者がインターフェースを用いて選択した任意の楽曲 構造特徴区間に対応する楽曲構造特徴区間指定データに基いて音楽音響データ再 生装置に前記任意の楽曲構造特徴区間を再生させるようにすればよい。
本発明の方法を実施するための楽曲再生装置は、 音楽音響データを再生する音 楽音響データ再生装置を有し、 且つ楽曲中の複数の楽曲構造特徴区間から選択し た任意の楽曲構造特徴区間を再生する機能を備えている。 そして本発明の楽曲再 生装置は、 インターフェースと、 楽曲構造特徴区間指定デ一夕格納手段と、 指定 データ付与手段とを更に備えている。 インターフェースは、 複数の楽曲構造特徴 区間から任意の楽曲構造特徴区間を選択する機能を有するものである。 また楽曲 構造特徴区間指定データ格納手段は、 再生する音楽音響データに対応して予め定 められた複数の楽曲構造特徴区間を指定するための楽曲構造特徴区間指定データ を格納する。 そして指定デ一夕付与手段は、 インタ一フェースによって選択され た任意の楽曲構造特徴区間を指定する楽曲構造特徴区間指定データを音楽音響デ 一夕再生装置に与える。 音楽音響データ再生装置は、 指定データ付与手段から付 与された楽曲構造特徴区間指定デ一夕によって指定された楽曲構造特徵区間に再 生位置を変更するように構成されている。 本発明の装置では、 楽曲の再生中であ つても、 インタ一フェースによって選択された任意の楽曲構造特徴区間を再生す ることができる。 また楽曲の再生中でなくても、 インターフェースによって選択 された任意の楽曲構造特徴区間を再生することができる。 なお音楽音響データに 楽曲構造特徴区間指定デ一夕が付随している場合には、 楽曲構造特徴区間指定デ 一夕格納手段は音楽音響データに付随する楽曲構造特徴区間指定データを読み取 つて格納すればよい。
また音楽音響データから自動的に楽曲中の複数の楽曲構造特徴区間を抽出して 楽曲構造特徴区間指定データを作成する特徴区間指定データ生成手段を更に備え ていてもよい。 このような手段を備えていれば、 既存の楽曲を再生する場合にも 本発明を適用することが容易になる。
なお本発明は、 コンピュータと、 前記コンピュータからの指令に基いて動作す るディスプレイと、 前記コンピュー夕からの指令で音楽音響データを再生する音 楽音響データ再生装置とから構成された装置を用いて、 楽曲中の複数の楽曲構造 特徴区間から選択した任意の楽曲構造特徴区間を再生する機能を前記コンビユー 夕に実現させるためのプログラムとしても特定できる。 このプログラムは、 複数 の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するイン夕一フェースを 前記ディスプレイ上に構成する機能と、 再生する前記音楽音響データに対応して 予め定められた前記複数の楽曲構造特徴区間を指定するための楽曲構造特徴区間 指定データを格納する楽曲構造特徴区間指定データ格納手段を構成する機能と、 前記インターフェースによって選択された前記任意の楽曲構造特徴区間を指定す る前記楽曲構造特徴区間指定データを前記音楽音響データ再生装置に与える指定 データ付与手段を構成する機能と、 前記指定データ付与手段から付与された前記 楽曲構造特徴区間指定データによって指定された前記楽曲構造特徴区間を再生す るように前記音楽音響デ一夕再生装置に指令を与える機能とを前記コンピュータ に実現させる構成を備えている。
なおインターフェースを前記ディスプレイ上に構成する機能は、 複数の楽曲構 造特徴区間に含まれるサビ区間を選択するために操作者が操作するサビ区間選択 ポタンを含む 1以上の選択ポタンをディスプレイ上に形成する機能を有している のが好ましい。
本発明を用いれば、 「サビ出し」 機能 (サビ区間選択ポタン) を搭載した音楽 試聴機を得ることができる。 試聴者はこのサビ区間選択ポタンを押すだけで、 サ ビ区間の先頭へ再生をジャンプさせる (瞬時に早送りする) ことができ、 自分で サビ区間を探す煩わしい作業から解放される。 さらに、 サビ以外の楽曲中の繰り 返し区間も事前に推定あるいは用意しておくことで、 次の楽曲構造の繰り返し区 間の先頭へも再生をジャンプさせることができる。
また本発明のサビ区間の検出方法では、 ある楽曲中で繰り返されるサビ区間を 検出するためにその楽曲の音楽音響デ一夕中からサビ区間に対応する部分を検出 するために、 特徴量抽出ステップと、 類似度演算ステップと、 繰り返し区間リス トアップステップと、 統合繰り返し区間決定ステップと、 サビ区間決定ステップ とを実行する。
最初に、 特徴量抽出ステップでは、 音楽音響データから所定の時間単位で音響 特徴量を順次求める。 具体的な実施の形態では、 入力されてくる音楽音響データ について、 所定のサンプリング幅を持って重複しながらデ一夕のサンプリングを 行うハニング窓等のサンプリング技術を用いて、 所定の時間単位 (例えば 8 0 m S ) で、 サンプリングを行う。 そしてサンプリングしたデータについて、 音響特 徵量を求める。 音響特徴量の求め方は任意である。 例えば、 特徴量抽出ステップ で求める音響特徴量として、 1オクターブの範囲に含まれる 1 2の音名の周波数 のパワーを複数のオクターブに渡つてそれぞれ加算して得た 1 2次元クロマべク トルを用いることができる。 1 2次元クロマべクトルを音響特徴量として用いる と、 複数オクターブに渡る楽曲の特徴量を抽出できるだけでなく、 転調した音楽 音響データから対比が可能な特徴量として抽出することができる。
次に、 類似度演算ステップでは、 音楽音響データについて求めた複数の音響特 徴量の相互間の類似度を求める。 類似度を求める際に用いる演算式は、 任意であ り、 公知の類似度演算式のいずれを用いてもよい。 そして繰り返し区間リストア ップステップでは、 類似度に基づいて音楽音響データ中に繰り返し現れる複数の 繰り返し区間をリストアップする。 類似度演算ステップで、 今回求めた音響特徴 量と先に求めた全ての音響特徴量との間の類似度を求めると、 リアルタイムにサ ビ区間を検出することが可能になる。
より具体的な、 類似度演算ステップでは、 時刻 tのクロマベクトル (音響特徴 量) とそれよりラグ 1 ( 0≤ l≤ t ) ( 1はアルファベット Lの小文字) だけ過 去の全てのクロマベクトルとの類似度を求めることになる。 この場合、 繰り返し 区間リストアップステップでは、 一方の軸を時間軸とし他方の軸をラグ軸とし、 予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め 定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸 を基準にした繰り返し区間としてリストアップする。 なおこのリストアップは、 演算上のリストアップであればよく、 実際的に表示手段上にリストアップする必 要はない。 したがって時間軸及びラグ軸も理論上の軸であればよい。 ここで 「類 似線分」 の概念は、 本願明細書において定義するものである。 類似線分は、 予め 定めた時間長さ以上類似度が予め定めた閾値以上あるときに、 閾値以上ある類似 度の部分の長さに対応する時間長さを有する線分として定義される。 閾値を適宜 に変更または調整することにより、 ノイズを除去することが可能になる。 なお閾 値を設けたことによりノイズは除去できるものの、 本来現れるべき類似線分が現 れなくなる場合もある。 しかしそのような場合であっても、 今回の特徴量と過去 のすベての特徴量との間の類似度についての類似線分をリストアツプするため、 後に他の類似線分との関係から、 本来現れるべき類似線分がないことを探索する ことができるので、 リストアップの精度が下がることはない。
統合繰り返し区間決定ステップでは、 リストアツプされた複数の繰り返し区間 の相互関係を調べ、 時間軸上の共通区間にある 1以上の繰り返し区間を統合して 一つの統合繰り返し区間を決定する。 統合繰り返し区間決定ステップでは、 時間 軸の共通区間に存在するリストアツプした類似線分どうしをそれぞれグルーピン グにより統合して統合繰り返し区間と定める。 そして複数の統合繰り返し区間を 、 共通区間の長さとグルーピングされる類似線分のラグ軸で見た位置関係とに基 づいて複数種類の統合繰り返し区間列に分類する。 より具体的には、 リストアツ プされた複数の繰り返し区間の相互関係は、 時間軸上の共通区間に対応する過去 のラグ位置に 1以上の繰り返し区間 (類似線分) が存在するか否かと、 そのラグ 位置に対応する過去の時間帯において繰り返し区間 (類似線分) が存在するか否 かの関係である。 これらの関係に基づいて、 このステップでは、 共通区間に対応 する過去のラグ位置に 1以上の繰り返し区間 (類似線分) がある場合に、 それら をその共通区間に繰り返し区間 (類似線分) があるものと決定して、 その繰り返 し区間を統合繰り返し区間とする。 その上で、 統合繰り返し区間決定ステップで は、 決定した複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化 する。 この分類化は、 共通区間の長さの共通性と、 共通区間に存在する繰り返し 区間 (類似線分) の位置関係と数との関係に基づいて行われる。 この分類化によ り、 種類の異なる繰り返し区間の構造化が実現できる。
なお統合繰り返し区間を用いると、 類似度を求めた 2番目以降の繰り返し区間 に対応する統合繰り返し区間は求まるものの、 最初の繰り返し区間が統合繰り返 し区間列には含まれないことになる。 そこで統合繰り返し区間決定ステップでは 、 統合繰り返し区間に含まれない最初の繰り返し区間を補足して統合繰り返し区 間列を作成するようにしてもよい。
そしてサビ区間決定ステツプで、 複数種類の統合繰り返し区間列からサビ区間 を決定する。 このサビ区間決定ステップでは、 例えば、 統合繰り返し区間列に含 まれる統合繰り返し区間の類似度の平均と、 数と長さとに基づいて該統合繰り返 し区間列に含まれる統合繰り返し区間のサビらしさを求める。 そして、 最もサビ らしさの高い統合繰り返し区間列に含まれる統合繰り返し区間をサビ区間として 決定する。 なおサビらしさの定め方は、 一つに限定されるものではなく、 よりよ ぃサビらしさの基準に基づいて判断すれば、 それだけ検出精度が高まるものは勿 @冊 ¾>る。
なお楽曲が転調を含んでいる場合には、 次のようにする。 まず特徴量抽出ステ ップでは、 1 2次元クロマベクトルからなる音響特徴量を 1転調幅ずつ 1 1転調 幅までシフトして得た転調幅の異なる 1 2種類の音響特徴量を求める。 次に類似 度演算ステップでは、 今回求めた音響特徴量と先に求めた全ての 1 2種類の音響 特徴量との間の類似度を、 時刻 tの今回の音響特徴量を表す 1 2次元クロマべク トルとそれよりラグ 1 ( 0≤ l≤ t ) だけ過去の全ての 1 2種類の音響特徴量を 表す 1 2次元クロマべクトルとの間の類似度として演算する。 そして繰り返し区 間リストアップステップでは、 1 2種類の音響特徴量ごとに、 一方の軸を時間軸 tとし他方の軸をラグ 1とし、 予め定めた時間長さ以上類似度が予め定めた閾値 以上ある場合には類似度が予め定めた閾値以上である部分の長さに対応する時間 長さを有する類似線分を時間軸を基準にした繰り返し区間としてそれぞれ 1 2種 類のリストをリストアツプする。
統合繰り返し区間決定ステップでは、 1 2種類のリストごとに、 時間軸の共通 区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより 統合して統合繰り返し区間と定める。 さらに 1 2種類のリストについて定めた複 数の統合繰り返し区間を共通区間の時間軸上の存在位置及び長さと、 ダル一ピン グされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の転調を考慮し た複数種類の統合繰り返し区間列に分類化する。 このようにすると、 転調を含ん だ音楽音響デ一夕であっても、 転調した部分の特徴量を 1 1段階の転調幅のシフ トでずらして類似度を求めるため、 転調した部分の特徴量を正しく抽出すること ができる。 その結果、 繰り返し区間が転調されている場合でも、 同じ特徴 (Aメ 口、 Bメロ, サビ) の繰り返し区間であるか否かの判定を高い精度で行うことが 可能になる。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響デー 夕中からサビ区間に対応する部分を検出して表示手段に表示する本発明のサビ区 間検出装置は、 音楽音響データから所定の時間単位で音響特徴量を順次求める特 徵量抽出手段と、 音楽音響デ一夕について求めた複数の音響特徴量の相互間の類 似度を求める類似度演算手段と、 類似度に基づいて音楽音響デー夕中に繰り返し 現れる複数の繰り返し区間をリストアップする繰り返し区間リストアツプ手段と 、 リストアップされた複数の繰り返し区間の相互関係を調べ、 時間軸上の共通区 間にある 1以上の繰り返し区間を統合して一つの統合繰り返し区間を決定し、 決 定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化す る統合繰り返し区間決定手段と、 複数種類の統合繰り返し区間列からサビ区間を 決定するサビ区間決定手段とを具備する。 サビ区間を含む統合繰り返し区間列ま たは複数種類の統合繰り返し区間列は、 表示手段に表示される。 そしてサビ区間 を含む統合繰り返し区間列が他の統合繰り返し区間列とは異なる表示態様で表示 される。 このようにすると検出したサビ区間を他の繰り返し区間とは区別して明 瞭に表示することができる。
なお本発明は、 統合繰り返し区間列を表示手段に表示せずに、 音響の再生手段 でサビ区間を含む統合繰り返し区間列またはその他の統合繰り返し区間列を選択 的に再生するようにしてもよいのは勿論である。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響デー 夕中からサビ区間に対応する部分を検出する方法をコンピュータを用いて実現す るために用いられるプログラムは、 音楽音響データから所定の時間単位で音響特 徵量を順次求める特徴量抽出ステップと、 音楽音響データについて求めた複数の 音響特徴量の相互間の類似度を求める類似度演算ステップと、 類似度に基づいて 音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアツプする繰り 返し区間リストアップステップと、 リストアツプされた前記複数の繰り返し区間 の相互関係を調べ、 時間軸上の共通区間にある 1以上の繰り返し区間を統合して 一つの統合繰り返し区間を決定し、 決定した複数の前記統合繰り返し区間を複数 種類の統合繰り返し区間列に分類化する統合繰り返し区間決定ステップと、 複数 種類の統合繰り返し区間列からサビ区間を決定するサビ区間決定ステップとを前 記コンピュータに実行させるように構成されている。 図面の簡単な説明
図 1は、 本発明の楽曲再生方法の実施の形態の概念を示すプロック図である。 図 2 (A) は手動サビ区間ラベリング用エディタの画面の表示であり、 図 2 (
B ) 及び (C ) は試聴者行動分析手法で得られたヒストグラムの例を示す図であ る。
図 3は、 本発明の楽曲再生装置の一実施の形態の構成を示すプロック図である 図 4 (A) はそれぞれ音楽音響データから自動的に楽曲中の複数の楽曲構造特 徴区間を抽出して楽曲構造特徴区間指定データを作成する特徴区間指定データ生 成手段を備えた本発明の楽曲再生装置の変形例を示すブロック図であり、 図 4 ( B ) は他の変形例を示すブロック図である。
図 5 (A) 及び (B ) は、 インタ一フェースの表示画面の一例を示す図である 図 6は、 インタ一フェースを実現する場合に用いるプログラムのアルゴリズム を示すフロ一チヤ一トである。
図 7は、 通常の再生動作を行う際のインターフェースの動作のアルゴリズムを 示すフローチャートである。
図 8 (A) 〜 (C) は、 サビ区間の選択を説明するために用いる図である。 図 9 (A) 〜 (C ) は、 サビ区間の選択を説明するために用いる図である。 図 1 0 (A) 〜 (C ) は、 繰り返し区間の選択を説明するために用いる図であ る。
図 1 1 (A) 及び (B ) は、 繰り返し区間の選択を説明するために用いる図で ある。
図 1 2 (A) 〜 (C ) は、 繰り返し区間の選択を説明するために用いる図であ る。
図 1 3は、 繰り返し区間の選択を説明するために用いる図である。
図 1 4は、 実際に作成したイン夕一フェースの画面を示す図である。
図 1 5は、 本発明のサビ区間検出方法で、 転調を伴う楽曲中のサビ区間を検出 する一実施の形態の方法の処理ステップを示すフローチャートである。
図 1 6は、 本発明のサビ区間を検出する装置の実施の形態の一例の構成の概略 を示すブロック図である。
図 1 7は、 図 1 6の装置をコンピュータを利用して実現する場合に用いるプロ グラムのァルゴリズムの一例を示すフロ一チヤ一トである。
図 1 8は、 螺旋状の音高知覚を説明するための図である。
図 1 9は、 1 2次元クロマべクトルを説明するために用いる図である。
図 2 0は、 類似度の演算の考え方を説明するために用いる図である。
図 2 1は、 類似度の演算の考え方を説明するために用いる図である。
図 2 2は、 ある楽曲に対する類似線分、 類似度 r ( t, 1 ) 、 パラメ一夕空間
R a i l ( t, 1 ) の概念図である。
図 2 3は、 実際に得られる類似線分の一例を示す図である。
図 2 4は、 類似線分の考え方を説明するために用いる図である。
図 2 5は、 類似線分の考え方を説明するために用いる図である。
図 2 6は、 類似線分の考え方を説明するために用いる図である。
図 2 7は、 類似線分の考え方を説明するために用いる図である。
図 2 8は、 類似線分を求める際の閾値の定め方を説明するために用いる図であ る。
図 2 9は、 類似線分を求める際の閾値の定め方を説明するために用いる図であ る。
図 3 0は、 類似線分の抽出方法を説明するために用いる図である。
図 3 1は、 繰り返し区間の統合化を説明するために用いる図である。
図 3 2は、 繰り返し区間の統合化を説明するために用いる図である。
図 3 3は、 繰り返し区間の統合化の例を示す図である。
図 3 4は、 繰り返し区間の統合化の例を示す図である。
図 3 5は、 統合繰り返し区間列の表示例を示す図である。
図 3 6は、 あるサビの転調前後での 1 2次元クロマべクトルの違いを示す図で あ
図 3 7は、 転調に対処するためのシフト処理を説明するために用いる図である 図 38は、 転調処理のために 12種類のリストを作成することを示す図である 図 39は、 サビ区間の選定の仮定の一例を説明するために用いる図である。 図 40は、 サビ区間の選定の仮定の一例を説明するために用いる図である。 図 41は、 RWC— MDB— P— 200 1, No. 18の楽曲終了時点での正 しいサビ検出結果を示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について詳細に説明する。 まず、 サビ区間を検出す る場合の問題点について説明する。 サビ区間の検出のためには、 楽曲一曲分の音 響信号データ中に含まれるすべてのサビ区間の開始点と終了点とを求める必要が ある。 サビは、 コーラス (c ho r u s) あるいはリフレイン (r e f r a i n ) とも呼ばれる。 サビは、 楽曲構造上、 主題 (t h eme) を提示している部分 を指す。 そしてサビは、 ときには伴奏の変化やメロディーの変形を伴いながら、 通常は、 楽曲中で最も多く繰り返される。 例えば、 典型的なポピュラー音楽の楽 曲構造は、
{イントロ、 サビ }
( (—第 1の序奏部分 (Aメロ) 〔—第 2の序奏部分 (Bメロ) 〕 ) Xn l— サビ) Xn2 ―
〔—間奏〕 〔—第 1の序奏部分 (Aメロ) 〕 〔—第 2の序奏部分 (Bメロ) 〕 →サビ n3
〔—間奏—サビ Xn4〕 〔—エンディング〕
のようになっている。 このようにサビは、 他のメロディよりも繰り返し回数が多 くなつている。 ここで、 {a, b} は aか bかのいずれか一方、 〔a〕 は aが省 略可能であることを表す記号である。 そして nl , n2, n3, n4は繰り返し 回数を表す正の整数である (多くの場合、 l≤nl≤2, 1≤η2≤4, n3≥ 0, n4≥0) 。 イントロ ( i n t r o du c t i on) は前奏部分、 Aメロ、 Bメロ (v e r s e A, v e r s e B) は序奏部分を指す。 楽曲中で通常、 最も多く繰り返されるサビの区間を検出するには、 基本的には 、 ある楽曲中に含まれる複数の区間の繰り返し (繰り返し区間) を見つけ出し、 最も出現頻度の大きい区間をサビ区間とすればよい。 しかし、 「繰り返し区間」 とは言っても音響信号が完全に一致する状態で区間が繰り返される場合は希であ る。 そのため、 人間にとっては容易に繰り返しと分かる塲合でも、 計算機にとつ てはその判断が難しい。 その際の主要な課題は、 以下のようにまとめられる。 課題 1 :特徴量と類似度の検討
ある区間の音響信号とその区間の繰り返し区間と考えられる他の区間の音響信 号とが完全に一致しない場合には、 ある区間が繰り返されているということを判 断するために、 各区間から求めた特徴量相互間の類似度を判断しなければならな い。 その際、 繰り返しがあると判断できるためには、 繰り返す度にその区間内の 音響信号の細部が多少異なっても (メロディーが変形したり、 伴奏のベース、 ド ラム等が演奏されなくなったりしても) 、 各区間の特徴量間の類似度は高い必要 がある。 しかしながら、 各区間のパヮ一スペクトルを直接特徴量とした場合には 、 この類似度の判断が困難である。
課題 2 :繰り返しの判断基準
類似度がどれくらい高ければ繰り返しとみなせるかという基準は、 楽曲に依存 して変わる。 例えば、 似た伴奏が多用される楽曲では、 全体的に多くの部分の類 似度が高くなる。 そのため、 比較する各区間の類似度がかなり高い類似度でなけ れば、 それらの区間がサビに関連する繰り返し区間であると判断しない方がよい 。 逆に、 サビが繰り返されるときに、 伴奏が大きく変化するような楽曲では、 比 較する各区間の類似度がやや低くても繰り返し区間であると判断する方がよい。 こうした基準を、 ある楽曲に特化して人間が手作業で設定するのは容易である。 しかしながら、 幅広い楽曲からサビ区間を自動的に検出するためには、 サビ区間 の検出の基準を、 現在処理中の楽曲に応じて自動的に変える必要がある。 このこ とは、 あるサビ区間の検出方法の性能を評価する場合に、 その方法で数曲のサン プル曲についてサビ区間の検出ができたからといって、 必ずしもその方法に汎用 性があるとは限らないということを意味する。
課題 3 :繰り返し区間の端点 (開始点と終了点) の推定 サビ区間の長さ (区間長) は楽曲ごとに異なるため、 各区間長と共に、 どこか らどこまでがサビであるかを推定しなければならない。 その際、 サビの前後の区 間も一緒に繰り返すことがあるため、 端点の推定は、 楽曲中の様々な箇所の情報 を統合して行う必要がある。 例えば、 (A B C B C C ) のような構造の楽曲の場 合 (A, B , Cはそれぞれ Aメロ、 Bメロ、 サビの区間とする) 、 単純に繰り返 し区間を探すと、 (B C ) がーつのまとまった区間として見つかる。 この場合、 最後の Cの繰り返し情報に基づいて、 (B C ) の内の Cの区間の端点を推定する 、 といった処理が求められる。
課題 4 :転調を伴う繰り返しの検出
転調後の区間は、 一般に特徴量が大きく変わるために、 転調前の区間との類似 度が低くなり、 繰り返し区間と判断するのが困難となる。 特に、 転調は曲の後半 のサビの繰り返しで起きることが多く、 そうした繰り返しを的確に判断すること は、 サビの検出において重要な課題である。
本発明では、 以上の課題を解決しつつ、 基本的に楽曲中で多く繰り返される区 間をサビとして検出する。 以下の実施の形態の説明においては、 入力として、 音 楽のモノラルの音響信号を対象とし、 混合音中の楽器の数や種類には特に制限を 設けない。 ステレオ信号の場合には、 左右を混合してモノラル信号に変換するも のとする。 以下の実施の形態では、 以下のことを仮定する。
仮定 1 :演奏のテンポは一定でなく変化してもよい。 しかしサビの区間は、 毎 回ほぼ類似したテンポで、 一定の長さの区間として繰り返し演奏される。 その区 間は長い方が望ましいが、 区間長には、 許容される適切な範囲 (現在の実装では 、 7 . 7〜4 0 s e c ) がある。
仮定 2 :前述した楽曲構造の例の、
( (→Aメロ 〔→Bメロ〕 ) X n l→サビ) X n 2
に相当するような、 長い繰り返しがある場合、 その末尾の部分がサビである可能 性が高い (図 3 9参照) 。
仮定 3 :サビ区間内では、 その区間の半分程度の長さの短い区間が繰り返され ることが多い。 そのため、 ある繰り返し区間内にさらに区間の短い繰り返し区間 がある場合には、 その区間がサビである可能性が高い (図 4 0参照) 。 以上は、 多くのポピュラー音楽に当てはまる妥当な仮定である。 本実施の形態においては 、 上記課題と仮定を前提にしている。 なお以下の説明では、 先に本発明の楽曲再 生方法の実施の形態を説明し、 次に本発明のサピ区間の検出方法の実施の形態に ついて説明する。
図 1は本発明の楽曲再生方法の実施の形態の概念を示すブロック図である。 こ れらの実施の形態では、 楽曲構造上意味を持つ区間 (サビ区間及び繰り返し区間 ) の先頭に、 音楽の再生位置を自動ジャンプさせる。 基本的には、 音楽音響信号 や標準 M I D Iファイル等の音楽音響データの楽曲構造を事前に解析しておき、 その中で試聴者 (ユーザ) が関心を持つ部分 (サビの部分、 繰り返し演奏される 部分) すなわち楽曲構造特徴区間へ演奏箇所を自動的にジャンプできる機能を提 供する。 音楽音響データは、 口一カルな電子計算機 (サーバ) 等や C Dプレーヤ 等の音楽再生器上に用意されていてもよく、 またネットワークからダウンロード されるものでもよい。
[第 1のステップの説明]
具体的には、 再生の対象となる音楽音響データに関して、 楽曲中の楽曲構造特 徵区間を指定するための複数の楽曲構造特徴区間指定データを予め用意する (第 1のステップ) 。 最も単純には、 音楽音響データを再生しながら複数の楽曲構造 特徴区間を人が特定し、 その特定結果を基準にして複数の楽曲構造特徴区間を指 定するための複数の楽曲構造特徴区間指定データを作成する。 この作業はマニュ アルでの作業になるため、 時間がかかるものの、 実際に人間 (例えば、 一般人だ けでなく、 音楽を深く理解している専門家や音楽製作者) が判断して楽曲構造特 徴区間を特定するため、 例えばサビ区間が分かり難い楽曲でも必要な楽曲構造特 徵区間指定データを得ることができる。 なお本実施の形態では、 複数の楽曲構造 特徴区間のそれぞれの始まり位置と終了位置を、 実際に演奏を開始してからその 位置に達するまでに要する時間で表した位置データとして表現している。 そして 本実施の形態では、 複数の楽曲構造特徴区間指定データを音楽音響データと組合 せて一つのセットにしている。
図 1の実施の形態では、 楽曲構造特徴区間を、 自動サビ区間検出手法、 手動サ ビ区間ラベリング手法、 試聴者行動分析手法のいずれか一つの方法を用いて楽曲 構造特徴区間を特定する。 以下各手法を説明する。
[自動サビ区間検出手法]
この手法では、 楽曲中のサビ区間や繰り返し区間の開始点と終了点の一覧を自 動検出する。 本手法は、 人手がかからないため多数の楽曲に適用可能である。 自 動検出では検出結果に誤りが含まれることもあるが、 実用上は、 完全な精度でな くても試聴者が再生位置を見つける手掛かりとなるため、 従来の試聴機よりは便 利となる。 このための手法の詳細については、 後に詳しく説明する。
[手動サビ区間ラベリング手法]
サビゃ楽曲構造をラベリング可能なエディタ上で、 人間が音楽を聴きながら手 作業で指定する。 精度は高いが、 労力と時間がかかる。 この手動ラベリングは、 自動検出が困難な楽曲、 音楽ジャンルに対しても有効である。 なお、 自動サビ区 間検出の結果を利用して、 それをエディ夕上で手作業で修正することもできる。 このためのエディタとして、 発明者は楽曲を分割して各部にサビ、 第 1のメロデ ィ (Aメロ) 、 第 2のメロディ (Bメロ) 、 イントロ、 間奏、 エンディング等を ラベリングできる、 楽曲構造ラベリング用エディ夕を開発した。 エディタの画面 を図 2 (A) に示す。 この図の上半分に示された横軸は時間軸 (s e c ) で楽曲 全体を表示している。 一番上のミニウィンドウがパワー変化、 二番目のミニウイ ンドウが楽曲各部のラベリング結果、 三番目のミニウィンドウの最上段がサビ区 間の一覧であり、 下 5段が繰り返し構造を表す。 下半分は、 楽曲各部のラベリン グ結果を、 楽曲全体の時間軸を折り返しながら拡大表示している。 このエディタ 上では、 ユーザは縦棒表示で表される力一ソルの位置の情報を編集する。 楽曲の 再生 ·停止は自由に制御することができ、 カーソルは楽曲の再生位置を指す。 ュ 一ザはカーソルを自由に移動しながら、 力一ソル前後の音を繰り返し聞いたりし て、 適切な箇所に、 楽曲の各部の区切りを入れることができる。 そして、 区切り の間の区間をラベリングする。 なお、 このエディタは、 事前にビートや小節の区 切りをラベリングしておき、 エディタ上ではビ一トゃ小節単位で力一ソルを移動 することで、 ラベリング作業を迅速に行う機能も持つなど、 効率のよい作業環境 を提供している。 このエディタ上での編集結果として、 楽曲中のサビ区間や繰り 返し区間の開始点と終了点の一覧を得ることができる。 ' [試聴者行動分析手法]
この手法では、 過去の多数の試聴者が聴いた箇所を記録しておき、 試聴者が多 く聴いた区間を分析する。 そうして求めた区間を、 サビ区間 (試聴者が関心を持 つ区間) であると仮定して推定する。 ポピュラー音楽以外でも、 多く聴いた区間 は典型的な試聴者が聴きたい区間となっていることが多く、 幅広い音楽ジャンル に有効である。 本手法は、 繰り返し利用されるまで、 実質的に従来の試聴機とあ まり変わらない機能しか提供できないが、 事前に楽曲内容の分析やラベリングを 必要としない利点を持つ。 なお、 上記二つの手法と組み合わせることも可能であ る。 具体的には、 以下のように行う。 基本的には、 楽曲中の各箇所の再生回数の ヒストグラムを作成し、 ヒストグラムから多く再生されている箇所を求め、 そこ をサビ区間であると推定する。 ヒストグラムの例を図 2 ( B ) 及び (C ) に示す 。 まず、 最初はまったく記述がない状態で始め、 従来のように典型的な再生操作 ポタンを使って (早送りポタンを何度も押して途中を飛ばしながら) 、 試聴者は サビ区間等を手探りで見つけながら聴く。 その際に、 楽曲全体を非常に短い区間 (例えば 1 0 m s e c ) に区切り、 その各区間ごとの再生回数をカウントして おく (ヒストグラムを作成する) 。 通常、 サビの先頭が見つかると、 サビ全体が 再生し終わるまで試聴者は聞くため、 これを多数の試聴者が行うと、 多くの試聴 者が興味を持って再生した区間が、 ヒストグラム上で長い区間に渡って高頻度な 区間 (多く再生された区間) として求めることができる。 さらに拡張として、 再 生回数をカウントする際に、 ポタン操作をせずに連続して再生した区間の長さに 応じた重みを付け、 長く再生するほど、 大きな値がヒストグラムに加算されるよ うにする。 これにより、 サビの探索中は短い区間しか再生されないために小さい 値がヒストグラムに加算され、 サビが見つかると長い区間を再生されるために大 きい値がヒストグラムに加算される。 こうして、 ヒストグラム中のサビの区間の 値をより高くすることができ、 より適切にサビの区間が求まる。
なお上記の処理は、 単独の試聴機で実行するだけでなく、 試聴機同士をインタ 一ネット等の広域ネットワークで接続し、 同一楽曲に対して、 世界中の試聴者 ( ュ一ザ) がどのように操作して聴いたのかのヒストグラムを集計することもでき る。 これにより、 より多くの試聴者の行動分析結果がヒストグラムに反映され、 サビの区間を求める精度が向上する。 なお試聴者行動分析手法の場合には、 ヒス トグラムを視覚化するのが効果的であり、 過去の試聴者がどこをよく聴いたのか を視覚的に見ながら操作できる。
試聴者行動分析手法の結果を使うには、 図 2 ( B ) に示すようにヒストグラム のある閾値以上をサビの区間 (典型的な試聴者が関心を持つ区間) として、 ヒス トグラムの上か下に、 明示的に表示すると便利である。 このようにして定めた区 間を楽曲構造特徴区間として本発明を適用すれば、 ユーザは他の手法で求めた楽 曲構造特徴区間と同様に、 インターフェースによる選択に従って再生位置をジャ ンプさせることが可能である。 あるいは図 2 ( C ) に示すように、 このような区 間に代わる別の表示方法として、 ヒストグラムを平滑化してスムーズにした関数 を求め、 それを時間軸方向に一次微分した関数 (導関数) が、 ある閾値以上にな つている時刻に線分(複数存在する)を表示してもよい。 それらの線分は、 ヒスト グラムが急激に上昇した箇所を表しており、 多くの試聴者が聴き始める箇所 (典 型的な試聴者が関心を持つ区間の開始時刻) を表している。 この場合でも、 ユー ザがィンターフェ一スにより線分を選択することにより、 それらの線分の時刻に 対応する再生位置をジャンプして再生することが可能である。
[第 2のステップ及び第 3のステップの説明]
次に本実施の形態の方法では、 複数の楽曲構造特徴区間から任意の楽曲構造特 徴区間を選択するイン夕一フェースを用意する (第 2のステップ) 。 このインタ 一フェースについては、 後に詳しく説明する。 そして音楽音響データ再生装置を 用いて音楽音響データの再生を開始した後、 操作者がインタ一フェースを用いて 任意の楽曲構造特徴区間を選択すると、 選択した任意の楽曲構造特徴区間に対応 する楽曲構造特徴区間指定データに基いて、 音楽音響データ再生装置による音楽 音響データの再生位置を任意の楽曲構造特徴区間に変更する (第 3のステップ)
。 この再生位置の変更がいわゆる楽曲構造特徴区間の先頭へのジャンプである。 図 1の実施の形態では、 インターフェースに画像表示部を設けて、 楽曲の内容を 反映しながら楽曲構造特徴区間を視覚により見えるようにしている。 なおこの視 覚化も後に詳しく説明する。 この実施の形態によれば、 具体的には、 「サビ区間 の頭出し」 、 「前の楽曲構造の区間 (繰り返し区間) の頭出し」 、 「次の楽曲構 造の区間 (繰り返し区間) の頭出し」 が可能となり、 試聴者がサビの部分だけ聴 いたり、 前後の楽曲構造の先頭へとジャンプして聰いたりすることができるよう になる。
図 3は本発明の方法を実施する本発明の楽曲再生装置の一実施の形態の構成を 示すブロック図である。 この楽曲再生装置 1は、 音楽音響データを再生する音楽 音響データ再生装置 3を備えて楽曲中の複数の楽曲構造特徴区間から選択した任 意の楽曲構造特徴区間を再生する機能を備えている。 この例では、 例えばネット ワークを介して送られてきた楽曲構造特徴区間指定データ付の音楽音響データが デ一夕分離手段 5に入力される。 データ分離手段 5は、 楽曲構造特徴区間指定デ 一夕付の音楽音響データから音楽音響デ一夕と楽曲構造特徴区間指定データとを 分離し、 音楽音響データについては音楽音響データ格納手段 7に格納し、 楽曲構 造特徴区間指定データについては楽曲構造特徴区間指定データ格納手段 9に格納 する。 制御部 1 1は、 音楽音響データ再生装置 3とインタ一フェース 1 3とを内 蔵してディスプレイ 1 5を備えた画像表示部 1 7をコントロールする。 制御部 1
1の内部には、 指定データ付与手段 1 2が含まれている。 音楽音響データ再生装 置 3、 制御部 1 1、 指定デ一夕付与手段 1 2、 インタ一フェース 1 3及び画像表 示部 1 7の主要部はプログラムによつて動作可能になる図示しないコンピュータ により実現される。
楽曲構造特徴区間指定データ格納手段 9は、 再生する音楽音響データに対応し て予め定められた複数の楽曲構造特徴区間を指定するための楽曲構造特徴区間指 定デ一夕を格納する。 そしてインタ一フェース 1 3は、 後に詳しく説明するよう に、 複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択する機能を有す る。 また指定データ付与手段 1 2は、 インターフェース 1 3によって選択された 任意の楽曲構造特徴区間を指定する楽曲構造特徴区間指定データを楽曲構造特徴 区間指定データ格納手段 9から読み出して音楽音響データ再生装置 3に与える。 音楽音響デ一夕再生装置 3は、 インターフェース 1 3からの指令に従って動作し 、 特に指定データ付与手段 1 2から楽曲構造特徴区間指定データが与えられると 、 指定データによって指定された楽曲構造特徴区間に再生位置を変更する。 この 楽曲再生装置 1では、 楽曲の再生中であっても、 イン夕一フェース 1 3によって 選択された任意の楽曲構造特徴区間を再生することができる。 なお音楽音響デー 夕再生装置 3は、 楽曲の再生中でなくても、 インターフェースによって選択され た任意の楽曲構造特徴区間を再生することができるように構成されていてもよい のは勿論である。
図 4 (A) は、 音楽音響データから自動的に楽曲中の複数の楽曲構造特徴区間 を抽出して楽曲構造特徴区間指定デ一夕を作成する特徴区間指定データ生成手段 2 1を備え、 またインターフェース 1 3 'が独立して存在している本発明の楽曲 再生装置 1 'の変形例を示している。 このような特徴区間指定デ一タ生成手段 2 1を備えていれば、 既存の楽曲を再生する場合にも本発明を適用することが容易 になる。 なお特徴区間指定データ生成手段 2 1は、 前述の自動サビ区間検出手法 を実施できるように構成すればよい。 また図 4 (A) の実施の形態においては、 1以上の選択ポタンを備えたイン夕一フェース 1 3 'が独立した装置として用意 されている。 このィンタ一フエ一ス 1 3 'では、 選択ポタンがいわゆる指で物理 的に操作するマニュアルスィッチにより構成されている。 なお選択ポタンは、 夕 ッチパネル上に画面表示されているものを指やペンでクリックして操作したり、 マウスでクリックして操作するタイプのものでもよく、 その構造は任意である。 ぺンで操作するタイプのものでもよく、 その構造は任意である。
また図 4 ( B ) に示すように、 インターフェース 1 3 'を含んだ画像表示部 1 7 'を独立した装置として構成してもよいのは勿論である。 この例では、 音楽音 響データと楽曲構造特徴区間指定データのそれぞれを別個にダウンロードしてそ のまま音楽音響データ格納手段 7と楽曲構造特徴区間指定データ格納手段 9に格 納するようにしている。
前述の図 3の実施の形態では、 いずれもディスプレイ 1 5上にインターフェ一 ス 1 3の操作部及び表示部が表示される構成を有している。 インタ一フェースの 動作を制御する手段は、 画像表示部 1 7内に内蔵されている。 図 5 (A) は、 デ イスプレイ 1 5上に表示したインターフェース 1 3の操作部及び表示部の構成の 一例を示す図である。 この例では、 上側のウィンドウ W 1内に、 音楽音響データ の長さを時間軸を用いた画像表示 Aにより表示し、 併せて音楽音響デ一夕再生装 置 3が音楽音響データを再生している音楽音響データの再生位置と複数の楽曲構 造特徴区間とを時間軸を用いた画像表示 Bにより表示し、 下側のウィンドウ W2 内に各種の選択ポタン SW1〜SW10もディスプレイ 1 5上に画像表示 Cによ つて画像表示部 17が表示している。
下側のウィンドウ W2には、 左側から順に、 停止選択ポタン SW1、 一時停止 選択ポタン SW2、 再生選択ポタン SW3、 前の曲の頭出し選択ポタン SW4、 早戻し選択ポタン SW5、 早送り選択ポタン SW6、 次の曲の頭出し選択ボタン SW7が並んでおり、 これらのポタンの上には慣例的な記号が描かれている。 こ れらの選択ボタンは、 既存のィンタ一フェースで用いられているものと同じであ る。 停止選択ポタン SW1の上側には、 楽曲の先頭からの経過時間が表示されて いる。
本実施の形態で用いるィン夕ーフェースでは、 ウインドウ W 2内にさらに自動 ジャンプポタンと呼ばれる 3つの選択ポタン SW8〜SW10を備えている。 左 から順に、 「前の楽曲構造の区間の頭出し」 用の第 1の繰り返し区間選択ボタン SW8、 「次の楽曲構造の区間の頭出し」 用の第 2の繰り返し区間選択ポタン S W9及び 「サビ区間の頭出し」 用のサビ区間選択ポタン SW10である。
サビ区間選択ポタン SW10を押すと、 現在の再生位置より後方の (後方にな ければ最初の) サビ区間を探索し、 その開始点にジャンプする。 通禽、 サビは楽 曲中で複数回繰り返されるが、 このポタン SW10を押す度にそれらの間を順に ジャンプできる。 他の二つのポタン SW8及び SW9を押すと、 現在の再生位置 の直後もしくは直前に位置する繰り返し区間の開始点を探索し、 その先頭にジャ ンプする。 探索時には、 区間の終了点は無視する。
次に、 上側にウィンドウ W1 (楽曲構造表示ウィンドウ) の構成について説明 する。 最上段にサビ区間の表示バ一 B 1があり、 その下に 5段の繰り返し区間表 示バ一 B 2〜B 6が視覚により認識できるように表示されている。 この例では、 5段の繰り返し区間表示バーを用いているが、 表示バーの数は任意であり、 この 実施の形態に限定されるものではない。 サビ区間の表示バー B 1の区間を表示す る色と同じ色のマークがサビ区間選択ボタン SW10の上に表示しており、 また 区間表示バー B 2〜B 6の区間を表示する色と同じ色のマークが二つのポタン S W8及び SW 9の上に表示されている。 これにより操作者がポタンを選択する際 の誤認動作が防止できる。 この例は、 5種類の区間が繰り返し演奏されているこ とを表示している。 最下段の細い横棒の表示 Aは、 楽曲中の経過時間を知らせる 再生位置スライダである。 またこの例では、 6本の表示バー B 1乃至 B 6を横切 るように縦型表示バー Iを設けてある。 この縦型表示バー Iは、 再生位置スライ ダ Aの表示マーク aと同期して変位して、 現在の再生位置を表示する。 このよう な表示を用いる場合、 各区間を直接クリック (夕ツチパネル使用時には夕ツチ) して音楽音響データを再生したり、 再生位置スライダをクリックして再生位置の 変更をしたりすることが可能である。 以上のイン夕一フェースと機能により、 試 聴者は、 イントロを少し聴いた後に、 ボタンを押すだけでサビを試聴することが 可能となる。 なお、 ウィンドウ W 2に 「次のサビ区間の頭出し」 用の第 1のサビ 区間選択用ポタンと 「前のサビ区間の頭出し」 用の第 2のサビ区間選択用ボタン の二つを用意してもよい。 この実施の形態では、 以下の理由から一つのボタンと している。 (1 ) 現状の 「サビ区間の頭出し」 用のサビ区間選択ポタン S W 1 0 を連打すれば、 すべてのサビ区間を一巡した後にまた最初の区間に戻るので、 短 時間で望みの箇所へ移動できる。 (2 ) 瞬時に過去のサビ区間へ戻る必要がある 場合には、 楽曲構造表示ウインドウ W 1で区間を直接クリックする手段が用意さ れている。 また、 楽曲全体の構造を視覚的に把握しながら、 様々な箇所を選択的 に試聴できる。
この例のように、 サビ区間や楽曲中の繰り返し区間の構造を視覚化する (いず れか一方でも良い) と、 この視覚化された画面から、 試聴者は、 イントロ、 第 1 の種類のメロディ (Aメロ) 、 第 2の種類のメロディ (Bメロ) 、 サビ、 間奏等 の相互の位置関係が把握できることが多い。
図 5 ( B ) は他のインタ一フェースの表示態様を示している。 図 5 ( B ) のィ ン夕一フェースでは、 サビ区間選択ポタンが次のサビ区間にジャンプする場合に 用いる第 1のサビ区間選択ボタン S W 1 0の他に、 前のサビ区間にジャンプさせ る第 2のサビ区間選択ポタン S W 1 1を備えている。 その他の点は、 図 5 (A) のィンターフェースと同じである。
図 6は、 上記実施の形態で用いるインタ一フェース 1 3を実現する場合に用い るプログラムのアルゴリズムを示すブロック図である。 なお図 6のアルゴリズム では図 5 (B) の例に対応している。 すなわち、 サビ区間選択ポタンが次のサビ 区間にジャンプする場合に用いる第 1のサビ区間選択ポタンとは別に、 前のサビ 区間にジャンプさせる第 2のサビ区間選択ポタンを備えているものと仮定してい る。
まずステップ S T 1では、 サビ区間及び繰り返し区間を表示バー B 1乃至 B 6 として視覚化する。 次にステップ ST2で再生位置を縦表示バー Iと表示マーク aによって表示する。 これらの表示が終了すると、 ステップ ST 3において、 停 止選択ボタン S W 1、 一時停止選択ポタン S W 2及び再選選択ポタン S W 3のい ずれが押されているか (クリックされているか又は選択されているか) の判定が 行われる。 そして停止選択ポタン SW1が押されていれば、 音楽音響データの再 生位置をデータの先頭に設定して、 再生状態を停止に設定する。 また一時停止選 択ポタン SW2が押されていれば再生を一時停止に設定する。 更に再生選択ポ夕 ン SW3が押されていれば、 再生状態を再生に設定する (なおこのときの再生速 度は普通である。 ) 。 ステップ ST4が終了すると、 ステップ ST2へと戻り、 縦表示バー Iと表示マーク aの位置を再生位置に合わせて変更する。 いずれの選 択ポタンも押されていない場合には、 ステップ ST 5へと進む。 ステップ ST5 では、 早送り選択ボタン SW6または早戻し選択ポタン SW5が押されているか 否かの判定が行われる。 早送り選択ポタン SW6、 早戻し選択ポタン SW5のい ずれかが押されている場合には、 ステップ S T 6へと進んでポタンが押されてい る間だけ再生速度を早送りまたは早戻しに変更し、 次にステップ S T 7で再生状 態を再生に設定する。 その結果、 再生をしながら早送りまたは早戻しが実行され る。 なお'再生速度の変更に応じた再生位置の変更はステップ ST 2で表示され、 縦表示パ一 Iと表示マーク aの移動速度も変更される。
早送り選択ポタン SW6、 早戻し選択ポタン SW5のいずれもが押されていな い場合には、 ステップ ST 8へと進む。 ステップ ST 8では、 次のサビ区間の頭 出しのために第 1及び第 2のサビ区間選択ボタン SW 10または S W 1 1が押さ れたか否かが判断される。 第 1及び第 2のサビ区間選択ポタン SW10または S Wl 1のいずれかが押されていれば、 ステップ ST9へと進む。 ステップ ST9 では、 再生位置または再生位置を次のサビ区間の先頭に変位させることを設定す る。 そしてステップ ST7を経由してステップ ST2へと戻り、 縦表示バ一 Iと 表示マ一ク aのジャンプまたは変位が表示される。 ステップ ST 8で選択ポタン SW10または SW1 1が押されていないことが確認されると、 ステップ ST 1 0へと進む。 ステップ ST 10では、 前の繰り返し区間の先頭または後の繰り返 し区間の先頭にジャンプするための第 1及び第 2の繰り返し区間選択用ポタン S W 8及び S W 9が押されているかが判定される。 もし第 1及び第 2の繰り返し区 間選択用ポタン SW8及び SW9のいずれかが押されていれば、 ステップ ST 1 1へと進む。 ステップ ST 1 1では、 現在の再生位置又は再生位置から次のまた は前の繰り返し区間の先頭に再生位置を変位させる。 そしてステップ ST 7へと 進んで再生状態を再生に設定し、 ステップ ST 2で再生位置の表示が変更される 。 ステップ ST 10においては、 第 1及び第 2の繰り返し区間選択用ポタン SW 8及び SW 9のいずれもが押されていない場合には、 ステップ ST 12へと進む ステップ ST 12は、 ディスプレイ 15上の各区間表示がそのままで選択ボタ ンになるようにする場合に設けられる。 この場合にも各区間が直接クリック (夕 ツチ) された場合には、 そのクリック (夕ツチ) された区間の先頭に再生位置を 変位する。 その後ステップ ST 7へと進んで再生状態を再生に設定し、 ステップ S T 2へと進んで再生位置の変更が表示される。
ステップ ST12で選択ポタンがクリックされていない場合には、 ステップ S T 14へと進む。 ステップ ST 14では、 再生位置スライダのマーク aをクリツ ク (夕ツチ) してマ一ク aを移動させる指示操作が行われたか否かが判断される 。 操作が行われると、 ステップ ST 15へと進んでスライダのマーク aの移動先 に再生位置を設定し、 その後ステップ ST 7で再生状態を再生に設定してステツ プ ST 2へと戻る。
図 7は、 選択ボタン SW1〜SW7を用いて操作する場合のアルゴリズムを示 すフロ一チャートである。 図 6に示したアルゴリズムに従った動作と図 7のアル ゴリズムに従った動作とは並行して進行している。 選択ボタン SW8〜SW1 1 が押されなければ、 図 6に従って再生が行われ、 その再生の途中で選択ポタン S W8〜SW1 1等が押されると、 図 6のアルゴリズムの所定のステップが実行さ れる。
なお図 6及び図 7において、 「再生状態」 とは、 停止、 一時停止及び再生の状 態を含み、 「再生位置」 とは楽曲のファイルの先頭からの経過時間であり、 「再 生速度」 には通常の再生速度と、 早送りの再生速度と、 早戻しの再生速度が含ま れる。
図 8乃至図 1 3を用いてインターフェース 1 3の動作状態を説明する。 なお表 示バー B 1〜B 6において、 黒色の部分と灰色の部分が、 サビ区間及び繰り返し 区間の楽曲構造特徴区間を示している。 またこれらの図において、 押された状態 にある選択ポタンには、 理解を容易にするためハッチングを付してある。 最初、 図 8 (A) 〜 (C ) 及び図 9 (A) 〜 (C ) を用いて、 サビ区間の頭出し動作を 説明する。 図 8 (A) に示す状態が再生選択ポタン S W 3を押して、 ある音楽音 響データの再生を開始した直後の状態である。 この状態では、 縦表示バー I及び 表示マーク aが、 再生の最初の位置にある。 図 8 (B )は再生状態を続けている状 態を示している。 そしてこの状態でサビ区間選択ボタン S W 1 0が 1回押される と、 図 8 ( C ) のようになる。 この状態では、 後方のサビ区間の表示の先頭に縦 表示バー I及び表示マーク aはジャンプし、 再生位置も最初のサビ区間の先頭に 変位する。 しばらく再生状態を継続した後再度サビ区間選択ポタン S W 1 0を押 すと、 図 9 (A) に示すように、 更に 2番目のサビ区間の表示の先頭に縦表示バ ― I及び表示マーク aは移動またはジャンプし、 再生位置も 2番目のサビ区間の 先頭に変位する。 そして更にサビ区間選択ポタン S W 1 0を押すと、 図 9 ( B ) に示すように 3番目のサビ区間の表示の先頭に縦表示バ一 I及び表示マーク aは 移動またはジャンプし、 再生位置も 3番目のサビ区間の先頭に変位する。 さらに サビ区間選択ポタン S W 1 0を押すと、 次にサビ区間が存在しないため、 図 9 ( C ) に示すように、 最初のサビ区間の先頭に縦表示バー I及び表示マーク aは移 動またはジャンプし、 再生位置も最初のサビ区間の先頭に変位する。
次に図 1 0及び図 1 1を用いて繰り返し区間をジャンプする動作を説明する。 図 1 0 (A) に示す状態が再生選択ポタン S W 3を押して、 ある音楽音響データ の再生を開始した直後の状態である。 この状態では、 縦表示バ一 I及び表示マー ク aが、 再生の最初の位置にある。 図 1 0 (B )は再生状態を続けている状態を示 している。 そしてこの状態で第 2の繰り返し区間選択ボタン S W 9が 1回押され ると、 図 10 (C) のようになる。 この状態では、 最も近い後方の繰り返し区間 の [表示バ :64の 2番目の繰り返し区間] の表示の先頭に縦表示パー I及び表 示マーク aはジャンプし、 再生位置も最も近い後方の繰り返し区間 [表示バ一 B 4の 2番目の繰り返し区間] の先頭に変位する。 しばらく再生状態を継続した後 再度第 2の繰り返し区間選択ポタン SW9が 1回押されると、 図 1 1 (A) に示 すように、 この状態で最も近い後方の繰り返し区間の [表示バ一B 5の 1番目の 繰り返し区間] の表示の先頭に縦表示バー I及び表示マーク aはジャンプし、 再 生位置も最も近い後方の繰り返し区間 [表示バー B 5の 1番目の繰り返し区間] の先頭に変位する。 そして更に第 2の繰り返し区間選択ポ夕ン S W 9が 1回押さ れると、 図 1 1 (B) に示すように、 この状態で最も近い後方の繰り返し区間の [表示バー B 5の 2番目の繰り返し区間] の表示の先頭に縦表示バー I及び表示 マーク aはジャンプし、 再生位置も最も近い後方の繰り返し区間 [表示バ一 B 5 の 2番目の繰り返し区間] の先頭に変位する。
次に図 12及び図 1 3を用いて繰り返し区間を前方にジャンプする動作を説明 する。 図 12 (A) に示す状態が再生選択ポタン SW3を押して、 ある音楽音響 デ一夕の再生を開始した直後の状態である。 この状態では、 縦表示パー I及び表 示マーク aが、 再生の最初の位置にある。 図 12 (B)は再生状態を続けている状 態を示している。 そしてこの状態で第 1の繰り返し区間選択ボタン SW8が 1回 押されると、 図 12 (C) のようになる。 この状態では、 最も近い前方の繰り返 し区間の [表示バー B 4の 1番目の繰り返し区間] の表示の先頭に縦表示バー I 及び表示マーク aはジャンプし、 再生位置も最も近い前方の繰り返し区間 [表示 バー B 4の 1番目の繰り返し区間] の先頭に変位する。 この状態で再度第 1の繰 り返し区間選択ポタン SW8が 1回押されると、 図 13に示すように、 この状態 で最も近い後方の繰り返し区間の [表示バー B 6の 1番目の繰り返し区間] の表 示の先頭に縦表示パー I及び表示マーク aはジャンプし、 再生位置も最も近い前 方の繰り返し区間 [表示バー B 6の 1番目の繰り返し区間] の先頭に変位する。
このようにして選択ポタン SW8〜SW10を任意に選択することにより、 ィ ン夕一フェース 13によって選択された任意の楽曲構造特徴区間を再生すること ができる。
図 14に発明者が実際に作成したィンターフェースの画面の一例を示す。 次に本発明をより具体的に実施した実機とその結果について説明する。
実機のインターフェースは、 サビ区間検出手法を用いて得たサビ区間と繰り返 し構造の記述を含むファイルを利用する形で動作する。
実機の GU I部分、 音楽音響再生装置のエンジン部分、 音響出力デバイス制御 部分は、 拡張性が高くなるように、 分散環境で動作する別々のプロセスとして実 装した。 そのために、 音響信号や各種制御情報をネットワーク上で効率よく共有 することを可能にするネットワークプロトコル RACP (Remo t e Au d i o C on t r o l P r o t o c o l) を設計し、 それに基づいて実装した 。 RACPは、 RMCP (遠隔音楽制御用プロトコル) を音響信号の伝送用に拡 張したプロトコルである。
実機を、 二つの提案機能 (ジャンプのための選択ポタン SW8〜SW10と楽 曲構造表示) の有無に応じて、 四つの条件で運用した。 試聴対象には、 「RWC 研究用音楽データベース : ポピュラー音楽」 の 100曲 (RWC— MDB— P - 200 1 No. l〜100) の中から、 試聴者が初めて聴く楽曲を選んだ。 た だし、 自動サビ区間検出手法によって正しく得られた楽曲構造特徴区間指定デ一 夕を用いた (自動サビ区間検出手法による 100曲中の正答曲数は、 80曲であ つた) 。 参考までに、 これら 100曲に対して、 開発した手動サビ区間ラベリン グ用エディ夕を用いて人間 (音楽大学卒業生) が手作業でラベリングするのに、 事前にビートや小節の区切りをラベリングしてあるところから始めて、 約 100 時間を要した。 以下、 四つの条件とその運用結果を述べる。 ここでは、 条件間の 比較のために、 視覚化された楽曲構造上の区間を直接クリックして再生する機能 は用いていない。
[条件 1] 提案機能が一切ない (従来に相当) 。
試聴者は、 曲の頭の部分がサビでない場合、 少し聴いては早送り選択ポタンを 押すという動作を、 サビが出てくるまで 5〜10回程度繰り返した。 少しずつ聴 きながら早送りすることは、 時間がかかって煩わしいものの、 楽曲の雰囲気をつ かみたいときには有効であった。 [条件 2 ] 選択ポタン S W 8〜S W 1 0はないが、 楽曲構造表示はある。 どこまで再生位置を早送りすればよいかのフィードバックが得られる点が効果 的であり、 試聴者は条件 1よりも便利だと評価した。 ただし、 画面表示によって 現在の再生位置よりも先が見えているだけに、 そこまで飛ばしたいという欲求が 強くおきる傾向があった。
[条件 3 ] 選択ポタン S W 8〜S W 1 0はあるが、 楽曲構造表示がない。 最初にイントロを聴いた後に、 直接サビ区間選択ポタン S W 1 0を押す聴き方 と、 「次の楽曲構造の区間の頭出し」 に用いる第 2の繰り返し区間選択ポタン S W 9を押しては少し聴くという操作を繰り返し、 サビが出てきたらそこをじつく り聴くという聴き方が主だった。 効率よく飛ばしながら聴ける点が評価され、 条 件 2より好まれていた。
[条件 4 ] 提案機能がすべて有効である (実施の形態に相当) 。
条件 2、 条件 3の利点が共に得られる試聴方法であり、 最も便利だと評価され た。 条件 3のような聴き方に加え、 楽曲構造上を自在に行き来しながら聴く傾向 が強くなり、 サビを聴いた後に、 第 1の種類のメロディ (Aメロ) に戻って聴い たり、 楽曲の後半のサビの繰り返しへ飛んで聴いたりしていた。
条件 3は、 通常のメディアプレーヤに三つの選択ポタン S W 8〜S W 1 0を追 加した場合に相当し、 楽曲構造表示がなくても通常のプレーヤより便利であるこ とがわかった。 また条件 4から、 視覚化はさらにその操作を助け、 楽曲の様々な 箇所を聴く上で有効であることがわかった。 さらに、 ポタンの機能や表示ウィン ドウの中身に関して一切説明を受けていない試聴者が、 条件 4で利用した場合で も、 短時間の使用でこれらの意味を把握することが確認された。
以上から、 インターフエ-一スが実用的に機能し、 試聴者は、 楽曲構造表示の助 けを得ながらジャンプ用の選択ボタン S W 8〜S W 1 0を押して、 インタラクテ イブに楽曲再生に介入できることを確認した。
上記実施の形態は、 インターフェースの操作部をディスプレイ上に形成するも のであるが、 アナログスィッチ等の実際のスィツチを用いてィン夕ーフェースを 構成してもよいのは勿論である。
また上記実施の形態は、 いわゆるパーソナルコンピュータにプログラムをイン スト一ルすることにより実現される。 しかしながら例えば、 いわゆる、 ラジオ力 セット、 C Dプレーヤ、 D V Dプレ一ャ等の各種の音楽音響再生器においても本 発明を適用できるのは勿論である。
本実施の形態で用いるィン夕一フェースは、 一般的な音楽再生ィンターフェ一 スとして有用であり、 従来の楽曲単位での操作体系に対し、 楽曲内部の区間単位 での操作体系が追加されたものである。 従来は楽曲単位で興味のない曲を飛ばせ' たが、 楽曲内部の興味のない箇所を飛ばすのは容易でなかった。 本発明のイン夕 一フェースにより、 原曲の時系列に沿わずに、 「好きなところを聴きたいように 聴ける」 ようになったメリットは大きい。 なお、 楽曲単位でのランダムプレイ( シャッフルプレイ)機能が可能なように、 区間単位でのランダムプレイ機能も実 現可能である。 また試聴よりも長時間の利用が許される場面で、 楽曲構造を見な がら音楽再生位置をインタラクティブに変更して聴くときには、 従来の鑑賞に比 ベてより分析的に く傾向がある。 例えば、 楽曲全体がどのような構造になって いるかを確かめ、 構成上の各区間を聴いたり、 繰り返される区間同士の比較をし たりする場面がみられる。 また、 楽曲構造の視覚化結果は、 それを眺めながら音 楽を聴くだけでも面白く有用である。
さらに楽曲中の繰り返し区間の先頭へ再生位置をジャンプするだけでなく、 繰 り返されない区間(間奏 ·ギターソロ等)にもラベリングしておけば、 それらの先 頭へも再生位置をジャンプできる。
次に、 前述の自動サビ区間検出手法で用いるサビ区間を検出する方法の実施例 を詳細に説明する。 図 1 5は、 転調を伴う楽曲中のサビ区間を検出する方法の処 理ステップを示すフローチヤ一トである。
( 1 ) 本実施例では、 まず、 音響信号 (音響信号データ) を得る (ステップ S
1 )
( 2 ) 次に、 その入力音響信号の各フレームから、 細部の変形の影響を受け難 い 1 2次元の特徴量 (1 2音名各々の周波数のパワーを複数のオクターブに渡つ て加算した 1 2次元クロマベクトル) を抽出する (ステップ S 2 ) 。
( 3 ) その抽出された 1 2次元クロマべクトルの特徴量と過去の全フレームの 特徴量との間の類似度を計算する (課題 1に対応) (ステップ S 3— 1 ) 。 次に 、 判別基準に基づく自動閾値選定法 〔先行技術 6〕 によって、 繰り返しの判断基 準を楽曲ごとに自動的に変えながら、 繰り返し区間のペアをリストアップする ( 課題 2に対応) (ステップ S 3— 2) 。 そして、 それらのペアを楽曲全体に渡つ て統合することで、 繰り返し区間のグループを作り、 それぞれの端点も適切に求 める (課題 3に対応) (ステップ S 3— 3) 。
(4) ここで、 転調を考慮に入れた場合、 クロマベクトルの各次元は音名に対 応しているため、 その転調幅に応じて次元間で値をシフトさせた転調後のクロマ ベクトルと、 転調前のクロマベクトルとは値が近くなる。 そこで、 そのように 1 2種類の転調先を考慮して、 転調前後のクロマベクトルの類似度を計算する。 そ れを出発点として、 上記の繰り返し区間の検出処理も 12種類分行い、 それら全 ての繰り返し区間を統合する (課題 4に対応) (ステップ S 4) 。
(5) 最終的に、 得られた各区間のサビらしさを上記の仮定に基づいて評価す る (ステップ S 5) 。
(6) 最もサビらしい区間の一覧を出力する (ステップ S 6) 。
(7) 同時に、 中間結果として得られた繰り返し構造も出力する (ステップ S 7) 。
また図 16は、 本発明のサビ区間を検出する装置の実施の形態の一例の構成の 概略を示すブロック図である。 この装置では、 図 15の方法も当然にして実現可 能である。 さらに図 17は、 図 16の装置をコンピュータを利用して実現する場 合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。 図 1 6の装置の構成を説明しながら、 併せて図 15のステップと図 17のフローチヤ —トのステップについて説明する。
まずサンプリング手段 101は、 所定のサンプリング幅を持って重複しながら デ一夕のサンプリングを行うハニング窓等のサンプリング技術を用いて、 所定の 時間単位 (例えば 80ms) で、 入力されてくる音楽音響データについてサンプ リングを行う (図 17のサンプリングステップ ST1) 。 データが音響信号であ れぱ、 サンプリングされるデータは、 非常に短い断片 (フレーム) の音響信号で ある。
特徴量抽出手段 103は、 サンプリング手段 101で時間単位でサンプリング したデータについて、 音響特徴量を求める (図 17の特徴量抽出ステップ ST 2 ) 。 ここで特徴量抽出手段 103で採用する音響特徴量の求め方は任意である。 この実施の形態では、 特徴量抽出ステップで求める音響特徴量として、 1ォクタ ーブの範囲に含まれる 12の音名の周波数のパワーを複数のオクターブに渡って それぞれ加算して得た 12次元クロマべクトル (c h r oma v e c t o r) を用いる。
ここで図 1 8及び図 1 9を用いて 12次元クロマべクトルについて説明する。 クロマベクトルは、 先行技術 7に開示されているクロマ (音名, c h r oma) を周波数軸として、 パワーの分布を表現した特徴量である。 ここでクロマべクト ルは、 先行技術 8の c h r oma s p e c t r umのクロマの軸を 12個の音 名に離散化したものに近いものである。 図 18に示すように、 先行技術 7によれ ば、 音楽的な音高の知覚 (音楽的高さと音色的高さ) は上に昇る螺旋状の構造を 持つ。 そして音楽的な音高の知覚は、 この螺旋を真上から見た円周上のクロマと 、 横から見たときの縦方向のハイト (オクターブ位置, h e i gh t) の二つの 次元で表現することができる。 クロマベクトルでは、 パワースペクトルの周波数 軸がこの螺旋状の構造に沿っていると見なし、 螺旋をハイト軸方向につぶして円 にすることで、 周波数スペクトルを円周上 (1周が 1オクターブ) のクロマの軸 だけで表現する。 つまり、 異なるオクターブの同じ音名の位置のパヮ一を加算し て、 クロマ軸上のその音名の位置のパヮ一とする。
本実施の形態では、 図 19に示すように、 このクロマべクトルを 12次元で表 し、 クロマべクトルの各次元の値が平均律の異なる音名のパワーを表すものとす る。 図 1 9では、 6オクターブの同じ音名の位置のパワーをそれぞれ加算してク ロマ軸上のその音名の位置のパワーとする状態を示している。 12次元のクロマ べクトルを得るためには、 まず時刻 tの入力音響信号に対する短時間フーリエ変 換 (STFT) を計算する。 その後、 短時間フーリエ変換 (STFT) で求めた 演算結果を、 周波数軸を対数スケールの周波数 f に変換して、 パワースペクトル Ψρ ( f , t) を求める。 対数スケールの周波数は c e n tの単位で表し、 Hz で表された周波数 f H zを、 次のように c e n tで表された周波数 f c e n tに 変換する。 f c e n t = 1200 1 o g 2 [f Hz/ (440 X 23/12 -5) 〕 … ( l
)
平均律の半音は 100 c e n tに相当し、 1オクターブは 1200 c e n tに 相当する。 そのため、 音名 c (cは l≤c≤l 2の整数で、 クロマに対応) 、 ォ クターブ位置 h (ハイトに対応) の周波数 Fc. hc e n tは、
Fo. h= 1200 h+ 100 (c - 1) … (2) と表せる。
この対数スケール軸のパヮ一スペクトル Ψρ ( f , t) から音名 cの位置のパ ヮーを〇c tLから〇c tH (現実の実装では、 3〜8) のオクターブ範囲で加算 して、 12次元クロマベクトルの各次元 V c 2 ( t) を下記式 (3) で求める。
c (t)= ) / BPFc.„ (f ) ΨΡ (f , t)d f ,ハ)
J― oo ' ノ h =ひ · c t L
を求める。 ここで、 BPFc. h ( f ) は、 音名 (:、 オクターブ位置 hの位置のパヮ —を通過させるバンドパスフィル夕であり、 下記式 (4) のように、 ハニング窓 の形状で定義する。
F 0 0
B P F f € O S
2; 2/0 0
(4) こうして得られたクロマべクトルを特徴量とすることで、 繰り返す度に繰り返 し区間のメロディ一や伴奏が多少変わっても、 繰り返し区間全体の響き (同時に 鳴っている音名の構成) が類似していれば、 その区間は繰り返し区間として検出 できる。 さらに、 後述するように、 類似度の工夫によって転調された繰り返し区 間の検出も可能となる。
なお現在作成している装置では、 音響信号を標本化周波数 1 6 kHz、 量子化 ビット数 16 b i tで A/D変換している。 そして窓関数 h ( t) として窓幅 4 096点のハニング窓を用いた短時間フーリエ変換 (STFT) を、 高速フーリ ェ変換 (FFT) で計算する。 高速フーリエ変換 (FFT) のフレームは、 12 80点ずつシフトし、 すべての処理の時間単位 (1フレームシフト) を 80ms とする。
図 16に戻って、 上記のようにして求めた特徴量は、 特徴量記憶手段 105に 記憶される。 そして類似度演算手段 107は、 それまでに入力された音楽音響デ 一夕について求めた複数の音響特徴量の相互間の類似度を求める (図 17の類似 度演算ステップ ST 3) 。 類似度を求める際に用いる演算式は、 任意であり、 公 知の類似度演算式のいずれを用いてもよい。 そして繰り返し区間リストアップ手 段 109は、 類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返 し区間をリストアップする (図 17の繰り返し区間リストアップステップ ST 4
) o
類似度演算手段 107では、 今回求めた音響特徴量と先に求めた全ての音響特 徴量との間の類似度を求めている。 これによつてリアルタイムにサビ区間を検出 することが可能になる。 具体的な類似度演算手段 107では、 図 20及び図 21 に示すように、 時刻 tの 12次元クロマベクトル (音響特徴量) とそれよりラグ
1 (0≤ 1≤ t) ( 1はアルファベット Lの小文字) だけ過去の全ての 12次元 クロマべクトルとの間の類似度を求めることになる。 12次元クロマべクトル間 の類似度の計算 (図 17のステップ ST3) について説明する。
時刻 tの 1 2次元クロマベクトル V ( t ) (但しここで Vはベクトル) と、 そ れよりラグ ( l a g) 1 (0≤ 1≤ t ) だけ過去の 12次元クロマベクトル V ( t - 1) (但しここで Vはベクトル) との類似度 r (t, 1) を下記式 (5) に 基づいて求める。
:( t)— ( t - 1 )
m a X ひ c ( t ) m a x c υ c v. t - 1 ) r( t , 1 ) = 1 上記式 (5) において、 分母の (12) 1/2は、 1辺の長さがラグ 1の 12次元 超立方体の対角線の長さであることを示している。 上記式 (5) 中の分子中の下 記式 (6) は、 常にその超立方体の原点を含まない面上に位置するため、 0≤r
( t ,· 1 ) ≤ 1となる。
すなわち類似度 r (t, 1) は、 各時刻 tのクロマベクトルを最大要素で正規 化し、 ラグ 1だけ過去のクロマベクトルとユークリッド距離を計算し、 その計算 結果を 1から引いた値である。
次に、 繰り返し区間リストアップ手段 109における繰り返し区間のリストア ップ (図 17のステップ ST4) について説明する。 図 22は、 ある楽曲に対す る後述する類似線分、 類似度 r (t, 1) 、 パラメ一夕空間 R a 1 1 (t, 1) の概念図である。 繰り返し区間リストアップ手段 109では、 図 22に示すよう に、 一方め軸を時間軸とし他方の軸をラグ軸とし、 予め定めた時間長さ以上類似 度が予め定めた閾値以上ある場合には、 類似線分を時間軸を基準にした繰り返し 区間としてリストアップする。 図 22においては、 類似線分を時間軸と平行に表 示している。 なおこのリストアップは、 演算上のリストアップであればよく、 実 際的に表示手段上にリストアップする必要はない。 したがって時間軸及びラグ軸 も理論上の軸であればよい。 ここで 「類似線分」 の概念は、 本願明細書において 定義するものである。 「類似線分」 とは、 予め定めた時間長さ以上類似度が予め 定めた閾値以上あるときに、 閾値以上ある類似度の部分の長さに対応する時間長 さを有する線分として定義される。 なお類似度の大きさは、 類似線分に現れるこ とはない。 また閾値を適宜に変更または調整することにより、 ノイズを除去する ことが可能になる。
図 22において、 類似度 r (t, 1) は右下半分の三角形内で定義される。 実 際に得られる r ( t , 1) は、 図 23に示すように、 ノイズを多く含み、 サビに 関連しない類似線分も存在して曖昧なことが多い。
リストアップのために、 類似度 r ( t , 1) に基づいて、 どの区間が繰り返さ れているかを調べる。 図 22に示すように、 類似度 r ( t, 1) を、 横軸が時間 軸 t、 縦軸がラグ軸 1の t一 1平面に描画すると、 繰り返されている区間に対応 して、 時間軸に平行な線分 (類似度が連続して高い領域) が現れる。 そこで、 時 刻 T1から T2の区間 (以下、 [T l, T2] と表記する) に渡ってラグ軸 L 1 の位置に高い類似度を持つ線分を類似線分と呼び、 [ t = [T l, T2] , 1 = L 1] で表す。 これは、 [T l, Τ 2] と [T 1—L 1, Τ2 -L 1] が繰り返 し区間であることを意味する。 よって、 r (t, 1) 中の類似線分をすベて検出 すれば、 繰り返し区間の一覧が得られる。
ここで類似線分の考え方について簡単に説明する。 例えば、 t― 1平面に図 2 4に示すように、 繰り返し区間を示す類似線分が現れている場合を考える。 図 2 4の横軸の下に示したアルファべットの表記は、 それまでに入力された音響信号 が Aメロ→Bメロ—サビ (C) →サビ (C) であることを示している。 このよう な類似線分が現れているのは、 サビ Cが 2回連続しているためである。 すなわち 図 25に示すように、 前のサビ Cの区間と後のサビ Cの区間との間の類似度は、 最後のサビ Cの区間と他の最初の二つの区間 (A, B) との類似度と比べて高く なるため、 最後のサビ Cに対応する時間位置で且つラグ 1が前のサビ Cの位置に 対応する部分にサビ Cと同じ時間長さの類似線分が現れるのである。 さらに時間 が過ぎて、 図 26のようになつたと仮定する。 図 26においては、 理解を容易に するために、 特徴量が対比された区間を各 A, B, Cのアルファベットの右下に 数字で示してある。 例えば 「A12」 の表示は、 A 1区間の Aメロと A 2区間の A メロの特徴量の類似度が演算されて、 その類似度が高いために現れた類似線分で あることを示している。 同じく 「C36」 は C 3区間のサビ区間と C 6区間のサビ 区間の特徴量の類似度が演算されて、 その類似度が高いために現れた類似線分で あることを示している。 なお 1つのサビ区間内においてサピの 2度の繰り返しが ある場合には、 図 27に示すように類似線分が現れることになる。
この時間軸に平行な線分の検出をコンピュータを用いて演算により実行するた めに、 t— l平面における画素 (T, L) ごとに Lの位置に対応する 1次元パラ メータ空間 1 (ラグ) に画素の輝度を累積する。 そして、 パラメータ空間 1の累 積値の大きい位置のラグに、 線分が存在するものとみなす。 具体的には、 時刻 tにおけるパラメータ空間 R a 1 1 ( t, 1 ) は、 下記式 ( 7) から求めることができる。
1 τ ( て, 1 )
R a! v( t, 1 ) = J . ^ 一 dて (7)
1
図 22に示されるように、 上記 Ra l 1 (t, 1 ) が大きい値を持つ 1の位置 に類似線分が存在する可能性が高いと考える。
なお、 広帯域ノイズ等に起因する各成分がほぼ等しいクロマべクトルからは、 他のクロマベクトルへの距離が比較的近くなつてしまう傾向があり、 r (t, 1 ) 中に類似度の高い直線 (以下、 ノイズ直線と呼ぶ) として現れることがある。 このノイズ直線は、 t一 1平面において、 時間軸に垂直 (上下) 方向、 あるいは 、 斜め右上 ·左下方向に現れる。 そこで、 前処理として上記式 (7) の計算前に ノイズ直線の抑制を行う。 まず、 各 r (t, 1 ) において、 右、 左、 上、 下、 右 上、 左下の 6方向の近傍区間の平均値を計算し、 その最大値と最小値を求める。 ' そして、 右か左の方向の近傍区間の平均値が最大のときは、 類似線分の一部とみ なして、 強調するために r ( t, 1 ) から最小値を引く。 その他の方向の近傍空 間の平均値が最大のときは、 ノイズ直線の一部とみなして、 抑制するために r ( t, 1 ) から最大値を引く。 このようにして求めた R a 1 1 (t, 1 ) は、 図 2 8の右側に示すような線図となる。
上記のように、 Ra l 1 ( t, 1 ) を求めた後の類似線分の検出は、 以下の手 順 1及び 2に従って行う。
手順 1 :線分候補ピークの検出
図 28の右側の線図に示される R a 1 1 (t, 1 ) 中の十分に高いピークを、 線分候補ピークとして検出する。 まず、 Ra l 1 (t, 1 ) の l ag軸方向のピ ークを、 2次多項式適合による平滑化微分を用いたピーク検出 〔先行技術 9〕 に より求める。 具体的には、 下記式 (8) で求める R a 1 1 (t, 1 ) の平滑化微 分が正から負に変わる箇所をピークとする (K S i z e= 0 . 3 2 s ec) 。 K S i z e
=-. i S i z e ただし、 このピーク検出の前に、 Ra l 1 (t, 1) の l a g軸方向に、 2階 のカーディナル B—スプライン関数を重み関数とする移動平均によってスムージ ングをかけたものを引いて、 r (t, 1) のノイズ成分等の蓄積による大局的な 変動を取り除いておく 〔R a l 1 ( t , 1) にハイパスフィル夕をかけることに 相当する〕 。
次に、 こうして得られたピークの集合から、 ある閾値より大きいピークのみを 、 線分候補ピークとして選ぶ。 前述の課題 2で述べたように、 この閾値は楽曲ご とに適切な値が異なるため、 楽曲に基づいて自動的に変える必要がある。 そこで 、 Ra l 1 (t, 1) のピーク値を閾値によって二つのクラスに分けるときに、 クラス分離度を最大とする判別基準に基づく自動閾値選定法 〔先行技術 6〕 を用 いる。 この自動閾値選定法は、 図 29に示すように閾値によって二つのクラスに 分けるという考え方を採用している。 ここでは、 クラス分離度としてクラス間分 散
2 B =ω 1 ω 2 ( i— s) 2 ·■· (9) を最大とする閾値を求める。 ただし、 0^ 0) 2は、 閾値によって分けられた二つの クラスの生起確率 (各クラスのピーク個数 Z全体のピーク個数) 、 a 2は、 各クラスのピーク値の平均である。
手順 2 :類似線分の探索
図 30に示すように、 各線分候補ピークの 1 a g軸上の位置 1において、 類似 度 r (t, 1) の時間軸方向を一次元関数とみなして、 それが連続して十分高い 区間を探索し、 類似線分と る。
まず、 r (t, 1) の時間軸方向に、 2階のカーディナル B—スプライン関数 を重み関数とする移動平均によってスム一ジングをかけた r sm。。th ( t , 1 ) を 求める。 次に、 r Sm。。th (t, 1) 中で、 ある閾値を連続して越えているすべて の区間のうち、 一定の長さ (6. 4 s e c) '以上のものを類似線分として求める 。 この閾値も、 上記の判別基準に基づく自動閾値選定法により定める。 ただし、 今度はピーク値を扱うのではなく、 ピーク値が高い上位 5個の線分候補ピークを 選び、 それらのラグ 1の位置の r sm。。th ( 1) ( 1≤て≤ t ) がとる値を二 つのクラスに分ける。
上記のようにしてリストアツプされた繰り返し区間のリストは、 図 16に示す リスト記憶手段 1 11に記憶される。 統合繰り返し区間決定手段 1 1 3は、 リス ト記憶手段 1 1 1に記憶されたリストから複数の繰り返し区間の相互関係を調べ 、 時間軸上の共通区間にある 1以上の繰り返し区間を統合して一つの統合繰り返 し区間を決定する。 そして統合繰り返し区間決定手段 1 13は、 さらに決定した 複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。
この統合繰り返し区間決定ステップ (図 17の ST5) では、 図 31に示すよ うに、 前述の t一 1平面における時間軸の共通区間に存在するリストアップした 類似線分どうしをそれぞれグルービングにより統合して統合繰り返し区間 R Pと 定める。 そして複数の統合繰り返し区間 RPを、 共通区間の位置及び長さとダル 一ビングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の統合繰 り返し区間列に分類する。
より具体的には、 図 31に示すように、 リストアップされた複数の繰り返し区 間 C12〜C56 (類似線分) の相互関係は、 時間軸上の共通区間に対応する過去の ラグ位置に 1以上の繰り返し区間 C12〜C56 (類似線分) が存在するか否かと、 そのラグ位置に対応する過去の時間帯において繰り返し区間 (類似線分) が存在 するか否かの関係である。 例えば、 C 6の共通区間に繰り返し区間を示す類似線 分 C16がある場合、 その繰り返し区間のラグ位置に対応する過去のラグ位置にも 類似線分 C12があるという関係である。 これらの関係に基づいて、 このステップ では、 共通区間に対応する過去のラグ位置に 1以上の繰り返し区間 (類似線分) がある場合に、 それらをグルーピング化してその共通区間に繰り返し区間 (類似 線分) があるものと決定し、 その繰り返し区間を統合繰り返し区間 RP 2, RP 5, RP 6等とする。 ただし、 図 32に示すように、 本来存在している最初の繰 り返し区間に対応しては、 過去の時間帯には類似線分は無い。 そのため最初の繰 り返し区間に対応する統合繰り返し区間 RP 1については、 最初の統合繰り返し 区間 R P 2とその共通区間に存在する類似線分 C 1 2を基準にして補足する。 なお この補足は、 プログラミングによって簡単に実現できる。 このようにして 1種類 の統合繰り返し区間列が作られる。
図 3 3は、 共通区間の長さが長い場合の統合繰り返し区間 R P 1及び R P 2の 列を作る場合の状況を示している。 図 3 4は、 図 2 7のようにサビ区間に 2回の 繰り返しがあるために、 統合繰り返し区間 R Pの共通区間の長さが図 3 1及び図 3 2の統合繰り返し区間列を構成する統合繰り返し区間の 1 Z 2になる場合の状 況を示している。 このようにして統合繰り返し区間決定ステップでは、 決定した 複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。 この分 類化は、 共通区間の長さの共通性と、 共通区間に存在する繰り返し区間 (類似線 分) の位置関係と数との関係に基づいて行われる。
統合繰り返し区間決定手段 1 1 3により決定した、 統合繰り返し区間は統合繰 り返し区間列として統合繰り返し区間記憶手段 1 1 5に記憶される。 図 3 5は、 統合繰り返し区間列を表示手段 1 1 8に表示した一例を示している。
前述の統合繰り返し区間決定手段 1 1 3で実行されている統合処理をコンピュ —夕を用いてより高い精度で実行する場合のより具体的な手順について説明する 。 前述の各類似線分は、 ある区間が二回繰り返されていることだけを表すため、 例えば Aと A ' のペア、 A ' と A〃 のペアが、 それぞれ繰り返し区間として検出 されたときには、 それらを一つの繰り返し区間のグループとして統合する必要が ある。 ここで、 ある区間が n回 (n≥3 ) 繰り返されている場合には、 もれなく 検出されるとすると、 n ( n— 1 ) Z 2本の類似線分が検出される。 そこで、 同 じ区間の繰り返しを表す類似線分をグルーピングし、 繰り返し区間を統合する。 さらに、 もれていた類似線分の検出や、 得られた類似線分が適切であるかの検証 も行う。
この統合処理は、 以下の手順で実現する。
手順 1 :類似線分のグルーピング
ほぼ同じ区間の類似線分を、 一つのグループにまとめる。 各グループ [ [ T s i , T e i ] , は、 区間 [T s i, T e i ] と、 類似線分 (区間が決まれ ば、 線分候補ピークと対応する) の 1 a g値リ uの集合 T i = { υ i j I j = 1 , 2 , ···, M (Miはピークの個数) で表される。 そして、 この類似線分のグルー プ(^の集合を、 Φ= {0i I i = 1, 2, …, N} (Nはグループの個数) とす る。
手順 2 :線分候補ピークの再検出
グループ ごとに、 区間 [Ts i, Te ι] 内の類似度 r (t, 1) に基づいて 、 類似線分を改めて求めなおす。 これにより、 もれていた類似線分の検出ができ 、 例えば、 図 2 2で、 ABCCの繰り返しに相当する長い類似線分上で、 Cの繰 り返しに相当する類似線分 2か所が得られていなくても、 この処理で検出される ことが期待できる。
まず、 [T S i, Te i] 内に限定して、 パラメ一タ空間 R [Ts i. Tei] ( 1 ) (0 ≤ 1≤T s を下記式 (10) で作成する。
R τ s , » τ e " ノ
( 1 0) 次に、 前述の線分候補ピークの検出と同様に、 平滑化微分を用いたピーク検出 を行い (KS l z e = 2 . 8 s e c) 、 自動閾値選定法で定めた閾値を越えた線分候補 ピークの 1 a g値 υ uの集合を、 改めて T iとする。
自動閾値選定法では、 Φの全グループの区間における R [Ts i, Tei] ( 1) のピー ク値を、 二つのクラスに分けるようにする。
手順 3 :類似線分の適切さの検証 1
サビと無関係な類似線分からなるグループ Φ 、 あるいは、 Tiの中で無関係な 線分と考えられるピークを削除する。
似た伴奏の繰り返しが多用される楽曲の場合サビと関係ない線分候補ピークが
R [Ts i. Te i] ( 1) に等間隔に多く現れる傾向がある。
そこで、 R [Ts i, Tei〗 ( 1) に対して平滑化微分を用いたピーク検出を行い、 一 定間隔 (間隔は任意) で連続して並ぶ高いピークの個数が 10個より多いときサ ビと無関係な類似線分からなるグループだと判断し、 そのグループを Φから削除 する。
また、 一定間隔で連続して並ぶ低いピークの個数が 5個より多いとき、 サビと 無'関係な線分候補ピークだと判断し、 その一連のピークを T iから削除する。 手順 4 :類似線分の適切さの検証 2
Tiの中には、 区間 [TS l, Te i] の一部分だけ類似度が高いピークが含まれ ることがあるため、 そうした類似度の変動の大きいピークを削除する。 そこで、 当該区間の r sm。。th (て , 1) の標準偏差を求め、 ある閾値より大きいものは T iから削除する。 この閾値は、 <ί の中で、 上記で求めた類似線分に対応する線分 候補ピークは信頼できると考え、 それらのピークでの上記標準偏差の最大値を定 数倍 (1. 4倍) して定める。
手順 5 :類似線分の間隔の考慮
繰り返し区間が重ならないようにするために、 1 a g軸上で隣接する類似線分 (線分候補ピーク) の間隔を、 線分の長さ Te i— T s i以上とする必要がある。 そこで、 線分の長さより狭い間隔を持つ二つのピークのいずれかを、 全体として 高いピーク集合が残るように削除し、 すべての間隔が類似線分の長さ以上になる ようにする。
手順 6 :共通区間を持つグループを統合
Tiの各ピークについて、 その 1 a g値 υ uだけの過去の区間 [Ts i— U ij, Te i- n] のグループがあるかを探索し、 発見したら統合する。 統合処理では 、 発見したグループのすべてのピークを、 対応する 1 a g値の場所に持つように 、 Tiに線分候補ピークを追加する。 発見したグループ自体は削除する。
さらに、 区間 [T S i— Li u, Te ^—リ に一致する線分候補ピークを持つ グループ Tk (グループの区間自体は異なる) があるかも探索し、 発見したら統合 するか判断する。 この場合、 Tkの過半数のピークが に含まれていれば、 上記 同様の統合処理を行う。 含まれていなければ、 Tiと Tkで同じ区間を指している ピークを比較し、 低い方を削除する。 上記で実際に統合がなされたら、 後処理と して手順 5の処理を再び行う。
次に、 転調を伴う繰り返しの検出 (図 15のステップ S 4) について説明する 。 以上述べてきた処理は転調を考慮していなかった。 しかし上記の処理は、 以下 のように転調を扱える処理へと容易に拡張できる。 図 3 6に示すように、 転調前 と転調後の 1 2次元クロマベクトルは異なる。 そこで特徴量抽出ステップ (図 1 5のステップ S 2 ) では、 図 3 7に示すように、 1 2次元クロマベクトルからな る音響特徴量を 1転調幅ずつ 1 1転調幅までシフトして得た転調幅の異なる 1 2 種類の音響特徴量を求める。 次に類似度演算ステップ (図 1 5のステップ S 3— 1 ) では、 今回求めた音響特徴量と先に求めた全ての 1 2種類の音響特徴量との 間の類似度を、 時刻 tの今回の音響特徴量を表す 1 2次元クロマベクトルとそれ よりラグ 1 ( 0≤ l≤ t ) だけ過去の全ての 1 2種類の音響特徴量を表す 1 2次 元クロマべクトルとの間の類似度として演算する。 そして繰り返し区間リストア ップステップ (囪 1 5のステップ S 3— 2 ) では、 図 3 8に示すように、 1 2種 類の音響特徴量ごとに、 一方の軸を時間軸 tとし他方の軸をラグ 1とし、 予め定 めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め定めた 閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸を基準 にした繰り返し区間としてそれぞれ 1 2種類のリストをリストアップする。 統合 繰り返し区間決定ステップ (図 1 5のステップ S 3— 3及び S 4 ) では、 1 2種 類のリストごとに、 時間軸の共通区間に存在するリストアツプした類似線分どう しをそれぞれグルーピングにより統合して統合繰り返し区間と定める (S 3— 3 ) 。 さらに 1 2種類のリストについて定めた複数の統合繰り返し区間を共通区間 の時間軸上の存在位置及び長さと、 グルーピングされる類似線分のラグ軸で見た 位置関係とに基づいて複数種類の転調を考慮した複数種類の統合繰り返し区間列 に分類化する (S 4 ) 。 このようにすると、 転調を含んだ音楽音響データであつ ても、 転調した部分の特徴量を 1 1段階の転調幅のシフトでずらして類似度を求 めるため、 転調した部分の特徴量を正しく抽出することができる。
楽曲が転調を含んでいる楊合に、 これをコンピュータを用いてより具体的に処 理する場合には、 上記の処理を以下のとおりにする。 ここで、 転調は平均律の半 音 t r個分上の調へ変わることで表すことにする。 1: 1"は0, 1, …, 1 1の 1 2種類の値を取るものとする。 t r = 0は転調しないことを意味し、 t r = 1 0 は半音 1 0個分上か、 全音分下へ転調することを意味する。
1 2次元クロマベクトル V ( t ) (ここで Vはベクトル) は、 各次元 v c ( t ) の値を次元間で t r個分だけシフトさせることで、 転調を表現できる特長を持つ 0 具体的には、 ある演奏の 12次元クロマベクトルを V ( t ) (ここで Vはべク トル) とし、 それを t r個上へ転調した演奏の 12次元クロマベクトルを V ( t ) ' (ここで Vはベクトル) とすると、
V ( t) =Strv (t) ' … (11) となる。 ,
ただし、 Sはシフト行列で、 下記式 (12) のように 12次正方行列を一つ右 にシフトした行列とし
転調を伴う繰り返しの検出の処理手順を以下に述べる。 まず、 クロマベクトル のこの特長を利用し、 t rごとの 12種類の類似度 rtr (t, 1) を下記式 (1 3) と定義しなおす。
次に、 それぞれの類似度 rtr (t, 1) に対して、 前述した繰り返し区間のリ ストアップをする。 ただし、 自動閾値選定法は t r = 0のときだけ適用し、 他の t rでは、 t r = 0で定めた閾値を用いる。 これにより、 転調のない曲で、 t r =0以外のときに類似線分が誤検出されにくくなる。 そして、 こうして得られた 各 t rごとの類似度と類似線分に対して、 前述の統合処理を行う。 その結果、 t rごとに別々の類似線分のグループ *tr, iの集合 が得られる。 そこで前述 した、 共通区間を持つグループの統合の処理を、 t r間にまたがって行う (異な る t Γに対して共通区間を持つグループを探索する) ことで、 転調を含む繰り返 し区間を一つのグループとして統合する。 ただし、 前出の処理では 「T kの過半数 のピークが T iに含まれていれば、 上記同様の統合処理を行う」 とあるが、 ここで は常に統合処理 行う。
以下、 異なる t rから得られたグループも合わせて、 Φ = { で表す。 転調 区間が後から分かるように、 どの t rから統合されたかという情報は保存してお 図 1 6に戻って、 サビ区間決定手段 1 1 7では、 統合繰り返し区間記憶手段 1 1 5に記憶された統合繰り返し区間列からサビ区間を決定する。 なお図 1 6の例 では、 サビ区間を含む統合繰り返し区間列または複数種類の統合繰り返し区間列 は、 表示手段 1 1 8に表示される (図 4 1参照) 。 そしてサビ区間を含む統合繰 り返し区間列が他の統合繰り返し区間列とは異なる表示態様で表示される。 この ようにすると検出したサビ区間を他の繰り返し区間とは区別して明瞭に表示する ことができる。 なおこの例では、 統合繰り返し区間列を、 表示手段 1 1 8に表示 させながら選択手段 1 2 1で選択して、 音響の再生手段 1 2 3でサビ区間を含む 統合繰り返し区間列またはその他の統合繰り返し区間列を選択的に再生すること ができる。
図 1 5及び図 1 7のサビ区間決定ステップ (S 5、 S T 6 ) では、 例えば、 統 合繰り返し区間列に含まれる統合繰り返し区間の類似度の平均と、 統合繰り返し 区間の数と長さとに基づいて統合繰り返し区間列に拿まれる統合繰り返し区間の サビらしさを求める。 そして、 最もサビらしさの高い統合繰り返し区間列に含ま れる統合繰り返し区間をサビ区間として選択する。 最初に図 3 9及び図 4 0を用 いて説明した前述の仮定 1乃至仮定 3を満たす統合繰り返し区間は、 一般的には サビらしさが高い。 ' ' 上記の仮定を考慮して、 コンピュータを用いてサビ区間を自動的に選択する方 法について以下に説明する。 前述の類似線分のグループの集合 Φの中から、 ある 一つのグループをサビ区間として選ぶ。 そのために、 各グループ Φ iのサビらしさ を、 類似線分の平均類似度や上記した仮定に基づいて評価し、 最もサビらしさ リ!の高いグループをサビ区間であると判定する。 その準備として、 グループごと に、 類似線分 (線分候補ピーク u u) をそれが指す二つの区間へ展開し、 すべて の繰り返し区間 [P s u, P e n] とその信頼度 λ uのペアの集合を下記式 (1 4) により求める。
Λ i = { [ [P s η·, P e ] , λ n] I j = 1 , 2, '··, M.+ 1 }
… (14) ここで、 [P s u, P e n] = [T s ί- υ ij, Te !—リ i〗] とし、 信頼度 λ uは、 対応する類似線分における類似度 rtr (t, 1) の平均とする。 ただし、 j 1のときは、 下記式 (15) のようになる。
[P s ii, P e u] = CT s 5 , T e i j λ i i = m a x λ ik
( 5) サビらしさ は、 以下の手順で評価する。
(1) 仮定 2を満たす統合繰り返し区間の信頼度を増加
仮定 2で述べた Aメロ〜サビに相当するような十分に長い統合繰り返し区間 ( 50 s e c以上) を持つグループ (統合繰り返し区間列) に関して、 その各区 間の終了点 P ehkとほぼ等しい終了点 P e uを持つ区間が他のグループ (他の統 合繰り返し区間列) にあるか探索する。 発見されれば、 発見されたその統合繰り 返し区間がサビである可能性が高いと考え、 その信頼度 λ uを 2倍する。
(2) 仮定 3を満たす統合繰り返し区間の信頼度を増加
サビとして適切な区間長の範囲 (仮定 1) の統合繰り返し区間 [P s u, P e .j] に関して、 その区間の半分程度の短い統合繰り返し区間が前半と後半に一つ ずつ存在するか調べる。 存在する場合には、 それら二つの区間の信頼度の平均の 半分を、 元の区間の信頼度 λ uに加える。
(3) サビらしさを算出
上記で得られた信頼度に基づき、 サビらしさを下記式 (16) で算出する。
上記式 (16) において、 ∑の項は、 グループ (統合繰り返し区間列) φ 1中に ある統合繰り返し区間の数が多いほど、 また、 それらの信頼度が高いほど、 サビ らしさが高いことを意味する。 l o gの項は、 そのグループ (統合繰り返し区間 列) に含まれる統合繰り返し区間が長いほど、 サビらしさが高いことを意味する 。 定数 D 1 e nは予備実験の結果から 1. 4 s e cとした。
最終的に、 サビとして適切な区間長の範囲 (仮定 1) を持つグループの中で、 下記式 (17) によって決まる集合 Am中の区間 [P smj, P emj] を、 サビ区 間とする。
m=argmax v { ぃフ)
I ここで後処理として、 隣接する P smjの最小間隔を求め、 区間長が最小間隔と なるように P emjを移動して各区間を広げ、 隙間を埋める。 これは、 本来はサビ 区間が連続して隙間がないにも関わらず、 得られた繰り返し区間では隙間が空い てしまうことがあるからである。 ただし、 埋める隙間が大きすぎるとき (12 s e c以上で区間長の半分より広いとき) は埋めない。
図 17に示すように、 上記のようにサビ区間を決定したら (ステップ ST6) 、 その結果を図 16の表示手段 1 18にリアルタイムで表示する (ステップ ST 7) 。 そして、 音楽音響デ一夕の全データについて上記の処理が終了するまで、 上記処理が繰り返される (ステップ ST8) 。
次に、 上記実施の形態のサビ区間検出装置の実際とこの装置を用いた実験結果 について説明する。 実験では、 音楽音響信号を音楽音響データとして入力した。 そして検出したサビ区間の一覧をリアルタイムに出力することとした。 装置は、 刻一刻と、 過去の音響信号中でサビ区間と考えられる区間の一覧 (リスト) を求 め、 中間結果として得られた繰り返し構造 (繰り返し区間の一覧 Λ!) と共に出力 し続ける。 この出力を視覚化した例を図 41に示す。 図 41において、 横軸は時 間軸 (s e c) で楽曲全体を表示しており、 上半分がパワー変化、 下半分の最上 段がサビ区間を含む統合繰り返し区間列の一覧 (最後のサビは転調を伴う) 、 下 5段が他の統合繰り返し区間列の繰り返し構造を表す。
評価実験として、 「RWC研究用音楽デ一夕ベース:ポピュラー音楽」 〔先行 技術 1 0〕 の 1 00曲 (RWC—MDB— P— 200 1, No. 1〜: 1 00) を 対象に、 本装置のサビ検出性能を調べた。 1曲すベてを入力し終わった時点で、 サビ区間として検出されたものを対象に評価する。 この正誤を判定するためには 、 基準となる正解のサビ区間を人間が手作業で指定する必要がある。 そこで、 楽 曲を分割して各部にサピ、 Aメロ、 Bメロ、 間奏等をラベリングできる、 楽曲構 造ラベリング用エディタを開発した。 ラベリングでは、 相対的な調の移動幅 (曲 の先頭の調に対して半音何個分上か) も正解に付与する。
こうして作成した正解に基づき、 各曲に対する出力結果の区間と正解のサビ区 間がどれぐらい重なっているかを、 再現率 (r e c a l l r a t e) , 適合率 ( r e c i s i on r a t e) , および両者を統合した F値 (F— me a s u r e) 〔先行技術 1 1〕 の観点から評価した。 以下に定義を示す。
再現率 (R) =正しく検出したサビ区間の長さの合計ノ正解のサビ区間の長さ の合計
適合率 (p) =正しく検出したサビ区間の長さの合計 Z検出した区間の長さの 合計
?値= (j32+ 1) PR/ (/32P + R) ()3= 1を使用)
ただし、 転調を伴う場合には、 相対的な調の移動幅が正解と一致したときだけ
、 正しく検出したと判断した。 そして、 F値が 0. 7 5以上のとき、 その曲のサ ビ区間を正しく得られた (正答した) と判定した。
評価結果として、 1 Q 0曲中の正答曲数を表 1に示す。
表 1 .
本装置の性能は一番左の 80曲 (80曲の平均 F値は 0. 938) である。 誤 検出は、 サビの繰り返しが他の箇所の繰り返しより多くなかったり、 曲中ほとん どが類似伴奏の繰り返しだったりしたのが主な原因だった。 100曲中には、 サ ビに転調のある曲が 10曲含まれているが、 そのうち 9曲は検出できていた。 前 述の転調を伴う繰り返しの検出をやめた場合、 左から二番目のように性能が落ち た。 一方、 仮定 2、 3に基づく信頼度の増加をやめた場合は、 右二つのようにさ らに性能が落ちた。 サビの繰り返しで伴奏ゃメロディーに大幅な変化を伴う曲は 22曲あったが、 そのうち 21曲は検出できており、 その中で変化を伴うサビ自 体は 16曲で検出できていた。
本発明は、 基本的に楽曲中で最も多く繰り返される区間をサビとして検出する 。 その際、 様々な区間の繰り返しを楽曲全体の情報を統合しながら調べることで 、 従来実現されていなかった、 すべてのサビ区間の開始点 '終了点の一覧を得る ことを可能にした。 また、 転調後でも繰り返しと判断できるような、 クロマべク トル間の類似度を導入したことで、 サビの転調も検出できるようなつた。 RWC 研究用音楽データベース (RWC— MDB— P— 2001) 100曲を用いて評 価した結果、 80曲正答でき、 実世界の音響信号中のサビ区間が検出できること が確認された。
なお、 本発明は音楽要約 〔先行技術 12〕 とも関連しており、 本発明の装置を 楽曲の要約結果としてサビ区間を提示する音楽要約方法と捉えることもできる。 さらに、 サビ区間よりも長い区間の要約が必要なときには、 中間結果として得ら れた繰り返し構造を用いることで、 楽曲全体の冗長性を減らした要約の提示も可 能となる。 例えば、 中間結果として (Aメロ— Bメロ→サビ) の繰り返しが捉え られているときは、 それを提示できる。
この実験では、 ポピュラー音楽を用いて評価したが、 本発明は他の音楽ジヤン ルにも適用できる可能性を持つ。 実際に、 数曲のクラシック音楽に適用したとこ ろ、 その楽曲で最も代表的な主題が提示される部分を求めることができた。 なお、 本発明は上記実施例に限定されるものではなく、 本発明の趣旨に基づい て種々の変形が可能であり、 これらを本発明の範囲から排除するものではない。 例えば、 音響特徴量として、 クロマベクトル以外に、 周波数スペクトル、 MFC C (Me l— F r e qu e n c y Ce p s t r um Co e f f i c i e n t s) 等を用いてもよい。 それらの微分値もさらに音響特徴量として加えることも 可能である。 また、 音響特徴量間の類似度として、 以下の三つ等も考えられる。
さらに、 本発明は入力を音響信号でなく M I D I信号とする場合にも適用でき 、 その場合には、 音響特徴量の代わりに MI D I信号もしくは M I D I信号特徴 量を用い、 類似度としてはそれらの M I D I信号もしくは MID I信号特徴量間 の距離に基づく類似度を用いればよい。 MI D I信号特徴量として、 12次元ク ロマベクトルを用いてもよいのは勿論である。 その場合、 MID I信号から 12 次元クロマべクトルを求める任意の方法が利用できる。 例えば、 MI D Iノート オン ·オフのメッセージのオクターブ情報を消して 12次元クロマべクトルを求 めることができる。
以上、 詳細に説明したように、 本発明の実施例によれば、 音楽 CD (c omp a c t d i s c) 等による実世界の複雑な混合音からサビ区間を検出し、 各サ ビの区間の開始点と終了点の一覧を求めることができるだけでなく、 転調を伴う サビ区間を検出することも可能である。 その際、 楽曲全体の中に含まれる様々な 繰り返し構造 (複数の統合繰り返し区間列) に基づいてサビ区間を検出する。 さ らに、 楽曲全体の中に含まれる様々な繰り返し構造に基づいてサビを検出するた め、 その中間結果として、 繰り返し構造の一覧も同時に得ることができる。 産業上の利用可能性
本発明によれば、 イン夕一フェースによる選択により簡単にサビ区間等の楽曲 構造特徴区間を音楽音響データ再生装置を用いて再生することができる利点が得 られる。
本発明を用いれば、 「サビ出し」 機能 (サビ区間選択ポタン) を搭載した音楽 試聴機を得ることができる。 試聴者はこのサビ区間選択ボタンを押すだけで、 サ ビ区間の先頭へ再生をジャンプさせる (瞬時に早送りする) ことができ、 自分で サビ区間を探す煩わしい作業から解放される利点がある。 さらに、 サビ以外の楽 曲中の繰り返し区間も事前に推定あるいは用意しておくことで、 次の楽曲構造の 繰り返し区間の先頭へも再生をジャンプさせることができる利点が得られる。 また本発明によれば、 楽曲中に出現するサビ区間を網羅的に検出することがで きる。 また本発明によれば、 1つのサビ区間がどこからどこまでかを検出するこ とができる。 さらに本発明によれば、 転調されたサビ区間も検出できる。 また本 発明によれば、 サビ区間だけでなく、 その他の繰り返し区間も再生し且つ表示手 段にそれぞれ表示することが可能である。

Claims

1 . 音楽音響データを再生する音楽音響データ再生装置を用いて前記音楽音 響データを再生する楽曲再生方法であつて、
再生の対象となる前記音楽音響データに関して、 楽曲中の楽曲構造特徴区間を 指定するための複数の楽曲構造特徴区間指定データを予め用意する第 1のステツ プと、
前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するインター フエ一スを用意する第 2のステップと、
前記音楽音響データ再生装置を用いて前記音楽音響データの再生を開始した後 、 操作者が前記インタ一フェースを用いて選択した前記任意の楽曲構造特徴区間 に対応する前記楽曲構造特徴区間指定デ一夕に基いて、 前記音楽音響デ一夕再生 装置による前記音楽音響デ一夕の再生位置を前記任意の楽曲構造特徴区間に変更 する第 3のステツプとからなることを特徵とする楽曲再生方法。
2 . 音楽音響データを再生する音楽音響データ再生装置を用いて、 楽曲中の 複数の楽曲構造特徴区間から選択した任意の楽曲構造特徴区間を再生する方法で あって、
再生の対象となる前記音楽音響データに関して、 前記複数の楽曲構造特徴区間 を指定するための複数の楽曲構造特徴区間指定データを予め用意する第 1のステ ップと、
前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するィンター フェースを用意する第 2のステップと、
操作者が前記インタ一フェースを用いて選択した前記任意の楽曲構造特徴区間 に対応する前記楽曲構造特徴区間指定データに基いて前記音楽音響データ再生装 置に前記任意の楽曲構造特徴区間を再生させる第 3のステップとからなることを 特徵とする楽曲再生方法。
3 . 前記楽曲構造特徴区間が、 前記楽曲中のサビ区間であることを特徴とす る請求項 1または 2に記載の楽曲再生方法。
4 . 前記楽曲構造特徴区間が、 前記楽曲中の繰り返し区間を含んでいること を特徴とする請求項 1または 2に記載の楽曲再生方法。
5 . 前記第 1のステップでは、 前記音楽音響デ一夕に基づいて前記複数の楽 曲構造特徴区間を人が特定し、 特定した前記複数の楽曲構造特徴区間を指定する ための前記複数の楽曲構造特徴区間指定データを作成することを特徴とする請求 項 1または 2に記載の楽曲再生方法。
6 . 前記第 1のステップでは、 対象とする前記音楽音響データを複数の試聴 者が再生した際の再生行動の統計データに基いそ前記複数の楽曲構造特徴区間を 特定し、 特定した前記複数の楽曲構造特徴区間を指定するための前記複数の楽曲 構造特徴区間指定データを作成することを特徴とする請求項 1または 2に記載の 楽曲再生方法。
7 . 前記第 2のステップで用意する前記インターフェースは、 前記音楽音響 データの長さを時間軸を用いた画像表示により表示し、 併せて前記音楽音響デー 夕再生装置が前記音楽音響データ'を再生している前記音楽音響データの再生位置 と前記複数の楽曲構造特徴区間とを前記時間軸を用いた画像表示により表示する 画像表示部を有していることを特徴とする請求項 1または 2に記載の楽曲再生方 法。
8 . 前記複数の楽曲構造特徴区間は、 楽曲のサビ部分を示す複数のサビ区間 と、 繰り返し部分を示す複数の繰り返し区間とからなり、
前記画像表示部は前記複数のサビ区間と前記複数の繰り返し区間とを区別して 表示することを特徴とする請求項 7に記載の楽曲再生方法。
9 . 前記インターフェースは、 前記複数の楽曲構造特徴区間から任意の楽曲 構造特徴区間を選択するために操作者が操作する 1以上の選択ポタンを有してい る請求項 1または 2に記載の楽曲再生方法。
1 0 . 前記 1以上の選択ポタンには、 前記複数の楽曲構造特徴区間から前記 サビ έ間だけを選択する 1以上のサビ区間選択ポタンが含まれていることを特徴 とする請求項 9に記載の牵曲再生方法。
1 1 . 前記 1以上のサビ区間選択ポタンは前のサビ区間を選択する第 1のサ ビ区間選択ポタンと、 後のサビ区間を選択する第 2のサビ区間選択ポタンとから なる請求項 1 0に記載の楽曲再生方法。
1 2 . 前記 1以上の選択ポタンには、 前記複数の繰り返し区間を選択する際 に前の繰り返し区間を選択する第 1の繰り返し区間選択ポタンと、 後の繰り返し 区間を選択する第 2の繰り返し区間選択ポタンが含まれていることを特徴とする 請求項 9に記載の楽曲再生方法。
1 3 . 前記第 2のステップで用意する前記インターフェースは、 前記音楽音 響データの長さを時間軸を用いた画像表示により表示し、 併せて前記音楽音響デ 一夕再生装置が前記音楽音響デ一夕を再生している前記音楽音響デー夕の再生位 置と前記複数の楽曲構造特徴区間とを前記時間軸を用いた画像表示により表示す る画像表示部を有しており、 .
前記インターフェースは、 前記複数の楽曲構造特徴区間から任意の楽曲構造特 徴区間を選択するために操作者が操作する 1以上の選択ポタンを有しており、 前記 1以上の選択ボタンは前記画像表示部に表示された画像表示ポタンである 請求項 1または 2に記載の楽曲再生方法。 .
1 4 . 前記複数の楽曲構造特徴区間は、 楽曲のサビ部分を示す複数のサビ区 間と、 繰り返し区間を示す複数の繰り返し区間とからなり、
前記画像表示部は前記複数のサピ区間と前記複数の繰り返し区間とを区別して 表示し、
前記画像表示部に示された前記複数のサビ区間及び前記複数の繰り返し区間の 表示を、 前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するた めに操作者が操作する 1以上の選択ボタンとすることを特徴とする請求項 1 3に 記載の楽曲再生方法。
1 5 . 音楽音響データを再生する音楽音響データ再生装置を有し、 且つ楽曲 中の複数の楽曲構造特徴区間から選択した任意の楽曲構造特徴区間を再生する機 能を備えた楽曲再生装置であって、
前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択する機能を有 するインタ一フェースと、
再生する前記音楽音響データに対応して予め定められた前記複数の楽曲構造特 徵区間を指定するための楽曲構造特徴区間指定データを格納する楽曲構造特徴区 間指定データ格納手段と、 前記インターフェースによって選択された前記任意の楽曲構造特徴区間を指定 する前記楽曲構造特徴区間指定デ一夕を前記音楽音響データ再生装置に与える指 定データ付与手段とを具備し、
前記音楽音響デー夕再生装置は前記指定デー夕付与手段から付与された前記楽 曲構造特徴区間指定データによって指定された前記楽曲構造特徴区間に再生位置 を変更するように構成されていることを特徴とする楽曲再生装置。
1 6 . 前記音楽音響データには前記楽曲構造特徴区間指定データが付随して おり、
前記楽曲構造特徴区間指定データ格納手段は前記音楽音響データに付随する前 記楽曲構造特徴区間指定データを読み取って格納することを特徴とする請求項 1 5に記載の楽曲再生装置。
1 7 . 前記音楽音響データから自動的に前記楽曲中の前記複数の楽曲構造特 徵区間を抽出して前記楽曲構造特徴区間指定データを作成する特徴区間指定デー 夕生成手段を更に備えていることを特徴とする請求項 1 5に記載の楽曲再生装置
1 8 . 前記楽曲構造特徴区間が、 前記楽曲中のサビ区間であることを特徴と する請求項 1 5に記載の楽曲再生装置。
1 9 . 前記楽曲構造特徴区間が、 前記楽曲中の繰り返し区間を含んでいるこ とを特徴とする請求項 1 8に記載の楽曲再生装置。
2 0 . 前記インターフェースは、 前記音楽音響デ一夕の長さを時間軸を用い た画像表示により表示し、 併せて前記音楽音響データ再生装置が前記音楽音響デ 一夕を再生している前記音楽音響データの再生位置と前記複数の楽曲構造特徴区 間とを前記時間軸を用いた画像表示により表示する機能を有する画像表示部を備 えていることを特徴とする請求項 1 5に記載の楽曲再生装置。
2 1 . 前記複数の楽曲構造特徴区間は、 楽曲のサビ部分を示す複数のサビ区 間と、 繰り返し部分を示す複数の繰り返し区間とからなり、
前記画像表示部は前記複数のサビ区間と前記複数の繰り返し区間とを区別して 表示する機能を有していることを特徴とする請求項 2 0に記載の楽曲再生装置。
2 2 . 前記インターフェースは、 前記複数の楽曲構造特徴区間から任意の楽 曲構造特徴区間を選択するために操作者が操作する 1以上の選択ポタンを有して いる請求項 2 0に記載の楽曲再生方法。
2 3 . 前記 1以上の選択ポタンには、 前記複数の楽曲構造特徴区間から前記 サビ区間だけを選択する 1以上のサビ区間選択ポ夕ンが含まれていることを特徴 とする請求項 2 2に記載の楽曲再生装置。
2 4 . 前記 1以上のサビ区間選択ボタンは前のサビ区間を選択する第 1のサ ビ区間選択ポタンと、 後のサピ区間を選択する第 2のサビ区間選択ポタンとから なる請求項 2 2に記載の楽曲再生装置。
2 5 . 前記 1以上の選択ポタンには、 前記複数の繰り返し区間を選択する際 に前の繰り返し区間を選択する第 1の繰り返し区間選択ボタンと、 後の繰り返し 区間を選択する第 2の繰り返し区間選択ポタンが含まれていることを特徴とする 請求項 2 2に記載の楽曲再生装置。
2 6 . 前記 1以上の選択ボタンは前記画像表示部に表示された画像表示ボタ ンである請求項 2 2に記載の楽曲再生装置。 '
2 7 . 前記複数の楽曲構造特徴区間は、 楽曲のサビ部分を示す複数のサビ区 間と、 繰り返し区間を示す複数の繰り返し区間とからなり、
前記画像表示部は前記複数のサビ区間と前記複数の繰り返し区間とを区別して 表示し、
前記画像表示部に示された前記複数のサビ区間及び前記複数の繰り返し区間の' 表示を、 前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するた めに操作者が操作する前記 1以上の選択ボタンとするように前記画像表示部が構 成されていることを特徴とする請求項 2 6に記載の楽曲再生装置。
2 8 . 音楽音響データを再生す 音楽音響データ再生装置を用いて、 楽曲中 の複数の楽曲構造特徴区間から選択した任意の楽曲構造特徴区間を再生する際に 、 前記楽曲構造特徵区間の選択と選択結果の伝送に用いられるインターフェース であって、
前記複数の楽曲構造特徴区間に含まれるサビ区間を選択するために操作者が操 作するサビ区間選択ポタンを含む 1以上の選択ボタンを有していることを特徴と するインターフェース。
2 9 . 前記 1以上の選択ポタンは前のサビ区間を選択する第 1のサビ区間選 択ポタンと、 後のサビ区間を選択する第 2のサビ区間選択ポタンとからなる請求 項 2 8に記載のィンタ一フェース。
3 0 . 前記複数の楽曲構造特徴区間に含まれる複数の繰り返し区間を選択す る際に、 前の繰り返し区間を選択する第 1の繰り返し区間選択ポタンと、 後の繰 り返し区間を選択する第 2の繰り返し区間選択ポタンをさらに備えていることを 特徴とする請求項 2 8に記載のインタ一フェース。
3 1 . 前記音楽音響データの長さを時間軸を用いた画像表示により表示し、 併せて前記音楽音響データ再生装置が前記音楽音響データを再生している前記音 楽音響データの再生位置と前記複数の楽曲構造特徴区間とを前記時間軸を用いた 画像表示により表示する画像表示部を更に有していることを特徴とする請求項 2 8に記載のィンターフェ一ス。
3 2 . 前記複数の楽曲構造特徴区間は、 楽曲のサビ部分を示す複数のサビ区 間と、 繰り返し区間を示す複数の繰り返し区間とからなり、
前記画像表示部は前記複数のサビ区間と前記複数の繰り返し区間とを区別して 表示し、 .
前記画像表示部に示された前記複数のサビ区間及び前記複数の繰り返し区間の 表示を、 前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するた めに操作者が操作する前記 1以上の選択ポタンとするように構成されていること を特徴とする請求項 3 1に記載のインタ一フェース。
3 3 . コンピュータと、 前記コンピュータからの指令に基いて動作するディ スプレイと、 前記コンピュータからの指令で音楽音響デ一夕を再生する音楽音響 データ再生装置とから構成された装置を用いて、 楽曲中の複数の楽曲構造特徴区 間から選択した任意の楽曲構造特徴区間を再生する機能を前記コンピュータに実 現させるためのプログラムであって、
前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するインター フェースを前記ディスプレイ上に構成する機能と、
再生する前記音楽音響デ一夕に対応して予め定められた前記複数の楽曲構造特 徴区間を指定するための楽曲構造特徵区間指定データを格納する楽曲構造特徴区 間指定データ格納手段を構成する機能と、
前記インターフェースによって選択された前記任意の楽曲構造特徴区間を指定 する前記楽曲構造特徴区間指定データを前記音楽音響データ再生装置に与える指 定デ一夕付与手段を構成する機能と、
前記指定データ付与手段から付与された前記前記楽曲構造特徴区間指定データ によって指定された前記楽曲構造特徴区間を再生するように前記音楽音響データ 再生装置に指令を与える機能とを前記コンピュータに実現させる構成を備えたこ とを特徴とする楽曲再生装置実現用プログラム。
3 4 . 前記インターフエ一スを前記ディスプレイ上に構成する機能は、 前記 複数の楽曲構造特徴区間に含まれるサビ区間を選択するために操作者が操作する サビ区間選択ポタンを含む 1以上の選択ポタンを前記ディスプレイ上に形成する 機能を有していることを特徴とする請求項 3 3に記載の楽曲再生装置実現用プロ グラム。
3 5 . 前記インターフェースを前記ディスプレイ上に構成する機能は、 前記 音楽音響データの長さを時間軸を用いた画像表示により前記ディスプレイ上に表 示し、 併せて前記音楽音響データ再生装置が前記音楽音響データを再生している 前記音楽音響データの再生位置と前記複数の楽曲構造特徴区間とを前記時間軸を 用いた画像表示により前記ディスプレイ上に表示する機能を更に有していること を特徴とする請求項 3 3に記載の楽曲再生装置実現用プログラム。
3 6 . 前記複数の楽曲構造特徴区間は、 楽曲のサビ部分を示す複数のサビ区 間と、 繰り返し区間を示す複数の繰り返し区間とからなり、
前記インターフェースを前記ディスプレイ上に構成する機能は、 前記複数のサ ビ区間と前記複数の繰り返し区間とを区別して前記ディスプレイ上に表示し、 前 記ディスプレイ上に示された前記複数のサビ区間及び前記複数の繰り返し区間の 表示を、 前記複数の楽曲構造特徴区間から任意の楽曲構造特徴区間を選択するた めに操作者が操作する前記 1以上の選択ポタンとする機能をさらに有しているこ とを特徴とする請求項 3 3に記載の楽曲再生装置実現用プログラム。
3 7 . 音楽音響デ一夕中から楽曲構造特徵区間を抽出する方法であって、 対象とする前記音楽音響データを複数の試聴者が再生した際の再生行動の統計 データに基いて前記楽曲構造特徴区間を抽出することを特徴とする楽曲構造特徴 区間の抽出方法。
3 8 . 複数の試聴者による再生回数が多い区間を前記複数の楽曲構造特徴区 間と定めることを特徴とする請求項 3 7に記載の楽曲構造特徴区間の抽出方法。
3 9 . ネットワークに接続された複数台の試聴用の楽曲再生装置から前記複 数の試聴者による再生回数が多い区間のデータを集めることを特徴とする請求項 3 8に記載の楽曲構造特徴区間の抽出方法。
4 0 . 前記データをヒストグラムとして視覚により認識可能な状態とし、 前 記ヒストグラムから前記複数の楽曲構造特徴区間を特定することを特徴とする請 求項 3 9に記載の楽曲構造特徴区間の抽出方法。
4 1 . ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽 音響データ中からサビ区間に対応する部分を検出する方法であって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出 ステップと、
前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を 求める類似度演算ステツプと、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し 区間をリストアップする繰り返し区間リストアップステップと、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、 時間軸上の共 通区間にある 1以上の前記繰り返し区間を時間軸上に統合して一つの統合繰り返 し区間を決定し、 決定した複数の前記統合繰り返し区間を複数種類の統合繰り返 し区間列に分類化する統合繰り返し区間決定ステップと、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定 ステップとからなることを特徴とする音楽音響デ一タ中のサビ区間を検出する方 法。
4 2 . 前記特徴量抽出ステップで求める音響特徴量は、 1オクターブの範囲 に含まれる 1 2の音名の周波数のパヮ一を複数のオクターブに渡ってそれぞれ加 算して得た 1 2次元クロマべクトルである請求項 4 1に記載の音楽音響データ中 のサビ区間を検出する方法。
4 3 . 前記類似度演算ステップでは、 今回求めた前記音響特徴量と先に求め た全ての前記音響特徴量との間の前記類似度を求めることを特徴とする請求項 4 2に記載の音楽音響データ中のサビ区間を検出する方法。
4 4 . 前記類似度演算ステップでは、 時刻 tの前記 1 2次元クロマベクトル とそれよりラグ 1 ( 0≤ l≤ t ) だけ過去の全ての前記 1 2次元クロマベクトル との前記類似度を求め、
前記繰り返し区間リストアップステップでは、 一方の軸を時間軸とし他方の軸 をラグ軸とし、 予め定めた時間長さ以上前記類似度が予め定めた閾値以上ある場 合には前記類似度が前記予め定めた閾値以上である部分の長さに対応する時間長 さを有する類似線分を前記時間軸を基準にした前記繰り返し区間としてリストア ップすることを特徴とする請求項 4 3に記載の音楽音響データ中のサビ区間を検 出する方法。
4 5 . 統合繰り返し区間決定ステップでは、 前記時間軸の共通区間に存在す るリストアップした前記類似線分どうしをそれぞれダル一ビングにより統合して 前記統合繰り返し区間と定め、
複数の前記統合繰り返し区間を、 前記共通区間の前記時間軸上の存在位置及び 長さとダル一ビングされる前記類似線分の前記ラグ軸で見た位置関係とに基づい て前記複数種類の前記統合繰り返し区間列に分類することを特徴とする請求項 4 4に記載の音楽音響データ中のサビ区間を検出する方法。
4 6 . 統合繰り返し区間決定ステップでは、 前記統合繰り返し区間に含まれ ない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成する請求項 4 5に記載の音楽音響データ中のサビ区間を検出する方法。
4 7 . 前記楽曲は転調を含んでおり、
前記特徴量抽出ステップでは、 前記 1 2次元クロマベクトルからなる前記音響 特徴量を 1転調幅ずつ 1 1転調幅までシフトして得た転調幅の異なる 1 2種類の 前記音響特徴量を求め、
前記類似度演算ステップでは、 今回求めた前記音響特徴量と先に求めた全ての 1 2種類の前記音響特徴量との間の前記類似度を、 時刻 tの今回の前記音響特徴 量を表す前記クロマベクトルとそれよりラグ 1 ( 0≤ l≤ t ) だけ過去の全ての 1 2種類の前記音響特徴量を表す前記クロマべクトルとの間の類似度として演算 し、
前記繰り返し区間リストアップステップでは、 1 2種類の前記音響特徴量ごと に、 一方の軸を時間軸 tとし他方の軸をラグ 1とし、 予め定めた時間長さ以上前 記類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類 似線分を前記時間軸を基準にした前記繰り返し区間としてそれぞれ 1 2種類のリ ストをリストアップすることを特徴とする請求項 4 1に記載の音楽音響デ一夕中 のサピ区間を検出する方法。
4 8 . 統合繰り返し区間決定ステップでは、 前記 1 2種類のリストごとに、 前記時間軸の共通区間に存在するリストアツプした前記類似線分どうしをそれぞ れグルーピングにより統合して統合繰り返し区間と定め、
さらに前記 1 2種類のリストについて定めた複数の前記統合繰り返し区間を、 前記共通区間の前記時間軸上の存在位置及び長さと、 グルーピングされる前記類 似線分の前記ラグ軸で見た位置関係とに基づいて前記複数種類の転調を考慮した 前記複数種類の統合繰り返し区間列に分類化することを特徴とする請求項 4 7に 記載の音楽音響データ中のサビ区間を検出する方法。
4 9 . 前記サビ区間決定ステップでは、 前記統合繰り返し区間列に含まれる 前記統合繰り返し区間の前記類似度の平均と、 数と長さとに基づいて該統合繰り 返し区間列に含まれる前記統合繰り返し区間のサビらしさを求め、 最もサビらし さの高い前記統合繰り返し区間列に含まれる前記統合繰り返し区間を前記サビ区 間として決定することを特徴とする請求項 4 1に記載の音楽音響データ中のサビ 区間を検出する方法。
5 0 . ある楽曲中で繰り返されるサピ区間を検出するためにその楽曲の音楽 音響データ中からサビ区間に対応する部分を検出して表示手段に表示する装置で あって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出 手段と、
前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を 求める類似度演算手段と、 前記類似度に基づいて前記音楽音響デ一夕中に繰り返し現れる複数の繰り返し 区間をリストアップする繰り返し区間リストアツプ手段と、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、 時間軸上の共 通区間にある 1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決 定し、 決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に 分類化する統合繰り返し区間決定手段と、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定 手段とを具備し、
前記複数種類の統合繰り返し区間列が前記表示手段に表示され、
前記サビ区間を含む前記統合繰り返し区間列が他の前記統合繰り返し区間列と は異なる表示態様で表示されることを特徴とする音楽音響デ一夕中のサビ区間を 検出する装置。
5 1 . ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽 音響デ一夕中からサビ区間に対応する部分を検出して表示手段に表示する装置で あって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出 手段と、
前記音楽音響デ一夕について求めた複数の前記音響特徴量の相互間の類似度を 求める類似度演算手段と、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し 区間をリストアップする繰り返し区間リストアップ手段と、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、 時間軸上の共 通区間にある 1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決 定し、 決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に 分類化する統合繰り返し区間決定手段と、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定 手段とを具備することを特徴とする音楽音響デ一夕中のサビ区間を検出する装置
5 2 . 統合繰り返し区間決定手段は、 前記統合繰り返し区間に含まれない最 初の繰り返し区間を補足して前記統合繰り返し区間列を作成するように構成され ている請求項 5 1に記載の音楽音響データ中のサビ区間を検出する装置。
5 3 . ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽 音響データ中からサビ区間に対応する部分を検出して前記サビ区間を再生手段に より再生する装置であって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出 手段と、
前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を 求める類似度演算手段と、
前記類似度に基づいて前記音楽音響デ一夕中に繰り返し現れる複数の繰り返し 区間をリストアップする繰り返し区間リストアップ手段と、
リストアツプされた前記複数の繰り返し区間の相互関係を調べ、 時間軸上の共 通区間にある 1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決 定し、 決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に 分類化する統合繰り返し区間決定手段と、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定 手段とを具備し、
前記複数種類の統合繰り返し区間列が選択的に前記再生手段で再生されること を特徴とする音楽音響データ中のサビ区間を検出する装置。
5 4 . ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽 音響デ一夕中からサビ区間に対応する部分を検出する方法をコンピュータを用い て実現するために用いられるプログラムであって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出 ステップと、
前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を 求める類似度演算ステップと、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し 区間をリストアップする繰り返し区間リストアップステップと、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、 時間軸上の共 通区間にある 1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決 定し、 決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に 分類化する統合繰り返し区間決定ステップと、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定 ステップとを前記コンピュータに実行させるように構成されていることを特徴と するプログラム。
5 5 . 統合繰り返し区間決定ステップでは、 前記統合繰り返し区間に含まれ ない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成する請求項 5 4に記載のプログラム
PCT/JP2003/013563 2002-10-24 2003-10-23 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法 WO2004038694A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
AT03758828T ATE556404T1 (de) 2002-10-24 2003-10-23 Wiedergabeverfahren für musikalische kompositionen und einrichtung und verfahren zum erkennen eines repräsentativen motivteils in musikkompositionsdaten
US10/532,400 US7179982B2 (en) 2002-10-24 2003-10-23 Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
EP03758828A EP1577877B1 (en) 2002-10-24 2003-10-23 Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
AU2003275618A AU2003275618A1 (en) 2002-10-24 2003-10-23 Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2002309519 2002-10-24
JP2002-309519 2002-10-24
JP2003-25331 2003-01-31
JP2003025331A JP4273202B2 (ja) 2003-01-31 2003-01-31 楽曲再生方法及び装置
JP2003342676A JP4243682B2 (ja) 2002-10-24 2003-09-30 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
JP2003-342676 2003-09-30

Publications (1)

Publication Number Publication Date
WO2004038694A1 true WO2004038694A1 (ja) 2004-05-06

Family

ID=32180296

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/013563 WO2004038694A1 (ja) 2002-10-24 2003-10-23 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法

Country Status (6)

Country Link
US (1) US7179982B2 (ja)
EP (1) EP1577877B1 (ja)
KR (1) KR100836574B1 (ja)
AT (1) ATE556404T1 (ja)
AU (1) AU2003275618A1 (ja)
WO (1) WO2004038694A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006034743A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks
US7282632B2 (en) 2004-09-28 2007-10-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung Ev Apparatus and method for changing a segmentation of an audio piece
US7304231B2 (en) 2004-09-28 2007-12-04 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung Ev Apparatus and method for designating various segment classes
EP1924092A1 (en) * 2005-09-07 2008-05-21 Pioneer Corporation Content replay apparatus, content reproducing apparatus, content replay method, content reproducing method, program and recording medium
US7470853B2 (en) 2004-12-10 2008-12-30 Panasonic Corporation Musical composition processing device
US20090132074A1 (en) * 2005-12-08 2009-05-21 Nec Corporation Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program
WO2011040660A1 (ko) * 2009-10-04 2011-04-07 Kang Min-Su 좌표와 색을 이용한 전자악기
CN104091600A (zh) * 2014-03-21 2014-10-08 腾讯科技(深圳)有限公司 一种歌声位置检测方法及装置

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
ATE485672T1 (de) 2003-12-19 2010-11-15 Creative Tech Ltd Digitale standbildkamera mit audio-decodierung und -codierung, einem druckbaren audioformat und verfahren
WO2005059830A1 (en) * 2003-12-19 2005-06-30 Creative Technology Ltd Method and system to process a digital image
US7674966B1 (en) * 2004-05-21 2010-03-09 Pierce Steven M System and method for realtime scoring of games and other applications
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
US7227074B2 (en) * 2004-09-24 2007-06-05 Microsoft Corporation Transport control for initiating play of dynamically rendered audio content
JP4243862B2 (ja) * 2004-10-26 2009-03-25 ソニー株式会社 コンテンツ利用装置およびコンテンツ利用方法
JP4247626B2 (ja) * 2005-01-20 2009-04-02 ソニー株式会社 再生装置および再生方法
JP4595555B2 (ja) * 2005-01-20 2010-12-08 ソニー株式会社 コンテンツ再生装置およびコンテンツ再生方法
JP4317892B2 (ja) * 2005-03-28 2009-08-19 パイオニア株式会社 オーディオ信号再生装置
JP4741267B2 (ja) * 2005-03-28 2011-08-03 ソニー株式会社 コンテンツ推薦システム、通信端末およびコンテンツ推薦方法
JP5076892B2 (ja) * 2005-06-27 2012-11-21 パナソニック株式会社 同一シーン検出装置およびプログラムを格納した記憶媒体
JP2007011928A (ja) * 2005-07-04 2007-01-18 Sony Corp コンテンツ提供システム、コンテンツ提供装置、コンテンツ配信サーバ、コンテンツ受信端末およびコンテンツ提供方法
JP5133508B2 (ja) 2005-07-21 2013-01-30 ソニー株式会社 コンテンツ提供システム、コンテンツ提供装置、コンテンツ配信サーバ、コンテンツ受信端末およびコンテンツ提供方法
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP4403415B2 (ja) * 2005-09-20 2010-01-27 ソニー株式会社 コンテンツ再生方法およびコンテンツ再生装置
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7668610B1 (en) 2005-11-30 2010-02-23 Google Inc. Deconstructing electronic media stream into human recognizable portions
US7826911B1 (en) 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
JP4001897B2 (ja) * 2005-12-09 2007-10-31 株式会社コナミデジタルエンタテインメント 音楽ジャンル判別装置及びこれを備えたゲーム機
JP4296514B2 (ja) * 2006-01-23 2009-07-15 ソニー株式会社 音楽コンテンツ再生装置、音楽コンテンツ再生方法及び音楽コンテンツ再生プログラム
DE602006008570D1 (de) * 2006-02-10 2009-10-01 Harman Becker Automotive Sys System für sprachgesteuerte Auswahl einer Audiodatei und Verfahren dafür
US20090222270A2 (en) * 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
JP4811046B2 (ja) 2006-02-17 2011-11-09 ソニー株式会社 コンテンツの再生装置、オーディオ再生機およびコンテンツの再生方法
US20070261537A1 (en) * 2006-05-12 2007-11-15 Nokia Corporation Creating and sharing variations of a music file
US7538265B2 (en) * 2006-07-12 2009-05-26 Master Key, Llc Apparatus and method for visualizing music and other sounds
JP4573130B2 (ja) * 2006-07-21 2010-11-04 ソニー株式会社 再生装置、記録媒体、再生方法及び再生プログラム
KR100810276B1 (ko) * 2006-08-01 2008-03-06 삼성전자주식회사 음원 재생 장치에서 플레이 리스트를 생성하기 위한 장치및 방법
JP2010508626A (ja) * 2006-10-31 2010-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号に応じた照明制御
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
US7880076B2 (en) * 2007-04-03 2011-02-01 Master Key, Llc Child development and education apparatus and method using visual stimulation
US7589269B2 (en) * 2007-04-03 2009-09-15 Master Key, Llc Device and method for visualizing musical rhythmic structures
US7932454B2 (en) * 2007-04-18 2011-04-26 Master Key, Llc System and method for musical instruction
WO2008130697A1 (en) * 2007-04-19 2008-10-30 Master Key, Llc Method and apparatus for editing and mixing sound recordings
WO2008130665A1 (en) * 2007-04-19 2008-10-30 Master Key, Llc System and method for audio equalization
US7671266B2 (en) * 2007-04-20 2010-03-02 Master Key, Llc System and method for speech therapy
US7960637B2 (en) * 2007-04-20 2011-06-14 Master Key, Llc Archiving of environmental sounds using visualization components
US7928306B2 (en) * 2007-04-20 2011-04-19 Master Key, Llc Musical instrument tuning method and apparatus
WO2008130663A1 (en) * 2007-04-20 2008-10-30 Master Key, Llc System and method for foreign language processing
US7947888B2 (en) * 2007-04-20 2011-05-24 Master Key, Llc Method and apparatus for computer-generated music
US8073701B2 (en) * 2007-04-20 2011-12-06 Master Key, Llc Method and apparatus for identity verification using visual representation of a spoken word
US7932455B2 (en) * 2007-04-20 2011-04-26 Master Key, Llc Method and apparatus for comparing musical works
WO2008130696A1 (en) * 2007-04-20 2008-10-30 Master Key, Llc Calibration of transmission system using tonal visualization components
US7820900B2 (en) * 2007-04-20 2010-10-26 Master Key, Llc System and method for sound recognition
US20080269775A1 (en) * 2007-04-20 2008-10-30 Lemons Kenneth R Method and apparatus for providing medical treatment using visualization components of audio spectrum signals
WO2008130666A2 (en) * 2007-04-20 2008-10-30 Master Key, Llc System and method for music composition
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
US8208643B2 (en) * 2007-06-29 2012-06-26 Tong Zhang Generating music thumbnails and identifying related song structure
JP2009063714A (ja) * 2007-09-05 2009-03-26 Sony Computer Entertainment Inc オーディオ再生装置およびオーディオ早送り再生方法
JP4375471B2 (ja) * 2007-10-05 2009-12-02 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2009130559A (ja) * 2007-11-22 2009-06-11 Sony Corp 記録再生装置および方法、プログラム、並びに記録媒体
EP2088518A1 (en) * 2007-12-17 2009-08-12 Sony Corporation Method for music structure analysis
US7875787B2 (en) * 2008-02-01 2011-01-25 Master Key, Llc Apparatus and method for visualization of music using note extraction
US7919702B2 (en) 2008-02-01 2011-04-05 Master Key, Llc Apparatus and method of displaying infinitely small divisions of measurement
JP4973537B2 (ja) * 2008-02-19 2012-07-11 ヤマハ株式会社 音響処理装置およびプログラム
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
KR101424974B1 (ko) * 2008-03-17 2014-08-04 삼성전자주식회사 복수의 반복되는 부분들을 가진 음악 데이터의 첫 번째부분만을 재생하는 방법 및 장치
US8183454B2 (en) * 2008-12-31 2012-05-22 Apple Inc. Method and system for displaying components of music instruction files
EP2239727A1 (en) * 2009-04-08 2010-10-13 Yamaha Corporation Musical performance apparatus and program
KR101040086B1 (ko) * 2009-05-20 2011-06-09 전자부품연구원 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치
WO2011009946A1 (en) * 2009-07-24 2011-01-27 Johannes Kepler Universität Linz A method and an apparatus for deriving information from an audio track and determining similarity between audio tracks
JP5582915B2 (ja) * 2009-08-14 2014-09-03 本田技研工業株式会社 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット
JP5454317B2 (ja) * 2010-04-07 2014-03-26 ヤマハ株式会社 音響解析装置
JP5530812B2 (ja) * 2010-06-04 2014-06-25 ニュアンス コミュニケーションズ,インコーポレイテッド 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム
US9153217B2 (en) * 2010-11-01 2015-10-06 James W. Wieder Simultaneously playing sound-segments to find and act-upon a composition
US8958337B1 (en) 2010-12-23 2015-02-17 Juniper Networks, Inc. Scalable method to support multi-device link aggregation
EP2793223B1 (en) 2010-12-30 2016-05-25 Dolby International AB Ranking representative segments in media data
JP5935503B2 (ja) * 2012-05-18 2016-06-15 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
TWI482149B (zh) * 2012-12-20 2015-04-21 Univ Southern Taiwan Sci & Tec The Method of Emotional Classification of Game Music
TWI486949B (zh) * 2012-12-20 2015-06-01 Univ Southern Taiwan Sci & Tec Music emotion classification method
US11271993B2 (en) 2013-03-14 2022-03-08 Aperture Investments, Llc Streaming music categorization using rhythm, texture and pitch
US10623480B2 (en) 2013-03-14 2020-04-14 Aperture Investments, Llc Music categorization using rhythm, texture and pitch
US10225328B2 (en) 2013-03-14 2019-03-05 Aperture Investments, Llc Music selection and organization using audio fingerprints
US10242097B2 (en) * 2013-03-14 2019-03-26 Aperture Investments, Llc Music selection and organization using rhythm, texture and pitch
US10061476B2 (en) 2013-03-14 2018-08-28 Aperture Investments, Llc Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood
USD748670S1 (en) * 2014-03-17 2016-02-02 Lg Electronics Inc. Display panel with transitional graphical user interface
USD748669S1 (en) * 2014-03-17 2016-02-02 Lg Electronics Inc. Display panel with transitional graphical user interface
USD757093S1 (en) * 2014-03-17 2016-05-24 Lg Electronics Inc. Display panel with transitional graphical user interface
USD748671S1 (en) * 2014-03-17 2016-02-02 Lg Electronics Inc. Display panel with transitional graphical user interface
USD748112S1 (en) * 2014-03-17 2016-01-26 Lg Electronics Inc. Display panel with transitional graphical user interface
USD748134S1 (en) * 2014-03-17 2016-01-26 Lg Electronics Inc. Display panel with transitional graphical user interface
US20220147562A1 (en) 2014-03-27 2022-05-12 Aperture Investments, Llc Music streaming, playlist creation and streaming architecture
US9530391B2 (en) * 2015-01-09 2016-12-27 Mark Strachan Music shaper
WO2017168644A1 (ja) * 2016-03-30 2017-10-05 Pioneer DJ株式会社 楽曲展開解析装置、楽曲展開解析方法および楽曲展開解析プログラム
JP6414164B2 (ja) * 2016-09-05 2018-10-31 カシオ計算機株式会社 自動演奏装置、自動演奏方法、プログラムおよび電子楽器
US10262639B1 (en) * 2016-11-08 2019-04-16 Gopro, Inc. Systems and methods for detecting musical features in audio content
US10008188B1 (en) * 2017-01-31 2018-06-26 Kyocera Document Solutions Inc. Musical score generator
US20190294877A1 (en) * 2018-03-25 2019-09-26 Dror Dov Ayalon Method and system for identifying an optimal sync point of matching signals
JP7439755B2 (ja) * 2018-10-19 2024-02-28 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN110808065A (zh) * 2019-10-28 2020-02-18 北京达佳互联信息技术有限公司 副歌检测方法、装置、电子设备及存储介质
US11551652B1 (en) * 2019-11-27 2023-01-10 Amazon Technologies, Inc. Hands-on artificial intelligence education service
US11049481B1 (en) * 2019-11-27 2021-06-29 Amazon Technologies, Inc. Music generation system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284064A (ja) * 1994-04-06 1995-10-27 Sony Corp オーディオ情報と動画像情報との記録方法およびその記録媒体
US20020020279A1 (en) * 2000-04-21 2002-02-21 Tomoyuki Funaki Editor for musical performance data
US20020026867A1 (en) * 1999-05-21 2002-03-07 Yamaha Corporation Method and system for supplying contents via communication network

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737308A (en) * 1993-10-29 1998-04-07 Kabushiki Kaisha Toshiba Recording medium for specified reproduction and reproduction apparatus
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
JP3886372B2 (ja) * 2001-12-13 2007-02-28 松下電器産業株式会社 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
EP1326228B1 (en) * 2002-01-04 2016-03-23 MediaLab Solutions LLC Systems and methods for creating, modifying, interacting with and playing musical compositions
US7461392B2 (en) * 2002-07-01 2008-12-02 Microsoft Corporation System and method for identifying and segmenting repeating media objects embedded in a stream

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284064A (ja) * 1994-04-06 1995-10-27 Sony Corp オーディオ情報と動画像情報との記録方法およびその記録媒体
US20020026867A1 (en) * 1999-05-21 2002-03-07 Yamaha Corporation Method and system for supplying contents via communication network
US20020020279A1 (en) * 2000-04-21 2002-02-21 Tomoyuki Funaki Editor for musical performance data

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006034743A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks
US7282632B2 (en) 2004-09-28 2007-10-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung Ev Apparatus and method for changing a segmentation of an audio piece
US7304231B2 (en) 2004-09-28 2007-12-04 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung Ev Apparatus and method for designating various segment classes
US7345233B2 (en) 2004-09-28 2008-03-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung Ev Apparatus and method for grouping temporal segments of a piece of music
US7470853B2 (en) 2004-12-10 2008-12-30 Panasonic Corporation Musical composition processing device
EP1924092A1 (en) * 2005-09-07 2008-05-21 Pioneer Corporation Content replay apparatus, content reproducing apparatus, content replay method, content reproducing method, program and recording medium
EP1924092A4 (en) * 2005-09-07 2013-02-27 Pioneer Corp Content replay device, content replay device, replay process, content replay process, program and replay medium
US20090132074A1 (en) * 2005-12-08 2009-05-21 Nec Corporation Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program
WO2011040660A1 (ko) * 2009-10-04 2011-04-07 Kang Min-Su 좌표와 색을 이용한 전자악기
CN104091600A (zh) * 2014-03-21 2014-10-08 腾讯科技(深圳)有限公司 一种歌声位置检测方法及装置

Also Published As

Publication number Publication date
KR100836574B1 (ko) 2008-06-10
US20050241465A1 (en) 2005-11-03
AU2003275618A8 (en) 2004-05-13
ATE556404T1 (de) 2012-05-15
US7179982B2 (en) 2007-02-20
EP1577877A1 (en) 2005-09-21
KR20050083806A (ko) 2005-08-26
EP1577877A4 (en) 2009-01-28
EP1577877B1 (en) 2012-05-02
AU2003275618A1 (en) 2004-05-13

Similar Documents

Publication Publication Date Title
WO2004038694A1 (ja) 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法
US10229196B1 (en) Automatic selection of representative media clips
JP4243682B2 (ja) 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
JP3941417B2 (ja) ソース音声信号内の新規点の識別方法
Goto et al. Music interfaces based on automatic music signal analysis: new ways to create and listen to music
US8271112B2 (en) Music information retrieval system
Choi et al. Explaining deep convolutional neural networks on music classification
Goto SmartMusicKIOSK: Music listening station with chorus-search function
Hargreaves et al. Structural segmentation of multitrack audio
Raguraman et al. Librosa based assessment tool for music information retrieval systems
CN113691909A (zh) 具有音频处理推荐的数字音频工作站
JP2003308067A (ja) ディジタル楽譜の音符とその楽譜のリアリゼーションとの間のリンクを生成する方法
JP4273202B2 (ja) 楽曲再生方法及び装置
Dannenberg et al. Panel: new directions in music information retrieval
US9990911B1 (en) Method for creating preview track and apparatus using the same
Nuanáin et al. Rhythmic concatenative synthesis for electronic music: techniques, implementation, and evaluation
Van Balen Automatic recognition of samples in musical audio
Tsuzuki et al. Unisoner: An interactive interface for derivative chorus creation from various singing voices on the web
Tanghe et al. Collecting ground truth annotations for drum detection in polyphonic music
Cheston et al. Cambridge Jazz Trio Database: Automated Timing Annotation of Jazz Piano Trio Recordings Processed Using Audio Source Separation
Schreiber Data-driven approaches for tempo and key estimation of music recordings
JP4447540B2 (ja) カラオケ唱歌録音作品の鑑賞システム
Hirai et al. Latent topic similarity for music retrieval and its application to a system that supports DJ performance
Bientinesi Mickaël Zehren, Marco Alunno, and
Goto Music scene description

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PH PL PT RO RU SC SD SE SG SK SL TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020057007022

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2003758828

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10532400

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1020057007022

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2003758828

Country of ref document: EP