DE60034814T2

DE60034814T2 - Bildwiederauffindungsystem und -verfahren

Info

Publication number: DE60034814T2
Application number: DE60034814T
Authority: DE
Inventors: Shunichi Mitsubishi Denki K.K. SEKIGUCHI; Yoshimi Mitsubishi Denki K.K. ISU; Hirofumi Mitsubishi Denki K.K. NISHIKAWA; Yoshihisa Mitsubishi Denki K.K. Yamada; Kohtaro Mitsubishi Denki K.K. Asai
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-12-02
Filing date: 2000-12-01
Publication date: 2008-01-31
Anticipated expiration: 2020-12-02
Also published as: AU1557601A; US20010004739A1; KR100492437B1; HK1053889A1; JP2001167095A; CN1402853A; KR20020060981A; EP1244025B1; USRE42185E1; EP1560130A3; DE60034814D1; CN1191539C; WO2001040995A1; EP1560130A2; TW571233B; JP3738631B2; EP1244025A1; US6665442B2; EP1244025A4

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf ein Bildwiedergewinnungssystem und ein Bildwiedergewinnungsverfahren, in welchem Charakteristikwerte und/oder Stücke von Attributinformation von Stücken von Bilddaten, wie beispielsweise analog oder digital aufgenommenen Bewegtbildern oder statischen Bildern herausgezogen werden und in welchem die Wiedergewinnung von gewünschten Bilddaten durchgeführt wird, indem die herausgezogenen Charakteristikwerte und/oder die Stücke von herausgezogener Attributinformation verwendet werden.
STAND DER TECHNIK
1 zeigt die Konfiguration eines Systems als ein Beispiel eines konventionellen Bildwiedergewinnungsverarbeitungssystems. Dieses System wird in einem Schreiben „Synthesis and Evaluation of the Image Da tabase with Fully Automated Keyword Extraction by State Transition Model and Scene Description Language", welches durch das Institute of Electronic Information and Communication Engineers of Japan editiert wurde, D-II Vol. J27-D-II No. 4, pp. 476-483, April 1996, offenbart. In diesem System werden statische Bilder in der Bildwiedergewinnung verarbeitet. Das heißt, dass ein Bereich von jedem der Bilder in einer Bereichsteilungseinheit 103 einer Aufbereitungseinheit 101 in eine Vielzahl von Segmenten unterteilt wird und dass eine Vielzahl von Schlüsselwörtern an jedes geteilte Segment angehängt wird. Als Schlüsselwörter werden ein Konzeptionsschlüsselwort und ein Szenenbeschreibungsschlüsselwort aufbereitet. In einer Konzeptionsschlüsselwort-Herauszieheinheit 104 wird ein Konzeptionsschlüsselwort 108 von jedem Segment gemäß einer Farbe und einem Charakteristikwert des Segments erhalten, indem Konzeptionsschlüsselwörter, welche jeweils vorab Farbinformationen zugewiesen wurden, verwendet werden. In einer Szenenbeschreibungsschlüsselwort-Beschreibungseinheit 105 wird eine Eigenschaft, welche sich auf eine „Position", eine „Farbe", eine „Form", eine „Größe", eine „Richtung" oder ähnliches bezieht, aus einer Vielzahl von Bildcharakteristikwerten von Segmenten erhalten. In der Einheit 105 wird ein Vorgang 106 benötigt, bei welchem ein Benutzer 107 eine Eigenschaft von Eigenschaften, welche vorab definiert wurden, auswählt und die ausgewählte Eigenschaft beschreibt, und die ausgewählte Eigenschaft wird als ein Szenenbeschreibungs-Schlüsselwort 109 ausgegeben. In einem Wiedergewinnungswerkzeug 102 werden Konzeptionsschlüsselwörter und Szenenbeschreibungsschlüsselwörter vorab aufbereitet. Ein Benutzer 111 wählt ein Konzeptionsschlüsselwort und ein Szenenbeschreibungsschlüsselwort als jedes von Schlüsselworten 112 von den aufbe reiteten Schlüsselworten aus. In einer Charakteristika-Identifizierungseinheit 110 wird eine Identität von Charakteristikwerten überprüft, indem jedes Schlüsselwort, welches von dem Benutzer 111 ausgewählt wurde, mit dem Konzeptionsschlüsselwort 108 oder dem Szenenbeschreibungsschlüsselwort 109, welche jedem Segment des Bildes hinzugefügt wurden, verglichen wird, und eine Bildwiedergewinnungsverarbeitung wird für das Bild durchgeführt.
Jedoch wird in dem oben beschriebenen Bildwiedergewinnungsverarbeitungssystem eine Identität von Charakteristikwerten überprüft, indem Schlüsselworte, wie beispielsweise Konzeptionsschlüsselworte und Szenenbeschreibungsschlüsselworte, welche von dem Benutzer 112 ausgewählt wurden, und Schlüsselworte, welche zu jedem Bild hinzugefügt wurden, verwendet werden, und eine Bildwiedergewinnungsverarbeitung wird gemäß den Charakteristikwerten von jedem Bild durchgeführt. Demgemäß werden alle Bilder lediglich gemäß der Charakteristikwerte der Bilder durchsucht, so dass es ein großer Zeitaufwand ist, ein gewünschtes Bild wiederzugewinnen.
Darüberhinaus wird in dem oben beschriebenen Bildwiedergewinnungsverarbeitungssystem ein Beschreibungsverfahren oder ein Speicherverfahren jedes Schlüsselwortes nicht berücksichtigt. Demgemäß ist es notwendig, dass eine Vielzahl von Bildservern sich auf eine Vielzahl von Wiedergewinnungswerkzeugen, welche Clients kennzeichnen, in einer 1:1-Übereinstimmung bezieht. Als ein Ergebnis kann ein System, in welchem viele Benutzer jeweils die Bildwiedergewinnung durch ein Netzwerk durchführen, während sie verschiedenartige Wiedergewinnungswerkzeuge verwenden, nicht für die Benutzer zur Verfügung gestellt werden.
Darüberhinaus ist es, weil lediglich statische Bilder in der Bildwiedergewinnung verarbeitet werden, schwierig, ein gewünschtes Bewegtbild wiederzugewinnen.
Die vorliegende Erfindung wird zur Verfügung gestellt, um die oben genannten Probleme zu lösen und es ist ein erstes Ziel der vorliegenden Erfindung, ein Bildwiedergewinnungssystem und ein Bildwiedergewinnungsverfahren, in welchem eine Bildwiedergewinnung effizient durchgeführt werden kann, zur Verfügung zu stellen.
Ein zweites Ziel der vorliegenden Erfindung ist es, ein Bildwiedergewinnungssystem und ein Bildwiedergewinnungsverfahren, welche nicht von einer Vielzahl von Bildservern, welche über ein Netzwerk verteilt sind, abhängen, zur Verfügung zu stellen, indem eine Vielzahl von Wiedergewinnungsschlüsselworten gemäß einer gemeinsamen Syntax beschrieben und erzeugt wird.
Ein drittes Ziel der vorliegenden Erfindung ist es, ein Bildwiedergewinnungssystem und ein Bildwiedergewinnungsverfahren zur Verfügung zu stellen, in welchem die Wiedergewinnung eines gewünschten Bewegtbildes einfach durchgeführt werden kann, indem ein Charakteristikwert für jedes Videosegment, welches aus einer Vielzahl von Vollbildern zusammengesetzt ist, herausgezogen wird, anstelle des Herausziehens eines Charakteristikwertes für jedes Vollbild, wenn eine Vielzahl von Schlüsselwörtern von Bewegtbildern herausgezogen werden.
OFFENBARUNG DER ERFINDUNG
Ein Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung umfasst eine Erzeugungseinheit für charakteristische Deskriptoren zum Herausziehen mehrerer Bildcharakteristikwerte aus Stücken von Eingangsbilddaten und zum Erzeugen eines charakteristischen Deskriptors für jedes Stück von Eingangsbilddaten, eine Bildinformations-Speichereinheit zum Speichern der charakteristischen Deskriptoren, die in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt wurden, während die Entsprechung jedes charakteristischen Deskriptors zu einem Stück von Eingangsbilddaten gehalten wird, eine Attributlisten-Erzeugungseinheit zum Erzeugen einer Attributliste gemäß einem Stück von Attributinformation, das an jedes Stück von Eingangsbilddaten angefügt ist, und eine Bildwiedergewinnungseinheit zum Empfangen einer ersten Wiedergewinnungsbedingung, die sich auf Attributinformationen bezieht, zum Suchen in der in der Attributlisten-Erzeugungseinheit erzeugten Attributliste nach einem Stück von Attributinformation, das mit der ersten Wiedergewinnungsbedingung übereinstimmt, zum Ausgeben des Stücks von Attributinformation, das mit der ersten Wiedergewinnungsbedingung übereinstimmt, zum Empfangen einer zweiten Wiedergewinnungsbedingung, die sich auf einen charakteristischen Deskriptor bezieht, zum Suchen in der Bildinformations-Speichereinheit nach einem Stück von Bilddaten, das mit der zweiten Wiedergewinnungsbedingung übereinstimmt und zum Ausgeben des Stückes von Bilddaten, das mit der zweiten Wiedergewinnungsbedingung übereinstimmt.
Demgemäß kann die Wiedergewinnung effizient durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung wird die Attributliste gemäß eines Syntax, welcher eine Datenstruktur der Attributliste definiert, in der Attributlisten-Erzeugungseinheit erzeugt, und das Stück von Attributinformation, welches mit der ersten Wiedergewinnungsbedingung übereinstimmt, wird gemäß des Syntax der Attributliste in der Bildwiedergewinnungseinheit wiedergewonnen.
Demgemäß kann die Wiedergewinnung effizient in einer kurzen Zeit durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung werden die charakteristischen Deskriptoren gemäß eines Syntax, welcher eine Datenstruktur von jedem charakteristischen Deskriptor definiert, in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt, und das Stück von Bilddaten, welches mit der zweiten Wiedergewinnungsbedingung übereinstimmt, wird in der Bildwiedergewinnungseinheit gemäß des Syntax der charakteristischen Deskriptoren wiedergewonnen.
Demgemäß kann die Bildwiedergewinnung unabhängig von einer Vielzahl von Bildservern, welche in dem Netzwerk verteilt sind, durchgeführt werden.
In dem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung wird für jedes Vollbild ein Bildcharakteristikwert in der Erzeugungseinheit für charakteristische Deskriptoren herausgezogen, und ein charakteristischer Deskriptor wird für jedes Videosegment, welches aus einer Gruppe von Vollbildern ausgebildet ist, in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt.
Demgemäß kann die Wiedergewinnung eines Bewegtbildes leicht durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung bezeichnet jedes Stück von in der Erzeugungseinheit für charakteristische Deskriptoren empfangenen Eingangsbilddaten komprimierte Videodaten, welche ein oder mehrere Intra-Vollbilder und ein oder mehrere Inter-Vollbilder zusammensetzen, sowohl ein Durchschnittswert, als auch eine Standardabweichung werden als ein charakteristischer Deskriptor des Intra-Vollbildes des Videosegments in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt, indem eine Durchschnittswertmatrix von Pixelwerten in einem vorgeschriebenen Codierbereich eines Intra-Vollbilds für jedes Intra-Vollbild des Videosegments herausgezogen wird, indem eine Summe der Durchschnittsmatrizen von allen Intra-Vollbildern, welche in dem Videosegment beinhaltet sind, berechnet wird und indem sowohl der Durchschnittswert der Durchschnittsmatrizen als auch die Standardabweichung der Durchschnittsmatrizen von der Summe und der Anzahl von Intra-Vollbildern in dem Videosegment berechnet wird, und ein charakteristischer Deskriptor der Inter-Vollbilder des Videosegments wird in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt, indem eine Matrix von Bewegungsvektoren von Pixeln der vorgeschriebenen Codierbereiche von einem Inter-Vollbild für jedes Inter-Vollbild des Videosegments herausgezogen wird, indem ein Durchschnitt der Bewegungsvektoren von jedem Inter-Vollbild des Videosegments als ein Bewegungsvektordurchschnitt berechnet wird, indem Null-Run-Längen, welche gemäß einer Schwellwertverarbeitung für die Bewegungsvektoren eines Inter-Vollbilds erhalten werden, in eine Vielzahl von klassifizierten Typen von Null-Run-Längen für jedes Inter-Vollbild des Videosegments klassifiziert werden, indem ein Durchschnitt der Bewegungsvektordurchschnitte und eine Vielzahl von klassifizierten Typen von Durchschnitts-Null-Run-Längen in dem Videosegment gemäß der Anzahl von Inter-Vollbildern in dem Videosegment berechnet werden und indem der Durchschnitt der Bewegungsvektordurchschnitte und die klassifizierten Typen von Durchschnitts-Null-Run-Längen als der charakteristische Deskriptor der Inter-Vollbilder des Videosegments gesetzt werden.
Demgemäß kann die Wiedergewinnung eines Bewegtbildes leicht durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung bezeichnet jedes Stück von Eingabebilddaten, welches in der Erzeugungseinheit für charakteristische Deskriptoren empfangen wurde, unkomprimierte Videodaten, die Charakteristikwerte werden von den Stücken von unkomprimierten Videodaten in der Erzeugungseinheit für charakteristische Deskriptoren herausgezogen, um die charakteristischen Deskriptoren zu erzeugen und die charakteristischen Deskriptoren und Stücke von komprimierten Videodaten, welche erhalten werden, indem die Stücke von nicht-komprimierten Videodaten gemäß einer vorbeschriebenen Videokompressionsmethode komprimiert werden, werden in der Bildinformations-Speichereinheit gespeichert, während die Entsprechung von jedem charakteristischen Deskriptor zu einem Stück von komprimierten Videodaten gehalten wird.
Demgemäß kann die Wiedergewinnung effizient durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung wird eine vorbeschriebene Bedingungsgleichung, welche vorab gespeichert wurde, durch die Bildwiedergewinnungseinheit ausgelesen in Fällen, in denen die Bildwiedergewinnungseinheit die Bildinformations-Speichereinheit nach dem Stück von Bilddaten, welches mit dem charakteristischen Deskriptor, welcher durch die zweite Wiedergewinnungsbedingung spezifiziert wurde, übereinstimmt, absucht, um das Stück von Bilddaten auszugeben, und gemäß der vorbeschriebenen Bedingungsgleichung wird beurteilt, ob das Stück von Bilddaten mit dem charakteristischen Deskriptor, welcher durch die zweite Wiedergewinnungsbedingung spezifiziert wurde, übereinstimmt oder nicht.
Demgemäß kann die Wiedergewinnung effizient durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung bezeichnet jedes Stück von Eingabebilddaten ein überwachtes Bild, welches durch eine Überwachungskamera aufgezeichnet wurde.
Demgemäß kann ein Unbefugter festgestellt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung bezeichnet jedes Stück von Eingangsbilddaten ein Bild einer abgespeicherten Videomail.
Demgemäß kann ein Benutzer eine gewünschte Mail wiedergewinnen.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung bezeichnet jedes Stück von Eingangsbilddaten ein Bild eines abgespeicherten Rundfunkpro gramms.
Demgemäß kann, selbst wenn ein Benutzer sich nicht genau an Programminformation erinnert, der Nutzer gemäß eines Bildeindrucks ein gewünschtes Programm wiedergewinnen.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung bezeichnet jedes Stück von Eingangsbilddaten ein Videobild, welches durch eine Videokamera aufgezeichnet wurde.
Demgemäß kann die Bildwiedergewinnung effizient durchgeführt werden, indem die in den Bildern als ein Schlüssel gehaltene Ähnlichkeit benutzt wird.
Ein Bildwiedergewinnungsverfahren gemäß der vorliegenden Erfindung umfasst die Schritte des Herausziehens einer Vielzahl von Bildcharakteristikwerten von Stücken von Eingangsbilddaten, um einen charakteristischen Deskriptor für jedes Stück von Eingangsbilddaten zu erzeugen, des Speicherns der erzeugten charakteristischen Deskriptoren, während die Übereinstimmung von jedem charakteristischen Deskriptor mit einem Stück der Eingangsbilddaten gehalten wird, des Erzeugens einer Attributliste gemäß einem Stück von Attributinformation, welches an jedes Stück von Eingangsbilddaten angehängt ist, des Empfangens einer ersten Wiedergewinnungsbedingung, welche sich auf Attributinformationen bezieht, des Absuchens der Attributliste nach einem Stück von Attributinformation, welches mit der ersten Wiedergewinnungsbedingung übereinstimmt, des Ausgebens des Stücks von Attributinformation, welches mit der ersten Wiedergewinnungsbedingung übereinstimmt, des Empfangens einer zweiten Wiedergewinnungsbedingung, welche sich auf einen cha rakteristischen Deskriptor bezieht, des Absuchens der Stücke gespeicherter Bilddaten nach einem Stück von Bilddaten, welches mit der zweiten Wiedergewinnungsbedingung übereinstimmt, unter Bezugnahme auf das Stück von Attributinformation, welches mit der ersten Wiedergewinnungsbedingung übereinstimmt, und des Ausgebens des Stücks von Bilddaten, welches mit der zweiten Wiedergewinnungsbedingung übereinstimmt.
Demgemäß kann die Bildwiedergewinnung effizient durchgeführt werden.
Ein Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung umfasst eine Erzeugungseinheit für charakteristische Deskriptoren zum Herausziehen einer Vielzahl von Bildcharakteristikwerten aus Stücken von Eingangsbilddaten und zum Erzeugen eines charakteristischen Deskriptors für jedes Stück von Eingangsbilddaten, eine Erzeugungseinheit für Beschreibungsdaten zur Wiedergewinnung zum Beschreiben jedes charakteristischen Deskriptors als ein Stück von Beschreibungsdaten zur Wiedergewinnung, während die Übereinstimmung des Stücks von Beschreibungsdaten zur Wiedergewinnung mit einer Raum-Zeit-Struktur der Stücke von Eingangsbilddaten gehalten wird, eine Bildinformations-Speichereinheit zum Speichern jedes Stücks von Beschreibungsdaten zur Wiedergewinnung mit dem Stück von Eingangsbilddaten, welches mit dem Stück von Beschreibungsdaten zur Wiedergewinnung übereinstimmt, eine erste Wiedergewinnungs-Verarbeitungseinheit, eine zweite Wiedergewinnungs-Verarbeitungseinheit und eine Benutzerinterface-Einheit. Eine Wiedergewinnungsanforderung, welche von einem Benutzer durch die Benutzerinteface-Einheit empfangen wurde, wird von der zweiten Wiedergewinnungs-Verarbeitungseinheit an die erste Wiedergewinnungs- Verarbeitungseinheit als Wiedergewinnungsanforderungsinformation gesendet, ein Wiedergewinnungsergebnis, welches von der ersten Wiedergewinnungsverarbeitungseinheit ausgesendet wurde, wird in der zweiten Wiedergewinnungsverarbeitungseinheit empfangen, die zweite Wiedergewinnungsverarbeitungseinheit präsentiert dem Benutzer das Wiedergewinnungsergebnis durch die Benutzerinterface-Einheit, die Stücke von Beschreibungsdaten zur Wiedergewinnung der Stücke von Eingangsbilddaten, welche in der Bildinformations-Speichereinheit gespeichert sind, werden in der ersten Wiedergewinnungs-Verarbeitungseinheit gemäß der Wiedergewinnungsanforderungs-Information, welche von der zweiten Wiedergewinnungs-Verarbeitungseinheit ausgesendet wurde, analysiert, um die charakteristischen Deskriptoren herauszuziehen, eine Konformitätsbeurteilungsverarbeitung wird in der ersten Wiedergewinnungs-Verarbeitungseinheit gemäß der herausgezogenen charakteristischen Deskriptoren durchgeführt, um das Wiedergewinnungsergebnis zu erhalten und das Wiedergewinnungsergebnis wird von der ersten Wiedergewinnungsverarbeitungseinheit an die zweite Wiedergewinnungsverarbeitungseinheit gesendet, um die zweite Wiedergewinnungsverarbeitungseinheit zu veranlassen, das Wiedergewinnungsergebnis dem Benutzer durch die Benutzerinterface-Einheit darzustellen.
Demgemäß kann die auf den Eigenschaftsdeskriptoren basierende Bilddatenwiedergewinnung effizient durchgeführt werden.
Das Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung umfasst desweiteren eine Zuverlässigkeits-Rechnungseinheit für charakteristische Deskriptoren, zum Berechnen eines Grades an Zuverlässigkeit für jeden charakteristischen Deskriptor, welcher in der Er zeugungseinheit für charakteristische Deskriptoren erzeugt wurde. Die Erzeugungseinheit für Beschreibungsdaten zur Wiedergewinnung beschreibt jeden charakteristischen Deskriptor und den Grad an Zuverlässigkeit des charakteristischen Deskriptors als ein Stück von Beschreibungsdaten zur Wiedergewinnung während die Übereinstimmung des Stücks von Beschreibungsdaten zur Wiedergewinnung mit der Raum-Zeit-Struktur der Stücke von Eingangsbilddaten gehalten wird, die Stücke von Beschreibungsdaten zur Wiedergewinnung der Stücke von Eingangsbilddaten, welche in der Bildinformations-Speichereinheit gespeichert sind, werden in der ersten Wiedergewinnungs-Verarbeitungseinheit gemäß der Wiedergewinnungsanforderungsinformation, welche von der zweiten Wiedergewinnungs-Verarbeitungseinheit ausgesandt wurde, analysiert, um die charakteristischen Deskriptoren und die Grade an Zuverlässigkeit der charakteristischen Deskriptoren herauszuziehen, eine Konformitätsbeurteilungsverarbeitung wird in der ersten Wiedergewinnungs-Verarbeitungseinheit gemäß der herausgezogenen charakteristischen Deskriptoren und der Grade an Zuverlässigkeit der charakteristischen Deskriptoren durchgeführt, um das Wiedergewinnungsergebnis zu erhalten und das Wiedergewinnungsergebnis wird von der ersten Wiedergewinnungsverarbeitungseinheit an die zweite Wiedergewinnungsverarbeitungseinheit gesendet, um die zweite Wiedergewinnungsverarbeitungseinheit zu veranlassen, das Wiedergewinnungsergebnis dem Benutzer durch die Benutzerinterface-Einheit zu präsentieren.
Demgemäß kann die Wiedergewinnung effizient durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung wird die Notwendigkeit der Konformi tätsbeurteilungsverarbeitung für jeden charakteristischen Deskriptor in der ersten Wiedergewinnungsverarbeitungseinheit gemäß dem Grad an Zuverlässigkeit des charakteristischen Deskriptors im Fall der Konformitätsbeurteilungsverarbeitung abgeschätzt, und die Konformitätsbeurteilungsverarbeitung für den charakteristischen Deskriptor wird in Fällen, in denen beurteilt wird, dass die Konformitätsbeurteilungsverarbeitung für den charakteristischen Deskriptor nicht notwendig ist, ausgelassen.
Demgemäß kann die Wiedergewinnungsverarbeitung mit einer hohen Geschwindigkeit durchgeführt werden und die Effizienz der Wiedergewinnung kann nochmals verbessert werden.
Das Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung umfasst darüberhinaus eine Bestimmungseinheit für die Reihenfolge der Wiedergewinnung der charakteristischen Deskriptoren zum Bestimmen einer Verwendungsreihenfolge der charakteristischen Deskriptoren bei der Wiedergewinnung gemäß den Graden an Zuverlässigkeit, welche in der Zuverlässigkeitsberechnungseinheit für charakteristische Deskriptoren berechnet wurden. Die Erzeugungseinheit für Beschreibungsdaten zur Wiedergewinnung beschreibt jeden charakteristischen Deskriptor, den Grad an Zuverlässigkeit des charakteristischen Deskriptors und die Verwendungsreihenfolge bei der Wiedergewinnung als ein Stück von Beschreibungsdaten zur Wiedergewinnung, während die Übereinstimmung des Stückes von Beschreibungsdaten zur Wiedergewinnung mit der Raum-Zeit-Struktur der Stücke von Eingangsbilddaten gehalten wird, die Stücke von Beschreibungsdaten zur Wiedergewinnung der Stücke von Eingangsbilddaten, welche in der Bildinformations-Speichereinheit abgespeichert sind, werden in der ersten Wiedergewinnungsverarbeitungseinheit gemäß der Wiedergewinnungsanforderungsinformation, welche von der zweiten Wiedergewinnungsverarbeitungseinheit ausgesandt wurde, analysiert, um die charakteristischen Deskriptoren, die Grade an Zuverlässigkeit der charakteristischen Deskriptoren und die Verwendungsreihenfolge bei der Wiedergewinnung herauszuziehen, eine Konformitätsbeurteilungsverarbeitung wird in der ersten Wiedergewinnungsverarbeitungseinheit gemäß der herausgezogenen charakteristischen Deskriptoren, der Grade von Zuverlässigkeit und der Verwendungsreihenfolge in der Wiedergewinnung durchgeführt, um das Wiedergewinnungsergebnis zu erhalten, und das Wiedergewinnungsergebnis wird von der ersten Wiedergewinnungsverarbeitungseinheit an die zweite Wiedergewinnungsverarbeitungseinheit gesandt, um die zweite Wiedergewinnungsverarbeitungseinheit zu veranlassen, das Wiedergewinnungsergebnis dem Benutzer durch die Benutzerinterface-Einheit darzustellen.
Demgemäß kann die auf den charakteristischen Deskriptoren, den Graden an Zuverlässigkeit und der Verwendungsreihenfolge bei der Wiedergewinnung basierende Bilddatenwiedergewinnung effizient durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung wird die Wiedergewinnungsanforderungsinformation, in welcher eine Verwendungsreihenfolge der charakteristischen Deskriptoren bei der Wiedergewinnung, von der zweiten Wiedergewinnungsverarbeitungseinheit an die erste Wiedergewinnungsverarbeitungseinheit als die von dem Benutzer durch die Benutzerinterface-Einheit gesendete Wiedergewinnungsanforderung gesendet, und eine Wiedergewinnungsreihenfolge der charakteristischen Deskriptoren wird in der ersten Wiedergewinnungsverarbeitungseinheit gemäß der Verwendungsreihenfolge bei der Wiedergewinnung, welche in der Wiedergewinnungsanforderungsinformation, welche von der zweiten Wiedergewinnungsverarbeitungseinheit gesendet wurde, eingefügt ist, erneuert, um eine Wiedergewinnungsverarbeitung entsprechend der Wiedergewinnungsanforderung von dem Benutzer durchzuführen.
Demgemäß kann die Wiedergewinnungsverarbeitung entsprechend der Wiedergewinnungsanforderung des Benutzers durchgeführt werden.
In einem Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung wird die Anzahl von Kandidaten für charakteristische Deskriptoren in dem Wiedergewinnungsergebnis, welches in der Konformitätsbeurteilungsverarbeitung erhalten wurde, gemäß den Graden an Zuverlässigkeit der charakteristischen Deskriptoren in der ersten Wiedergewinnungsverarbeitungseinheit für jeden einer Vielzahl von Wiedergewinnungsschritte, von denen eine Anwendungsreihenfolge gemäß der Verwendungsreihenfolge bei der Wiedergewinnung bestimmt wird, bestimmt, und die Konformitätsbeurteilungsverarbeitung wird durchgeführt.
Demgemäß kann die Wiedergewinnungsverarbeitung mit hoher Geschwindigkeit durchgeführt werden.
Das Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung umfasst darüberhinaus einen Videodaten-Wiedergabeserver und eine Videodatendecodier- und Videodatenwiedergabeeinheit. Jedes Stück von Eingangsbilddaten bezeichnet ein Stück von Videodaten, ein Stück von Schlüsselbilddaten, welche jedes Stück von Videodaten, welche in der Wiedergewinnung spezifi ziert wurden, repräsentieren, wird von der ersten Wiedergewinnungsverarbeitungseinheit an die zweite Wiedergewinnungsverarbeitungseinheit als das Wiedergewinnungsergebnis gesendet, jedes Stück von Schlüsselbilddaten wird in der zweiten Wiedergewinnungsverarbeitungseinheit als das Wiedergewinnungsergebnis, welches von der ersten Wiedergewinnungsverarbeitungseinheit ausgesandt wurde, empfangen, um das Wiedergewinnungsergebnis dem Benutzer durch die Benutzerinterface-Einheit zu präsentieren, eine Wiedergabeanforderung, welche ein spezifisches Schlüsselbild, welches durch den Benutzer aus einer Vielzahl von Schlüsselbildern, welche durch die Stücke von Schlüsselbilddaten angezeigt werden, ausgewählt wird, anzeigt, wird von der Benutzerinterface-Einheit ausgesandt und wird in dem Videodaten-Wiedergabeserver empfangen, ein Stück von spezifischen Videodaten, welches durch das spezifische Schlüsselbild repräsentiert wird, wird von der Bildinformations-Speichereinheit ausgelesen und an die Videodatendecodier- und Videodatenreproduktionseinheit gesendet, und das Stück von spezifischen Videodaten, welches von dem Videodaten-Wiedergabeserver ausgesendet wurde, wird in der Videodatendecodier- und Videodatenreproduktionseinheit empfangen, wird decodiert und wird empfangen.
Demgemäß kann ein Gesamtumfang an übertragener Information effizient reduziert werden.
Ein Bildwiedergewinnungsverfahren gemäß der vorliegenden Erfindung umfasst die Schritte des Herausziehens einer Vielzahl von Bildcharakteristikwerten aus Stücken von Eingangsbilddaten, um einen charakteristischen Deskriptor für jedes Stück von Eingangsbilddaten zu erzeugen, des Beschreibens jedes charakte ristischen Deskriptors als ein Stück von Beschreibungsdaten zur Wiedergewinnung, während die Übereinstimmung des Stücks von Beschreibungsdaten zur Wiedergewinnung mit einer Raum-Zeit-Struktur der Stücke von Eingangsbilddaten gehalten wird, des Speicherns jedes Stücks von Beschreibungsdaten zur Wiedergewinnung mit dem Stück von Eingangsbilddaten, welches dem Stück von Beschreibungsdaten zur Wiedergewinnung entspricht, des Analysierens der Stücke von gespeicherten Beschreibungsdaten zur Wiedergewinnung von den Stücken von Eingangsbilddaten gemäß einer Wiedergewinnungsanforderung, welche von einem Benutzer ausgesandt wurde, um die charakteristischen Deskriptoren herauszuziehen, des Durchführens einer Konformitätsbeurteilungsverarbeitung gemäß den herausgezogenen charakteristischen Deskriptoren, um ein Wiedergewinnungsergebnis zu erhalten, und des Präsentierens des Wiedergewinnungsergebnisses an den Benutzer.
Demgemäß kann die Bilddatenwiedergewinnung basierend auf den charakteristischen Deskriptoren, den Graden an Zuverlässigkeit und der Verwendungsreihenfolge bei der Wiedergewinnung effizient durchgeführt werden.
Das Bildwiedergewinnungsverfahren gemäß der vorliegenden Erfindung umfasst darüberhinaus die Schritte des Vorbereitens von Stücken von Videodaten als die Stücke von Eingangsbilddaten, des Präsentierens eines Stücks von Schlüsselbilddaten, welches jedes Stück der Videodaten, welche in der Wiedergewinnung spezifiziert werden, repräsentiert an den Benutzer als das Wiedergewinnungsergebnis, des Empfangens einer Wiedergabeanforderung, welche ein spezifisches Schlüsselbild, welches durch den Benutzer aus einer Vielzahl von Schlüsselbildern, welche durch die Stücke von Schlüsselbilddaten angezeigt werden, ausgewählt wird, anzeigt, des Auslesens eines Stücks spezifischer Videodaten, welche durch das spezifische Schlüsselbild repräsentiert werden, und des Dekodierens und des Reproduzierens des Stücks von spezifischen Videodaten.
Demgemäß kann ein Gesamtumfang an übertragener Information effizient reduziert werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein Diagramm, welches ein Beispiel eines konventionellen Bildwiedergewinnungsverarbeitungssystems zeigt.
2 ist ein Blockdiagramm, welches die Konfiguration eines Bildwiedergewinnungssystems gemäß einer ersten Ausführungsform der vorliegenden Erfindung erläutert.
3 ist ein Flussdiagramm, welches die Verarbeitung einer Erzeugungseinheit für eine Bilddatenbank zeigt.
4 ist ein Diagramm, welches ein Beispiel der Verarbeitung zur Erzeugung einer Instanz (ein XLM-Dokument) von Textinformation von der Textinformation von Bildattributen zeigt.
5 ist ein Diagramm, welches eine intra/inter-adaptive Codierung zeigt.
6 ist ein Flussdiagramm, welches ein Erzeugungsverfahren für eine Gesamtmenge von charakteristischen Deskriptoren zeigt, welches sowohl eine Verarbeitung zum Herausziehen eines Charakteristikwertes, als auch eine Verarbeitung zum Erzeugen eines charakteristischen Deskriptors umfasst.
7 ist ein Flussdiagramm, welches konkret ein Erzeugungsverfahren einer Erzeugungsverarbeitung für eine Menge von charakteristischen Deskriptoren zeigt.
8 zeigt ein Diagramm, welches ein Beispiel von Werten, welche eine Bewegungsverteilung charakterisieren, zeigt.
9 ist ein Diagramm, welches die Bedeutung einer Deskriptorenmenge eines Intra-Vollbildes zeigt.
10 ist ein Diagramm, welches ein Beispiel der Verarbeitung zum Erzeugen einer Menge von charakteristischen Deskriptoren von einem herausgezogenen Charakteristikwert zeigt.
11 ist ein Diagramm, welches ein Beispiel zeigt, in welchem die Menge von charakteristischen Deskriptoren hierarchisch erzeugt und beschrieben wird.
12 ist ein Flussdiagramm, welches die Verarbeitung einer Bildwiedergewinnungseinheit zeigt.
13 ist ein Flussdiagramm, welches eine Konformitätsbeurteilungsverarbeitung zeigt.
14 ist ein Diagramm, welches ein anderes Konfigurationsbeispiel einer Erzeugungseinheit für eine Bilddatenbank zeigt.
15 ist ein Blockdiagramm, welches die Konfiguration eines charakteristischen Teils, welcher auf einer Serverseite eines Bildwiedergewinnungssystems gemäß einem zweiten Ausführungsbeispiel angeordnet ist, zeigt.
16 ist ein Blockdiagramm, welches die Konfiguration eines charakteristischen Teils, welcher auf einer Client-Seite des Bildwiedergewinnungssystems gemäß dem zweiten Ausführungsbeispiel angeordnet ist, zeigt.
17 ist ein Flussdiagramm, welches eine Vielzahl von Wiedergewinnungsverarbeitungsschritten in dem Bildwiedergewinnungssystem der zweiten Ausführungsform zeigt.
18 ist ein Diagramm, welches eine Struktur eines Files für Beschreibungsdaten zur Wiedergewinnung, welches durch das Bildwiedergewinnungssystem der zweiten Ausgestaltungsform verwendet wird, zeigt.
19 ist ein Diagramm, welches ein Beispiel einer Konformitätsbeurteilungsverarbeitung zur Beurteilung der Konformität eines charakteristischen Deskriptors gemäß einer Suchpriorität in einer Konformitätsbeurteilungsverarbeitungseinheit zeigt.
20 ist ein Diagramm, welches die Beziehung zwischen der subjektiven Charakteristik eines Benutzers und einem charakteristischen Deskriptor zeigt.
BESTE ART UND WEISE, UM DIE ERFINDUNG AUSZUFÜHREN
Nachstehend wird die beste Art und Weise, um die vorliegende Erfindung auszuführen, unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, um die vorliegende Erfindung detaillierter zu erläutern.
AUSFÜHRUNGSFORM 1
In einer ersten Ausführungsform wird ein Bildwiedergewinnungssystem beschrieben. In diesem Bildwiedergewinnungssystem kann ein Benutzer gewünschte Bilddaten (oder ein gewünschtes Bild) von Stücken von Bilddaten (oder Bildern), welche in einer Datenbank oder einer Mehrzahl von in einem Netzwerk verteilten Datenbanken gespeichert sind, wiedergewinnen. Der Benutzer kann auch die gewünschten Bilddaten verwenden.
Die Stücke von Bilddaten bezeichnen komprimierte statische Bilder (beispielsweise JPEG-Bilder), komprimierte Bewegtbilder (beispielsweise MPEG-Bilder) oder unkomprimierte Bilder gemäß einem Bildverwendungsverfahren. Auch ist ein Bildformat nicht beschränkt. In dieser ersten Ausgestaltungsform wird, als ein Beispiel der vorliegenden Erfindung, angenommen, dass Bildinformation gemäß des World Wide Webs (WWW) des Internets übertragen oder gesammelt wird. Jedoch ist die vorliegende Erfindung nicht auf das WWW beschränkt, und das Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung kann für einen Service basierend auf einer drahtgebundenen Kommunikation oder einer Funkkommunikation oder für einen Service basierend auf einem Rundfunknetzwerk angewendet werden.
2 ist ein Blockdiagramm, welches die Konfiguration eines Bildwiedergewinnungssystems gemäß der ersten Ausführungsform erläutert. Nachstehend bezeichnet ein Begriff „Klasse" eine Definition von Daten und ein Begriff „Instanz" bezeichnet Daten, welche konkret über einen Wert gemäß einer Klassendefinition ausgedrückt werden. Beispielsweise bezeichnet der Begriff „Instanz" ein File oder eine Variable.
In 2 bezeichnet 1 eine Bilddatenbank-Erzeugungseinheit. 2 bezeichnet Bilddaten und Attributinformation, welche durch Textinformation angegeben werden. Die Attributinformation gibt Attribute an, welche sich auf die Bilddaten beziehen. 3 gibt eine Herauszieheinheit für charakteristische Werte an zum Herausziehen einer vorbeschriebenen Menge von Charakteristikwerten (als Menge von Charakteristikwerten bezeichnet) aus jedem Stück von Bilddaten 2. 4 gibt eine Erzeugungseinheit für charakteristische Deskriptorenmengen an zum Erzeugen einer Menge von charakteristischen Deskriptoren (als eine charakteristische Deskriptorenmenge bezeichnet), welche eine Menge von Instanzen bezeichnet (als Instanzenmenge bezeichnet), aus der Menge von Charakteristikwerten, welche in der Herauszieheinheit für charakteristische Werte 3 gemäß einer Definition einer Beschreibungsdatenklasse für Charakteristikwerte, welche in einer anderen Bilddatenbank-Erzeugungseinheit 1 oder einem anderen Server üblich ist, herausgezogen wurde. 5 bezeichnet eine Bildinformations-Speichereinheit zum paarweisen Speichern jedes Stücks von Bilddaten und der Menge von charakteristischen Deskriptoren entsprechend des Stücks von Bilddaten.
Auch bezeichnet in 2 6 eine Attributlisten-Erzeugungseinheit zum Erzeugen einer Liste von Attributen (als Attributliste bezeichnet), welche eine Instanzenmenge bezeichnet, aus den Stücken von Attributinformation 2 gemäß einer Definition einer Textinformations-Beschreibungsdatenklasse, welche für eine andere Bilddatenbank-Erzeugungseinheit 1 oder einen anderen Server üblich sind. 7 bezeichnet eine Attributlisten-Speichereinheit zum Speichern der Attributliste entsprechend den Stücken von Attributinformation 2. 8 bezeichnet eine Bildwiedergewinnungseinheit. 9 bezeichnet eine Benutzerinterface-Einheit zur Auswahl eines Bildes, welches zur Wiedergewinnung gewünscht wird, entsprechend einer Kategorie oder eines Schlüsselbildes von wieder zu gewinnenden Bilddaten. 10 bezeichnet eine Wiedergewinnungs-Verarbeitungseinheit zum Durchführen einer Wiedergewinnungsverarbeitung gemäß in der Benutzerinterface-Einheit 9 angezeigten Wiedergewinnungsbedingungen. 11 bezeichnet eine Darstellungseinheit zum Darstellen eines wiedergewonnenen Schlüsselbildes und eines wiedergewonnenen Bildes. Hier in der ersten Ausführungsform werden die Attributliste und die charakteristische Deskriptorenmenge allgemein als Metadaten definiert.
In 2 umfasst ein Server auch die Bilddatenbank-Erzeugungseinheit 1, welche durch die Herauszieheinheit für charakteristische Werte 3, die Erzeugungseinheit für charakteristische Deskriptorenmengen 4, die Bildinformations-Speichereinheit 5, die Attributlisten-Erzeugungseinheit 6 und die Attributlisten-Speichereinheit 7 gebildet ist, und die Wiedergewinnungs-Verarbeitungseinheit 10 der Bildwiedergewin nungs-Einheit 8. Ein Client umfasst die Benutzerinterface-Einheit 9 und die Darstellungseinheit 11 der Bildwiedergewinnungseinheit 8. Ein Bildwiedergewinnungssystem gemäß der vorliegenden Erfindung umfasst den Server und den Client. Die vorliegende Erfindung ist jedoch nicht auf die obenstehend beschriebene Konfiguration beschränkt. Beispielsweise ist es möglich, dass die Darstellungseinheit 10 von dem Server an den Client abgegeben wird. Es ist auch möglich, dass der Server zusätzlich die Benutzerinterfaceeinheit 9 und die Darstellungseinheit 11 aufweist, um eine Funktion des Clients an den Server hinzuzugeben. Auch gibt es eine Vielzahl von Bilddatenbank-Erzeugungseinheiten 1 oder eine Vielzahl von Servern und es gibt eine Vielzahl von Bildwiedergewinnungseinheiten 8 oder eine Vielzahl von Clients. Die Vielzahl von Bilddatenbank-Erzeugungseinheiten 1 oder die Vielzahl von Servern sind mit der Vielzahl von Bildwiedergewinnungseinheiten 8 oder der Vielzahl von Clients durch ein Netzwerk wie das Internet verbunden. Wie oben beschrieben ist, werden die Menge von charakteristischen Deskriptoren und die Attributliste gemäß der Beschreibungsdatenklasse der Charakteristikwerte und der Beschreibungsdatenklasse der Textinformation, welche der Vielzahl von Bilddatenbank-Erzeugungseinheiten 1 oder der Vielzahl von Servern gemeinsam sind, erzeugt.
Als nächstes wird die Verarbeitung, welche in jeder Einheit durchgeführt wird, im Detail beschrieben.
(1) Verarbeitung der Bilddatenbank-Erzeugungseinheit 1
3 ist ein Flussdiagramm, welches die Verarbeitung der Bilddatenbank-Erzeugungseinheit 1 zeigt.
Hier wird der Fall berücksichtigt, bei dem Bilddaten neu in einer Bilddatenbank registriert werden. Die Registrierung in einer Bilddatenbank setzt sich hauptsächlich aus zwei Verarbeitungstypen zusammen. In einem Verarbeitungstyp wird eine Attributliste aus Textinformation, welche Bildattribute anzeigt, erzeugt und wird an Bilddaten angehängt, und die Attributliste wird in der Attributlisten-Speichereinheit 7 gespeichert. In dem anderen Typ der Verarbeitung werden Charakteristikwerte aus den Bilddaten herausgezogen, charakteristische Deskriptoren werden aus den Charakteristikwerten erzeugt und die Bilddaten und die charakteristischen Deskriptoren werden in der Bildinformations-Speichereinheit 5, welche eine Datenbank bezeichnet, abgespeichert. Nachfolgend wird jeder Typ der Verarbeitung im Detail beschrieben.
Als erstes wird die Verarbeitung (von einem Schritt ST1 bis zu einem Schritt ST3) von der Erzeugung einer Attributliste bis zu der Registrierung der Attributliste im Detail beschrieben. Anfangs wird Textinformation, welche an Bildinformation angehängt ist und mit Bildinformation eingegeben wird, und welche Bildattribute anzeigt, herausgezogen (Schritt ST1). Beispielsweise werden in Fällen, bei denen Bilddaten Bewegtbilddaten einer Videomail anzeigen, Stücke von Information eines Senders, eines Sendedatums und eines Titels der Videomail, welche mit den Bewegtbilddaten gesendet werden, als Textinformation, welche Bildattribute anzeigt, verwendet. Diese Stücke von Information bezeichnen einen Produzenten und ein Produktionsdatum der Bewegtbilddaten der Videomail, so dass diese Stücke von Information Textinformation, welche Attribute der Bewegtbilddaten anzeigt, bezeichnen. Auch werden in einem anderen Beispiel in Fällen, bei denen Bilddaten ein Videoprogramm einer Fernsehausstrahlung, welche von einer Rundfunkstation ausgestrahlt wird, bezeichnen, Stücke von Programminformation (die Besetzung, ein Produzent, ein Titel und ein Ausstrahlungsdatum), welche mit dem Videoprogramm übertragen werden, als Textinformation, welche Bildattribute anzeigt, angesehen. Auch in Fällen, bei denen ein Beispiel, in welchem Heimvideodaten oder ein digitales Bild in einem Heimserver gespeichert werden, angenommen wird, gibt ein Benutzer unmittelbar Information, welche sich auf ein Fotografierdatum oder ein Subjekt bezieht, als Textinformation ein, oder es wird berücksichtigt, dass ein Benutzer die Information in einem Textformat von einem Videogerät oder einer Kamera an einen Server überträgt. Die herausgezogene Textinformation wird in ein Format einer Attributliste als eine Instanz in der Attributlisten-Erzeugungseinheit 6 umgeändert (Schritt ST2). Beispielsweise ist ein Dokument, welches in einer erweiterbaren Markup-Sprache (XML) beschrieben ist, als ein Datentyp der Attributliste bekannt.
Ein Beispiel der Verarbeitung zum Erzeugen eines XML-Dokuments, welches eine Instanz von Textinformation von der Textinformation von Bildattributen bezeichnet, ist in 4 gezeigt.
In einem Beispiel von 4 wird Textinformation, welche an eine Videomail als Attributinformation angehängt ist, herausgezogen, und ein Dokument, welches in der XML beschrieben ist, wird aus der Textinformation erzeugt. Dieses XML-Dokument bezeichnet Einheitsdaten entsprechend einer konstituierenden Einheit einer Attributliste, und die Attributliste wird erhalten, indem eine Vielzahl von XML-Dokumenten, welche aus einer Vielzahl von Videomails vorbereitet wurden, in einem Stück von Listendaten vereinigt wird. Um das XML-Dokument zu beschreiben, wird ein Definitionsfile (was als eine Dokumenttypdefinition (DTD) bezeichnet wird), welches eine Dokumentenstruktur vorschreibt, benötigt. In der Dokumenttypdefinition DTD wird eine Beziehung zwischen Elementen, welche in der Dokumentenstruktur eingebunden sind, und einer Vorschrift einer Auftretensreihenfolge von Elementen definiert.
In der XML-Dokumentenerzeugungsverarbeitung, welche in 4 gezeigt ist, werden Elemente von „Kategorie" (engl. „Category"), „Autor" (engl. „Author"), „Datum" (engl. „Date"), „Zeit" (engl. „Time"), „Titel" (engl. „Title") und „Ortsfestleger" (engl. „Locator") in das Element von „Textinfo" eingebunden, und es wird angezeigt, dass jedes der Elemente ein Buchstabentypdatum ist. Die herausgezogene Textinformation wird in ein XML-Dokument gemäß dieser Dokumenttypdefinition DTD umgewandelt. Ein Wert von jedem Element in dem Beispiel des XML-Dokuments, welches in 4 gezeigt ist, wird von einem Abgrenzer <aaa>, welcher einen Start des Elements anzeigt, und von einem Abgrenzer </aaa>, welcher ein Ende des Elements anzeigt, umgeben. Hier bezeichnet „aaa" einen Elementnamen, welcher in der Dokumenttypdefinition DTD definiert ist. Das heißt, dass alle Attribute, welche sich auf eine Videomail beziehen, in einem einheitlichen Bereich, welcher von <TextInfo> und </TextInfo> umgeben ist, beschrieben werden. In Fällen, bei denen eine Attributliste, welche durch vereinigende Stücke von Attributdaten, welche sich auf alle Videomails, die wiederzugewinnen sind, beziehen, erhalten wird, abgespeichert wird, kann die Wiedergewinnung von jeder Videomail durchgeführt werden, indem Attributdaten, welche in dem einheitlichen Bereich, welcher von <TextInfo> und </TextInfo> umgeben ist, angeordnet sind, überprüft werden.
Hier ist die Attributliste nicht auf den oben beschriebenen Datentyp beschränkt, aber es ist maßgeblich, dass die Attributliste gemäß einer beliebigen Datenstruktur, welche vorab definiert wurde, beschrieben wird. Beispielsweise ist diese Ausführungsform nicht auf die Attributliste eingeschränkt, welche in einem Format des XML-Dokuments als ein Datentyp beschrieben ist, sondern es ist auch passend, dass die Attributliste beschrieben wird, indem ein Bitstromtyp von binären Daten verwendet wird. In diesem Fall sind auf dieselbe Art und Weise wie in dem XML-Dokument ein Syntax, welcher eine binäre Datenstruktur, d.h. die Vorschrift der Anordnung von Elementen und die Vorschrift der Anzahl von Bits, welche jedem Element zugewiesen werden, definiert, nötig.
Die wie oben stehend beschrieben erzeugte Attributliste wird in der Attributlisten-Speichereinheit 7 abgespeichert (Schritt ST3). Hier wird, bei Fällen, in denen eine Datenbank zum Speichern von Stücken von Bilddaten sich von derjenigen zum Speichern von Stücken von Textinformation, welche Stücke von Attributinformation der Stücke von Bilddaten bezeichnet, unterscheidet, die Attributliste, welche eine Vielzahl von Adressen der Stücke von Bilddaten, welche in der Datenbank abgespeichert sind, beinhaltet, in der Attributlistenspeichereinheit 7 abgespeichert. Beispielsweise wird, im Falle des WWW, eine Netzwerkadresse (welche als universaler Ressourcenortsfestleger (URL, von engl. Universal Resource Locator) bezeichnet wird), an welcher jedes Stück von Bilddaten beheimatet ist, spezifiziert. In dem Beispiel von 4 wird ein Element „Locator", welches eine URL von jedem Stück von Bilddaten spezifiziert, in das XML- Dokument, welches die Attributliste bezeichnet, eingebunden, und eine Adresse von jedem Stück von Bilddaten kann in der entsprechenden Attributinformation von der Videomail spezifiziert werden.
Als nächstes wird die Verarbeitung (von einem Schritt ST4 bis zu einem Schritt ST6) von dem Herausziehen von Charakteristikwerten eines Bildes bis zum Erzeugen und zum Registrieren von charakteristischen Deskriptoren im Detail beschrieben. Bei der Erzeugungsverarbeitung für charakteristische Deskriptoren der ersten Ausgestaltungsform haben eingegebene und gespeicherte Bilddaten ein Format eines Videobitstroms (oder eines Bewegtbild-Bitstroms), welcher komprimiert und codiert ist gemäß eines vorgeschriebenen Codierungstyps, wie beispielsweise MPEG oder H.261/H.263.
Anfangs werden Charakteristikwerte eines Bildes von dem Videobitstrom herausgezogen (Schritt ST4). In der ersten Ausgestaltungsform werden Bewegungsinformationen und Daten von Gleichstromanteilen der Helligkeit und von Farbdifferenzen in einem intra-codierten Vollbild als Charakteristikwerte aus dem komprimierten Videobitstrom herausgezogen. In dieser Ausgestaltungsform wird der komprimierte Videobitstrom, welcher gemäß einem der international standardisierten Codierungstypen, wie beispielsweise MPEG und H.261/H.263, erhalten wird, verwendet. Bei diesen Codiertypen wird eine Bewegungskompensationsvorhersage (hiernach als Inter-Codierung bezeichnet) oder eine adaptive Codierung innerhalb des Vollbilds (hiernach als Intra-Codierung bezeichnet) für ein Videovollbildsignal für jeden Makroblock durchgeführt. Jeder Makroblock ist aus 16*16 Pixeln ausgebildet und die Charakteristika jedes Makroblocks werden über Stücke von Pixeldaten, welche ein Helligkeitssignal von 16*16 Pixeln, einen Typ von Farbdifferenzsignalen von 8*8 Pixeln und einen anderen Typ von Farbdifferenzsignalen von 8*8 Pixeln bezeichnen, angezeigt. Insbesondere wird, in Fällen, bei denen die Intra-Codierung für alle Makroblöcke eines Vollbildes durchgeführt wird, das Vollbild als ein Intra-Vollbild bezeichnet. In diesem Fall können Stücke von komprimierten Bilddaten des Intra-Vollbilds ohne andere Daten ausgedehnt werden, und das Intra-Vollbild kann wiedergegeben werden. In dem Intra-Vollbild bezeichnet eine Vielzahl von Gleichstromanteilen der Signale der intracodierten Makroblocks eines Vollbilds Daten, welche grob das gesamte Bild des Vollbilds ausdrücken (siehe den tiefsten Teil auf der linken Seite in 5). Wie in 5 gezeigt ist, gibt es viele Fälle, bei denen das Intra-Vollbild normal und periodisch in ein Videosignal gemäß einer Anforderungsbedingung, wie beispielsweise einen Zufallszugriff, eingefügt wird.
Im Gegensatz dazu werden in einem inter-codierten Makroblock, in welchem ein vorhergesagtes Restsignal gemäß der Bewegungskompensationsvorhersage codiert wird, lediglich Daten, welche in der Bewegungsvorhersage nicht an einen vorhergesagten Wert angenähert werden können, codiert. Demgemäß bezeichnen die wesentlichsten Daten in der codierten Information Bewegungsvektoren, welche sich an Bildinformation eines Hauptanteils des Makroblocks annähern (siehe den tiefsten Teil auf der rechten Seite in 5). Demgemäß werden in der Herauszieheinheit für charakteristische Werte 3 Gleichstromanteile der Helligkeit und Farbdifferenzsignale von Makroblöcken von den Intra-Vollbildern und Bewegungsvektoren von inter-codierten Makroblöcken von Inter-Vollbildern als Cha rakteristikwerte von Bildern aus dem Videobitstrom herausgezogen.
In einer folgenden Erläuterung wird eine Gruppe von Vollbildern, welche sich über eine vorgeschriebene Zeitperiode erstrecken, als ein Videosegment bezeichnet. Beispielsweise ist das einfachste Videosegment definiert als eine Gruppe von Vollbildern, welche bei einem Intra-Vollbild startet und bei einem Vollbild endet, welches unmittelbar vor einem nächsten Intra-Vollbild angeordnet ist. Auch ein anderes Videosegment, welches eine längere Zeitperiode aufweist, wird als eine Gruppe von Vollbildern definiert, welche bei einem Intra-Vollbild startet und welche bei einem Vollbild, welches unmittelbar vor einem anderen Intra-Vollbild angeordnet ist, endet. Eine Zeitlänge jedes Videosegments kann gemäß der Bedeutung, welche durch Inhalte des Videosegments angegeben wird, beliebig gesetzt werden.
In der ersten Ausführungsform wird eine charakteristische Deskriptorenmenge, welche Charakteristika eines Videosegments beschreibt, in der Erzeugungseinheit für charakteristische Deskriptorenmengen 4 gemäß einer Menge von Charakteristikwerten, welche in der Herauszieheinheit für charakteristische Werte 3 herausgezogen wurde, erzeugt (Schritt ST5). Nachfolgend werden ein Verfahren zur Herausziehung einer Menge von Charakteristikwerten und ein Verfahren zum Erzeugen einer Menge von charakteristischen Deskriptoren im Detail beschrieben.
6 ist ein Flussdiagramm, welches ein gesamtes Verfahren zum Erzeugen einer Menge von charakteristischen Deskriptoren zeigt, in welchem sowohl die Verarbeitung der Charakteristikwert-Herausziehung des Schritts ST4 als auch die Verarbeitung der Erzeugung von charakteristischen Deskriptoren des Schritts ST5, wie in 3 gezeigt, eingebunden ist.
Hier ist es zutreffend, dass jeder Videobitstrom, welcher Bilddaten bezeichnet und in die Herauszieheinheit für charakteristische Werte 3 eingegeben wird, einem Videosegment entspricht. Auch ist es zutreffend, dass ein Videobitstrom, welcher durch ein Videoprogramm, welches sich über eine lange Zeitperiode erstreckt, repräsentiert wird und welcher in die Herauszieheinheit für charakteristische Werte 3 eingegeben wird, einer Mehrzahl von Videosegmenten entspricht. Im Falle des Videobitstroms, welcher sich über eine lange Zeitperiode erstreckt, wird eine Zeitlänge, welche jedem Videosegment entspricht, in der Herauszieheinheit für charakteristische Werte 3 gemäß einer von außen gesendeten Anordnung spezifiziert oder wird spezifiziert, indem eine vorgeschriebene Unterscheidungsverarbeitung in der Herauszieheinheit für charakteristische Werte 3 durchgeführt wird, und das Herausziehen einer Menge von Charakteristikwerten und das Herstellen einer Menge von charakteristischen Deskriptoren werden für jede spezifizierte Zeitlänge von jedem Videosegment durchgeführt. Nachstehend wird eine Arbeitsweise der Bilddatenbank-Erzeugungseinheit 1 beschrieben in dem Fall, bei dem ein Videobitstrom in die Bilddatenbank-Erzeugungseinheit 1 für jedes Videosegment eingegeben wird. Wie oben beschrieben ist, ist jedes Videosegment aus einer Menge von Vollbildern, welche von einem Intra-Vollbild starten, zusammengesetzt. Das Herausziehen der charakteristischen Werte wird für jedes Vollbild durchgeführt, und das Herausziehen der Charakteristikwerte von jedem Intra-Vollbild und das Herausziehen der Charakteristikwerte von jedem Inter- Vollbild werden durchgeführt. Im Falle des Intra-Vollbilds werden Gleichstromanteile der Helligkeit und Farbdifferenzsignale herausgezogen. Im Falle des Inter-Vollbilds werden Bewegungsvektoren herausgezogen.
Im Detail wird zu Beginn der Videobitstrom nach Headerinformation von jedem Vollbild in einem Schritt ST7 durchsucht. In Fällen, bei denen festgestellt wird, dass ein gegenwärtiges Vollbild ein Intra-Vollbild (I-Vollbild) ist („JA” in dem Schritt ST7) werden Daten von Gleichstromanteilen der Helligkeit und Farbdifferenzsignale, welche eine Durchschnittsmatrix von Pixelwerten bezeichnen, für jeden Makroblock in einem Schritt ST8 herausgezogen. In 6 wird eine Position von jedem Makroblock durch „n" in einer Reihenfolge des Rasterscans, welcher für das Vollbild durchgeführt wird, ausgedrückt, ein Gleichstromanteil des Helligkeitssignals eines Makroblocks, welcher bei einer Position „n" angeordnet ist, wird durch DC_Y[n] ausgedrückt und Gleichstromanteile von zwei Farbdifferenzsignalen eines Makroblocks, welcher bei einer Position „n" angeordnet ist, werden durch DC_U[n] bzw. DC_V[n] ausgedrückt. Der Maximalwert von „n" wird gemäß der Anzahl von Pixeln, welche in den longitudinalen und lateralen Richtungen des Vollbildes angeordnet sind, bestimmt. In den international standardisierten Videocodiertypen wie beispielsweise MPEG- und H.26X-Serien können die drei Gleichstromanteile jedes Makro-Blocks erhalten werden, indem die DC-Komponenten von der (0,0)-Position erfasst werden, weil die drei Gleichstromanteile von jedem Makroblock über drei DC-Komponenten einer (0,0)-Position in einer diskreten Cosinustransformation (DCT), welche für alle Unterblöcke, welche den Makroblock zusammensetzen und jeweils 8*8 Pixel aufweisen, durchgeführt wird, repräsentiert werden. In diesem Fall wird der Gleichstromanteil des Helligkeitssignals auf einen mittleren Wert von vier DC-Komponenten von vier Unterblöcken für jeden Makroblock gesetzt, weil vier Unterblöcke in jedem Makroblock für das Helligkeitssignal existieren.
Danach werden jeweils in einem Schritt ST9 Charakteristikwerte eines Intra-Vollbilds für jedes Intra-Vollbild akkumuliert. Dieser Schritt wird in der Erzeugungseinheit für charakteristische Deskriptorenmengen 4 durchgeführt. Im Detail werden die Gleichstromanteile DC_Y[n], DC_U[n] und DC_V[n] von einem Intra-Vollbild gemäß der folgenden Gleichungen (1) für jedes Intra-Vollbild akkumuliert. avgYsum[n] = avgYpre[n] + DCY[n]; avgYpre[n] = avgYsum[n] avgUsum[n] = avgUpre[n] + DCU[n]; avgUpre[n] = avgUsum[n] avgVsum[n] = avgVpre[n] + DCV[n]; avgVpre[n] = avgVsum[n] stdYsum[n] = stdYpre[n] + DCY[n]·DCY[n]; stdYpre[n] = stdYsum[n] stdUsum[n] = stdUpre[n] + DCU[n]·DCU[n]; stdUpre[n] = stdUsum[n] stdVsum[n] = stdVpre[n] + DCV[n]·DCV[n]; stdVpre[n] = stdVsum[n] (1)
Hier werden jeweils Werte von avgY_pre[n], avgU_pre[n], avgV_pre[n], StdY_pre[n], stdU_pre[n] und stdV_pre[n] auf Null zurückgesetzt, wenn die Herausziehverarbeitung für Charakteristikwerte gestartet wird.
Wenn die Herauszieh- und Speicherverarbeitung für alle Positionen „n” von den Makroblöcken in einem Intra-Vollbild beendet ist („JA” in einem Schritt ST10), wird eine Intra-Vollbildauftretenszahl N_I in dem Videosegment, welche in einem Zähler gezählt wird, erhöht, und die Herausziehungs- und Speicherverarbeitung für ein nächstes Vollbild wird durchgeführt („NEIN” in einem Schritt ST11). In Fällen, bei denen die Herausziehungsverarbeitung und Speicherverarbeitung für das Videosegment beendet ist („JA" im Schritt ST11) wird das Verfahren zu den Herstellverfahren für charakteristische Deskriptorenmengen eines Schrittes ST17 bewegt. Hiernach wird das Herausziehen von Charakteristikwerten eines Inter-Vollbilds beschrieben.
In Fällen, bei denen beurteilt wird, dass ein gegenwärtiges Vollbild kein Intra-Vollbild ist („NEIN" in dem Schritt ST7), wird in einem Schritt ST12 untersucht, ob das Vollbild ein Inter-Vollbild (P-Vollbild) einer Vorwärtsrichtungsvoraussage (oder Eine-Richtungs-Voraussage) ist oder nicht. Hier ist der Grund dafür, dass das Inter-Vollbild auf das P-Vollbild eingeschränkt wird, wie folgt. Als ein anderer Vollbildcodiertyp von Inter-Vollbildern gibt es ein Vorhersagevollbild in beiden Richtungen (P-Vollbild), bei welchem eine Bewegungskompensationsvorhersage durchgeführt wird, indem sowohl auf ein Vollbild, welches einer vergangenen Zeit entspricht, als auch auf ein Vollbild, welches einer zukünftigen Zeit entspricht, Bezug genommen wird. Auch gibt es ein Sprite-Vorhersage-Vollbild (S-Vollbild, S-VOP), bei welchem ein Bild reproduziert wird, indem All-Szenarien-Bilder, welche als Sprite bezeichnet werden, deformiert und kombiniert werden. Um das in dieser Ausgestaltungsform verarbeitete Inter-Vollbild von dem B-Vollbild und S-Vollbild zu unterscheiden, wird das Inter-Vollbild auf das P-Vollbild eingeschränkt. In dieser Ausführungsform wird das Inter-Vollbild (P-Vollbild), bei welchem eine Vorwärtsrichtungsvorhersage (oder Ein-Richtungs-Vorhersage) durchgeführt wird, indem lediglich auf ein Vollbild entsprechend einer vergangenen Zeit Bezug genommen wird, verarbeitet. Demgemäß wird in Fällen, bei denen beurteilt wird, dass das Vollbild kein P-Vollbild ist („NEIN" in dem Schritt ST12) kein Herausziehen von Charakteristikwerten durchgeführt und das Verfahren wird zu der Verarbeitung für ein anderes Vollbild weitergegeben.
In Fällen, bei denen in dem Schritt ST12 beurteilt wird, dass das Vollbild ein P-Vollbild ist („JA” in dem Schritt ST12), wird eine Mehrzahl von Bewegungsvektoren MV[n] von allen Makroblöcken des Vollbildes in der Herauszieheinheit für charakteristische Werte 3 herausgezogen (Schritt ST13). Hier wird jeder Bewegungsvektor MV[n] gemäß einer folgenden Gleichung (2) ausgedrückt.

x_n:: eine Seitwärtskomponente eines Bewegungsvektors bei der Position „n" des Makroblocks
y_n:: eine Längskomponente des Bewegungsvektors bei der Position „n" des Makroblocks

Danach wird, wenn in einem Schritt ST14 beurteilt wird, dass das Herausziehen der Bewegungsvektoren MV[n] von allen Makroblöcken des gegenwärtigen Vollbildes beendet ist („JA” in dem Schritt ST14) eine Menge von charakteristischen Deskriptoren von dem Inter-Vollbild, welches das gegenwärtige Vollbild bezeichnet, in einem Schritt ST15 erzeugt. Diese Erzeugung wird in der Erzeugungseinheit für charakteristische Deskriptorenmengen 4 durchgeführt.
Ein Flussdiagramm des Erzeugungsverfahrens der Menge von charakteristischen Deskriptoren, welches in dem Schritt ST15 von 6 durchgeführt wird, wird in 7 im Detail gezeigt. Als erstes wird eine Durchschnittsgröße der Bewegung in einem Vollbild aus Größen der Bewegungsvektoren MV[n] des in dem Schritt ST13 gespeicherten Vollbilds gemäß einer folgenden Gleichung (3) berechnet (Schritt ST15-1).
Hier bezeichnet N die Anzahl von Makroblöcken in einem Vollbild.
Danach wird in einem Schritt ST15-2 eine Schwellwertverarbeitung für jeden Bewegungsvektor MV[n] gemäß einer folgenden Gleichung (4) durchgeführt. MV'[n] = MV[n]; wenn MV[n] ≥ CNP MV'[n] = 0; wenn MV[n] < CNP (4)
Demgemäß wird eine Verteilung (oder eine Matrix) von neuen Bewegungsvektoren MV'[n] erhalten. Danach werden Werte, welche eine Bewegungsverteilung charakterisieren, wie folgt erhalten, indem die Verteilung der Bewegungsvektoren MV'[n] in der Rasterabtastreihenfolge abgetastet wird (Schritt ST15-3).

N_sr: Die Anzahl von Null-Runs (d.h. Kurz-Runs), welche jeweils eine Länge gleich oder kleiner als eine Länge entsprechend 1/3 der Anzahl von Pixeln, welche in Folge in der seitlichen Richtung des Vollbildes angeordnet sind, aufweisen.
N_mr: Die Anzahl von Null-Runs (d.h. mittlere Runs), welche jeweils eine Länge größer als eine Länge entsprechend 1/3 der Anzahl von Pixeln, welche in Folge in der Seitwärtsrichtung des Vollbildes angeordnet sind, aufweisen und welche eine Länge kürzer als eine Länge entsprechend 2/3 der Anzahl von seitwärts angeordneten Pixeln aufweisen.
N_lr: Die Anzahl von Null-Runs (d.h. Lang-Runs), welche jeweils eine Länge gleich oder größer als eine Länge entsprechend 2/3 der Anzahl von Pixeln, welche in Reihe in der Seitwärtsrichtung des Vollbildes angeordnet sind, aufweisen. Hier ist, wie in 8 realisiert wird, die Komplexität der Bewegung in einem Vollbild, in welchem viele Kurz-Runs existieren, hoch, und die Bewegung wird über einen weiten Bereich des Vollbildes verteilt. Im Gegensatz dazu ist die Bewegung in einem Vollbild, in welchem viele Lang-Runs existieren, lokalisiert.

Wenn die Herauszieh- und Speicherverarbeitung für alle Positionen „n" der Makroblöcke in einem Inter-Vollbild beendet ist („JA” in dem Schritt ST14), wird eine Inter-Vollbildauftretensanzahl N_p in dem Video segment, welche als ein Zähler gezählt wird, erhöht, und die Herauszieh- und Speicherverarbeitung für ein nächstes Vollbild wird durchgeführt („NEIN" in einem Schritt ST16). In Fällen, bei denen die Herauszieh- und Speicherverarbeitung für das Videosegment beendet ist („JA” in dem Schritt ST16) wird das Verfahren zu der Erzeugungsverarbeitung für charakteristische Deskriptorenmengen des Schrittes ST17 weiterbewegt.
Als ein Ergebnis wird eine Menge von charakteristischen Deskriptoren (C_NP, N_sr, N_mr, N_lr) von jedem Inter-Vollbild, welches in dem Videosegment angeordnet ist, erhalten. Die Menge von charakteristischen Deskriptoren wird für jedes Inter-Vollbild akkumuliert, um eine Menge von charakteristischen Deskriptoren des Videosegments in dem Schritt ST17 (welcher später im Detail beschrieben wird) zu erzeugen.
Wie oben beschrieben, werden das Herausziehen der Charakteristikwerte und das Erzeugen der Menge von charakteristischen Deskriptoren für jedes Vollbild des Videosegments durchgeführt. Danach wird eine Menge von charakteristischen Deskriptoren des Videosegments endgültig in dem Schritt ST17 erzeugt. Diese Erzeugung wird ebenfalls in der Erzeugungseinheit für charakteristische Deskriptorenmengen 4 durchgeführt.
Im Detail wird im Falle eines Intra-Vollbildes eine Menge von charakteristischen Deskriptoren (avgY[n], avgU[n], avgV[n], stdY[n], stdU[n] und stdV[n]) von den gespeicherten Charakteristikwerten avgY_sum[n], avgU_sum[n], avgV_sum[n], stdY_sum[n], stdU_sum[n] und stdV_sum[n] und der Anzahl N_I der Intra-Vollbilder, welche in dem Videosegment existieren, gemäß der folgenden Gleichungen (5) für jede Position „n" des Makroblocks erzeugt. avgY[n] = avgUsum[n]/NI avgU[n] = avgUsum[n]/NI avgV[n] = avgVsum[n]/NI stdY[n] = √{stdYsum[n]/NI – (avgV[n])2} stdU[n] = √{stdUsum[n]/NI – (avgU[n])2} stdV[n] = √{stdVsum[n]/NI – (avgV[n])2}
Als ein Ergebnis werden für das Intra-Vollbild N*6 charakteristische Deskriptoren für jedes Videosegment erzeugt und eine Menge von charakteristischen Deskriptoren setzt sich aus N*6 charakteristischen Deskriptoren zusammen. Die Bedeutung von diesen charakteristischen Deskriptoren wird unter Bezugnahme auf 9 beschrieben.
Anfangs ist das Herausziehen von Gleichstromanteilen der Makroblöcke jedes Vollbilds äquivalent zum Zeichnen einer Wellenform, welche erhalten wird, indem eine Durchschnittshelligkeit und eine Durchschnittsfarbe von Bilddaten bei einer Position „n" von jedem Makroblock unter Bezugnahme auf eine Zeitachse geplottet wird. Das heißt, eine Zeitserie von Charakteristikwerten avgY[n] bezeichnet die Zeitveränderung von der Helligkeit bei der Position „n" von jedem Makroblock, eine Zeitserie von Charakteristikwerten avgU[n] und eine Zeitserie von Charakteristikwerten avgV[n] bezeichnen jeweils die Zeitveränderung der Farbe bei der Position „n" von jedem Makroblock. Auch bezeichnet der Charakteristikwert stdY[n] einen Zerstreuungsgrad der in 9 gezeigten Wellenform von dem Durchschnittswert (avgY[n]), der Charakteristikwert stdU[n] bezeichnet einen Zerstreuungsgrad von dem Durchschnittswert (avgU[n]) und der Charakteristikwert stdV[n] bezeichnet einen Zerstreuungsgrad von dem Durchschnittswert (avgV[n]). Demgemäß bezeichnet die Menge von charakteristischen Deskriptoren (avgY[n], avgU[n], avgV[n], stdY[n], stdU[n] und stdV[n]) eine Serie von Deskriptoren, welche eine Zeitänderung der Helligkeit und eine Zeitänderung der Farbe in einer Serie von Intra-Vollbildern des Videosegments charakterisieren. Es wird angenommen, dass Wellenformen der Gleichstromanteile DC_Y[n], DC_U[n] und DC_V[n] als charakteristische Deskriptoren gespeichert werden, die Anzahl von charakteristischen Deskriptoren wird unendlich erhöht gemäß der Länge des Videosegments. Jedoch können in dieser Ausführungsform, weil die charakteristischen Deskriptoren avgY[n], avgU[n], avgV[n], stdY[n], stdU[n] und stdV[n] verwendet werden, Charakteristika, welche sich auf die Helligkeit und Farbe des Videosegments beziehen, durch die charakteristischen Deskriptoren, deren Anzahl ein konstanter Wert von N*6 ist, beschrieben werden, unter der Bedingung, dass eine Zeitänderung der Charakteristika des Videosegments gehalten wird und dass die Anzahl von charakteristischen Deskriptoren nicht von der Länge des Videoseg ments abhängt.
Im Gegensatz dazu wird, was das Inter-Vollbild betrifft, die Menge von charakteristischen Deskriptoren (C_NP, N_sr, N_mr, N_lr), welche für jedes Inter-Vollbild erzeugt wird, für die Inter-Vollbilder, deren Anzahl in dem Videosegment N beträgt, gemittelt. Demgemäß werden, was das Inter-Vollbild betrifft, vier charakteristische Deskriptoren für jedes Videosegment erzeugt.
Darüberhinaus wird die Menge von charakteristischen Deskriptoren in einer spezifischen Struktur ausgedrückt, um die die Wiedergewinnung betreffende Zweckmäßigkeit zu erhöhen. Das heißt, dass es einen Fall gibt, bei dem ein Datenformat der Menge von charakteristischen Deskriptoren als dasjenige des XML-Dokuments auf dieselbe Art und Weise wie das von der Attributliste gesetzt wird.
Die Verarbeitung zum Erzeugen einer Menge von charakteristischen Deskriptoren aus den herausgezogenen Charakteristikwerten wird in 10 gezeigt.
Wie in 10 gezeigt, wird die von dem Videobitstrom in der Herauszieheinheit für charakteristische Werte 3 herausgezogene Menge von Charakteristikwerten in ein XML-Dokument, welches eine Menge von charakteristischen Deskriptoren gemäß der Dokumenttypdefinition (DTD) bezeichnet, umgeformt. In der charakteristischen Deskriptorenmenge, welche in 10 gezeigt ist, sind die Menge von charakteristischen Deskriptoren, welche sich auf die Bewegungsvektoren beziehen, und die Menge von charakteristischen Deskriptoren, welche sich auf die oben beschriebenen Gleichstromanteile der Helligkeit und Farbdifferenzsignale bezie hen, eingebunden. Information, welche durch <MotionInfo> und </MotionInfo> umgeben ist, bezeichnet die Menge von charakteristischen Deskriptoren, welche sich auf die Bewegungsvektoren beziehen, und die charakteristischen Deskriptoren (C_NP, N_sr, N_mr, N_lr) sind durch Abgrenzer „Durchschnitt" (engl. „Average"), „Kurzrun" (engl. „Shortrun"), „Mittlerer Run" (engl. „MediumRun") und „Langer Run" (engl. „LongRun") jeweils umgeben und beschrieben.
Auch bezeichnet Information, welche von <ColourTexture> und </ColourTexture> umgeben ist, die charakteristische Deskriptorenmenge, welche sich auf die Gleichstromanteile der Helligkeit und der Farbdifferenzsignale bezieht. In dieser Information bezeichnet Information, welche von <YDC> und </YDC> umgeben ist, eine Menge von den charakteristischen Deskriptoren, welche sich auf die Gleichstromanteile des Helligkeitssignals beziehen, und die charakteristischen Deskriptoren (avgY[n], stdY[n]) sind von Abgrenzern „Average" bzw. „std" umgeben. Auch bezeichnet Information, welche von <UDC> und </UDC> umgeben ist und Information, welche von <VDC> und </VDC> umgeben ist, jeweils eine Menge von den charakteristischen Deskriptoren, welche sich auf die Gleichstromanteile der Farbdifferenzsignale beziehen und die charakteristischen Deskriptoren (avgU[n], stdU[n]) und die charakteristischen Deskriptoren (avgV[n], stdV[n]) sind durch die Abgrenzer „Average" bzw. „std" umgeben.
Auch die charakteristische Deskriptorenmenge, wie sie in 10 gezeigt ist, beinhaltet Hilfsinformation, welche sich auf Medien bezieht, zusätzlich zu der Menge von charakteristischen Deskriptoren, welche sich auf die Bewegungsvektoren bezieht, und die Menge von charakteristischen Deskriptoren, welche sich auf die Gleichstromanteile der Helligkeit und der Farbdifferenzsignale bezieht. In 10 bezeichnet Information, welche von <MediaInfo> und </MediaInfo> umgeben ist, die Hilfsinformation, und ein Bildformat (Format), wie beispielsweise MPEG-1 oder JPEG, ein Typ eines Speichermediums (Medium), wie beispielsweise CD oder DVD, eine Information, welche sich auf Farbe bezieht, wie beispielsweise ein coloriertes Bild oder ein monochromes Bild, eine Bildgröße und Information, welche eine Endgerätefunktion, welche notwendig zur Anzeige von Bildern ist, anzeigt, sind als die Hilfsinformation eingebunden. Diese Hilfsinformation wird benötigt, wenn ein Benutzer ein wiedergewonnenes Bild reproduziert und darstellt, und der Benutzer kann die Hilfsinformation als Wiedergewinnungsbedingungen spezifizieren. Auch ist spezifische Information, welche eine Adresse, bei welcher ein Bild abgespeichert ist, anzeigt, als die Hilfsinformation eingebunden. In dem Beispiel von 10 bezeichnet Information, welche von <Locator> und </Locator> umgeben ist, die spezifische Information und die spezifische Information wird durch den universellen Ressourcenlokalisierer (URL) spezifiziert.
Als ein anderer charakteristischer Deskriptor wie diejenigen in 10 gezeigten ist ein spezifischer charakteristischer Deskriptor bekannt, welcher eine Bildcharakteristik, welche eine vorgeschriebene Bedeutung anzeigt, beschreibt. Dieser spezifische charakteristische Deskriptor drückt einen Teamnamen eines Spielers, welcher in einem Sportbild angezeigt wird, oder eine Beziehung zwischen Personen, welche in einem Bild gezeigt sind, aus. In Fällen, bei denen Heimvideodaten oder eine digitale Fotographie in einem Heimserver abgespeichert sind, gibt ein Benutzer unmittelbar eine Bedeutungscharakteristik, welche durch das Subjekt eines Bildes angegeben wird, als Textinformation ein. Auch in Fällen, bei denen ein Programm einer Fernsehausstrahlung in einem Heimserver abgespeichert wird, kann der spezifische charakteristische Deskriptor automatisch in Abhängigkeit von Programminformation herausgezogen werden.
Zusätzlich ist es passend, als ein anderer charakteristischer Deskriptor anders als diejenigen, welche in 10 gezeigt sind, zusätzlich zu der Durchschnittscharakteristik in dem Videosegment, welche durch die Menge von charakteristischen Deskriptoren (C_NP, N_sr, N_mr, N_lr) des Inter-Vollbilds angezeigt wird, dass eine Varianz oder eine Standardabweichung eines charakteristischen Deskriptors in den Inter-Vollbildern des Videosegments berechnet und zu der Menge von charakteristischen Deskriptoren (C_NP, N_sr, N_mr, N_lr) addiert wird als ein Index der Komplexität einer Zeitänderung des charakteristischen Deskriptors, d.h. als ein Index der Komplexität, welche sich auf eine Bewegungsänderung bezieht, auf dieselbe Art und Weise wie die Menge von charakteristischen Deskriptoren für die Intra-Vollbilder des Videosegments. In diesem Fall kann der Charakteristikwert, welcher die Zeitänderung der Bewegung anzeigt, addiert werden.
Es ist auch passend, dass die charakteristische Deskriptormenge, welche sich auf die Intra-Vollbilder des Videosegments bezieht, auf dieselbe Art und Weise wie bei der Erzeugung der charakteristischen Deskriptorenmenge, welche sich auf die Inter-Vollbilder des Videosegments bezieht, verarbeitet wird, um die Anzahl von charakteristischen Deskriptoren zu reduzieren. Beispielsweise werden Werte (C_Y,NI, C_U,NI, C_V,NI) ge mäß den folgenden Gleichungen (6) für jedes Intra-Vollbild berechnet. Der Wert C_Y,NI bezeichnet den Durchschnitt der Helligkeitswerte über den Bildschirm in dem N_I-ten Intra-Vollbild des Videosegments und die Werte C_U,NI und C_V,NI bezeichnen jeweils den Durchschnitt der Farbdifferenzwerte über den Bildschirm in dem N_I-ten Intra-Vollbild des Videosegments.
Hier bezeichnet N_mb die Anzahl von Makroblöcken in jedem Intra-Vollbild. Demgemäß können in Fällen, in denen sich auf ein Intra-Vollbild beziehende Werte (C_Y,NI, C_U,NI, C_V,NI) auf dieselbe Art und Weise verwendet werden wie der sich auf ein Inter-Vollbild beziehende Wert C_NP, die Werte (C_Y,NI, C_U,NI, C_V,NI) als drei Werte gesetzt werden (einen Helligkeitswert, einen Farbdifferenzwert und eine andere Farbdifferenz), welche den charakteristischen Deskriptoren (N_sr, N_mr, N_lr), welche sich auf ein Inter-Vollbild in dem Bildschirm des Bildes beziehen, entsprechen. Die Menge der Werte (C_Y,NI, C_U,NI, C_V,NI) beschreibt die Komplexität einer Verteilung von Helligkeit und Farbe in einem Helligkeitsraum und einem Farbdifferenzraum. Demgemäß kann in Fällen, bei denen die Menge von den Werten (C_Y,NI, C_U,NI, C_V,NI) als eine charakteristische Deskriptorenmenge für jedes Intra-Vollbild verwendet wird, die Anzahl von charakteristischen Deskriptoren, welche notwendig ist, um die Charakteristika des Videosegments zu beschreiben, reduziert werden, indem der Durchschnitt und die Varianz (oder die Standard abweichung) der charakteristischen Deskriptoren (C_Y,NI, C_U,NI, C_V,NI), welche sich auf die Intra-Vollbilder des Videosegments beziehen, berechnet werden. Im Gegensatz dazu ist es passend, dass, auf dieselbe Art und Weise wie bei der sich auf jedes Intra-Vollbild beziehenden Menge von charakteristischen Deskriptoren, die Menge von charakteristischen Deskriptoren, welche sich auf jedes Inter-Vollbild bezieht, für jeden Makroblock des Inter-Vollbilds beschrieben wird, während eine Zeitänderung der Charakteristika der Inter-Vollbilder des Videosegments mit der Präzision des Makroblocks beschrieben wird. Auch, wie in 11 gezeigt ist, ist es passend, dass die Mengen von charakteristischen Deskriptoren, welche den Makroblöcken von jedem Intra-Vollbild entsprechen, welche in der ersten Ausführungsform beschrieben sind, erzeugt und beschrieben werden in einer hierarchischen Struktur von einer hochrangigen Schicht zu einer Schicht mit niedrigem Rang, um eine hierarchische Wiedergewinnung durchzuführen. Demgemäß können alle Typen von Änderungen der Helligkeit und Farbdifferenzen von einer weiten Überblicksänderung in dem gesamten Bild des Schirms bis hin zu lokalen Änderungen in den Makroblöcken jedes Bilds des Schirms beschrieben werden, und die Wiedergewinnungsverarbeitung kann so durchgeführt werden, dass sie die Anforderungen von Benutzern erfüllt. Auch ist es in Fällen, bei denen die Anzahl von hierarchischen Schichten zusätzlich spezifiziert wird, ausreichend, die Mengen von charakteristischen Deskriptoren, welche für die spezifizierten hierarchischen Schichten benötigt werden, zu halten. Demgemäß kann eine Datenmenge der charakteristischen Deskriptorenmengen geeignet angepasst werden.
Zusätzlich hängt die Anzahl von charakteristischen Deskriptorenmengen, welche sich auf die Intra-Vollbilder des Videosegments in der ersten Ausgestaltungsform beziehen, von der Anzahl von Makroblöcken ab. Demgemäß kann in Fällen, bei denen sich die Anzahl von Makroblöcken in jedem Vollbild eines Videosegments von derjenigen in einem anderen Videosegment unterscheidet, eine Konformitätsbeurteilungsverarbeitung zwischen den Videosegmenten nicht streng durchgeführt werden. Um dieses Problem zu lösen, werden die Interpolation oder das Ausdünnen von Mengen von charakteristischen Deskriptoren, welche sich auf die wiederzugewinnenden Bilddaten beziehen, und das Ausdünnen oder die Interpolation von Mengen von charakteristischen Deskriptoren, welche sich auf vom Benutzer vorgeschlagene Bilddaten beziehen, gemäß der Anzahl von Makroblöcken in jedem von den wiederzugewinnenden Bilddaten und den von dem Benutzer vorgeschlagenen Bilddaten durchgeführt, um die Anzahl von Makroblöcken in den wiederzugewinnenden Bilddaten mit derjenigen in den von dem Benutzer vorgeschlagenen Bilddaten in Übereinstimmung zu bringen, und es wird beurteilt, ob die wiederzugewinnenden Bilddaten mit den vom Benutzer vorgeschlagenen Bilddaten übereinstimmen oder nicht. Dieser Fall passiert, wenn die Wiedergewinnungsverarbeitung für eine Datenbank durchgeführt wird, in welcher viele Stücke von Videoinhalten, welche verschiedene Bildformate aufweisen, vermischt sind. Jedoch wird ein vorbestimmtes Bildformat gewöhnlicherweise für verschiedene praktisch verwendete Anwendungen (beispielsweise Programme des digitalen Rundfunks) verwendet, um die Einrichtungen, welche benötigt werden, um die Applikationen zu verwenden, zu vereinfachen, so dass der oben beschriebene Fall nicht zu häufig auftritt. Auch wird in dieser Ausführungsform die erweiterbare Markup-Sprache (XML von Extensible Markup Language) eingeführt, um die Mengen von charakteristischen Deskriptoren zu beschreiben. Diese Ausgestaltungsform ist jedoch nicht auf die XML beschränkt. Beispielsweise ist es, auf dieselbe Art und Weise wie in der Attributliste, passend, dass die Menge von charakteristischen Deskriptoren gemäß einer Datenstruktur, welche vorab definiert wurde, beschrieben wird.
Wie oben beschrieben, wird, wenn eine charakteristische Deskriptorenmenge in der Verarbeitung des Schrittes 5 in der Erzeugungseinheit für charakteristische Deskriptorenmengen 4 erzeugt wird, die erzeugte charakteristische Deskriptorenmenge mit den Bilddaten in der Bildinformations-Speichereinheit 5 gespeichert (Schritt ST6). In diesem Fall ist es passend, dass eine Datenbank zum Speichern der charakteristischen Deskriptorenmenge sich von einer Datenbank zum Speichern der Bilddaten unterscheidet. In diesem Fall ist es notwendig, dass die charakteristische Deskriptorenmenge eine Adresse beinhaltet, welche eine Speicherposition der zugehörigen Bilddaten anzeigt. In dem in 10 gezeigten Beispiel ist das Element „Locator" in der charakteristischen Deskriptorenmenge eingebunden und der universelle Ressourcenlokalisierer (URL) wird auf den Wert des Elements „Locator" gesetzt.
(2) Verarbeitung in der Bildwiedergewinnungseinheit 8
Als nächstes wird eine Verarbeitung, welche in der Bildwiedergewinnungseinheit 8 durchgeführt wird, beschrieben.
12 ist ein Flussdiagramm, welches die in der Bildwiedergewinnungseinheit 8 durchgeführte Verarbeitung zeigt. Die Verarbeitung der Bildwiedergewinnung wird in zwei Verarbeitungstypen klassifiziert. D.h. die Verarbeitung der Bildwiedergewinnung setzt sich zusammen aus der auf der Attributliste basierenden Wiedergewinnung und der charakteristischen Ähnlichkeitswiedergewinnung, welche auf den charakteristischen Deskriptorenmengen basiert.
Zuerst wird die auf der Attributliste beruhende Wiedergewinnungsverarbeitung im Detail beschrieben.
Als erstes gibt ein Benutzer eine Wiedergewinnungsbedingung in die Bildwiedergewinnungseinheit 8 durch die Benutzerinterfaceinheit 9 ein (Schritt ST18). In dieser Ausgestaltungsform wird beispielsweise eine Benutzertextinformation, wie beispielsweise eine Kategorie eines Bildes, welches wieder zu gewinnen ist, ein Produktionsdatum des Bildes und/oder ein Produzent des Bildes eingegeben. Die von dem Benutzer eingegebene Benutzertextinformation wird an die Wiedergewinnungs-Verarbeitungseinheit gesendet. In der Wiedergewinnungs-Verarbeitungseinheit 10 wird eine Konformitätsbeurteilungsverarbeitung durchgeführt, um die Konformität der Benutzertextinformation mit Attributinformation einer Attributliste, welche in der Attributlisten-Speichereinheit 7 gespeichert ist, zu beurteilen (ST19). Beispielsweise spezifiziert ein Benutzer ein Produktionsdatum eines Bildes und einen Produzenten des Bildes als Wiedergewinnungsbedingung. In dem Beispiel von 4 werden Abgrenzer von „Date", „Time" und „Author" gesucht und die Übereinstimmung (oder Konformität) der Wiedergewinnungsbedingung mit einem Wert, welcher von jedem Abgrenzer umgeben ist, wird beurteilt.
Als ein Resultat der Konformitätsbeurteilungsverarbeitung für die Attributliste wird in Fällen, in de nen Attributinformation einer Videomail übereinstimmend mit der Wiedergewinnungsbedingung in allen Elementen von „Date", „Time" und „Author" existiert („JA” in dem Schritt ST19) die Attributinformation der in allen Elementen von „Date", „Time" und „Author" mit der Wiedergewinnungsbedingung übereinstimmenden Videomail von der Attributliste herausgezogen und an die Darstellungseinheit 11 gesendet (Schritt ST20). Demgemäß kann, weil Textinformation, welche an Bilddaten als die Attributinformation angehängt ist, strukturiert und beschrieben wird, die aus Elementen, welche für die Wiedergewinnung notwendig sind, zusammengesetzte Attributinformation herausgezogen werden und die Übereinstimmung (oder Konformität) der Attributinformation mit der Benutzertextinformation (oder der Wiedergewinnungsbedingung) kann beurteilt werden.
Die Verarbeitung in dem Schritt ST20 und einem Schritt ST21 wird wiederholt, bis alle Stücke von Attributinformation der in der Attributlisten-Speichereinheit 7 abgespeicherten Attributliste durchsucht sind („Nein" in dem Schritt ST21). Wenn alle Stücke von Attributinformationen der Attributliste durchsucht sind („Ja” in dem Schritt ST21), werden alle Stücke von Attributinformation, welche mit der Benutzerwiedergewinnungsbedingung übereinstimmen, in der Verarbeitung des Schrittes ST20 festgestellt und an die Darstellungseinheit 11 gesendet.
Wenn alle Stücke von Attributinformation, welche mit der Benutzerwiedergewinnungsbedingung übereinstimmen, von allen Stücken von Attributinformation der abgespeicherten Attributliste herausgezogen sind und das Senden der Stücke von Attributinformation, welche mit der Benutzerwiedergewinnungsbedingung als ein Konfor mitätsergebnis übereinstimmen, beendet ist („Ja” in Schritt ST21), wird eine Liste von den Stücken von Attributinformation, welche mit der Benutzerwiedergewinnungsbedingung übereinstimmen, in der Darstellungseinheit 11 angezeigt (Schritt ST22). In dem Beispiel von 4 wird eine Liste von den Stücken von Attributinformation, bei welcher Werte in den Elementen „Date", „Time" und „Author" mit durch den Benutzer als die Wiedergewinnungsbedingung eingegebenen Werten übereinstimmen, als Textinformation angezeigt. In diesem Fall wird, wie in dem Beispiel von 4 gezeigt, wenn die Stücke von Attributinformation in dem Format des XML-Dokumentes beschrieben sind, das XML-Dokument der Stücke von Attributinformation in der Darstellungseinheit 11 in einen Hypertext-Markup-Sprachen-Datentyp (HTML, von engl. hypertext markup language) umgewandelt, welcher in dem Browser dargestellt werden kann. Auch kann in Fällen, bei denen den Stücken von Attributinformation ein Hyperlink zugeordnet ist, ein Benutzer ein nächstes Mal leicht auf die Stücke von Attributinformation zugreifen. Auch in Fällen, bei denen die Bilddaten Videodaten bezeichnen und einen vorbeschriebenen Darstellungsbereich aufweisen, wird ein Schlüsselvollbild der Videodaten mit den Stücken von Attributinformation angezeigt. In Fällen, bei denen eine Verknüpfung von Daten des Schlüsselvollbildes zu den Videodaten eingerichtet wird, kann der Benutzer intuitiv auf die Videodaten zugreifen.
Wie vorstehend beschrieben, kann, weil die Attributliste in einem vorher bestimmten Datenformat strukturiert ist, die Datenstruktur der Attributliste auf der Benutzerseite analysiert werden, indem ein File, (beispielsweise die Dokumententypdefinition (DTD)), in welchem das Datenformat definiert ist, verwendet wird, und das Datenformat der Attributinformation der Attributliste kann einfach in ein anderes Datenformat, welches dargestellt werden kann, umgewandelt werden.
Als nächstes gibt in Fällen, bei denen Attributinformation eines gewünschten Bildes in der Liste der Stücke von Attributinformation, welche in der Darstellungseinheit 11 dargestellt wird, existiert, der Benutzer eine Reproduktionsanordnung durch die Benutzerinterfaceeinheit 9 ein (Schritt ST23) und wählt Attributinformation des gewünschten Bildes aus (Schritt ST24). Danach werden Bilddaten entsprechend der Attributinformation des gewünschten Bildes in der Bildinformationsspeichereinheit 5 herausgezogen gemäß einer Adresse (URL), welche in der Attributinformation des gewünschten Bildes enthalten ist, unter der Steuerung durch die Wiedergewinnungs-Verarbeitungseinheit 10, die der Attributinformation des gewünschten Bildes entsprechenden Bilddaten werden an die Darstellungseinheit 11 übertragen und die Reproduktion und die Wiedergabe der Bilddaten wird in der Darstellungseinheit 11 durchgeführt (Schritt ST25).
Im Unterschied hierzu gibt in Fällen, bei denen Attributinformation eines gewünschten Bildes in der Liste von den Stücken von Attributinformation, welche in der Darstellungseinheit 11 dargestellt werden, nicht existiert, bei denen aber Attributinformation ähnlich zu der Attributinformation des gewünschten Bildes in der Liste der Stücke von Attributinformation existiert, oder in Fällen, in denen ein Schlüsselvollbild, welches mit der Attributinformation in der Darstellungseinheit 11 dargestellt wurde, ähnlich zu dem gewünschten Bild ist, der Benutzer eine Ähnlichkeits- Wiedergewinnungsanordnung durch die Benutzerinterfaceeinheit 9 ein (Schritt ST23) und wählt Attributinformation aus (d.h. ähnliche Attributinformation), welche ähnlich ist zu der Attributinformation des gewünschten Bildes, um die ähnliche Attributinformation bei der Ähnlichkeits-Wiedergewinnung zu verwenden (Schritt ST26). Demgemäß kann ein Bild, welches ähnlich zu dem gewünschten Bild ist, aus Bildern, welche in der Bildinformations-Speichereinheit 5 gespeichert sind, wieder gewonnen werden.
D.h. dass, wenn der Benutzer die Ähnlichkeits-Wiedergewinnungsanordnung durch die Benutzerinterfaceeinheit 9 eingibt (Schritt ST23) und die Ähnlichkeitsattributinformation auswählt, um die Ähnlichkeitsattributinformation bei der Ähnlichkeits-Wiedergewinnung zu verwenden (Schritt ST26), eine charakteristische Ähnlichkeits-Wiedergewinnung für eine Vielzahl von spezifischen Mengen von charakteristischen Deskriptoren entsprechend der Ähnlichkeitsattributinformation durchgeführt wird, um die spezifische Menge von charakteristischen Deskriptoren eines ähnlichen Bildes (oder eines Stückes von ähnlichen Bilddaten), welches in dem Schritt ST26 von Mengen von charakteristischen Deskriptoren, welche in der Bildinformations-Speichereinheit 5 abgespeichert wurden, ausgewählt wurde, herauszuziehen und die Konformitäts-Beurteilungsverarbeitung wird durchgeführt, um die Konformität von jeder spezifischen Menge von charakteristischen Deskriptoren des ähnlichen Bildes mit Mengen von charakteristischen Deskriptoren der anderen Bilder (oder der anderen Stücke von Bilddaten) zu beurteilen (Schritt ST27).
Hiernach wird, wie oben beschrieben, der Fall, bei dem die Charakteristikwerte als die charakteristi schen Deskriptorenmengen, welche sich auf die Gleichstromanteile der Helligkeit und Farbdifferenzsignale oder der Bewegungsvektoren beziehen, beschrieben sind, als ein Beispiel beschrieben.
13 ist ein Flussdiagramm, welches im Detail ein Beispiel der Konformitäts-Beurteilungsverarbeitung, welche in dem Schritt ST27 von 12 durchgeführt wird, zeigt.
Als erstes werden die vier charakteristischen Deskriptoren C_NP, N_sr, N_mr und N_lr, welche sich auf die Bewegungsvektoren der Inter-Vollbilder eines Videosegments und die N*6-charakteristischen Deskriptoren avgY[n], avgU[n], avgV[n], stdY[n], stdU[n] und stdV[n], welche sich auf die Gleichstromanteile der Helligkeit und Farbdifferenzsignale der Intra-Vollbilder des Videosegmentes beziehen, beziehen, für jedes Videosegment präpariert und es wird beurteilt, ob jeder der Werte der charakteristischen Deskriptoren der charakteristischen Deskriptorenmengen von den anderen Bildern innerhalb einer vorgeschriebenen Reichweite, welche durch obere und untere Schwellwerte und den entsprechenden Wert eines charakteristischen Deskriptors einer spezifischen charakteristischen Deskriptormenge des in dem Schritt S26 ausgewählten ähnlichen Bildes, bestimmt ist, angeordnet ist oder nicht (Schritt ST27-1 bis Schritt ST27-11). In Fällen, bei denen jeder der Werte von allen charakteristischen Deskriptoren der charakteristischen Deskriptormengen von einem der anderen Bilder innerhalb der vorgeschriebenen Reichweite angeordnet ist, wird die Konformität für das Bild beurteilt. In anderen Fällen wird die Nicht-Konformität für das Bild festgestellt.
Danach wird die Adressinformation (URL) des Bildes, für welches die Konformität beurteilt wurde, an die Darstellungseinheit 11 gesendet (Schritt ST28). Danach wird, bis die Konformitäts-Beurteilungsverarbeitung für alle in der Bildinformations-Speichereinheit 5 abgespeicherten Mengen von charakteristischen Deskriptoren beendet ist („Nein" in einem Schritt ST29), die Konformitäts-Beurteilungsverarbeitung für nicht beurteilte charakteristische Deskriptorenmengen wiederholt durchgeführt.
Danach wird, wenn die Konformitäts-Beurteilungsverarbeitung für alle Mengen von charakteristischen Deskriptoren, welche in der Bildinformations-Speichereinheit 5 abgespeichert sind, beendet ist („Ja” in einem Schritt ST29), jedes der Bilder, welches der Konformitätsbeurteilung entspricht, von den in der Bildinformations-Speichereinheit 5 abgespeicherten Bildern gemäß der Adressinformation des Bildes in der Darstellungseinheit 11 herausgezogen und jedes herausgezogene Bild wird reproduziert und dargestellt (Schritt ST22). Hier wird, im Falle eines Bewegtbildes, Adressinformation eines Schlüsselvollbildes jedes Bewegtbildes entsprechend der Konformitätsbeurteilung an die Darstellungseinheit 11 gesendet und die Schlüsselvollbilder der Bewegtbilder werden in der Darstellungseinheit 11 reproduziert und dargestellt. Danach wählt der Benutzer ein Bewegtbild, welches zur Darstellung gewünscht ist, aus einer Liste der in der Darstellungseinheit 11 dargestellten Schlüsselvollbilder durch die Benutzerinterfaceeinheit 9 (Schritt ST24) und das gewünschte Bewegtbild wird reproduziert und dargestellt (Schritt ST25). In diesem Fall ist es passend, dass der Benutzer ein anderes ähnliches Bild auswählt, mit welchem der Benutzer wünscht, die Ähnlichkeits- Wiedergewinnung erneut durchzuführen (Schritt ST26), um die Ähnlichkeits-Wiedergewinnung auf dieselbe Art und Weise wie oben beschrieben durchzuführen (Schritt ST27).
Demgemäß wird in dem Bildwiedergewinnungssystem gemäß der ersten Ausführungsform, nachdem die Wiedergewinnung basierend auf der Attributinformation durchgeführt worden ist, während auf die Attributliste Bezug genommen wurde, die Wiedergewinnung basierend auf den charakteristischen Deskriptoren durchgeführt. Somit kann die Wiedergewinnung effizient durchgeführt werden.
Hier ist diese Ausführungsform nicht auf die Konformitäts-Beurteilungsverarbeitung des Schrittes ST27 beschränkt und verschiedene Verfahren können als die Konformitäts-Beurteilungsverarbeitung berücksichtigt werden. D.h. in dem Beispiel von 13, dass alle charakteristischen Deskriptoren mit demselben Wichtungswert multipliziert werden und dass jeder charakteristische Deskriptor mit den Schwellwerten verglichen wird. In Fällen, bei denen der Benutzer die Bewegung als wichtig in der Wiedergewinnung erachtet, ist es jedoch passend, dass ein verglichenes Ergebnis von jedem charakteristischen Deskriptor gewichtet wird, um ein endgültiges Ergebnis zu erhalten. Auch werden in dem Beispiel von 13 verglichene Ergebnisse aller charakteristischen Deskriptoren untereinander in einer Kaskade verbunden, um ein endgültiges Ergebnis zu erhalten. Es ist jedoch passend, dass eine geeignete Normalisierungsverarbeitung für verglichene Ergebnisse von allen charakteristischen Deskriptoren durchgeführt wird, um die Konformität gemäß einer Gruppe der untereinander kombinierten verglichenen Ergebnisse zu beurteilen. Diese Konformi tätsbeurteilung kann angepasst werden, um Daten von den charakteristischen Deskriptoren am effizientesten in der Wiedergewinnung gemäß dem Wiedergewinnungsobjekt zu verwenden. In der Wiedergewinnung, welche eine Vielzahl von Typen von charakteristischen Deskriptoren verwendet, ist es auch passend, dass die Konformitäts-Beurteilungsverarbeitung (oder Wiedergewinnungsgleichungen) in dem Deskriptorformat vorab gemäß eines Typs der Anwendung gehalten werden (Wiedergewinnungssystem oder Datenbank). D.h. der Benutzer kann, in Fällen, bei denen die Beurteilungsverarbeitung gemäß eines Standard-Beschreibungsverfahrens beschrieben wird, ein Verfahren zum Verwenden einer Vielzahl von charakteristischen Deskriptoren für die Wiedergewinnung beschreiben und diese Beschreibung hängt nicht von der Anwendung ab. Demgemäß können verschiedene Typen von Anwendungen systematisch in dem Bildwiedergewinnungssystem verwendet werden. Auch kann beispielsweise in Fällen, bei denen eine zweite Datenbank mit der Datenbank dieses Bildwiedergewinnungssystems durch ein Internet verbunden ist und dieselben charakteristischen Deskriptoren als diejenigen, welche in der Datenbank verwendet werden, in der zweiten Datenbank verwendet werden, die Wiedergewinnungsverarbeitung für Daten der zweiten Datenbank gemäß der gemeinsamen Konformitäts-Beurteilungsverarbeitung durchgeführt werden. Als ein Beispiel der Beschreibung der Konformitäts-Beurteilungsverarbeitung können folgende Beschreibungen (1) bis (7) berücksichtigt werden.

(1) Ein Verfahren zum Verwenden einer Mehrzahl von charakteristischen Deskriptoren für die Konformitätsbeurteilung wird beschrieben. Beispielsweise wird eine einmalige Wiedergewinnung oder eine Folge von kaskadierten Wiedergewinnungen für die Konformitätsbeurteilung verwendet.
(2) Ein Wichtungsfaktor, welcher gemäß der Wichtigkeit jedes charakteristischen Deskriptors bestimmt wird, wird für den charakteristischen Deskriptor in der einmaligen Wiedergewinnungsverarbeitung angewandt.
(3) Ein Normalisierungsverfahren für jeden charakteristischen Deskriptor wird bei der einmaligen Wiedergewinnung zur Verfügung gestellt.
(4) Eine Reihenfolge von Deskriptoren, welche in der Wiedergewinnung verwendet werden, wird zur Verfügung gestellt.
(5) Im Fall der Wiedergewinnung in der kaskadierten Verbindung wird die Anzahl von Kandidaten, welche von den charakteristischen Deskriptoren erhalten werden, für jede Wiedergewinnung zur Verfügung gestellt.
(6) Ein Wert, welcher die Präzision der Beschreibung von jedem charakteristischen Deskriptor anzeigt (wie genau die Charakteristik beschrieben wird), wird zur Verfügung gestellt.
(7) Ein Beurteilungsstandard zum Beurteilen, ob Wiedergewinnungskandidaten, welche in dem Abgleich von jedem charakteristischen Deskriptor erhalten wurden, in der „UND"-Verbindung oder „ODER"-Verbindung ausgegeben werden, wird zur Verfügung gestellt.

Es ist passend, dass diese Deskriptoren, die in dem Konformitäts-Beurteilungsverarbeitungsverfahren ver arbeitet wurden, in einer festgelegten, der Anwendung eigenen Beschreibung beschrieben werden. Es ist auch passend, dass diese Deskriptoren, welche in den Konformitäts-Beurteilungsverarbeitungsverfahren verarbeitet wurden, beschrieben werden, um durch einen Benutzer angepasst zu werden. Beispielsweise erhält ein Benutzer Information von Typen der charakteristischen Deskriptoren, welche für die Wiedergewinnung verwendet werden kann, von dem Bildwiedergewinnungssystem und der Benutzer kann die ursprünglich gesetzte Konformitäts-Beurteilungsverarbeitung, welche als Deskriptoren beschrieben ist, in eine persönliche Konformitäts-Beurteilungsverarbeitung, welche Geschmäcker der Benutzers wiedergibt, gemäß der Information erneuern. Demgemäß kann in diesem Fall der Benutzer die Wiedergewinnungsverarbeitung flexibel durchführen. Diese Anpassung der Konformitäts-Beurteilungsverarbeitung in dem Bildwiedergewinnungssystem kann bis zu einem gewissen Grad in Abhängigkeit der Anwendung durchgeführt werden. Jedoch kann in Fällen, bei denen ein gemeinsames Standard-Beschreibungsformat für die Konformitäts-Beurteilungsverarbeitung vorbereitet wird, die Anpassung der Konformitäts-Beurteilungsverarbeitung in dem Bildwiedergewinnungssystem weit durchgeführt werden und Daten, welche in der Wiedergewinnungsverarbeitung verwendbar sind, können in einer Vielzahl von unterschiedlichen Typen von Anwendungen gehalten werden.
Auch kann, als ein Beispiel, wie das Bildwiedergewinnungssystem angewendet werden kann, das Bildwiedergewinnungssystem gemäß der ersten Ausführungsform für ein Überwachungssystem angewendet werden. Beispielsweise kann in Fällen, bei denen das Bildwiedergewinnungssystem für ein Überwachungssystem angewendet wird, in welchem eine Überwachungskamera einen Unbe fugten überwacht, der Unbefugte gemäß der Charakteristikwerte der Bewegung, welche von einem Überwachungsbild erhalten wurden, erfasst werden. Demgemäß werden Meta-Daten, in welchen Charakteristikwerte der Bewegung, welche von dem Überwachungsbild erhalten wurden, beschrieben sind, mit einem Überwachungsbild-Bitstrom in einer Datenbank registriert und Information, wie beispielsweise ein Aufzeichnungsdatum des Überwachungsbildes, wird als Attributinformation einer Attributliste registriert. Wenn der Benutzer das in der Datenbank aufgezeichnete Überwachungsbild reproduziert, wird Textinformation, wie beispielsweise ein Datum als ein Wiedergewinnungsschlüssel eingegeben und ein Schlagwort „Unbefugter" wird als ein anderer Wiedergewinnungsschlüssel eingegeben. Danach werden Kandidaten für das Wiedergewinnungsbild aus einer registrierten Liste von Bildern ausgewählt, Meta-Daten, welche an die Kandidaten für das Wiedergewinnungsbild angehängt sind, werden wieder gewonnen und Bilder, welche jeweils mit dem Unbefugten verbunden zu sein scheinen, werden angezeigt, demgemäß kann der Benutzer ein gewünschtes Bild aus den angezeigten Bildern auswählen und der Benutzer kann das gewünschte Bild beobachten. Darüber hinaus werden in Fällen, bei denen der Benutzer die Wiedergewinnung von Bildern, welche ähnlich zu dem bereits wieder gewonnenen und erhaltenen gewünschten Bild sind, verlangt, sogar obwohl ein genaues Aufzeichnungsdatum oder eine genaue Aufzeichnungszeit von jedem ähnlichen Bild unklar ist, die ähnlichen Bilder aus den abgespeicherten Bildern wieder gewonnen, indem die Übereinstimmung des gewünschten Bildes mit jedem abgespeicherten Bild gemäß der Mengen von charakteristischen Deskriptoren des gespeicherten Bildes überprüft wird und der Benutzer kann ein detailliertes Wiedergewinnungsergebnis erhalten.
Als ein anderes Beispiel, für welches das Bildwiedergewinnungssystem angewendet wird, kann das Bildwiedergewinnungssystem gemäß der ersten Ausführungsform auch für ein System angewendet werden, in welchem eine von einem Benutzer gewünschte Videomail oder ein von einem Benutzer gewünschtes Rundfunkprogramm von Videomails, welche in einem tragbaren Endgerät gespeichert sind, oder von Rundfunkprogrammen, welche in einem Heimserver gespeichert sind, wieder gewonnen wird und wiedergegeben wird. Eine Attributliste setzt sich zusammen aus Stücken von Attributinformation von Rundfunkprogrammen, welche in dem Heimserver aufgezeichnet wurden, einem Titel von jedem Rundfunkprogramm, welcher aus Programminformation herausgezogen wurde und aus Besetzungsinformation. Die Wiedergewinnung wird durchgeführt, wenn der Benutzer Information eines gewünschten Rundfunkprogramms eingibt. Jedoch kann der Benutzer in Fällen, bei denen der Benutzer Information des gewünschten Rundfunkprogramms als ein Wiedergewinnungsergebnis nicht erhalten kann, die Ähnlichkeits-Wiedergewinnung basierend auf den Mengen von charakteristischen Deskriptoren, welche an jedes Bild angehängt sind, durchführen. Demgemäß kann der Benutzer sogar, wenn der Benutzer Information des gewünschten Rundfunkprogramms nicht genau erinnert, das gewünschte Rundfunkprogramm gemäß seinem Eindruck von dem gewünschten Rundfunkprogramm wieder gewinnen.
Darüber hinaus gibt es, was die Abläufe in der Herauszieheinheit für charakteristische Werte 3 und in der Erzeugungseinheit für charakteristische Deskriptorenmengen 4, was die herauszuziehenden Charakteristikwerte und was die zu erzeugenden Mengen von charakteristischen Deskriptoren betrifft, verschiedenartige andere Beispiele. Beispielsweise werden, wie in
14 gezeigt ist, bevor umkomprimierte Bilddaten komprimiert werden und in einer Videokomprimierungs- und Videokodierungseinheit 12 kodiert werden, Charakteristikwerte aus den umkomprimierten Bilddaten herausgezogen und an die Herauszieheinheit für charakteristische Werte 3 gesendet und die Charakteristikwerte werden an die Erzeugungseinheit für charakteristische Deskriptorenmengen 4 gesendet. Als ein Anwendungsbeispiel von dem Bildwiedergewinnungssystem, welches die Bilddatenbank-Erzeugungseinheit 1 von 14 aufweist, kann das Bildwiedergewinnungssystem für ein System angewendet werden, in welchem Videodaten, welche erhalten werden, indem die Überwachung über eine lange Zeit durchgeführt wird, komprimiert und gespeichert werden. In diesem System werden Charakteristika (Farbe, Form, Größe, Bewegungsniveau und Bewegungsrichtung) eines sich bewegenden Körpers oder eines eindringenden Objektes unmittelbar aus digitalisierten Videodaten, welche aus einer Kamera eingegeben und nicht komprimiert werden, erfasst, und aus den digitalisierten Videodaten als Charakteristikwerte herausgezogen und charakteristische Deskriptorenmengen werden aus den Charakteristikwerten in der Erzeugungseinheit für charakteristische Deskriptorenmengen 4 erzeugt. Danach wird, in der Bildinformations-Speichereinheit 5, jede Menge von charakteristischen Deskriptoren mit einem zugehörigen Videosegment, welches in der Videokomprimierungs- und Videokodierungseinheit 12 komprimiert und kodiert wird, gespeichert.
In diesem Beispiel können, weil die Charakteristikwerte aus den umkomprimierten Videodaten, welche die detaillierte Charakteristik des bewegten Körpers oder des eindringenden Objekts aufweisen, herausgezogen werden, detaillierte charakteristische Deskriptoren (die detaillierte Beschreibung eines Typs von einem Subjekt oder eines geometrischen Ortes) erzeugt werden, im Vergleich mit dem Fall, bei dem Charakteristikwerte aus komprimierten Daten herausgezogen werden. Demgegenüber wird ein kompliziertes Berechnungsverarbeitungssystem benötigt, um die detaillierten charakteristischen Deskriptoren zu erzeugen. Demgemäß wird eine große Berechnungsleistung für die Herauszieheinheit für charakteristische Werte 3 und die Erzeugungseinheit für charakteristische Deskriptorenmengen 4 benötigt.
Dieses komplizierte Berechnungsverarbeitungssystem kann nicht nur für eine Überwachungskamera angewendet werden, sondern auch für eine Videokamera, welche für einen Rundfunkservice verwendet wird, bei welchem die Qualität und Zuverlässigkeit der Bilder wichtiger sind als die Kosten für die Bilder. In diesem Fall arbeitet das gesamte Bildwiedergewinnungssystem, welches gemäß dieser Ausführungsform beschrieben wurde, als ein Videobibliothekssystem, in welchem Programme in dem Rundfunkservice produziert werden. D.h. dass eine Menge von charakteristischen Deskriptoren von jedem Videobild (oder Bilddaten), welches von der Videokamera erhalten wurde, mit dem Bild in einer Datenbank aufgezeichnet wird. Demgemäß können Bilder, welche einem benötigten Bild ähneln, effizient wieder gewonnen werden, indem Ähnlichkeitselemente, welche in den Bildern gehalten werden, als ein Schlüssel verwendet werden. Auch in Fällen, bei denen das komplizierte Berechnungsverarbeitungssystem für eine Videokamera des persönlichen Bedarfs angewendet wird, werden Bilddaten gemäß einer einfachen Vorbereitungsfunktion vor dem Komprimieren und dem Kodieren für die Bilddaten verarbeitet. Demgemäß kann beispielsweise in Fällen, bei denen eine Menge von charakte ristischen Deskriptoren, welche sich auf ein Gesichtsbild von jeder Person beziehen, hergestellt und mit dem Gesichtsbild auf einem Aufzeichnungsträger aufgezeichnet wird (beispielsweise einem Videoband, einem Personal-Computer oder einer Festplatte, welche in einem Heimserver angeordnet ist), ein Bild entsprechend eines bestimmten Gesichts aus einer großen Zahl von ungeordneten Bildern wieder gewonnen werden gemäß des Abgleichs von der charakteristischen Deskriptorenmenge mit einer Wiedergewinnungsbedingung. Demgemäß kann eine Vielzahl von Aufzeichnungsträgern und Datenbanken unter dem Gesichtspunkt von Attributen von aufgezeichneten Bildern einheitlich gemanagt werden, weil die Attributliste für jede Applikation verwendet wird, und die Hinzufügung und Löschung von Bildern, welche als Kandidaten für die Wiedergewinnung zu verwenden sind, kann einfach durchgeführt werden, indem die Attributliste überprüft wird. Demgemäß kann die Konstruktion des Bildwiedergewinnungssystems ebenso einheitlich und einfach durchgeführt werden, wie die Wiedergewinnungsverarbeitung.
Ausführungsform 2
In einer zweiten Ausführungsform wird eine Vielzahl von Typen von charakteristischen Deskriptoren, welche Bewegung, Helligkeit, Farbe usw. beschreiben, aus Videodaten eines Bewegtbildes herausgezogen, eine Menge von charakteristischen Deskriptoren wird hergestellt, indem die Typen von charakteristischen Deskriptoren untereinander für jeden Makroblock kombiniert werden und die charakteristischen Deskriptorenmengen werden als ein Schlüssel der Wiedergewinnung verwendet. Demgemäß ist es möglich, einen von einem Benutzer beabsichtigten Ablauf auf einem Bildwiedergewinnungssystem und ein Bildwiedergewinnungsverfahren gemäß der zweiten Ausführungsform zu spiegeln. Hiernach wird ein Beispiel des Bildwiedergewinnungssystems und des Bildwiedergewinnungsverfahrens beschrieben. Hier in der ersten Ausführungsform wird die Wiedergewinnungs-Verarbeitungseinheit 10 in dem Server angeordnet. Jedoch wird in dem Bildwiedergewinnungssystem gemäß der zweiten Ausführungsform eine Wiedergewinnungs-Verarbeitungseinheit sowohl in dem Server, als auch in dem Client angeordnet, und der Server und der Client sind miteinander durch sowohl ein Netzwerk A als auch ein Netzwerk B verbunden.
15 ist ein Blockdiagramm, welches die Konfiguration eines charakteristischen Teils, welcher auf einer Serverseite in dem Bildwiedergewinnungssystem gemäß der zweiten Ausführungsform angeordnet ist, zeigt. D.h. 15 zeigt eine detaillierte Konfiguration der Erzeugungseinheit für charakteristische Deskriptorenmengen 4, wie sie in 2 gezeigt ist. Auch ist die Wiedergewinnungs-Verarbeitungseinheit 10 in eine Wiedergewinnungs-Verarbeitungseinheit 10A und eine Wiedergewinnungs-Verarbeitungseinheit 10B aufgeteilt. 15 zeigt ein Blockdiagramm der Wiedergewinnungs-Verarbeitungseinheit 10A, welche auf der Serverseite angeordnet ist, und ein Videoreproduktionsserver, welcher benötigt wird, um ein Wiedergewinnungsergebnis zu reproduzieren, wird in 15 gezeigt.
In 15 bezeichnet 201 komprimierte Videodaten, 202 bezeichnet eine Erzeugungseinheit für charakteristische Deskriptorenmengen, 203 bezeichnet charakteristische Deskriptorendaten, 204 bezeichnet eine Zuverlässigkeitsberechnungseinheit für charakteristische Deskriptoren, 205 bezeichnet Daten, welche eine Zuverlässigkeit von charakteristischen Deskriptoren anzeigen, 206 bezeichnet eine Bestimmungseinheit für die Wiedergewinnungs-Verwendungsreihenfolge von charakteristischen Deskriptoren, 207 bezeichnet Daten für die Wiedergewinnungs-Verwendungsreihenfolge von charakteristischen Deskriptoren (Suchprioritäts-)Daten, 208 bezeichnet Information, welche eine Speicherposition der komprimierten Videodaten 201 anzeigt, und 209 bezeichnet eine Erzeugungseinheit für Beschreibungsdaten zur Wiedergewinnung.
Auch bezeichnet 210 ein File für Beschreibungsdaten zur Wiedergewinnung, 211 bezeichnet eine Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung, 212 bezeichnet charakteristische Deskriptorendaten und ähnliches, welche in der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 analysiert werden, 213 bezeichnet eine Konformitätsbeurteilungs-Verarbeitungseinheit, 214 bezeichnet ein Verarbeitungsergebnis der Konformitätsbeurteilung, 215 bezeichnet eine Kodier- und Übertragungseinheit für Wiedergewinnungsergebnisse, 216 bezeichnet Wiedergewinnungsanforderungsinformation, 217 bezeichnet Wiedergewinnungsergebnisinformation, 218 bezeichnet einen Videoreproduktionsserver, 219 bezeichnet Reproduktionsanforderungsinformation, 220 bezeichnet eine Reproduktionssteuereinheit, 221 bezeichnet Information, welche einen reproduzierten Inhalt spezifiziert, 222 bezeichnet zu reproduzierende Videoinhaltsdaten, 223 bezeichnet eine Videodaten-Übertragungseinheit und 224 bezeichnet Liefervideodaten.
16 ist ein Blockdiagramm, welches hauptsächlich die Konfiguration eines charakteristischen Teils, welcher auf einer Client-Seite des Bildwiedergewinnungssystems gemäß der zweiten Ausführungsform angeordnet ist, zeigt. D.h. die in 2 gezeigte Wie dergewinnungs-Verarbeitungseinheit 10 ist in die Wiedergewinnungs-Verarbeitungseinheit 10A und die Wiedergewinnungs-Verarbeitungseinheit 10B geteilt und 16 zeigt ein detailliertes Blockdiagramm der Wiedergewinnungs-Verarbeitungseinheit 10B, welche auf der Client-Seite angeordnet ist. Auch zeigt 16 ein Benutzerinterface, welches sowohl für die Interaktion zwischen einem Benutzer und einer Videodekodier- und Videoreproduktionseinheit, in welcher ein Wiedergewinnungsergebnis für den Benutzer reproduziert wird, als auch für die Anzeige von reproduzierten Videodaten angeordnet ist.
In 16 bezeichnet 225 ein Netzwerk A, 227 bezeichnet eine Kodier- und Übertragungseinheit für Wiedergewinnungsanforderungsinformation, 228 bezeichnet eine Empfangs- und Darstellungseinheit für Wiedergewinnungsergebnisse, 229 bezeichnet eine Benutzerinterfaceeinheit, 230 bezeichnet eine von einem Benutzer ausgesandte Wiedergewinnungsanforderung, 231 bezeichnet ein Wiedergewinnungsergebnis, welches in der Benutzerinterfaceeinheit 229 anzuzeigen ist, 232 bezeichnet einen Benutzer, 233 bezeichnet eine Wiedergewinnungsergebnis-Reproduktionsanforderung, 234 bezeichnet Information, welche die Reproduktion eines wieder gewonnenen Bewegtbildes anzeigt, 235 bezeichnet eine Videoreproduktions-Steuereinheit, 237 bezeichnet ein Netzwerk B und 239 bezeichnet eine Videodekodier- und Videoreproduktionseinheit.
Hier werden die Wiedergewinnungsanforderungsinformation 216, die Wiedergewinnungsergebnisinformation 217, die Reproduktionsanforderungsinformation 219 und die Lieferungsvideodaten 224 zwischen der Wiedergewinnungs-Verarbeitungseinheit 10B, der Videoreproduktions-Steuereinheit 235 und der Videodekodier- und Videoreproduktionseinheit 239, wie sie in 16 gezeigt sind, und der Wiedergewinnungs-Verarbeitungseinheit 10A und dem Videoreproduktionsserver 218, wie sie in 15 gezeigt sind, durch die Netzwerke A225 und B237 übertragen und empfangen. Hier bezeichnet das Netzwerk A225 ein Netzwerk, in welchem die Zuverlässigkeit in der Datenübertragung wichtiger ist als eine hohe Geschwindigkeit der Datenübertragung. Beispielsweise bezeichnet das Netzwerk A225 eine Verbindung, wie Transmission Control Protocol/Internet Protocol (TCP/IP). Auch bezeichnet das Netzwerk B237 ein Netzwerk, in welchem eine Hochgeschwindigkeitsdatenübertragung zur Übertragung in Realzeit wichtiger ist, als die Zuverlässigkeit in der Datenübertragung. Beispielsweise bezeichnet das Netzwerk B237 eine Verbindung, wie Realtime Transport Protocol/User Datagram Protocol/Internet Protocol (RTP/UDP/IP).
Auch entspricht die Benutzerinterfaceeinheit 229, welche in 16 gezeigt ist, dem in 2 gezeigten Client und die Benutzerinterfaceeinheit 229 bezeichnet eine Client-Anwendung, welche die Funktion sowohl der Benutzerinterfaceeinheit 9 als auch der Darstellungseinheit 11 aufweist.
Auch bezeichnet wie oben beschrieben die in 15 gezeigte Konfiguration eine Komponente, welche auf der Serverseite angeordnet ist, und die in 16 gezeigte Konfiguration bezeichnet eine Komponente, welche auf der Clientseite angeordnet ist. Wie in 15 und 16 realisiert, wird in dem Bildwiedergewinnungssystem die Wiedergewinnungsverarbeitung, wie beispielsweise eine Wiedergewinnungskonformitäts-Beurteilungsverarbeitung in der auf der Serverseite angeordneten Wiedergewinnungs-Verarbeitungseinheit 10A durchgeführt, Anforderungsinformation, welche Geschmäcker des Benutzers 232 in der Wiedergewinnungsverarbeitung anzeigt, wird gemäß einer vorbeschriebenen Regel auf der Client-Seite kodiert, die Anforderungsinformation wird an den Server übertragen und die Anforderungsinformation wird in dem Server analysiert, um die Anforderungsinformation auf die Wiedergewinnungsverarbeitung zu spiegeln.
Weil das Bildwiedergewinnungssystem den oben beschriebenen Server und Client aufweist, ist es nicht notwendig, dass ein File, in welchem eine große Menge von Videobeschreibungsdaten, welche für die Wiedergewinnung zu verwenden sind, gespeichert ist, an den Client durch das Netzwerk A225 und B237 übertragen wird. Demgemäß kann eine Netzwerkbenutzungseffizienz gesteigert werden.
Auch werden, als ein gewöhnliches Präsentations- oder Darstellungs-)verfahren des Wiedergewinnungsergebnisses Kandidaten für die Wiedergewinnung im allgemeinen einem Benutzer präsentiert. Jedoch werden nicht alle Stücke von Videodaten, welche als Kandidaten für die Wiedergewinnungsergebnisinformation ausgewählt werden, an den Client übertragen, sondern wirklich von dem Benutzer 232 benötigte Wiedergewinnungsergebnisse können an den Client übertragen werden, indem das Bildwiedergewinnungssystem mit einem Realzeit-Videoreproduktionssystem kombiniert wird. Demgemäß kann eine Gesamtnetzwerk-Verwendungseffizienz gesteigert werden.
Das Merkmal der Wiedergewinnungsverarbeitung in dem Bildwiedergewinnungssystem ist, dass ein numerischer Wert, welcher die Zuverlässigkeit der Beschreibung von jedem Typ von charakteristischem Videodeskriptor anzeigt, berechnet wird, dass die Reihenfolge der Typen von charakteristischen Videodeskriptoren, welche für die Wiedergewinnung verwendet werden, gemäß den numerischen Werten bestimmt wird und dass die numerischen Werte in einem XML-File von Beschreibungsdaten zur Wiedergewinnung als ein Teil der Beschreibungsdaten zur Wiedergewinnung abgespeichert werden. Auch kann ein spezifischer Deskriptor, welcher die Reihenfolge der Typen von charakteristischen Videodeskriptoren, welche für die Wiedergewinnung verwendet werden, anzeigt, gemäß einer auf der Client-Seite eingegebenen Benutzeranforderung, welche die Geschmäcker des Benutzers auf die Wiedergewinnung spiegelt, erneuert werden. Demgemäß arbeitet der spezifische Deskriptor als ein Deskriptor, welcher einen Parameter, welcher sich auf die Kombination von einer Vielzahl von Typen von charakteristischen Videodeskriptoren in der Wiedergewinnung bezieht, zur Verfügung stellt.
Auch werden die numerischen Werte, welche die Zuverlässigkeit der Beschreibung der Typen von charakteristischen Videodeskriptoren anzeigen, verwendet, um einen Systemparameter, welcher sich auf die Anzahl von Wiedergewinnungsergebniskandidaten bezieht, zu bestimmen, welcher in einem Schritt, in welchem die charakteristischen Videodeskriptoren für die Wiedergewinnung verwendet werden, verringert wird. Hiernach wird der spezifische Deskriptor, welcher die Reihenfolge der Typen von charakteristischen Videodeskriptoren, welche für die Wiedergewinnung verwendet werden, anzeigt, als „Suchpriorität" bezeichnet und der numerische Wert, welcher die Zuverlässigkeit der Beschreibung von jedem Typ von charakteristischem Videodeskriptor anzeigt, wird als „Grad an Zuverlässigkeit" bezeichnet. Eine detaillierte Bedeutung und ein Verwendungsverfahren von sowohl der Suchpriorität als auch dem Grad an Zuverlässigkeit werden später beschrieben.
17 zeigt ein Flussdiagramm, welches die Erzeugung von Beschreibungsdaten zur Wiedergewinnung und die Wiedergewinnungsverarbeitung in diesem Bildwiedergewinnungssystem zeigt. Hiernach wird eine Arbeitsweise des Bildwiedergewinnungssystems gemäß der zweiten Ausführungsform im Detail unter Bezugnahme auf 15 bis 17 beschrieben.
(1) Die Erzeugung eines Files für Beschreibungsdaten zur Wiedergewinnung 210 (Schritt ST30 bis Schritt ST33)
Zunächst wird eine Verarbeitung, welche später beschrieben wird, mit den komprimierten Videodaten 201, welche Eingangsbilddaten, die als Beschreibungsdaten zur Wiedergewinnung zu addieren sind, bezeichnen, durchgeführt, und ein File für Beschreibungsdaten zur Wiedergewinnung 210 wird erzeugt. Hiernach werden die komprimierten Videodaten 201, welche sich auf die Erzeugung des Files für die Beschreibungsdaten zur Wiedergewinnung 210 beziehen, als ein Videosegment bezeichnet. Wie es in der ersten Ausführungsform beschrieben ist, bezeichnet das Videosegment eine Einheit von Videodaten, welche sich aus einer beliebigen Anzahl von Vollbildern zusammensetzt. Demgemäß bezeichnet das Videosegment manchmal ein Fernsehprogramm oder ein Videosoftwarepacket. In diesem Fall wird das Fernsehprogramm und das Videosoftwarepacket jeweils als „Videoprogramm" bezeichnet, welches äquivalent zu einem Videosegment ist. Auch bezeichnet das Videosegment manchmal eine Szene aus mehreren Szenen, welche erhalten werden, indem ein Fernsehprogramm gemäß der Bedeutung, welche von dem Fernsehprogramm an gezeigt wird, geteilt wird oder eine Kameraeinstellung aus mehreren Kameraeinstellungen, welche erhalten werden, indem jede Szene geteilt wird. In diesem Fall wird die Szene als „Videoszene" bezeichnet, welche manchmal äquivalent zu einem Videosegment ist, und die Kameraeinstellung wird als „Videoeinstellung" bezeichnet, welche manchmal äquivalent zu einem Videosegment ist.
Demgemäß sind die Anzahl von Vollbildern in einem Videoprogramm, die Anzahl von Vollbildern in einer Videoszene und die Anzahl von Vollbildern in einer Videoeinstellung jeweils unterschiedlich.
(1-1) Die Struktur von Beschreibungsdaten zur Wiedergewinnung
18 ist ein Diagramm, welches eine Struktur von Beschreibungsdaten zur Wiedergewinnung, welche das File für Beschreibungsdaten zur Wiedergewinnung 210 in der zweiten Ausführungsform zusammensetzen, zeigt. In 18 wird in einer Struktur von Beschreibungsdaten zur Wiedergewinnung ein Videoprogramm 240 in der höchstrangigen Hierarchie angeordnet, eine Gruppe von Videoszenen 243 (abgekürzt als „Szene" in 18), welche das Videoprogramm 240 zusammensetzen, wird in einer nächsten Hierarchie angeordnet und eine Gruppe von Videoeinstellungen 244 (abgekürzt als „Einstellung" in 18), welche jede Videoszene 243 zusammensetzen, wird in der niedrigstrangigen Hierarchie angeordnet. Hier werden das Videosegment (das Videoprogramm 240, die Videoszene 243 und die Videoeinstellung 244), eine Suchpriorität 241 und jeder Grad an Zuverlässigkeit 242 über „0" angezeigt und jedes Videosegment, insbesondere eine Gruppe von charakteristischen Deskriptoren 245 bis 249, welche die Videoeinstellung 244 beschreiben, wird über „o" angezeigt. In diesem Bildwiedergewinnungssystem wird eine Menge von charakteristischen Deskriptoren 245 bis 249, welche sich auf jede Videoeinstellung 244 beziehen, erzeugt.
1. Größenordnung der Bewegung 245
Die Bewegungsstärke 245 bezeichnet einen charakteristischen Deskriptor, welcher sich auf eine Länge eines Bewegungsvektors in dem Videosegment bezieht.
2. Bewegungsrichtung 246
Die Bewegungsrichtung 246 bezeichnet einen charakteristischen Deskriptor, welcher sich auf eine Richtung des Bewegungsvektors in dem Videosegment bezieht.
3. Bewegungsverteilung 247
Die Bewegungsverteilung 247 bezeichnet einen charakteristischen Deskriptor, welcher sich auf eine Im-Bildschirm-Verteilung des Bewegungsvektors in dem Videosegment bezieht.
4. Helligkeit 248
Die Helligkeit 248 bezeichnet einen charakteristischen Deskriptor, welcher sich auf eine durchschnittliche Helligkeit in dem Videosegment bezieht.
5. Repräsentative Farbe 249
Die repräsentative Farbe 249 bezeichnet einen charakteristischen Deskriptor, welcher sich auf eine repräsentative Farbe in dem Videosegment bezieht.
Hier wird der Grad an Zuverlässigkeit 242 für jede der Hierarchien 240, 243 und 244 und für jeden der charakteristischen Deskriptoren 245 bis 249 gesetzt. Auch wird die Suchpriorität 241 zu dem Videoprogramm, welches in der höchstrangigen Hierarchie angeordnet ist, hinzuaddiert.
In Fällen, bei denen die Benutzungsreihenfolge der Typen von charakteristischen Deskriptoren in der Wiedergewinnung geändert wird, wird das Wiedergewinnungsergebnis geändert. In diesem Beispiel wird erwartet, dass, weil eine Vielzahl von Videosegmenten, welche unter dem Gesichtspunkt der Bewegungsstärke gut mit der Wiedergewinnungsanforderung des Benutzers übereinstimmen, ausgewählt wird, wenn die Datenbank auf einen Anfangszustand gesetzt wird, das Wiedergewinnungsergebnis, welches schließlich dem Benutzer präsentiert wird, zuverlässigerweise die höchste Ähnlichkeit mit der Wiedergewinnungsanforderung unter einem Gesichtspunkt der Bewegungsstärke aufweist. Demgemäß kann, weil Information der Benutzungsreihenfolge in der Wiedergewinnung für die Videosegmente zur Verfügung gestellt wird, der Benutzer immer das Wiedergewinnungsergebnis basierend auf einer Information der Suchpriorität 241 erhalten. Auch kann das Wiedergewinnungsergebnis entsprechend der Absicht des Benutzers flexibel erhalten werden, weil der Benutzer die Information der Suchpriorität 241 dynamisch ändern kann.
Auch ist in der zweiten Ausführungsform, da angenommen wird, dass ein oder mehrere Videoeinstellungen 244, welche ähnlich zu einer spezifizierten Videoeinstellung 244 des Videoprogramms 240 sind, aus demselben Videoprogramm 240 wieder gewonnen werden, die Suchpriorität 241 lediglich dem Videoprogramm 240 angehängt und die Suchpriorität 241 nicht an die Videosegmente, welche den Hierarchien der Videoszenen 243 und der Videoeinstellungen 244 entsprechen, angehängt.
Als nächstes wird der Grad an Zuverlässigkeit 242, welcher für jeden charakteristischen Deskriptor gesetzt wird, beschrieben. Beispielsweise zeigt in einem Fall, dass der charakteristische Deskriptor sich auf die Bewegungsstärke bezieht, der Grad an Zuverlässigkeit 242 an, wie genau der charakteristische Deskriptor die Bewegungsstärke von Videoinhalten beschreibt, und der Grad an Zuverlässigkeit wird objektiv durch einen numerischen Wert ausgedrückt. Ein Verfahren zum Ausdrücken des Grades an Zuverlässigkeit 242 durch einen numerischen Wert wird im Detail beschrieben, wenn die Erzeugung von verschiedenen Typen von charakteristischen Deskriptoren beschrieben wird. In der zweiten Ausführungsform wird der Grad an Zuverlässigkeit 242 in einen Grad an Zuverlässigkeit 242C, welcher für jeden Typ von charakteristischem Deskriptor 245 bis 249 von jeder Videoeinstellung 244 berechnet wird und zu jeder Videoeinstellung 244 angehängt wird, in einen Grad an Zuverlässigkeit 242B, welcher jeder Videoszene 243 angehängt ist und auf den Durchschnitt der Grade an Zuverlässigkeit 242C von allen Videoeinstellungen 244, welche die entsprechende Videoszene 243 zusammen setzen, gesetzt ist ist, und einen Grad an Zuverlässigkeit 242A, welcher dem Videoprogramm 240 angehängt ist und auf den Durchschnitt von Werten der Grade an Zuverlässigkeit 242B von allen Videoszenen 243, welche das Videoprogramm 240 zusammen setzen, gesetzt ist, klassifiziert. Die Grade an Zuverlässigkeit 242, welche an die Elemente, welche die Beschreibungsdaten zur Wie dergewinnung zusammen setzen, angehängt sind, werden hauptsächlich für ein anfängliches Setzen der Suchpriorität 241 und ein Parametersetzen in der Wiedergewinnungsverarbeitung verwendet. Die Verwendung von den Graden an Zuverlässigkeit 242 wird später im Detail beschrieben.
(1-2) Die Verarbeitung zur Erzeugung der Beschreibungsdaten zur Wiedergewinnung
(1-2-1) Die Verarbeitung zur Erzeugung der charakteristischen Deskriptoren (Schritt ST30)
Bei der Erzeugung von jedem charakteristischen Deskriptor wird ein Bildcharakteristikwert, wie beispielsweise ein Bewegungsvektor oder ein Wert des Gleichstromanteils, welcher für das Erzeugen des charakteristischen Deskriptors notwendig ist, aus den komprimierten Videodaten 201 in der Herauszieheinheit für charakteristische Werte 3 herausgezogen und der charakteristische Deskriptor wird von dem Bildcharakteristikwert in der Erzeugungseinheit für charakteristische Deskriptoren 202 erzeugt (Schritt ST30). Hiernach wird ein Verfahren zum Erzeugen jedes charakteristischen Deskriptors im Detail beschrieben.
(a) Der charakteristische Deskriptor 245, welcher sich auf die Bewegungsstärke bezieht
Ein Inter-Vollbild (P-Vollbild), welches ein k-tes-Vollbild in einem Videosegment bezeichnet, wird berücksichtigt und eine Länge (oder Größenordnung) C_k[n] eines Bewegungsvektors MV_k[n] (1 ≤ n ≤ N, N bezeichnet die Anzahl von Makroblöcken, welche in dem Vollbild angeordnet sind) von jedem von allen Makroblöcken, welche in dem Inter-Vollbild angeordnet sind, wird herausgezogen.

X_n:: eine Seitwärtskomponente des Bewegungsvektors MV_k[n]
Y_n:: eine Längskomponente des Bewegungsvektors MV_k[n].

Danach werden der Mittelwert C avg / k und die Varianz σ 2 / k der Längen C_k[n] der einem Vollbild entsprechenden Bewegungsvektoren berechnet.
Als ein Ergebnis eine Datenmenge (C avg / k, σ 2 / k) des charakteristischen Deskriptors Bezug nehmend auf die Bewegungsstärke in dem K-ten Inter-Vollbild. Zusätzlich wird, um den Durchschnitt der Längen C_k[n] der Bewegungsvektoren entsprechend einem Videosegment zu erhalten, der Durchschnitt der Längen C_k[n] der Bewegungsvektoren berechnet, indem die Anzahl von Inter-Vollbildern in dem Videosegment verwendet wird.
(b) Der charakteristische Deskriptor 246, welcher sich auf die Bewegungsrichtung bezieht
Eine Vielzahl von Winkeln A_k[n] der Bewegungsvektoren MV_k[n] wird gemäß einer folgenden Gleichung (10) für jedes Inter-Vollbild berechnet. Die Winkel werden durch die Einheit eines „Grades" ausgedrückt. Ak[n] = tan–1(yn/xn) (10)
Im Gegensatz dazu werden Winkel A_k[n] = 0 für die Makroblöcke von jedem Inter-Vollbild gesetzt. Der Durchschnittswert der Winkel A_k[n] für das k-te Inter-Vollbild wird gemäß einer folgenden Gleichung (11) für jedes Inter-Vollbild berechnet.
Darüber hinaus wird der Durchschnitt der Winkel A_k[n] für ein Videosegment berechnet, indem die Anzahl von Inter-Vollbildern in dem Videosegment verwendet wird.
(c) Der charakteristische Deskriptor 247, welcher sich auf die Bewegungsverteilung bezieht
Die Schwellwertverarbeitung wird für die Längen C_k[n] der Bewegungsvektoren MV_k[n] von jedem k-ten Inter-Vollbild durchgeführt. C'k [n] = Ck[n]; wenn Ck[n] ≥ Cavgk C'k [n] = 0; wenn Ck[n] < Cavgk (12)
Danach werden die Werte C_k'[n], welche eine Verteilung von neuen Bewegungsvektoren von jedem k-ten Inter-Vollbild anzeigen, in der Rasterabtastreihenfolge abgetastet und Werte SR_k, MR_k und LR_k, welche die Bewegungsverteilung charakterisieren, werden berechnet.

SR_k: Die Anzahl von Null-Runs (d.h. Kurz-Runs), welche jeweils eine Länge gleich oder kleiner als eine Länge entsprechend 1/3 der Anzahl von seriell in der Seitwärtsrichtung des Vollbildes angeordneten Pixeln aufweisen.
MR_k: Die Anzahl von Null-Runs (d.h. mittlere Runs), welche jeweils eine Länge größer als eine Länge entsprechend 1/3 der Anzahl von seriell in der Seitwärtsrichtung des Vollbildes angeordneten Pixeln aufweisen und welche eine Länge kürzer als eine Länge entsprechend 2/3 der Anzahl von seitwärts angeordneten Pixeln aufweisen.
LR_k: Die Anzahl von Null-Runs (d.h. Lang-Runs), welche jeweils eine Länge gleich oder größer als eine Länge entsprechend 2/3 der Anzahl von seriell in der Seitwärtsrichtung des Vollbildes angeordneten Pixeln aufweisen.

Hier ist, wie es in der ersten Ausführungsform beschrieben ist, wie es in 8 realisiert ist, die Komplexität der Bewegung in einem Vollbild, in welchem viele Kurz-Runs existieren, hoch und die Bewegung ist in einem breiten Bereich des Vollbildes verteilt. Im Gegensatz dazu ist die Bewegung in einem Vollbild, in welchem viele Lang-Runs existieren, lokalisiert.
Danach werden der Durchschnitt der Werte SR_k für ein Videosegment, der Durchschnitt der Werte MR_k für ein Videosegment und der Durchschnitt der Werte LR_k für ein Videosegment berechnet, indem die Anzahl von Inter-Vollbildern in dem Videosegment verwendet wird.
(d) Der charakteristische Deskriptor 248, welcher sich auf die Helligkeit bezieht
Ein Histogramm von Gleichstromanteilen, welche in Helligkeitssignalen der Makroblöcke eines Inter-Vollbildes enthalten sind, wird für jedes Inter- Vollbild verwendet. Im Detail weist jeder Gleichstromanteil einen Wert, welcher von 0 bis 255 reicht, auf, der Gesamtbereich der Werte wird in 16 Auswahlbereiche klassifiziert, indem die Werte der Gleichstromanteile quantisiert werden, und die Anzahl H_i(j) der Stichproben (d.h. Gleichstromanteile), welche jedem Auswahlbereich entsprechen, wird gezählt, um ein Histogramm von Gleichstromanteilen für jedes i-te Inter-Vollbild zu erhalten. Danach wird der Durchschnitt der Anzahl H_i(j) der Stichproben von jedem Auswahlbereich für ein Videosegment gemäß einer folgenden Gleichung (13) berechnet, indem die Anzahl N von Inter-Vollbildern in dem Videosegment verwendet wird.
(e) Der charakteristische Deskriptor 249, welcher sich auf die repräsentative Farbe bezieht
Für jedes Inter-Vollbild wird ein Histogramm von Gleichstromanteilen, welche in Helligkeits- und Farbdifferenzsignalen der Makroblöcke von einem Inter-Vollbild enthalten sind, verwendet. Im Detail weist jeder Gleichstromanteil einen Wert, welcher von 0 bis 255 reicht, auf, der Gesamtbereich des Wertes wird in 16 Auswahlbereiche klassifiziert, indem die Werte der Gleichstromanteile quantisiert werden, und die Anzahl H k / i(j) von Stichproben (d.h. Gleichstromanteilen) entsprechend jedem Auswahlbereich wird gezählt, um ein Histogramm von Gleichstromanteilen für jedes i-te Inter-Vollbild zu erhalten. Danach wird der Durchschnitt der Anzahl H k / i(j) von Stichproben von jedem Auswahlbereich für ein Videosegment gemäß einer fol genden Gleichung (14) berechnet, indem die Anzahl N von Inter-Vollbildern in dem Videosegment verwendet wird.

k:: R, G oder B im Farbraum, j = 0,K,15

(1-2-2) Die Verarbeitung zum Berechnen des Grades an Zuverlässigkeit (Schritt ST31)
Danach wird der Grad an Zuverlässigkeit 242 (welcher äquivalent zur charakteristischen Deskriptorenzuverlässigkeit 205 ist, welche in 15 gezeigt wird) für jeden der charakteristischen Deskriptoren 245 bis 249, welche in dem Schritt ST30 berechnet wurden, in der Zuverlässigkeits-Berechnungseinheit für charakteristische Deskriptoren 204 berechnet (Schritt ST31). Ein Berechnungsverfahren für jeden der charakteristischen Deskriptoren 245 bis 249 wird beschrieben.
(a) Der charakteristische Deskriptor, welcher sich auf die Bewegungsstärke 245 bezieht
Die Datenmenge (C avg / k_' σ 2 / k) des charakteristischen Deskriptors, welcher sich auf die Bewegungsstärke bezieht, wird für jedes von allen Inter-Vollbildern des Videosegments herausgezogen. Danach wird der Durchschnitt der Datenmengen, welcher dem Videosegment entspricht, berechnet, indem die Anzahl von Inter-Vollbildern des Videosegmentes verwendet wird, ein Absolutwert einer Differenz zwischen dem Durchschnitt der Datenmengen und der Datenmenge (C avg / k_' σ 2 / k) entsprechend jedem Inter-Vollbild wird berechnet, der Durchschnitt der differentiellen Absolutwerte entsprechend der Inter-Vollbilder wird berechnet, indem die diffe rentiellen Absolutwerte zueinander addiert werden und die differentiellen Absolutwerte werden gemäß des Durchschnitts der differentiellen Absolutwerte normalisiert, um einen Maximalwert unter den differentiellen Absolutwerten auf 0 zu setzen und um einen Minimalwert unter den differentiellen Absolutwerten auf 100 zu setzen. Die normalisierten differentiellen Absolutwerte zeigen die Beschreibungspräzision des Videosegments auf der Basis der Beschreibungspräzision der Inter-Vollbilder an. Der Grad von Zuverlässigkeit für den charakteristischen Deskriptor 245 wird durch den Durchschnitt der Grade an Zuverlässigkeit für die Datenmengen (C avg / k_' σ 2 / k) entsprechend der Inter-Vollbilder angezeigt.
(b) Der charakteristische Deskriptor, welcher sich auf die Bewegungsrichtung 246 bezieht
Das Herausziehen der Winkel A avg / k wird für alle Inter-Vollbilder des Videosegmentes durchgeführt. Danach wird der dem Videosegment entsprechende Durchschnitt der Winkel A avg / k berechnet, indem die Anzahl von Inter-Vollbildern des Videosegmentes verwendet wird, ein Absolutwert einer Differenz zwischen dem Durchschnitt der Winkel A avg / k und dem Winkel A avg / k entsprechend jedem Inter-Vollbild wird berechnet, der Durchschnitt der differentiellen Absolutwerte entsprechend den Inter-Vollbildern wird berechnet, indem die differentiellen Absolutwerte zueinander addiert werden und die differentiellen Absolutwerte werden gemäß dem Durchschnitt der differentiellen Absolutwerte normalisiert, um einen Maximalwert unter den differentiellen Absolutwerten auf 0 zu setzen und um einen Minimalwert unter den differentiellen Absolutwerten auf 100 zu setzen. Die normalisierten differentiellen Absolutwerte bezeichnen die Beschreibungspräzision des Videosegmentes auf der Basis der Beschreibungspräzision der Inter-Vollbilder.
(c) Der charakteristische Deskriptor, welcher sich auf die Bewegungsverteilung 247 bezieht
Das Herausziehen der Wertemengen (SR_k, MR_k und LR_k) wird für alle Inter-Vollbilder des Videosegmentes durchgeführt. Danach wird der dem Videosegment entsprechende Durchschnitt der Wertemengen (SR_k, MR_k und LR_k) berechnet, indem die Anzahl von Inter-Vollbildern des Videosegmentes verwendet wird, ein Absolutwert einer Differenz zwischen dem Durchschnitt der Wertemengen (SR_k, MR_k und LR_k) und der Wertemenge (SR_k, MR_k und LR_k) entsprechend jedem Inter-Vollbild wird berechnet, der Durchschnitt der differentiellen Absolutwerte entsprechend den Inter-Vollbildern wird berechnet, indem die differentiellen Absolutwerte zueinander addiert werden und die differentiellen Absolutwerte werden gemäß dem Durchschnitt der differentiellen Absolutwerte normalisiert, um einen Maximalwert unter den differentiellen Absolutwerten auf 0 zu setzen und um einen Minimalwert unter den differentiellen Absolutwerten auf 100 zu setzen. Die normalisierten differentiellen Absolutwerte bezeichnen die Beschreibungspräzision des Videosegmentes auf der Basis der Beschreibungspräzision der Inter-Vollbilder. Der Grad an Zuverlässigkeit für den charakteristischen Deskriptor 245 wird durch den Durchschnitt der Grade an Zuverlässigkeit für die Wertemengen (SR_k, MR_k und LR_k) entsprechend den Inter-Vollbildern angezeigt.
(d) Der charakteristische Deskriptor, welcher sich auf die Helligkeit 248 bezieht
Ein Absolutwert einer Differenz zwischen dem Durchschnittshistogramm (zusammen gesetzt aus den Anzahlen H_avg(j) der Stichproben in den Auswahlbereichen) entsprechend dem Videosegment und dem Histogramm (zusammen gesetzt aus den Anzahlen H_i(j) von Stichproben in den Auswahlbereichen) entsprechend einem Inter-Vollbild wird für jedes aller Inter-Vollbilder des Videosegmentes berechnet, der Durchschnitt der differentiellen Absolutwerte entsprechend der Inter-Vollbilder wird berechnet, indem die differentiellen Absolutwerte zueinander addiert werden und die differentiellen Absolutwerte werden gemäß dem Durchschnitt der differentiellen Absolutwerte normalisiert, um einen Maximalwert unter den differentiellen Absolutwerten auf 0 zu setzen und um einen Minimalwert unter den differentiellen Absolutwerten auf 100 zu setzen. Die normalisierten differentiellen Absolutwerte bezeichnen die Beschreibungspräzision des Videosegmentes auf der Basis der Beschreibungspräzision der Inter-Vollbilder. Der Grad an Zuverlässigkeit für den charakteristischen Deskriptor 248 wird durch die Histogramme entsprechend den Inter-Vollbildern angezeigt.
(e) Der charakteristische Deskriptor, welcher sich auf die repräsentative Farbe 249 bezieht
Ein Absolutwert einer Differenz zwischen dem Durchschnitts-Farbraumhistogramm (zusammen gesetzt aus den Anzahlen A k / avg(j) von Stichproben in den Auswahlbereichen) entsprechend dem Videosegment und dem Farbraumhistogramm (zusammen gesetzt aus den Anzahlen H k / i(j) von Stichproben in den Auswahlbereichen) entsprechend einem Inter-Vollbild wird für jedes aller Inter-Vollbilder des Videosegmentes berechnet, der Durchschnitt der differentiellen Absolutwerte entsprechend der Inter-Vollbilder wird berechnet, indem die differentiellen Absolutwerte zueinander addiert werden und die differentiellen Absolutwerte werden gemäß dem Durchschnitt der differentiellen Absolutwerte normalisiert, um einen Maximalwert unter den differentiellen Absolutwerten auf 0 zu setzen und um einen Minimalwert unter den differentiellen Absolutwerten auf 100 zu setzen. Die normalisierten differentiellen Absolutwerte bezeichnen die Beschreibungspräzision des Videosegmentes auf der Basis der Beschreibungspräzision der Inter-Vollbilder. Der Grad an Zuverlässigkeit für den charakteristischen Deskriptor 249 wird durch die Farbraumhistogramme entsprechend den Inter-Vollbildern angezeigt.
(1-2-3) Die Verarbeitung zum Setzen der Suchpriorität 241 (Schritt ST32)
Wenn die Berechnung der charakteristischen Deskriptoren 245 bis 249 und die Berechnung der Grade an Zuverlässigkeit 242 für jede aller Videoeinstellungen 244, welche in dem Videoprogramm 240 enthalten sind, beendet wird, wird ein anfängliches Setzen der Suchpriorität 241 für das Videoprogramm 240 durchgeführt (Schritt ST32). Ein Verfahren zum anfänglichen Setzen kann beliebig gemäß dem Design des Bildwiedergewinnungssystems vorgeschrieben werden. Jedoch wird in der zweiten Ausführungsform ein Verfahren zum anfänglichen Setzen gemäß der Grade von Zuverlässigkeit 242A für alle charakteristischen Deskriptoren 245 bis 249 des Videoprogramms 240 bestimmt. Der Grad an Zuverlässigkeit 242A für jeden charakteristischen Deskriptor „k" des Videoprogramms 240 wird über ψ_k ausgedrückt, der Grad an Zuverlässigkeit 242B für jeden charakteristischen Deskriptor der m-ten Videoszene wird über ψ_k(m) ausgedrückt und der Grad an Zuverläs sigkeit 242C für jeden charakteristischen Deskriptor der n-ten Videoeinstellung der m-ten Videoszene wird über ψ_k(m, n) ausgedrückt. In diesem Fall wird eine folgende Beziehung unter ψ_k, ψ_k(m) und ψ_k(m, n) erfüllt.
Demgemäß wird, da der Grad an Zuverlässigkeit ψ_k für einen Typ von charakteristischem Deskriptor „k" des Videoprogramms 240 erhöht wird, die Inhaltsbeschreibung des Typs von charakteristischem Deskriptor „k" in dem Videoprogramm 240 besser. Demgemäß wird die Suchpriorität 241 bestimmt, um die charakteristischen Deskriptoren 245 bis 249 des Videoprogramms 240 in der Wiedergewinnung in der Reihenfolge der Verringerung des Grades an Zuverlässigkeit ψ_k zu verwenden.
(1-2-4) Das Schreiben des Files für Beschreibungsdaten zur Wiedergewinnung 210 (Schritt ST33)
Nachdem die oben beschriebene Verarbeitung durchgeführt ist, werden alle charakteristischen Deskriptoren 245 bis 249 des Videoprogramms 240, die Videoszenen 243 und die Videoeinstellungen 244, die Suchpriorität 241, die Grade an Zuverlässigkeit 242 in der Erzeugungseinheit für Beschreibungsdaten zur Wiedergewinnung 209 in das Format des XML-Files unter Bezugnahme auf eine Raum-Zeit-Struktur der komprimierten Videodaten 201 gemäß der in 18 gezeigten Struktur geschrieben, und ein File für Beschreibungsdaten zur Wiedergewinnung 210 wird erzeugt. Danach wird das erzeugte File für Beschreibungsdaten zur Wiedergewinnung 210 an die Bildinformations- Speichereinheit 5 ausgegeben und gespeichert (Schritt ST33). Hier wird in diesem Schritt, um dem Benutzer zu ermöglichen, sich auf Information, welche Videodaten, von denen das erzeugte File für Beschreibungsdaten zur Wiedergewinnung 210 erzeugt wird, anzeigt, zu beziehen, Information 208, welche eine Speicherposition der komprimierten Videodaten 201 anzeigt, in dem Format des XML-Files geschrieben, um die Information 208 in das File für Beschreibungsdaten zur Wiedergewinnung 210 zu einzubeziehen, und das File für Beschreibungsdaten zur Wiedergewinnung 210, welches die Information 208 enthält, wird an die Bildinformations-Speichereinheit 5 ausgegeben. Damit kann, wenn das File 210 analysiert wird, die Position der zu beschreibenden Videodaten spezifiziert werden.
(2) Die Wiedergewinnungsverarbeitung
Als nächstes wird die Wiedergewinnungsverarbeitung für eine Abfrage (beispielsweise eine Videoeinstellung, welche auf einer Wiedergewinnungsanforderungsseite spezifiziert ist), welche über einen Benutzer auf der Client-Seite spezifiziert wird, im Detail beschrieben. Die Wiedergewinnungsverarbeitung wird durch die Wiedergewinnungs-Verarbeitungseinheit 10A, welche in 15 gezeigt ist, und die Wiedergewinnungs-Verarbeitungseinheit 10B, welche in 16 gezeigt ist, durchgeführt.
In der Wiedergewinnungs-Verarbeitungseinheit 10A wird Wiedergewinnungsanforderungsinformation 216, welche von dem Client übertragen wird, analysiert, eine Abfrage wird spezifiziert, ein vorgeschriebenes Wiedergewinnungsergebnis wird gemäß der Konformitäts-Beurteilungsverarbeitung, in welcher das erzeugte File für Beschreibungsdaten zur Wiedergewinnung, wel ches in der Bildinformations-Speichereinheit 5 gespeichert ist, verwendet wird, erhalten, Wiedergewinnungsergebnisinformation 217 wird mit einer vorgeschriebenen Regel kodiert und die Wiedergewinnungsergebnisinformation 217 wird an den Client gesendet.
In der Wiedergewinnungs-Verarbeitungseinheit 10B wird eine Wiedergewinnungsanforderung des Benutzers durch die Benutzerinterfaceeinheit 229 erhalten, die Wiedergewinnungsanforderung wird gemäß der Wiedergewinnungsanforderungsinformation 216 entsprechend einer vorgeschriebenen Vorgehensweise kodiert und die Wiedergewinnungsanforderungsinformation 216 wird an die Wiedergewinnungs-Verarbeitungseinheit 10A gesendet. Auch wird die Wiedergewinnungsergebnisinformation 217, welche von dem Server entsprechend der vorgeschriebenen Regel ausgesendet wurde, empfangen, das Format der Wiedergewinnungsergebnisinformation 217 wird umgewandelt, um die Wiedergewinnungsergebnisinformation 217 dem Benutzer zu präsentieren und die Wiedergewinnungsergebnisinformation 217 wird in der Benutzerinterfaceeinheit 229 angezeigt.
In der zweiten Ausführungsform wird eine bestimmte Videoeinstellung 244 des Videoprogramms 240, welches wie in 18 beschrieben ist, durch den Benutzer als ein Videosegment auf der Wiedergewinnungsanforderungsseite (oder eine Abfrage) spezifiziert, und eine Videoeinstellung ähnlich zu der Abfrage wird aus dem Videoprogramm 240 wieder gewonnen.
Es gibt verschiedene Verfahren zum Spezifizieren der spezifischen Videoeinstellung, welche die Abfrage bezeichnet. Beispielsweise wird eine Vielzahl von Videoeinstellungen, welche jeweils als ein Wiedergewinnungsschlüssel verwendbar sind, als Abfragen vorab registriert, wenn das Videoprogramm 240 produziert wird, und die als Wiedergewinnungsschlüssel verwendbaren Videoeinstellungen werden dem Benutzer präsentiert, um den Benutzer zu veranlassen, eine Videoeinstellung als ein Wiedergewinnungsschlüssel zu spezifizieren. Auch stoppt, in einem anderen Beispiel, wenn der Benutzer das reproduzierte Videoprogramm 240 beobachtet, der Benutzer die Reproduktion des Videoprogramms 240, wenn einen spezifische Videoeinstellung des Videoprogramms 240 dargestellt wird, und der Benutzer spezifiziert die bestimmte Videoeinstellung als eine Abfrage. Hiernach wird die Wiedergewinnungsverarbeitung, welche nach der Spezifizierung der Abfrage durchgeführt wird, im Detail beschrieben.
(2-1) Die Spezifizierung der Abfrage und die Analyse der Beschreibungsdaten zur Wiedergewinnung (Schritt ST34 bis Schritt ST36)
Der Benutzer wählt anfänglich eine Abfrage als eine Wiedergewinnungsanforderung aus einer Liste von Abfragen, welche in der Benutzerinterfaceeinheit 229 präsentiert wird (Schritt ST34). In dieser Ausführungsform werden Daten einer Vielzahl von Schlüsselvollbildern, welche das Videosegment 240 als eine Vielzahl von Abfragekandidaten repräsentieren, vorab von der Bildinformations-Speichereinheit 5, welche auf der Serverseite angeordnet ist, ausgesandt und in der Form einer Liste von Abfragen in der Benutzerinterfaceeinheit 29 präsentiert.
In der Wiedergewinnungs-Verarbeitungseinheit 10B wird Wiedergewinnungsanforderungsinformation 216 von der Kodier- und Übertragungseinheit für Wiedergewinnungsanforderungsinformation 227 an die Wiedergewinnungs-Verarbeitungseinheit 10A gesendet, um die durch den Benutzer spezifizierte Abfrage zu spezifizieren. In diesem Fall entspricht die Wiedergewinnungsanforderungsinformation 216 beispielsweise einer Nummer einer Zeitserie von Nummern, welche das Videoprogramm 240 und eine spezifische Videoeinstellung 244 des Videoprogramms 240 identifizieren, oder Daten eines geeigneten Identifizierers. Auch wird die Wiedergewinnungsanforderungsinformation 216, welche Inhalte spezifizierende Information bezeichnet, vorab in dem File für Beschreibungsdaten zur Wiedergewinnung als Verbindungsinformation, welche die Verknüpfung zu spezifischem Inhalt anzeigt, beschrieben. Demgemäß ist es passend, dass die die Inhalte spezifizierende Information, welche zu der Liste von Abfragen hinzugefügt wurde, an den Client gesendet wird, um die Liste von Abfragen, welche die Inhalte spezifizierende Information beinhaltet, dem Benutzer zu präsentieren.
Danach wird in der Wiedergewinnungs-Verarbeitungseinheit 10A die von der Wiedergewinnungs-Verarbeitungseinheit 10B ausgesendete Wiedergewinnungsanforderungsinformation 216 in der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 empfangen, das File für Beschreibungsdaten zur Wiedergewinnung 210, welches sich auf eine bestimmte Videoeinstellung 244, welche die Abfrage spezifiziert, bezieht, wird gemäß der empfangenen Wiedergewinnungsanforderungsinformation 216 in der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung spezifiziert, das File für Beschreibungsdaten zur Wiedergewinnung 210 wird analysiert und Daten von charakteristischen Deskriptoren werden herausgezogen (Schritt ST35). Auch werden die Suchpriorität 241 des Videoprogramms 240, zu welchem die Abfrage gehört, und Daten der Grade an Zuverlässigkeit 242B entsprechend jeder Videoszene 243 vorab in der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 herausgezogen und an die Konformitätsbeurteilungs-Verarbeitungseinheit 213 gesendet. Auch werden die Daten von den charakteristischen Deskriptoren, welche sich auf die Abfrage beziehen, von der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 an die Konformitätsbeurteilungs-Verarbeitungseinheit 213 gesendet. Danach werden die Files für Beschreibungsdaten zur Wiedergewinnung 210 entsprechend den Videoeinstellungen 244 des Videoprogramms 240, zu denen die Abfrage gehört, eines nach dem anderen in der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 analysiert und an die Konformitätsbeurteilungs-Verarbeitungseinheit 213 gesendet (Schritt ST36).
Hier wird eine Strukturierungsmethode der Files für Beschreibungsdaten zur Wiedergewinnung beliebig bestimmt. Beispielsweise ist es passend, dass Beschreibungsdaten zur Wiedergewinnung von allen Videoeinstellungen 244 des Videoprogramms 240 in einem File für Beschreibungsdaten zur Wiedergewinnung 210 abgespeichert werden. Auch ist es passend, dass Beschreibungsdaten zur Wiedergewinnung von jeder Videoeinstellung 244 des Videoprogramms 240 in einem entsprechenden File für Beschreibungsdaten zur Wiedergewinnung 210 abgespeichert werden. In Fällen, bei denen Stücke von Beschreibungsdaten zur Wiedergewinnung von allen Videoeinstellungen 244 des Videoprogramms in einer Vielzahl von Files für Beschreibungsdaten zur Wiedergewinnung 210 in einer eins-zu-eins-Korrespondenz abgespeichert sind, ist es notwendig, Verbindungsinformation, welche das File für Beschreibungsdaten zur Wiedergewinnung 210 entsprechend jeder Videoeinstellung 244 spezifiziert, in das File für Beschreibungsdaten zur Wiedergewinnung 210 des Video programms 240 einzuarbeiten.
(2-2) Die Bestimmung einer Wiedergewinnungsregel und die Konformitäts-Beurteilungsverarbeitung (Schritt ST37 bis Schritt ST38)
Die Konformitäts-Beurteilungsverarbeitung wird in der Konformitätsbeurteilungs-Verarbeitungseinheit 213 der Wiedergewinnungs-Verarbeitungseinheit 10A durchgeführt und der in der Konformitätsbeurteilungs-Verarbeitungseinheit 213 durchgeführte Arbeitsablauf wird in die Bestimmung einer Wiedergewinnungsregel und die Konformitäts-Beurteilungsverarbeitung basierend auf den charakteristischen Deskriptoren klassifiziert.
(2-2-1) Die Bestimmung einer Wiedergewinnungsregel
In der Konformitätsbeurteilungs-Verarbeitungseinheit 213 werden eine Wiedergewinnungsregel und ein Parameter für die Wiedergewinnung gemäß der Suchpriorität 241 des Videoprogramms 240 und Daten des Grades an Zuverlässigkeit 242B der von der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 empfangenen Videoszenen 243 gesetzt (Schritt ST37). In der zweiten Ausführungsform wird, wie in 19 gezeigt, eine Benutzungsreihenfolge der charakteristischen Deskriptoren 245 bis 249 in der Wiedergewinnung als eine Wiedergewinnungsregel gemäß der Suchpriorität 241 bestimmt und ein folgender Wiedergewinnungsparameter wird gemäß der Grade an Zuverlässigkeit bestimmt.
(a) Die Anzahl von Wiedergewinnungskandidaten für jeden charakteristischen Deskriptor in einem Wiedergewinnungsschritt
Eine endgültige Wiedergewinnungsergebnisnummer T, welche an den Benutzer als ein Wiedergewinnungsergebnis gesendet wird, wird bestimmt.
Es ist passend, dass die endgültige Wiedergewinnungsergebnisnummer T in dem Bildwiedergewinnungssystem als ein Wert gehalten wird, oder es ist passend, dass die endgültige Wiedergewinnungsergebnisnummer T gesetzt wird, während sie in der Reihenfolge der Benutzerinterfaceeinheit 229, der Wiedergewinnungs-Verarbeitungseinheit 210B und der Wiedergewinnungs-Verarbeitungseinheit 10A gesendet wird. In einer Wiedergewinnungsmaschine wird ein Wiedergewinnungsergebnis einer Vielzahl von Videoeinstellungen 244, deren Anzahl gleich oder kleiner als T ist, für jede Videoszene 243 erhalten, und eine Vielzahl von Videoeinstellungen 244, deren Anzahl T beträgt, wird in der Konformitätsbeurteilung von allen Videoeinstellungen 244 von allen Videoszenen 243, welche als Wiedergewinnungskandidaten ausgewählt wurden, ausgewählt, und die ausgewählten Videoeinstellungen 244 werden an den Benutzer als ein endgültiges Wiedergewinnungsergebnis gesendet.
Eine Wiedergewinnungskandidatennummer T_k in der Wiedergewinnung für die m-te Videoszene 243 wird gemäß des Grads an Zuverlässigkeit ψ_k(m) für die m-te Videoszene 243 bestimmt. T0 = T·5 Tk = T0/Pk + [T·{1 – (ψk(m)/100)}] (17)
Hier bezeichnet P_k eine Suchpriorität (1 ≤ P_k ≤ 5) des k-ten Typs der charakteristischen Deskriptoren (1 ≤ k ≤ 5). Demgemäß wird die Wiedergewinnungskandi datennummer T_k von Kandidaten in jedem Wiedergewinnungsschritt, in welchem die Wiedergewinnung Bezug nehmend auf einen Typ von charakteristischem Deskriptor, welcher gemäß der Suchprioritätsreihenfolge bestimmt wurde, durchgeführt wird, bestimmt. Da die Wiedergewinnungskandidatennummer T_k im Wesentlichen jedes Mal, wenn der Wiedergewinnungsschritt durchgeführt wird, reduziert wird, kann die Wiedergewinnungsverarbeitung mit einer hohen Geschwindigkeit durchgeführt werden. Auch ist es passend, weil es eine Möglichkeit gibt, dass eine Videoeinstellung 244, welche wirklich durch den Benutzer erwartet wurde, in der oben beschriebenen Wiedergewinnung nicht ausgewählt wurde, dass die Anzahl von Wiedergewinnungskandidaten in jedem Wiedergewinnungsschritt auf einen konstanten Wert gesetzt wird und dass die Grade an Zuverlässigkeit in der Bestimmung von endgültigen Wiedergewinnungskandidaten verwendet werden.
(b) Die Wiedergewinnungsauslassungsbeurteilung, welche auf der Schwellwertverarbeitung basiert
Im Falle der Konformitäts-Beurteilungsverarbeitung für jede Videoeinstellung 244 wird eine Videoeinstellung, in welcher der Grad an Zuverlässigkeit für den charakteristischen Deskriptor, welcher auf die höchste Suchpriorität eingeordnet wurde, extrem gering ist, um eine Bedingung einer folgenden Gleichung zu erfüllen, nicht als ein Kandidat für die Konformitäts-Beurteilungsverarbeitung ausgewählt, weil geschätzt wird, dass die Videoeinstellung die Wiedergewinnungsbedingung nicht erfüllt. Weil die Zuverlässigkeit gering wird, wenn der Grad an Zuverlässigkeit sich 0 annähert und weil die Zuverlässigkeit hoch wird, wenn der Grad an Zuverlässigkeit sich 100 annähert, wird ein Parameter TH in der folgenden Glei chung (18) geeignet auf einen geringen Wert gesetzt. ψk(m, n) < TH; Pk = 1 (18)
In dieser Beurteilung, welche auf der Gleichung (18) basiert, kann jede Videoeinstellung, welche nicht als ein Wiedergewinnungsergebniskandidat geeignet ist, aus den Wiedergewinnungsergebniskandidaten vor der Ausführung der Konformitäts-Beurteilungsverarbeitung entfernt werden, und die Wiedergewinnungsverarbeitung kann mit hoher Geschwindigkeit durchgeführt werden.
In der Erklärung des zweiten Ausführungsbeispiels wird hier der charakteristische Deskriptor, welcher auf die höchste Suchpriorität eingeordnet wurde, für die Beurteilung basierend auf der Gleichung (18) verwendet. Jedoch können auch andere verschiedene Auslassungsbeurteilungsverfahren, welche den Grad an Zuverlässigkeit verwenden, durchgeführt werden. Auch wird diese Beurteilung des zweiten Ausführungsbeispiels jedes Mal durchgeführt, wenn die Konformitäts-Beurteilungsverarbeitung für eine Videoeinstellung 244 durchgeführt wird.
(2-2-2) Die Konformitäts-Beurteilungsverarbeitung für jeden charakteristischen Deskriptor
Die Konformitäts-Beurteilungsverarbeitung wird gemäß den folgenden Standards für den charakteristischen Deskriptor, welcher gemäß der Suchpriorität 241 in jedem Wiedergewinnungsschritt bestimmt wurde, durchgeführt (Schritt ST38).
(a) Typ von charakteristischen Deskriptoren, welcher sich auf die Bewegungsstärke bezieht
Ein euklidischer Abstand zwischen jedem Paar von Stücken von Beschreibungsdaten zur Wiedergewinnung, welcher sich auf die Bewegungsstärke bezieht, wird berechnet, und die euklidischen Abstände für alle Paare werden zueinander addiert. Um Differenzen in den Werten der euklidischen Abstände zu reduzieren, wird die Normalisierungsverarbeitung für die euklidischen Abstände durchgeführt. Die Abfrage wird durch S_q ausgedrückt, die Videoeinstellung, welche wieder zu gewinnen ist, wird über S ausgedrückt, und ein Grad D(S_q, S) der Übereinstimmungsabschätzung zwischen der Abfrage S_q und der Videoeinstellung S wird gemäß den folgenden Gleichungen (19) bestimmt. Wenn der Grad D(S_q, S) erniedrigt wird, wird der Grad an Ähnlichkeit zwischen der Abfrage S_q und der Videoeinstellung S erhöht, und es wird beurteilt, dass die Videoeinstellung S mit der Abfrage S_q übereinstimmt. W = Cavg(Sq) + σ2(Sq) D(Sq, S) = (W/Cavg(Sq))·|Cavg(Sq) – Cavg – (S)| + (W/σ2(Sq))·|σ2(Sq) – σ2(S)| (19)
(b) Typ von charakteristischen Deskriptoren, welcher sich auf die Bewegungsrichtung bezieht
Ein Grad D(S_q, S) der Übereinstimmungsabschätzung zwischen der Abfrage S_q und der Videoeinstellung S wird gemäß einer folgenden Gleichung (20) bestimmt. Wenn der Grad D(S_q, S) erniedrigt wird, wird der Grad an Ähnlichkeit zwischen der Abfrage S_q und der Videoeinstellung S erhöht, und es wird beurteilt, dass die Videoeinstellung S mit der Abfrage S_q übereinstimmt. D(Sq, S) = |Aavg(Sq) – Aavg(S)| (20)
(c) Typ von charakteristischen Deskriptoren, welcher sich auf die Bewegungsverteilung bezieht
Ein Grad D(S_q, S) der Übereinstimmungsabschätzung zwischen der Abfrage S_q und der Videoeinstellung S wird gemäß einer folgenden Gleichung (21) bestimmt. Wenn der Grad D(S_q, S) erniedrigt wird, wird der Grad an Ähnlichkeit zwischen der Abfrage S_q und der Videoeinstellung S erhöht, und es wird beurteilt, dass die Videoeinstellung S mit der Abfrage S_q übereinstimmt. D(Sq, S) = |SR(Sq) – SR(S)| + |MR(Sq) – MR(S) + |LR(Sq) – LR(S)| (21)
(d) Typ von charakteristischen Deskriptoren, welcher sich auf die Helligkeit bezieht
Ein Grad D(S_q, S) der Übereinstimmungsabschätzung zwischen der Abfrage S_q und der Videoeinstellung S wird gemäß einer folgenden Gleichung (22) bestimmt. Hier bezeichnet H_i(S) die Anzahl von Stichproben in dem i-ten Auswahlbereich. Wenn der Grad D(S_q, S) erniedrigt wird, wird der Grad an Ähnlichkeit zwischen der Abfrage S_q und der Videoeinstellung S erhöht, und es wird beurteilt, dass die Videoeinstellung S mit der Abfrage S_q übereinstimmt.
(e) Typ von charakteristischen Deskriptoren, welcher sich auf die repräsentative Farbe bezieht
Ein Grad D(S_q, S) der Übereinstimmungsabschätzung zwischen der Abfrage S_q und der Videoeinstellung S wird gemäß einer folgenden Gleichung (22) bestimmt. Hier bezeichnen H R / i(S), H G / i(S) und H B / i(S) jeweils die Anzahl von Stichproben in dem i-ten Auswahlbereich.
Wenn der Grad D(S_q, S) erniedrigt wird, wird der Grad an Ähnlichkeit zwischen der Abfrage S_q und der Videoeinstellung S erhöht, und es wird beurteilt, dass die Videoeinstellung S mit der Abfrage S_q übereinstimmt.
Ein Beispiel für die Konformitäts-Beurteilungsverarbeitung für einen charakteristischen Deskriptor, welcher gemäß der Suchpriorität 242 in der Konformitätsbeurteilungs-Verarbeitungseinheit 211 bestimmt wurde, ist in 19 gezeigt. Beispielsweise gibt es drei Typen von charakteristischen Deskriptoren D₁ bis D₃ in dem Videosegment 240. Die Suchpriorität P_k (k bezeichnet eine natürliche Zahl) bezeichnet die Verwendungsreihenfolge der charakteristischen Deskriptoren D₁ bis D₃ in der Wiedergewinnung. Beispielsweise bezeichnet D₁ den Typ von charakteristischem Deskriptor, welcher sich auf die Bewegungsstärke bezieht, D₂ bezeichnet den Typ von charakteristischem Deskriptor, welcher sich auf die Bewegungsverteilung bezieht, und D₃ bezeichnet den Typ von charakteristischem Deskriptor, welcher sich auf die Helligkeit bezieht. In dem Beispiel von 19 wird in der Konformitätsbeurteilungs-Verarbeitungseinheit 213 die Konformitäts-Beurteilungsverarbeitung 251 zuerst für eine Abfrage 250 (oder eine Videoeinstellung, welche auf der Wiedergewinnungsanforderungsseite spezifiziert wurde) durchgeführt, indem der charakteristische Deskriptor D₁, welcher sich auf die Bewegungsstärke bezieht, verwendet wird, und Stücke von Videosegmentdaten 252, welche hochgradig ähnlich zu der Abfrage sind und gut mit der Abfrage unter einem Gesichtspunkt der Bewegungsstärke übereinstimmen, werden eng von einer großen Zahl von Stücken von Video daten 247, welche in der Bildinformations-Speichereinheit 5 abgespeichert sind und welche von der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 ausgesendet wurden, ausgewählt.
Danach wird die Konformitäts-Beurteilungsverarbeitung 253 für die Stücke von ausgewählten Videosegmentdaten 252 durchgeführt, indem der charakteristische Deskriptor D₂, welcher sich auf die Bewegungsverteilung bezieht, verwendet wird, und Stücke von Videosegmentdaten 254, welche hochgradig ähnlich zu der Abfrage sind und gut mit der Abfrage unter einem Gesichtspunkt der Bewegungsverteilung übereinstimmen, werden eng von den Stücken von ausgewählten Videosegmentdaten 252 ausgewählt. Danach wird die Konformitäts-Beurteilungsverarbeitung 255 für die Stücke von ausgewählten Videosegmentdaten 254 durchgeführt, indem der charakteristische Deskriptor D₃, welcher sich auf die Helligkeit bezieht, verwendet wird, und Stücke von Videosegmentdaten, welche hochgrad ähnlich zu der Abfrage sind und gut mit der Abfrage unter einem Gesichtspunkt der Helligkeit übereinstimmen, werden eng als ein endgültiges Wiedergewinnungsergebnis 256 (äquivalent zu dem in 15 gezeigten Konformitätsbeurteilungs-Verarbeitungsergebnis 214) aus den Stücken von ausgewählten Videosegmentdaten 254 ausgewählt.
(2-3) Die Präsentation des endgültigen Wiedergewinnungsergebnisses und die Wiedergewinnung basierend auf der Rückmeldung durch den Benutzer (Schritt ST39 bis Schritt ST41)
Information von TVideoeinstellungen, welche als das endgültige Wiedergewinnungsergebnis 256 gemäß der oben beschriebenen Wiedergewinnungsregel und der Kon formitäts-Beurteilungsverarbeitung ausgewählt werden, wird dem Benutzer 232 in der Benutzerinterfaceeinheit 229 präsentiert (Schritt ST39). Das Präsentierverfahren wird beliebig bestimmt. In der zweiten Ausführungsform wird als erstes eine Abfrageliste präsentiert. D.h. dass Schlüsselvollbilddaten, welche die Videoeinstellungen des Wiedergewinnungsergebnisses repräsentieren, oder Attributinformation (beispielsweise ein Name eines Subjekts in jeder Videoeinstellung) der Videoeinstellungen gemäß einer vorgeschriebenen Regel kodiert werden und an die Wiedergewinnungs-Verarbeitungseinheit 10B, welche auf der Clientseite angeordnet ist, als Wiedergewinnungsergebnisinformation 217 gesendet werden, die Wiedergewinnungsergebnisinformation 217, welche erhalten wird, indem die Schlüsselvollbilddaten oder die Attributinformation kodiert werden und welche von dem Server ausgesendet wird, wird in der Empfangs- und Darstellungseinheit für Wiedergewinnungsergebnisse 228 empfangen, das Format der Wiedergewinnungsergebnisinformation 217 wird umgewandelt, um in der Benutzerinterfaceeinheit 229 dargestellt zu werden, und die Wiedergewinnungsergebnisinformation 217 wird an die Benutzerinterfaceeinheit 229 gesendet.
Damit kann der Benutzer 232 das in der Benutzerinterfaceeinheit 229 gezeigte Wiedergewinnungsergebnis 256 beobachten.
Als nächstes wird das Verfahren der erneuten Wiedergewinnung, welche auf der Rückmeldung des Benutzers basiert, beschrieben.
Der Benutzer prüft zuerst das Wiedergewinnungsergebnis 256, welches gemäß der Wiedergewinnungsregel, welche gemäß der Suchpriorität 241 und den Graden von Zuverlässigkeit 242 bestimmt wurde, erhalten wurde, nach. Es existiert jedoch eine Möglichkeit, dass das Wiedergewinnungsergebnis 256 sich von dem subjektiv von dem Benutzer 232 Erwarteten unterscheidet. Um dieses Problem flexibel zu lösen, hat in der zweiten Ausführungsform das Bildwiedergewinnungssystem eine Funktion, bei welcher der Benutzer 232 die Suchpriorität 241 ändert, und die Wiedergewinnung kann gemäß der geänderten Suchpriorität durchgeführt werden (Schritt ST40).
Die Beziehung zwischen einer subjektiven Bedeutung, welche insbesondere durch den Benutzer gewünscht ist, bemerkt werden, und ein charakteristischer Deskriptor ist in 20 gezeigt. Wie es in 20 realisiert ist gibt es, in Fällen, bei denen der Benutzer 232 eine spezifische Videoeinstellung, in welcher ein spezifisches Subjekt in eine bestimmte Richtung bewegt wird, als eine Abfrage auswählt, eine hohe Wahrscheinlichkeit dafür, dass der Benutzer 232 eine Videoeinstellung erwartet, welche ähnlich zu der spezifischen Videoeinstellung in der Charakteristik der Bewegungsrichtung ist. Da jedoch die Suchpriorität 241 gemäß den Graden an Zuverlässigkeit, wie sie anfangs gesetzt wurden, bestimmt wird, gibt es eine Möglichkeit, dass ein Wichtungswert, welcher gemäß der subjektiven Nutzerbedeutung ausgewählt wurde, nicht in der Wiedergewinnungsverarbeitung gespiegelt wird.
Demgemäß hat, um dem Benutzer 232 zu ermöglichen, in 20 gezeigte subjektive Bedeutungen auf die Wiedergewinnungsverarbeitung zu spiegeln, das Bildwiedergewinnungssystem eine Funktion, in welcher der Benutzer 232 die Suchpriorität 241 durch die Benutzerinterfaceeinheit 229 ändern kann. Beispielsweise ist es in dem oben beschriebenen Beispiel möglich, dass der Benutzer 232 die Suchpriorität, welche sich auf den Typ von charakteristischem Deskriptor der Bewegungsrichtung bezieht, auf einen höheren Wert setzt. Demgemäß wird die Konformitäts-Beurteilungsverarbeitung für den Typ von charakteristischem Deskriptor, welcher sich auf die Bewegungsrichtung bezieht, vorzugsweise in der Wiedergewinnungsverarbeitung durchgeführt, und die Bedingung der Bewegungsrichtung kann auf dem endgültigen Wiedergewinnungsergebnis 256 stark gespiegelt werden.
Die durch den Benutzer 232 erneuerte Suchpriorität 241 wird gemäß der vorgeschriebenen Regel in der Kodier- und Übertragungseinheit für Wiedergewinnungsanforderungsinformation 227 kodiert und die Suchpriorität 241 wird als ein Teil der Wiedergewinnungsanforderungsinformation 216 an die Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211 der Wiedergewinnungs-Verarbeitungseinheit 10A auf der Serverseite durch das Netzwerk A 225 gesendet.
In der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung wird, um den erneuerten Wert der Suchpriorität 241 in der folgenden Wiedergewinnungsverarbeitung wieder zu verwenden, der Wert der Suchpriorität 241 entsprechend dem Videoprogramm 240 des Files für Beschreibungsdaten zur Wiedergewinnung 210 auf den erneuerten Wert aktualisiert (Schritt ST41).
Auch wird in der Analysiereinheit für Beschreibungsdaten zur Wiedergewinnung 211, wenn die Wiedergewinnungsverarbeitung beendet ist, das File für Beschreibungsdaten zur Wiedergewinnung 210, in welchem der Wert der Suchpriorität 241 auf den erneuerten Wert aktualisiert ist, erneut in der Bildinformations- Speichereinheit 5 abgespeichert.
Da das Bildwiedergewinnungssystem die Funktion zum Erneuern der Suchpriorität 241 und zum Speichern der erneuerten Suchpriorität 241 aufweist, kann in Fällen, in denen der Benutzer 232 dasselbe Videoprogramm 240 in denselben Standards durchsucht, der Benutzer 232 gewünschte Videodaten wieder gewinnen unter der Bedingung, dass die subjektive Anforderung, welche vom Benutzer 232 in der Vergangenheit durchgeführt wurde, auf die Wiedergewinnungsverarbeitung gespiegelt wird.
Auch ist es in Fällen, in denen eine Vielzahl von Benutzern 232 dasselbe Bildwiedergewinnungssystem verwendet, passend, dass das File für Beschreibungsdaten zur Wiedergewinnung 210 in eine Vielzahl von Datenfiles aufgeteilt wird, um die Suchpriorität 241, welche sich auf jeden Benutzer 232 bezieht, in dem zugehörigen Datenfile zu speichern. Demgemäß kann die für jeden Benutzer 232 geeignete Wiedergewinnungsregel geeignet wieder verwendet werden, indem eine Funktion einer geeigneten Benutzerauthentifizierungsverarbeitung zu dem Bildwiedergewinnungssystem hinzugefügt wird.
Demgemäß wird das erneute wieder gewinnen durchgeführt, indem wiederholt die Wiedergewinnungsverarbeitung in dem Schritt ST37 bis zu dem Schritt ST41 durchgeführt wird, während die erneuerte Suchpriorität 241 verwendet wird, und das Erzeugen der Beschreibungsdaten zur Wiedergewinnung und die Wiedergewinnungsverarbeitung in der Bildwiedergewinnungsverarbeitung, welche in 17 gezeigt ist, werden abgeschlossen.
(3) Die Verarbeitung zur Videoeinstellungsreproduktion
In dem oben beschriebenen Ablauf kann der Benutzer ein gewünschtes Wiedergewinnungsergebnis zu der Benutzerinterfaceeinheit 229 herausziehen. Jedoch wird grundsätzlich eine Vielzahl von Wiedergewinnungskandidaten gemäß des Wiedergewinnungsergebnisses präsentiert, und es ist notwendig, eine große Menge von Information von dem Server an den Client zu übertragen, um die Wiedergewinnungskandidaten in der Form der Videodaten darzustellen. Daher werden, wie oben beschrieben, in dem Bildwiedergewinnungssystem Daten, wie beispielsweise eine Vielzahl von Schlüsselvollbildern, welche die Videoeinstellungen des Wiedergewinnungsergebnisses repräsentieren, dem Benutzer 232 in der Benutzerinterfaceeinheit 229 präsentiert und eine gewünschte Videoeinstellung, welche durch den Benutzer ausgewählt wurde, kann wieder gegeben werden. Demgemäß kann ein Gesamtumfang an übertragener Information effizient reduziert werden. Um die Reduktion eines Gesamtumfangs an übertragener Information in dem Bildwiedergewinnungssystem zu erreichen, werden in dem zweiten Ausführungsbeispiel der Videoreproduktionsserver 218, die Videodekodier- und Videoreproduktionseinheit 239 und die Videoreproduktions-Steuereinheit 235, welche in 15 oder 16 gezeigt sind, angeordnet. Der Benutzer 232 benutzt die oben beschriebene Funktion, um die ausgewählte Videoeinstellung 244 oder das ausgewählte Videoprogramm 240 wiederzugeben.
Als nächstes wird der Wiedergabeablauf der Videoeinstellung 244 oder des Videoprogramms 240, welche durch den Benutzer 232 unter Verwendung der oben beschriebenen Funktion ausgewählt wurden, beschrieben.
Wenn der Benutzer 232 eine Videoeinstellung 244 oder ein Videoprogramm 240, deren bzw. dessen Wiedergabe erwünscht ist, auswählt wird entsprechend einer Vielzahl von Schlüsselvollbildern, welche dem Benutzer 232 in der Benutzerinterfaceeinheit 229 präsentiert werden, Auswahlinformation als Wiedergewinnungsergebnis-Reproduktionsanforderung von der Benutzerinterfaceeinheit 229 an die Videoreproduktions-Steuereinheit 235 ausgegeben.
In der Videoreproduktions-Steuereinheit 235 wird die Wiedergewinnungsergebnis-Reproduktionsanforderung 233 in Reproduktionsanforderungsinformation 219 gemäß eines vorgeschriebenen Verfahrens umgeformt und an die Reproduktionssteuereinheit 220 des Videoreproduktionsservers 218 des Servers durch das Netzwerk A 225 gesendet.
In der Reproduktionssteuereinheit 220 wird Information zur Spezifizierung von reproduzierten Inhalten 221, in welcher Information zur Spezifizierung von Inhalten, welche die Spezifizierung von Inhalten anzeigt, eingebunden ist, aus der Reproduktionsanforderungsinformation 219 erzeugt. In diesem Falle ist es bevorzugt, dass die Information zur Spezifizierung von reproduzierten Inhalten 221, welche die Inhalte spezifizierende Information enthält, vorab in dem File für Beschreibungsdaten zur Wiedergewinnung 210 als Verknüpfungsinformation, welche die Verknüpfung zu Inhalten anzeigt, beschrieben wird, dass die Inhalte spezifizierende Information zu Wiedergewinnungsergebnisinformation 217 hinzugefügt wird, wenn die Wiedergewinnungsergebnisinformation 217 dem Benutzer 232 präsentiert wird, dass die Information zur Spezifizierung von Inhalten an den Client gesendet wird und dass die Information zur Spezifizierung von Inhalten als die Reproduktionsanforderungsinformation 219 verwendet wird.
Danach wird in der Reproduktionssteuereinheit 220 die Information zur Spezifizierung von reproduzierten Inhalten, welche gemäß der empfangenen Reproduktionsanforderungsinformation 219 erzeugt wurde, an die Bildinformations-Speichereinheit 5 gesendet, Videoinhaltsdaten 222, welche zu reproduzieren sind, werden in der Bildinformations-Speichereinheit 5 spezifiziert und die spezifizierten Videoinhaltsdaten 222, welche zu reproduzieren sind, werden an die Videodaten-Übertragungseinheit 223 gesendet.
In der Videodaten-Übertragungseinheit 223 werden die zu reproduzierenden Videoinhaltsdaten 222 in Liefervideodaten 224 umgewandelt, welche ein Datenformat aufweisen, welches eine Lieferung in Echtzeit ermöglicht, und die Liefervideodaten 224 werden an das Netzwerk B 237 gesendet.
Hier ist es passend, dass die Umwandlung des Datenformates in der Videodaten-Übertragungseinheit 223 durchgeführt wird, um dem Client oder dem Netzwerk B 237 zu ermöglichen, die Zuverlässigkeit zu erhalten, wenn Videodaten von der Videodaten-Übertragungseinheit 223 an das Netzwerk B 237, in welchem die Hochgeschwindigkeitsübertragung als eine wichtige Funktion gesetzt ist, gesendet werden. Beispielsweise werden Videodaten in eine Vielzahl von Videovollbildern unterteilt und ein Zeitstempel wird jedem Videovollbild hinzugefügt. Auch wird jedem Paket, welches eine Übertragungseinheit bezeichnet, Prioritätsinformation hinzugefügt.
Auch werden in dem Client die durch das Netzwerk B 237 gesendeten Liefervideodaten 224 in der Videodekodier- und Videoreproduktionseinheit 239 empfangen und die Liefervideodaten 224 werden gemäß der Steuerinformation 262, welche für die Reproduktion benötigt wird und von der Videoreproduktions-Steuereinheit 235 ausgesandt wird, reproduziert, um auf der Benutzerinterfaceeinheit 229 dargestellt zu werden. In Fällen, bei denen die Zuverlässigkeit von übertragenen Daten verringert ist, weil ein Problem in dem Datentransfer auftritt, wird eine Qualitätsmanagementsteuerung in der Videodekodier- und Videoreproduktionseinheit 239 und der Videoreproduktions-Steuereinheit 235 geeignet durchgeführt, um die Reproduktionsqualität der übertragenen Daten zu erhöhen.
Wie oben beschrieben wird in dem Bildwiedergewinnungssystem und dem Bildwiedergewinnungsverfahren gemäß der zweiten Ausführungsform eine Server-Client-Typsystemkonfiguration angenommen. Demgemäß können die Videodaten effizient wieder gewonnen und in der verteilten Netzwerkumgebung, wie beispielsweise einem IP-Netzwerk ebenso wie in der lokalen Umgebung geliefert werden. Auch werden die Suchpriorität 241 und der Grad an Zuverlässigkeit 242 in der Bildinformations-Speichereinheit 5 als die Beschreibungsdaten zur Wiedergewinnung abgespeichert. Demgemäß kann der Bestimmungsablauf der gemeinsamen Wiedergewinnungsregel gemäß den Werten der Suchpriorität 241 und den Graden an Zuverlässigkeit 242 in dem Bildwiedergewinnungssystem bestimmt werden.
Auch kann, da das Bildwiedergewinnungssystem die Funktion der Erneuerung der Suchpriorität 241 aufweist, der Benutzer vorzugsweise die Wiedergewinnung basierend auf der subjektiven Bedeutung der Videoin halte durchführen. Darüber hinaus kann, da das Bildwiedergewinnungssystem die Funktion der Auslassungssteuerung bei der Konformitäts-Beurteilungsverarbeitung basierend auf den Graden an Zuverlässigkeit der charakteristischen Deskriptoren aufweist, die Wiedergewinnungsverarbeitung mit einer hohen Geschwindigkeit durchgeführt werden und eine Systemeffizienz kann verbessert werden.
In den ersten und zweiten Ausführungsformen werden die Videodaten als Mediadaten verarbeitet. Jedoch ist die vorliegende Erfindung nicht auf die Videodaten beschränkt. Beispielsweise ist es passend, dass Videodaten, zu denen Sprach-/Audiodaten hinzugefügt werden, in dem Bildwiedergewinnungssystem verarbeitet werden. Auch ist es passend, dass ein anderes Wiedergewinnungssystem basierend auf charakteristischen Deskriptoren für die Audiodaten in dem Bildwiedergewinnungssystem vorbereitet wird. Auch ist es passend, dass die Wiedergewinnung für Audiodaten nicht in dem Bildwiedergewinnungssystem durchgeführt wird, weil die Audiodaten lediglich an die Videodaten angehängt sind. Auch ist es, in Fällen, bei denen Audiodaten zu den Videodaten hinzugefügt sind, passend, dass die Reproduktion der Audiodaten, welche an die Videodaten angehängt sind und welche mit diesen synchronisiert sind, in der Videoeinstellungs-Reproduktionsverarbeitung in dem Bildwiedergewinnungssystem unterstützt wird.
Auch ist es in dem Bildwiedergewinnungssystem, welches in der zweiten Ausführungsform beschrieben ist, nicht notwendigerweise notwendig, dass ein Modul, welches aus der Merauszieheinheit für charakteristische Werte 3 und der Erzeugungseinheit für charakteristische Deskriptorenmengen 4 zusammen gesetzt ist, um Daten von charakteristischen Deskriptoren zu erzeugen, ein Modul einer Wiedergewinnungsmaschine, welche die Wiedergewinnungs-Verarbeitungseinheit 10A zum Durchführen der Wiedergewinnung als Antwort auf eine Wiedergewinnungsanforderung des Benutzers und zum Senden eines Wiedergewinnungsergebnisses an den Benutzer, aufweist, und ein Clientmodul, welches hauptsächlich aus der Wiedergewinnungs-Verarbeitungseinheit 10B zum Senden einer Wiedergewinnungsanforderung des Benutzers an die Wiedergewinnungsmaschine und zum Präsentieren eines von der Wiedergewinnungsmaschine an den Benutzer ausgesendeten Wiedergewinnungsergebnisses zusammengesetzt ist, in derselben Hardware bei derselben Software angeordnet sind. D.h. es ist passend, dass die Module jeweils in einer bestimmten Hardware bei einer bestimmten Software gemäß einem vorbestimmten Interface angeordnet sind. Unter dem Gesichtspunkt des Services ist es beispielsweise auch passend, dass ein Inhaltsanbieter Daten von charakteristischen Deskriptoren erzeugt und für die Datenbankregistration der charakteristischen Deskriptoren anmeldet, dass ein Wiedergewinnungsserviceanbieter die charakteristischen Deskriptoren in einer Datenbank registriert, um Vorbereitungen für die Wiedergewinnungsverarbeitung zu treffen, dass der Benutzer einen Wiedergewinnungsserviceanbieter, wie es in der zweiten Ausführungsform beschrieben ist, spezifiziert oder dass der Benutzer die Wiedergewinnung durchführt, indem er ein Clientwerkzeug, in welchem die Wiedergewinnungsverarbeitung gemäß standardisierten Vorschriften durchgeführt wird, verwendet.
Industrielle Anwendbarkeit
Wie oben beschrieben, werden in dem Bildwiedergewinnungssystem und dem Bildwiedergewinnungsverfahren gemäß der vorliegenden Erfindung Charakteristikwerte und Stücke von Attributinformation aus Stücken von Bilddaten herausgezogen und die Wiedergewinnung von spezifischen Bilddaten wird durchgeführt, indem die herausgezogenen Charakteristikwerte und die Attributinformationen verwendet werden. Demgemäß kann die Bildwiedergewinnungsverarbeitung effizient durchgeführt werden.

Claims

Bildwiedergewinnungssystem, welches aufweist: eine Erzeugungseinheit für charakteristische Deskriptoren zum Herausziehen mehrerer Bildcharakteristikwerte aus Stücken von Eingangsbilddaten und zum Erzeugen eines charakteristischen Deskriptors für jedes Stück von Eingangsbilddaten; eine Bildinformations-Speichereinheit zum Speichern der charakteristischen Deskriptoren, die in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt wurden, während die Entsprechung jedes charakteristischen Deskriptors zu einem Stück von Eingangsbilddaten gehalten wird; und eine Attributlisten-Erzeugungseinheit zum Erzeugen einer Attributliste gemäß einem Stück von Attributinformationen, das an jedes Stück von Eingangsbilddaten angefügt ist; gekennzeichnet durch eine Bildwiedergewinnungseinheit zum Empfangen einer ersten Wiedergewinnungsbedingung, die sich auf Attributinformationen bezieht, Suchen in der in der Attributlisten-Erzeugungseinheit erzeugten Attributliste nach einem Stück von Attributinformationen, die mit der ersten Wiedergewinnungsbedingung übereinstimmen, Ausgeben des Stückes von Attributinformationen, die mit der ersten Wiedergewinnungsbedingung übereinstimmen, Empfangen einer zweiten Wiedergewinnungsbedingung, die sich auf einen charakteristischen De skriptor bezieht, Suchen in der Bildinformations-Speichereinheit nach einem Stück von Bilddaten, die mit der zweiten Wiedergewinnungsbedingung übereinstimmen, und Ausgeben des Stückes von Bilddaten, die mit der zweiten Wiedergewinnungsbedingung übereinstimmen, wobei jedes Stück von in der Erzeugungseinheit für charakteristische Deskriptoren empfangenen Eingangsbilddaten verdichtete oder unverdichtete Video- oder bewegte Bilddaten, die ein Videosegment zusammensetzen, oder ein bewegtes Bildsegment, das aus einem oder mehreren Intra-Vollbildern und einem oder mehreren Inter-Vollbildern zusammengesetzt ist, bezeichnet, sowohl ein Durchschnittswert als auch eine Standardabweichung als ein charakteristischer Deskriptor der Intra-Vollbilder des Segments in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt werden durch Herausziehen einer Durchschnittsmatrix von Pixelwerten in einem vorgeschriebenen Codierbereich eines Intra-Vollbilds für jedes Intra-Vollbild des Segments, Berechnen einer Summe der Durchschnittsmatrizen aller Intra-Vollbilder, die in dem Segment enthalten sind, und Berechnen sowohl des Durchschnittswerts der Durchschnittsmatrizen und der Standardabweichung der Durchschnittsmatrizen aus der Summe und der Anzahl von Intra-Vollbildern in dem Segment, und ein charakteristischer Deskriptor der Inter-Vollbilder des Segments in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt wird durch Herausziehen einer Matrix von Bewegungsvektoren von Pixeln der vorgeschriebenen Codierbereiche eines Inter-Vollbilds für jedes Inter-Vollbild des Segments, Berechnen eines Durchschnitts der Bewegungsvektoren jedes Inter- Vollbilds des Segments als einen Bewegungsvektordurchschnitt, Klassifizieren von Null-Run-Längen, die erhalten sind gemäß einer Schwellenwertverarbeitung für die Bewegungsvektoren eines Inter-Vollbilds, in mehrere klassifizierte Typen von Null-Run-Längen für jedes Inter-Vollbild des Segments, Berechnen eines Durchschnitts der Bewegungsvektordurchschnitte und mehrerer klassifizierter Typen von Durchschnitts-Null-Run-Längen in dem Segment gemäß der Anzahl von Inter-Vollbildern in dem Segment, und Setzen des Durchschnitts der Bewegungsvektordurchschnitte und der klassifizierten Typen von Durchschnitts-Null-Run-Längen als den charakteristischen Deskriptor der Inter-Vollbilder des Segments.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem die Attributliste gemäß einer Syntax, die eine Datenstruktur der Attributliste definiert, in der Attributlisten-Erzeugungseinheit erzeugt wird, die Attributliste gemäß der Syntax der Attributliste in der Bildwiedergewinnungseinheit analysiert wird, und das Stück von Attributinformationen, die mit der ersten Wiedergewinnungsbedingung übereinstimmen, in der Bildwiedergewinnungseinheit wiedergewonnen wird.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem die charakteristischen Deskriptoren gemäß einer Syntax, die eine Datenstruktur jedes charakteristischen Deskriptors definiert, in der Erzeugungseinheit für charakteristische Deskriptoren erzeugt werden, die charakteristischen Deskriptoren gemäß der Syntax der charakteristischen Deskriptoren in der Bildwiedergewinnungseinheit analysiert werden, und das Stück von Bilddaten, die mit der zweiten Wiedergewinnungs bedingung übereinstimmen, in der Bildwiedergewinnungseinheit wiedergewonnen wird.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem ein Bildcharakteristikwert in der Erzeugungseinheit für charakteristische Deskriptoren für jedes Vollbild herausgezogen wird, und ein charakteristischer Deskriptor in der Erzeugungseinheit für charakteristische Deskriptoren für jedes Videosegment, das aus einer Gruppe von Vollbildern zusammengesetzt ist, erzeugt wird.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem jedes Stück von Eingangsbilddaten, die in der Erzeugungseinheit für charakteristische Deskriptoren empfangen werden, unverdichtete Videodaten bezeichnet, die charakteristischen Werte aus den Stücken von unverdichteten Videodaten in der Erzeugungseinheit für charakteristische Deskriptoren herausgezogen werden, um die charakteristischen Deskriptoren zu erzeugen, und die charakteristischen Deskriptoren und Stücke von verdichteten Videodaten, die durch Verdichten der Stücke von unverdichteten Videodaten gemäß einem vorgeschriebenen Videoverdichtungsverfahren erhalten wurden, in der Bildinformations-Speichereinheit gespeichert werden, während die Entsprechung jedes charakteristischen Deskriptors zu einem Stück von verdichteten Videodaten gehalten wird.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem eine vorgeschriebene Bedingungsgleichung, die vorher gespeichert wurde, durch die Bildwiedergewinnungseinheit ausgelesen wird in den Fällen, in denen die Bildwiedergewinnungseinheit in der Bildinformations-Speichereinheit nach dem Stück von Bilddaten sucht, die dem durch die zweite Wiedergewinnungsbedingung spezifizierten charakteristischen Deskriptor entsprechen, um das Stück von Bilddaten auszugeben, und gemäß der vorgeschriebenen Bedingungsgleichung beurteilt wird, ob das Stück von Bilddaten dem durch die zweite Wiedergewinnungsbedingung spezifizierten charakteristischen Deskriptor entspricht oder nicht.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem jedes Stück von Eingangsbilddaten ein durch eine Überwachungskamera aufgezeichnetes überwachtes Bild bezeichnet.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem jedes Stück von Eingangsbilddaten ein Bild einer gespeicherten Videomail bezeichnet.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem jedes Stück von Eingangsbilddaten ein Bild eines gespeicherten Rundfunkprogramms bezeichnet.
Bildwiedergewinnungssystem nach Anspruch 1, bei dem jedes Stück von Eingangsbilddaten ein durch eine Videokamera aufgezeichnetes Videobild bezeichnet.
Bildwiedergewinnungsverfahren, welches die Schritte aufweist: Herausziehen mehrerer Bildcharakteristikwerte aus Stücken von Eingangsbilddaten, um einen charakteristischen Deskriptor für jedes Stück von Eingangsbilddaten zu erzeugen; Speichern der erzeugten charakteristischen Deskriptoren, während die Entsprechung jedes charakteristischen Deskriptors zu einem Stück von Eingangsbilddaten gehalten wird; Erzeugen einer Attributliste gemäß einem Stück von Attributinformationen, die an jedes Stück von Eingangsbilddaten angefügt sind; Empfangen einer ersten Wiedergewinnungsbedingung, die sich auf Attributinformationen bezieht; Suchen in der Attributliste nach einem Stück von Attributinformationen, die der ersten Wiedergewinnungsbedingung entsprechen; und Ausgeben des Stücks von Attributinformationen, die der ersten Wiedergewinnungsbedingung entsprechen; gekennzeichnet durch die weiteren Schritte: Empfangen einer zweiten Wiedergewinnungsbedingung, die sich auf einen charakteristischen Deskriptor bezieht; Suchen in den Stücken von gespeicherten Bilddaten nach einem Stück von Bilddaten, die der zweiten Wiedergewinnungsbedingung entsprechen, während auf das Stück von Attributinformationen, die der ersten Wiedergewinnungsbedingung entsprechen, Bezug genommen wird; und Ausgeben des Stücks von Bilddaten, die der zweiten Wiedergewinnungsbedingung entsprechen, wobei jedes Stück von empfangenen Eingangsbilddaten verdichtete oder unverdichtete Videodaten oder bewegte Bilddaten, die ein Videosegment zusammensetzen, oder ein bewegtes Bildsegment, das aus einem oder mehreren Intra-Vollbildern und einem oder mehreren Inter-Vollbildern zusammengesetzt ist, bezeichnet, sowohl ein Durchschnittswert als auch eine Standardabweichung als ein charakteristischer Deskriptor der Intra-Vollbilder des Segments erzeugt werden durch He rausziehen einer Durchschnittsmatrix von Pixelwerten in einem vorgeschriebenen Codierbereich eines Intra-Vollbilds für jedes Intra-Vollbild des Segments, Berechnen einer Summe der Durchschnittsmatrizen von allen in dem Segment enthaltenen Intra-Vollbildern und Berechnen sowohl des Durchschnittswerts der Durchschnittsmatrizen und der Standardabweichung der Durchschnittsmatrizen anhand der Summe und der Anzahl von Intra-Vollbildern in dem Segment, und ein charakteristischer Deskriptor der Inter-Vollbilder des Segments erzeugt wird durch Herausziehen einer Matrix von Bewegungsvektoren von Pixeln der vorgeschriebenen Codierbereiche eines Inter-Vollbilds für jedes Inter-Vollbild des Segments, Berechnen eines Durchschnitts der Bewegungsvektoren jedes Inter-Vollbilds des Segments als einen Bewegungsvektordurchschnitt, Klassifizieren von Null-Run-Längen, die gemäß einer Schwellenwertverarbeitung für die Bewegungsvektoren eines Inter-Vollbilds erhalten wurden, in mehrere klassifizierte Typen von Null-Run-Längen für jedes Inter-Vollbild des Segments, Berechnen eines Durchschnitts der Bewegungsvektordurchschnitte und mehrerer klassifizierter Typen von Durchschnitts-Null-Run-Längen in dem Segment gemäß der Anzahl von Inter-Vollbildern in dem Segment, und Setzen des Durchschnitts der Bewegungsvektordurchschnitte und der klassifizierten Typen von Durchschnitts-Null-Run-Längen als den charakteristischen Deskriptor der Inter-Vollbilder des Segments.