DE69922973T2 - Verfolgung semantischer objekte in vektorbildsequenzen - Google Patents

Verfolgung semantischer objekte in vektorbildsequenzen Download PDF

Info

Publication number
DE69922973T2
DE69922973T2 DE69922973T DE69922973T DE69922973T2 DE 69922973 T2 DE69922973 T2 DE 69922973T2 DE 69922973 T DE69922973 T DE 69922973T DE 69922973 T DE69922973 T DE 69922973T DE 69922973 T2 DE69922973 T2 DE 69922973T2
Authority
DE
Germany
Prior art keywords
image
semantic
region
current frame
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69922973T
Other languages
English (en)
Other versions
DE69922973D1 (de
Inventor
Chuang Gu
Ming-Chieh Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Application granted granted Critical
Publication of DE69922973D1 publication Critical patent/DE69922973D1/de
Publication of DE69922973T2 publication Critical patent/DE69922973T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions

Description

  • ERFINDUNGSGEBIET
  • Die vorliegende Erfindung betrifft die Analyse von Videodaten und insbesondere ein Verfahren zum Verfolgen bedeutungsvoller Wesenheiten, semantische Objekte genannt, während sie sich durch eine Sequenz von Vektorbildern, z. B. eine Videosequenz, bewegen.
  • HINTERGRUND DER ERFINDUNG
  • Ein semantisches Videoobjekt stellt eine bedeutungsvolle Wesenheit in einem digitalen Videoclip dar, z. B. einen Ball, ein Fahrzeug, ein Flugzeug, ein Gebäude, eine Zelle, ein Auge, eine Lippe, eine Hand, einen Kopf, einen Körper usw. Der Begriff "semantisch" bedeutet in diesem Kontext, dass der Betrachter des Videoclips dem Objekt irgendeine semantische Bedeutung beimisst. Jedes der oben angeführten Objekte stellt z. B. eine Wesenheit des wirklichen Lebens dar, und der Betrachter verbindet die Abschnitte auf dem Bildschirm, die diesen Wesenheiten entsprechen, mit den bedeutungsvollen Objekten, die sie darstellen. Semantische Videoobjekte können in einer Vielfalt neuer digitaler Videoanwendungen sehr hilfreich sein, einschließlich inhaltsbasierter Videokommunikation, Multimedia-Signalverarbeitung, digitaler Videobibliotheken, digitaler Filmstudios, Computervision und Mustererkennung. Um semantische Videoobjekte in diesen Anwendungen zu verwenden, werden Objekt-Segmentierungs- und Verfolgungsverfahren benötigt, um die Objekte in jedem der Videobilder zu identifizieren.
  • Der Prozess des Segmentierens eines Videoobjekts betrifft im Allgemeinen automatisierte oder halb automatisierte Verfahren zum Extrahieren interessanter Objekte in Bilddaten. Das Extrahieren eines semantischen Videoobjekts aus einem Videoclip ist für viele Jahre eine anspruchsvolle Aufgabe geblieben. In einem typischen Videoclip können semantische Objekte lösgelöste Komponenten, verschiedene Farben und vielfache harte/nicht harte Bewegungen enthalten. Während semantische Objekte von Betrachtern leicht wahrzunehmen sind, macht es die Vielfalt von Formen, Farben und Bewegungen von semantischen Objekten schwierig, diesen Prozess auf einem Computer zu automatisieren. Zufriedenstellende Ergebnisse können erzielt werden, indem man den Benutzer einen anfänglichen Umriss eines semantischen Objekts in einem Ausgangsbild zeichnen lässt und dann den Umriss verwendet, um Pixel zu berechnen, die Teil des Objekts in diesem Bild sind. In jedem aufeinanderfolgenden Bild kann eine Bewegungsschätzung benutzt werden, um die anfängliche Grenze eines Objekts basierend auf dem segmentierten Objekt aus dem vorherigen Bild vorherzusagen. Dieses halb automatische Objekt-Segmentierungs- und Verfolgungsverfahren wird in der mitanhängigen U.S. Patentanmeldung Nr. Nr. 09/054,280 von Chuang Gu und Ming Chieh Lee, betitelt "Semantic Video Object Segmentation an Tracking", beschrieben.
  • Objektverfolgung ist der Prozess des Berechnens der Position eines Objekts, während es sich von Bild zu Bild bewegt. Um mit allgemeineren semantischen Videoobjekten umzugehen, muss das Objekt-Verfolgungsverfahren in der Lage sein, mit Objekten umzugehen, die lösgelöste Komponenten und harte/nicht harte Bewegungen enthaften. Während sich umfangreiche Forschung auf Objektverfolgung konzentriert hat, verfolgen bestehende Verfahren noch immer nicht genau Objekte mit vielfachen Komponenten mit nicht harter Bewegung.
  • Einige Verfolgungsverfahren verwenden eine homogene Graustufe/Farbe als ein Kriterium, um Bereiche zu verfolgen. Siehe F. Meyer und P. Bouthemy, "Region-based tracking in an image sequence", ECCV '92, Seiten 476–484, Santa Margherita, Italien, Mai 1992; Ph Salembier, L. Torres, F. Meyer und C. Gu, "Region-based video coding using mathematical morphologiy", Proceedings of the IEEE, Vol. 83, Nr. 6, Seiten 843–857, Juni 1995; F. Marques und Cristina Molina, "Object tracking for content-based functionalities", VCIP '97, Vol. 3024, Nr. 1, Seiten 190–199, San Jose, Feb. 1997, und C. Toklu, A. Tekalp und A. Erdem, "Simultaneous alpha map generation and 2-D mesh tracking for multimedia applications", ICIP '97, Vo. 1, Seiten 113–116, Okt. 1997, Santa Barbara.
  • Einige verwenden homogene Bewegungstransformation, um sich bewegende Objekte zu verfolgen. Siehe z. B. J. Wang und E. Adelson, "Representing moving images with layers", IEEE Trans. on Image Processing, Vol. 3, Nr. 5, Seiten 625–638, Sept. 1994, und N. Brady und N. O'Connor, "Object detection and tracking using an em-based motion estimation and segmentation framework", ICIP '96, Vol. 1, Seiten 925–928, Lausanne, Schweiz, Sept. 1996.
  • Andere verwenden eine Kombination aus räumlichen und zeitlichen Kriterien, um Objekte zu verfolgen. Siehe M. J. Black, "Combining intensity and motion for incremental segmentation and tracking over long image sequences", ECCC '92, Seiten 485–493, Santa Margherita, Italien, Mai 1992; C. Gu, T. Ebrahimi und M. Kunt, "Morphological moving object segmentation and tracking for content-based video coding", Multimedia Communication and Video Coding, Seiten 233–240, Plenum Press, New York, 1995; F. Moscheni, F. Dufaux und M. Kunt, "Object tracking based on temporal an spatial information", in Proc. ICASSP '96, Vol. 4, Seiten 1914–1917, Atlanta, GA, Mai 1996, und C. Gu und M. C. Lee, "Semantic video object segmentation and tracking using mathematical morphology and perspective motion model", ICIP '97, Vol. II, Seiten 514–517, Okt. 1997, Santa Barbara.
  • EP-A-0579319 beschreibt ein Verfahren zum Verfolgen eines Kopfobjekts durch eine Videosequenz. Für ein Videobild enthält einen "Kopfsatz" die Bereiche des Bildes, die als Teil des Kopfobjekts bestimmt werden. Ein "Kopfverfolger" nimmt den Schwerpunkt des Kopfes in einem vorherigen Bild und projiziert den Schwerpunkt vorwärts unter Verwendung des Vorwärtsbewegungsvektors des Schwerpunktes. In dem gegenwärtigen Bild (das in Bereiche gleichmäßiger Bewegung segmentiert ist) lässt der Kopfverfolger den Kopfsatz für das gegenwärtige Bild um den projizierten Schwerpunkt herum wachsen.
  • Der Verweis Chuang Gu, "Combined Gray-Level and Motion Segmentation for Very Low Bit-rate Coding", SPIE Vol. 2451, Seiten 121–129 (1995) beschreibt einen bereichsbasierten mehrkriterien Segmentierungsalgorithmus zur Bildsequenzcodierung. Der Algorithmus basiert auf morphologischer Segmentierung, Bewegungsschätzungs- und Kompensationsverfahren.
  • U.S. Patent Nr. 5,717,463 beschreibt ein Verfahren und System zum Schätzen der Bewegung in einer Videosequenz, die Schätzungen sowohl eines Verschiebungsvektorfeldes als auch der Grenzen von sich bewegenden Objekten liefem. Das System umfasst einen Vorprozessor, einen raumadaptiven Pixelbewegungsschätzer, einen Bewegungsgrenzenschätzer und einen Bewegungsanalysator. Der Vorprozessor liefert eine erste Schätzung des Verschiebungsvektorfeldes, und der raumadaptive Pixelbewegungsschätzer liefert eine erste Schätzung von Objektgrenzen. Der Bewegungsgrenzenschätzer und der Bewegungsanalysator verbessern die Genauigkeit der ersten Schätzungen.
  • Die meisten dieser Verfahren setzen einen Vorwärts-Verfolgungsmechanismus ein, der die vorangehenden Bereiche/Objekte auf das momentane Bild projiziert und die projizierten Bereiche/Objekte irgendwie in dem momentanen Bild zusammensetzt/justiert. Der Hauptnachteil dieser Vorwärtsverfahren liegt in der Schwierigkeit entweder des Zusammensetzens/Justierens der projizierten Bereiche in dem momentanen Bild oder des Umgehens mit mehrfachen nicht harten Bewegungen. In vielen dieser Fälle können unbestimmte Löcher auftreten, oder die sich ergebenden Grenzen können verzerrt werden.
  • 1AC liefern einfache Beispiele von semantischen Videoobjekten, um die mit der Objektverfolgung verbundenen Schwierigkeiten zu zeigen. 1A zeigt ein semantisches Videoobjekt eines Gebäudes 100, das mehrfache Farben 102, 104 enthält. Verfahren, die annehmen, dass Objekte eine homogene Farbe besitzen, verfolgen diese Arten von Objekten nicht gut. 1B zeigt das gleiche Gebäudeobjekt von 1A, außer dass es durch einen Baum, der es teilweise verschließt, in losgelöste Komponenten 106, 108 geteilt ist. Verfahren, die annehmen, dass Objekte aus verbundenen Gruppen von Pixeln gebildet sind, verfolgen diese Arten von lösgelösten Objekten nicht gut. 1C schließlich veranschaulicht ein einfaches semantisches Videoobjekt, das eine Person 112 darstellt. Selbst dieses einfache Objekt besitzt mehrfache Komponenten 114, 116, 118, 120 mit unterschiedlicher Bewegung. Verfahren, die annehmen, dass ein Objekt eine homogene Bewegung aufweist, verfolgen diese Arten von Objekten nicht gut. Im Allgemeinen kann ein semantisches Videoobjekt losgelöste Komponenten, mehrfache Farben, merfache Bewegungen und willkürliche Formen aufweisen.
  • Außer dem Umgehen mit all diesen Attributen von allgemeinen semantischen Videoobjekten muss ein Verfolgungsverfahren auch einen annehmbaren Grad an Genauigkeit erzielen, um die Ausbreitung von Fehlern von Bild zu Bild zu vermeiden. Da Objektverfolgungsverfahren typischerweise jedes Bild basierend auf der Unterteilung eines verangehenden Bildes unterteilen, neigen Fehler in dem vorangehenden Bild dazu, in das nächste Bild ausgebreitet zu werden. Sofern nicht das Verfolgungsverfahren die Grenze eines Objekts mit pixelweiser Genauigkeit berechnet, wird es wahrscheinlich signifikante Fehler in das nächste verbreiten. Als Folge sind die für jedes Bild berechneten Objektgrenzen nicht genau, und die Objekte können nach mehreren Bildern der Verfolgung vorloren gehen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist die Aufgabe der Erfindung, ein Verfahren zum Verfolgen semantischer Objekte in einer Vektorbildsequenz, ein computerlesbares Medium sowie ein entsprechendes Computersystem bereitzustellen, die die oben erwähnten Nachteile des Standes der Technik überwinden.
  • Diese Aufgabe wird durch die Erfindung, wie in den unabhängigen Ansprüchen beansprucht, erfüllt.
  • Bevorzugte Ausführungen werden durch die abhängigen Ansprüche definiert.
  • Die Erfindung stellt ein Verfahren zum Verfolgen semantischer Objekte in Vektorbildsequenzen bereit. Die Erfindung ist besonders gut zum Verfolgen semantischer Videoobjekte in digitalen Videoclips geeignet, kann aber auch für eine Vielfalt anderer Vektorbildsequenzen verwendet werden. Während das Verfahren in Software-Programmmodulen implementiert ist, kann es auch in digitaler Hardwarelogik oder in einer Kombination aus Hardware- und Software-Komponenten implementiert werden.
  • Das Verfahren verfolgt semantische Objekte in einer Bildsequenz durch Segmentieren von Bereichen von einem Bild dann Projizieren der segmentierten Bereiche in ein Zielbild, wo die Grenze oder Grenzen eines semantischen Objekts bereits bekannt sind. Die projizierten Bereiche werden als formender Teil eines semantischen Objekts klassifiziert, indem das Ausmaß bestimmt wird, in dem sie sich mit einem semantischen Objekt in dem Zielbild überschneiden. In einer typischen Anwendung wiederholt z. B. das Verfolgungsverfahren für jedes Bild Klassifizierungsbereiche durch Projizieren derselben in das vorangehende Bild, in dem die Grenzen des semantischen Objekts zuvor berechnet werden.
  • Das Verfolgungsverfahren nimmt an, dass semantische Objekte in dem Ausgangsbild bereits identifiziert sind. Um die Anfangsgrenzen eines semantischen Objekts zu erlangen, kann ein Segmentierungsverfahren für semantische Objekte benutzt werden, um die Grenzen des semantischen Objekts in einem Ausgangsbild zu identifizieren.
  • Nach dem Ausgangsbild arbeitet das Verfolgungsverfahren auf den Segmentierungsergebnissen des vorangehenden Bildes und dem gegenwärtigen und vorangehenden Bild. Für jedes Bild in einer Sequenz segmentiert ein Bereichsextrahierer homogene Bereiche aus dem Bild. Ein Bewegungsschätzer führt dann einen bereichsbasierten Abgleich für jeden dieser Bereiche durch, um den am besten übereinstimmenden Bereich von Bildwerten in dem vorangehenden Bild zu identifizieren. Unter Verwendung der in diesem Schritt gewonnenen Bewegungsparameter werden die segmentierten Bereiche in das vorangehende Bild projiziert, wo die semantische Grenze bereits berechnet ist. Ein Bereichsklassifizierer klassifiziert dann die Bereiche als Teil von semantischen Objekten in dem gegenwärtigen Bild basierend auf dem Ausmaß, in dem sich die projizierten Bereiche mit semantischen Objekten in dem vorangehenden Bild überschneiden.
  • Die obige Lösung ist besonders geeignet zum Arbeiten auf geordneten Sequenz von Bildern. Bei dieser Art von Anwendungen werden die Segmentierungsergebnisse des vorangehenden Bildes verwendet, um die aus dem nächsten Bild extrahierten Bereiche zu klassifizieren. Sie kann aber auch verwendet werden, um semantische Objekte zwischen einem Eingabebild und jedem anderen Zielbild zu verfolgen, wo die Grenzen des semantischen Objekts bekannt sind.
  • Eine Implementierung des Verfahrens setzt ein einmaliges Raumsegmentierungsverfahren ein. Das heißt, dieses Raumsegmentierungsverfahren ist ein Bereichszuwachsprozess, wo Bildpunkte zu dem Bereich hinzugefügt werden, solange die Differenz zwischen den minimalen und maximalen Bildwerten für Punkte in dem Bereich unter einem Schwellenwert liegen. Dieses Verfahren ist als ein sequenzielles Segmentierungsverfahren implementiert, das mit einem ersten Bereich an einem Anfangspunkt beginnt und sequenziell Bereiche einen nach dem anderen unter Verwendung des gleichen Tests, um homogene Gruppen von Bildpunkten zu identifizieren, bildet.
  • Implementierungen des Verfahrens enthalten andere Merkmale, um die Genauigkeit des Verfolgungsverfahrens zu verbessern. Zum Beispiel enthält das Verfolgungsverfahren vorzugsweise eine bereichsbasierte Vorverarbeitung, um Bildfehler ohne Verwischen von Objektgrenzen zu entfernen, und eine Nachverarbeitung auf den berechneten Grenzen des semantischen Objekts. Die berechnete Grenze eines Objekts wird aus den einzelnen Bereichen gebildet, die als mit dem gleichen semantischen Objekt in dem Zielbild verbunden klassifiziert werden. Bei einer Implementierung glättet der Nachprozessor die Grenze eines semantischen Objekts unter Verwendung eines Mehrheits-Operatorfilters. Dieses Filter untersucht benachbarte Bildpunkte für jeden Punkt in einem Bild und bestimmt das semantische Objekt, das die größte Zahl dieser Punkte enthält. Es weist dann den Punkt dem semantischen Objekt zu, das die größte Zahl von Punkten enthält.
  • Weitere Vorteile und Merkmale der Erfindung werden in der folgenden ausführlichen Beschreibung und den begleitenden Zeichnungen ersichtlich werden.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1AC sind Beispiele, die verschiedene Arten von semantischen Objekten zeigen, um die Schwierigkeit des Verfolgens von allgemeinen semantischen Objekten zu veranschaulichen.
  • 2 ist ein Blockschaltbild, das ein Verfolgungssystem für semantische Objekt zeigt.
  • 3AD sind Diagramme, die Beispiele von Unterteilungsbildern und ein Verfahren zum Darstellen von Unterteilungsbildern in einem Bereichsangrenzungsgraphen zeigen.
  • 4 ist ein Flusdiagramm, das eine Implementierung eines Verfolgungsverfahrens für semantische Objekte veranschaulicht.
  • 5 ist ein Blockschaltbild eines Computersystems, das als eine Betriebsumgebung für eine Implementierung der Erfindung dient.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Übersicht eines Systems zum Verfolgen semantischer Objekte
  • Die folgenden Abschnitte beschreiben ein Verfahren zum Verfolgen semantischer Objekte. Dieses Verfahren nimmt an, dass das semantische Objekt für das Ausgangsbild (I-Bild) bereits bekannt ist. Das Ziel des Verfahrens ist, das semantische Aufteilungsbild in dem gegenwärtigen Bild basierend auf der Information von dem vorangehenden Aufteilungsbild und dem vorangehenden Bild zu finden.
  • Eine grundlegende Beobachtung über das semantische Aufteilungsbild ist, dass die Grenzen des Aufteilungsbildes sich an den physikalischen Kanten einer bedeutungsvollen Wesenheit befinden. Eine physikalische Kante ist die Stelle zwischen zwei verbundenen Punkten, wo die Bildwerte (z. B. ein Farbintensitäts-Triplet, Graustufenwert, Bewegungsvektor usw.) an diesen Punkten signifikant verschieden sind. Unter Ausnutzung dieser Beobachtung löst das Verfolgungsverfahren das semantische Videoobjekt unter Verwendung einer Teilen-und-Erobern-Strategie auf.
  • Zuerst findet das Verfolgungsverfahren die physikalischen Kanten in dem momentanen Bild. Dies wird mittels eines Segmentierungsverfahrens, und im Besonderen, eines räumlichen Segmentierungsverfahrens verwirklicht. Das Ziel dieses Segmentierungsverfahrens ist, alle verbundenen Bereiche mit homogenen Bildwerten (z. B. Farbintensitäts-Triplets, Graustufenwerten usw.) in dem momentanen Bild zu extrahieren. Zweitens klassifiziert das Verfolgungsverfahren jeden extrahierten Bereich in dem momentanen Bild, um zu bestimmen, zu welchem Objekt in dem vorangehenden Bild er gehört. Diese Klassifizierungsanalyse ist ein bereichsbasiertes Klassifizierungsproblem. Sobald das bereichsbasierte Klassifizierungsproblem gelöst ist, ist das semantische Videoobjekt in dem momentanen Bild extrahiert und verfolgt worden.
  • 2 ist ein Diagramm, das das System zum Verfolgen semantischer Videoobjekte veranschaulicht. Das Verfolgungssystem umfasst die folgenden fünf Module:
    • 1. Bereichs-Vorverarbeitung 220;
    • 2. Bereichsextraktion 222;
    • 3. Bereichsbasierte Bewegungsschätzung 224;
    • 4. Bereichsbasierte Klassifizierung 226 und
    • 5. Bereichs-Nachverarbeitung 228.
  • 2 verwendet die folgende Notation:
    Ii – Eingangsbild für Bild i;
    Si – Raumsegmentierungsergebnisse für Bild i;
    Mi – Bewegungsparameter für Bild i und
    Ti – Verfolgungsergebnisse für Bild i.
  • Das Verfolgungsverfahren nimmt an, dass das semantische Videoobjekt für das Ausgangsbild I0 bereits bekannt ist. Beginnend mit einem Anfangsbild bestimmt ein Segementierungsprozess eine Anfangsaufteilung, die Grenzen von semantischen Objekten in dem Bild definiert. In 2 stellt der I-Segmentierungsblock 210 ein Programm zur Segmentierung eines semantischen Videoobjekts dar. Das Programm nimmt das Anfangsbild I0 und berechnet die Grenze eines semantischen Objekts. Diese Grenze wird typischerweise durch eine Binär- oder Alphamaske dargestellt. Eine Vielfalt von Segmentierungsverfahren kann verwendet werden, um das oder die semantischen Videoobjekte für das erste Bild zu finden.
  • Wein der mitanhängigen U.S. Patentanmeldung Nr. 09/054,280 von Gu und Lee beschrieben, besteht ein Verfahren darin, ein Zeichenwerkzeug bereitzustellen, das einem Benutzer ermöglicht, eine Grenzlinie um das Innere und Äußere der Grenze eines semantischen Videoobjekts herum zu ziehen. Diese vom Benutzer gezogene Grenze dient dann als ein Startpunkt für ein automatisiertes Verfahren zum Einrasten der berechneten Grenze an der Kante des semantischen Videoobjekts. In Anwendungen, die mehr als ein interessierendes semantisches Videoobjekt umfassen, berechnet der I-Segmentierungsprozess 210 ein Unterteilungsbild, z. B. eine Maske, für jedes.
  • Der in dem Anfangsbild benutzte Nachverarbeitungsblock 212 ist ein Prozess zum Glätten des anfänglichen Unterteilungsbildes und zum Entfernen von Fehlern. Dieser Prozess ist gleich oder ähnlich der Nachbearbeitung, die benutzt wird, um das Ergebnis des Verfolgens des semantischen Videoobjekts in nachfolgenden Bildern I1, I2 zu verarbeiten.
  • Die Eingabe für den Verfolgungsprozess, der im nächsten Bild (I1) beginnt, enthält das vorherige Bild I0 und die vorherigen Bildsegmentierungsergebnisse T0. Die gestrichelten Linien 216 trennen die Verarbeitung jedes Bildes. Die gestrichelte Linie 214 trennt die Verarbeitung für das Anfangsbild und das nächste Bild, während die gestrichelte Linie 216 die Verarbeitung für folgende Bilder während der semantischen Videoobjekt-Verfolgungsbilder trennt.
  • Die semantische Videoobjekt-Verfolgung beginnt mit Bild I1. Der erste Schritt dient zum Vereinfachen des Eingabebildes I1. In 2 stellt der Vereinfachungsblock 220 einen Bereichs-Vorverarbeitungsschritt dar, der benutzt wird, um das Eingabebild I1 vor weiterer Analyse zu vereinfachen. In vielen Fällen enthalten die Eingabedaten Rauschen, das die Verfolgungsergebnisse nachteilig beeinflussen kann. Die Bereichs-Vorverarbeitung entfernt Rauschen und stellt sicher, dass die weitere Verfolgung semantischer Objekte auf den gereinigten Eingabedaten durchgeführt wird.
  • Der Vereinfachungsblock 220 liefert ein gereinigtes Ergebnis, das einem Segmentierungsverfahren ermöglicht, Bereiche von verbundenen Pixeln genauer zu extrahieren. In 2 stellt der Segmentierungsblock 222 ein räumliches Segmentierungsverfahren zum Extrahieren verbundener Bereiche mit homogenen Bildwerten in dem Eingabebild dar.
  • Für jeden Bereich stellt das Verfolgungssystem fest, ob ein verbunder Bereich aus den vorangehenden semantischen Videoobjekt stammt. Wenn die Verfolgungsphase für das gegenwärtige Bild vollendet ist, wird die Grenze des semantischen Videoobjekts in dem gegenwärtigen Bild aus den Grenzen dieser verbundenen Bereiche konstruiert. Die räumliche Segmentierung sollte daher ein verlässliches Segmentierungsergebnis für das gegenwärtige Bild bereitstellen, d. h. kein Bereich sollte fehlen und kein Bereich sollte irgendeine Fläche enthalten, die nicht zu ihm gehört.
  • Der erste Schritt beim Feststellen, ob ein verbundener Bereich zu dem semantischen Videoobjekt gehört, ist das Abgleichen des verbundenen Bereichs mit einem entsprechenden Bereich in dem vorangehenden Bild. Wie in 2 gezeigt, nimmt ein Bewegungsschätzungsblock 224 die verbundenen Bereiche und das momentane und vorangehende Bild als Eingabe und findet einen entsprechenden Bereich in dem vorangehenden Bild, der jedem Bereich in dem momentanen Bild am besten entspricht. Für jeden Bereich liefert der Bewegungsschätzungsblock 224 die Bewegungsinformation, um vorherzusagen, woher jeder Bereich in dem momentanen Bild aus dem vorangehenden Bild kommt. Diese Bewegungsinformation bezeichnet die Stelle des Vorfahrs jedes Bereichs in dem vorhergehenden Bild. Diese Information wird später verwendet, um zu bestimmen, ob der gegenwärtige Bereich zu dem semantischen Videoobjekt gehört oder nicht.
  • Als Nächstes klassifiziert das Verfolgungssystem jeden Bereich dahin gehend, ob er von dem semantischen Videoobjekt stammt. In 2 identifiziert der Klassifizierungsblock 226 das semantische Objekt in dem vorangehenden Bild, aus dem jeder Bereich wahrscheinlich stammt. Der Klassifizierungsprozess benutzt die Bewegungsinformation für jeden Bereich, um vorherzusagen, von wo der Bereich in dem vorangehenden Bild kommt. Durch Vergleichen des vorhergesagten Bereiches mit den Segmentierungsergebnissen des vorangehenden Bildes bestimmt der Klassifizierungsprozess das Ausmaß, in dem der vorherge sagte Bereich sich mit einem für das vorangehende Bild bereits berechneten semantischen Objekt oder Objekten überschneidet. Das Ergebnis des Klassifizierungsprozesses verbindet jeden Bereich in dem gegenwärtigen Bild mit entweder einem semantischen Videoobjekt oder dem Hintergrund. Ein verfolgtes semantisches Videoobjekt in dem gegenwärtigen Bild umfasst die Vereinigung aller mit einem entsprechenden semantischen Videoobjekt in dem vorangehenden Bild verbundenen Bereiche.
  • Schließlich verarbeitet das Verfolgungssystem die verbundenen Bereiche für jedes Objekt nach. In 2 stimmt der Nachverarbeitungsblock 228 die erhaltenen Grenzen jedes semantischen Videoobjekts in dem gegenwärtigen Bild fein ab. Dieser Prozess entfernt in der Klassifizierungsprozedur eingebrachte Fehler und glättet die Grenzen, um die visuelle Wirkung zu verbessern.
  • Für jedes nachfolgende Bild wiederholt das Verfolgungssystem die gleichen Schritte in einer automatisierten Weise unter Verwendung des vorangehenden Bildes, des Verfolgungsergebnisses des vorangehenden Bildes und des momentanen Bildes als Eingabe. 2 zeigt ein Beispiel der für Bild I2 wiederholten Verarbeitungsschritte. Die Blöcke 240248 stellen die auf das nächste Bild angewandten Verfolgungsschritte dar.
  • Anders als andere Bereichs- und Objektverfolgungssysteme, die verschiedene Vorwärtsverfolgungsmechanismen einsetzen, führt das in 2 gezeigte Verfolgungssystem eine Rückwärtsverfolgung durch. Die rückwärts bereichsbasierte Klassifizierungslösung hat den Vorteil, dass die Grenzen des endgültigen semantischen Videoobjekts als Ergebnis der räumlichen Segmentierung immer in den physikalischen Kanten einer bedeutungsvollen Wesenheit liegen. Da außerdem jeder Bereich einzeln behandelt wird, kann das Verfolgungssystem leicht mit losgelösten semantischen Objekten oder nicht harten Bewegungen umgehen.
  • Definitionen
  • Bevor eine Implementierung des Verfolgungssystems beschrieben wird, ist es hilfreich, mit einer Reihe Definitionen zu beginnen, die im ganzen Rest der Beschreibung verwendet werden. Diese Definitionen helfen zu veranschaulichen, dass das Verfolgungsverfahren nicht nur für Sequenzen von Farbvideobildern, sondern auch für andere zeitliche Sequenzen von mehrdimensionalen Bilddaten gilt. In diesem Zusammenhang betrifft "mehrdimensional" die Raumkoordinaten jedes diskreten Bildpunktes sowie den Bildwert an diesem Punkt. Eine zeitliche Sequenz von Bilddaten kann als eine "Vektorbildsequenz" bezeichnet werden, weil sie aus aufeinanderfolgenden Bildern von mehrdimensionalen Datenanordnungen besteht.
  • Beispiele
    Figure 00110001
    Tabelle 1: Verschiedene Typen von Eingabedaten als Vektorbildsequenzen
  • Die Dimension n betrifft die Zahl von Dimensionen in den Raumkoordinaten eine Bildprobe. Die Dimension m betrifft die Zahl von Dimensionen des an den Raumkoordinaten der Bildprobe gelegenen Bildwertes. Die Raumkoordinaten einer Farbvolumen-Bildsequenz enthalten z. B. drei Raumkoordinaten, die die Stelle einer Bildprobe im dreidimensionalen Raum definieren, sodass n = 3. Jede Probe in dem Farbvolumenbild besitzt drei Farbwerte, R, G und B, sodass m = 3.
  • Die folgenden Definitionen liefern eine Grundlage zum Beschreiben des Verfolgungssystems im Kontext von Vektorbildsequenzen unter Verwendung der Satz- und Graphentheorie-Notation.
  • Definition 1 Verbundene Punkte
  • S sei ein n-dimensionaler Satz: ein Punkt p ∈ S ⇒ p = (p1, ..., pn). p, q ∈ S, p und q sind verbunden wenn und nur wenn ihr Abstand Dp,q gleich eins ist:
  • Figure 00110002
  • Definition 2 Verbundene Pfade
  • P (P ⊆ S) sei ein Pfad, der aus m Punkten p1, ..., pm besteht. Pfad P ist verbunden, wenn und nur wenn pk und pk + 1 (k ∈ (1, ..., m – 1)) verbundene Punkte sind.
  • Definition 3 Nachbarschaftspunkte
  • R (R ⊆ S) sei ein Bereich. Ein Punkt p (p ∈ R) ist Nachbar von Bereich R, wenn und nur wenn ein anderer Punkt q (q ∈ R) p und q verbundene Punkte sind.
  • Definition 4 Verbundener Bereich
  • R (R ⊆ S) sei ein Bereich. R ist ein verbundener Bereich, wenn und nur wenn ∀ x, y ∈ R ∃ ein verbundener Pfad P (P = (p1, ..., pm)), wo p1 = x und pn = y.
  • Definition 5 Unterteilungsbild
  • Ein Unterteilungsbild P ist eine Abbildung P: S → T, wo T ein vollständiges geordnetes Gitter ist. Rp(x) sei der Bereich, der einen Punkt x: Rp(x) = ∪y∈S(y|P(x) = P(y)) enthält. Ein Unterteilungsbild sollte die folgende Bedingung erfüllen: ∀ x, y, ∈ S, Rp(x) = Rp(y) oder Rp(x) ∩ Rp(y) = ∅; ∪x∈SRp(x) = S.
  • Definition 6 Verbundenes Unterteilungsbild
  • Ein verbundenes Unterteilungsbild ist ein Unterteilungsbild P, wo ∀ x ∈ S, Rp(x) immer verbunden ist.
  • Definition 7 Feinunterteilung
  • Wenn ein Unterteilungsbild P feiner als ein anderes Unterteilungsbild P' auf S ist, bedeutet dies ∀ x ∈ S, Rp(x) ⊇ RP(x).
  • Definition 8 Grobunterteilung
  • Wenn ein Unterteilungsbild P gröber als ein anderes Unterteilungsbild P' auf S ist, bedeutet dies ∀ x ∈ S, Rp(x) ⊆ RP(x).
  • Es gibt zwei extreme Fälle für das Unterteilungsbild. Einer ist die "gröbste Unterteilung", die den ganzen Satz bedeckt: ∀ x, y ∈ Rp(x) = Rp(y). Der andere wird "die feinste Unterteilung" genannt, wo jeder Punkt in S ein individueller Bereich ist: ∀ x, y ∈ S, x ≠ y ⇒ Rp(x) ≠ Rp(y).
  • Definition 9 Aneinandergrenzende Bereiche
  • Zwei Bereiche R1 und R2 sind aneinandergrenzend, wenn und nur wenn ∃ x, y (x ∈ R1 und y ∈ R2) x und y verbundene Punkte sind.
  • Definition 10 Bereichsangrenzungsgraph
  • P sei ein Unterteilungsbild auf einem mehrdimensionalen Satz S. Es gibt k Bereiche (R1, ..., Rk) in P, wo S = ∪R1 und wenn i ≠ j ⇒ Ri ∩ Rj = ∅. Der Bereichsangrenzungsgraph (RAG) besteht aus einem Satz von Scheiteln V und einem Kantensatz L. Lasse V = (v1, ..., vk), wo jedes vi mit dem entsprechenden Ri verbunden ist. Der Kantensatz L ist (e1, ..., et), L ⊆ V ⊗ V, wo jedes ei zwischen zwei Scheiteln gebildet ist, wenn die zwei entsprechenden Bereiche aneinandergrenzende Bereiche sind.
  • 3AC zeigen Beispiele von verschiedenen Arten von Unterteilungsbildern, und 3D zeigt ein Beispiel eines Bereichsangrenzungsgraphen basierend auf diesen Unterteilungsbildern. In diesen Beispielen ist S ein Satz von zweidimensionalen Bildern. Die weißen Flächen 300308, die schraffierten Flächen 310314 und die gepunktete Fläche 316 stellen verschiedene Bereiche in einem zweidimensionalen Bildrahmen dar. 3A zeigt ein Unterteilungsbild mit zwei verbundenen Bereichen (weiße Flächen 300302). 3B zeigt ein verbundenes Unterteilungsbild mit zwei verbundenen Bereichen (weiße Fläche 304 und schraffierte Fläche 312). 3C zeigt ein verglichen mit 3A feineres Unterteilungsbild, in dem die schraffierte Fläche 310 von 3A zwei Bereiche umfasst: Schraffierte Fläche 314 und gepunktete Fläche 316. 3D zeigt den entsprechenden Bereichsangrenzungsgraphen des Unterteilungsbildes in 3C. Die Scheitel 320, 322, 324, 326 in dem Graphen entsprechen Bereichen 306, 314, 316 bzw. 308. Die Kanten 330, 332, 334, 336 und 338 verbinden Scheitel von aneinandergrenzenden Bereichen.
  • Definition 11 Vektorbildsequenz
  • m (m >= 1) gänzlich geordnete vollständige Gitter L1, ..., Lm von Produkt L (L = L1 ⊗ L2 ⊗ ... ⊗ Lm) gegeben, ist eine Vektorbildsequenz eine Sequenz der Abbildung It: S → L, wo S ein n-dimensionaler Satz ist und t die Zeitdomäne ist.
  • Tabelle 1 oben zeigt mehrere Arten von Vektorbildsequenzen. Diese Vektorbildsequenzen können entweder aus einer Reihe von Sensoren, z. B. Farbbilder, oder aus einem berechneten Parameterraum gewonnen werden. Obwohl sich die physikalische Bedeutung der Eingabesignale von Fall zu Fall ändert, können alle von ihnen generell als Vektorbildsequenten angesehen werden.
  • Definition 12 Semantische Videoobjekte
  • I sei ein Vektorbild auf einem n-dimensionalen Satz S. P sei ein semantisches Unterteilungsbild von I. S = ∪i=1,...,mOi. Jedes Oi bezeichnet die Stelle eines semantischen Videoobjekts.
  • Definition 13 Segmentierung semantischer Videoobjekte
  • I sei ein Vektorbild auf einem n-dimensionalen Satz S. Segmentierung semantischer Videoobjekte soll die Objektnummer m und die Stelle jedes Objekts Oi finden,
    i = 1, ..., m, wo S = ∪i=1,...,mOi.
  • Definition 14 Verfolgung semantischer Videoobjekte
  • It–1 sei ein Vektorbild auf einem n-dimensionalen Satz S, und Pt–1 sei das entsprechende semantische Unterteilungsbild bei Zeit t – 1. S = ∪i=1,...,mOt–1,i. Jedes Ot–1,i (i = 1, ..., m) ist ein semantisches Videoobjekt bei Zeit t – 1. Verfolgen semantischer Videoobjekte in It ist definiert als Finden des semantischen Videoobjekts Ot,1 bei Zeit t, i = 1, ..., m. ∀ x ∈ Ot–1,i und ∀ y ∈ Ot,i: Pt–1(x) = Pt(y).
  • Beispiel-Implementierung
  • Die folgenden Abschnitte beschreiben ausführlicher eine spezifische Ausführung eines Verfahrens zum Verfolgen semantischer Videoobjekte. 4 ist ein Blockdiagramm, das die Hauptkomponenten in der unten beschriebenen Implementierung veranschaulicht. Jeder der Blöcke in 4 stellt Programmmodule dar, die Teile des oben umrissenen Objektverfolgungsverfahrens implementieren. Abhängig von einer Vielfalt von Erwägungen, z. B. Kosten, Leistung und Entwurfskomplexität, kann jedes dieser Module auch in digitalen Logikschaltkreisen implementiert werden.
  • Unter Verwendung der oben definierten Notation nimmt das in 4 gezeigte Verfolgungsverfahren als Eingabe das Segmentierungsergebnis eines vorangehenden Bildes bei Zeit t – 1 und das gegenwärtige Vektorbild It. Das gegenwärtige Vektorbild ist definiert in m (m >= 1) ganz geordneten vollständigen Gittern L1, ..., Lm von Produkt L (s. Definition 11) auf einem n-dimensionalen Satz S: ∀ p, p ∈ S, It(p) = (L1(p), L2(p), ..., Lm(p)).
  • Unter Verwendung dieser Information berechnet das Verfolgungsverfahren ein Unterteilungsbild für jedes Bild in der Sequenz. Das Ergebnis der Segmentierung ist eine Maske, die die Position jedes semantischen Objekts in jedem Bild identifiziert. Jede Maske hat eine Objektnummer, die identifiziert, welchem Objekt sie in jedem Bild entspricht.
  • Man betrachte z. B. eine Farbbildsequenz, wie in Tabelle 1 definiert. Jeder Punkt p stellt ein Pixel in einem zweidimensionalen Bild dar. Die Anzahl von Punkten in dem Satz S entspricht der Zahl von Pixeln in jedem Bildrahmen. Das Gitter an jedem Pixel umfasst drei Probenwerte, die Rot-, Grün- und Blau-Intensitätswerten entsprechen. Das Ergebnis des Verfolgungsverfahrens ist eine Serie von zweidimensionalen Masken, die die Position aller Pixel identifizieren, die einen Teil des entsprechenden semantischen Videoobjekts für jedes Bild bilden.
  • Bereichs-Vorverarbeitung
  • Die in 4 gezeigte Implementierung beginnt die Verarbeitung für ein Bild durch Vereinfachen des eingegebenen Vektorbildes. Das heißt, ein Vereinfachungsfilter 420 reinigt das ganze Eingabevektorbild vor der weiteren Verarbeitung. Beim Konstruieren dieser Vorverarbeitungsstufe ist es vorzuziehen, ein Vereinfachungsverfahren zu wählen, das keine fremden Daten einbringt. Ein Tiefpassfilter kann z. B. ein Bild reinigen und glätten, kann aber auch die Grenzen eines Videobildes verzerren. Es ist daher vorzuziehen, ein Verfahren zu wählen, das das Eingangsvektorbild vereinfacht, während die Grenzposition des semantischen Videoobjekts bewahrt wird.
  • Viele nicht lineare Filter, z. B. Median-Filter oder morphologische Filter, sind Kandidaten für diese Aufgabe. Die vorliegende Implementierung benutzt ein Vektor-Medianfilter, Median(°), für die Vereinfachung des Eingabevektorbildes.
  • Das Vektor-Medianfilter berechnet den Median-Bildwert oder Werte von benachbarten Punkten für jeden Punkt in dem Eingabebild und ersetzt den Bildwert an dem Punkt mit dem Medianwert. Für jeden Punkt p in dem n-dimensionalen Satz S wird ein Strukturelement E um ihn herum definiert, das alle verbundenen Punkte enthält (s. Definition 1 über verbundene Punkte): E = ∪q∈S(Dp,q = 1).
  • Der Vektor-Median eines Punktes p ist als der Median jeder Komponente in dem Strukturelelment E definiert:
  • Figure 00150001
  • Unter Verwendung eines solchen Vektor-Medianfilters kann eine kleine Variation des Vektorbildes It entfernt werden, während die Grenzen von Videoobjekten unter der besonderen Konstruktion des Strukturelements E wohl bewahrt werden. Als Folge kann der Verfolgungsprozess Grenzen von semantischen Videoobjekten wirkungsvoller identifizieren.
  • Bereichsextraktion
  • Nach Filtern des Eingangsvektorbildes extrahiert der Verfolgungsprozess Bereiche aus dem gegenwärtigen Bild. Um dies zu erreichen, verwendet der Verfolgungsprozess ein räumliches Segmentierungsverfahren 422, das das gegenwärtige Bild nimmt und Bereiche von verbundenen Punkten mit "homogenen" Bildwerten identifiziert. Diese verbundenen Bereiche sind die Bereiche von Punkten, die bei der bereichsbasierten Bewegungsschätzung 424 und der bereichsbasierten Klassifizierung 426 verwendet werden.
  • Beim Implementieren einer Bereichsextraktionsstufe sind drei Hauptpunkte zu beachten. Erstens, die Vorstellung von "homogen" muss konsolidiert werden. Zweitens, die Gesamtzahl von Bereichen sollte gefunden werden. Drittens, die Stelle jedes Bereichs muss festgelegt werden. Die Literatur bezüglich der Segmentierung von Vektorbilddaten beschreibt eine Vielfalt von räumlichen Segmentierungsverfahren. Die gebräuchlichsten räumlichen Segmentierungsverfahren verwenden:
    • – Polynom-Funktionen, die die Homogenität der Bereiche definieren;
    • – deterministische Verfahren, um die Zahl von Bereichen zu finden, und/oder
    • – Grenzjustierung, um die Stelle aller Bereiche zu beenden.
  • Diese Verfahren können bei einigen Anwendungen zufriedenstellende Ergebnisse liefem, aber sie garantieren kein genaues Ergebnis für eine breite Vielfalt von semantischen Videoobjekten mit nicht harter Bewegung, losgelösten Bereichen und mehrfachen Farben. Die benötigte Genauigkeit des räumlichen Segmentierungsverfahrens ist recht hoch, weil die Genauigkeit, mit der die semantischen Objekte klassifiziert werden können, von der Genauigkeit der Bereiche abhängt. Vorzugsweise sollte nach der Segmentierungsstufe kein Bereich des semantischen Objekts fehlen, und kein Bereich sollte eine Fläche enthalten, die nicht zu ihm gehört. Da die Grenzen der semantischen Videoobjekte in dem momentanen Bild als eine Untermenge aller Grenzen dieser verbundenen Bereiche definiert sind, beeinflusst ihre Genauigkeit direkt die Genauigkeit des Ergebnisses des Verfolgungsprozesses. Wenn die Grenzen unkorrekt sind, werden die Grenzen des resultierenden semantischen Videoobjekts ebenfalls unkorrekt sein. Das räumliche Segmentierungsverfahren sollte daher ein genaues räumliches Unterteilungsbild für das momentane Bild bereitstellen.
  • Die vorliegende Implementierung des Verfolgungsverfahrens verwendet ein neuartiges und schnelles räumliches Segmentierungsverfahren, genannt LabelMinMax. Dieses besondere Verfahren vermehrt einen Bereich zu einer Zeit in einer sequenziellen Weise. Dieses Verfahren ist anders als parallele Bereichszüchtungsprozesse, die verlangen, dass alle Samen zu spezifizieren sind, bevor eine Bereichszüchtung von einem Samen vonstatten geht. Das sequenzielle Bereichszüchtungsverfahren extrahiert einen Bereich nach dem anderen. Es erlaubt eine flexiblere Behandlung jedes Bereichs und reduziert die Gesamtrechenkomplexität.
  • Die Bereichshomogenität wird durch die Differenz zwischen den Maximal- und Minimalwer ten in einem Bereich gesteuert. Angenommen, dass das Eingangsvektorbild It in m (m >= 1) ganz geordneten vollständigen Gittern L1, ..., Lm von Produkt L (s. Definition 11) definiert ist: ∀ p, p ∈ S, It(p) = (L1(p), L2(p), ..., Lm(p)).
  • Die Maximal- und Minimalwerte (MaxL und MinL) in einem Bereich R sind definiert als:
  • Figure 00170001
  • Wenn die Differenz zwischen MaxL und MinL kleiner als ein Schwellenwert (H = (h1, h2, ..., hm)) ist, ist dieser Bereich homogen:
  • Figure 00170002
  • Das LabelMinMax-Verfahren markiert jeden Bereich einen nach dem anderen. Es beginnt mit einem Punkt p in dem n-dimensionalen Satz S. Angenommen, R ist der momentane Bereich, auf dem LabelMinMax arbeitet. Am Anfang enthält er nur den Punkt p: R = (p). Als Nächstes prüft LabelMinMax alle benachbarten Punkte von Bereich R (s. Definition 3), um zu sehen, ob der Bereich R noch homogen ist, wenn ein benachbarter Punkt q in ihn eingefügt wird. Ein Punkt q wird dem Bereich R hinzugefügt, wenn das Hinzufügen die Homogenität des Bereichs nicht verändert. Der Punkt q sollte aus Satz S gelöscht werden, wenn er in den Bereich R eingefügt ist. Der Bereich R erweitert sich allmählich auf alle homogenen Gebiete, wo keine Nachbarpunkte mehr hinzugefügt werden können. Dann wird ein neuer Bereich mit einem Punkt aus den restlichen Punkten in S konstruiert. Dieser Prozess dauert an, bis in S keine Punkte mehr vorhanden sind. Der ganze Prozess kann durch den folgenden Pseudo-Code klar beschrieben werden:
  • Figure 00170003
  • Figure 00180001
  • LabelMinMax hat eine Anzahl von Vorteilen, einschließlich:
    • – MaxL und MinL liefern eine genauere Beschreibung über die Homogenität eines Bereichs verglichen mit anderen Kriterien;
    • – Die Definition von Homogenität liefert eine strengere Kontrolle über die Homogenität eines Bereichs, was zu genauen Grenzen führt;
    • – LabelMinMax liefert zuverlässige Raumsegmentierungsergebnisse;
    • – LabelMinMax besitzt eine viel niedrigere Rechenkomplexität als andere Verfahren.
  • Während diese Vorteile LabelMinMax zu einer guten Wahl für räumliche Segmentierung machen, ist es auch möglich, alternative Segmentierungsverfahren zu verwenden, um verbundene Bereiche zu identifizieren. Andere Bereichszüchtungsverfahren verwenden z. B. verschiedene Homogenitätskriterien und Modelle von "homogenen" Bereichen, um zu bestimmen, ob Punkte zu einem homogenen Bereich hinzuzufügen sind. Diese Kriterien umfassen z. B. eine Intensitätsschwelle, wo Punkte einem Bereich hinzugefügt werden, solange die Differenz zwischen der Intensität jedes neuen Punktes und einem Nachbarpunkt in dem Bereich einen Schwellenwert nicht übersteigt. Die Homogenitätskriterien können auch in Form iner mathematischen Funktion definiert werden, die beschreibt, wie sich die Intensitätswerte von Punkten in einem Bereich ändern dürfen und dennoch als Teil des verbundenen Bereichs angesehen werden.
  • Bereichsbasierte Bewegungsschätzung
  • Der Prozess der bereichsbasierten Bewegungsschätzung 424 gleicht die Bildwerte in durch den Segmentierungsprozess identifizierten Bereichen mit entsprechenden Bildwerten in vorangehenden Bildern ab, um zu schätzen, wie der Bereich sich von dem vorangehenden Bild bewegt hat. Um diesen Prozess zu veranschaulichen, betrachte man das folgende Beispiel. It–1 sei das vorangehende Vektorbild auf einem n-dimensionalen Satz S bei Zeit t – 1, und It sei das momentane Vektorbild auf dem gleichen Satz S bei Zeit t. Die Bereichsextraktionsprozedur hat N homogene Bereiche Ri (i = 1, 2, ..., N) in dem momentanen Bild It extrahiert: S = ∪i=1,...,NRi.
  • Nun schreitet der Verfolgungsprozess voran, um jeden Bereich als zu genau einem der se mantischen Videoobjekte in dem vorangehenden Bild gehörend zu klassifizieren. Der Verfolgungsprozess löst dieses bereichsbasierte Klassifizierungsproblem unter Verwendung von bereichsbasierter Bewegungsschätzung und Kompensation. Für jeden extrahierten Bereich Ri in dem momentanen Bild It wird eine Bewegungsschätzungsprozedur durchgeführt, um herauszufinden, woher dieser Bereich in dem vorangehenden Bild It–1 stammt. Während eine Anzahl von Bewegungsmodellen verwendet werden kann, benutzt die vorliegende Implementierung ein Übersetzungs-Bewegungsmodell für die Bewegungsschätzungsprozedur. Bei diesem Modell berechnet die Bewegungsschätzungsprozedur einen Bewegungsvektor Vi für den Bereich Ri, der den Vorhersagefehler (PE) auf diesem Bereich minimiert:
    Figure 00190001
    wo |*| die Summe der absoluten Differenz zwischen zwei Vektoren und Vi <= Vmax (Vmax ist der maximale Suchbereich) bezeichnet. Dieser Bewegungsvektor Vi wird dem Bereich Ri zugewiesen, um seine Bahnkurvenstelle in dem vorangehenden Bild It–1 anzugeben.
  • Andere Bewegungsmodelle können ebenfalls verwendet werden. Zum Beispiel kann ein affines oder perspektivisches Bewegungsmodell benutzt werden, um die Bewegung zwischen einem Bereich in dem momentanen Vektorbild und einem entsprechenden Bereich in dem vorangehenden Vektorbild zu modellieren. Die affinen und perspektivischen Bewegungsmodelle verwenden eine geometrische Transformation (z. B. eine affine oder perspektivische Transformation), um die Bereichsbewegung zwischen einem Bild und einem anderen zu definieren. Die Transformation wird in Form von Bewegungskoeffizienten ausgedrückt, die berechnet werden können, indem Bewegungsvektoren für mehrere Punkte in einem Bereich gefunden werden und ein Satz gleichzeitiger Gleichungen unter Verwendung der Bewegungsvektoren an den ausgewählten Punkten gelöst wird, um die Koeffizienten zu berechnen. Ein anderer Weg ist, einen Anfangssatz von Bewegungskoeffizienten auszuwählen und dann zu iterieren, bis der Fehler (z. B. eine Summe absoluter Differenzen oder eine Summe quadrierter Differenzen) kleiner ist als ein Schwellenwert.
  • Bereichsbasierte Klassifizierung
  • Der bereichsbasierte Klassifizierungsprozess 426 modifiziert die Stelle jedes Bereichs unter Verwendung seiner Bewegungsinformation, um die geschätzte Position des Bereichs in dem vorangehenden Bild zu bestimmen. Er vergleicht dann diese geschätzte Position mit den Grenzen von semantischen Videoobjekten in dem vorangehenden Bild (St), um zu bestimmen, von welchem semantischen Videoobjekt er wahrscheinlich einen Teil bildet.
  • Zur Veranschaulichung betrachte man das folgende Beispiel. It–1 und It seien das vorangehende und das momentane Vektorbild auf einem n-dimensionalen Satz S, und Pt–1 sei das entsprechende semantische Unterteilungsbild bei Zeit t – 1: S = ∪i=1,...,mOt–1,i.
  • Jedes Ot–1,i (i = 1, ..., m) bezeichnet die Stelle eines semantischen Videoobjekts bei Zeit t – 1. Angenommen, dass es N ganz extrahierte Bereiche Ri (i = 1, 2, ..., N) gibt, wobei jeder einen zugehörigen Bewegungsvektor Vi (i = 1, 2, ..., N) in dem momentanen Bild besitzt. Das Verfolgungsverfahren muss nun das momentane semantische Unterteilungsbild Pt bei der Zeit t konstruieren.
  • Der Verfolgungsprozess erfüllt diese Aufgabe durch Finden eines semantischen Videoobjekts Ot–1,j (j ∈ (1, 2, ..., m)) für jeden Bereich Ri in dem gegenwärtigen Bild.
  • Da die Bewegungsinformation für jeden Bereich Ri auf dieser Stufe bereits verfügbar ist, verwendet der Bereichsklassifizierer die Rückwärts-Bewegungskompensation um jeden Bereich Ri in dem momentanen Bild in Richtung auf das vorangehende Bild zu krümmen. Er krümmt den Bereich durch Anwenden der Bewegungsinformation für den Bereich auf die Punkte in dem Bereich. Es sei angenommen, dass der gekrümmte Bereich in dem vorangehenden Bild R'i ist: R'i = ∪p∈Ri(p + Vi).
  • Ideal sollte der gekrümmte Bereich R'i auf eines der semantischen Videoobjekte in dem vorangehenden Bild fallen: ∃ j, j ∈ (1, 2, ..., m) R'i ⊆ Ot–1,j
  • Wenn dies der Fall ist, weist das Verfolgungsverfahren das semantische Videoobjekt Ot–1,j diesem Bereich Ri zu. Wegen der potentiell mehrdeutigen Ergebnisse aus dem Bewegungsschätzungsprozess kann sich jedoch in Wirklichkeit R'i mit mehr als einem semantischen Videoobjekt in dem vorangehenden Bild überschneiden, d. h. R'i ⊄ Ot–1,j, j = 1, 2, ..., m
  • Die vorliegende Implementierung verwendet Mehrheitskriterien M für die bereichsbasierte Klassifizierung. Für jeden Bereich Ri in dem momentanen Bild wird, wenn der mehrheitliche Teil des gekrümmten Bereichs R'i aus einem semantischen Videoobjekt Ot–1,j (j (1, 2, ..., m)) in dem vorangehenden Bild kommt, dieser Bereich diesem semantischen Videoobjekt Ot–1,j zugewiesen. ∀ p ∈ R1 und ∀ q ∈ Ot–1,j, Pt(p) = Pt–1(q).
  • Das heißt, das semantische Videoobjekt Ot–1,j, das die mehrheitlich sich mit R'i überschneidende Fläche (MOA) besitzt, wird gefunden als:
  • Figure 00210001
  • Stück für Stück werden die vollständigen semantischen Videoobjekte Ot,j in dem gegenwärtigen Bild unter Verwendung dieser bereichsbasierten Klassifizierungsprozedur für alle Bereiche Ri (i = 1, 2, ..., N) in dem momentanen Bild konstruiert. Angenommen ein Punkt q ∈ Ot–1,j, Ot,j = ∪p∈S(p|Pt(p) = Pt–1(q)), j = 1, 2, ..., m.
  • Entsprechend der Konstruktion des bereichsbasierten Klassifizierungsprozesses wird es keine Löcher/Lücken oder Überschneidungen zwischen verschiedenen semantischen Videoobjekten in dem gegenwärtigen Bild geben: i=1,...,mOt,j = ∪i=1,...,NRi = ∪i=1,...,mOt–1,i = S. ∀ i, j ∈ (1, ..., m), i ≠ j ⇒ Ot,i ∩ Ot,j = ∅
  • Dies ist ein Vorteil des Verfolgungssystems verglichen mit Verfolgungssystemen, die Objekte in Bilder verfolgen, wo die Grenzen des semantischen Videoobjekts nicht bestimmt sind. Zum Beispiel geht bei Vorwärts-Verfolgungssystemen die Objektverfolgung in nachfolgende Bilder, wo genaue Grenzen nicht bekannt sind. Die Grenzen werden dann justiert, um eine unbekannte Grenze basierend auf einigen vorbestimmten Kriterien, die eine Grenzbedingung modellieren, passend zu machen.
  • Bereichs-Nachverarbeitung
  • Es sei angenommen, dass das Verfolgungsergebnis in dem momentanen Bild das semantische Unterteilungsbild Pt ist. Aus verschiedenen Gründen kann es in der bereichsbasierten Klassifizierungsprozedur einige Fehler geben. Das Ziel des Bereichs-Nachverarbeitungsprozesses ist, diese Fehler zu beseitigen und gleichzeitig die Grenzen jedes semantischen Videoobjekts in dem momentanten Bild zu glätten. Interessanterweise ist das Unterteilungsbild ein besonderes Bild, das sich von den üblichen unterscheidet. Der Wert im jedem Punkt dieses Unterteilungsbildes gibt nur die Stelle eines semantischen Videoobjekts an. Alle herkömmlichen linearen oder nicht linearen Filter zur Signalverarbeitung sind daher im Allgemeinen für diese spezielle Nachverarbeitung nicht geeignet.
  • Die Implementierung verwendet einen Mehrheitsoperator M(*), um diese Aufgabe zu erfüllen.
  • Für jeden Punkt p in dem n-dimensionalen Satz S wird ein Strukturelement E um ihn herum definiert, das alle verbundenen Punkte enthält (s. 1 über verbundene Punkte): E = ∪q∈S(Dp,q = 1)
  • Zuerst findet der Mehrheitsoperator M(*) ein semantisches Videoobjekt Ot,j, das die maximale sich überschneidende Fläche (MOA) mit dem Strukturelement E aufweist:
  • Figure 00220001
  • Zweitens weist der Mehrheitsoperator M(*) den Wert dieses semantischen Videoobjekts Ot,j dem Punkt p zu: Lasse q ∈ Ot,j Pt(p) = M(p) = Pt(q).
  • Wegen der Adoption der Mehrheitskriterien können sehr kleine Flächen (die sehr wahrscheinlich Fehler sind) entfernt werden, während die Grenzen jedes semantischen Videoobjekts geglättet werden.
  • Kurze Übersicht eines Computersystems
  • 5 und die folgende Erörterung sind gedacht, eine kurze, allgemeine Beschreibung einer geeigneten Rechenumgebung zu geben, in der die Erfindung implementiert werden kann. Obwohl die Erfindung oder Aspekte derselben in einer Hardware-Vorrichtung implementiert werden können, ist das oben beschriebene Verfolgungssystem in computerausführbaren Anweisungen implementiert, die in Programmmodulen organisiert sind. Die Programmmodule enthalten die Routinen, Programme, Objekte, Komponenten und Datenstrukturen, die die Aufgaben durchführen und die oben beschriebenen Datentypen implementieren.
  • Während 5 eine typische Konfiguration eines Desktop-Computers zeigt, kann die Erfindung in anderen Computersystemkonfiguration implementiert werden, einschließlich handgehaltener Vorrichtungen, Multiprozessorsystemen, mikroprozessorbasierter oder programmierbarer Verbraucherelektronik, Minicomputern, Mainframe-Computern und dergleichen. Die Erfindung kann auch in verteilten Rechenumgebungen verwendet werden, wo Aufgaben durch entfernte Verarbeitungsvorrichtungen durchgeführt werden, die über ein Kommunikationsnetzwerk verbunden sind. In einer verteilten Rechenumgebung können sich Programmmodule sowohl in lokalen aus auch entfernten Speichervorrichtungen befinden.
  • 5 zeigt ein Beispiel eines Computersystems, das als eine Betriebsumgebung für die Er findung dient. Das Computersystem enthält einen Personal Computer 520 mit einer Verarbeitungseinheit 521, einem Systemspeicher 522 und einem Systembus 523, der die verschiedenen Systemkomponenten einschließlich des Systemspeichers mit der Verarbeitungseinheit 521 verbindet. Der Systembus kann jede von mehreren Arten von Busstrukturen umfassen, einschließlich eines Speicherbusses oder Speicher-Controllers, eines Peripheriebusses und eines lokalen Busses, die eine Busarchitektur wie PCI, VESA, Microchannel (MCA), ISA und EISA verwenden, um einige zu nennen. Der Systemspeicher umfasst einen Nurlese-Speicher (ROM) 524 und einen Direktzugriffsspeicher (RAM) 525. Ein Basis-Eingabe/Ausgabe-System 526 (BIOS), das die Basisroutinen enthält, die helfen, Information zwischen Elementen in dem Personal Computer 520 zu übertragen, z. B. beim Hochlaufen, ist im ROM 524 gespeichert. Der Personal Computer 520 umfasst weiter ein Festplattenlaufwerk 527, ein Magnetplattenlaufwerk 528, um z. B. eine wechselbare Platte 529 zu lesen oder zu beschreiben, und ein optisches Plattenlaufwerk 530, um z. B. eine CD-ROM-Platte 528 zu lesen oder ein anderes optisches Medium zu lesen oder zu beschreiben. Das Festplattenlaufwerk 527, das Magnetplattenlaufwerk 528 und das optische Plattenlaufwerk 530 sind mit dem Systembus 523 durch eine Festplatten-Schnittstelle 532, eine Magnetplatten-Schnittstelle 533 bzw. eine optische Plattenschnittstelle 534 verbunden. Die Laufwerke und ihre zugehörigen computerlesbaren Medien stellen nicht flüchtige Speicherung von Daten, Datenstrukturen, computerausführbaren Anweisungen (Programmcode, wie z. B. dynamische Link-Bibliotheken und ausführbare Dateien) usw. für den Personal Computer 520 bereit. Obwohl sich die Beschreibung von computerlesbaren Medien oben auf eine Festplatte, eine wechselbare Magnetplatte und eine CD bezieht, können auch andere Arten von Medien eingeschlossen sein, die durch einen Computer lesbar sind, z. B. Magnetkassetten, Flash-Speicherkarten, digitale Videoplatten, Bernoulli-Kassetten und dergleichen.
  • Eine Anzahl von Programmmodulen kann in den Laufwerken und dem RAM 525 gespeichert werden, einschließlich eines Betriebssystems 535, eines oder mehrerer Anwendungsprogrammen 536, anderer Programmmodule 537 und Programmdaten 538. Ein Benutzer kann Befehle und Information in den Personal Computer 520 über eine Tastatur 540 und eine Zeigeeinrichtung, z. B. eine Maus 542, eingeben. Andere Eingabevorrichtungen (nicht gezeigt) können ein Mikrofon, Joystick, Gamepad, Satellitenschüssel, Scanner oder dergleichen umfassen. Diese und andere Eingabevorrichtungen sind oft mit der Verarbeitungseinheit 521 durch eine Serialport-Schnittstelle 546 verbunden, die mit dem Systembus verbunden ist, können aber durch andere Schnittstellen, wie z. B. ein Parallelport, Gameport oder Universal-Serialbus (USB) verbunden sein. Ein Monitor 547 oder eine andere Art von Anzeigevorrichtung ist ebenfalls mit dem Systembus 523 über eine Schnittstelle, z. B. ein Display-Controller oder Videoadapter 548, verbunden. Zusätzlich zu dem Monitor enthalten Personal Computer typischerweise andere periphere Ausgabevorrichtungen (nicht gezeigt), wie z. B. Lautsprecher und Drucker.
  • Der Personal Computer 520 kann auch in einer vernetzten Umgebung mit logischen Verbindungen zu einem oder mehreren entfernten Computern, z. B. ein entfernter Computer 549, arbeiten. Der entfernte Computer 549 kann ein Server, ein Router, eine Peer-Vorrichtung oder ein anderer gemeinsamer Netzwerkknoten sein und umfasst typischerweise alle in Bezug auf den Personal Computer 520 beschriebenen Elemente, obwohl in 5 nur eine Speichervorrichtung 550 gezeigt ist. Die in 5 gezeigten logischen Verbindungen umfassen ein Lokales Netzwerk (LAN) 551 und ein Weitbereichs-Netzwerk (WAN) 552. Solche Netzwerkumgebungen sind in Büros, unternehmensweiten Computernetzen, Intranets und dem Internet an der Tagesordnung.
  • Wenn in einer LAN-Netzwerkumgebung benutzt, ist der Personal Computer 520 mit dem lokalen Netzwerk 551 durch eine Netzwerk-Schnittstelle oder Adapter 553 verbunden. Wenn in einer WAN-Netzwerkumgebung benutzt, enthält der Personal Computer 520 typischerweise ein Modem 554 oder eine andere Einrichtung zum Herstellen von Kommunikationen über das Weitbereichs-Netzwerk 552, z. B. das Internet. Das Modem 554, das intern oder extern sein kann, ist mit dem Systembus 523 über die serielle Portschnittstelle 546 verbunden. In einer vernetzten Umgebung können oben in Bezug auf den Personal Computer 520 erwähnte Programmmodule oder Teile davon in der entfernten Speichervorrichtung gespeichert werden. Die gezeigten Netzwerkverbindungen sind nur Beispiele, und andere Einrichtungen, um eine Kommunikationsstrecke zwischen den Computern herzustellen, können verwendet werden.
  • Schlussfolgerung
  • Während die Erfindung im Kontext von spezifischen Implementierungsdetails beschrieben wird, ist sie nicht auf diese spezifizischen Details begrenzt. Die Erfindung stellt ein Verfahren und System zum Verfolgen semantischer Objekte bereit, die homogene Bereiche in einem Vektorbild identifizieren und dann diese Bereiche als Teil eines semantischen Objekts klassifizieren. Das Klassifizierungsverfahren der oben beschriebenen Implementierung wird als "Rückwärts-Verfolgung" bezeichnet, weil es einen segmentierten Bereich in ein vorangehendes Bild projiziert, wo die Grenzen des semantischen Objekts vorher berechnet werden.
  • Man beachte, dass dieses Verfolgungsverfahren grundsätzlich auch für Anwendungen gilt, wo die segmentierten Bereiche in Bilder projiziert werden, wo die Grenzen semantischer Vi deoobjekte bekannt sind, selbst wenn diese Bilder keine vorangehenden Bilder in einer geordneten Sequenz sind. Das oben beschriebene "Rückwärts"-Verfolgungsschema erstreckt sich daher auf Anwendungen, wo die Klassifizierung nicht unbedingt auf ein vorangehendes Bild begrenzt ist, sondern stattdessen auf Bilder, wo die Grenzen semantischer Objekte bekannt sind oder vorher berechnet werden. Das Bild, für das semantische Videoobjekte bereits identifiziert wurden, wird allgemeiner als das Bezugsbild bezeichnet. Das Verfolgen der semantischen Objekte für das gegenwärtige Bild wird berechnet, indem segmentierte Bereiche in dem gegenwärtigen Bild in Bezug auf die Grenzen semantischer Objekte in dem Bezugsbild klassifiziert werden.
  • Wie oben erwähnt, gilt das Objektverfolgungsverfahren generell für Vektorbildsequenzen. Es ist daher nicht auf 2D-Videosequenzen oder Sequenzen begrenzt, wo die Bildwerte Intensitätswerte darstellen.
  • Die Beschreibung der Bereichs-Segmentierungsstufe identifizierte Kriterien, die besonders nützlich, aber nicht für alle Implementierungen des Verfolgens semantischer Videoobjekte nötig sind. Wie erwähnt, können andere Segmentierungsverfahren verwendet werden, um verbundene Bereiche von Punkten zu identifizieren. Die Definition der Homogenität eines Bereiches kann, abhängig von dem Typ der Bildwerte (z. B. Bewegungsvektoren, Farbintensitäten usw.), unterschiedlich sein.
  • Das Bewegungsmodell, das verwendet wird, um die Bewegungsschätzung und Kompensation durchzuführen, kann ebenfalls variieren. Obwohl rechenmäßig komplexer, können Bewegungsvektoren für jeden einzelnen Punkt in einem Bereich berechnet werden. Alternativ kann ein einziger Bewegungsvektor für jeden Bereich berechnet werden, wie z. B. in dem oben beschriebenen Übersetzungsmodell. Vorzugsweise sollte ein bereichsbasiertes Verfolgungsverfahren verwendet werden, um übereinstimmende Bereiche in dem interessierenden Bild zu finden. Beim bereichsbasierten Abgleichen wird die Grenze oder Maske des Bereiches in dem gegenwärtigen Bild verwendet, um Punkte, die außerhalb des Bereiches liegen, von dem Prozess des Minimierens des Fehlers zwischen dem vorhergesagten Bereich und dem entsprechenden Bereich in dem Bezugsbild auszuschließen. Dieser Lösungsweg wird in U.S. Patent Nr. 5,796,855 von Ming-Chieh Lee, betitelt "Polygon Block Matching Method" beschrieben.

Claims (15)

  1. Verfahren zum Verfolgen semantischer Objekte in einer Vektor-Bildsequenz, wobei das Verfahren umfasst: Durchführen räumlicher Segmentierung (222) eines aktuellen Einzelbildes, um mehrere Bereiche von Pixeln mit homogenen Intensitätswerten zu identifizieren; Durchführen von Bewegungsschätzung (224) zwischen jedem der mehreren Bereichen in dem aktuellen Einzelbild und einem Ziel-Einzelbild, in dem eine Grenze eines semantischen Objektes zuvor berechnet wurde, Verwenden der Bewegungsschätzung für jeden der mehreren Bereiche, um Warping von Pixelpositionen in jedem der mehreren Bereiche an Positionen in dem Ziel-Einzelbild durchzuführen; Feststellen (226), ob die Warping unterzogenen Pixelpositionen innerhalb der Grenze des semantischen Objektes in dem Ziel-Einzelbild liegen, um eine Gruppe der mehreren Bereiche zu identifizieren, die wahrscheinlich Teil des semantischen Objektes in dem aktuellen Einzelbild sind; und Ausbilden einer Grenze des semantischen Objektes in dem aktuellen Einzelbild anhand der Gruppe.
  2. Verfahren nach Anspruch 1, wobei die räumliche Segmentierung (222) für jeden der mehreren Bereiche einschließt, dass sichergestellt wird, dass eine Differenz zwischen einem maximalen Intensitätswert in dem Bereich und einem minimalen Intensitätswert in dem Bereich unterhalb eines Schwellenwertes liegt.
  3. Verfahren nach Anspruch 1, wobei die räumliche Segmentierung (222) eine sequenzielle Bereichserweiterung ist, die umfasst: beginnend mit einer ersten Pixelposition in dem aktuellen Einzelbild Erweitern eines ersten Bereiches verbundener Pixel, um die erste Pixelposition herum durch Hinzufügen von Pixelpositionen zu dem ersten Bereich, so dass ein Homogenitätskriterium erfüllt wird, wobei das Homogenitätskriterium sicherstellt, dass der erste Bereich homogene Intensitätswerte hat; wenn keine Grenzpixel um den ersten Bereich herum das Homogenitätskriterium erfüllen, Wiederholen des Erweiterns für einen anderen Bereich mit einer Pixelposition außerhalb des ersten Bereiches; und Fortsetzen, bis jede der Pixelpositionen in dem aktuellen Einzelbild als Teil eines der mehreren Bereiche identifiziert wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der Feststellschritt (226) für jeden der mehreren Bereiche einschließt: Zählen der Warping unterzogenen Pixelpositionen, die innerhalb der Grenze des semantischen Objektes in dem Ziel-Einzelbild liegen; und wenn eine Schwellenwertmenge der Warping unterzogenen Pixelpositionen innerhalb der Grenze des semantischen Objektes in dem Ziel-Einzelbild liegt, Klassifizieren des Bereiches als in der Gruppe liegend, die wahrscheinlich Teil des semantischen Objektes in dem aktuellen Einzelbild ist.
  5. Verfahren nach Anspruch 4, wobei die Schwellenwertmenge eine Vielzahl der Warping unterzogenen Pixelpositionen ist.
  6. Verfahren nach Anspruch 1, das des Weiteren für einen oder mehrere folgende Einzelbilder jeweils das Wiederholen der Schritte nach Anspruch 1 umfasst, wobei das folgende Einzelbild als das aktuelle Einzelbild behandelt wird.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei der Schritt des Ausbildens einschließt: Konstruieren des semantischen Objektes in dem aktuellen Einzelbild als eine Kombination von Bereichen in der Gruppe; und Glätten der Grenze des semantischen Objektes in dem aktuellen Einzelbild.
  8. Verfahren nach einem der Ansprüche 1 bis 7, wobei das Ziel-Einzelbild dem aktuellen Einzelbild in geordneter Reihenfolge in der Vektor-Bildsequenz vorangeht.
  9. Verfahren nach einem der Ansprüche 1 bis 3, wobei das Ziel-Einzelbild eines oder mehrere zusätzliche semantische Objekte enthält, die jeweils eine nicht überlappende Fläche des Ziel-Einzelbildes einnehmen, und wobei mit dem Feststellschritt (226) die mehreren Bereiche als Teil des semantischen Objektes oder des einen bzw. der mehreren zusätzlichen semantischen Objekte in dem aktuellen Einzelbild klassifiziert werden.
  10. Verfahren nach einem der Ansprüche 1 bis 3, wobei mit dem Feststellschritt (226) die mehreren Bereiche als Teil des semantischen Objektes oder von Hintergrund in dem aktuellen Einzelbild klassifiziert werden.
  11. Verfahren nach einem der Ansprüche 1 bis 10, das des Weiteren vor der räumlichen Segmentierung (222) des aktuellen Einzelbildes Vereinfachung des aktuellen Einzelbildes umfasst.
  12. Verfahren nach einem der Ansprüche 1 bis 11, wobei die Bewegungsschätzung (224) Berechnung eines Bewegungsvektors für jeden der mehreren Bereiche in dem aktuellen Einzelbild einschließt.
  13. Verfahren nach einem der Ansprüche 1 bis 12, wobei das aktuelle Einzelbild ein aktuelles Videobild ist, das Ziel-Einzelbild ein Ziel-Videobild ist und die semantischen Objekte Videoobjekte sind.
  14. Computerlesbares Medium, das durch Computer ausführbare Befehle speichert, die so eingerichtet sind, dass sie ein Computersystem, das die Befehle ausführt, veran lassen, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 13 durchzuführen.
  15. Computersystem, das eine Einrichtung umfasst, die so eingerichtet ist, dass sie alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 13 durchführt.
DE69922973T 1998-09-10 1999-09-10 Verfolgung semantischer objekte in vektorbildsequenzen Expired - Lifetime DE69922973T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US151368 1998-09-10
US09/151,368 US6711278B1 (en) 1998-09-10 1998-09-10 Tracking semantic objects in vector image sequences
PCT/US1999/020476 WO2000016563A1 (en) 1998-09-10 1999-09-10 Tracking semantic objects in vector image sequences

Publications (2)

Publication Number Publication Date
DE69922973D1 DE69922973D1 (de) 2005-02-03
DE69922973T2 true DE69922973T2 (de) 2005-05-19

Family

ID=22538452

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69922973T Expired - Lifetime DE69922973T2 (de) 1998-09-10 1999-09-10 Verfolgung semantischer objekte in vektorbildsequenzen

Country Status (6)

Country Link
US (3) US6711278B1 (de)
EP (2) EP1519589A3 (de)
JP (1) JP4074062B2 (de)
AT (1) ATE286337T1 (de)
DE (1) DE69922973T2 (de)
WO (1) WO2000016563A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012020778A1 (de) 2012-10-23 2014-04-24 Audi Ag Verfahren zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern mit integrierter Qualitätsprüfung
US8917904B2 (en) 2008-04-24 2014-12-23 GM Global Technology Operations LLC Vehicle clear path detection
US9852357B2 (en) 2008-04-24 2017-12-26 GM Global Technology Operations LLC Clear path detection using an example-based approach

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711278B1 (en) * 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
US6917692B1 (en) * 1999-05-25 2005-07-12 Thomson Licensing S.A. Kalman tracking of color objects
AU763919B2 (en) * 2000-03-16 2003-08-07 Canon Kabushiki Kaisha Tracking objects from video sequences
US7680324B2 (en) 2000-11-06 2010-03-16 Evryx Technologies, Inc. Use of image-derived information as search criteria for internet and other search engines
US8224078B2 (en) 2000-11-06 2012-07-17 Nant Holdings Ip, Llc Image capture and identification system and process
US9310892B2 (en) 2000-11-06 2016-04-12 Nant Holdings Ip, Llc Object information derived from object images
US8218873B2 (en) * 2000-11-06 2012-07-10 Nant Holdings Ip, Llc Object information derived from object images
US7899243B2 (en) 2000-11-06 2011-03-01 Evryx Technologies, Inc. Image capture and identification system and process
US7565008B2 (en) 2000-11-06 2009-07-21 Evryx Technologies, Inc. Data capture and identification system and process
US7003061B2 (en) * 2000-12-21 2006-02-21 Adobe Systems Incorporated Image extraction from complex scenes in digital video
US20020131643A1 (en) * 2001-03-13 2002-09-19 Fels Sol Sidney Local positioning system
AU2002318859B2 (en) * 2001-12-19 2004-11-25 Canon Kabushiki Kaisha A Method for Video Object Detection and Tracking Based on 3D Segment Displacement
US7179171B2 (en) * 2002-06-24 2007-02-20 Mitsubishi Electric Research Laboratories, Inc. Fish breeding toy for cellular telephones
US20040204127A1 (en) * 2002-06-24 2004-10-14 Forlines Clifton L. Method for rendering with composited images on cellular telephones
US7085420B2 (en) * 2002-06-28 2006-08-01 Microsoft Corporation Text detection in continuous tone image segments
US7072512B2 (en) * 2002-07-23 2006-07-04 Microsoft Corporation Segmentation of digital video and images into continuous tone and palettized regions
WO2004088587A1 (ja) * 2003-03-28 2004-10-14 National Institute Of Information And Communications Technology, Independent Administrative Agency 画像処理方法及び画像処理装置
US7203340B2 (en) * 2003-09-03 2007-04-10 National Research Council Of Canada Second order change detection in video
JP4461937B2 (ja) * 2003-09-30 2010-05-12 セイコーエプソン株式会社 低解像度の複数の画像に基づく高解像度の画像の生成
US6942152B1 (en) * 2004-01-21 2005-09-13 The Code Corporation Versatile graphical code reader that is configured for efficient decoding
US7907769B2 (en) 2004-05-13 2011-03-15 The Charles Stark Draper Laboratory, Inc. Image-based methods for measuring global nuclear patterns as epigenetic markers of cell differentiation
WO2006132650A2 (en) * 2004-07-28 2006-12-14 Sarnoff Corporation Method and apparatus for improved video surveillance through classification of detected objects
US7457472B2 (en) * 2005-03-31 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US7426285B2 (en) * 2004-09-21 2008-09-16 Euclid Discoveries, Llc Apparatus and method for processing video data
US7436981B2 (en) * 2005-01-28 2008-10-14 Euclid Discoveries, Llc Apparatus and method for processing video data
US7457435B2 (en) * 2004-11-17 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US7508990B2 (en) * 2004-07-30 2009-03-24 Euclid Discoveries, Llc Apparatus and method for processing video data
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
CN101036150B (zh) * 2004-07-30 2010-06-09 欧几里得发现有限责任公司 用来处理视频数据的装置和方法
AU2005306599C1 (en) * 2004-11-17 2010-06-03 Euclid Discoveries, Llc Apparatus and method for processing video data
US7227551B2 (en) * 2004-12-23 2007-06-05 Apple Inc. Manipulating text and graphic appearance
TWI256232B (en) * 2004-12-31 2006-06-01 Chi Mei Comm Systems Inc Mobile communication device capable of changing man-machine interface
FR2880717A1 (fr) * 2005-01-07 2006-07-14 Thomson Licensing Sa Procede de segmentation spatio-temporelle d'une image video
KR20070107722A (ko) * 2005-01-28 2007-11-07 유클리드 디스커버리스, 엘엘씨 비디오 데이터를 프로세싱하는 장치 및 방법
KR101216161B1 (ko) * 2005-03-31 2012-12-27 유클리드 디스커버리스, 엘엘씨 비디오 데이터를 프로세싱하는 장치 및 방법
US20070011718A1 (en) * 2005-07-08 2007-01-11 Nee Patrick W Jr Efficient customized media creation through pre-encoding of common elements
US8165205B2 (en) * 2005-09-16 2012-04-24 Sony Corporation Natural shaped regions for motion compensation
US7957466B2 (en) 2005-09-16 2011-06-07 Sony Corporation Adaptive area of influence filter for moving object boundaries
US7885335B2 (en) 2005-09-16 2011-02-08 Sont Corporation Variable shape motion estimation in video sequence
US7620108B2 (en) 2005-09-16 2009-11-17 Sony Corporation Integrated spatial-temporal prediction
US7596243B2 (en) 2005-09-16 2009-09-29 Sony Corporation Extracting a moving object boundary
US8107748B2 (en) 2005-09-16 2012-01-31 Sony Corporation Adaptive motion search range
US7894527B2 (en) 2005-09-16 2011-02-22 Sony Corporation Multi-stage linked process for adaptive motion vector sampling in video compression
US7894522B2 (en) 2005-09-16 2011-02-22 Sony Corporation Classified filtering for temporal prediction
US8059719B2 (en) * 2005-09-16 2011-11-15 Sony Corporation Adaptive area of influence filter
US8005308B2 (en) 2005-09-16 2011-08-23 Sony Corporation Adaptive motion estimation for temporal prediction filter over irregular motion vector samples
US7835542B2 (en) * 2005-12-29 2010-11-16 Industrial Technology Research Institute Object tracking systems and methods utilizing compressed-domain motion-based segmentation
US7783118B2 (en) * 2006-07-13 2010-08-24 Seiko Epson Corporation Method and apparatus for determining motion in images
US7835544B2 (en) * 2006-08-31 2010-11-16 Avago Technologies General Ip (Singapore) Pte. Ltd. Method and system for far field image absolute navigation sensing
US8036423B2 (en) * 2006-10-11 2011-10-11 Avago Technologies General Ip (Singapore) Pte. Ltd. Contrast-based technique to reduce artifacts in wavelength-encoded images
CN101573982B (zh) * 2006-11-03 2011-08-03 三星电子株式会社 利用运动矢量跟踪编码/解码图像的方法和装置
KR101356734B1 (ko) * 2007-01-03 2014-02-05 삼성전자주식회사 움직임 벡터 트랙킹을 이용한 영상의 부호화, 복호화 방법및 장치
CN101939991A (zh) * 2007-01-23 2011-01-05 欧几里得发现有限责任公司 用于处理图像数据的计算机方法和装置
CN101622874A (zh) 2007-01-23 2010-01-06 欧几里得发现有限责任公司 对象存档系统和方法
CN102685441A (zh) 2007-01-23 2012-09-19 欧几里得发现有限责任公司 用于提供个人视频服务的系统和方法
AU2008213586B2 (en) 2007-02-08 2013-07-11 Motorola Solutions, Inc. Behavioral recognition system
US7929762B2 (en) * 2007-03-12 2011-04-19 Jeffrey Kimball Tidd Determining edgeless areas in a digital image
JP2008234518A (ja) * 2007-03-23 2008-10-02 Oki Electric Ind Co Ltd 画像合成装置および画像合成プログラム
US7756296B2 (en) * 2007-03-27 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using forward and backward tracking
US8798148B2 (en) * 2007-06-15 2014-08-05 Physical Optics Corporation Apparatus and method employing pre-ATR-based real-time compression and video frame segmentation
US8171030B2 (en) 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
US8411935B2 (en) 2007-07-11 2013-04-02 Behavioral Recognition Systems, Inc. Semantic representation module of a machine-learning engine in a video analysis system
US7899804B2 (en) * 2007-08-30 2011-03-01 Yahoo! Inc. Automatic extraction of semantics from text information
US8200011B2 (en) * 2007-09-27 2012-06-12 Behavioral Recognition Systems, Inc. Context processor for video analysis system
US8300924B2 (en) * 2007-09-27 2012-10-30 Behavioral Recognition Systems, Inc. Tracker component for behavioral recognition system
US8175333B2 (en) * 2007-09-27 2012-05-08 Behavioral Recognition Systems, Inc. Estimator identifier component for behavioral recognition system
US7983487B2 (en) * 2007-11-07 2011-07-19 Mitsubishi Electric Research Laboratories, Inc. Method and system for locating and picking objects using active illumination
US8570393B2 (en) * 2007-11-30 2013-10-29 Cognex Corporation System and method for processing image data relative to a focus of attention within the overall image
WO2009075698A1 (en) * 2007-12-11 2009-06-18 Thomson Licensing Methods and systems for transcoding within the distribution chain
US8718363B2 (en) 2008-01-16 2014-05-06 The Charles Stark Draper Laboratory, Inc. Systems and methods for analyzing image data using adaptive neighborhooding
US8737703B2 (en) 2008-01-16 2014-05-27 The Charles Stark Draper Laboratory, Inc. Systems and methods for detecting retinal abnormalities
US8208552B2 (en) * 2008-01-25 2012-06-26 Mediatek Inc. Method, video encoder, and integrated circuit for detecting non-rigid body motion
US8086037B2 (en) * 2008-02-15 2011-12-27 Microsoft Corporation Tiling and merging framework for segmenting large images
US8121409B2 (en) 2008-02-26 2012-02-21 Cyberlink Corp. Method for handling static text and logos in stabilized images
US9256789B2 (en) * 2008-03-21 2016-02-09 Intel Corporation Estimating motion of an event captured using a digital video camera
US9251423B2 (en) * 2008-03-21 2016-02-02 Intel Corporation Estimating motion of an event captured using a digital video camera
US8249366B2 (en) * 2008-06-16 2012-08-21 Microsoft Corporation Multi-label multi-instance learning for image classification
US9633275B2 (en) 2008-09-11 2017-04-25 Wesley Kenneth Cobb Pixel-level based micro-feature extraction
CN102172026B (zh) 2008-10-07 2015-09-09 欧几里得发现有限责任公司 基于特征的视频压缩
US9373055B2 (en) * 2008-12-16 2016-06-21 Behavioral Recognition Systems, Inc. Hierarchical sudden illumination change detection using radiance consistency within a spatial neighborhood
US8611590B2 (en) 2008-12-23 2013-12-17 Canon Kabushiki Kaisha Video object fragmentation detection and management
US9189670B2 (en) * 2009-02-11 2015-11-17 Cognex Corporation System and method for capturing and detecting symbology features and parameters
US8285046B2 (en) * 2009-02-18 2012-10-09 Behavioral Recognition Systems, Inc. Adaptive update of background pixel thresholds using sudden illumination change detection
US8605942B2 (en) * 2009-02-26 2013-12-10 Nikon Corporation Subject tracking apparatus, imaging apparatus and subject tracking method
US8175376B2 (en) * 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
US8537219B2 (en) 2009-03-19 2013-09-17 International Business Machines Corporation Identifying spatial locations of events within video image data
US8553778B2 (en) 2009-03-19 2013-10-08 International Business Machines Corporation Coding scheme for identifying spatial locations of events within video image data
US8411319B2 (en) * 2009-03-30 2013-04-02 Sharp Laboratories Of America, Inc. Methods and systems for concurrent rendering of graphic-list elements
US8416296B2 (en) * 2009-04-14 2013-04-09 Behavioral Recognition Systems, Inc. Mapper component for multiple art networks in a video analysis system
GB0907870D0 (en) * 2009-05-07 2009-06-24 Univ Catholique Louvain Systems and methods for the autonomous production of videos from multi-sensored data
US8442309B2 (en) * 2009-06-04 2013-05-14 Honda Motor Co., Ltd. Semantic scene segmentation using random multinomial logit (RML)
JP5335574B2 (ja) * 2009-06-18 2013-11-06 キヤノン株式会社 画像処理装置及びその制御方法
JP2011040993A (ja) * 2009-08-11 2011-02-24 Nikon Corp 被写体追尾プログラム、およびカメラ
US8625884B2 (en) * 2009-08-18 2014-01-07 Behavioral Recognition Systems, Inc. Visualizing and updating learned event maps in surveillance systems
US8379085B2 (en) * 2009-08-18 2013-02-19 Behavioral Recognition Systems, Inc. Intra-trajectory anomaly detection using adaptive voting experts in a video surveillance system
US8340352B2 (en) * 2009-08-18 2012-12-25 Behavioral Recognition Systems, Inc. Inter-trajectory anomaly detection using adaptive voting experts in a video surveillance system
US8295591B2 (en) * 2009-08-18 2012-10-23 Behavioral Recognition Systems, Inc. Adaptive voting experts for incremental segmentation of sequences with prediction in a video surveillance system
US20110043689A1 (en) * 2009-08-18 2011-02-24 Wesley Kenneth Cobb Field-of-view change detection
US8493409B2 (en) * 2009-08-18 2013-07-23 Behavioral Recognition Systems, Inc. Visualizing and updating sequences and segments in a video surveillance system
US8358834B2 (en) 2009-08-18 2013-01-22 Behavioral Recognition Systems Background model for complex and dynamic scenes
US8280153B2 (en) * 2009-08-18 2012-10-02 Behavioral Recognition Systems Visualizing and updating learned trajectories in video surveillance systems
US9805271B2 (en) 2009-08-18 2017-10-31 Omni Ai, Inc. Scene preset identification using quadtree decomposition analysis
US8797405B2 (en) * 2009-08-31 2014-08-05 Behavioral Recognition Systems, Inc. Visualizing and updating classifications in a video surveillance system
US8270733B2 (en) * 2009-08-31 2012-09-18 Behavioral Recognition Systems, Inc. Identifying anomalous object types during classification
US8285060B2 (en) * 2009-08-31 2012-10-09 Behavioral Recognition Systems, Inc. Detecting anomalous trajectories in a video surveillance system
US8270732B2 (en) * 2009-08-31 2012-09-18 Behavioral Recognition Systems, Inc. Clustering nodes in a self-organizing map using an adaptive resonance theory network
US8786702B2 (en) * 2009-08-31 2014-07-22 Behavioral Recognition Systems, Inc. Visualizing and updating long-term memory percepts in a video surveillance system
US8167430B2 (en) * 2009-08-31 2012-05-01 Behavioral Recognition Systems, Inc. Unsupervised learning of temporal anomalies for a video surveillance system
US8218818B2 (en) * 2009-09-01 2012-07-10 Behavioral Recognition Systems, Inc. Foreground object tracking
US8218819B2 (en) * 2009-09-01 2012-07-10 Behavioral Recognition Systems, Inc. Foreground object detection in a video surveillance system
US8170283B2 (en) * 2009-09-17 2012-05-01 Behavioral Recognition Systems Inc. Video surveillance system configured to analyze complex behaviors using alternating layers of clustering and sequencing
US8180105B2 (en) 2009-09-17 2012-05-15 Behavioral Recognition Systems, Inc. Classifier anomalies for observed behaviors in a video surveillance system
US9607202B2 (en) * 2009-12-17 2017-03-28 University of Pittsburgh—of the Commonwealth System of Higher Education Methods of generating trophectoderm and neurectoderm from human embryonic stem cells
US8179370B1 (en) 2010-02-09 2012-05-15 Google Inc. Proximity based keystroke resolution
US8830182B1 (en) 2010-02-09 2014-09-09 Google Inc. Keystroke resolution
US8406472B2 (en) * 2010-03-16 2013-03-26 Sony Corporation Method and system for processing image data
US9132352B1 (en) 2010-06-24 2015-09-15 Gregory S. Rabin Interactive system and method for rendering an object
US9053562B1 (en) * 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
US8751872B2 (en) 2011-05-27 2014-06-10 Microsoft Corporation Separation of error information from error propagation information
CN103106648B (zh) * 2011-11-11 2016-04-06 株式会社理光 确定图像中投影区域的方法和设备
WO2013138719A1 (en) 2012-03-15 2013-09-19 Behavioral Recognition Systems, Inc. Alert directives and focused alert directives in a behavioral recognition system
US9111148B2 (en) 2012-06-29 2015-08-18 Behavioral Recognition Systems, Inc. Unsupervised learning of feature anomalies for a video surveillance system
US9723271B2 (en) 2012-06-29 2017-08-01 Omni Ai, Inc. Anomalous stationary object detection and reporting
US9113143B2 (en) 2012-06-29 2015-08-18 Behavioral Recognition Systems, Inc. Detecting and responding to an out-of-focus camera in a video analytics system
US9317908B2 (en) 2012-06-29 2016-04-19 Behavioral Recognition System, Inc. Automatic gain control filter in a video analysis system
US9911043B2 (en) 2012-06-29 2018-03-06 Omni Ai, Inc. Anomalous object interaction detection and reporting
US9111353B2 (en) 2012-06-29 2015-08-18 Behavioral Recognition Systems, Inc. Adaptive illuminance filter in a video analysis system
WO2014031615A1 (en) 2012-08-20 2014-02-27 Behavioral Recognition Systems, Inc. Method and system for detecting sea-surface oil
JP2015534202A (ja) 2012-11-12 2015-11-26 ビヘイヴィアラル レコグニション システムズ, インコーポレイテッド ビデオ監視システムのための画像安定化技法
CN105518656A (zh) 2013-08-09 2016-04-20 行为识别系统公司 用于多传感器数据融合的认知神经语言学行为辨识系统
WO2015138008A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CN105321188A (zh) * 2014-08-04 2016-02-10 江南大学 基于前景概率的目标跟踪方法
US10409910B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
US10409909B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
US10346996B2 (en) 2015-08-21 2019-07-09 Adobe Inc. Image depth inference from semantic labels
KR101709085B1 (ko) * 2015-12-16 2017-02-23 서강대학교산학협력단 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치
US10229324B2 (en) 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
US10853661B2 (en) 2016-04-06 2020-12-01 Intellective Ai, Inc. Methods and systems for optimized selection of data features for a neuro-linguistic cognitive artificial intelligence system
US10303984B2 (en) 2016-05-17 2019-05-28 Intel Corporation Visual search and retrieval using semantic information
US10313686B2 (en) * 2016-09-20 2019-06-04 Gopro, Inc. Apparatus and methods for compressing video content using adaptive projection selection
US10134154B2 (en) * 2016-12-30 2018-11-20 Google Llc Selective dynamic color management for user interface components of a media player
WO2019093993A1 (en) * 2017-11-07 2019-05-16 Google Llc Semantic state based sensor tracking and updating
US20200226763A1 (en) * 2019-01-13 2020-07-16 Augentix Inc. Object Detection Method and Computing System Thereof
CN110751066B (zh) * 2019-09-30 2023-04-07 武汉工程大学 一种基于语义分割模型的图像状态识别方法、装置和设备
US10970855B1 (en) 2020-03-05 2021-04-06 International Business Machines Corporation Memory-efficient video tracking in real-time using direction vectors
WO2022154342A1 (en) * 2021-01-12 2022-07-21 Samsung Electronics Co., Ltd. Methods and electronic device for processing image
WO2022271517A1 (en) * 2021-06-23 2022-12-29 Op Solutions, Llc Systems and methods for organizing and searching a video database

Family Cites Families (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766446B2 (ja) 1985-11-27 1995-07-19 株式会社日立製作所 移動物体像を抽出する方法
US5136659A (en) 1987-06-30 1992-08-04 Kokusai Denshin Denwa Kabushiki Kaisha Intelligent coding system for picture signal
US5043919A (en) 1988-12-19 1991-08-27 International Business Machines Corporation Method of and system for updating a display unit
US5034986A (en) 1989-03-01 1991-07-23 Siemens Aktiengesellschaft Method for detecting and tracking moving objects in a digital image sequence having a stationary background
US5175808A (en) 1989-09-12 1992-12-29 Pixar Method and apparatus for non-affine image warping
JP2953712B2 (ja) 1989-09-27 1999-09-27 株式会社東芝 移動物体検知装置
GB9001468D0 (en) 1990-01-23 1990-03-21 Sarnoff David Res Center Computing multiple motions within an image region
JP2569219B2 (ja) 1990-01-31 1997-01-08 富士通株式会社 動画像予測方式
US5148497A (en) 1990-02-14 1992-09-15 Massachusetts Institute Of Technology Fractal-based image compression and interpolation
JPH082107B2 (ja) 1990-03-02 1996-01-10 国際電信電話株式会社 動画像のハイブリッド符号化方法及びその装置
US5103306A (en) 1990-03-28 1992-04-07 Transitions Research Corporation Digital image compression employing a resolution gradient
JP3037383B2 (ja) 1990-09-03 2000-04-24 キヤノン株式会社 画像処理システム及びその方法
GB9019538D0 (en) 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
US5266941A (en) 1991-02-15 1993-11-30 Silicon Graphics, Inc. Apparatus and method for controlling storage of display information in a computer system
JPH04334188A (ja) 1991-05-08 1992-11-20 Nec Corp 動画像信号の符号化方式
AU660020B2 (en) * 1991-05-24 1995-06-08 British Broadcasting Corporation, The Video image processing
JP2873338B2 (ja) 1991-09-17 1999-03-24 富士通株式会社 動物体認識装置
JP2856229B2 (ja) 1991-09-18 1999-02-10 財団法人ニューメディア開発協会 画像切り出し箇所検出方法
US5259040A (en) 1991-10-04 1993-11-02 David Sarnoff Research Center, Inc. Method for determining sensor motion and scene structure and image processing system therefor
JP2790562B2 (ja) 1992-01-06 1998-08-27 富士写真フイルム株式会社 画像処理方法
JP3068304B2 (ja) 1992-01-21 2000-07-24 日本電気株式会社 動画像符号化方式および復号化方式
US5731849A (en) 1992-03-13 1998-03-24 Canon Kabushiki Kaisha Movement vector detecting apparatus
US5809161A (en) 1992-03-20 1998-09-15 Commonwealth Scientific And Industrial Research Organisation Vehicle monitoring system
US5706417A (en) 1992-05-27 1998-01-06 Massachusetts Institute Of Technology Layered representation for image coding
GB9215102D0 (en) 1992-07-16 1992-08-26 Philips Electronics Uk Ltd Tracking moving objects
EP0584559A3 (en) 1992-08-21 1994-06-22 United Parcel Service Inc Method and apparatus for finding areas of interest in images
JPH06113287A (ja) 1992-09-30 1994-04-22 Matsushita Electric Ind Co Ltd 画像符号化装置と画像復号化装置
US5592228A (en) 1993-03-04 1997-01-07 Kabushiki Kaisha Toshiba Video encoder using global motion estimation and polygonal patch motion estimation
JP3679426B2 (ja) 1993-03-15 2005-08-03 マサチューセッツ・インスティチュート・オブ・テクノロジー 画像データを符号化して夫々がコヒーレントな動きの領域を表わす複数の層とそれら層に付随する動きパラメータとにするシステム
EP0627693B1 (de) 1993-05-05 2004-11-17 Koninklijke Philips Electronics N.V. Vorrichtung zur Segmentierung von aus Texturen bestehenden Bildern
US5329311A (en) 1993-05-11 1994-07-12 The University Of British Columbia System for determining noise content of a video signal in the disclosure
EP0625853B1 (de) 1993-05-21 1999-03-03 Nippon Telegraph And Telephone Corporation Bewegtbildkoder und -dekoder
US5517327A (en) 1993-06-30 1996-05-14 Minolta Camera Kabushiki Kaisha Data processor for image data using orthogonal transformation
JP2576771B2 (ja) 1993-09-28 1997-01-29 日本電気株式会社 動き補償予測装置
WO1995010915A1 (en) * 1993-10-12 1995-04-20 Orad, Inc. Sports event video
US5434927A (en) * 1993-12-08 1995-07-18 Minnesota Mining And Manufacturing Company Method and apparatus for machine vision classification and tracking
US5586200A (en) 1994-01-07 1996-12-17 Panasonic Technologies, Inc. Segmentation based image compression system
JPH07299053A (ja) 1994-04-29 1995-11-14 Arch Dev Corp コンピュータ診断支援方法
US5594504A (en) 1994-07-06 1997-01-14 Lucent Technologies Inc. Predictive video coding using a motion vector updating routine
JP2870415B2 (ja) 1994-08-22 1999-03-17 日本電気株式会社 領域分割方法および装置
US5978497A (en) 1994-09-20 1999-11-02 Neopath, Inc. Apparatus for the identification of free-lying cells
DE69525127T2 (de) 1994-10-28 2002-10-02 Oki Electric Ind Co Ltd Gerät und Verfahren zur Kodierung und Dekodierung von Bildern unter Verwendung einer Kantensynthese und einer Wavelet-Rücktransformation
EP0720383B1 (de) 1994-12-30 2000-09-13 Daewoo Electronics Co., Ltd Verfahren und Vorrichtung zur Bewegungsvektorendetektion in einem Bildkodierer mit Bilddezimation
KR0171146B1 (ko) 1995-03-18 1999-03-20 배순훈 특징점을 이용한 움직임 벡터 검출 장치
KR0171147B1 (ko) 1995-03-20 1999-03-20 배순훈 그레디언트 변화를 이용한 특징점 선정장치
KR0171118B1 (ko) 1995-03-20 1999-03-20 배순훈 비디오신호 부호화 장치
KR0171143B1 (ko) 1995-03-20 1999-03-20 배순훈 육각그리드에서의 삼각구조 형성 장치
JP3612360B2 (ja) 1995-04-10 2005-01-19 株式会社大宇エレクトロニクス 移動物体分割法を用いた動画像の動き推定方法
KR0171154B1 (ko) 1995-04-29 1999-03-20 배순훈 특징점 기반 움직임 추정을 이용하여 비디오 신호를 부호화하는 방법 및 장치
KR0181063B1 (ko) 1995-04-29 1999-05-01 배순훈 특징점을 이용한 움직임 보상에서의 그리드 형성방법 및 장치
US5654771A (en) 1995-05-23 1997-08-05 The University Of Rochester Video compression system using a dense motion vector field and a triangular patch mesh overlay model
US5717463A (en) 1995-07-24 1998-02-10 Motorola, Inc. Method and system for estimating motion within a video sequence
US5668608A (en) 1995-07-26 1997-09-16 Daewoo Electronics Co., Ltd. Motion vector estimation method and apparatus for use in an image signal encoding system
EP0783820B1 (de) 1995-08-02 2001-10-10 Koninklijke Philips Electronics N.V. Verfahren und system zur kodierung einer bildsequenz
KR0178229B1 (ko) 1995-08-08 1999-05-01 배순훈 특징점에 근거한 화소단위 움직임 추정을 이용한 영상 처리 장치
KR100304660B1 (ko) * 1995-09-22 2001-11-22 윤종용 누적에러처리를통한비디오신호부호화방법및부호화기
US5959673A (en) 1995-10-05 1999-09-28 Microsoft Corporation Transform coding of dense motion vector fields for frame and object based video coding applications
US5764805A (en) * 1995-10-25 1998-06-09 David Sarnoff Research Center, Inc. Low bit rate video encoder using overlapping block motion compensation and zerotree wavelet coding
US5802220A (en) 1995-12-15 1998-09-01 Xerox Corporation Apparatus and method for tracking facial motion through a sequence of images
US5692063A (en) 1996-01-19 1997-11-25 Microsoft Corporation Method and system for unrestricted motion estimation for video
US6957350B1 (en) 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
US5764814A (en) 1996-03-22 1998-06-09 Microsoft Corporation Representation and encoding of general arbitrary shapes
US5778098A (en) 1996-03-22 1998-07-07 Microsoft Corporation Sprite coding
US6037988A (en) 1996-03-22 2000-03-14 Microsoft Corp Method for generating sprites for object-based coding sytems using masks and rounding average
US5982909A (en) * 1996-04-23 1999-11-09 Eastman Kodak Company Method for region tracking in an image sequence using a two-dimensional mesh
DE69738287T2 (de) 1996-09-20 2008-06-12 Hitachi, Ltd. Verfahren zum Anzeigen eines sich bewegenden Objekts, dessen Bahn zu identifizieren ist, Anzeigesystem unter Verwendung dieses Verfahrens und Programmaufzeichnungsmedium dafür
US6075875A (en) 1996-09-30 2000-06-13 Microsoft Corporation Segmentation of image features using hierarchical analysis of multi-valued image data and weighted averaging of segmentation results
US5748789A (en) 1996-10-31 1998-05-05 Microsoft Corporation Transparent block skipping in object-based video coding systems
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US5912991A (en) 1997-02-07 1999-06-15 Samsung Electronics Co., Ltd. Contour encoding method using error bands
US6421738B1 (en) 1997-07-15 2002-07-16 Microsoft Corporation Method and system for capturing and encoding full-screen video graphics
US6167155A (en) 1997-07-28 2000-12-26 Physical Optics Corporation Method of isomorphic singular manifold projection and still/video imagery compression
US6097854A (en) * 1997-08-01 2000-08-01 Microsoft Corporation Image mosaic construction system and apparatus with patch-based alignment, global block adjustment and pair-wise motion-based local warping
US6188777B1 (en) 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US5946043A (en) 1997-12-31 1999-08-31 Microsoft Corporation Video coding using adaptive coding of block parameters for coded/uncoded blocks
US6226407B1 (en) 1998-03-18 2001-05-01 Microsoft Corporation Method and apparatus for analyzing computer screens
US6400831B2 (en) * 1998-04-02 2002-06-04 Microsoft Corporation Semantic video object segmentation and tracking
US6711278B1 (en) 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
US6721454B1 (en) * 1998-10-09 2004-04-13 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US6573915B1 (en) 1999-12-08 2003-06-03 International Business Machines Corporation Efficient capture of computer screens
US6654419B1 (en) 2000-04-28 2003-11-25 Sun Microsystems, Inc. Block-based, adaptive, lossless video coder
US6650705B1 (en) 2000-05-26 2003-11-18 Mitsubishi Electric Research Laboratories Inc. Method for encoding and transcoding multiple video objects with variable temporal resolution
AU2001290608A1 (en) * 2000-08-31 2002-03-13 Rytec Corporation Sensor and imaging system
US6959104B2 (en) * 2001-02-05 2005-10-25 National Instruments Corporation System and method for scanning a region using a low discrepancy sequence
US6870945B2 (en) * 2001-06-04 2005-03-22 University Of Washington Video object tracking by estimating and subtracting background
US20030072479A1 (en) * 2001-09-17 2003-04-17 Virtualscopics System and method for quantitative assessment of cancers and their change over time
GB0122601D0 (en) * 2001-09-19 2001-11-07 Imp College Innovations Ltd Manipulation of image data
US6904159B2 (en) * 2001-12-20 2005-06-07 Mitsubishi Electric Research Laboratories, Inc. Identifying moving objects in a video using volume growing and change detection masks
US7046827B2 (en) * 2002-02-15 2006-05-16 International Business Machines Corporation Adapting point geometry for storing address density
US6904759B2 (en) * 2002-12-23 2005-06-14 Carrier Corporation Lubricant still and reservoir for refrigeration system
US7764808B2 (en) * 2003-03-24 2010-07-27 Siemens Corporation System and method for vehicle detection and tracking
US7418134B2 (en) * 2003-05-12 2008-08-26 Princeton University Method and apparatus for foreground segmentation of video sequences

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8917904B2 (en) 2008-04-24 2014-12-23 GM Global Technology Operations LLC Vehicle clear path detection
US9852357B2 (en) 2008-04-24 2017-12-26 GM Global Technology Operations LLC Clear path detection using an example-based approach
DE102012020778A1 (de) 2012-10-23 2014-04-24 Audi Ag Verfahren zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern mit integrierter Qualitätsprüfung

Also Published As

Publication number Publication date
EP1519589A3 (de) 2010-12-08
EP1112661A1 (de) 2001-07-04
US20050240629A1 (en) 2005-10-27
JP2002525735A (ja) 2002-08-13
ATE286337T1 (de) 2005-01-15
WO2000016563A1 (en) 2000-03-23
US20040189863A1 (en) 2004-09-30
EP1519589A2 (de) 2005-03-30
EP1112661B1 (de) 2004-12-29
US7162055B2 (en) 2007-01-09
DE69922973D1 (de) 2005-02-03
US7088845B2 (en) 2006-08-08
JP4074062B2 (ja) 2008-04-09
US6711278B1 (en) 2004-03-23

Similar Documents

Publication Publication Date Title
DE69922973T2 (de) Verfolgung semantischer objekte in vektorbildsequenzen
DE60030798T2 (de) Identifizierung von eigentlichen Pixelfarben im Bereich mit unsicheren Pixeln
EP0385384B1 (de) Verfahren zur Detektion bewegter Objekte in digitaler Bildfolge
Rhemann et al. Improving Color Modeling for Alpha Matting.
DE69735488T2 (de) Verfahren und vorrichtung zum ausrichten von bildern
DE69734855T2 (de) Vorrichtung und Verfahren zur Extraktion eines Objektes in einem Bild
DE10197062B4 (de) Bildextraktion aus komplexen Szenen bei digitalen Videos
DE69722378T2 (de) Verfahren und vorrichtung zur bearbeitung eines dreidimensionalen bildes mit hilfe der parallaxgeometrie von punktpaaren
DE69737141T2 (de) Bildsegmentierung
DE112011103690T5 (de) Erkennung und Verfolgung sich bewegender Objekte
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
DE102015010096A1 (de) Konfigurationseinstellungen einer Digitalkamera zur Tiefenkarten-Erzeugung
DE102009038364A1 (de) Verfahren und System zur automatischen Objekterkennung und anschließenden Objektverfolgung nach Maßgabe der Objektform
DE102004049676A1 (de) Verfahren zur rechnergestützten Bewegungsschätzung in einer Vielzahl von zeitlich aufeinander folgenden digitalen Bildern, Anordnung zur rechnergestützten Bewegungsschätzung, Computerprogramm-Element und computerlesbares Speichermedium
DE602004002837T2 (de) Objekterkennung
CN110349099B (zh) 一种复杂场景视频阴影检测与消除方法
DE10291878T5 (de) Bildsegmentierungserkennungsverfahren in der industriellen Strahlungsbilderzeugnis
CN105075264A (zh) 用精确的运动信息增强运动图片
US11941815B2 (en) Method and a system training a model to perform semantic segmentation on foggy images
DE102019131971A1 (de) Ein Bildverarbeitungsmodul
DE102019105293A1 (de) Schätzung der Bewegung einer Bildposition
EP1425709A2 (de) Modellbasierte objektklassifikation und zielerkennung
Honnutagi et al. Underwater video enhancement using manta ray foraging lion optimization-based fusion convolutional neural network
DE102017216854B4 (de) Verfahren und Vorrichtung zum Bewerten von Korrespondenzen von Bildern, Betriebsassistenzverfahren und Betriebsvorrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition