DE69922973T2

DE69922973T2 - Verfolgung semantischer objekte in vektorbildsequenzen

Info

Publication number: DE69922973T2
Application number: DE69922973T
Authority: DE
Inventors: Chuang Gu; Ming-Chieh Lee
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-09-10
Filing date: 1999-09-10
Publication date: 2005-05-19
Anticipated expiration: 2019-09-11
Also published as: EP1519589A3; EP1112661A1; US20050240629A1; JP2002525735A; ATE286337T1; WO2000016563A1; US20040189863A1; EP1519589A2; EP1112661B1; US7162055B2; DE69922973D1; US7088845B2; JP4074062B2; US6711278B1

Description

ERFINDUNGSGEBIET
Die vorliegende Erfindung betrifft die Analyse von Videodaten und insbesondere ein Verfahren zum Verfolgen bedeutungsvoller Wesenheiten, semantische Objekte genannt, während sie sich durch eine Sequenz von Vektorbildern, z. B. eine Videosequenz, bewegen.
HINTERGRUND DER ERFINDUNG
Ein semantisches Videoobjekt stellt eine bedeutungsvolle Wesenheit in einem digitalen Videoclip dar, z. B. einen Ball, ein Fahrzeug, ein Flugzeug, ein Gebäude, eine Zelle, ein Auge, eine Lippe, eine Hand, einen Kopf, einen Körper usw. Der Begriff "semantisch" bedeutet in diesem Kontext, dass der Betrachter des Videoclips dem Objekt irgendeine semantische Bedeutung beimisst. Jedes der oben angeführten Objekte stellt z. B. eine Wesenheit des wirklichen Lebens dar, und der Betrachter verbindet die Abschnitte auf dem Bildschirm, die diesen Wesenheiten entsprechen, mit den bedeutungsvollen Objekten, die sie darstellen. Semantische Videoobjekte können in einer Vielfalt neuer digitaler Videoanwendungen sehr hilfreich sein, einschließlich inhaltsbasierter Videokommunikation, Multimedia-Signalverarbeitung, digitaler Videobibliotheken, digitaler Filmstudios, Computervision und Mustererkennung. Um semantische Videoobjekte in diesen Anwendungen zu verwenden, werden Objekt-Segmentierungs- und Verfolgungsverfahren benötigt, um die Objekte in jedem der Videobilder zu identifizieren.
Der Prozess des Segmentierens eines Videoobjekts betrifft im Allgemeinen automatisierte oder halb automatisierte Verfahren zum Extrahieren interessanter Objekte in Bilddaten. Das Extrahieren eines semantischen Videoobjekts aus einem Videoclip ist für viele Jahre eine anspruchsvolle Aufgabe geblieben. In einem typischen Videoclip können semantische Objekte lösgelöste Komponenten, verschiedene Farben und vielfache harte/nicht harte Bewegungen enthalten. Während semantische Objekte von Betrachtern leicht wahrzunehmen sind, macht es die Vielfalt von Formen, Farben und Bewegungen von semantischen Objekten schwierig, diesen Prozess auf einem Computer zu automatisieren. Zufriedenstellende Ergebnisse können erzielt werden, indem man den Benutzer einen anfänglichen Umriss eines semantischen Objekts in einem Ausgangsbild zeichnen lässt und dann den Umriss verwendet, um Pixel zu berechnen, die Teil des Objekts in diesem Bild sind. In jedem aufeinanderfolgenden Bild kann eine Bewegungsschätzung benutzt werden, um die anfängliche Grenze eines Objekts basierend auf dem segmentierten Objekt aus dem vorherigen Bild vorherzusagen. Dieses halb automatische Objekt-Segmentierungs- und Verfolgungsverfahren wird in der mitanhängigen U.S. Patentanmeldung Nr. Nr. 09/054,280 von Chuang Gu und Ming Chieh Lee, betitelt "Semantic Video Object Segmentation an Tracking", beschrieben.
Objektverfolgung ist der Prozess des Berechnens der Position eines Objekts, während es sich von Bild zu Bild bewegt. Um mit allgemeineren semantischen Videoobjekten umzugehen, muss das Objekt-Verfolgungsverfahren in der Lage sein, mit Objekten umzugehen, die lösgelöste Komponenten und harte/nicht harte Bewegungen enthaften. Während sich umfangreiche Forschung auf Objektverfolgung konzentriert hat, verfolgen bestehende Verfahren noch immer nicht genau Objekte mit vielfachen Komponenten mit nicht harter Bewegung.
Einige Verfolgungsverfahren verwenden eine homogene Graustufe/Farbe als ein Kriterium, um Bereiche zu verfolgen. Siehe F. Meyer und P. Bouthemy, "Region-based tracking in an image sequence", ECCV '92, Seiten 476–484, Santa Margherita, Italien, Mai 1992; Ph Salembier, L. Torres, F. Meyer und C. Gu, "Region-based video coding using mathematical morphologiy", Proceedings of the IEEE, Vol. 83, Nr. 6, Seiten 843–857, Juni 1995; F. Marques und Cristina Molina, "Object tracking for content-based functionalities", VCIP '97, Vol. 3024, Nr. 1, Seiten 190–199, San Jose, Feb. 1997, und C. Toklu, A. Tekalp und A. Erdem, "Simultaneous alpha map generation and 2-D mesh tracking for multimedia applications", ICIP '97, Vo. 1, Seiten 113–116, Okt. 1997, Santa Barbara.
Einige verwenden homogene Bewegungstransformation, um sich bewegende Objekte zu verfolgen. Siehe z. B. J. Wang und E. Adelson, "Representing moving images with layers", IEEE Trans. on Image Processing, Vol. 3, Nr. 5, Seiten 625–638, Sept. 1994, und N. Brady und N. O'Connor, "Object detection and tracking using an em-based motion estimation and segmentation framework", ICIP '96, Vol. 1, Seiten 925–928, Lausanne, Schweiz, Sept. 1996.
Andere verwenden eine Kombination aus räumlichen und zeitlichen Kriterien, um Objekte zu verfolgen. Siehe M. J. Black, "Combining intensity and motion for incremental segmentation and tracking over long image sequences", ECCC '92, Seiten 485–493, Santa Margherita, Italien, Mai 1992; C. Gu, T. Ebrahimi und M. Kunt, "Morphological moving object segmentation and tracking for content-based video coding", Multimedia Communication and Video Coding, Seiten 233–240, Plenum Press, New York, 1995; F. Moscheni, F. Dufaux und M. Kunt, "Object tracking based on temporal an spatial information", in Proc. ICASSP '96, Vol. 4, Seiten 1914–1917, Atlanta, GA, Mai 1996, und C. Gu und M. C. Lee, "Semantic video object segmentation and tracking using mathematical morphology and perspective motion model", ICIP '97, Vol. II, Seiten 514–517, Okt. 1997, Santa Barbara.
EP-A-0579319 beschreibt ein Verfahren zum Verfolgen eines Kopfobjekts durch eine Videosequenz. Für ein Videobild enthält einen "Kopfsatz" die Bereiche des Bildes, die als Teil des Kopfobjekts bestimmt werden. Ein "Kopfverfolger" nimmt den Schwerpunkt des Kopfes in einem vorherigen Bild und projiziert den Schwerpunkt vorwärts unter Verwendung des Vorwärtsbewegungsvektors des Schwerpunktes. In dem gegenwärtigen Bild (das in Bereiche gleichmäßiger Bewegung segmentiert ist) lässt der Kopfverfolger den Kopfsatz für das gegenwärtige Bild um den projizierten Schwerpunkt herum wachsen.
Der Verweis Chuang Gu, "Combined Gray-Level and Motion Segmentation for Very Low Bit-rate Coding", SPIE Vol. 2451, Seiten 121–129 (1995) beschreibt einen bereichsbasierten mehrkriterien Segmentierungsalgorithmus zur Bildsequenzcodierung. Der Algorithmus basiert auf morphologischer Segmentierung, Bewegungsschätzungs- und Kompensationsverfahren.
U.S. Patent Nr. 5,717,463 beschreibt ein Verfahren und System zum Schätzen der Bewegung in einer Videosequenz, die Schätzungen sowohl eines Verschiebungsvektorfeldes als auch der Grenzen von sich bewegenden Objekten liefem. Das System umfasst einen Vorprozessor, einen raumadaptiven Pixelbewegungsschätzer, einen Bewegungsgrenzenschätzer und einen Bewegungsanalysator. Der Vorprozessor liefert eine erste Schätzung des Verschiebungsvektorfeldes, und der raumadaptive Pixelbewegungsschätzer liefert eine erste Schätzung von Objektgrenzen. Der Bewegungsgrenzenschätzer und der Bewegungsanalysator verbessern die Genauigkeit der ersten Schätzungen.
Die meisten dieser Verfahren setzen einen Vorwärts-Verfolgungsmechanismus ein, der die vorangehenden Bereiche/Objekte auf das momentane Bild projiziert und die projizierten Bereiche/Objekte irgendwie in dem momentanen Bild zusammensetzt/justiert. Der Hauptnachteil dieser Vorwärtsverfahren liegt in der Schwierigkeit entweder des Zusammensetzens/Justierens der projizierten Bereiche in dem momentanen Bild oder des Umgehens mit mehrfachen nicht harten Bewegungen. In vielen dieser Fälle können unbestimmte Löcher auftreten, oder die sich ergebenden Grenzen können verzerrt werden.
1A–C liefern einfache Beispiele von semantischen Videoobjekten, um die mit der Objektverfolgung verbundenen Schwierigkeiten zu zeigen. 1A zeigt ein semantisches Videoobjekt eines Gebäudes 100, das mehrfache Farben 102, 104 enthält. Verfahren, die annehmen, dass Objekte eine homogene Farbe besitzen, verfolgen diese Arten von Objekten nicht gut. 1B zeigt das gleiche Gebäudeobjekt von 1A, außer dass es durch einen Baum, der es teilweise verschließt, in losgelöste Komponenten 106, 108 geteilt ist. Verfahren, die annehmen, dass Objekte aus verbundenen Gruppen von Pixeln gebildet sind, verfolgen diese Arten von lösgelösten Objekten nicht gut. 1C schließlich veranschaulicht ein einfaches semantisches Videoobjekt, das eine Person 112 darstellt. Selbst dieses einfache Objekt besitzt mehrfache Komponenten 114, 116, 118, 120 mit unterschiedlicher Bewegung. Verfahren, die annehmen, dass ein Objekt eine homogene Bewegung aufweist, verfolgen diese Arten von Objekten nicht gut. Im Allgemeinen kann ein semantisches Videoobjekt losgelöste Komponenten, mehrfache Farben, merfache Bewegungen und willkürliche Formen aufweisen.
Außer dem Umgehen mit all diesen Attributen von allgemeinen semantischen Videoobjekten muss ein Verfolgungsverfahren auch einen annehmbaren Grad an Genauigkeit erzielen, um die Ausbreitung von Fehlern von Bild zu Bild zu vermeiden. Da Objektverfolgungsverfahren typischerweise jedes Bild basierend auf der Unterteilung eines verangehenden Bildes unterteilen, neigen Fehler in dem vorangehenden Bild dazu, in das nächste Bild ausgebreitet zu werden. Sofern nicht das Verfolgungsverfahren die Grenze eines Objekts mit pixelweiser Genauigkeit berechnet, wird es wahrscheinlich signifikante Fehler in das nächste verbreiten. Als Folge sind die für jedes Bild berechneten Objektgrenzen nicht genau, und die Objekte können nach mehreren Bildern der Verfolgung vorloren gehen.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist die Aufgabe der Erfindung, ein Verfahren zum Verfolgen semantischer Objekte in einer Vektorbildsequenz, ein computerlesbares Medium sowie ein entsprechendes Computersystem bereitzustellen, die die oben erwähnten Nachteile des Standes der Technik überwinden.
Diese Aufgabe wird durch die Erfindung, wie in den unabhängigen Ansprüchen beansprucht, erfüllt.
Bevorzugte Ausführungen werden durch die abhängigen Ansprüche definiert.
Die Erfindung stellt ein Verfahren zum Verfolgen semantischer Objekte in Vektorbildsequenzen bereit. Die Erfindung ist besonders gut zum Verfolgen semantischer Videoobjekte in digitalen Videoclips geeignet, kann aber auch für eine Vielfalt anderer Vektorbildsequenzen verwendet werden. Während das Verfahren in Software-Programmmodulen implementiert ist, kann es auch in digitaler Hardwarelogik oder in einer Kombination aus Hardware- und Software-Komponenten implementiert werden.
Das Verfahren verfolgt semantische Objekte in einer Bildsequenz durch Segmentieren von Bereichen von einem Bild dann Projizieren der segmentierten Bereiche in ein Zielbild, wo die Grenze oder Grenzen eines semantischen Objekts bereits bekannt sind. Die projizierten Bereiche werden als formender Teil eines semantischen Objekts klassifiziert, indem das Ausmaß bestimmt wird, in dem sie sich mit einem semantischen Objekt in dem Zielbild überschneiden. In einer typischen Anwendung wiederholt z. B. das Verfolgungsverfahren für jedes Bild Klassifizierungsbereiche durch Projizieren derselben in das vorangehende Bild, in dem die Grenzen des semantischen Objekts zuvor berechnet werden.
Das Verfolgungsverfahren nimmt an, dass semantische Objekte in dem Ausgangsbild bereits identifiziert sind. Um die Anfangsgrenzen eines semantischen Objekts zu erlangen, kann ein Segmentierungsverfahren für semantische Objekte benutzt werden, um die Grenzen des semantischen Objekts in einem Ausgangsbild zu identifizieren.
Nach dem Ausgangsbild arbeitet das Verfolgungsverfahren auf den Segmentierungsergebnissen des vorangehenden Bildes und dem gegenwärtigen und vorangehenden Bild. Für jedes Bild in einer Sequenz segmentiert ein Bereichsextrahierer homogene Bereiche aus dem Bild. Ein Bewegungsschätzer führt dann einen bereichsbasierten Abgleich für jeden dieser Bereiche durch, um den am besten übereinstimmenden Bereich von Bildwerten in dem vorangehenden Bild zu identifizieren. Unter Verwendung der in diesem Schritt gewonnenen Bewegungsparameter werden die segmentierten Bereiche in das vorangehende Bild projiziert, wo die semantische Grenze bereits berechnet ist. Ein Bereichsklassifizierer klassifiziert dann die Bereiche als Teil von semantischen Objekten in dem gegenwärtigen Bild basierend auf dem Ausmaß, in dem sich die projizierten Bereiche mit semantischen Objekten in dem vorangehenden Bild überschneiden.
Die obige Lösung ist besonders geeignet zum Arbeiten auf geordneten Sequenz von Bildern. Bei dieser Art von Anwendungen werden die Segmentierungsergebnisse des vorangehenden Bildes verwendet, um die aus dem nächsten Bild extrahierten Bereiche zu klassifizieren. Sie kann aber auch verwendet werden, um semantische Objekte zwischen einem Eingabebild und jedem anderen Zielbild zu verfolgen, wo die Grenzen des semantischen Objekts bekannt sind.
Eine Implementierung des Verfahrens setzt ein einmaliges Raumsegmentierungsverfahren ein. Das heißt, dieses Raumsegmentierungsverfahren ist ein Bereichszuwachsprozess, wo Bildpunkte zu dem Bereich hinzugefügt werden, solange die Differenz zwischen den minimalen und maximalen Bildwerten für Punkte in dem Bereich unter einem Schwellenwert liegen. Dieses Verfahren ist als ein sequenzielles Segmentierungsverfahren implementiert, das mit einem ersten Bereich an einem Anfangspunkt beginnt und sequenziell Bereiche einen nach dem anderen unter Verwendung des gleichen Tests, um homogene Gruppen von Bildpunkten zu identifizieren, bildet.
Implementierungen des Verfahrens enthalten andere Merkmale, um die Genauigkeit des Verfolgungsverfahrens zu verbessern. Zum Beispiel enthält das Verfolgungsverfahren vorzugsweise eine bereichsbasierte Vorverarbeitung, um Bildfehler ohne Verwischen von Objektgrenzen zu entfernen, und eine Nachverarbeitung auf den berechneten Grenzen des semantischen Objekts. Die berechnete Grenze eines Objekts wird aus den einzelnen Bereichen gebildet, die als mit dem gleichen semantischen Objekt in dem Zielbild verbunden klassifiziert werden. Bei einer Implementierung glättet der Nachprozessor die Grenze eines semantischen Objekts unter Verwendung eines Mehrheits-Operatorfilters. Dieses Filter untersucht benachbarte Bildpunkte für jeden Punkt in einem Bild und bestimmt das semantische Objekt, das die größte Zahl dieser Punkte enthält. Es weist dann den Punkt dem semantischen Objekt zu, das die größte Zahl von Punkten enthält.
Weitere Vorteile und Merkmale der Erfindung werden in der folgenden ausführlichen Beschreibung und den begleitenden Zeichnungen ersichtlich werden.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1A–C sind Beispiele, die verschiedene Arten von semantischen Objekten zeigen, um die Schwierigkeit des Verfolgens von allgemeinen semantischen Objekten zu veranschaulichen.
2 ist ein Blockschaltbild, das ein Verfolgungssystem für semantische Objekt zeigt.
3A–D sind Diagramme, die Beispiele von Unterteilungsbildern und ein Verfahren zum Darstellen von Unterteilungsbildern in einem Bereichsangrenzungsgraphen zeigen.
4 ist ein Flusdiagramm, das eine Implementierung eines Verfolgungsverfahrens für semantische Objekte veranschaulicht.
5 ist ein Blockschaltbild eines Computersystems, das als eine Betriebsumgebung für eine Implementierung der Erfindung dient.
AUSFÜHRLICHE BESCHREIBUNG
Übersicht eines Systems zum Verfolgen semantischer Objekte
Die folgenden Abschnitte beschreiben ein Verfahren zum Verfolgen semantischer Objekte. Dieses Verfahren nimmt an, dass das semantische Objekt für das Ausgangsbild (I-Bild) bereits bekannt ist. Das Ziel des Verfahrens ist, das semantische Aufteilungsbild in dem gegenwärtigen Bild basierend auf der Information von dem vorangehenden Aufteilungsbild und dem vorangehenden Bild zu finden.
Eine grundlegende Beobachtung über das semantische Aufteilungsbild ist, dass die Grenzen des Aufteilungsbildes sich an den physikalischen Kanten einer bedeutungsvollen Wesenheit befinden. Eine physikalische Kante ist die Stelle zwischen zwei verbundenen Punkten, wo die Bildwerte (z. B. ein Farbintensitäts-Triplet, Graustufenwert, Bewegungsvektor usw.) an diesen Punkten signifikant verschieden sind. Unter Ausnutzung dieser Beobachtung löst das Verfolgungsverfahren das semantische Videoobjekt unter Verwendung einer Teilen-und-Erobern-Strategie auf.
Zuerst findet das Verfolgungsverfahren die physikalischen Kanten in dem momentanen Bild. Dies wird mittels eines Segmentierungsverfahrens, und im Besonderen, eines räumlichen Segmentierungsverfahrens verwirklicht. Das Ziel dieses Segmentierungsverfahrens ist, alle verbundenen Bereiche mit homogenen Bildwerten (z. B. Farbintensitäts-Triplets, Graustufenwerten usw.) in dem momentanen Bild zu extrahieren. Zweitens klassifiziert das Verfolgungsverfahren jeden extrahierten Bereich in dem momentanen Bild, um zu bestimmen, zu welchem Objekt in dem vorangehenden Bild er gehört. Diese Klassifizierungsanalyse ist ein bereichsbasiertes Klassifizierungsproblem. Sobald das bereichsbasierte Klassifizierungsproblem gelöst ist, ist das semantische Videoobjekt in dem momentanen Bild extrahiert und verfolgt worden.
2 ist ein Diagramm, das das System zum Verfolgen semantischer Videoobjekte veranschaulicht. Das Verfolgungssystem umfasst die folgenden fünf Module:

1. Bereichs-Vorverarbeitung 220;
2. Bereichsextraktion 222;
3. Bereichsbasierte Bewegungsschätzung 224;
4. Bereichsbasierte Klassifizierung 226 und
5. Bereichs-Nachverarbeitung 228.

2 verwendet die folgende Notation:
I_i – Eingangsbild für Bild i;
S_i – Raumsegmentierungsergebnisse für Bild i;
M_i – Bewegungsparameter für Bild i und
T_i – Verfolgungsergebnisse für Bild i.
Das Verfolgungsverfahren nimmt an, dass das semantische Videoobjekt für das Ausgangsbild I₀ bereits bekannt ist. Beginnend mit einem Anfangsbild bestimmt ein Segementierungsprozess eine Anfangsaufteilung, die Grenzen von semantischen Objekten in dem Bild definiert. In 2 stellt der I-Segmentierungsblock 210 ein Programm zur Segmentierung eines semantischen Videoobjekts dar. Das Programm nimmt das Anfangsbild I₀ und berechnet die Grenze eines semantischen Objekts. Diese Grenze wird typischerweise durch eine Binär- oder Alphamaske dargestellt. Eine Vielfalt von Segmentierungsverfahren kann verwendet werden, um das oder die semantischen Videoobjekte für das erste Bild zu finden.
Wein der mitanhängigen U.S. Patentanmeldung Nr. 09/054,280 von Gu und Lee beschrieben, besteht ein Verfahren darin, ein Zeichenwerkzeug bereitzustellen, das einem Benutzer ermöglicht, eine Grenzlinie um das Innere und Äußere der Grenze eines semantischen Videoobjekts herum zu ziehen. Diese vom Benutzer gezogene Grenze dient dann als ein Startpunkt für ein automatisiertes Verfahren zum Einrasten der berechneten Grenze an der Kante des semantischen Videoobjekts. In Anwendungen, die mehr als ein interessierendes semantisches Videoobjekt umfassen, berechnet der I-Segmentierungsprozess 210 ein Unterteilungsbild, z. B. eine Maske, für jedes.
Der in dem Anfangsbild benutzte Nachverarbeitungsblock 212 ist ein Prozess zum Glätten des anfänglichen Unterteilungsbildes und zum Entfernen von Fehlern. Dieser Prozess ist gleich oder ähnlich der Nachbearbeitung, die benutzt wird, um das Ergebnis des Verfolgens des semantischen Videoobjekts in nachfolgenden Bildern I₁, I₂ zu verarbeiten.
Die Eingabe für den Verfolgungsprozess, der im nächsten Bild (I₁) beginnt, enthält das vorherige Bild I₀ und die vorherigen Bildsegmentierungsergebnisse T₀. Die gestrichelten Linien 216 trennen die Verarbeitung jedes Bildes. Die gestrichelte Linie 214 trennt die Verarbeitung für das Anfangsbild und das nächste Bild, während die gestrichelte Linie 216 die Verarbeitung für folgende Bilder während der semantischen Videoobjekt-Verfolgungsbilder trennt.
Die semantische Videoobjekt-Verfolgung beginnt mit Bild I₁. Der erste Schritt dient zum Vereinfachen des Eingabebildes I₁. In 2 stellt der Vereinfachungsblock 220 einen Bereichs-Vorverarbeitungsschritt dar, der benutzt wird, um das Eingabebild I₁ vor weiterer Analyse zu vereinfachen. In vielen Fällen enthalten die Eingabedaten Rauschen, das die Verfolgungsergebnisse nachteilig beeinflussen kann. Die Bereichs-Vorverarbeitung entfernt Rauschen und stellt sicher, dass die weitere Verfolgung semantischer Objekte auf den gereinigten Eingabedaten durchgeführt wird.
Der Vereinfachungsblock 220 liefert ein gereinigtes Ergebnis, das einem Segmentierungsverfahren ermöglicht, Bereiche von verbundenen Pixeln genauer zu extrahieren. In 2 stellt der Segmentierungsblock 222 ein räumliches Segmentierungsverfahren zum Extrahieren verbundener Bereiche mit homogenen Bildwerten in dem Eingabebild dar.
Für jeden Bereich stellt das Verfolgungssystem fest, ob ein verbunder Bereich aus den vorangehenden semantischen Videoobjekt stammt. Wenn die Verfolgungsphase für das gegenwärtige Bild vollendet ist, wird die Grenze des semantischen Videoobjekts in dem gegenwärtigen Bild aus den Grenzen dieser verbundenen Bereiche konstruiert. Die räumliche Segmentierung sollte daher ein verlässliches Segmentierungsergebnis für das gegenwärtige Bild bereitstellen, d. h. kein Bereich sollte fehlen und kein Bereich sollte irgendeine Fläche enthalten, die nicht zu ihm gehört.
Der erste Schritt beim Feststellen, ob ein verbundener Bereich zu dem semantischen Videoobjekt gehört, ist das Abgleichen des verbundenen Bereichs mit einem entsprechenden Bereich in dem vorangehenden Bild. Wie in 2 gezeigt, nimmt ein Bewegungsschätzungsblock 224 die verbundenen Bereiche und das momentane und vorangehende Bild als Eingabe und findet einen entsprechenden Bereich in dem vorangehenden Bild, der jedem Bereich in dem momentanen Bild am besten entspricht. Für jeden Bereich liefert der Bewegungsschätzungsblock 224 die Bewegungsinformation, um vorherzusagen, woher jeder Bereich in dem momentanen Bild aus dem vorangehenden Bild kommt. Diese Bewegungsinformation bezeichnet die Stelle des Vorfahrs jedes Bereichs in dem vorhergehenden Bild. Diese Information wird später verwendet, um zu bestimmen, ob der gegenwärtige Bereich zu dem semantischen Videoobjekt gehört oder nicht.
Als Nächstes klassifiziert das Verfolgungssystem jeden Bereich dahin gehend, ob er von dem semantischen Videoobjekt stammt. In 2 identifiziert der Klassifizierungsblock 226 das semantische Objekt in dem vorangehenden Bild, aus dem jeder Bereich wahrscheinlich stammt. Der Klassifizierungsprozess benutzt die Bewegungsinformation für jeden Bereich, um vorherzusagen, von wo der Bereich in dem vorangehenden Bild kommt. Durch Vergleichen des vorhergesagten Bereiches mit den Segmentierungsergebnissen des vorangehenden Bildes bestimmt der Klassifizierungsprozess das Ausmaß, in dem der vorherge sagte Bereich sich mit einem für das vorangehende Bild bereits berechneten semantischen Objekt oder Objekten überschneidet. Das Ergebnis des Klassifizierungsprozesses verbindet jeden Bereich in dem gegenwärtigen Bild mit entweder einem semantischen Videoobjekt oder dem Hintergrund. Ein verfolgtes semantisches Videoobjekt in dem gegenwärtigen Bild umfasst die Vereinigung aller mit einem entsprechenden semantischen Videoobjekt in dem vorangehenden Bild verbundenen Bereiche.
Schließlich verarbeitet das Verfolgungssystem die verbundenen Bereiche für jedes Objekt nach. In 2 stimmt der Nachverarbeitungsblock 228 die erhaltenen Grenzen jedes semantischen Videoobjekts in dem gegenwärtigen Bild fein ab. Dieser Prozess entfernt in der Klassifizierungsprozedur eingebrachte Fehler und glättet die Grenzen, um die visuelle Wirkung zu verbessern.
Für jedes nachfolgende Bild wiederholt das Verfolgungssystem die gleichen Schritte in einer automatisierten Weise unter Verwendung des vorangehenden Bildes, des Verfolgungsergebnisses des vorangehenden Bildes und des momentanen Bildes als Eingabe. 2 zeigt ein Beispiel der für Bild I₂ wiederholten Verarbeitungsschritte. Die Blöcke 240–248 stellen die auf das nächste Bild angewandten Verfolgungsschritte dar.
Anders als andere Bereichs- und Objektverfolgungssysteme, die verschiedene Vorwärtsverfolgungsmechanismen einsetzen, führt das in 2 gezeigte Verfolgungssystem eine Rückwärtsverfolgung durch. Die rückwärts bereichsbasierte Klassifizierungslösung hat den Vorteil, dass die Grenzen des endgültigen semantischen Videoobjekts als Ergebnis der räumlichen Segmentierung immer in den physikalischen Kanten einer bedeutungsvollen Wesenheit liegen. Da außerdem jeder Bereich einzeln behandelt wird, kann das Verfolgungssystem leicht mit losgelösten semantischen Objekten oder nicht harten Bewegungen umgehen.
Definitionen
Bevor eine Implementierung des Verfolgungssystems beschrieben wird, ist es hilfreich, mit einer Reihe Definitionen zu beginnen, die im ganzen Rest der Beschreibung verwendet werden. Diese Definitionen helfen zu veranschaulichen, dass das Verfolgungsverfahren nicht nur für Sequenzen von Farbvideobildern, sondern auch für andere zeitliche Sequenzen von mehrdimensionalen Bilddaten gilt. In diesem Zusammenhang betrifft "mehrdimensional" die Raumkoordinaten jedes diskreten Bildpunktes sowie den Bildwert an diesem Punkt. Eine zeitliche Sequenz von Bilddaten kann als eine "Vektorbildsequenz" bezeichnet werden, weil sie aus aufeinanderfolgenden Bildern von mehrdimensionalen Datenanordnungen besteht.
Beispiele
Tabelle 1: Verschiedene Typen von Eingabedaten als Vektorbildsequenzen
Die Dimension n betrifft die Zahl von Dimensionen in den Raumkoordinaten eine Bildprobe. Die Dimension m betrifft die Zahl von Dimensionen des an den Raumkoordinaten der Bildprobe gelegenen Bildwertes. Die Raumkoordinaten einer Farbvolumen-Bildsequenz enthalten z. B. drei Raumkoordinaten, die die Stelle einer Bildprobe im dreidimensionalen Raum definieren, sodass n = 3. Jede Probe in dem Farbvolumenbild besitzt drei Farbwerte, R, G und B, sodass m = 3.
Die folgenden Definitionen liefern eine Grundlage zum Beschreiben des Verfolgungssystems im Kontext von Vektorbildsequenzen unter Verwendung der Satz- und Graphentheorie-Notation.
Definition 1 Verbundene Punkte
S sei ein n-dimensionaler Satz: ein Punkt p ∈ S ⇒ p = (p1, ..., pn). p, q ∈ S, p und q sind verbunden wenn und nur wenn ihr Abstand D_p,q gleich eins ist:
Definition 2 Verbundene Pfade
P (P ⊆ S) sei ein Pfad, der aus m Punkten p1, ..., pm besteht. Pfad P ist verbunden, wenn und nur wenn pk und pk + 1 (k ∈ (1, ..., m – 1)) verbundene Punkte sind.
Definition 3 Nachbarschaftspunkte
R (R ⊆ S) sei ein Bereich. Ein Punkt p (p ∈ R) ist Nachbar von Bereich R, wenn und nur wenn ein anderer Punkt q (q ∈ R) p und q verbundene Punkte sind.
Definition 4 Verbundener Bereich
R (R ⊆ S) sei ein Bereich. R ist ein verbundener Bereich, wenn und nur wenn ∀ x, y ∈ R ∃ ein verbundener Pfad P (P = (p₁, ..., p_m)), wo p₁ = x und p_n = y.
Definition 5 Unterteilungsbild
Ein Unterteilungsbild P ist eine Abbildung P: S → T, wo T ein vollständiges geordnetes Gitter ist. R_p(x) sei der Bereich, der einen Punkt x: R_p(x) = ∪_y∈S(y|P(x) = P(y)) enthält. Ein Unterteilungsbild sollte die folgende Bedingung erfüllen: ∀ x, y, ∈ S, R_p(x) = R_p(y) oder R_p(x) ∩ R_p(y) = ∅; ∪_x∈SR_p(x) = S.
Definition 6 Verbundenes Unterteilungsbild
Ein verbundenes Unterteilungsbild ist ein Unterteilungsbild P, wo ∀ x ∈ S, R_p(x) immer verbunden ist.
Definition 7 Feinunterteilung
Wenn ein Unterteilungsbild P feiner als ein anderes Unterteilungsbild P' auf S ist, bedeutet dies ∀ x ∈ S, R_p(x) ⊇ R_P(x).
Definition 8 Grobunterteilung
Wenn ein Unterteilungsbild P gröber als ein anderes Unterteilungsbild P' auf S ist, bedeutet dies ∀ x ∈ S, R_p(x) ⊆ R_P(x).
Es gibt zwei extreme Fälle für das Unterteilungsbild. Einer ist die "gröbste Unterteilung", die den ganzen Satz bedeckt: ∀ x, y ∈ R_p(x) = R_p(y). Der andere wird "die feinste Unterteilung" genannt, wo jeder Punkt in S ein individueller Bereich ist: ∀ x, y ∈ S, x ≠ y ⇒ R_p(x) ≠ R_p(y).
Definition 9 Aneinandergrenzende Bereiche
Zwei Bereiche R₁ und R₂ sind aneinandergrenzend, wenn und nur wenn ∃ x, y (x ∈ R₁ und y ∈ R₂) x und y verbundene Punkte sind.
Definition 10 Bereichsangrenzungsgraph
P sei ein Unterteilungsbild auf einem mehrdimensionalen Satz S. Es gibt k Bereiche (R₁, ..., R_k) in P, wo S = ∪R₁ und wenn i ≠ j ⇒ R_i ∩ R_j = ∅. Der Bereichsangrenzungsgraph (RAG) besteht aus einem Satz von Scheiteln V und einem Kantensatz L. Lasse V = (v₁, ..., v_k), wo jedes v_i mit dem entsprechenden R_i verbunden ist. Der Kantensatz L ist (e₁, ..., e_t), L ⊆ V ⊗ V, wo jedes e_i zwischen zwei Scheiteln gebildet ist, wenn die zwei entsprechenden Bereiche aneinandergrenzende Bereiche sind.
3A–C zeigen Beispiele von verschiedenen Arten von Unterteilungsbildern, und 3D zeigt ein Beispiel eines Bereichsangrenzungsgraphen basierend auf diesen Unterteilungsbildern. In diesen Beispielen ist S ein Satz von zweidimensionalen Bildern. Die weißen Flächen 300–308, die schraffierten Flächen 310–314 und die gepunktete Fläche 316 stellen verschiedene Bereiche in einem zweidimensionalen Bildrahmen dar. 3A zeigt ein Unterteilungsbild mit zwei verbundenen Bereichen (weiße Flächen 300–302). 3B zeigt ein verbundenes Unterteilungsbild mit zwei verbundenen Bereichen (weiße Fläche 304 und schraffierte Fläche 312). 3C zeigt ein verglichen mit 3A feineres Unterteilungsbild, in dem die schraffierte Fläche 310 von 3A zwei Bereiche umfasst: Schraffierte Fläche 314 und gepunktete Fläche 316. 3D zeigt den entsprechenden Bereichsangrenzungsgraphen des Unterteilungsbildes in 3C. Die Scheitel 320, 322, 324, 326 in dem Graphen entsprechen Bereichen 306, 314, 316 bzw. 308. Die Kanten 330, 332, 334, 336 und 338 verbinden Scheitel von aneinandergrenzenden Bereichen.
Definition 11 Vektorbildsequenz
m (m >= 1) gänzlich geordnete vollständige Gitter L₁, ..., L_m von Produkt L (L = L₁ ⊗ L₂ ⊗ ... ⊗ L_m) gegeben, ist eine Vektorbildsequenz eine Sequenz der Abbildung I_t: S → L, wo S ein n-dimensionaler Satz ist und t die Zeitdomäne ist.
Tabelle 1 oben zeigt mehrere Arten von Vektorbildsequenzen. Diese Vektorbildsequenzen können entweder aus einer Reihe von Sensoren, z. B. Farbbilder, oder aus einem berechneten Parameterraum gewonnen werden. Obwohl sich die physikalische Bedeutung der Eingabesignale von Fall zu Fall ändert, können alle von ihnen generell als Vektorbildsequenten angesehen werden.
Definition 12 Semantische Videoobjekte
I sei ein Vektorbild auf einem n-dimensionalen Satz S. P sei ein semantisches Unterteilungsbild von I. S = ∪_i=1,...,mO_i. Jedes O_i bezeichnet die Stelle eines semantischen Videoobjekts.
Definition 13 Segmentierung semantischer Videoobjekte
I sei ein Vektorbild auf einem n-dimensionalen Satz S. Segmentierung semantischer Videoobjekte soll die Objektnummer m und die Stelle jedes Objekts O_i finden,
i = 1, ..., m, wo S = ∪_i=1,...,mO_i.
Definition 14 Verfolgung semantischer Videoobjekte
I_t–1 sei ein Vektorbild auf einem n-dimensionalen Satz S, und P_t–1 sei das entsprechende semantische Unterteilungsbild bei Zeit t – 1. S = ∪_i=1,...,mO_t–1,i. Jedes O_t–1,i (i = 1, ..., m) ist ein semantisches Videoobjekt bei Zeit t – 1. Verfolgen semantischer Videoobjekte in I_t ist definiert als Finden des semantischen Videoobjekts O_t,1 bei Zeit t, i = 1, ..., m. ∀ x ∈ O_t–1,i und ∀ y ∈ O_t,i: P_t–1(x) = P_t(y).
Beispiel-Implementierung
Die folgenden Abschnitte beschreiben ausführlicher eine spezifische Ausführung eines Verfahrens zum Verfolgen semantischer Videoobjekte. 4 ist ein Blockdiagramm, das die Hauptkomponenten in der unten beschriebenen Implementierung veranschaulicht. Jeder der Blöcke in 4 stellt Programmmodule dar, die Teile des oben umrissenen Objektverfolgungsverfahrens implementieren. Abhängig von einer Vielfalt von Erwägungen, z. B. Kosten, Leistung und Entwurfskomplexität, kann jedes dieser Module auch in digitalen Logikschaltkreisen implementiert werden.
Unter Verwendung der oben definierten Notation nimmt das in 4 gezeigte Verfolgungsverfahren als Eingabe das Segmentierungsergebnis eines vorangehenden Bildes bei Zeit t – 1 und das gegenwärtige Vektorbild I_t. Das gegenwärtige Vektorbild ist definiert in m (m >= 1) ganz geordneten vollständigen Gittern L₁, ..., L_m von Produkt L (s. Definition 11) auf einem n-dimensionalen Satz S: ∀ p, p ∈ S, I_t(p) = (L₁(p), L₂(p), ..., L_m(p)).
Unter Verwendung dieser Information berechnet das Verfolgungsverfahren ein Unterteilungsbild für jedes Bild in der Sequenz. Das Ergebnis der Segmentierung ist eine Maske, die die Position jedes semantischen Objekts in jedem Bild identifiziert. Jede Maske hat eine Objektnummer, die identifiziert, welchem Objekt sie in jedem Bild entspricht.
Man betrachte z. B. eine Farbbildsequenz, wie in Tabelle 1 definiert. Jeder Punkt p stellt ein Pixel in einem zweidimensionalen Bild dar. Die Anzahl von Punkten in dem Satz S entspricht der Zahl von Pixeln in jedem Bildrahmen. Das Gitter an jedem Pixel umfasst drei Probenwerte, die Rot-, Grün- und Blau-Intensitätswerten entsprechen. Das Ergebnis des Verfolgungsverfahrens ist eine Serie von zweidimensionalen Masken, die die Position aller Pixel identifizieren, die einen Teil des entsprechenden semantischen Videoobjekts für jedes Bild bilden.
Bereichs-Vorverarbeitung
Die in 4 gezeigte Implementierung beginnt die Verarbeitung für ein Bild durch Vereinfachen des eingegebenen Vektorbildes. Das heißt, ein Vereinfachungsfilter 420 reinigt das ganze Eingabevektorbild vor der weiteren Verarbeitung. Beim Konstruieren dieser Vorverarbeitungsstufe ist es vorzuziehen, ein Vereinfachungsverfahren zu wählen, das keine fremden Daten einbringt. Ein Tiefpassfilter kann z. B. ein Bild reinigen und glätten, kann aber auch die Grenzen eines Videobildes verzerren. Es ist daher vorzuziehen, ein Verfahren zu wählen, das das Eingangsvektorbild vereinfacht, während die Grenzposition des semantischen Videoobjekts bewahrt wird.
Viele nicht lineare Filter, z. B. Median-Filter oder morphologische Filter, sind Kandidaten für diese Aufgabe. Die vorliegende Implementierung benutzt ein Vektor-Medianfilter, Median(°), für die Vereinfachung des Eingabevektorbildes.
Das Vektor-Medianfilter berechnet den Median-Bildwert oder Werte von benachbarten Punkten für jeden Punkt in dem Eingabebild und ersetzt den Bildwert an dem Punkt mit dem Medianwert. Für jeden Punkt p in dem n-dimensionalen Satz S wird ein Strukturelement E um ihn herum definiert, das alle verbundenen Punkte enthält (s. Definition 1 über verbundene Punkte): E = ∪_q∈S(D_p,q = 1).
Der Vektor-Median eines Punktes p ist als der Median jeder Komponente in dem Strukturelelment E definiert:
Unter Verwendung eines solchen Vektor-Medianfilters kann eine kleine Variation des Vektorbildes I_t entfernt werden, während die Grenzen von Videoobjekten unter der besonderen Konstruktion des Strukturelements E wohl bewahrt werden. Als Folge kann der Verfolgungsprozess Grenzen von semantischen Videoobjekten wirkungsvoller identifizieren.
Bereichsextraktion
Nach Filtern des Eingangsvektorbildes extrahiert der Verfolgungsprozess Bereiche aus dem gegenwärtigen Bild. Um dies zu erreichen, verwendet der Verfolgungsprozess ein räumliches Segmentierungsverfahren 422, das das gegenwärtige Bild nimmt und Bereiche von verbundenen Punkten mit "homogenen" Bildwerten identifiziert. Diese verbundenen Bereiche sind die Bereiche von Punkten, die bei der bereichsbasierten Bewegungsschätzung 424 und der bereichsbasierten Klassifizierung 426 verwendet werden.
Beim Implementieren einer Bereichsextraktionsstufe sind drei Hauptpunkte zu beachten. Erstens, die Vorstellung von "homogen" muss konsolidiert werden. Zweitens, die Gesamtzahl von Bereichen sollte gefunden werden. Drittens, die Stelle jedes Bereichs muss festgelegt werden. Die Literatur bezüglich der Segmentierung von Vektorbilddaten beschreibt eine Vielfalt von räumlichen Segmentierungsverfahren. Die gebräuchlichsten räumlichen Segmentierungsverfahren verwenden:

– Polynom-Funktionen, die die Homogenität der Bereiche definieren;
– deterministische Verfahren, um die Zahl von Bereichen zu finden, und/oder
– Grenzjustierung, um die Stelle aller Bereiche zu beenden.

Diese Verfahren können bei einigen Anwendungen zufriedenstellende Ergebnisse liefem, aber sie garantieren kein genaues Ergebnis für eine breite Vielfalt von semantischen Videoobjekten mit nicht harter Bewegung, losgelösten Bereichen und mehrfachen Farben. Die benötigte Genauigkeit des räumlichen Segmentierungsverfahrens ist recht hoch, weil die Genauigkeit, mit der die semantischen Objekte klassifiziert werden können, von der Genauigkeit der Bereiche abhängt. Vorzugsweise sollte nach der Segmentierungsstufe kein Bereich des semantischen Objekts fehlen, und kein Bereich sollte eine Fläche enthalten, die nicht zu ihm gehört. Da die Grenzen der semantischen Videoobjekte in dem momentanen Bild als eine Untermenge aller Grenzen dieser verbundenen Bereiche definiert sind, beeinflusst ihre Genauigkeit direkt die Genauigkeit des Ergebnisses des Verfolgungsprozesses. Wenn die Grenzen unkorrekt sind, werden die Grenzen des resultierenden semantischen Videoobjekts ebenfalls unkorrekt sein. Das räumliche Segmentierungsverfahren sollte daher ein genaues räumliches Unterteilungsbild für das momentane Bild bereitstellen.
Die vorliegende Implementierung des Verfolgungsverfahrens verwendet ein neuartiges und schnelles räumliches Segmentierungsverfahren, genannt LabelMinMax. Dieses besondere Verfahren vermehrt einen Bereich zu einer Zeit in einer sequenziellen Weise. Dieses Verfahren ist anders als parallele Bereichszüchtungsprozesse, die verlangen, dass alle Samen zu spezifizieren sind, bevor eine Bereichszüchtung von einem Samen vonstatten geht. Das sequenzielle Bereichszüchtungsverfahren extrahiert einen Bereich nach dem anderen. Es erlaubt eine flexiblere Behandlung jedes Bereichs und reduziert die Gesamtrechenkomplexität.
Die Bereichshomogenität wird durch die Differenz zwischen den Maximal- und Minimalwer ten in einem Bereich gesteuert. Angenommen, dass das Eingangsvektorbild I_t in m (m >= 1) ganz geordneten vollständigen Gittern L₁, ..., L_m von Produkt L (s. Definition 11) definiert ist: ∀ p, p ∈ S, It(p) = (L1(p), L2(p), ..., Lm(p)).
Die Maximal- und Minimalwerte (MaxL und MinL) in einem Bereich R sind definiert als:
Wenn die Differenz zwischen MaxL und MinL kleiner als ein Schwellenwert (H = (h₁, h₂, ..., h_m)) ist, ist dieser Bereich homogen:
Das LabelMinMax-Verfahren markiert jeden Bereich einen nach dem anderen. Es beginnt mit einem Punkt p in dem n-dimensionalen Satz S. Angenommen, R ist der momentane Bereich, auf dem LabelMinMax arbeitet. Am Anfang enthält er nur den Punkt p: R = (p). Als Nächstes prüft LabelMinMax alle benachbarten Punkte von Bereich R (s. Definition 3), um zu sehen, ob der Bereich R noch homogen ist, wenn ein benachbarter Punkt q in ihn eingefügt wird. Ein Punkt q wird dem Bereich R hinzugefügt, wenn das Hinzufügen die Homogenität des Bereichs nicht verändert. Der Punkt q sollte aus Satz S gelöscht werden, wenn er in den Bereich R eingefügt ist. Der Bereich R erweitert sich allmählich auf alle homogenen Gebiete, wo keine Nachbarpunkte mehr hinzugefügt werden können. Dann wird ein neuer Bereich mit einem Punkt aus den restlichen Punkten in S konstruiert. Dieser Prozess dauert an, bis in S keine Punkte mehr vorhanden sind. Der ganze Prozess kann durch den folgenden Pseudo-Code klar beschrieben werden:
LabelMinMax hat eine Anzahl von Vorteilen, einschließlich:

– MaxL und MinL liefern eine genauere Beschreibung über die Homogenität eines Bereichs verglichen mit anderen Kriterien;
– Die Definition von Homogenität liefert eine strengere Kontrolle über die Homogenität eines Bereichs, was zu genauen Grenzen führt;
– LabelMinMax liefert zuverlässige Raumsegmentierungsergebnisse;
– LabelMinMax besitzt eine viel niedrigere Rechenkomplexität als andere Verfahren.

Während diese Vorteile LabelMinMax zu einer guten Wahl für räumliche Segmentierung machen, ist es auch möglich, alternative Segmentierungsverfahren zu verwenden, um verbundene Bereiche zu identifizieren. Andere Bereichszüchtungsverfahren verwenden z. B. verschiedene Homogenitätskriterien und Modelle von "homogenen" Bereichen, um zu bestimmen, ob Punkte zu einem homogenen Bereich hinzuzufügen sind. Diese Kriterien umfassen z. B. eine Intensitätsschwelle, wo Punkte einem Bereich hinzugefügt werden, solange die Differenz zwischen der Intensität jedes neuen Punktes und einem Nachbarpunkt in dem Bereich einen Schwellenwert nicht übersteigt. Die Homogenitätskriterien können auch in Form iner mathematischen Funktion definiert werden, die beschreibt, wie sich die Intensitätswerte von Punkten in einem Bereich ändern dürfen und dennoch als Teil des verbundenen Bereichs angesehen werden.
Bereichsbasierte Bewegungsschätzung
Der Prozess der bereichsbasierten Bewegungsschätzung 424 gleicht die Bildwerte in durch den Segmentierungsprozess identifizierten Bereichen mit entsprechenden Bildwerten in vorangehenden Bildern ab, um zu schätzen, wie der Bereich sich von dem vorangehenden Bild bewegt hat. Um diesen Prozess zu veranschaulichen, betrachte man das folgende Beispiel. I_t–1 sei das vorangehende Vektorbild auf einem n-dimensionalen Satz S bei Zeit t – 1, und I_t sei das momentane Vektorbild auf dem gleichen Satz S bei Zeit t. Die Bereichsextraktionsprozedur hat N homogene Bereiche R_i (i = 1, 2, ..., N) in dem momentanen Bild I_t extrahiert: S = ∪i=1,...,NRi.
Nun schreitet der Verfolgungsprozess voran, um jeden Bereich als zu genau einem der se mantischen Videoobjekte in dem vorangehenden Bild gehörend zu klassifizieren. Der Verfolgungsprozess löst dieses bereichsbasierte Klassifizierungsproblem unter Verwendung von bereichsbasierter Bewegungsschätzung und Kompensation. Für jeden extrahierten Bereich R_i in dem momentanen Bild I_t wird eine Bewegungsschätzungsprozedur durchgeführt, um herauszufinden, woher dieser Bereich in dem vorangehenden Bild I_t–1 stammt. Während eine Anzahl von Bewegungsmodellen verwendet werden kann, benutzt die vorliegende Implementierung ein Übersetzungs-Bewegungsmodell für die Bewegungsschätzungsprozedur. Bei diesem Modell berechnet die Bewegungsschätzungsprozedur einen Bewegungsvektor V_i für den Bereich R_i, der den Vorhersagefehler (PE) auf diesem Bereich minimiert:
wo |*| die Summe der absoluten Differenz zwischen zwei Vektoren und V_i <= V_max (V_max ist der maximale Suchbereich) bezeichnet. Dieser Bewegungsvektor V_i wird dem Bereich R_i zugewiesen, um seine Bahnkurvenstelle in dem vorangehenden Bild I_t–1 anzugeben.
Andere Bewegungsmodelle können ebenfalls verwendet werden. Zum Beispiel kann ein affines oder perspektivisches Bewegungsmodell benutzt werden, um die Bewegung zwischen einem Bereich in dem momentanen Vektorbild und einem entsprechenden Bereich in dem vorangehenden Vektorbild zu modellieren. Die affinen und perspektivischen Bewegungsmodelle verwenden eine geometrische Transformation (z. B. eine affine oder perspektivische Transformation), um die Bereichsbewegung zwischen einem Bild und einem anderen zu definieren. Die Transformation wird in Form von Bewegungskoeffizienten ausgedrückt, die berechnet werden können, indem Bewegungsvektoren für mehrere Punkte in einem Bereich gefunden werden und ein Satz gleichzeitiger Gleichungen unter Verwendung der Bewegungsvektoren an den ausgewählten Punkten gelöst wird, um die Koeffizienten zu berechnen. Ein anderer Weg ist, einen Anfangssatz von Bewegungskoeffizienten auszuwählen und dann zu iterieren, bis der Fehler (z. B. eine Summe absoluter Differenzen oder eine Summe quadrierter Differenzen) kleiner ist als ein Schwellenwert.
Bereichsbasierte Klassifizierung
Der bereichsbasierte Klassifizierungsprozess 426 modifiziert die Stelle jedes Bereichs unter Verwendung seiner Bewegungsinformation, um die geschätzte Position des Bereichs in dem vorangehenden Bild zu bestimmen. Er vergleicht dann diese geschätzte Position mit den Grenzen von semantischen Videoobjekten in dem vorangehenden Bild (S_t), um zu bestimmen, von welchem semantischen Videoobjekt er wahrscheinlich einen Teil bildet.
Zur Veranschaulichung betrachte man das folgende Beispiel. I_t–1 und I_t seien das vorangehende und das momentane Vektorbild auf einem n-dimensionalen Satz S, und P_t–1 sei das entsprechende semantische Unterteilungsbild bei Zeit t – 1: S = ∪i=1,...,mOt–1,i.
Jedes O_t–1,i (i = 1, ..., m) bezeichnet die Stelle eines semantischen Videoobjekts bei Zeit t – 1. Angenommen, dass es N ganz extrahierte Bereiche R_i (i = 1, 2, ..., N) gibt, wobei jeder einen zugehörigen Bewegungsvektor V_i (i = 1, 2, ..., N) in dem momentanen Bild besitzt. Das Verfolgungsverfahren muss nun das momentane semantische Unterteilungsbild P_t bei der Zeit t konstruieren.
Der Verfolgungsprozess erfüllt diese Aufgabe durch Finden eines semantischen Videoobjekts O_t–1,j (j ∈ (1, 2, ..., m)) für jeden Bereich R_i in dem gegenwärtigen Bild.
Da die Bewegungsinformation für jeden Bereich R_i auf dieser Stufe bereits verfügbar ist, verwendet der Bereichsklassifizierer die Rückwärts-Bewegungskompensation um jeden Bereich R_i in dem momentanen Bild in Richtung auf das vorangehende Bild zu krümmen. Er krümmt den Bereich durch Anwenden der Bewegungsinformation für den Bereich auf die Punkte in dem Bereich. Es sei angenommen, dass der gekrümmte Bereich in dem vorangehenden Bild R'_i ist: R'i = ∪p∈Ri(p + Vi).
Ideal sollte der gekrümmte Bereich R'_i auf eines der semantischen Videoobjekte in dem vorangehenden Bild fallen: ∃ j, j ∈ (1, 2, ..., m) R'i ⊆ Ot–1,j
Wenn dies der Fall ist, weist das Verfolgungsverfahren das semantische Videoobjekt O_t–1,j diesem Bereich R_i zu. Wegen der potentiell mehrdeutigen Ergebnisse aus dem Bewegungsschätzungsprozess kann sich jedoch in Wirklichkeit R'_i mit mehr als einem semantischen Videoobjekt in dem vorangehenden Bild überschneiden, d. h. R'i ⊄ Ot–1,j, j = 1, 2, ..., m
Die vorliegende Implementierung verwendet Mehrheitskriterien M für die bereichsbasierte Klassifizierung. Für jeden Bereich R_i in dem momentanen Bild wird, wenn der mehrheitliche Teil des gekrümmten Bereichs R'_i aus einem semantischen Videoobjekt O_t–1,j (j (1, 2, ..., m)) in dem vorangehenden Bild kommt, dieser Bereich diesem semantischen Videoobjekt O_t–1,j zugewiesen. ∀ p ∈ R1 und ∀ q ∈ Ot–1,j, Pt(p) = Pt–1(q).
Das heißt, das semantische Videoobjekt O_t–1,j, das die mehrheitlich sich mit R'_i überschneidende Fläche (MOA) besitzt, wird gefunden als:
Stück für Stück werden die vollständigen semantischen Videoobjekte O_t,j in dem gegenwärtigen Bild unter Verwendung dieser bereichsbasierten Klassifizierungsprozedur für alle Bereiche R_i (i = 1, 2, ..., N) in dem momentanen Bild konstruiert. Angenommen ein Punkt q ∈ O_t–1,j, Ot,j = ∪p∈S(p|Pt(p) = Pt–1(q)), j = 1, 2, ..., m.
Entsprechend der Konstruktion des bereichsbasierten Klassifizierungsprozesses wird es keine Löcher/Lücken oder Überschneidungen zwischen verschiedenen semantischen Videoobjekten in dem gegenwärtigen Bild geben: ∪i=1,...,mOt,j = ∪i=1,...,NRi = ∪i=1,...,mOt–1,i = S. ∀ i, j ∈ (1, ..., m), i ≠ j ⇒ Ot,i ∩ Ot,j = ∅
Dies ist ein Vorteil des Verfolgungssystems verglichen mit Verfolgungssystemen, die Objekte in Bilder verfolgen, wo die Grenzen des semantischen Videoobjekts nicht bestimmt sind. Zum Beispiel geht bei Vorwärts-Verfolgungssystemen die Objektverfolgung in nachfolgende Bilder, wo genaue Grenzen nicht bekannt sind. Die Grenzen werden dann justiert, um eine unbekannte Grenze basierend auf einigen vorbestimmten Kriterien, die eine Grenzbedingung modellieren, passend zu machen.
Bereichs-Nachverarbeitung
Es sei angenommen, dass das Verfolgungsergebnis in dem momentanen Bild das semantische Unterteilungsbild P_t ist. Aus verschiedenen Gründen kann es in der bereichsbasierten Klassifizierungsprozedur einige Fehler geben. Das Ziel des Bereichs-Nachverarbeitungsprozesses ist, diese Fehler zu beseitigen und gleichzeitig die Grenzen jedes semantischen Videoobjekts in dem momentanten Bild zu glätten. Interessanterweise ist das Unterteilungsbild ein besonderes Bild, das sich von den üblichen unterscheidet. Der Wert im jedem Punkt dieses Unterteilungsbildes gibt nur die Stelle eines semantischen Videoobjekts an. Alle herkömmlichen linearen oder nicht linearen Filter zur Signalverarbeitung sind daher im Allgemeinen für diese spezielle Nachverarbeitung nicht geeignet.
Die Implementierung verwendet einen Mehrheitsoperator M(*), um diese Aufgabe zu erfüllen.
Für jeden Punkt p in dem n-dimensionalen Satz S wird ein Strukturelement E um ihn herum definiert, das alle verbundenen Punkte enthält (s. 1 über verbundene Punkte): E = ∪q∈S(Dp,q = 1)
Zuerst findet der Mehrheitsoperator M(*) ein semantisches Videoobjekt O_t,j, das die maximale sich überschneidende Fläche (MOA) mit dem Strukturelement E aufweist:
Zweitens weist der Mehrheitsoperator M(*) den Wert dieses semantischen Videoobjekts O_t,j dem Punkt p zu: Lasse q ∈ Ot,j Pt(p) = M(p) = Pt(q).
Wegen der Adoption der Mehrheitskriterien können sehr kleine Flächen (die sehr wahrscheinlich Fehler sind) entfernt werden, während die Grenzen jedes semantischen Videoobjekts geglättet werden.
Kurze Übersicht eines Computersystems
5 und die folgende Erörterung sind gedacht, eine kurze, allgemeine Beschreibung einer geeigneten Rechenumgebung zu geben, in der die Erfindung implementiert werden kann. Obwohl die Erfindung oder Aspekte derselben in einer Hardware-Vorrichtung implementiert werden können, ist das oben beschriebene Verfolgungssystem in computerausführbaren Anweisungen implementiert, die in Programmmodulen organisiert sind. Die Programmmodule enthalten die Routinen, Programme, Objekte, Komponenten und Datenstrukturen, die die Aufgaben durchführen und die oben beschriebenen Datentypen implementieren.
Während 5 eine typische Konfiguration eines Desktop-Computers zeigt, kann die Erfindung in anderen Computersystemkonfiguration implementiert werden, einschließlich handgehaltener Vorrichtungen, Multiprozessorsystemen, mikroprozessorbasierter oder programmierbarer Verbraucherelektronik, Minicomputern, Mainframe-Computern und dergleichen. Die Erfindung kann auch in verteilten Rechenumgebungen verwendet werden, wo Aufgaben durch entfernte Verarbeitungsvorrichtungen durchgeführt werden, die über ein Kommunikationsnetzwerk verbunden sind. In einer verteilten Rechenumgebung können sich Programmmodule sowohl in lokalen aus auch entfernten Speichervorrichtungen befinden.
5 zeigt ein Beispiel eines Computersystems, das als eine Betriebsumgebung für die Er findung dient. Das Computersystem enthält einen Personal Computer 520 mit einer Verarbeitungseinheit 521, einem Systemspeicher 522 und einem Systembus 523, der die verschiedenen Systemkomponenten einschließlich des Systemspeichers mit der Verarbeitungseinheit 521 verbindet. Der Systembus kann jede von mehreren Arten von Busstrukturen umfassen, einschließlich eines Speicherbusses oder Speicher-Controllers, eines Peripheriebusses und eines lokalen Busses, die eine Busarchitektur wie PCI, VESA, Microchannel (MCA), ISA und EISA verwenden, um einige zu nennen. Der Systemspeicher umfasst einen Nurlese-Speicher (ROM) 524 und einen Direktzugriffsspeicher (RAM) 525. Ein Basis-Eingabe/Ausgabe-System 526 (BIOS), das die Basisroutinen enthält, die helfen, Information zwischen Elementen in dem Personal Computer 520 zu übertragen, z. B. beim Hochlaufen, ist im ROM 524 gespeichert. Der Personal Computer 520 umfasst weiter ein Festplattenlaufwerk 527, ein Magnetplattenlaufwerk 528, um z. B. eine wechselbare Platte 529 zu lesen oder zu beschreiben, und ein optisches Plattenlaufwerk 530, um z. B. eine CD-ROM-Platte 528 zu lesen oder ein anderes optisches Medium zu lesen oder zu beschreiben. Das Festplattenlaufwerk 527, das Magnetplattenlaufwerk 528 und das optische Plattenlaufwerk 530 sind mit dem Systembus 523 durch eine Festplatten-Schnittstelle 532, eine Magnetplatten-Schnittstelle 533 bzw. eine optische Plattenschnittstelle 534 verbunden. Die Laufwerke und ihre zugehörigen computerlesbaren Medien stellen nicht flüchtige Speicherung von Daten, Datenstrukturen, computerausführbaren Anweisungen (Programmcode, wie z. B. dynamische Link-Bibliotheken und ausführbare Dateien) usw. für den Personal Computer 520 bereit. Obwohl sich die Beschreibung von computerlesbaren Medien oben auf eine Festplatte, eine wechselbare Magnetplatte und eine CD bezieht, können auch andere Arten von Medien eingeschlossen sein, die durch einen Computer lesbar sind, z. B. Magnetkassetten, Flash-Speicherkarten, digitale Videoplatten, Bernoulli-Kassetten und dergleichen.
Eine Anzahl von Programmmodulen kann in den Laufwerken und dem RAM 525 gespeichert werden, einschließlich eines Betriebssystems 535, eines oder mehrerer Anwendungsprogrammen 536, anderer Programmmodule 537 und Programmdaten 538. Ein Benutzer kann Befehle und Information in den Personal Computer 520 über eine Tastatur 540 und eine Zeigeeinrichtung, z. B. eine Maus 542, eingeben. Andere Eingabevorrichtungen (nicht gezeigt) können ein Mikrofon, Joystick, Gamepad, Satellitenschüssel, Scanner oder dergleichen umfassen. Diese und andere Eingabevorrichtungen sind oft mit der Verarbeitungseinheit 521 durch eine Serialport-Schnittstelle 546 verbunden, die mit dem Systembus verbunden ist, können aber durch andere Schnittstellen, wie z. B. ein Parallelport, Gameport oder Universal-Serialbus (USB) verbunden sein. Ein Monitor 547 oder eine andere Art von Anzeigevorrichtung ist ebenfalls mit dem Systembus 523 über eine Schnittstelle, z. B. ein Display-Controller oder Videoadapter 548, verbunden. Zusätzlich zu dem Monitor enthalten Personal Computer typischerweise andere periphere Ausgabevorrichtungen (nicht gezeigt), wie z. B. Lautsprecher und Drucker.
Der Personal Computer 520 kann auch in einer vernetzten Umgebung mit logischen Verbindungen zu einem oder mehreren entfernten Computern, z. B. ein entfernter Computer 549, arbeiten. Der entfernte Computer 549 kann ein Server, ein Router, eine Peer-Vorrichtung oder ein anderer gemeinsamer Netzwerkknoten sein und umfasst typischerweise alle in Bezug auf den Personal Computer 520 beschriebenen Elemente, obwohl in 5 nur eine Speichervorrichtung 550 gezeigt ist. Die in 5 gezeigten logischen Verbindungen umfassen ein Lokales Netzwerk (LAN) 551 und ein Weitbereichs-Netzwerk (WAN) 552. Solche Netzwerkumgebungen sind in Büros, unternehmensweiten Computernetzen, Intranets und dem Internet an der Tagesordnung.
Wenn in einer LAN-Netzwerkumgebung benutzt, ist der Personal Computer 520 mit dem lokalen Netzwerk 551 durch eine Netzwerk-Schnittstelle oder Adapter 553 verbunden. Wenn in einer WAN-Netzwerkumgebung benutzt, enthält der Personal Computer 520 typischerweise ein Modem 554 oder eine andere Einrichtung zum Herstellen von Kommunikationen über das Weitbereichs-Netzwerk 552, z. B. das Internet. Das Modem 554, das intern oder extern sein kann, ist mit dem Systembus 523 über die serielle Portschnittstelle 546 verbunden. In einer vernetzten Umgebung können oben in Bezug auf den Personal Computer 520 erwähnte Programmmodule oder Teile davon in der entfernten Speichervorrichtung gespeichert werden. Die gezeigten Netzwerkverbindungen sind nur Beispiele, und andere Einrichtungen, um eine Kommunikationsstrecke zwischen den Computern herzustellen, können verwendet werden.
Schlussfolgerung
Während die Erfindung im Kontext von spezifischen Implementierungsdetails beschrieben wird, ist sie nicht auf diese spezifizischen Details begrenzt. Die Erfindung stellt ein Verfahren und System zum Verfolgen semantischer Objekte bereit, die homogene Bereiche in einem Vektorbild identifizieren und dann diese Bereiche als Teil eines semantischen Objekts klassifizieren. Das Klassifizierungsverfahren der oben beschriebenen Implementierung wird als "Rückwärts-Verfolgung" bezeichnet, weil es einen segmentierten Bereich in ein vorangehendes Bild projiziert, wo die Grenzen des semantischen Objekts vorher berechnet werden.
Man beachte, dass dieses Verfolgungsverfahren grundsätzlich auch für Anwendungen gilt, wo die segmentierten Bereiche in Bilder projiziert werden, wo die Grenzen semantischer Vi deoobjekte bekannt sind, selbst wenn diese Bilder keine vorangehenden Bilder in einer geordneten Sequenz sind. Das oben beschriebene "Rückwärts"-Verfolgungsschema erstreckt sich daher auf Anwendungen, wo die Klassifizierung nicht unbedingt auf ein vorangehendes Bild begrenzt ist, sondern stattdessen auf Bilder, wo die Grenzen semantischer Objekte bekannt sind oder vorher berechnet werden. Das Bild, für das semantische Videoobjekte bereits identifiziert wurden, wird allgemeiner als das Bezugsbild bezeichnet. Das Verfolgen der semantischen Objekte für das gegenwärtige Bild wird berechnet, indem segmentierte Bereiche in dem gegenwärtigen Bild in Bezug auf die Grenzen semantischer Objekte in dem Bezugsbild klassifiziert werden.
Wie oben erwähnt, gilt das Objektverfolgungsverfahren generell für Vektorbildsequenzen. Es ist daher nicht auf 2D-Videosequenzen oder Sequenzen begrenzt, wo die Bildwerte Intensitätswerte darstellen.
Die Beschreibung der Bereichs-Segmentierungsstufe identifizierte Kriterien, die besonders nützlich, aber nicht für alle Implementierungen des Verfolgens semantischer Videoobjekte nötig sind. Wie erwähnt, können andere Segmentierungsverfahren verwendet werden, um verbundene Bereiche von Punkten zu identifizieren. Die Definition der Homogenität eines Bereiches kann, abhängig von dem Typ der Bildwerte (z. B. Bewegungsvektoren, Farbintensitäten usw.), unterschiedlich sein.
Das Bewegungsmodell, das verwendet wird, um die Bewegungsschätzung und Kompensation durchzuführen, kann ebenfalls variieren. Obwohl rechenmäßig komplexer, können Bewegungsvektoren für jeden einzelnen Punkt in einem Bereich berechnet werden. Alternativ kann ein einziger Bewegungsvektor für jeden Bereich berechnet werden, wie z. B. in dem oben beschriebenen Übersetzungsmodell. Vorzugsweise sollte ein bereichsbasiertes Verfolgungsverfahren verwendet werden, um übereinstimmende Bereiche in dem interessierenden Bild zu finden. Beim bereichsbasierten Abgleichen wird die Grenze oder Maske des Bereiches in dem gegenwärtigen Bild verwendet, um Punkte, die außerhalb des Bereiches liegen, von dem Prozess des Minimierens des Fehlers zwischen dem vorhergesagten Bereich und dem entsprechenden Bereich in dem Bezugsbild auszuschließen. Dieser Lösungsweg wird in U.S. Patent Nr. 5,796,855 von Ming-Chieh Lee, betitelt "Polygon Block Matching Method" beschrieben.

Claims

Verfahren zum Verfolgen semantischer Objekte in einer Vektor-Bildsequenz, wobei das Verfahren umfasst: Durchführen räumlicher Segmentierung (222) eines aktuellen Einzelbildes, um mehrere Bereiche von Pixeln mit homogenen Intensitätswerten zu identifizieren; Durchführen von Bewegungsschätzung (224) zwischen jedem der mehreren Bereichen in dem aktuellen Einzelbild und einem Ziel-Einzelbild, in dem eine Grenze eines semantischen Objektes zuvor berechnet wurde, Verwenden der Bewegungsschätzung für jeden der mehreren Bereiche, um Warping von Pixelpositionen in jedem der mehreren Bereiche an Positionen in dem Ziel-Einzelbild durchzuführen; Feststellen (226), ob die Warping unterzogenen Pixelpositionen innerhalb der Grenze des semantischen Objektes in dem Ziel-Einzelbild liegen, um eine Gruppe der mehreren Bereiche zu identifizieren, die wahrscheinlich Teil des semantischen Objektes in dem aktuellen Einzelbild sind; und Ausbilden einer Grenze des semantischen Objektes in dem aktuellen Einzelbild anhand der Gruppe.
Verfahren nach Anspruch 1, wobei die räumliche Segmentierung (222) für jeden der mehreren Bereiche einschließt, dass sichergestellt wird, dass eine Differenz zwischen einem maximalen Intensitätswert in dem Bereich und einem minimalen Intensitätswert in dem Bereich unterhalb eines Schwellenwertes liegt.
Verfahren nach Anspruch 1, wobei die räumliche Segmentierung (222) eine sequenzielle Bereichserweiterung ist, die umfasst: beginnend mit einer ersten Pixelposition in dem aktuellen Einzelbild Erweitern eines ersten Bereiches verbundener Pixel, um die erste Pixelposition herum durch Hinzufügen von Pixelpositionen zu dem ersten Bereich, so dass ein Homogenitätskriterium erfüllt wird, wobei das Homogenitätskriterium sicherstellt, dass der erste Bereich homogene Intensitätswerte hat; wenn keine Grenzpixel um den ersten Bereich herum das Homogenitätskriterium erfüllen, Wiederholen des Erweiterns für einen anderen Bereich mit einer Pixelposition außerhalb des ersten Bereiches; und Fortsetzen, bis jede der Pixelpositionen in dem aktuellen Einzelbild als Teil eines der mehreren Bereiche identifiziert wird.
Verfahren nach einem der Ansprüche 1 bis 3, wobei der Feststellschritt (226) für jeden der mehreren Bereiche einschließt: Zählen der Warping unterzogenen Pixelpositionen, die innerhalb der Grenze des semantischen Objektes in dem Ziel-Einzelbild liegen; und wenn eine Schwellenwertmenge der Warping unterzogenen Pixelpositionen innerhalb der Grenze des semantischen Objektes in dem Ziel-Einzelbild liegt, Klassifizieren des Bereiches als in der Gruppe liegend, die wahrscheinlich Teil des semantischen Objektes in dem aktuellen Einzelbild ist.
Verfahren nach Anspruch 4, wobei die Schwellenwertmenge eine Vielzahl der Warping unterzogenen Pixelpositionen ist.
Verfahren nach Anspruch 1, das des Weiteren für einen oder mehrere folgende Einzelbilder jeweils das Wiederholen der Schritte nach Anspruch 1 umfasst, wobei das folgende Einzelbild als das aktuelle Einzelbild behandelt wird.
Verfahren nach einem der Ansprüche 1 bis 6, wobei der Schritt des Ausbildens einschließt: Konstruieren des semantischen Objektes in dem aktuellen Einzelbild als eine Kombination von Bereichen in der Gruppe; und Glätten der Grenze des semantischen Objektes in dem aktuellen Einzelbild.
Verfahren nach einem der Ansprüche 1 bis 7, wobei das Ziel-Einzelbild dem aktuellen Einzelbild in geordneter Reihenfolge in der Vektor-Bildsequenz vorangeht.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das Ziel-Einzelbild eines oder mehrere zusätzliche semantische Objekte enthält, die jeweils eine nicht überlappende Fläche des Ziel-Einzelbildes einnehmen, und wobei mit dem Feststellschritt (226) die mehreren Bereiche als Teil des semantischen Objektes oder des einen bzw. der mehreren zusätzlichen semantischen Objekte in dem aktuellen Einzelbild klassifiziert werden.
Verfahren nach einem der Ansprüche 1 bis 3, wobei mit dem Feststellschritt (226) die mehreren Bereiche als Teil des semantischen Objektes oder von Hintergrund in dem aktuellen Einzelbild klassifiziert werden.
Verfahren nach einem der Ansprüche 1 bis 10, das des Weiteren vor der räumlichen Segmentierung (222) des aktuellen Einzelbildes Vereinfachung des aktuellen Einzelbildes umfasst.
Verfahren nach einem der Ansprüche 1 bis 11, wobei die Bewegungsschätzung (224) Berechnung eines Bewegungsvektors für jeden der mehreren Bereiche in dem aktuellen Einzelbild einschließt.
Verfahren nach einem der Ansprüche 1 bis 12, wobei das aktuelle Einzelbild ein aktuelles Videobild ist, das Ziel-Einzelbild ein Ziel-Videobild ist und die semantischen Objekte Videoobjekte sind.
Computerlesbares Medium, das durch Computer ausführbare Befehle speichert, die so eingerichtet sind, dass sie ein Computersystem, das die Befehle ausführt, veran lassen, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 13 durchzuführen.
Computersystem, das eine Einrichtung umfasst, die so eingerichtet ist, dass sie alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 13 durchführt.