DE69535007T2

DE69535007T2 - Verfahren und Vorrichtung zur objektbasierten prädiktiven Kodierung und Übertragung von digitalen Bildern und Dekodierungsvorrichtung

Info

Publication number: DE69535007T2
Application number: DE69535007T
Authority: DE
Inventors: Choong Seng Moriguchi-shi Boon
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-12-20
Filing date: 1995-12-20
Publication date: 2006-12-21
Anticipated expiration: 2015-12-21
Also published as: DE69535007D1; US20030035588A1; US5969765A; EP0719049A3; EP1271957B1; EP0719049B1; US6560364B2; EP1271957A2; US20030165271A1; US5999219A; EP0719049A2; US6687408B2; DE69530908T2; US6167158A; US5767911A; US6510249B1; EP1271957A3; DE69530908D1

Description

Hintergrund der Erfindung
Technisches Gebiet der Erfindung
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Prädiktionskodierung, Speicherung und Übertragung von digitalen Bildern und eine Vorrichtung zum Signal-Dekodieren und Bild-Synthetisieren, und betrifft insbesondere ein Verfahren und eine Vorrichtung zur Prädiktionskodierung, Speicherung und Übertragung von digitalen Bildern, die durch Synthetisieren von mehreren objekt-basierten Bildschichten, und eine Vorrichtung zum Signal-Dekodieren und Re-Synthetisieren dieser objekt-basierten Bilder.
J. Wang und E. Adelson haben ein Verfahren zum Zerlegen bewegter Bilder in objektbasierende Schichten (eine andere Schicht für jedes einzelne Objekt in dem Bild) zum Kodieren als ein Mittel zum effizienten Übertragen und Aufnehmen bewegter Bilder vorgeschlagen. Ihr Verfahren ist in "Layered Representation of Image Sequence Koding", J. Wang und E. Adelson, Proc. IEEE Int. Conf. Acoustic Speech Signal Processing, 1993, pp., V 221-V 224; und in "Layered Representation for Motion Analysis", J. Wang und E. Adelson, Proc. Computer Vision and Pattern Recognition, pp. 361-366, 993. beschrieben.
Das Verfahren ist unten beschrieben, wobei ein Film mit einem Fisch, Seetang und Hintergrund angenommen wird. Nachdem jedes der drei den Film bildenden Elemente als Chroma-Key Bild separat aufgenommen wurde, können die Elemente in einem einzelnen Sammelbild synthetisiert werden, oder eine Folge von mehrere Bildrahmen, die ein bestimmtes Bild einklammern, kann analysiert und in drei Komponententeile geteilt werden. Das von Wang et al. vorgeschlagene Verfahren analysiert den Film, um den Fisch, Seetang und Hintergrund zu extrahieren und jedes dieser drei Objekte in einer gesonderten Schicht zu separieren.
Jede Schicht wird dann für sich komprimiert kodiert. Die kodierten Daten werden dann mit einem Multiplexer multiplext, wobei Information zur Bestimmung der vertikalen Beziehung zwischen den Schichten, d.h. welche Schicht welche Schicht überlegt) für Speicherung oder Übertragung hinzugefügt wird. Wenn es auch notwendig ist, den relativen Durchlassgrad der Pixel oder Gestalten in jeder Rahmenschicht zu bestimmen, wird auch ein Übertragungssignal kodiert und mit den Objektschichten übertragen oder gespeichert.
Mehrfachdekoder sind gleichermaßen auf der Wiedergabeseite erforderlich. Die multiplexten Daten werden zunächst in einzelne Schichten demultiplext, und die Daten der einzelnen Schichten werden dann gleichzeitig mit dem zugehörigen Decoder dekodiert. Die Objekte in den wiedergegebenen Schichten werden dann vom Bildsynthetisierer übereinander gelegt, basierend auf den vertikalen Schichtbeziehungsdaten zur Generierung des dann auf der Anzeigevorrichtung angezeigten (synthetisierten) Wiedergabebildes.
Um den Komprimierungswirkungsgrad zu verbessern, wird ein Bildrepräsentant jeder Schicht (z.B. der Fisch, Seetang, oder Hintergrundszene) bestimmt und als Referenzbild für die Schicht verwendet. Es wird bemerkt, dass die Schablone für jede Schicht als die die Objektfolge der Schicht am besten repräsentierend gewählt wird. Diese Schablonen können manuell oder automatisch ausgewählt werden, und Wang et al. beschreiben auch ein Verfahren, diese Schablonen automatisch zu generieren.
Die definierten Schablonen werden zunächst komprimiert kodiert, und jedes Objekt in der Schicht wird durch Vorhersagenäherung basierend auf der Verschiebung oder Verformung der generierten Schablonen kodiert. Durch Aufteilen des Films in Komponentenobjekte können diese Objekte genauer approximiert werden, ohne von anderen nahen Objekten beeinflusst zu werden. Objekte in einem hinreichenden Abstand von der Kamera können auch als stille Objekte behandelt werden, wodurch es möglich ist, die Verformung und Verschiebung (Änderung und Bewegung) in solchen Objekten mit wenigen Parametern zu beschreiben. Genauer gesagt, es wird eine affine Transformation verwendet, wobei sechs Parameter verwendet werden, um ein einzelnes Objekt zu nähern, dabei werden wenige Bits benötigt und eine extrem hohe Komprimierungsrate erreicht.
Das Verfahren zur Näherung von Objekten, bei dem Schablonen wie oben beschrieben verwendet werden, führt jedoch zu größer werdenden Fehlern, wenn eine starke Änderung der Objektgestalt oder Helligkeit auftritt und setzt den Wirkungsgrad der Komprimierungskodierung herab. Zusätzlich zur Verwendung von Schablonen zur Näherung ist es deshalb notwendig, solche Änderungen durch Verwendung des chronologisch vor und hinter dem zu kodierenden Bild angezeigten Bildes vorherzusagen und das optimale Vorhersagebild passend auszuwählen.
Diskrete Prädiktionskodierung jedes einzelnen Objektes führt gemeinhin auch zu Fehlanpassungen zwischen den Umrissen des kodierten Objektes und des vorhergesagten Objektes. Fehlanpassungen des Umrisses erhöhen den Differenzwert und verhindern das effiziente Kodieren der Umrisshelligkeit und Farbdifferenzsignale.
Des Weiteren müssen auf der Wiedergabeseite drei Dekoder zum Dekodieren der Objekte in drei Schichten, wie oben beschrieben, vorhanden sein. Im Ergebnis ist die Anzahl reproduzierbarer Schichten durch die Anzahl der auf der Wiedergabeseite verfügbaren Decoder beschränkt. Ein Rahmenspeicher mit hinreichender Kapazität, die Dekoder-Ausgabe zu speichern, wird auch benötigt, um die reproduzierten Objekte in jeder Schicht zu synthetisieren und die Anzahl der Rahmenspeichereinheiten ist proportional zur Anzahl der Schichten. So wie die Anzahl der Bildschichten steigt, steigen die Gesamtgröße und -kosten des Decoders stark.
Die Synthese der Ausgabebilder gemäß den vertikalen Beziehungsdaten der Schichten verhindert auch eine ausgewählte Anzeige der Schichten und verhindert, dass eine ausgewählte Schicht aus der kodierten Position in eine Position vor oder hinter einer anderen Schicht bewegt wird. Genauer gesagt, Interaktivität ist beeinträchtigt.
Zusammenfassung der Erfindung
Es ist deshalb Aufgabe der vorliegenden Erfindung, eine Verschlechterung des Vorhersagebildes als Folge starker Änderungen der Gestalt oder Helligkeit eines Objektes in einem Verfahren zur Prädiktionskodierung, das Schablonen benutzt, zu verhindern und die Häufung von Vorhersagefehlern über die Zeit zu reduzieren.
Um das zu erreichen, wandelt die vorliegende Erfindung das zu kodierende Bild um, indem ein spezielles Transformationsverfahren verwendet wird, um Vorhersagebilder aus wenigstens einer Schablone und dem chronologisch vor oder hinter dem zu kodierenden Bild angezeigten Bild zu erzeugen, und verwendet das Vorhersagebild mit der geringsten Differenz zum zu kodierenden Bild als optimales Vorhersagebild für das Bild.
Zusätzlich wird ein neues Vorhersagebild, das durch Mittlung mehrerer Vorhersagebilder erzeugt wird, zu den Kandidatenvorhersagebildern hinzugefügt, aus denen das Vorhersagebild mit der geringsten Differenz als optimales Vorhersagebild für das zu kodierende Bild ausgewählt wird.
Des Weiteren wird das optimale Vorhersagebild in mehrere Vorhersageunterbereiche geteilt, d.h. das zu kodierende Bild wird in mehrere Zielunterbereiche geteilt. Für jeden Zielunterbereich, in welchem wenigstens ein Pixelwert ist, der nicht kodiert werden sollte und den zugehörigen Vorhersageunterbereich, werden die zu kodierenden Pixelwerte in dem zugehörigen Vorhersageunterbereichen bearbeitet, indem eine bekannte Funktion zur Berechnung der Ersatzpixelwerte verwendet wird, und dieser Ersatzpixelwert wird dann in den Zielunterbereichen und in den zugehörigen für die dortigen Pixelwerte, die nicht kodiert werden sollen, eingesetzt. Das Differenzsignal wird dann aus den Ziel- und Vorhersageunterbereichen, die die Ersatzpixelwerte enthalten, gewonnen.
Die zweite Aufgabe der Erfindung ist es, eine Zunahme des Differenzwertes zu unterdrücken, die durch Fehlanpassung zwischen den Umrissen des zu kodierenden Zielobjektes und des Vorhersageobjektes verursacht wird.
Um diese Aufgabe zu erfüllen, wird das Vorhersagebild und das zu kodierende Zielbild in eine Mehrzahl von Vorhersageunterbereichen bzw. Zielunterbereichen aufgeteilt. Bevor die Differenz zwischen zueinandergehörigen Vorhersage- und Zielunterbereichen gewonnen wird, werden die zu kodierenden Pixelwerte in den Vorhersageunterbereichen unter Verwendung einer bekannten Funktion bearbeitet, um einen Ersatzpixelwert für die zugehörigen Zielunterbereiche zu berechnen, in welchen wenigstens ein Pixelwert ist, der nicht kodiert werden sollte. Dieser berechnete Ersatzpixelwert wird dann in den Zielunterbereich und den zugehörigen Vorhersageunterbereich für jeden Pixelwert, der darin nicht zu kodieren ist, eingesetzt. Die Differenz zwischen dem Zielunterbereich und dem Vorhersageunterbereich wird dann, nachdem diese Pixelwertersetzung gemacht wurde, berechnet.
Die dritte Aufgabe der vorliegenden Erfindung ist es, ein System zur Verfügung zu stellen, in dem ein Bild mit Hilfe eines einzigen Decoders reproduziert werden kann, unabhängig von der Anzahl der Objektschichten, die das Bild bilden, das Bild kann synthetisiert werden, indem ein Rahmenspeicher verwendet wird, der nicht von der Anzahl der Objektschichten abhängt, und Schichten können ausgewählt wiedergegeben werden, wodurch also hohe Interaktivität mit dem Benutzer ermöglicht wird.
Die vorliegende Erfindung verwendet eine Vorrichtung zur Dekodierung und Synthetisierung digitaler Bilder, die aus einer Mehrzahl übereinander liegender Bildschichten bestehen, wo die digitalen Bilder durch separate Komprimierungskodierung jeder einzelnen der mehreren Bildschichten kodiert werden und die Schichten dann in einer vorbestimmten Reihenfolge multiplext werden. Vorzugsweise werden die kodierten Daten in einer Folge entweder von der Hintergrundschicht oder der Vordergrundschicht aus multiplext.
Die Dekodierungs- und Synthetisierungsvorrichtung gemäß der vorliegenden Erfindung umfasst einen äußeren Leitungseingangsterminal, Decoder, Synthetisierer, Rahmenspeicher und Ausgabemittel. Die kodierten Daten werden in den externen Leitungseingabeterminal eingegeben, und jede Schicht wird dann in der Reihenfolge zu einem rekonstruierten Bild dekodiert, in welcher die kodierten Daten multiplext wurden. Dieses rekonstruierte Bild und das vom Rahmenspei cher zur Verfügung gestellte synthetisierte Bild werden in den Synthetisierer eingegeben, der ein neues synthetisiertes Bild generiert, indem das synthetisierte Bild und das rekonstruierte Bild zusammengefügt werden. Dieses neue synthetisierte Bild wird im Rahmenspeicher gespeichert und von den Ausgabemitteln angezeigt.
Ein erster Auswahlschalter ist auch zwischen dem externen Leitungseingabeterminal und dem Decoder der obigen Dekodierungs- und Synthetisierungsvorrichtung angeordnet, und wird gesteuert, um den externen Leitungseingabeterminal und Decoder nicht zu verbinden, wenn das Bild der Schicht eingegeben wird, die nicht reproduziert wird. Zusätzlich zum ersten Auswahlschalter, ist zwischen Synthetisierer und dem Rahmenspeicher ein zweiter Auswahlschalter angeordnet, und er ist gesteuert, um den Synthetisierer und das Rahmengedächtnis nicht zu verbinden, wenn das im Rahmenspeicher gespeicherte Bild nicht aktualisiert werden soll.
J. Wang schlug in „Applying Mid-level Vision Techniques for Video Data Compression and Manipulation", Wang J Y A et al., Proceedings of the Spie, Spie, Bellingham, VA, US, vol. 2187, 7. Februar 1994 (1994-02-07), Seiten 116-127, XP000602741 ein Kodierschema für Bilder vor, welches eine Substitution von Pixelwerten in einem Vorhersagebild aufweist. Das Verfahren betrifft (sich bewegende) Objekte und die sie umgebenden Pixel in einer Multischichtrepräsentation, wo die umgebenden Pixel des Objektes überhaupt keine Information beinhalten (nicht-unterstützte Pixel). Üblicherweise werden diese nicht-unterstützten Pixel auf einen konstanten Helligkeitswert, z.B. null, gesetzt, wodurch relativ scharfe Helligkeitsübergange zwischen den Objektkanten und dem Hintergrund bewirkt werden. Solche Intensitätsinkontinuitäten reduzieren die Kompressionsrate. Wang schlägt vor, jeden nicht-unterstützten Pixel innerhalb des Vorhersagebildes durch den Durchschnittswerts eines benachbarten Pixels zu ersetzen. Das vorgeschlagene Konzept ergibt einen glatten Übergang zwischen dem Objekt und den umgebenden Pixeln und steigert die Kompressionsrate.
Die europäischen Patentanmeldung EP 0 707 427 , welche am 17 April 1996 veröffentlicht wurde, betrifft ein Verfahren und eine Vorrichtung für eine Bereichsbasierte Annäherung zum Codieren einer Sequenz von Videobildern. Die Rah men der Sequenz werden in viele Bereiche einer beliebigen Gestalt eingeteilt, von denen jeder einen entsprechenden Bewegungsvektor relativ zu dem zuvor dekodierten Rahmen aufweist. Es wird vorgeschlagen, die Rahmen in Untergebiete einzuteilen, wobei Entsprechungen und Substitutionspixel von außerhalb der Kanten des Objektes bestimmt werden. Die Pixelsubstitution findet statt, nachdem die Pixelwertdifferenz berechnet worden ist.
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung wird anhand der nachfolgenden spezielle Beschreibung und durch die begleitenden Diagramme besser verständlich, wobei:
1 ein Blockdiagramm einer Vorrichtung zur Bildprädiktionskodierung gemäß einer ersten Ausführungsform der vorliegenden Erfindung ist;
2 ein Diagramm einer bildlichen Darstellung ist, die ein durch Übereinanderlegen mehrerer Bildschichten synthetisiertes Bild zeigt;
3 ein Blockdiagramm eines in 1 gezeigten Prädiktors ist;
4 eine gleiche Ansicht wie in 3 ist, aber eine alternative Ausführungsform des Prädiktors zeigt;
5 ein Diagramm ist, das eine bildliche Darstellung des Vorhersageverfahrens der vorliegenden Erfindung ist;
6 ein Blockdiagramm einer Vorrichtung zur Bildprädiktionskodierung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung ist;
7A, 7B und 7C Diagramme sind, die die von einem Prädiktionskodierverfahren, das mehrere Schablonen verwendet, erzeugte Datenstruktur zeigt;
8 ein Blockdiagramm einer Vorrichtung zur Bildprädiktionskodierung gemäß einer dritten Ausführungsform der Erfindung ist;
9A, 9B und 9C Diagramme sind, die die Wirkung der Differenzwertreduktion durch Pixelwertersetzung gemäß einer dritten Ausführungsform der vorliegenden Erfindung zeigen;
10 ein Blockdiagramm einer bevorzugten Ausführungsform eines Dekoders gemäß der vorliegenden Erfindung ist;
11 ein Blockdiagramm einer digitalen Bilddekodier- und Synthetisiervorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung ist;
12A, 12B und 12C Diagramme sind, die die durch Komprimierungskodierung mehrerer Bildschichten und Multiplexen der Daten erzeugte Datenstruktur zeigen;
13 ein Blockdiagramm einer digitalen Bilddekodierungs- und Synthetisierungsvorrichtung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung sind;
14 ein Blockdiagramm einer digitalen Bilddekodier- und Synthetisierungsvorrichtung gemäß einer dritten Ausführungsform der vorliegenden Erfindung ist;
15 ein Blockdiagramm einer digitalen Bilddekodierungs- und Synthetisierungsvorrichtung gemäß einer vierten Ausführungsform der vorliegenden Erfindung ist;
16 ein Blockdiagramm einer digitalen Bilddekodierungs- und Synthetisierungsvorrichtung gemäß einer fünften Ausführungsform der vorliegenden Erfindung ist;
17A ein Blockdiagramm einer digitalen Bilddekodierungs- und Synthetisierungsvorrichtung gemäß einer sechsten Ausführungsform der vorliegenden Erfindung ist; und
17B ein Diagramm ist, das die Schritte zur Synthetisierung der Schichten zeigt;
18 eine Tabelle zeigt, die die Operationen der digitalen Bilddekodierungs- und Synthetisierungsvorrichtung in 14 zeigt; und
19 eine Tabelle zeigt, die die Operationen der digitalen Bilddekodierungs- und Synthetisierungsvorrichtung in 15 zeigt.
Beschreibung bevorzugter Ausführungsformen
Das von der vorliegenden Erfindung bearbeitete Eingabebild umfasst Objekte in mehreren Schichten, wobei die Objekte in jeder Schicht durch Helligkeitssignale, die den Pixelwert ausdrücken, und durch Durchlässigkeitssignale, die den Durchlässigkeitszustand des Pixelwertes ausdrücken, definiert sind. Das ist auch der Fall, wenn ein Farbdifferenzsignal zusätzlich zum Helligkeitssignal auch vorhanden ist; Es sei bemerkt, dass die Diskussion des Farbdifferenzsignals in der folgenden Beschreibung ausgelassen wird. Des weiteren sind Bildobjekte, auf die hier Bezug genommen wird, aus Helligkeitssignalen und Durchlässigkeitssignalen zusammengesetzt und die Pixelwerte, auf die hier Bezug genommen wird, beziehen sich auf den Wert des Helligkeitssignals, es sei denn, es wird anders festgelegt.
2 zeigt das Helligkeitssignal eines Bildes D1003 in einem Film von mehreren Rahmen und die Helligkeitssignale von drei Komponenten, die zur Ausformung des Helligkeitssignals des Bildes D1003 kombiniert sind. Die drei Komponentenbilder des Bildes D1003 (Fisch A1000, Seetang B1001, und Hintergrund C1002) können separat als Chroma-Key Bild aufgenommen werden und dann zur Ausbildung des Bildes D1003 kombiniert werden; oder Bild D1003 und eine Bildfolge mehrerer Rahmen vor und hinter Bild D1003 kann analysiert werden, um Bild D1003 in drei Bildkomponenten zu zerlegen. Diese drei Bildkomponenten werden hier als "Schichten" bezeichnet. Also hat die Bildfolge, die das Bild D1003 enthält, drei Schichten. Die Schicht des Fisches A1000, die Schicht des Seetangs B1001 und die Hintergrundschicht C1002. Die Anzahl der Schichten wird vom Bild abhängen.
Ein Durchlässigkeitssignal, das das Verhältnis anzeigt, in welchem die Pixel übereinander gelegt werden sollten, wird zu den Objekten in jeder Schicht hinzugefügt. Wenn die Durchlässigkeit 100% ist, liegt ein lichtundurchlässiges Objekt vor und der Hintergrund kann nicht gesehen werden; bei 0% Durchlässigkeit ist kein Objekt anwesend und der Hintergrund kann ohne etwas im Vordergrund angesehen werden. Durchlässigkeitsniveaus zwischen 0 und 100% treten auf, wenn ein teildurchlässiges Objekt, wie etwa Glas, anwesend ist und an Objektgrenzen. Die Durchlässigkeitssignale für Fisch A1000 und Seetang B1001 in 2 sind in den Bildern A' bzw. B' gezeigt. Es sollte bemerkt werden, dass dieses Durchlässigkeitssignal die Gestalt des Objektes beschreibt.
Wie in 1 gezeigt, werden das Helligkeitssignal 1000 und das Durchlässigkeitssignal 1001 am Eingabeterminal 346 eingegeben und im Eingaberahmenspeicher 330 gespeichert. Das Helligkeitssignal und Durchlässigkeitssignal vom Eingaberahmenspeicher 330 werden simultan mit dem im ersten Rahmenspeicher 342 gespeicherten Bild und dem im zweiten Rahmenspeicher 340 gespeicherten Bild in den Prädiktor 344 über die Leitung 504 eingegeben. (Für den Zweck einer Abwandlung ist ein Bildteiler 331 gezeigt und er wird nicht in dieser Ausführungsform zur Verfügung gestellt). Eine vorher kodierte und reproduzierte Schablone wird in einem ersten Rahmenspeicher 342 gespeichert und ein vorher kodiertes und reproduziertes Bild (d.h. keine Schablone) wird in einem zweiten Rahmenspeicher 340 gespeichert. Der Prädiktor 344 generiert aus den in ihn eingegebenen Bildern das optimale Vorhersagebild. Ein Addierer 332 gewinnt das Differenzbild aus dem im Eingaberahmenspeicher 330 gespeicherten Eingabebild und dem vom Prädiktor 344 ausgegebenen Vorhersagebild; das resultierende Differenzbild wird dann im Kodierer 334 kodiert.
Der Kodierer 334 teilt das Differenzbild dann in Blöcke, indem ein Bildteiler 359 verwendet wird. Es wird bemerkt, dass während Blöcke von 16×16 Pixeln oder 8×8 Pixeln bevorzugt werden, der Bildteiler 359 ein Rahmenbild in Blöcke jeder bestimmten Größe und Gestalt teilen kann. Jeder Block wird dann durch einen diskreten Cosinustransformations (DCT) -operator 351 oder eine andere Orthogonaltransformationsoperation umgewandelt und durch einen Quantisierer 353 quantisiert. Das quantisierte Bild wird dann am Ausgabeterminal 348 ausgegeben und von einem Inversquantisierer 355 invers quantisiert und von einem inversen DCT 357 in einem lokalen Decoder 336 invers DCT umgewandelt.
Das umgewandelte Differenzbild wird dann durch einen Addierer 338 zum Vorhersagebild hinzugefügt, um das rekonstruiertes Bild zu generieren, das im zweiten Rahmenspeicher 340 gespeichert wird. Es wird bemerkt, dass sowohl das Helligkeitssignal als auch das Durchlässigkeitssignal kodiert werden. Des Weiteren könnte während das Durchlässigkeitssignal identisch zum Helligkeitssignal in diesem Beispiel DCT umgewandelt wird, ein anderes Kompressionsverfahren verwendet werden. Der Kodierer 334 könnte auch Wavelet-Umwandlung oder Vektorquantisierung anstelle von DCT-Umwandlung anwenden, insoweit wie der vom lokalen Decoder 336 durchgeführte Umwandlungsprozess dem von dem Kodierer 334 verwendeten Umwandlungsprozess entspricht.
Das als Schablone verwendete Bild ist das Bild, das allen Bildern der stetigen Bildfolge am meisten ähnlich ist und es kann entweder manuell oder automatisch ausgewählt werden. Es können auch mehrere Schablonen für eine einzige Bildfolge ausgewählt werden. Jede Schablone wird auch durch ein Helligkeitssignal und ein Durchlässigkeitssignal ausgedrückt, vor der Übermittlung komprimiert kodiert und die reproduzierte Schablone wird dann im ersten Rahmenspeicher 342 gespeichert. Die im ersten Rahmenspeicher 342 gespeicherte reproduzierte Schablone wird auch in entweder regulären oder irregulären Intervallen aktualisiert. Es wird auch bemerkt, dass die Schablone ein vollständiges Bild sein kann oder nur einen Teil des vollständigen Bildes umfassen kann (d.h. ein Ohr, Auge oder Mund). Es ist auch nicht notwendig, die Schablone zu übertragen, in dem Fall, kann ein vorher im Übermittler oder Empfänger gespeichertes Bild als die Schablone verwendet werden kann.
Als nächstes wird unter Bezugnahme auf die 3 und 5 die Wirkungsweise des Prädiktors 344 für den Fall beschrieben, in dem der Rahmen 2014 in 5 vorhergesagt wird. 5 zeigt eine Simulation des Verfahrens zur Blldprädiktionskodierung. Es wird bemerkt, dass Rahmen 2014 das Zielbild ist, d.h. der zu kodierende Bildrahmen, Rahmen 2010 ist die Schablone, und Rahmen 2012 ist der Bildrahmen, der chronologisch vor dem Zielbild 2014 angezeigt wird. Jedes dieser Bilder 2010, 2012 und 2014 wird in den in 3 gezeigten Prädiktor 344 eingegeben, insbesondere wird Zielbild 2014, d.h. das Helligkeitssignal und das Durchlässigkeitssignal davon in Terminal 372 eingegeben, die Schablone 2010 in Terminal 368 und der "vorhergehende" Rahmen 2012 in Terminal 370. Es wird bemerkt, dass der "vorhergehende" Rahmen 2012 das dekomprimierte, rekonstruierte Bild ist, das im zweiten Rahmenspeicher 340 in 1 gespeichert ist, und die Schablone 2010 das gleichermaßen dekomprimierte und rekonstruierte Bild ist, das im ersten Rahmenspeicher 342 in 1 gespeichert ist.
Das Zielbild 2014 und die Schablone 2010 werden dann in einen Deformations- und Verschiebungsrechner 350 eingegeben, der die Deformations- und Verschiebungsparameter gewinnt, wie Daten von Verschiebungsgrößen, Daten von Rotationsgraden, Kontraktionsdaten, Expansionsdaten, Kurvendaten usw. Genauer gesagt, es werden in dem Deformations- und Verschiebungsrechner 350 durch Vergleich der Schablone 2010 und des Zielbildes 2014 vielerlei Parameter produziert, die die Größe der Änderung von der Schablone 2010 zum Zielbild 2014 repräsentieren. Wenn das Zielbild 2014 um einen Vektor A verschoben und um einen Winkel θ von der Schablone 2010 gedreht wird, werden z.B. die Parameter A und θ von dem Deformations- und Verschiebungsrechner 350 produziert. Vorzugsweise wird von dem Deformations- und Verschiebungsrechner 350 eine affine Transformation verwendet, um die Deformations- und Verschiebungsparameter zu gewinnen, aber eine Transformation, die einen Term zweiten Grades enthält, kann alternativ verwendet. Die Parameter, d.h. affine Koeffizienten, die vom Deformations- und Verschiebungsrechner 350 gewonnen werden, werden zusammen mit der Schablone 2010 in einen Vorhersagebildgenerator 352 eingegeben.
Im Vorhersagebildgenerator wird ein quasi-Zielbild rückgestaltet (dieses muss nicht genau das gleiche wie das Zielbild 2014, das am Terminal 372 eingegeben wird, sein), indem die Schablone 2010 und die Parameter verwendet werden. Das quasi-Zielbild, auf das als erstes Vorhersagebild Bezug genommen wird (Helligkeits- und Durchlässigkeitssignale) wird mit Hilfe einer affinen Transformation generiert. Die Struktur und Wirkungsweise des Deformations- und Verschiebungsrechners 350 und Vorhersagebildgenerators 352 werden beschrieben in "An Image Coding Scheme Using Layered Representation and Multiple Templates", M. Etoh et al., Technical Report of IEICE, IE 94-159, PRU 94-159, 1995; "Layered Representation of Image Sequence Coding", J. Wang und E. Adelson, Proc. IEEE Int. Conf. Acoustic Speech Signal Processing, 1993, pp. V221-V224; und in "Layered Representation for Motion Analysis", J. Wang und E. Adelson, Proc. Computer Vision and Pattern Recognition, pp. 361-366, 1993, die durch Referenz hier enthalten sind.
Das erste Vorhersagebild und das Zielbild werden dann in den Differenzrechner 354 eingegeben, der durch folgende Gleichung (1) eine erste Quadratdifferenzsumme gewinnt:
in der T_ij ein Pixelwert in der Position (i,j) im Zielbild 2014, Q_ij ein Pixelwert in der Position (i,j) in dem ersten Vorhersagebild (quasi-Zielbild) ist, und "Bild" ein Teil des Rahmens ist, wo die Zielwerte zu kodieren sind, oder ein ganzer Rahmen sein kann. Die berechnete Summe wird auf den Komparator 366 angewendet.
Der affine Koeffizient des Zielbildes 2014, das auf dem "vorhergehenden" Rahmen 2012 basiert, wird gleichsam durch den zugehörigen Deformations- und Verschiebungsrechner 356 gewonnen und ein zweites Vorhersagebild (quasi-Zielbild) wird basierend auf dem "vorhergehenden" Rahmen 2012 durch den zugehörigen Vorhersagebildgenerator 358 generiert. Ein Differenzrechner 360 berechnet die Differenz zwischen dem Zielbild 2014 und dem zweiten Vorhersagebild vom Vorhersagebüdgenerator 358 und produziert eine zweite Quadratdifferenzsumme, indem Gleichung (1) verwendet wird. Die Differenzsumme wird zum Komparator 366 ausgegeben.
Die ersten und zweiten Vorhersagebilder werden auch an einem Durchschnittsrechner 362 eingegeben, um gewichtete Durchschnitte der zugehörigen Helligkeits- und Durchlässigkeitssignale zwischen den ersten und zweiten Vorhersagebildern zu berechnen. Also erzeugt der Durchschnittsrechner einen Durchschnitt oder ein drittes Vorhersagebild. Der Differenzrechner 364 berechnet dann aus diesem dritten Vorhersagebild eine dritte Quadratdifferenzsumme und das Zielbild und gibt das Ergebnis zum Komparator 366 aus.
Der Komparator 366 vergleicht also die erste, zweite und dritte Quadratsumme, stellt die kleinste Summe fest und steuert die Schalter 376 und 376', um das Vorhersagebild und dessen affine Koeffizienten auszugeben, die mit dem kleinsten Differenzwert korrespondieren. Genauer gesagt, wenn die Differenz zwischen dem ersten Vorhersagebild und dem Zielbild am kleinsten ist, d.h. kleiner als die zwischen dem zweiten Vorhersagebild und dem Zielbild oder kleiner als die zwischen dem dritten Vorhersagebild und dem Zielbild wird der Schalter 376 mit dem Pol 382 verbunden, um das erste Vorhersagebild am Terminal 374 auszugeben und der Schalter 376' wird mit dem Pol 382' verbunden, um die affinen Koeffizienten zur Erstellung des ersten Vorhersagebildes auszugeben, d.h. Schalter 376 und 376' produzieren erste Daten. Die kleinste Differenz wird gewählt, weil das Vorhersagebild mit der kleinsten Differenz am dichtesten beim Zielbild 2014 ist.
Genauso wird, wenn die Differenz zwischen dem zweiten Vorhersagebild vom Bildgenerator 358 und dem Zielbild als am kleinsten festgestellt wird, der Schalter 376 mit dem Pol 380 verbunden, um das zweite Vorhersagebild am Terminal 374 auszugeben und der Schalter 376' wird mit dem Pol 380' verbunden, um die affinen Koeffizienten zur Erstellung des zweiten Vorhersagebildes auszugeben, d.h. Schalter 376 und 376' produzieren zweite Daten. Wenn die Differenz zwischen dem dritten Vorhersagebild vom Durchschnittsrechner 362 und dem Zielbild als am kleinsten festgestellt wird, wird der Schalter 376 mit dem Pol 378 verbunden, um dritte Vorhersagebilder am Terminal 374 auszugeben und der Schalter 376' wird mit beiden Polen 380' und 382' verbunden, um die affinen Koeffizienten zur Erstellung der ersten und zweiten Vorhersagebilder auszugeben, d.h. die Schalter 376' und 376 produzieren dritte oder Durchschnittsdaten.
Es wird auch bemerkt, dass während die obigen Differenzrechner die durch Gleichung (1) gegebenen Summen von Quadratdifferenzwerten gewinnen, es auch möglich ist, die Summe absoluter Differenzwerte, wie sie durch folgende Gleichung (2) gegeben sind, zu gewinnen:
Es wird auch bemerkt, dass der Durchschnittsrechner 362 und der Differenzrechner 364 zur Vereinfachung der Anordnung weggelassen werden können.
Als nächstes wird ein weiterer Fall beschrieben, in dem Rahmen 2018 in 5 vorhergesagt wird. In diesem Beispiel ist Rahmen 2018 das Zielbild, d.h. der zu kodierende Zielrahmen, Rahmen 2010 ist die Schablone und Rahmen 2020 ist der Bildrahmen, der chronologisch hinter dem Zielbild 2018 angezeigt wird.
Jedes dieser Bilder 2010, 2018 und 2020 wird in den in 3 gezeigten Prädiktor 344 eingegeben, insbesondere wird das Zielbild 2018, d.h. dessen Helligkeits- und Durchlässigkeitssignal am Terminal 372 eingegeben, die Schablone 2010 am Terminal 368 und der "zukünftige" oder "nächste" Rahmen 2020 am Terminal 370. Es wird bemerkt, dass der "nächste" Rahmen 2020 das im zweiten Rahmenspeicher 340 in 1 gespeicherte dekomprimierte rekonstruierte Bild ist.
Das erste Vorhersagebild (Helligkeits- und Durchlässigkeitssignale) wird vom Deformations- und Verschiebungsrechner 350 generiert und vom Vorhersagebildgenerator 352, in dem das Ziel und Schablonen wie oben beschrieben verwendet werden. Das erste Vorhersagebild und das Zielbild werden dann in den Differenzrechner 354 eingegeben, der eine erste Quadratdifferenzsumme nur aus den zu kodierenden Pixelwerten gewinnt und an den Komparator 366 ausgibt.
Das zweite Vorhersagebild wird gleichermaßen vom Deformations- und Verschiebungsrechner 356 und vom Vorhersagebildgenerator 358 erzeugt, in dem das Zielbild und der "nächste" Rahmen 2020 verwendet werden. Durch den Differenzrechner 360 wird die zweite Quadratdifferenzsumme gewonnen und das Ergebnis an den Komparator 366 ausgegeben.
Die ersten und zweiten Vorhersagebilder werden in den Durchschnittsrechner 362 eingegeben, um die gewichteten Durchschnitte der zugehörigen Helligkeits- und Durchlässigkeitssignale zu berechnen und ein drittes Vorhersagebild zu generieren. Der Differenzrechner 364 gewinnt dann aus diesem dritten Vorhersagebild und dem Zielbild eine dritte Quadratdifferenzsumme und gibt sie an den Komparator 366 aus.
Der Komparator 366 vergleicht also diese ersten, zweiten und dritten Summen von Quadratdifferenzwerten und steuert die Schalter 376 und 376', um das zu den geringsten Differenzwerten gehörige Vorhersagebild auszugeben, wie oben beschrieben.
Als nächstes wird ein weiterer Fall beschrieben, in dem Rahmen 2022 in 5 vorhergesagt oder kodiert wird. In diesem Fall wird ein in 4 gezeigter Prädiktor 344' verwendet. Verglichen mit dem Prädiktor 344 in 3 hat der Prädiktor 344' weiterhin einen andern Satz eines Deformations- und Verschiebungsrechners 386, eines Vorhersagebildgenerators 390 und eines Differenzrechners 392. Der Durchschnittsrechner 362' wird auch zur Verfügung gestellt, um gewichtete Durchschnitte des zugehörigen Helligkeits- und Durchlässigkeitssignals zwischen den Vorhersagebildern der Vorhersagebildgeneratoren 390 und 358 zu berechnen. Es wird bemerkt, dass der Durchschnittsrechner auch so verbunden sein kann, um gewichtete Durchschnitte der zugehörigen Helligkeits- und Durchlässigkeitssignale zwischen irgendwelchen zwei Vorhersagebildern oder aus den drei Vorhersagebildern der Vorhersagebildgeneratoren 352, 390 und 358 zu berechnen. Wenn der Komparator 366 die Differenz des Differenzrechners 364 als kleinste Differenz auswählt, wird der Schalter 376' so verbunden, um die die Vorhersagebilder betreffenden affinen Koeffizienten an den Durchschnittsrechner 362 auszugeben.
Zum Kodieren des in 5 gezeigten Rahmens 2022 ist der Rahmen 2022 das Zielbild, d.h. der zu kodierende Bildrahmen, Rahmen 2010 ist die Schablone, Rahmen 2020 ist der chronologisch vor dem Zielbild 2022 angeordnete Zielrahmen, und Rahmen 2024 ist der chronologisch nach dem Zielbild 2022 angeordnete Bildrahmen.
Jedes dieser Bilder 2010, 2020, 2022 und 2024 wird in den in 4 gezeigten Prädiktor 344 eingegeben, genauer wird das Zielbild 2022, d.h. das Helligkeitssignal und Durchlässigkeitssignal davon in Terminal 372, die Schablone 2010 in Terminal 368, der "vorhergehende" Rahmen 2020 in Terminal 370 und der "nächste" Rahmen 2024 in Terminal 386 eingegeben. Es wird bemerkt, dass die "vorhergehenden" und "nächsten" Rahmen 2020 und 2024 reproduzierte Bilder vorher komprimiert kodierter Bilddaten sind.
Das erste Vorhersagebild (Helligkeits- und Durchlässigkeitssignale) wird vom Deformations- und Verschiebungsrechner 350 und Vorhersagebildgenerator 352 aus dem Ziel und Schablonen, wie oben beschrieben, generiert. Das erste Vorhersagebild und das Zielbild wird dann in den Differenzrechner 354 eingegeben, der eine erste Quadratsumme gewinnt, indem nur zu kodierende Pixelwerte verwendet werden und an den Komparator 366 ausgibt.
Das zweite Vorhersagebild wird gleichermaßen aus dem "vorhergehenden" Rahmen 2020 durch den Deformations- und Verschiebungsrechner 358 und den Vorhersagebildgenerator 352 generiert, die zweite Quadratdifferenzsumme wird vom Differenzrechner 360 gewonnen und das Ergebnis an den Komparator 366 ausgegeben.
Ein drittes Vorhersagebild wird genauso aus dem Zielbild und dem "nächsten" Rahmen 2024 durch den Deformations- und Verschiebungsrechner 388 und den Vorhersagebildgenerator 390 generiert, eine dritte Quadratdifterenzsumme wird durch den Differenzrechner 392 gewonnen und das Ergebnis an den Komparator 366 ausgegeben.
Die zweiten und dritten Vorhersagebilder werden auch an die Mittel zur Durchschnittsbildung 362 zur Gewinnung eines gewichteten Durchschnitts der zugehörigen Helligkeits- und Durchlässigkeitssignale eingegeben und generieren ein viertes Vorhersagebild. Der Differenzrechner 364 gewinnt dann aus diesem vierten Vorhersagebild und dem Zielbild eine vierte Quadratdifferenzsumme und gibt sie an den Komparator 366 aus.
Der Komparator 366 vergleicht also diese ersten, zweiten, dritten und vierten Summen von Quadratdifferenzwerten und steuert die Schalter 376 und 376', um die mit den geringsten Differenzwerten korrespondierenden Vorhersagebilder auszugeben.
Unter Bezugnahme auf 6 wird eine Vorrichtung zur Bildprädiktionskodierung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung gezeigt. Wie in 6 gezeigt, sind Bildteiler 335 und 337 nach dem Rahmenspeicher 330 bzw. Prädiktor 344 und vor dem Addierer 332 angeordnet, um die Ziel- und Vor hersagebilder in Bildblöcke zu unterteilen. Die Zielbildblöcke und die Vorhersagebildblöcke werden über Eingabeleitungen 514 bzw. 515 in den Addierer 332 eingegeben und der Addierer 332 gewinnt aus korrespondierenden Ziel- und Vorhersagebildblöcken das Differenzsignal. Es wird bemerkt, dass der Kodierer 334 in dieser Ausführungsform keinen Bildteiler 359 aufweist.
In den oben beschriebenen Ausführungsformen wird das Vorhersagebild passend für den gesamten Bereich des Eingabe-(Ziel)-Bildes ausgewählt und kodiert. Anders als für das Vorhersagebild das ganze Bild auszuwählen, ist es jedoch auch möglich, den zu kodierenden Bildbereich in viele Unterbereiche (Blöcke) aufzuteilen und einen optimalen Vorhersageblock für jeden Bildblock angepasst auszuwählen und zu kodieren. Die bevorzugte Blockgröße ist 16×16 Pixel oder 8×8 Pixel, aber das Bild kann in Blöcke jeder speziellen Größe und Gestalt aufgeteilt werden.
Die Basiskodiervorrichtung ist die gleiche wie die in 1 gezeigte, ausgenommen, dass ein Bildteiler 331 in 1 durch eine gepunktete Linie dargestellt, zusätzlich vor dem Terminal 372 zur Verfügung gestellt wird und das Eingabebild in Blöcke geteilt wird, bevor es zum Kodieren eingegeben wird. Der in den 3 und 4 dargestellte Prädiktor wird verwendet, ausgenommen, dass in diesem Fall der affine Koeffizient nicht für einen Rahmen, sondern nur für einen Teil des Rahmens gewonnen werden muss. Also können die von den ersten und zweiten Rahmenspeicher 342 und 340 produzierten Bilder eine Blockgröße haben, die dem von dem ersten Bildteiler 331 produzierten Block entspricht. Also kann die Größe jedes der ersten und zweiten Rahmenspeicher kleiner als ein Rahmen sein. Es wird bemerkt, dass Rotation und andere Umwandlungsprozesse durch einen einfachen Parallelbewegungsdetektions- und Kompensationsprozess ersetzt werden können. Detektions- und Kompensationsprozesse von Blockeinheitsbewegungen werden in U.S.-Patent Nr. 5,193,004 und 5,157, 742 beschrieben, welche hier durch Bezugnahme enthalten sind. Die vorliegende Erfindung unterscheidet sich von diesen beiden Referenzen dadurch, dass das Vorhersagesignal generiert wird, indem auf eine Schablone Bezug genommen wird.
Es wird bemerkt, dass die zweite Ausführungsform in jeder Hinsicht mit der ersten Ausführungsform gleich ist, ausgenommen, dass Vorhersagebildgeneration und Bearbeitung auf einer Bildblockbasis durchgeführt wird.
7A und 7B zeigen die kodierte Datenstruktur, wobei multiplexte Daten durch Verfahren zur Prädiktionskodierung erzeugt werden, indem mehrere Schablonen verwendet werden. 7A zeigt eine Folge von Bildern G1 bis G8 eines schwimmenden Fisches. Die Bilder G1 bis G8 dieser Folge werden vorhergesagt, indem zwei Schablonen T1 und T2 verwendet werden.
Der erste Schritt ist, die Schablonen mit einem der Verfahren des oben beschriebenen Komprimierungscodes zu reproduzieren. Jedes der Bilder G1 bis G8 wird dann durch Vorhersagenäherung generiert, basierend auf der Deformation und Verschiebung der generierten Schablonen, vorzugsweise indem eine affine Transformation verwendet wird. Das Ergebnis sind die kodierten Daten für Schablonen T1 und T2 und jedes der Bilder G1 bis G8 der Folge. Ein spezifisches Beispiel der kodierten Daten ist in 12B gezeigt. Wie in 12B gezeigt und unten beschrieben, enthält jeder Block kodierte Bewegungsinformationen 1016, Quantisierungsmengen 1017 und DCT-Koeffizienten 1018.
7B stellt das Übertragungsverfahren für kodierte Repräsentantbilddaten der vorliegenden Erfindung dar. Wie in der 7B gezeigt, werden die kodierten Daten der Bilder G1 bis G8 der Folge übertragen, nachdem alle Schablonendaten 1051, 1052 und 1053 übertragen wurden. Dass alle Schablonendaten zuerst übertragen werden, bietet den Vorteil, die Bilddatenfolge beginnend bei jedem Punkt der Folge reproduzieren zu können. Weil die Schablonen T1 und T2 zuerst vom Empfänger empfangen und reproduziert werden, kann die Reproduktion der Bildfolge ohne Verzögerung von irgendeinem Rahmen G1 bis G8 aus beginnen, also die Nutzhaftigkeit spezieller Wiedergabearten (wie etwa Vor- und Zurückspulen) verbessert wird.
7C zeigt ein alternatives Übertragungsverfahren für kodierte Schablonendaten gemäß der vorliegenden Erfindung. Wie in diesem Beispiel gezeigt, werden die Schablonendaten unmittelbar vor den Bildrahmen übertragen, auf die sich die Schablonendaten für die Wiedergabe beziehen. Also weil zur Wiedergabe der Bilder G1 und G2 und G3 auf die Schablone T1 Bezug genommen wird, aber nicht auf Schablone T2, werden die kodierten Daten 1062 für die Schablone T1 zuerst übertragen, direkt gefolgt von den kodierten Daten (1063, 1064 und 1065) für die Bilder G1, G2 und G3, welche gefolgt sind von kodierten Daten 1066 für die Schablone T2. Das bedeutet, dass die kodierten Schablonendaten zu dem Datenstrom multiplext sind, so dass kodierte Daten von Schablonen, auf die nicht Bezug genommen wird, nicht vor den Bewegungsbilddaten übertragen werden. Dieses Übertragungsverfahren macht es möglich, die Verzögerungszeit, bis das erste Bild G1 wiedergegeben werden kann, zu reduzieren und reduziert die Rahmenspeicheranforderungen, weil es nicht notwendig ist, alle reproduzierten Schablonen zu speichern.
In 8 wird eine Vorrichtung zur Bildprädiktionskodierung einer dritten Ausführungsform der Erfindung gezeigt. Ein numerisches Beispiel des Bildvorhersageverfahrens, das in der Vorrichtung gemäß 8 verwendet wird, ist in 9 gezeigt.
Die in 8 gezeigte Vorrichtung zur Bildprädiktionskodierung ist im Wesentlichen identisch zu der in 6 gezeigten. Was sich unterscheidet, liegt auf der Eingabeseite des Addierers 332. Genauer, eine Pixelwertersetzungsoperation (Ersatzoperation) ist eingerichtet, bevor der Differenzwert von dem Addierer 332 gewonnen wird.
Die Ausgabe (Helligkeit und Durchlässigkeitssignale) des Eingaberahmenspeichers 330 wird zuerst durch den Bildteiler 341 in viele Blöcke aufgeteilt. Die bevorzugte Größe dieser Bildblöcke ist 4×4 Pixel, aber die Erfindung soll darauf nicht beschränkt sein. Die Ausgabe (Helligkeit und Durchlässigkeitssignale) des Prädiktors 344 ist durch den Bildteiler 335 gleichermaßen in mehrere Blöcke von 4×4 Pixeln geteilt. Die Ausgabe des Bildteilers 335 umfasst damit die Helligkeitssignalblöcke und Durchlässigkeitssignalblöcke, die dem Ersatzwertgenerator (Ersetzungspixelwertgenerator) 329 zugeführt werden.
Der Ersatzwertgenerator 329 berechnet die Ersatzpixelwerte, indem eine bekannte Funktion auf Pixel mit einer Durchlässigkeit von mehr als 0% angewandt wird (d.h. auf zu kodierende Pixel, die mit schwarzen Bereichen des Durchlässig keitssignals 1000 korrespondieren). Vorzugsweise wird der Durchschnitt aller Pixel mit weniger als 100% Durchlässigkeit verwendet, aber die Erfindung soll nicht darauf beschränkt sein.
Die Ersatzpixelwerte werden dann Ersetzern (Pixelwertersetzungsmittel) 339 und 343 zugeführt, wobei die Ersatzpixelwerte für Pixelwerte (des Helligkeitssignals) mit 0% Durchlässigkeit ersetzt werden. Das Differenzsignal der von den Trimmern 339 und 343 abgegebenen Helligkeitssignalblöcken wird dann von dem Addierer 332 gewonnen. Es wird bemerkt, dass das Differenzsignal der Übertragungssignalblockwerte gewonnen wird, ohne eine Ersetzung zu machen.
9A, 9B und 9C zeigen ein numerisches Beispiel der oben beschriebenen Operation. 9A zeigt die Übertragungssignalblöcke. Block 2110 wird von dem Bildteiler stromabwärts des Eingaberahmenspeichers 330 ausgegeben, und Block 2112 wird vom Bildteiler 335 stromabwärts des Prädiktors 344 ausgegeben. Pixel, die in den Blöcken 2110 und 2112 mit dem Wert Null (0) bezeichnet werden, kennzeichnen die nicht zu kodierenden Pixelwerte (die 100% Durchlässigkeit haben). Um die Durchlässigkeitsinformation zu erhalten, wird Differenz zwischen den Blöcken 2110 und 2112 direkt in einem resultierenden Block 2114 erhalten, der an den Kodierer 334 ausgegeben wird.
9B zeigt die Helligkeitssignalblöcke. Der Block 2116 wird vom Bildteiler 341 und der Block 2118 vom Bildteiler 335 ausgegeben. Der direkt aus diesen Blöcken gewonnene Differenzblock ist Block 2120. Die in Block 2120 gezeigten großen Differenzwerte sind ein Ergebnis einer Fehlanpassung zwischen den Umrissen der zu kodierenden Pixel. Blöcke 2112 und 2118 werden dem Ersatzwertgenerator 329 zugeführt, um einen Durchschnitt der Pixelwerte in Block 2118 zu gewinnen, die mit den Pixeln in Block 2112 kor respondieren, die einen Wert von 0 haben. In diesem Beispiel ist der Durchschnittspixelwert (Ersatzpixelwert) 49. Alternativ werden die Blöcke 2110 und 2118 in den Ersatzwertgenerator 329 eingegeben.
Die Ersatzpixelwerte 49 werden dann in die Ersetzer 339 und 343 eingegeben, wobei Blöcke 2122 und 2124 durch Ersetzen dieser Ersatzpixelwerte mit Wert 49 durch Pixels, die ein Durchlässigkeitssignal mit Wert 1 haben, gewonnen werden.
Block 2126 wird dann durch Berechnung der Differenz der Blöcke 2122 und 2124 gewonnen. Es wird bemerkt, dass der Differenzwert des Blockes 2126 klar kleiner als der des Blockes 2120 ist. Indem Block 2126 anstelle des Blocks 2120 in den Kodierer 334 eingegeben wird, wird Kodieren durch Verwenden weniger Bits erreicht.
Es wird bemerkt, dass die Ersatzpixelwerte aus Vorhersageblöcken gewonnen werden und es deshalb nicht notwendig ist, die Ersatzpixelwerte zu übertragen (weil die Ersatzpixelwerte auf der Empfangsseite berechnet werden können). Des Weiteren können Werte, die durch Anwenden einer anderen bekannten Funktion oder eines vorbestimmten bekannten Wertes gewonnen werden, besser ersetzt werden als die oben beschriebenen Durchschnittsdaten zu verwenden insoweit wie derselbe Wert sowohl in den Zielblock und den Vorhersageblock ersetzt wird und die Funktion oder Ersatzpixelwert auf der Empfangsseite bekannt ist.
10 ist ein Blockdiagramm des Bilddecoders 12, der in irgendeinem der digitalen Bilddekodierungs- und Synthetisierungsvorrichtungen der 11, 13-17A verwendet wird. Die in diesen Decoder 12 eingegebenen Daten werden durch das oben beschriebene Verfahren generiert. Genauer, ein Eingabebild, das durch ein Helligkeitssignal, das den Pixelhelligkeitswert und ein Durchlässigkeitssignal, das den Pixeldurchlässigkeitswert (Zustand) ausdrückt, definiert ist wird in mehrere Ziel-(Bild)-Blöcken unterteilt. Die Helligkeits- und Durchlässigkeitssignale jedes Vorhersageblocks sind dann für die Helligkeits- und Durchlässigkeitssignale des zugehörigen Zielblocks bestimmt. Für jeden Zielblock, der wenigstens einen Pixe wert enthält, der nicht kodiert werden sollte, wird ein Ersatzpixelwert berechnet, indem eine bekannte Funktion auch auf die zu kodierenden Pixelwerte des Vorhersageblocks angewendet wird. Dieser Ersatzpixelwert wird dann in einem Zielblock und in dem zugehörigen Vorhersageblock für jeden darin nicht zu kodierenden Pixelwert ersetzt und die Differenz zwischen dem Zielblock und dem Vorhersageblock wird gewonnen, indem die Ersatzpixelwerte zum Kodieren des Bildes verwendet werden. Die in 10 gezeigte und unten beschriebene Bilddekodiervorrichtung dekodiert die so kodierten Bilddaten.
Wie in 10 gezeigt, umfasst der Decoder 12 vorzugsweise einen Eingabeterminal 10, einen Parser 11, einen Inversquantisierer 13, einen Invers-DCT-Operator 15, einen Addierer 17, eine Rahmenspeicherbank 324, einen Vorhersageblockgenerator (Adressengenerator) 21, einen Ersatzwertgenerator 321 und einen Ersetzer 319. Der Parser 11, Inversquantisierer 13 und Invers-DCT-Operator 15 definieren den Hauptteil des Dekoders.
Die Bilddaten werden im Eingabeterminal 10 eingegeben und vom Decoder dekodiert, um ein Differenzsignal zu generieren. Genauer, der Parser 11 analysiert die Bilddaten syntaktisch und gibt die Bewegungsinformationen über die Leitung 130 an den Adressengenerator 21 aus, und die Quantisierungsmenge und Quantisierungs-DCT-Koeffizienten über Leitung 116 an den Inversquantisierer 13. Der Inversquantisierer 13 multipliziert den Quantisierungs-DCT-Koeffizienten mit der Quantisierungsmenge, um den Inversquantisierungs-DCT-Koeffizienten zu generieren.
Der Inversquantisierungs-DCT-Koeffizient wird über die Leitung 118 zu dem Invers-DCT-Operator 15 gesendet zur Inversumwandlung in ein räumliches Domain-Differenzsignal. Das Differenzsignal wird über die Leitung 120 zum Addierer 17 gesendet, um mit dem über Leitung 129 eingegebenen Vorhersagesignal kombiniert zu werden, um das rekonstruierte Signal zu generieren und auszugeben. Dieses rekonstruierte Signal (Helligkeit und Durchlässigkeitssignale) wird auch über die Leitung 124 zur Rahmenspeicherbank 324 zurückgeführt. Die Wirkungsweise der Rahmenspeicherbank 324 wird unten beschrieben.
Der Adressengenerator 21 wandelt die eingespeiste Bewegungsinformation in die Adresse um, die verwendet wird, um auf die Rahmenspeicherbank 324 zuzugreifen und der Vorhersagesignalblock ist von der Adresse in der Rahmenspeicherbank 324 ausgelesen. Der Vorhersageblock wird über die Leitung 126 in den Ersatzwertgenerator 321 eingegeben, der eine bekannte Funktion auf die Pixelwerte anwendet, die im Vorhersageblock kodiert werden sollten, um den Ersatzpixelwert zu generieren. Es wird bemerkt, dass die hier verwendete Funktion die gleiche Funktion sein muss, die auf der Übermittlungsseite verwendet wird. Der bevorzugte Ersatzpixelwert ist der Durchschnitt der Pixelwerte, die kodiert werden sollten.
Der Ersatzpixelwert und der Vorhersageblock werden in den Ersetzer 319 eingegeben, der die in dem Vorhersageblock nicht zu kodierenden Pixelwerte durch die Ersatzpixelwerte ersetzt und dann über die Leitung 129 an den Addierer 17 ausgibt.
Die so reproduzierten Bildobjekte können dann, basierend auf der Durchlässigkeitsinformation, synthetisiert und angezeigt werden. Dieser Prozess wird im Folgenden beschrieben unter Bezugnahme auf die folgenden Ausführungsformen.
Zur Komprimierungskodierung und Übertragung eines Bildes mit mehreren Schichten wie in 2 gezeigt muss Multiplexen verwendet werden. Die digitale Bildtransformationsoperation wird unter Bezugnahme auf die 12A, 12B und 12C unten beschrieben.
12A zeigt eine multiplexte Struktur kodierter Daten mit drei Schichten (Daten 1010 für Schicht A, Daten 1011 für Schicht B und Daten 1012 für Schicht C), die einen Bildrahmen (Rahmen 1) definieren. Daten 1010 für Schicht A, Daten 1011 für Schicht B und Daten 1012 für Schicht C, korrespondieren mit dem Bild A1000, dem Bild B1001 bzw. dem Bild C1002, wie in 2 gezeigt. Die in 12A gezeigte Datenstruktur wird deshalb durch Multiplexen der Bildschichten in einer Folge vom Vordergrund ausgehend gewonnen. Eine Variation dieser Struktur wäre die Schichten in einer Folge von der Hintergrundschicht ausgehend zu multiplexen, d.h. die Daten 1023 für Schicht C, Daten 1024 für Schicht B und Daten 1025 für Schicht A, wie in 12C gezeigt.
Die Schichtdaten starten mit einem Schichtsynchronisationssignal 1015, gefolgt von einem Blocksynchronisationssignal 1014, der Bewegungsinformation 1016 für den Block, die Quantisierungsmenge 1017 und den DCT-Koeffizienten 1018, wie in 12B gezeigt. Wenn ein Durchlässigkeitssignal vorhanden ist, wird der Durchlässigkeitssignalkoeffizient zusätzlich zum Helligkeitssignal-DCT-Koeffizienten beigefügt.
Es muss bemerkt werden, dass während die vorhergehenden Ausführungsformen der Erfindung unter Verwendung von Bewegungskompensations-DCT beschrieben wurden, Subband, Wavelet oder Fraktalkodierung alternativ verwendet werden könnten. Zusätzlich wurde das Multiplexen von Bildschichten oben beschrieben, aber die Schichtdaten können auch in Blöcke einer bekannten Bitgröße aufgeteilt werden und die Blöcke können dann für das Multiplexen gepackt werden. In diesem Fall können die Daten in einer Folge multiplext werden, wie: Schicht A Paket 1, Schicht B Paket 1, Schicht C Paket 1, Schicht A Paket 2, Schicht B Paket 2, Schicht C Paket 2,...
Als nächstes wird unter Bezugnahme auf das Blockdiagramm in 11 die Vorrichtung zum Dekodieren und Synthetisieren gemäß der ersten Ausführungsform der vorliegenden Erfindung beschrieben. Die unter Verwendung des entweder in 12A oder 12B gezeigten Formates multiplexten kodierten Daten werden in den externen Leitungseingabeterminal 10 eingegeben. Der Decoder 12 dekodiert dann die kodierten Daten in jeder einzelnen Schicht zu einem rekonstruierten Bild, das im Rahmenspeicher FM0 14 gespeichert wird. Der Bildsynthetisierer 16 überlegt das rekonstruierte Bild mit dem im Feedbackrahmenspeicher FM1 22 synthetisierten Bild, um ein neues synthetisiertes Bild zu generieren. Dieses neue synthetisierte Bild wird dann im Rahmenspeicher FM1 22 und im Anzeigespeicher 118 gespeichert, um von der Ausgabevorrichtung 20 angezeigt zu werden. Die Prozesssteuerung 24 steuert sowohl den Rahmenspeicher FM0 14 als auch den Rahmenspeicher FM1 22.
Die bevorzugte Ausführungsform des Decoders 12 ist in 10 gezeigt und wird im Folgenden für den Fall beschrieben, in welchem die kodierten Daten, die wie in 12C gezeigt multiplext werden, dekodiert und synthetisiert werden.
Die kodierten Daten 1023 für Schicht C (die Hintergrundschicht) werden zuerst in den externen Leitungseingabeterminal 10 eingegeben. Der Parser 11 analysiert die Bilddaten dann syntaktisch und gibt die Bewegungsinformation über eine Leitung 130 zum Adressgenerator 21 und die Quantisierungsmenge und die Quantisierungs-DCT-Koeffizienten über eine Leitung 116 zum Inversquantisierer 13 aus. Der Inversquantisierer 13 multipliziert den Quantisierungs-DCT-Koeffizienten mit der Quantisierungsmenge, um den Inversquantisierungs-DCT-Koeffizienten zu generieren.
Der Inversquantisierungs-DCT-Koeffizient wird dann über die Leitung 118 an den Invers-DCT-Operator 15 gesendet, um in ein räumliches Domain-Differenzsignal invers umgewandelt zu werden. Das Differenzsignal wird über Leitung 120 an den Addieren 17 gesendet, um mit dem Vorhersagesignal (nach der Pixelwertsubstitution) kombiniert zu werden, das von der Leitung 129 eingegeben wird, um das rekonstruierte Signal zu generieren und auszugeben. Dieses rekonstruierte Signal wird auch zur Rahmenspeicherbank 324 über eine Leitung 124 zurück geführt. Die Rahmenspeicherbank 324 umfasst mehrere Rahmenspeichereinheiten.
In diesem Beispiel umfasst die Rahmenspeicherbank 324 drei Rahmenspeichereinheiten 19A, 19B und 19C. Rahmenspeicher 19C wird in diesem Beispiel zur Speicherung des Schicht C Bildes verwendet. Um das Schicht C Bild aus der Rahmenspeicherbank 324 auszulesen, wird der Schalter 80 mit dem Terminal 83c verbunden, der Schalter 81 mit dem Terminal 84c und der Schalter 82 mit dem Terminal 85c. Der Adressgenerator 21 wandelt die Bewegungsinformation in eine Rahmenspeicheradresse um, um das Vorhersagesignal aus dem bezeichneten Rahmenspeicher 19C zu lesen, der also Schicht C über die Leitung 126 zum Ersatzwertgenerator 321 ausgibt.
Das dekodierte Schicht C Bild wird dann an den Rahmenspeicher FM0 14 in 11 ausgegeben. Weil Schicht C in diesem Beispiel die erste Schicht in dem Rahmen ist, setzt die Prozesssteuerung 24 den Rahmenspeicher FM1 22 auf einen bekannten Wert. Dieser bekannte Wert zeigt an, dass der Rahmenspeicherwert kein gültiger Pixel ist und vorzugsweise auf Null gesetzt wird. Die Prozesssteuerung 24 gibt die Pixelwerte für denselben Ort aus den Rahmenspeichern 14 und 22 an den Bildsynthetisierer 16 in der eingelesenen Folge aus.
Im Folgenden wird der vom Bildsynthetisierer 16 ausgeführte Prozess beschrieben. Das im Rahmenspeicher FM0 14 gespeicherte Bild wird oben auf das in den Rahmenspeicher FM1 22 geschriebene Bild geschrieben, weil das Bild im Rahmenspeicher FM0 14 die Bildschicht über der Schicht des Bildes im Rahmenspeicher FM1 22 ist. Der Bildsynthetisierer 16 vergleicht die vom Rahmenspeicher FM014 eingegebenen Pixel mit zugehörigen Pixeln in der gleichen Position im Bild, das vom Rahmenspeicher FM1 22 eingegebenen wird. Wenn der Pixel wert in dem Bild vom Rahmenspeicher FM0 14 kein besonderer Wert ist (0 in diesem Beispiel), wird der Pixel aus Rahmenspeicher FM0 14 ausgegeben; wenn der Pixelwert im Bild aus Rahmenspeicher FM0 14 ein besonderer Wert ist (0 in diesem Beispiel), wird der Pixel aus dem Rahmenspeicher FM1 22 ausgegeben. Die ausgegebenen Pixel werden in den Anzeigespeicher 18 zwischengespeichert, um an der Ausgabevorrichtung 20 angezeigt zu werden und gleichzeitig zum Rahmenspeicher FM1 22 zur Speicherung zurückgeführt.
Die kodierten Daten 1024 der Schicht B in 12C werden als nächstes in den externen Leitungseingabeterminal eingegeben, wie oben beschrieben, vom Decoder 12 zum rekonstruierten Bild dekodiert und in den Rahmenspeicher FM0 14 eingegeben. Der Rahmenspeicher 19b im Decoder 12 wird zum Speichern des Schicht B Bildes in diesem Beispiel verwendet. Um die Schicht B Bilder aus der Rahmenspeicherbank 324 auszulesen, werden Schalter 80, 81 und 82 deshalb auf die Terminals 83b, 84b bzw. 85b geschaltet und die Bildschicht wird so ausgegeben und dekodiert. Die Bilder aus dem Rahmenspeicher FM0 14 und Rahmenspeicher FM1 22 werden dann vom Bildsynthetisierer 16 wie oben beschrieben übereinander gelegt und an den Anzeigespeicher 18 und Rahmenspeicher FM1 22 ausgegeben. Im Ergebnis ist das Schicht B Bild über das Schicht C Bild gelegt.
Die kodierten Daten 1024 der Schicht A in 12C werden als nächstes in den externen Leitungseingabeterminal eingegeben, wie oben beschrieben, vom Decoder 12 dekodiert und durch den Bildsynthetisierer 16 über das Bild aus Rahmenspeicher FM1 22 gelegt. Rahmenspeicher 19a im Decoder 12 wird in diesem Beispiel verwendet, um das Schicht A Bild durch den Bildsynthetisierer 16 zu speichern. Um das Schicht A Bild aus der Rahmenspeicherbank 324 auszulesen, werden Schalter 80, 81 und 82 deshalb auf die Terminals 83a, 84a bzw. 85a geschaltet. Das Bild für Schicht A kann also ausgegeben und dekodiert und kann oben auf die Schicht B und C Bilder zur Anzeige gelegt werden.
Dieser Prozess wird dann für den nächsten Rahmen wiederholt. Es wird bemerkt, dass, obwohl die vorliegende Erfindung unter Verwendung von drei Schichten beschrieben wurde, der im Wesentlichen gleiche Prozess auf jede beliebige Anzahl von Bildschichten angewendet werden kann. Es wird weiter bemerkt, dass die Anzahl der Rahmenspeichereinheiten in der Rahmenspeicherbank 324 des Decoders 12 mit der Anzahl der Bildschichten korrespondieren muss.
Wenn die Bilddaten unter Verwendung eines in 12A gezeigten Formates kodiert werden, muss der vom Bildsynthetisierer 16 ausgeführte Prozess modifiziert werden. Genauer, die Schichten, die im Rahmenspeicher FM1 22 gespeichert sind, sind die Bilder, die oben auf die im Rahmenspeicher FM0 14 gespeicherten Bilder gelegt werden, weil das Bild ausgehend von der Vordergrundschicht multiplext wird. Der Bildsynthetisierer 16 vergleicht wieder die von Rahmenspeicher FM0 14 eingegebenen Pixel mit korrespondierenden Pixeln in der gleichen Position im Bild, die aus dem Rahmenspeicher FM1 22 eingegeben werden. In diesem Fall jedoch wird der Pixel vom Rahmenspeicher FM1 22 ausgegeben, wenn der Pixelwert in dem Bild aus dem Rahmenspeicher FM1 22 kein bestimmter Wert ist (Null in diesem Fall); wenn der Pixelwert in dem Bild vom Rahmenspeicher FM1 22 ein besonderer Wert ist (Null in diesem Beispiel), wird der Pixel aus dem Rahmenspeicher FM0 14 ausgegeben. Also kann die zuletzt empfangene Schicht korrekt unter der zuerst empfangenen Schicht platziert werden.
13 zeigt ein Blockdiagramm einer zweiten Ausführungsform einer Digitalbilddekodierungs- und Synthetisierungsvorrichtung gemäß der vorliegenden Erfindung. Diese Ausführungsform ist im Wesentlichen identisch zu der in 11 gezeigten. Was sich unterscheidet ist, dass ein Schalter 26 zwischen dem Eingabeterminal C und dem Decoder 12 angeordnet ist und ein Anzeigeselektor 25 hinzugefügt ist.
Der Schalter 26 wird durch die Prozesssteuerung 24 über eine Leitung 113 gesteuert. Wenn die Bilddekodierungs- und Synthetisierungsvorrichtung keine besondere Schicht reproduziert und anzeigt, wird der Schalter 26 geöffnet und somit die Signalleitung zwischen dem Eingabeterminal C und dem Decoder 12 unterbrochen. Die Prozesssteuerung 24 kann den Schalter 26 steuern, um zu verhindern, dass eine bestimmte Schicht verarbeitet wird, wenn nicht genügend Verarbeitungskapazität zur Verfügung steht, indem die zur Verfügung stehende Arbeitskapazität der Vorrichtung ausgewertet wird. Indem der Anzeigeselektor 25 verwendet wird, ist es für den Benutzer auch möglich, den Betrieb des Schalters 26 zu steuern, um nur eine bestimmte Schicht zu reproduzieren und anzuzeigen.
Der Anzeigeselektor 25 kann ein Keyboard, eine Maus oder eine andere Schnittstellenvorrichtung sein. Um die Hintergrundschicht (Schicht C in 2) nicht anzuzeigen, wird z.B. das korrespondierende Schichtsynchronisationssignal vom Schichtsynchronisationssignaldetektor detektiert (in den Figuren nicht gezeigt) und der Schalter 26 wird gesteuert, sich zu öffnen, wenn das Synchronisationssignal für Schicht C detektiert wird, dadurch wird verhindert, dass Schicht C verarbeitet wird.
14 zeigt ein Blockdiagramm einer dritten Ausführungsform einer Digitalbilddekodierungs- und Synthetisierungsvorrichung gemäß der vorliegenden Erfdinung. Diese Ausführungsform ist im Wesentlichen identisch zu der in 13 gezeigten. Was sich unterscheidet ist, dass ein weiterer Schalter 34 zwischen dem Bildsynthetisierer 16 und dem Rahmenspeicher FM1 22 eingefügt ist und ein Schalter 30 zwischen dem Bildsynthetisierer 16 und dem Anzeigespeicher 18 eingefügt ist. Beide von diesen Schaltern 34 und 30 werden von der Prozesssteuerung 24 gesteuert und können vom Benutzer unter Verwendung des Anzeigeselektors 25 interaktiv gesteuert werden.
Wenn die im Rahmenspeicher FM1 22 gespeicherte Daten nicht aktualisiert werden sollen, öffnet die Prozesssteuerung 24 den Schalter 34, um den Bildsynthetisierer 16 von Rahmenspeicher FM1 22 zu trennen. Gleichermaßen wird, wenn die Bildsynthetisierungsausgabe nicht angezeigt werden soll, der zugehörige Schalter 30 geöffnet, um den Bildsynthetisierer 16 vom Anzeigespeicher 18 zu trennen.
Dieser Prozess wird unten für den Fall beschrieben, in welchem mit Schicht A (Vordergrund), B (Mittelschicht) und C (Hintergrund) multiplexte Bilddaten eingegeben und reproduziert werden und angezeigt werden für eine Zeitperiode, weil die drei Schalter 26, 30 und 34 geschlossen sind. Der Benutzer steuert den Anzeigeselektor 25, um die Schicht B in den Vordergrund zu bringen, während die Anzeige der Schichten A und B eingefroren ist.
18 zeigt eine Tabelle, die die verschiedenen Positionen jedes einzelnen Schalters und die zugehörige Änderung im Inhalt des Feedbackrahmenspeichers FM1 22 und des Anzeigespeicher 18 für den Fall anzeigt, in welchem die kodierten Daten ausgehend von der Vordergrundschicht eingegeben werden, d.h. in der Folge: C1, B1, A1, C2, B2, A2 ... eingegeben und dekodiert werden. Es wird bemerkt, dass in 18 EIN eine geschlossene Schalterposition darstellt (unterbrechungsloser Stromverlauf besteht) und AUS eine offene Schalterposition repräsentiert (unterbrechungsloser Stromverlauf besteht nicht). Es wird angenommen, dass das Anzeigeselektionssignal durch den Anzeigeselektor 25 am Beginn des Rahmens 2 eingegeben wird.
Sowohl Schalter 26 als auch Schalter 34 sind geschlossen, wenn Rahmen 1 eingegeben wird, wodurch der Inhalt der Rahmenspeicher FM1 22 stetig aktualisiert sein kann und woraus ein synthetisiertes Bild der Schichten A1 + A2 + C1 resultiert. Schalter 30 ist geöffnet, bis das synthetisierte Bild der Schichten A1 + B1 + C1 ausgegeben ist, zu welcher Zeit Schalter 30 schließt, um das Bild, das Schichten A0 + B0 + C0 umfasst, zu aktualisieren, die im Anzeigespeicher 18 gespeichert sind, um zu dem Bild, das die Schichten A1 + B1 + C1 umfasst, aktualisiert zu werden. Das Bild aus Rahmen 1 bleibt während der Periode für Rahmen 2 angezeigt, weil das erforderliche Bild (Rahmen 2 Bild) immer noch in Bearbeitung ist. Im Ergebnis bleibt der Schalter 30 geöffnet und der Anzeigespeicher 30 speichert das Rahmen-1-Bild weiter.
Um ein Bild aus den Schichten C2 und A2 zu synthetisieren, bleiben die Schalter 26 und 35, während die Schichten C2 und A2 eingegeben werden, geschlossen, aber werden geöffnet, wenn Schicht B2 eingegeben wird. Genauer, Schalter 26 und 34 werden geschlossen, wenn Schicht C2 eingegeben wird, geöffnet, wenn Schicht B2 eingegeben wird und wieder geschlossen, wenn Schicht A2 eingegeben wird. Im Ergebnis werden nur Schichten C2 und A2 in den Rahmenspeicher FM1 22 eingeschrieben. Schalter 34 wird dann geöffnet, so dass Rahmenspeicher FM1 22 nicht aktualisiert wird und das aus den Schichten A2 + C2 synthetisierte Bild hält.
Wenn Rahmen 3 und folgende Rahmen eingegeben werden, sind Schalter 26 und 34 nur während der Periode für Schicht B (B3, B4,...) geschlossen (ON), dadurch ist es möglich, Schicht B zu dekodieren, rekonstruieren, synthetisieren und anzuzeigen mit dem synthetisierten Bild der Schichten A2 + C2 nach Zwischenspeicherung im Anzeigespeicher 18. Es ist also möglich, Schicht B im Vordergrund anzuzeigen, während die Anzeige der anderen Schichten in einem Ruhemodus eingefroren ist.
15 ist ein Blockdiagramm einer vierten Ausführungsform einer Digitalbilddekodierungs- und Synthetisierungsvorrichtung gemäß der vorliegenden Erfindung. Diese Ausführungsform ist im Wesentlichen identisch zu der in 14 gezeigten. Was sich unterscheidet ist, dass ein anderer Rahmenspeicher FM2 23 zur Ergänzung des Rahmenspeichers FM1 22 hinzugefügt ist, und Schalter 34 und 31 zur Auswahl der Eingabe und Ausgabe dieser beiden Rahmenspeichereinheiten vorgesehen sind. Ein anderer Schalter 38 ist auch vorgesehen, um die Eingabe auf den Bildsynthetisierer 16 zwischen dem Rahmenspeicher FM0 14 und Rahmenspeicher FM2 23 zu schalten. Diese Schalter werden von der Prozesssteuerung 24 gesteuert und können vom Benutzer unter Verwendung des Anzeigeselektors 25 interaktiv gesteuert werden.
Diese Ausführungsform wird unten unter Bezugnahme auf eine Tabelle in 19 beschrieben. Wie in der Tabelle in 18 repräsentiert EIN eine geschlossene Schalterposition (unterbrechungsloser Stromlauf existiert) und AUS repräsentiert eine offene Schalterstellung (unterbrechungsloser Stromlauf existiert nicht). Zusätzlich repräsentiert "P" einen Terminal (Schalterpol). so dass "P40", in der Leitung für Schalter 38 dargestellt, bedeutet, dass Schalter 38 mit dem Terminal (Pol 40) verbunden ist (unterbrechungsloser Stromlauf existiert über Schalter 38 zum Terminal 40).
Es wird angenommen, dass Rahmen 1 normalerweise dekodiert und synthetisiert wird, d.h. Schicht B1 liegt über Schicht C1 und Schicht A1 über Schicht B1. Das zu erreichen, ist Schalter 26 geschlossen und Schalter 38, 34 bzw. 31 sind mit Terminals 40, 29 bzw. 35 verbunden. Schalter 30 schließt, nachdem das synthetisierte Bild der Schichten A1 + B1 + C1 gewonnen ist, um das synthetisierte Bild durch den Anzeigespeicher 18 an die Ausgabevorrichtung 20 auszugeben.
Ein Anzeigeselektionssignal, das anweist, Schicht B im Vordergrund anzuzeigen, während die anderen Schichten auch aufgefrischt und angezeigt werden, wird dann aus dem Anzeigeselektor 25 am Beginn des Rahmens 2 eingegeben. Weil jede Schicht reproduziert und angezeigt werden muss, bleibt Schalter 26 geschlossen. Beide Rahmenspeicher FM1 22 und FM2 23 werden auf einen besonderen Wert am Beginn von Rahmen 1 gesetzt.
Schicht C2 wird dann dekodiert und über Schalter 38 aus dem Rahmenspeicher FM0 14 an den Bildsynthetisierer 16 ausgegeben. Die Ausgabe vom Bildsynthetisierer 16 wird durch die Schalter 34 zur Speicherung im Rahmenspeicher FM1 22 geführt.
Schicht B2 wird dann dekodiert und durch Schalter 36 vom Rahmenspeicher FM0 14 an den Bildsynthetisierer 16 ausgegeben, dadurch mit dem Bild kombiniert, das im Rahmenspeicher FM2 23 gehalten wird (welches vorher auf einen besonderen Wert gesetzt wurde), dann durch Schalter 34 zur Speicherung in Rahmenspeicher FM2 23 geführt.
Dann wird Schicht A auf gleiche Weise dekodiert, aber mit dem Schicht C2 Bild, das im Rahmenspeicher FM1 22 gespeichert ist, synthetisiert. Der Auswahlschalter 31 wird deshalb auf den Terminal 35 geschaltet und das synthetisierte Bild wird durch den Schalter 34 zur Speicherung im Rahmenspeicher FM1 22 geführt. Im Ergebnis wird das synthetisierte Bild A2 + C2 im Rahmenspeicher FM1 22 gespeichert und das Schicht B2 Bild im Rahmenspeicher FM2 23 gespeichert. Schalter 38 und 31 werden dann auf die Terminals 39 bzw. 35 geschaltet, um Schicht B2 mit den Schichten A2 + C2 für die Anzeige zu synthetisieren. Indem der Prozess für jede Schicht in den folgenden Rahmen wiederholt wird, kann ein Film gewonnen werden, in dem Schicht B im Vordergrund angezeigt wird.
Während sich die obige Beschreibung insbesondere auf kodierte Daten bezieht, die in Folge von der Hintergrundschicht aus multiplext sind, kann das im Wesentlichen gleiche Verfahren zur Bearbeitung kodierter Daten, die in Folge von der Vordergrundschicht aus, multiplext sind, verwendet werden.
16 ist ein Blockdiagramm einer fünften Ausführungsform einer Digitalbilddekodierungs- und Synthetisierungsvorrichtung gemäß der vorliegenden Erfindung. Diese Ausführungsform ist im Wesentlichen identisch zu der in 11 gezeigten. Was sich unterscheidet ist, dass ein anderer Rahmenspeicher FM3 42 zum Dekodieren und Synthetisieren kodierter Daten, die ein Übertragungssignal enthalten, hinzugefügt ist. Im unten genannten Beispiel werden die kodierten Daten, die kodiert und synthetisiert werden sollen, in Folge von der Vordergrundschicht aus wie in 12C gezeigt, multiplext. Die Basisoperation ist unter Bezugnahme auf 11 oben beschrieben, ausgenommen, dass die Helligkeits- und Durchlässigkeitssignale der rekonstruierten Bilder in jeder Schicht im Rahmenspeicher FM0 14 bzw. im Rahmenspeicher FM3 42 gespeichert sind und dann mit dem synthetisierten Bild, das vom Feedbackrahmenspeicher FM1 22 zur Verfügung gestellt wird, gemischt werden.
Indem das im Rahmenspeicher FM3 42 gespeicherte Durchlässigkeitssignal verwendet wird, mischt der Bildsynthetisierer 16 das Bild in dem Rahmenspeicher FM0 14 mit dem Bild im Rahmenspeicher FM1 22. Wenn x0 der Pixelwert aus dem Rahmenspeicher FM0 14 ist, x1 der Pixelwert aus dem Rahmenspeicher FM1 22 ist und α der Wert aus dem Rahmenspeicher FM3 42 ist, ist ein undurchlässiges Objekt präsent und der Hintergrund kann nicht gesehen werden, wenn α 100% ist; wenn α 0% ist, ist kein Objekt anwesend und der Hintergrund wird durch die anderen Schichten hindurch angezeigt. Der synthetisierte Pixelwert y kann also aus der Gleichung y = α·x0 + (1 – α)·x1gewonnen werden.
Es ist also möglich, dass nach den anderen Schichten empfangene Vordergrundbild über die anderen Schichten zu platzieren und wenn α zwischen 0% und 100% ist, die Durchlässigkeit der zugehörigen Objekte angemessen anzupassen. Es muss bemerkt werden, dass eine selektive Anzeigemöglichkeit in der in 16 gezeigten Vorrichtung zur Verfügung gestellt werden kann, indem Schalter und Rahmenspeicher, wie in den 13, 14 und 15 gezeigt, und oben beschrieben wurden, hinzugefügt werden.
17A ist ein Blockdiagramm einer sechsten Ausführungsform eines Digitalbilddekodierungs- und Synthetisierungsapparates gemäß der vorliegenden Erfindung. 17A ist eine Digitalbilddekodierungs- und Synthetisierungsvorrichtung zum Dekodieren und Synthetisieren kodierter Daten, die ein Durchlässigkeitssignal wie oben unter Bezugnahme auf die 16 beschrieben, enthalten. In diesem Fall jedoch werden die kodierten Daten, die dekodiert und synthetisiert werden sollen, in einer Folge von der Vordergrundschicht aus wie in 12A gezeigt, multiplext. Ein Bildsynthetisierer 46 zum Synthetisieren der Durchlässigkeitssignale, die im Rahmenspeicher FM3 42 gespeichert sind und ein zusätzlicher Rahmenspeicher FM4 44 zum Speichern des Ergebnisses einer Durchlässigkeitssignalsynthese werden auch zur Verfügung gestellt.
Der Basisprozess, der von dieser Vorrichtung ausgeführt wird, ist derselbe wie der oben unter Bezugnahme auf 16 beschriebene, ausgenommen, dass die vom Bildsynthetisierer 16 und 46 ausgeführten Prozesse verändert sind, weil die Bilder in einer Folge von der Vordergrundschicht aus dekodiert werden.
Die Helligkeits- und Durchlässigkeitssignale für Schicht A werden zuerst dekodiert und im Rahmenspeicher FM0 14 bzw. Rahmenspeicher FM3 42 gespeichert. Schicht A wird nicht synthetisiert, weil sie die erste Schicht im Rahmen ist und die Helligkeits- und Durchlässigkeitssignale deshalb im Rahmenspeicher FM1 22 und Rahmenspeicher FM4 44 gespeichert sind. Ein Durchlässigkeitssignal A' wie 17B gezeigt wird im Rahmenspeicher FM4 44 gespeichert.
Schicht B wird dann dekodiert und die Helligkeits- und Durchläsigkeitssignale werden im Rahmenspeicher FM0 14 und Rahmenspeicher FM3 42 gespeichert. Indem das im Rahmenspeicher FM4 44 gespeicherte Durchlässigkeitssignal (Bild 1004) verwendet wird, kombiniert der Bildsynthetisierer 16 die Helligkeitssignale vom Rahmenspeicher FM0 14 und Rahmenspeicher FM1 22. Wenn x0 der Pixelwert aus dem Rahmenspeicher FM0 14 ist, ist x1 der Pixelwert aus dem Rahmenspeicher FM1 22 und α der Wert aus dem Rahmenspeicher FM4 44, x1 wird über x0 angeordnet und der Ausgabepixel y aus dem Bildsynthetisierer 16 kann aus der Gleichung y = α·x1 + (1 – α)·x0 gewonnen werden.
Das Durchlässigkeitssignal B' 1005 (17B) ist im Rahmenspeicher FM 342 gespeichert und wird mit dem Durchlässigkeitssignal 1004 aus dem Rahmenspeicher FM4 44 dem Bildsynthetisierer 46 gemischt. Die Durchlässigkeitssignale von den beiden Rahmenspeichern FM3 42 und FM4 44 werden vorzugsweise verglichen und das Signal mit dem höheren Signalwert wird ausgegeben. Die so synthetisierten Durchlässigkeitssignale werden als Bilder D' 1006 in 17B gezeigt.
Die Helligkeits- und Durchlässigkeitssignale für die Schicht C werden als nächstes dekodiert und mit Schichten A und B wie oben beschrieben gemischt.
Es muss bemerkt werden, dass eine Auswahlanzeigemöglichkeit in der in 17B gezeigten Vorrichtung zur Verfügung gestellt werden kann, indem Schalter und Rahmenspeicher wie in den 13, 14 und 15 gezeigt und oben beschriebenen hinzugefügt werden.

Claims

Verfahren zur prädiktiven Bildkodierung zum Kodieren eines Zielbildes durch Erzielen eines Vorhersagebildes von einem Referenzbild, welches ein Objektbild aufweist, mit einem Helligkeitssignal, welches einen Pixelwert angibt, und einem Gestaltsignal, welches angibt, ob ein Pixel innerhalb oder außerhalb des Objektbildes angeordnet ist, wobei das Verfahren durch folgende Schritte gekennzeichnet ist: Teilen des Zielbildes (1000) und des Vorhersagebildes in eine Vielzahl von Zieluntergebieten (2122) und Vorhersagegebieten; Bestimmen einer Übereinstimmung zwischen Zieluntergebieten (2116) und Vorhersageuntergebieten (2118); Erzielen eines berechneten Ersatzpixelwertes für ein Pixel, welches außerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in dem Untergebiet des Vorhersagebildes durch Berechnen des berechneten Ersatzpixelwertes auf der Basis eines Pixels, welches innerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in dem Untergebiet des Vorhersagebildes; Generieren eines aufgefüllten Vorhersageuntergebietes (2124) durch Auffüllen des Pixels, welches außerhalb des Objektbildes angeordnet ist, mit dem berechneten Ersatzpixelwert; Generieren eines aufgefüllten Zieluntergebietes (2122) durch Auffüllen eines Pixels, welches außerhalb eines Objektbildes in dem entsprechenden Zieluntergebiet angeordnet ist, mit dem berechneten Ersatzpixelwert; und Erzielen und Kodieren einer Pixelwertdifferenz zwischen dem aufgefüllten Zieluntergebiet und dem aufgefüllten Vorhersageuntergebiet.
Verfahren zur prädiktiven Bildkodierung nach Anspruch 1, wobei der berechnete Ersatzpixelwert ein Durchschnitt von Pixelwerten von Pixeln ist, die innerhalb des Objektbildes angeordnet sind, welches gemäß dem Gestaltsignal bestimmt ist.
Verfahren zur prädiktiven Bilddekodierung zum Dekodieren von eingegebenen kodierten Daten (1010, 1011, 1012, 1013), um ein dekodiertes Bild durch Bezugnehmen auf ein Vorhersagebild zu erzielen, welches von einem Referenzbild erzielt ist, welches ein Objektbild aufweist, mit einem Helligkeitssignal, welches einen Pixelwert angibt, und einem Gestaltsignal, welches angibt, ob ein Pixel innerhalb oder außerhalb des Objektbildes angeordnet ist, wobei das Verfahren durch folgende Schritte gekennzeichnet ist: Definieren von Zieluntergebieten für ein zu dekodierendes Zielbild; Erzielen einer Übereinstimmung zwischen einem Zieluntergebiet und dem Vorhersagebild von den angegebenen kodierten Daten; Bestimmen eines Vorhersageuntergebietes durch Bezugnehmen auf die Übereinstimmung; Erzielen eines berechneten Ersatzpixelwertes für ein Pixel, welches außerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in dem Untergebiet des Vorhersagebildes; Durch Berechnen des berechneten Ersatzpixelwertes auf der Basis eines Pixels, welches innerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in dem Untergebiet des Vorhersagebildes; Generieren eines aufgefüllten Vorhersageuntergebietes durch Auffüllen des Pixels, welches außerhalb des Objektbildes angeordnet ist, mit dem berechneten Ersatzpixelwert; Dekodieren der eingegebenen kodierten Daten, um dekodierte Differenzdaten zu erzielen; und Addieren der dekodierten Differenzdaten und dem aufgefüllten Vorhersageuntergebiet, um das dekodierte Bild zu generieren.
Verfahren zur prädiktiven Bilddekodierung nach Anspruch 3, wobei der berechnete Ersatzpixelwert ein Durchschnitt von Pixelwerten von Pixeln ist, die innerhalb des Objektbildes angeordnet sind, welches gemäß dem Gestaltsignal bestimmt ist.
Vorrichtung zur prädiktiven Bildkodierung zum Kodieren eines Zielbildes durch Erzielen eines Vorhersagebildes von einem Referenzbild, wel ches ein Objektbild aufweist, mit einem Helligkeitssignal, welches einen Pixelwert angibt, und einem Gestaltsignal, welches angibt, ob ein Pixel innerhalb oder außerhalb des Objektbildes angeordnet ist, wobei die Vorrichtung gekennzeichnet ist durch: Eine Vorrichtung (341), die im Betrieb geeignet ist, das Zielbild in eine Vielzahl von Zieluntergebieten zu teilen; Eine Vorrichtung (335), die im Betrieb geeignet ist, das Vorhersagebild in eine Vielzahl von Vorhersageuntergebieten zu teilen; Eine Vorrichtung (344), die im Betrieb geeignet ist, eine Übereinstimmung zwischen Zieluntergebieten (2116) und Vorhersageuntergebieten (2118) zu bestimmen; Eine Vorrichtung (329), die im Betrieb geeignet ist, einen berechneten Ersatzpixelwert für ein Pixel zu erzielen, welches außerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in einem Untergebiet des Vorhersagebildes; und den berechneten Ersatzpixelwert auf der Basis eines Pixels zu berechnen, welches innerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in dem Untergebiet des Vorhersagebildes; Eine Vorrichtung (339), die im Betrieb geeignet ist, ein aufgefülltes Vorhersageuntergebiet (2124) durch Auffüllen des Pixels, welches außerhalb des Objektbildes angeordnet ist, mit dem berechneten Ersatzpixelwert zu generieren; Eine Vorrichtung (343), die im Betrieb geeignet ist, ein aufgefülltes Zieluntergebiet (2122) durch Auffüllen eines Pixels, welches außerhalb eines Objektbildes in dem entsprechenden Zieluntergebiet angeordnet ist, mit dem berechneten Ersatzpixelwert zu generieren; Eine Vorrichtung (332), die im Betrieb geeignet ist, eine Pixelwertdifferenz zwischen dem aufgefüllten Zieluntergebiet und dem aufgefüllten Vorhersageuntergebiet zu erzielen und zu kodieren.
Vorrichtung zur prädiktiven Bildkodierung nach Anspruch 5, wobei der berechnete Ersatzpixelwert ein Durchschnitt von Pixelwerten von Pixeln ist, die innerhalb des Objektbildes angeordnet sind, welches gemäß dem Gestaltsignal bestimmt ist.
Vorrichtung zur prädiktiven Bilddekodierung zum Dekodieren von eingegebenen kodierten Daten, um ein dekodiertes Bild durch Bezugnehmen auf ein Vorhersagebild zu erzielen, welches von einem Referenzbild erzielt ist, welches ein Objektbild aufweist, mit einem Helligkeitssignal, welches einen Pixelwert angibt, und einem Gestaltsignal, welches angibt, ob ein Pixel innerhalb oder außerhalb des Objektbildes angeordnet ist, wobei die Vorrichtung gekennzeichnet ist durch: Eine Vorrichtung (11, 24), die im Betrieb geeignet ist, Zieluntergebiete für ein zu dekodierendes Zielbild zu definieren; Eine Vorrichtung (21, 24), die im Betrieb geeignet ist, eine Übereinstimmung zwischen einem Zieluntergebiet und dem Vorhersagebild von den eingegebenen kodierten Daten zu erzielen; Eine Vorrichtung (21, 24), die im Betrieb geeignet ist, ein Untergebiet des Vorhersagebildes durch Bezugnehmen auf die Übereinstimmung zu bestimmen; Eine Vorrichtung (321), die im Betrieb geeignet ist, einen berechneten Ersatzpixelwert für ein Pixel zu erzielen, welches außerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in einem Untergebiet des Vorhersagebildes; und den berechneten Ersatzpixelwert auf der Basis eines Pixel zu berechnen, welches innerhalb des Objektbildes angeordnet ist, welches gemäß dem Gestaltsignal bestimmt ist, in dem Untergebiet des Vorhersagebildes; Eine Vorrichtung (319), die im Betrieb geeignet ist, ein aufgefülltes Vorhersageuntergebiet durch Auffüllen des Pixels, welches außerhalb des Objektbildes angeordnet ist, mit dem berechneten Ersatzpixelwert zu generieren; Eine Vorrichtung (13, 15), die im Betrieb geeignet ist, die eingegebenen kodierten Daten zu dekodieren, um dekodierte Differenzdaten zu erzielen; und Eine Vorrichtung (17), die im Betrieb geeignet ist, die dekodierten Differenzdaten und das aufgefüllte Vorhersageuntergebiet zu addieren, um das dekodierte Bild zu generieren.
Vorrichtung zur prädiktiven Bilddekodierung nach Anspruch 7, wobei der berechnete Ersatzpixelwert ein Durchschnitt von Pixelwerten von Pixeln ist, die innerhalb des Objektbildes angeordnet sind, welches gemäß dem Gestaltsignal bestimmt ist.
Verfahren zur prädiktiven Bildkodierung zum Kodieren eines Zielbildes durch Erzielen eines Vorhersagebildes von einem Referenzbild, welches ein Objektbild aufweist, mit einem Helligkeitssignal, welches einen Pixelwert angibt, und einem Gestaltsignal, welches angibt, ob ein Pixel innerhalb oder außerhalb des Objektbildes angeordnet ist, wobei das Verfahren durch folgende Schritte gekennzeichnet ist: Teilen des Zielbildes (1000) und des Vorhersagebildes in eine Vielzahl von Zieluntergebieten und Vorhersageuntergebieten; Bestimmen einer Übereinstimmung zwischen Zieluntergebieten (2116) und Vorhersageuntergebieten (2118); Bestimmen, gemäß dem Gestaltsignal, ob jedes Pixel, das in einem Untergebiet des Vorhersagebildes enthalten ist, ein inneres Pixel, das innerhalb des Objektbildes angeordnet ist, oder ein äußeres Pixel ist, das außerhalb des Objektbildes angeordnet ist, wobei das Untergebiet des Vorhersagebildes sowohl das äußere Pixel als auch das innere Pixel aufweist; Erzielen eines berechneten Ersatzpixelwertes für ein Pixel, welches außerhalb des Objektbildes angeordnet ist, durch Berechnen des berechneten Ersatzpixelwertes auf der Basis eines Pixels, welches innerhalb des Objektbildes angeordnet ist; Generieren eines aufgefüllten Vorhersageuntergebietes (2124) durch Auffüllen des Pixels, welches außerhalb des Objektbildes angeordnet ist, mit dem berechneten Ersatzpixelwert; Generieren eines aufgefüllten Zieluntergebietes (2122) durch Auffüllen eines Pixels, welches außerhalb eines Objektbildes in dem entsprechenden Zieluntergebiet angeordnet ist, mit dem berechneten Ersatzpixelwert; und Erzielen und Kodieren einer Pixelwertdifferenz zwischen dem aufgefüllten Zieluntergebiet und dem aufgefüllten Vorhersageuntergebiet.