DE69533870T2

DE69533870T2 - Vorrichtung zur Bilddekodierung

Info

Publication number: DE69533870T2
Application number: DE69533870T
Authority: DE
Inventors: Minoru Katano-Shi Etoh
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 1994-10-19
Filing date: 1995-10-19
Publication date: 2005-05-25
Anticipated expiration: 2015-10-20
Also published as: KR960016581A; EP0708563A3; KR100365555B1; EP0708563B1; EP0708563A2; US5768438A; USRE37668E1; DE69533870D1

Description

Die vorliegende Erfindung betrifft Bilddecodierverfahren, die zum Decodieren von Bildern, im Besonderen von Bereichsbildern, die den Besetzungsbereich eines projektiven Bildes einer Substanz zeigen, verfügbar sind, und Vorrichtungen davon.
Herkömmlicherweise sind, wenn Bilder durch Rechnergrafik und Ähnliches synthetisiert werden, außer der Luminanz der Substanz Informationen zu der Opazität (Transparenz) einer Substanz, die als „α-Wert" bezeichnet wird, erforderlich.
Der α-Wert wird für jeden Bildpunkt bestimmt und der α-Wert 1 bedeutet Nichtopazität und der α-Wert 0 bedeutet vollständige Opazität. Wenn nämlich ein Bild einer bestimmten Substanz in den Hintergrund eingebettet wird, ist ein Bild mit dem α-Wert notwendig. Nachfolgend werden hier die Bilder mit solchen α-Werten als „α-Ebene" bezeichnet. Gelegentlich besitzt der α-Wert bei Substanzen wie Wolken, Mattglas und Ähnlichem einen Zwischenwert [0, 1], aber bei vielen Substanzen neigt er dazu, zwei Werte {0, 1} aufzuweisen.
Das Codieren der α-Ebene kann als direktes Aufzählen des Bildpunktwertes erfolgen, wobei jedoch, wenn die α-Ebene aus zwei Werten {0, 1} besteht, binäre Bildcodiertechniken des MH-, MR-, MMR-Codierens verwendet werden können, die der internationale Standard der CCITT sind und herkömmlicherweise für Faksimile und Ähnliches verwendet werden. Diese werden im Allgemeinen als „Lauflängencodierung" bezeichnet.
Bei der Lauflängencodierung wird die Bildpunktzahl von horizontal oder horizontal/vertikal kontinuierlicher 0 und 1 entropiecodiert, um das Codieren wirksam effizient durchzuführen.
Des Weiteren können unter Beachtung der Substanzgrenzkontur Positionsinformationen von jedem Bildpunkt, der die Kontur bildet, codiert werden. Bei der vorliegenden Spezifikation wird das Codieren der Substanzgrenzkontur als Konturcodieren bezeichnet.
Als typisches Konturcodieren kann ein Kettencodieren (beschrieben in N. Freeman: „Computer Processing of line drawing data", Computing Surveys, Bd. 6, Nr. 1, S. 57–96 (1974)) genannt werden.
Bei einem Bild mit einer simplen Kontur der Substanzgrenze kann der Wert der α-Ebene hocheffizient codiert werden, indem die Gruppe von jedem Bildpunkt, der die Kontur des Bereichs mit dem α-Wert 1 bildet, kettencodiert wird.
Berücksichtigt man die visuellen Eigenschaften, die von dem decodierten Ergebnis der α-Ebene betroffen werden, gab es bisher den Mangel, dass bei dem vorgenannten Lauflängencodierverfahren und dem Kettencodierverfahren und den Vorrichtungen davon, da das Codieren/Decodieren für jeden Bildpunkt durchgeführt wird, Muster von {0, 1} genauer codiert/decodiert werden als dies nach dem Gesichtspunkt menschlicher visueller Eigenschaften erforderlich wäre, obwohl es nicht notwendigerweise erforderlich ist, das Muster {0, 1} genau zu decodieren, wodurch ein großes codiertes Volumen erforderlich wird.
Konkret erklärt, erfolgt nämlich bei einem allgemeinen Bildsynthetisieren in der Umgebung der Grenze des zu synthetisierenden Bildes eine Verarbeitung, um das Bild mit dem Farbwert des Hintergrundbildes zu mischen, die als „Anti-Aliasing (Randglättung)" bezeichnet wird. Dies entspricht dem Glätten des α-Wertes in der Umgebung der Substanzgrenze unter äquivalenter Berücksichtigung des α-Wertes als Grauskalen von [0, 1]. In dem Bild, wie der α-Ebene, ist die Raumauflösung nämlich nicht so notwendig. Stattdessen wird die Amplitudenauflösung in der Umgebung der Substanzgrenze erforderlich.
Bei dem herkömmlichen Lauflängencodieren und Kettencodieren gab es bisher ein Problem, dass, da diese umkehrbar Codierung sind, die Raumauflösung aus dem Gesichtspunkt visueller Eigenschaften mehr als notwendig ist, wodurch ein großes codiertes Volumen erforderlich wird.
J. Wang und E. Adelson beschreiben in „Representing Moving Images with Layers" in IEEE Transactions on Image Processing, September 1994, auf den Seiten 625 bis 637, das Darstellen von Bewegtbildern durch überlappende Schichten. Jede Schicht umfasst eine Intensitätsabbildung, eine Alphaabbildung und eine Geschwindigkeitsabbildung. Die Intensitätsabbildung definiert einen Intensitätswert an jedem Bildpunkt einer Schicht, die Alphaabbildung zeigt die Transparenz an jedem Punkt an und die Geschwindigkeitsabbildung beschreibt, wie die Abbildung im Verlauf der Zeit verwölbt werden soll. Die geschichtete Zusammensetzung einer Bildfolge kann zur Bildkomprimierung durch separates Codieren der Daten der Abbildungen verwendet werden. Wang u. a. beschreiben das Verwenden eines JPEG-Codierers zum Codieren der Intensitätsdaten. Die Alphadaten werden unter Verwendung eines Kettencodes codiert. Die Bewegungsparameter werden ohne Komprimierung gesendet.
Musmann u. a. beschreiben in „Object-Oriented Analysis-Synthesis Coding Of Moving Images" in Signal Processing: Image Communication, Bd. 1, Januar 1989, einen objektorientierten Codierer. Jedes zu codierende Bildobjekt eines Bildes wird durch drei Parametersätze beschrieben, die Bewegungs-, Form- bzw. Farbinformationen des zu codierenden Objekts definieren. Der Bewegungsparameter umfasst eine Einzelbild-zu-Einzelbild-Verschiebung des Objekts. Der Formparameter beschreibt die Form des Objekts durch Zwei-Ebenen-Bilddaten und der Farbparameter entspricht den Luminanz- und Farbinformationen von jedem Bildelement des Objekts. Bewegungsparameter werden unter Verwendung einer DPCM-Technik codiert. Die Formparameter eines Objekts werden in Abhängigkeit von der Größe des Objekts durch einen Konturcodieralgorithmus in Verbindung mit prädiktivem Codieren codiert. Farbinformationen werden basierend auf einem Hybridcodierschema unter Verbindung von Bewegungskompensationsvorhersage und Intra-Frame-Codierung komprimiert.
Des Weiteren wurde bisher von J. Wang und E. Adelson herkömmlicherweise ein Verfahren vorgelegt, um dynamische Bilder durch Auflösung des dynamischen Bildes zu Schichtbild, wie in 21 gezeigt, zu codieren, um Opazität und Aufzeichnung des dynamischen Bildes effizient durchzuführen.
Edward H. Adelson beschreibt in „Layered representation for image coding", Technical Report 181, MIT Media Lab., 1991, die Verwendung von mehreren Schichten zum Codieren von Bildfolgen. Jede Schicht umfasst eine Anzahl von Abbildungen, im Besonderen eine Intensitätsabbildung, eine Deltaabbildung, eine Geschwindigkeitsabbildung und eine Dämpfungsabbildung. Jede dieser in den Schichten verwendeten Abbildungen kann unter Verwendung von Standard-Bildcodiertechniken, wie Transformationscodierung oder Schmalbandcodierung, komprimiert werden.
Nach den Schriften „Layered Representation for Image Sequence Coding" von J. Wang und E. Adelson, Proc. IEEE Int. Conf. Acoustic Speech Signal Processing '93, S. V221–V224, 1993, und „Layered Representation for Motion Analysis" von J. Wang und E. Adelson, Proc. Computer Vision and Pattern Recognition, S. 361–366, 1993, in denen dieses Verfahren offenbart wird, werden die nachfolgend beschriebenen Bildverarbeitungen von (1) bis (3) durchgeführt:

(1) Ein Bereich, der von demselben Bewegungsparameter (in dem herkömmlichen Fall Affinitätstransformationsparameter) beschrieben wird, wird von den dynamischen Bildern extrahiert.
(2) Ein Schichtbild wird durch Überlagerung desselben Bewegungsbereichs geformt. Jedes Schichtbild wird durch die Opazität und Luminanz für jeden Bildpunkt ausgedrückt und zeigt die Besetzung des überlagerten Bereichs.
(3) Die oberen und unteren Beziehungen in der Augenrichtung zwischen Schichtbildern werden untersucht und sequentiell geordnet.

Hier hat der Affinitätstransformationsparameter die Bedeutung des in Ausdruck 1 gezeigten Koeffizienten a0–a5, wenn die horizontale/vertikale Position in dem Bild als (x, y) angenommen wird und die horizontale/vertikale Komponente des Bewegungsvektors als (u, v) angenommen wird. (u(x, y), v(x, y)) = (a0 + a1x + a2y, a3 + a4x + a5y) (1)
Es ist bekannt, dass die Bewegung des projektiven Bildes eines starren Körpers, der sich in ausreichendem Abstand zu einer Kamera befindet, durch den Affinitätstransformationsparameter genähert werden kann. Sie nutzen dies, um beim Transformieren durch die Affinitätstransformation von mehreren Arten von Schichtbildern, die aus einem Einzelbild bestehen, dynamische Bilder von mehreren zehn bis zu mehreren hundert Einzelbildern zu synthetisieren. Die für das Übertragen und Aufzeichnen dieses dynami schen Bildes erforderlichen Informationen sind nur das Bild, das die Deformationsbasis in Bezug auf jedes Schichtbild ist (hierin nachfolgend als „Schablone" bezeichnet), der Affinitätstransformationsparameter und die obere und untere Beziehung von jedem Schichtbild, weshalb die Aufzeichnung und Opazität des dynamischen Bildes mit einer sehr hohen Codiereffizienz durchgeführt werden kann. Zusätzlich wird die Schablone durch die Opazität und die Luminanz für jeden Bildpunk ausgedrückt und zeigt die Belegung des Bereichs für die Bildsynthese.
Bei dem Dynamikbildausdruck von J. Wang und E. Adelson befasst sich das projektive Bild lediglich mit der Bewegung eines starren Körpers, was durch die Affinitätstransformation beschrieben werden kann. Daher kann ihr Dynamikbildausdruck nicht den Fall bewältigen, bei dem die Bewegung des projektiven Bildes nicht durch die Affinitätstransformation beschrieben werden kann. Wenn beispielsweise eine in 31 gezeigte Person eine Bewegung eines nichtstarren Körpers vollzieht und der Abstand Kamera-Substanz klein ist und der nichtlineare Anteil von perspektivischer Transformation nicht ignoriert werden kann, kann er darauf nicht angewendet werden. Darüber hinaus besteht ihre Technik, um die Bewegung von projektivem Bild als den Affinitätstransformationsparameter zu bestimmen, aus zwei Stufen, die nachfolgend beschrieben werden:

1. Bestimmen eines lokalen Bewegungsvektors an jeweiligen Positionen auf dem Bildschirm durch ein Verfahren basierend auf dem relationalen Ausdruck des Raum-Zeit-Gradienten der Luminanz, so dass die zeitliche Änderung der Luminanz durch den Raum-Luminanz-Gradienten und das innere Produkt des Bewegungsvektors genähert werden kann (B. Lucas und T. Kanade: „An Iterative Image Registration Technique with Anaplication to Stereo Vision", Proc. Image Understanding Workshop, S. 121–130, April 1981).
2. Bestimmen des Affinitätstransformationsparameters durch Bündelung des ermittelten Bewegungsvektors.

Bei der vorgenannten Technik kann dies jedoch nicht angewendet werden, wenn es eine große Bewegung bei dem dynamischen Bild gibt, so dass der relationale Ausdruck des Raum-Zeit-Gradienten der Luminanz nicht realisiert werden kann. Des Weiteren wird bei dem zweistufigen Verfahren zur Vorhersage des Affinitätstransformationspara meters von dem ermittelten Bewegungsvektor ein großer Vorhersagefehler verursacht, wenn der Bewegungsvektor, der die Basis der Parametervorhersage ist, falsch ist. Der Bewegungsvektor ist in dem Bereich, in dem es keine Luminanzänderung gibt, oder in dem Bereich, der aus einseitig gerichteter Luminanz besteht, selbst dann, wenn es eine Luminanzänderung gibt, indefinit. Bei der vorgenannten zweistufigen Vorhersagetechnik ist für den Bewegungsvektor in diesen unsicheren Bereichen eine spezielle Verarbeitung erforderlich. Insgesamt werden die folgenden Probleme 1 und 2 nicht gelöst.
Problem 1: Effizientes Codieren von Bildern (Schablone) mit Luminanz und Opazität, die unregelmäßige Deformation aufweisen.
Problem 2: Gute Vorhersage des Affinitätstransformationsparameter.
Des Weiteren gibt es beispielsweise bei den herkömmlichen Bildcodierverfahren und den Vorrichtungen davon ein Verfahren oder eine Vorrichtung, die in CCITT Recommendation H.261 beschrieben werden. 24 ist ein Blockdiagramm, das die Struktur der Bildcodiervorrichtung und der Decodiervorrichtung basierend auf dieser H.261 zeigt, wobei die Referenzziffer 70 eine Vorhersagebild-Formeinrichtung darstellt, 71 eine Bewegungsvektorerfassungseinrichtung darstellt, 72 eine Differentialvorrichtung darstellt, 73 eine Wellenformcodiereinrichtung darstellt, 74 eine Wellenformdecodiereinrichtung darstellt, 75 einen Addierer darstellt, 76 eine Einzelbildverzögerungseinrichtung darstellt, 77 einen Haffmann-Codierer darstellt, 78 einen Haffmann-Decodierer darstellt, 79 eine Wellenformdecodiereinrichtung darstellt, 80 einen Addierer darstellt, 81 eine Einzelbildverzögerungseinrichtung darstellt und 82 eine Vorhersagebild-Formeinrichtung darstellt.
Es werden nun die Bildcodiervorrichtung und Bilddecodiervorrichtung beschrieben, die wie oben beschrieben aufgebaut sind. Zuerst erfasst die Bewegungsvektorerfassungseinrichtung (71) einen Bewegungsvektor mit einer Mindestsumme des absoluten Differentialwerts bei dem decodierten Bild des vorhergehenden Einzelbildes in Bezug auf den aus 16 × 16 Bildpunkten bestehenden Block (bezeichnet als Makroblock) des Eingabebildes. Die Vorhersagebild-Formeinrichtung (70) formt durch Eingabe dieses Bewegungsvektors und des decodierten Bildes des vorhergehenden Einzelbilds ein Vorhersagebild. Die Differentialvorrichtung (72) gibt das Differentialbild des Eingabebildes und das Vorhersagebild (hierin nachfolgend als „Vorhersagefehlerbild" oder Restdifferenz bild" bezeichnet) aus. Die Wellenformcodiereinrichtung (73) unterzieht dieses Differentialbild der diskreten Kosinustransformation DCT in Bezug auf Blöcke, die aus 8 × 8 Bildpunkten bestehen, um das Bild nach dem DCT-Koeffizienten entsprechend der Frequenz umzuwandeln, und der Haffmann-Codierer (77) unterzieht dies der Codierung variabler Länge. Um die Vorhersagebilder, die auf der Codierseite und der Decodierseite geformt werden, identisch zu machen, besitzt die Wellenformdecodiereinrichtung (75) dieselbe Struktur wie die der Wellenformdecodiereinrichtung (79) auf der Decodierseite, um die inverse diskrete Kosinustransformation (IDCT) durchzuführen und das Vorhersagefehlerbild zu rekonstruieren. Der Addierer (75) addiert dies zu dem vorliegenden Vorhersagebild hinzu, um das auf der Decodierseite rekonstruierte Bild zu formen. Dieses Bild wird durch die Einzelbildverzögerungseinrichtung (76) verzögert und zur Vorhersage des nächsten Einzelbilds verwendet. Auf der Decodierseite wird der DCT-Koeffizient durch den inversen Haffmann-Codierer (78) decodiert, wobei danach jeweilige Blöcke dieselben Bewegungen vollziehen wie diejenigen der Blöcke mit demselben Namen auf der Codierseite, wodurch das Bild rekonstruiert wird.
Wie oben beschrieben wird bei dem Codiermodus zwischen Einzelbildern der Codiervorrichtung basierend auf H.261 beim Codieren des aktuellen Einzelbildes das Vorhersagebild des vorliegenden Einzelbildes als ein bewegungskompensierendes Bild von dem Bild des vorhergehenden Einzelbildes durch das Blockkorrelationsverfahren angelegt (hierin nachfolgend wird diese Verarbeitung als „Bewegungskompensation" bezeichnet) und das Vorhersagefehlerbild dieses Bewegungskompensationsbildes und das vorliegende Einzelbild-Bild werden codiert. Bei dieser Codiervorrichtung besteht, wenn das Bewegungskompensationsbild mit dem vorhergehenden Einzelbild fehlerfrei übereinstimmt, das Volumen der zu übertragenden Informationen nur für den Bewegungsvektor, wodurch das Bild mit einem kleinen codierten Volumen übertragen werden kann. Darüber hinaus wird selbst dann, wenn es eine Bewegung bei dem dynamischen Bild gibt, sei es eine einfache Bewegung oder eine lokale Bewegung, die Differenz zwischen dem Vorhersagebild und dem Eingabebild klein, wodurch das dynamische Bild im Vergleich zu dem Fall, bei dem das Codieren innerhalb des Einzelbilds ohne Nutzung der Korrelation zwischen Einzelbildern erfolgt, mit einem kleineren codierten Volumen codiert werden kann.
Nebenbei bemerkt ist H.261 eine Spezifikation des Bildcodierverfahrens und der -vorrichtung, die für den Zweck der Übertragung des Bildes mit einem Längen- und Breitenausmaß von wenigstens 144 × 176 Bildpunkten oder so mit dem codierten Volumen von etwa 64 Kilobit/Sek. empfohlen werden. Bei dem Versuch, das Bild mit derselben Größe bei einer Codiergeschwindigkeit von etwa 20 Kilobit/Sek. zu codieren, muss der DCT-Koeffizient grob quantisiert werden. Dadurch werden das Summgeräusch, das in der Umgebung der Kante verursacht wird, weil durch den DCT-Koeffizienten keine starke Kante ausgedrückt werden kann, und das Blockgeräusch, das auf Grund der Differenz zwischen den durchschnittlichen Luminanzpegeln von DCT-Blöcken an der Blockgrenze erzeugt wird, als visuelle Störung empfunden.
Bei H.261 wird die Genauigkeit gegenüber der Bewegung der Bewegungskompensation mit der Einheit von einem Bildpunkt durchgeführt. Und bei der jüngsten dynamischen Bildcodiertechnik wird dies mit der Bewegungsgenauigkeit von ½ Bildpunkt durchgeführt. Nimmt die Bewegung einer Substanz einen ganzzahligen Wert des Bildpunkts an, stimmt das Vorhersagebild idealerweise fehlerfrei mit dem Eingabebild überein. Tatsächlich ist es aber nicht allgemein so, dass die Bewegung den ganzzahligen Wert des Bildpunkts annimmt, und selbst wenn die Genauigkeit von Bewegung erhöht wird (zum Beispiel auf eine Genauigkeit von ½ Bildpunkt oder eine Genauigkeit von ¼ Bildpunkt), wird der eingegebene Bildpunktwert durch Interpolation oder Extrapolation des Bildpunktwertes in der Umgebung davon vorhergesagt, wodurch der Vorhersagefehler selbst bei korrekter Bewegungsvorhersage in einer Impulsform in der Umgebung der Kante erzeugt wird. Dies wird in 22 gezeigt. Mit Bezug auf 22(a) bewegt sich das Eingabebild horizontal nach rechts, während es deformiert wird. Mit Bezug auf 22(b) ist das Vorhersagebild quadratisch und die Position „B" an der linken Kante wird auf Grund der Deformation falsch vorhergesagt. Im Gegensatz dazu stimmt der Abschnitt „A" an der rechten Kante ungefähr überein.
Bei dem Abschnitt „A" wird jedoch, obwohl ein visuell angemessen vorhergesagtes Bild durch die Bewegungskompensation geformt wird, ein Vorhersagefehler verursacht, der dem Restdifferenzcodieren unterzogen wird, was der Faktor wird, das codierte Gesamtvolumen groß werden zu lassen. Hier in der Zeichnung drücken (g), (h) und (i) den Luminanzpegel aus, der das Eingabebild, das Vorhersagebild und das Restdifferenzbild durch A-B schneidet. Dieses Problem kann selbst dann nicht gelöst werden, wenn die Wellenformcodiereinrichtung (73) durch andere Transformationscodiereinrichtungen, wie eine Schmalbandcodierung, ersetzt wird. Abschließend wird die Auswahl eines Abschnitts, bei dem dies selbst dann keine visuelle Verschlechterung verursacht, wenn dies kein Abschnitt ist, der eigentlich dem Restdifferenzcodieren zu unterziehen ist, zu einem Problem. Dies ist nicht auf H.261 beschränkt, sondern ist ein übliches Problem bei den Verfahren und Vorrichtungen zum Codieren des Restdifterenzbildes durch Formen von Vorhersagebild auf der Basis eines bestimmten Bildes. Bei dem Beispiel von 22 erfordert der Abschnitt „B" offensichtlich das Restdifferenzcodieren, aber bei dem Abschnitt „A" ist das Restdifferenzcodieren unter einer beschränkten Codiergeschwindigkeit nicht erforderlich.
Es ist eine Aufgabe der vorliegenden Erfindung, eine verbesserte Decodiervorrichtung bereitzustellen. Dies wird erreicht durch eine prädiktive Bilddecodiervorrichtung mit den Merkmalen von Anspruch 1.
Zunächst wird Morphologieverarbeitung beschrieben, die eine Verarbeitung von Dilatation nach Erosion umfasst. Die Morphologieverarbeitung ist eine Verarbeitung, die für eine Form von Binärbild oder eine planare Form von Dichte eines Mehrwertbildes durchgeführt wird, und dies wird ausführlich in Schrift 1 „Academic Press" (Henk J. A. M. Heijmans: Morphological Image Operators, Academic Press, Inc., 1994) und Schrift 2 „IEEE Transaction on Pattern Analysis and Machine Intelligence" (R. M. Harallick, S. R. Sternberg und X. Zhuang: Image Analysis Using Mathematical Morphology, IEEE Transaction on Pattern Analysis and Machine Intelligence, Bd. PAMMI-9, Nr. 4, S. 532–550, Juli 1987) erläutert. Hier wird die Funktion der vorliegenden Erfindung mit Bezug auf die Definition beschrieben, die in Schrift 3 von Hua-Rong JIN und Idefumi KOBATAKE: „Extraction of Microcalcifications on Mammogram Using Morphological Filter with Multiple Structuring Elements", IEICE Transaction, D2, Bd. J75-D-11, Nr. 7, S. 1170–1176, 1992–7, beschrieben wird.
Morphologieoperation
(1) Binärmorphologieoperation
Ein Binärbild, das ein zu verarbeitendes Bild ist, wird als X angenommen und ein strukturierendes Element (eine Menge eines zweidimensionalen Positionsvektors, Bereich) wird als B angenommen. Und von einem Bild, das B bildet, wird angenommen, dass es durch einen Bildpunktvektor b ausgedrückt wird. Zu diesem Zeitpunkt wird B' (' wird hier aus praktischen Gründen verwendet) als „Symmetrie von B" bezeichnet und der folgende Ausdruck wird verwirklicht: B' = {–b:b ∈ B} (101)
Des Weiteren zeigt B_z B, das sich in Translation durch z (z ist ein zweidimensionaler Vektor) bewegt und bedeutet: Bz = {b + z:b ∈ B} (102)X – b bedeutet X, das sich in Translation durch –b bewegt. Die Basis der Morphologieoperation ist Minkowski-Differenz und -Summe, die durch Symbole (–) und (+) ausgedrückt werden. Die Definition wird mit dem folgenden Ausdruck angegeben: X ⊖ B = ∩b∈BXb (103) X ⊕ B = ∪b∈BXb (104)
Die Minkowski-Differenz nennt nämlich einen Bereich (Produktmenge), der den strukturierenden Elementen gemein ist und dessen sämtliche konstituierenden Elemente in Translation durch X bewegt werden, und im Gegensatz dazu gibt die Minkowski-Summe eine Vereinigung davon an. Basierend auf dieser Basisoperation werden Erosion und Dilatation durch den folgenden Ausdruck ausgedrückt:
Erosion
X ⊖ B' = {z:Bz ⊆ X} = ∩b∈ΒX–b (105)
Dilatation
X ⊕ B' = {z:Bz⋂X ≠ 0} = ∪b∈BX–b (106)und Eröffnung und Abschluss werden wie folgt definiert:
Eröffnung
XB = X∘B = (X ⊖ B') ⊕ B (107)
Abschluss
XB = X∙B = (X ⊕ B') ⊖ B (108)
Beispiele für Dilatationsverarbeitung und Erosionsverarbeitung werden in 35 gezeigt. Die strukturierenden Elemente werden aus einem mittigen Bildpunkt und vier Umgebenden in der horizontalen und vertikalen Richtung davon gebildet.
(2) Grauskalenmorphologieoperation
Wenn angenommen wird, dass f(x) der Luminanzwert ist, F ein definierter Bereich ist, g eine Funktion von strukturierenden Elementen (Skalarwert) ist und G der definierte Bereich davon ist, wird definiert, dass:
Erosion
(f ⊖ g)(x) = min{f(x + z) – g(z)} Z ∈ G, X + Z ∈ F (109)
Dilatation
(f ⊕ g)(x) = max {f(x – z) + g(z)} Z ∈ G, X – Z ∈ F (110)
Eröffnung
(f∘g)(x) = (f ⊖ g) ⊕ g (111)
Abschluss
(f∙g)(x) = (f ⊕ g) ⊖ g (112)
Wenn es ein Muster ist, bei dem der zu verarbeitende Bildpunkt zweiwertig ist, besitzt die Dilatation und Erosion durch die Grauskalenmorphologieoperation dieselbe Wirkung wie die in 23 gezeigten.
Bei dem Bildcodierverfahren der vorliegenden Erfindung wird das Eingabebild zunächst aus unterschiedlichen Bildern vorhergesagt und der Schwellenverarbeitung unterzogen und ein Bereich mit großer Restdifferenz wird als Musterinformation extrahiert. Danach wird die Musterinformation der Dilatationsverarbeitung nach der Erosionsverarbeitung der Morphologieoperation, das heißt der Eröffnungsverarbeitung, unterzogen, um deformiert zu werden. Dadurch wird bei dem in 22 gezeigten herkömmlichen Beispiel, wie in (e) und (k) als die Morphologieergebnisse gezeigt, der Bereich in Form von Impuls in der Umgebung der Kante beseitigt. Wird dies als ein Maskenmuster zum Codieren des Restdifferenzbildes verwendet, kann hocheffizientes Codieren durchgeführt werden, wobei ein Bereich, bei dem das Restdifferenzcodieren nicht erforderlich ist, ignoriert wird. Auf ähnliche Weise sagt bei der Bildcodiervorrichtung der vorliegenden Erfindung die Vorhersageeinrichtung das Eingabebild aus unterschiedlichen Bildern vorher und die Schwellenverarbeitungseinrichtung gibt den Bereich mit einer großen Restdifferenz als Musterinformation aus. Die Morphologieeinrichtung unterzieht diese Musterinformation einer äquivalenten Verarbeitung als die Eröffnungsverarbeitung durch die Morphologieeinrichtung und gibt ein Maskenmuster aus, bei dem der Bereich in der Form von Impuls beseitigt ist. Die Wellenformcodiereinrichtung codiert basierend auf diesem Maskenmuster und ignoriert den Bereich, bei dem es selbst dann, wenn das Restdifferenzcodieren nicht durchgeführt wird, keine große visuelle Verschlechterung verursacht.
1 ist ein Blockdiagramm, das die Struktur der Bildcodiervorrichtung und der Bilddecodiervorrichtung zeigt.
2(a) ist eine Ansicht, die das zu codierende Bild der Ausführung zeigt;
2(b) ist eine Ansicht, die das Bild in Blöcke der Ausführung unterteilt zeigt;
2(c) ist eine Ansicht, die einen Block zeigt, der als Gegenstand der Ausführung, der kettencodiert und wellenformcodiert werden muss, extrahiert wird.
3 ist eine Ansicht, die das geglättete Bild der Ausführung darstellt, bei dem der Grenzabschnitt einer Substanz einen Zwischenwert von [0, 1] aufweist, das heißt einen α-Wert von 0 bis 255.
4 ist ein Blockdiagramm, das die Struktur der Bildcodiervorrichtung und der Bilddecodiervorrichtung anderer Ausführung zeigt.
5 ist eine Bildansicht, die die Bildveränderung in dem Zustand zeigt, in dem das Bild sequentiell Verarbeitungen wie Glättung und Vektorquantisierung der anderen Ausführung unterzogen wird.
6 ist ein Blockdiagramm, das die Struktur der Glättungseinrichtung der Bildcodiervorrichtung der anderen Ausführung zeigt.
7(a) bis (d) sind Diagramme, die die Eigenschaften von verschiedenen Arten von Filtern der anderen Ausführung zeigen.
8(a) ist eine Ansicht, die den Fall darstellt, bei dem Glättungsverarbeitung für eine lineare Kante bei der anderen Ausführung durchgeführt wird;
8(b) ist eine Ansicht, die den Fall darstellt, bei dem Glättungsverarbeitung für eine Kante mit einer komplizierten Kontur bei der anderen Ausführung durchgeführt wird.
9 ist eine Strukturansicht eines Schichtcodiersystems in einer Ausführung.
10 ist eine Strukturansicht eines Schichtbildcodierers.
11 ist eine Strukturansicht eines Schichtbilddecodierers in der Ausführung der vorliegenden Erfindung.
12 ist eine Strukturansicht eines Deformationsanalysators.
13 ist eine Strukturansicht eines Affinitätstransformationskoeftizient-Berechnungsabschnitts.
14 ist eine Strukturansicht eines Deformationssynthesizers.
15 ist eine Strukturansicht eines Luminanzebenenfehlercodierers.
16 ist eine Strukturansicht eines α-Ebenenfehlercodierers.
17 ist eine Strukturansicht eines Luminanzebenenfehlerdecodierers.
18 ist eine Strukturansicht eines α-Ebenenfehlerdecodierers.
19 ist eine Ansicht, die die Wirkung eines Luminanz-/α-Überlagerungsabschnitts zeigt.
20 ist eine Blockkorrelationsansicht.
21 ist eine Konzeptansicht des herkömmlichen Schichtbildcodierens.
22(a) bis (l) sind Diagramme, die die Bewegungskompensation, die Schwellenverarbeitung und die Morphologieoperation der vorliegenden Ausführung zeigen.
23 ist ein Diagramm, das die Dilatations- und Erosionsverarbeitungen und die strukturierenden Elemente bei der Morphologieoperation zeigt.
24 ist ein Blockdiagramm, das die Struktur der herkömmlichen Bildcodiervorrichtung zeigt.
Beschreibung der Referenzziffern
7 stellt eine Bildcodiervorrichtung dar, 1 und 12 stellen Teilungseinrichtungen dar, 2 stellt eine Glättungseinrichtung dar, 3 stellt eine Extrahiereinrichtung dar, 4 stellt eine Konturcodiereinrichtung dar, 5 stellt eine diskrete Kosinustransformationseinrichtung dar, 6 stellt eine Wellenformcodiereinrichtung dar, 10 stellt eine Bilddecodiervorrichtung dar, 11 stellt eine Eingabeeinrichtung dar, 13 stellt eine Erkennungseinrichtung dar, 14 stellt eine Decodiereinrichtung dar, 16 stellt ein Codebuch dar, 17 stellt eine Wahleinrichtung dar, 18 stellt eine Übertragungseinrichtung dar, 26 stellt ein Vertikalkantenerfassungsfilter dar, 27 stellt ein Horizontalkantenerfassungsfilter dar, 28 stellt ein Schrägkantenerfassungsfilter dar, 29 stellt ein Tiefpassfilter dar, 30 stellt einen Singularitätsberechnungsabschnitt dar und 31 stellt einen Mischer dar.
101 und 102 stellen Schichtbildcodierer dar, 103 stellt einen Multiplexer dar, 104 stellt einen Demultiplexer dar, 105 und 106 stellen Schichtbilddecodierer dar, 107 stellt einen Schichtbildsynthesizer dar, 201 stellt einen Deformationsanalysator dar, 202 stellt einen Deformationssynthesizer dar, 203 und 204 stellen Differentialvorrichtungen dar, 205 stellt einen Vorhersagecodecodierer dar, 206 stellt einen Luminanzebenenfehlercodierer dar, 207 stellt einen α-Ebenenfehlercodierer dar, 208 stellt einen Luminanzebenenfehlerdecodierer dar, 109 stellt einen α-Ebenenfehlerdecodierer dar, 210 stellt einen Multiplexer dar, 211 und 212 stellen Addierer dar, 313 und 214 stellen Einzelbildverzögerungsvorrichtungen dar, 301 stellt einen Demultiplexer dar, 302 stellt einen Luminanzebenenfehlerdecodierer dar, 303 stellt einen α-Ebenenfehlerdecodierer dar, 304 stellt einen Vorhersagecodedecodierer dar, 305 stellt einen Deformationssynthesizer dar, 306 und 307 stellen Addierer dar, 308 und 309 stellen Einzelbildverzögerungsvorrichtungen dar, 401 und 402 stellen Luminanzbildspeicher dar, 403 und 404 stellen α-Bildspeicher dar, 405 und 406 stellen Luminanz-/α-Überlagerungsabschnitte dar, 407 stellt einen Affinitätstransformationsabschnitt dar, 408 stellt einen Affinitätstransformationskoeffizient-Operationsabschnitt dar, 409 stellt einen Affinitätstransformationsbildspeicher dar, 410 stellt einen Blockkorrelations-Operationsabschnitt dar, 411 stellt einen Multiplexer dar, 501 stellt einen Blockkorrelations-Operationsabschnitt dar, 502 stellt einen SAD-FIächennäherungsabschnitt dar, 503 stellt einen Fehlerfunktionsparameterspeicher dar, 504 stellt einen Affinitätstransformationsparameter-Operationsabschnitt dar, 601 stellt einen Luminanzbildspeicher dar, 602 stellt einen α-Bildspeicher dar, 603 stellt einen Demultiplexer dar, 604 und 605 stellen Affinitätstransformationsabschnitte dar, 606 und 607 stellen Affinitätstransformationsbildspeicher dar, 608 und 609 stellen Bildblockdeformationsabschnitte dar, 701 stellt einen DCT-Operationsabschnitt dar, 702 stellt einen Quantisierungsabschnitt dar, 703 stellt einen Abschnitt der Codierung variabler Länge dar, 801 stellt einen Haar-Transformations-Operationsabschnitt dar, 802 stellt einen Quantisierungsabschnitt dar, 803 stellt einen Abschnitt der Codierung variabler Länge dar, 901 stellt einen Abschnitt der Decodierung variabler Länge dar, 902 stellt einen Abschnitt inverser Quantisierung dar, 903 stellt einen Abschnitt inverser DCT-Operation dar, 1001 stellt einen Abschnitt der Decodierung variabler Länge dar, 1002 stellt einen Abschnitt inverser Quantisierung dar, 1003 stellt einen Abschnitt inverser Haar-Transformationsoperation dar, 1301 stellt einen Deformationsanalysator dar, 1301 stellt einen Deformationssynthesizer dar, 1303 stellt einen Luminanz-/α-Teilungsabschnitt dar, 1304 stellt einen Luminanz-/α-Überlagerungsabschnitt dar, 1305 stellt eine Einzelbildverzögerungsvorrichtung dar, 1306 stellt eine Differentialvorrichtung dar, 1307 stellt einen Addierer dar, 1308 stellt einen Luminanz-/α-Überlagerungsfehlercodierer dar, 1309 stellt einen Vorhersagecodecodierer dar, 1310 stellt einen Luminanz-/α-Überlagerungsfehlercodierer dar, 1311 stellt einen Multiplexer dar, 1401 stellt einen Demultiplexer dar, 1402 stellt einen Luminanz-/α-Überlagerungsfehlerdecodierer dar, 1403 stellt einen Vorhersagecodedecodierer dar, 1404 stellt einen Addierer dar, 1405 stellt einen Deformationssynthesizer dar, 1406 stellt eine Einzelbildverzögerungsvorrichtung dar, 1407 stellt einen Luminanz-/α-Teilungsabschnitt dar, 1501 stellt einen Luminanz-/α-Speicher dar, 1502 stellt einen Demultiplexer dar, 1503 stellt einen Affinitätstransformationsabschnitt dar, 1504 stellt einen Affinitätstransformationsbildspeicher dar, 1505 stellt einen Bildblockdeformationsabschnitt dar, 1506 stellt einen Bereichsgrenzenbeurteilungsabschnitt dar, 1602 und 1609 stellen Schalter dar, 1603 stellt einen DCT-Operationsabschnitt dar, 1604 stellt einen Quantisierungsabschnitt dar, 1605 stellt einen Abschnitt der Codierung variabler Länge dar, 1606 stellt einen Haar-Transformations-Operationsabschnitt dar, 1607 stellt einen Quantisierungsabschnitt dar, 1608 stellt einen Abschnitt der Codierung variabler Länge dar, 1610 stellt einen Multiplexer dar, 1701 stellt einen Demultiplexer dar, 1702 stellt einen Schaltsteuerungsabschnitt dar, 1703 und 1710 stellen Schalter dar, 1704 stellt einen Abschnitt der Decodierung variabler Länge dar, 1705 stellt einen Abschnitt inverser Quantisierung dar, 1706 stellt einen Abschnitt inverser DCT-Operation dar, 1707 stellt einen Abschnitt der Decodierung variabler Länge dar, 1708 stellt ei nen Abschnitt inverser Quantisierung dar, 1709 stellt einen Abschnitt inverser Haar-Transfonmationsoperation dar, 1801 stellt einen Vordergrundspeicher dar, 1802 stellt einen Hintergrundspeicher dar, 1803 stellt einen Vordergnundseparator dar, 1804 und 1805 stellen Schichtbildcodieren dar, 1806 stellt einen Multiplexer dar, 1807 stellt einen Demultiplexer dar, 1808 und 1809 stellen Schichtbilddecodierer dar, 1810 stellt einen Schichtbildsynthesizer dar, 1811 stellt einen Vorhersagebildspeicher dar, 1812 stellt eine Differentialvorrichtung dar, 1813 stellt einen Luminanzebenenfehlercodierer dar, 1814 stellt einen Multiplexer dar, 1911 und 1912 stellen Demultiplexer dar, 1913 und 1914 stellen Schichtbilddecodierer dar, 1915 stellt einen Schichtbildsynthesizer dar, 1916 stellt einen Vorhersagebildspeicher dar, 1917 stellt einen Luminanzebenenfehlerdecodierer dar, 1918 stellt einen Addieren dar, 2001 stellt einen Affinitätstransformationskoeffizient-Operationsabschnitt dar, 2002 stellt einen Luminanz-/α-Teilungsabschnitt dar, 2003 stellt einen Schablonenspeicher dar, 2004 stellt einen Abschnitt der Bestimmung von Affinitätsdistanz – kleinste Schablone dar, 2005 stellt einen Vorhersagecodecodierer dar, 2006 stellt einen Multiplexer dar, 2101 stellt einen Demultiplexer dar, 2102 stellt einen Vorhersagecodecodiener dar, 2103 stellt eine Schablonenleseschaltung dar, 2104 stellt einen Speicher dar, 2105 stellt einen Affinitätstransformationsabschnitt dar und 2106 stellt einen Luminanz-/α-Überlagerungsabschnitt dar.
48 und 64 stellen Vorhersagebildformeinrichtungen dar, 49 stellt eine Bewegungsvektonerfassungseinrichtung dar, 50 stellt einen Subtrahieren dar, 51 stellt eine Schwellenverarbeitungseinrichtung dar, 52 stellt eine Morphologieoperationseinrichtung dar, 53 stellt einen Glättungsfilter dar, 54 stellt eine Maskenverarbeitungseinrichtung dar, 55 stellt eine Wellenformcodiereinrichtung dar, 56 und 61 stellen eine Wellenformdecodiereinrichtung dar, 57 und 62 stellen Addieren dar, 58 und 63 stellen Einzelbildverzögerungseinrichtungen dar, 59 stellt einen Haffmann-Codierer dar und 60 stellt einen Haffmann-Decodierer dar.
I
1 ist ein Blockdiagramm, das die Struktur der Bildcodiervorrichtung und der Bilddecodiervorrichtung einer für das Verständnis hilfreichen Ausführung der vorliegenden Erfindung zeigt, und die Struktur wird mit Bezug auf diese Zeichnung beschrieben.
Mit Bezug auf 1 gibt die Teilungseinrichtung (1) das zu codierende Bild ein und teilt das Eingabebild in Blöcke ein, die Bildpunktzahlen von 8 × 8 umfassen. Die Glättungseinrichtung (2) soll einen α-Wert 1 als Bildpunktwert zu 255 und α-Wert 0 zu 0 umwandeln, um das Bild der Glättungsverarbeitung zu unterziehen und ein Bereichsbild mit einem Zwischenwert zu formen.
Die Extrahiereinrichtung (3) ist eine Einrichtung, um unter jeweiligen Blöcken, die durch die Teilungseinrichtung (1) geteilt wurden, einen Block, bei dem Bildpunkte mit unterschiedlichen α-Werten in demselben Block vermischt sind, zu extrahieren.
Die Konturcodiereinrichtung (4) ist eine Einrichtung, um eine Positionsinformation zum Erkennen der Position des von der Extrahiereinrichtung (3) extrahierten Blocks auf dem Originalbild zu ermitteln und um die Positionsinformation dem Kettencodieren zu unterziehen.
Die diskrete Kosinustransformationseinrichtung (5) ist eine Einrichtung zum Ermitteln des DCT-Koeffizienten unter Durchführung der diskreten Kosinustransformation (hier nachfolgend als DCT bezeichnet) für das Bildpunktmuster bei dem von der Extrahiereinrichtung (2) extrahierten Block und die Wellenformcodiereinrichtung (6) ist eine Einrichtung zum Durchführen des Codierens variabler Länge für den DCT-Koeffizienten, der durch die diskrete Kosinustransformationseinrichtung (5) ermittelt wurde. Die Bildcodiervorrichtung (7) besteht aus jeweiligen Einrichtungen, die oben beschrieben wurden.
Des Weiteren soll bei der Zeichnung die Eingabeeinrichtung (11) die Konturcodierdaten, die die ausgegebenen Daten von der Konturcodiereinrichtung der Bildcodiereinrichtung (7) sind, und die Codierdaten variabler Länge, die die ausgegebenen Daten von der Wellenformcodiereinrichtung (6) sind, eingeben und die Teilungseinrichtung (12) soll das zu decodierende Bild in Blöcke teilen, die Bildpunktzahlen von 8 × 8 umfassen wie bei der Teilungseinrichtung (1). Die Erkennungseinrichtung (13) soll die in die Eingabeeinrichtung (11) eingegebenen Konturcodierdaten zwischen Blöcken, die durch die Teilungseinrichtung (12) geteilt wurden, decodieren und als Folge den Block erkennen, bei dem Bildpunkte mit unterschiedlichen Werten vermischt sind, und die Decodiereinrichtung (14) ist eine Einrichtung zum Decodieren der Codierdaten variabler Länge entsprechend dem Bildpunktmuster in dem Block, der von der Erkennungseinrichtung (13) er kannt wurde. Die Bilddecodiervorrichtung (10) besteht aus jeweiligen Einrichtungen von der Eingabeeinrichtung (11) zu der Decodiereinrichtung (14), die oben beschrieben werden.
Bei der Bildcodiervorrichtung und der Bilddecodiervorrichtung der vorliegenden Ausführung, die wie oben beschrieben aufgebaut sind, wird eine Ausführung der Bildcodierverfahren und der Bilddecodierverfahren mit Bezug auf 1 und 2 beschrieben, während die Wirkungen davon beschrieben werden. Die 2(a) bis (c) sind Ansichten, die den Prozess der Codierverarbeitung darstellen, wenn ein menschliches Bild in das Hintergrundbild eingebettet ist. 2(a) zeigt ein zu codierendes Bild und 2(b) zeigt das in Blöcke geteilte Bild und 2(c) zeigt Blöcke, die als Gegenstände, die kettencodiert oder wellenformcodiert werden müssen, extrahiert wurden (geschwärzte Bereiche in der Zeichnung).
Hier ist das zu codierende Bild ein Bild von 0/1. Des Weiteren wird α = 1 angenommen, um den Existenzbereich einer Substanz auszudrücken (entspricht bei der vorliegenden Ausführung dem menschlichen Bild) und α = 0 wird angenommen, um den Opazitätsbereich auszudrücken, bei dem keine Substanz existiert.
Die Teilungseinrichtung (1) ermittelt das eingegebene Bild (siehe 2(a)) und teilt das Bild in Blöcke, die Bildpunktzahlen von 8 × 8 umfassen (siehe 2(b)).
Dann wird durch die Glättungseinrichtung (2) α-Wert 1 zu 255 umgewandelt und α-Wert 0 wird zu 0 umgewandelt, um das Bild der Glättungsverarbeitung zu unterziehen. Dadurch wird ein Bereichsbild mit einem Zwischenwert gebildet.
Hier werden Blöcke durch die Extrahiereinrichtung (3), wie oben beschrieben, in drei Typen unterteilt.
Blöcke, bei denen alle α-Werte in dem Block aus 255 bestehen, sind nämlich Blöcke innerhalb des Bereichs der Substanz. Und Blöcke, bei denen α-Werte von 0 bis 255 in dem Block vermischt sind, sind Blöcke in dem Grenzbereich der Substanz. Und Blöcke, bei denen alle α-Werte in dem Block aus 0 bestehen, sind Blöcke in dem Außenbereich der Substanz.
Aus Blöcken, die wie oben beschrieben geteilt sind, sucht die Extrahiereinrichtung (3) die Bereiche heraus, bei denen die α-Werte von 0 bis 255 in dem Block zu dem Inneren hin im Uhrzeigersinn vermischt sind, um Blöcke zu extrahieren, bei denen alle α-Werte in dem Block aus 255 bestehen, und extrahiert die anwendbaren Blöcke.
Die Konturcodiereinrichtung unterzieht die Blockpositionen als die Positionsinformationen zum Erkennen der Positionen von jedem so extrahierten Block, (x0, y0), (x1, y1) ... (xN – 1, yN – 1), der Krümmungskettencodierung.
Andererseits werden Blöcke in dem Grenzbereich der DCT (diskrete Kosinustransformation) unterzogen und der DCT-Koeffizient wird der Codierung variabler Länge durch die Wellenformcodiereinrichtung (6) unterzogen.
Das Ergebnis der so erzielten Kettencodierung und der DCT-Koeffizient werden an die Bilddecodiervorrichtung (10) ausgegeben. Durch Durchführen der Kettencodierung im Uhrzeigersinn können die Blöcke in dem inneren Bereich und Blöcke in dem äußeren Bereich erkannt werden. Zufällig zeigen die 2(a) bis (c) einen Fall, bei dem sich die Reihenfolge der Verarbeitungen leicht von der vorgenannten Beschreibung unterscheidet, und es wird eine Verarbeitung zum Extrahieren vorgegebener Blöcke vor der Glättungsverarbeitung durchgeführt, wobei es jedoch selbstverständlich ist, dass vorgegebene Blöcke extrahiert werden können, nachdem sie der Glättungsverarbeitung, wie oben beschrieben, unterzogen wurden (siehe 3). 3 ist eine Ansicht, die das geglättete Bild zeigt, bei dem die Grenzabschnitte der Substanz einen Zwischenwert [0, 1], das heißt α-Werte von 0 bis 255, aufweisen.
Die Wirkung der Decodierverarbeitung ist die Umkehr der oben beschriebenen Wirkung.
Die von der Seite der Bildcodiervorrichtung (7) ausgegebenen Daten werden nämlich in die Eingabeeinrichtung (11) eingegeben und die Teilungseinrichtung (12) teilt das zu decodierende Bild in Blöcke mit Bildpunktzahlen von 8 × 8. Die Erkennungseinrichtung (13) decodiert die Kettencodierdaten, die die Eingabeeinrichtung (11) erhalten hat. Dadurch klassifiziert die Erkennungseinrichtung (13) Blöcke in drei Typen, das heißt Blöcke, die durch die Drehung im Uhrzeigersinn eingekreist wurden, sind Blöcke in dem inneren Be reich, Blöcke, die nicht dadurch eingekreist wurden, sind Blöcke in dem äußeren Bereich, und Blöcke in dem Grenzbereich, um die Blöcke in dem Grenzbereich zu erkennen. Die Decodiereinrichtung (14) decodiert die Codierdaten variabler Länge für die Blöcke in dem Grenzbereich, wandelt den DCT-Koeffizienten invers um und gibt die in 3 gezeigten Bilddaten aus.
Die vorliegende Ausführung betrifft, wie oben beschrieben, die Bildcodiervorrichtung, die das Eingabebild, im Besonderen das Bereichsbild, das den Besetzungsbereich des projektiven Bildes einer Substanz zeigt, durch das Codierverfahren, das das Kettencodieren und das Wellenformcodieren kombiniert, mit einem geringen Codiervolumen überträgt und akkumuliert.
Das Bild wird nämlich in Blöcke geteilt, um äquivalent ein Bild mit einer niedrigen Auflösung zu formen, das Blöcke, die unterschiedliche Bildpunktwerte umfassen, zur Grenze macht, und Blöcke in dieser Grenze werden dem Konturcodieren unterzogen. Und das Bildpunktmuster in dem Block wird dem Wellenformcodieren unterzogen. Daher übt dies, wenn angenommen wird, dass Wellenformcodieren in dem Block ein irreversibles Codieren ist, den Effekt aus, dass Bilder, die keine visuelle Verschlechterung aufweisen, mit wenigen Konturcodes codiert werden können. Des Weiteren ist ein solcher Effekt besonders erfolgreich, wenn das Bild eine Animation oder Ähnliches ist.
Somit ist bei der Codierung der α-Ebene selbst dann, wenn es eine irreversible Codierung ist, die Raumauflösung in dem Bereich so adäquat, dass es keine visuelle Verschlechterung gibt, und die Codiervorrichtungen und Decodiervorrichtungen in der Umgebung der Bereichsgrenze besitzen im Gegenteil im Vergleich zu der Codierung ausgezeichnete Amplitudenauflösung und die Codierverfahren und Decodierverfahren, die dasselbe verwenden, sind recht effektiv.
Nächstfolgend ist 4 ein Blockdiagramm, das die Struktur der Bildcodiervorrichtung und der Bilddecodiervorrichtung zeigt, und die Struktur der Ausführung wird mit Bezug auf 4 beschrieben.
Mit Bezug auf 4 gibt die Teilungseinrichtung (15) das zu codierende Bild ein, teilt das eingegebene Bild in Bereiche, die Bildpunktzahlen von 4 × 4 umfassen, und gibt das Bildpunktmuster in dem Bereich aus, der durch die Teilung erzielt wurde. Und die Glättungseinrichtung (19) als die Quantisierungsmusterungseinrichtung der vorliegenden Erfindung ist eine Einrichtung zum Glätten und Ausgeben der von der Teilungseinrichtung (15) ausgegebenen Daten. Die Glättungsverarbeitung ist hier eine Verarbeitung, um jeweilige Bildpunktwerte, die zwei Werte {0, 1} des Bildpunktmusters in dem zu codierenden Bild umfassen, zu dem Zwischenwert von 0 bis 255 umzuwandeln, um feiner zu quantisieren. Daher formt diese Glättungseinrichtung (19) basierend auf dem Bild, das binäre Bildpunktwerte {0, 1} umfasst, ein Bereichsbild mit einem Zwischenwert [0, 255] als zu codierenden Gegenstand.
Das Codebuch (16) ist so ausgebildet, dass es quantisierte Muster aufweist, die als repräsentative Muster durch den nachfolgend beschriebenen LBG--Algorithmus aus quantisierten Mustern ausgewählt werden, bei denen die Bildpunktwerte im Vergleich zu jeweiligen Bildpunktwerten des Bildpunktmusters in dem Bereich, der durch Teilen jedes Bildes für jeden Bereich unter Verwendung mehrerer Arten von Bildern erzielt wurde, feiner quantisiert sind. Die Wahleinrichtung (17) ist eine Einrichtung, um das quantisierte Muster, das dem Bildpunktmuster in dem Bild am nächsten kommt, unter den Codebüchern (16), die wie oben beschrieben ausgebildet sind, auszuwählen und die Indexinformationen, die dem ausgewählten quantisierten Muster entsprechen, auszugeben, und die Übertragungseinrichtung (18) ist eine Einrichtung zum Übertragen der von der Wahleinrichtung (17) ausgegebenen Indexinformation. Die Bildcodiervorrichtung (20) besteht aus den vorgenannten jeweiligen Einrichtungen.
Des Weiteren erhält in 4, wenn bei der vorgenannten Bildcodiervorrichtung (20) das Codebuch (16) verwendet wird und die Indexinformation entsprechend dem quantisierten Muster, das als dasjenige ausgewählt wird, das am nächsten das Bildpunktmuster in dem zu codierenden Bild ausdrückt, übertragen wird, die Eingabeeinrichtung (21) die übertragene Indexinformation und gibt diese aus. Bei der Bilddecodiervorrichtung (25) wird außerdem dasselbe Codebuch (22) wie das vorgenannte Codebuch (16) bereitgestellt. Die Leseeinrichtung (23) ist eine Einrichtung zum Untersuchen der Inhalte des Codebuchs (22) von der Indexinformation, die von der Eingabeeinrichtung (21) ausgegeben wurde, und zum Auslesen des entsprechenden quantisierten Musters, und die Decodiereinrichtung (24) ist eine Einrichtung zum Verwenden des von der Leseeinrichtung (23) ausgelesenen quantisierten Musters, um das zu decodierende Bild als das Bild zu decodieren, dessen Bildpunktwert im Vergleich zu dem zu codierenden Bild feiner quantisiert ist. Die Bilddecodiereinrichtung (25) besteht aus jeweiligen Einrichtungen von der Eingabeeinrichtung (21) zu der Decodiereinrichtung (24), die oben beschrieben werden.
Bei der Bildcodiervorrichtung und der Bilddecodiervorrichtung der vorliegenden Ausführung, die wie oben beschrieben aufgebaut sind, wird eine Ausführung der Bildcodierverfahren und der Bilddecodierverfahren der vorliegenden Erfindung mit Bezug auf 4 und 5 beschrieben, während die Wirkungen davon beschrieben werden. 5 ist eine Ansicht, die einfach die Veränderung des Bildes bei einer Bildansicht in dem Zustand ausdrückt, dass das Bild sequentiell den Verarbeitungen, wie Glättung, Vektorquantisierung und Ähnliches, unterzogen wird, wenn ein menschliches Bild in das Hintergrundbild eingebettet ist.
Hier ist das zu codierende Bild ein Bild von 0/1. Des Weiteren wird α = 1 angenommen, um den Existenzbereich einer Substanz auszudrücken (entspricht bei der vorliegenden Ausführung dem menschlichen Bild), und α = 0 wird angenommen, um den Opazitätsbereich auszudrücken, bei dem keine Substanz existiert.
Zunächst wird die Bildung des Codebuchs beschrieben.
Jedes Bild wird nämlich in Blöcke, die Bildpunktzahlen von 4 × 4 umfassen, geteilt, indem mehrere Arten von Bildern verwendet werden. Dann wird α-Wert 1 zu 255 umgewandelt und α-Wert 0 wird zu 0 umgewandelt und das Bild wird der Glättungsverarbeitung unterzogen. Dadurch wird das Bereichsbild mit einem Zwischenwert gebildet.
Nachfolgend wird das Codebuch durch den LBG-Algorithmus (Y. Linde, A. Buzo und R. B. Gray: „An Algorithm for Vector Quantizer Design", IEEE Transaction on Communication, Bd. COM-28, Nr. 8, S. 957–971, (Aug. 1988)) konstruiert. Dadurch wird das Codebuch für das Bereichsbild mit einem Zwischenwert, nicht dem Wert 0/1, konstruiert. Die Größe des Codebuchs wird so angelegt, dass sie, ausgewählt als repräsentatives Muster, 256 beträgt. Dies ist 1/256 im Vergleich zu den 0/1-Musterzahlen (die 16. Potenz von 2), die der Block, der die Bildpunktzahlen von 4 × 4 umfasst, aufweist.
Nächstfolgend wird die Verarbeitung der Vektorquantisierung beschrieben (siehe 6).
Mit Bezug auf 4 teilt die Teilungseinrichtung (15) das zu codierende Bild in Blöcke, die Bildpunktzahlen von 4 × 4 umfassen, und die Glättungseinrichtung (19) wandelt α-Wert 1 zu 255 und α-Wert 0 zu 0 um, um das Bild der Glättungsverarbeitung zu unterziehen. Dadurch wird das Bereichsbild mit einem Zwischenwert zusammengestellt. Die Wahleinrichtung (17) untersucht das Codebuch (16), vergleicht mit dem Bildpunktmuster, das in Blöcke geteilt ist und der Glättungsverarbeitung unterzogen wird, und sucht ein Muster mit der kleinsten quadrierten Fehlersumme und gibt als Folge die Indexinformation entsprechend dem Muster, das am nächsten ausgedrückt wird, an die Übertragungseinrichtung (18) aus, womit die Indexinformation von der Übertragungseinrichtung (18) zu der Bilddecodiervorrichtung (25) übertragen wird.
Bei der Bilddecodiervorrichtung (25) erhält die Eingabeeinrichtung (21) die Indexinformation, die Leseeinrichtung (23) liest das quantisierte Muster entsprechend der Indexinformation, die die Eingabeeinrichtung (21) aus dem Codebuch (22) erhalten hat, aus und die Decodiereinrichtung (24) verwendet das ausgelesene quantisierte Muster, um das zu decodierende Bild als ein Bild zu decodieren, dessen Bildpunktwert im Vergleich zu dem zu codierenden Originalbild feiner quantisiert ist.
Wie oben beschrieben, wird nach der vorliegenden Erfindung ein solcher Effekt ausgeübt, dass hocheffizientes Codieren und hocheffizientes Decodieren bei Unterdrückung der visuellen Verschlechterung durchgeführt werden kann, indem ein Muster eines Bildpunktwerts (bei der vorliegenden Ausführung α-Wert) mit grober Amplitudenauflösung (auch als quantisierte Genauigkeit bezeichnet) der Vektorquantisierung mit dem Muster des Bildpunktwerts mit leicht verschlechterter Raumauflösung, aber mit feinerer Amplitudenauflösung (quantisierte Genauigkeit), unterzogen wird. Darüber hinaus ist ein solcher Effekt besonders erfolgreich, wenn das Bild eine Animation oder Ähnliches ist.
Nächstfolgend wird, während die Struktur der Glättungseinrichtung (19) der mit Bezug auf 4 beschriebenen Bildcodiervorrichtung (20) konkreter beschrieben wird, die Bildcodiervorrichtung als eine Ausführung der Bildverarbeitungsvorrichtung, die eine andere für das Verständnis hilfreiche Ausführung der vorliegenden Erfindung ist, beschrieben.
6 ist ein Blockdiagramm, das die Struktur der Glättungseinrichtung zeigt, die ein charakteristischer Teil der Bildcodiervorrichtung der vorliegenden Ausführung ist, und die Struktur der vorliegenden Ausführung wird mit Bezug auf 6 beschrieben. Außerdem wird die Beschreibung derselben Abschnitte wie die von 4 weggelassen.
Mit Bezug auf 6 sind ein Vertikalkantenerfassungsfilter (26), ein Horizontalkantenerfassungsfilter (27), ein Schrägkantenerfassungsfilter (28) und ein Tiefpassfilter (29) Filter mit in 7(a), (b), (c) bzw. (d) gezeigten Eigenschaften und ein Filter gibt das Originalsignal des Eingabebilds ein und gibt eine vorgegebene Reaktion aus. Ein Singularitätsberechnungsabschnitt (30) gibt Reaktion V von dem Vertikalkantenerfassungsfilter (26), Reaktion H von dem Horizontalkantenerfassungsfilter (27) und Reaktion D von dem Schrägkantenerfassungsfilter (28) ein, um C als die Komplexität der Kontur durch die nachfolgend beschriebene Gleichung 1 zu berechnen, und gibt den Wert C als das Berechnungsergebnis aus. Der Mischer (31) gibt das ausgegebene C des Singularitätsberechnungsabschnitts (30), die Ausgabe von dem Tiefpassfilter (29) und das Originalsignal des Eingabebilds ein, um diese durch die nachfolgend beschriebene Gleichung 2 zu berechnen, und gibt das Ergebnis aus. 7(a) bis (d) sind Diagramme, die die Eigenschaften von verschiedenen Filtern zeigen.
Bei der Bildcodiervorrichtung als einer Ausführung der Bildverarbeitungsvorrichtung der so aufgebauten vorliegenden Ausführung wird eine Ausführung der Bildverarbeitungsverfahren mit Bezug auf 6 und 8 beschrieben und es wird außerdem die Wirkung davon beschrieben.
Mit Bezug auf 6 geben das Vertikalkantenerfassungsfilter (26), das Horizontalkantenerfassungsfilter (27) und das Schrägkantenerfassungsfilter (28), die das Signal des Eingabebilds erhalten haben, V, H und D als Reaktionen entsprechend den jeweiligen Filtereigenschaften an den Singularitätsberechnungsabschnitt (30) aus. Der Singularitätsberechnungsabschnitt (30) bestimmt den Wert der Komplexität von Kontur (C) unter Verwendung dieser Eingaben (V, H, D) basierend auf dem folgenden Ausdruck (201): C = |V*H| – D*D (201)(wobei * Multiplikation bedeutet).
Der somit ermittelte Wert C wird der Begrenzung unterzogen, so dass er zwischen 0 und einem vorgegebenen Wert Cmax liegt.
Danach mischt der Mischer (31) das Signal basierend auf dem folgenden Ausdruck (202): Ausgabe = ((Cmax – C)*Originalsignal + C*(Glättungssignal))/Cmax (202)und gibt das Bildsignal aus, bei dem eine solche Verarbeitung, dass eine lineare Kante es hält (siehe 8(a)) und eine Kante mit einer komplexen Kontur es unterdrückt (siehe 8(b)), angewendet wird. Die 8(a) und (b) sind Ansichten, die Beispiele der Glättungsverarbeitung der vorliegenden Ausführung darstellen, und 8(a) zeigt die Glättungsverarbeitung in Bezug auf die lineare Kante und 8(b) zeigt die Glättungsverarbeitung in Bezug auf die Kante mit einer komplexen Kontur.
Somit wird nach der vorliegenden Ausführung, deren Verarbeitung so ist, dass, wenn das Muster des Bildpunktwerts, der das Eingabebild bildet, komplexer ist, der auf den Bildpunktwert angewendete Glättungsgrad im Vergleich zu dem Fall, bei dem das Bildpunktmuster simpler ist, stark wird, und wenn das Muster simpler ist, wird der auf den Bildpunktwert angewendete Glättungsgrad im Vergleich zu dem Fall, bei dem das Bildpunktmuster komplexer ist, schwach, wobei verschiedene Filter, wie oben beschrieben, geringe Tiefpasseigenschaften in dem flachen Abschnitt der Kontur aufweisen und hohe Tiefpasseigenschaften in dem ungleichmäßigen Abschnitt der Kontur aufweisen, wodurch die vorliegende Ausführung Effekte ausübt, die bei den visuellen Eigenschaften bei der Codierung des Bereichsbilds ausgezeichnet sind.
Hier kann beispielsweise bei einem Filter mit binärer Opazität Beurteilung von Komplexität der Kontur durch Dispersion der gesamten Krümmungsfunktionen der Kontur durchgeführt werden. Des Weiteren kann dies in dem allgemeineren Fall, der einen Konzentrationswert umfasst, durch Hadamard-Transformationskoeffizient, Fourier-Transformationskoeffizient und Ähnliches bewertet werden.
Die oben beschriebene Angelegenheit basiert auf dem Prinzip, dass „das Bereichsbild eine niedrigere Raumauflösung als das Farbbild und eine höhere Amplitudenauflösung als 0/1 erfordert".
Außerdem ist sie, auch wenn bei der vorgenannten Ausführung die Beschreibung bezüglich des Falls erfolgt, bei dem das Eingabebild zwei Werte 0/1 aufweist, jedoch nicht auf diesen Fall beschränkt und das Eingabebild kann beispielsweise mehrere Werte aufweisen.
Des Weiteren ist die vorliegende Ausführung, auch wenn bei der vorgenannten Ausführung die Beschreibung bezüglich des Falls erfolgt, bei dem Kettencodierung als die Konturcodierung verwendet wird, jedoch nicht auf diesen Fall beschränkt und es können beispielsweise Bezier-Kurve und Spline-Kurve verwendet werden.
Des Weiteren ist sie, auch wenn bei der vorgenannten Ausführung die Beschreibung im bezüglich des Falls erfolgt, bei dem die Glättungseinrichtung als Einrichtung für Quantisierungsmusterung, jedoch nicht auf diesen Fall beschränkt und es kann eine Einrichtung, die eine Verarbeitung anwendet, verwendet werden, solange jeweilige Bildpunktwerte des Bildpunktmusters in dem zu codierenden Bild der Quantisierungsmusterung unterzogen werden, so dass die Bildpunktwerte feiner quantisiert werden.
Des Weiteren erfolgt bei der vorgenannten Ausführung die Beschreibung im Hinblick auf den Fall, bei dem α-Wert als Bildpunktwert verwendet wird, aber es kann beispielsweise derjenige verwendet werden, bei dem der Luminanzpegel des Bildes genutzt wird.
Des Weiteren wurde bei der vorgenannten Ausführung der Fall beschrieben, bei dem die Bildverarbeitungsvorrichtung und das Verfahren davon als die Glättungseinrichtung (19) verwendet werden, die die Vorverarbeitung der Bildcodiervorrichtung (20) ist, aber sie ist nicht auf diesen Fall beschränkt und sie werden beispielsweise als die Einrichtung der Vorverarbeitung der Bildcodiervorrichtung (7) oder der Nachbearbeitung der Bilddecodiervorrichtung (10) oder der Vorverarbeitung der Bilddecodiervorrichtung (25) verwendet.
II
Bei jeweiligen Ausführungen wird angenommen, dass das Bild aus der Länge und der Breite von 288 x 352 Bildpunkten besteht, um die Wirkung der Vorrichtung leicht verstehen zu können, und dass die Schicht die Allgemeinheit nicht verliert und nur aus zwei Abschnitten, Hintergrund und Vordergrund, besteht. Darüber hinaus wird angenommen, dass der Block, der die Korrelationsoperation zum Erfassen des Bewegungsvektors durchführt, aus der Länge von 16 Bildpunkten x der Breite von 16 Bildpunkten besteht.
Die Ausführung der vorliegenden Erfindung wird mit Bezug auf Zeichnungen beschrieben. Die Ausführung der vorliegenden Erfindung wird mit Bezug auf 9 bis 20 beschrieben. 10 ist hier eine Ansicht, die das Strukturbeispiel zeigt, 11 ist eine Ansicht, die das Strukturbeispiel der Erfindung zeigt. 9 ist eine Strukturansicht des Schichtcodiersystems, die die Wirkung der Bildcodiervorrichtung und der Bilddecodiervorrichtung zeigt. Das Schichtbild besteht aus zwei Einzelbildern: Luminanz und Opazität. Diese werden jeweils als die Luminanzebene bzw. die α-Ebene bezeichnet. Bei dem Schichtbildsynthesizer (107) wird die durch Gleichung 2 ausgedrückte Synthese ausgeführt: g(x, y) = α(x, y)gf(x, y) + (1 – α(x, y))gb(x, y) (2)
Bei Gleichung 2 steht (x, y) für die horizontale/vertikale Position, gf und gb stehen für einen Luminanzwert [0, 255] des Vordergrundes bzw. des Hintergrunds und a steht für die Opazität [0, 1] des Vordergrunds. g ist ein synthetisierter Luminanzwert. Bei der vorliegenden Ausführung besteht, da die Hierarchie als 2 angenommen wird, um dies kurz zu halten, die gesamte Opazität des Hintergrunds aus 1. Die Schichtbildcodierer (101 und 102) codieren jeweilige dynamische Bilder der Luminanzebene und der α-Ebene im Vordergrund und Hintergrund und der Bitstrom, der von dem Multiplexer (103) gemultiplext wird, wird an die Decodiervorrichtung gesendet. In der Decodiervorrichtung werden die Daten von jeweiligen Schichtbildern durch den Demultiplexer (104) geteilt und die Schichtbilder werden durch die Schichtbilddecodierer (105 und 106) rekonstruiert. Die rekonstruierten Schichtbilder werden durch den Schichtbildsynthesizer (107) synthetisiert. Nun wird dieses Codiersystem sequentiell beschrieben.
10 ist eine Strukturansicht der Schichtbildcodierer (101 und 102) in 9. Mit Bezug auf 10 stellt 201 einen Deformationsanalysator dar, 202 stellt einen Deformationssynthesizer dar, 203 und 204 stellen Differentialvorrichtungen dar, 205 stellt einen Vorhersagecodecodierer dar, 206 stellt einen Luminanzebenenfehlercodierer dar, 207 stellt einen α-Ebenenfehlercodierer dar, 208 stellt einen Luminanzebenenfehlerdecodierer dar, 209 stellt einen α-Ebenenfehlerdecodierer dar, 210 stellt einen Multiplexer dar, 211 und 212 stellen Addierer dar und 213 und 214 stellen Einzelbildverzögerungsvorrichtungen dar. Es wird nun die Wirkung des so aufgebauten Schichtbildcodierers beschrieben.
Zunächst bestimmt der Deformationsanalysator (201), welche Position der Luminanzebene und der α-Ebene, die das Decodierergebnis des vorhergehenden Einzelbilds sind, einander in Bezug auf jeweilige Positionen der Luminanzebene und der α-Ebene, die aktuell eingegeben wurden, entsprechen. Die Korrespondenzinformation dieser Position wird durch den Vorhersagecodecodierer (205) als der Affinitätstransformationsparameter und die Blockparallelbewegungskomponente codiert. Der Deformationssynthesizer (202) empfängt diese Korrespondenzinformation und deformiert die Luminanzebene und α-Ebene, die die decodierten Ergebnisse des vorhergehenden Einzelbilds sind, um sie durch die Differentialvorrichtungen (203 und 204) zu dem Differentialsignal zu machen. Wenn dies auf die Luminanzebene beschränkt ist, entspricht dies im Allgemeinen einer Verarbeitung, die als „Bewegungskompensation" bei den Bildcodiervorrichtungen und Ähnlichem bezeichnet wird, das in CCITT Recommendation H.261 beschrieben wird. Hier besteht der Unterschied darin, dass die Bewegungskompensation nicht nur die Blockbewegung kombiniert, bei der die Summe des absoluten Fehlerwerts (mit SAD abgekürzt) in dem Block von 16 × 16 Bildpunkten minimal wird, sondern die Affinitätstransformation des gesamten Bildschirms durchgeführt wird. Dies wird mit Bezug auf 14 beschrieben.
14 zeigt die Struktur des Deformationssynthesizers (202) von 10 und in der Zeichnung stellt 601 einen Luminanzbildspeicher dar, 602 stellt einen α-Bildspeicher dar, 603 stellt einen Demultiplexer dar, 604 und 605 stellen Affinitätstransformationsabschnitte dar, 606 und 607 stellen Affinitätstransformationsbildspeicher dar, 608 und 609 stellen Bildblockdeformationsabschnitte dar. Die Korrespondenzinformation (Deformationsparameter) besteht aus dem Affinitätstransformationsparameter (siehe Gleichung 1) und der Translatiorsbewegungskomponente (siehe 20) in Bezug auf Blöcke, die in die Länge und die Breite 18 × 22 geteilt sind. Die Schritte der Bewegungskompensation lauten wie folgt:

1. Der Bildpunktwert der Luminanzebene und der α-Ebene werden in den Luminanzbildspeicher (601) und den α-Bildspeicher (602) genommen. Gleichzeitig werden der Affinitätstransformationsparameter und die Blocktranslationsbewegungskomponente durch den Demultipiexer (603) getrennt.
2. Das Bild wird durch die Affinitätstransformationsabschnitte (604 und 605) in Bezug auf das in Gleichung 1 gezeigte Bewegungsvolumen durch den Affinitätstransformationsparameter verschoben. Das Ergebnis wird in den Affinitätstransformationsbildspeichern (606 und 607) gespeichert.
3. Das in den Affinitätstransformationsbildspeichern (606 und 607) gespeicherte Bild vollzieht die Translationsbewegung pro Blockeinheit mit einer Größe von 16 × 16 Bildpunkten in Bezug auf die Blöcke, die durch die Bildblockdeformationsabschnitte (608 und 609) in die Länge und die Breite 18x 22 unterteilt wurden.

Der Deformationsanalysator (201) von 10 muss den Affinitätstransformationsparameter und die Blockbewegungskomponente extrahieren, um diese Verarbeitung durchzuführen. 12 ist eine Strukturansicht des Deformationsanalysators (201) von 10. Die Wirkung des Deformationsanalysators (201) wird unter Verwendung von 12 beschrieben. Außerdem ist die Struktur des in 12 gezeigten Deformationsanalysators (201) ein Strukturbeispiel der Bewegungsvektorerfassungsvorrichtung.
Mit Bezug auf 12 stellen 401 und 402 Luminanzbildspeicher dar, 403 und 404 stellen α-Bildspeicher dar, 405 und 406 stellen Luminanz-/α-Überlagerungsabschnitte dar, 408 stellt einen Affinitätstransformationsbildspeicher dar, 409 stellt einen Affinitätstransformationsbildspeicher dar, 410 stellt einen Blockkorrelations-Operationsabschnitt dar, 411 stellt einen Multiplexer dar. Bei dem in 12 gezeigten Deformationsanalysators (201) puffern der Luminanzbildspeicher (401) und der α-Bildspeicher (403) das Ergebnis des vorhergehenden Einzelbilds als das Referenzbild. Der Luminanzbildspeicher (402) und der α-Bildspeicher (404) halten das Bild des aktuell eingegebenen Einzelbilds, das das zu codierende Bild ist. Die Luminanz-/α-Überlagerungsabschnitte (405 und 406) führen die in Gleichung 3 gezeigte Verarbeitung durch, um ein Luminanzbild zu formen. In Gleichung 3 steht h (x, y) für ein synthetisiertes Luminanzbild, g steht für einen Luminanzwert [0, 255] der Luminanzebene und a steht für α-Wert [0, 1] einer α-Ebene in Bezug auf die horizontale/vertikale Position (x, y) des Bildpunkts.
In Gleichung 3 wird der Luminanzwert in dem opaken Bereich überlagert und ein negativer Eigenwert (–100) wird in dem transparenten Bereich durch den Wert a überlagert. Dadurch wird das von der Information der Opazität überlagerte Luminanzbild geformt. 19 zeigt diese Darstellung. Des Weiteren kann, wenn solche Schwellenverarbeitung nicht verwendet wird, sondern das Multiplizieren eines empirisch ermittelten Überlagerungskoeffizienten r, Überlagerung wie in Gleichung 4 gezeigt durchgeführt werden: h(x, y) = g(x, y) – γα(x, y) (4)
Bei der vorliegenden Ausführung wird angenommen, dass der Luminanz-/α-Überlagerungsabschnitt die in Gleichung 3 angegebene Wirkung vollzieht, da der Luminanz-/α-Überlagerungsabschnitt bei anderen Ausführungen für andere Zwecke verwendet wird, die nachfolgend beschrieben werden. Somit werden die von Gleichung 5 und Gleichung 6 angegebenen Korrelationsoperationen für das Bild durchgeführt, bei dem der Luminanz- und der α-Wert überlagert werden.
Bei Gleichung 5 steht ht – 1 für den überlagerten Bildpunktwert des vorhergehenden Einzelbilds (12, Referenzbild) und ht steht für den überlagerten Bildpunktwert des aktuellen Einzelbilds (12, Objektbild). R steht für den Bereich von 16 × 16 Bildpunkten und (u, v) steht für Abweichung gegenüber dem entsprechenden Blockbereich, wie in 20 gezeigt. Nach Gleichung 6 wird die kleinste Abweichung von SAD als ein Bewegungsvektor bestimmt. Der Blockkorrelationsabschnitt (410) führt diese Operation mit Bezug auf das affinitätstransformierte Referenzüberlagerungsbild und das Objektüberlagerungsbild. Außerdem wird die Ausgabe des α-Bildspeichers (404) in den Blockkorrelationsabschnitt (410) eingegeben. Dies erfolgt deshalb, weil der Bewegungsvektor in Bezug auf den Bereich, in dem die α-Ebenen des Objektbilds alle transparent sind, indefinit wird, weshalb er die Berechnung weglassen soll. Der Blockkorrelationsabschnitt (410) gibt die kleinste Abweichung (p, q) in Bezug auf 18 × 22-Blöcke als den Bewegungsvektor aus. Der Affinitätstransformationsabschnitt (407) und der Affinitätstransformationsbildspeicher (409) führen dieselben Handlungen durch wie die des in 14 beschriebenen Blocks desselben Namens.
Nächstfolgend wird der Affinitätstransformationskoeffizient-Operationsabschnitt (408) beschrieben. 13 ist eine Strukturansicht des Affinitätstransformationskoeffizient-Operationsabschnitt (408) und zeigt das Strukturbeispiel der Bewegungsvektorerfassungsvorrichtung. Mit Bezug auf 13 stellt 501 einen Blockkorrelations-Operationsabschnitt dar, 502 stellt einen SAD-Flächennäherungsabschnitt dar, 503 stellt einen Fehlerfunktionsparameterspeicher dar, 504 stellt einen Affinitätstransformationsparameter-Operationsabschnitt dar. Die Wirkung des Blockkorrelations-Operationsabschnitts (501) ist ungefähr dieselbe wie die des Blockkorrelationsabschnitts (410) von 12. Der Unterschied besteht darin, dass der Blockkorrelations-Operationsabschnitt (501) die Abweichung (p, q) ausgibt, die die kleinste in Bezug auf 18 × 22-Blöcke wird, und zusätzlich dazu den SAD-Kleinstwert der Position und den SAD-Wert in der Umgebung von B. Dies wird in Gleichung 7 gezeigt. In Gleichung 7 steht t für Transponierung der Matrix.
S = (E(p – 1, q – 1), E(p – 1, p), E(p – 1, p + 1), E(p, q – 1), E(p, q), E(p, q + 1), E(p + 1, q – 1), E(p + 1, q), E(p + 1, q + 1))t (7)
Der SAD-Phasennäherungsabschnitt (502) empfängt dies, um die Operationen von Gleichung 8 bis Gleichung 13 durchzuführen. Die Operationsergebnisse werden in dem Fehlerfunktionsparameterspeicher (503) gespeichert. Operationen von Gleichung 8 bis Gleichung 13 korrespondieren, um die quadratische Taylor-Entwicklung in der Umgebung der kleinsten Abweichung (p, q) durchzuführen, wobei der SAD-Wert als die Funk tion der Abweichung (u, v) betrachtet wird. Wenn die Position des Blocks der Länge und der Breite 18 × 22 als i und j ausgedrückt wird, können die jeweiligen quadratischen Fehlerfunktionen, außer für den transparenten Bereich, durch Gleichung 14 ausgedrückt werden.
Hier kann, wie in Gleichung 15 und 16 gezeigt, da der Bewegungsvektor durch den Affinitätstransformationsparameter beschrieben wird als die notwendige Bedingung, um die Gesamtsumme von jeweiligen SAD-Fehlerfunktionen durch das Variationsprinzip minimal zu machen, wie in Gleichung 17 gezeigt, die Eulersche Gleichung abgeleitet werden, bei der das partielle Differential des Affinitätstransformationsparameters a Nullvektor sein muss. Dies kann durch die Matrix von Gleichung 18 ausgedrückt werden. Der Affinitätsparameter-Operationsabschnitt (504) bestimmt zunächst Gleichung 19 (6 × 6- Matrix) und Gleichung 20 (6 × 1-Matrix) und berechnet den Affinitätstransformationsparameter durch Gleichung 21.
Zufällig steht in Gleichung 19 und 20 (xj, yi) für die zentrale Position der Blöcke i und j.
a = (a0, a1, a2, a3, a4, a5)t (16)
Aa – b = 0 (18)

a = A–1b (21)
Bei dem Deformationsanalysator (201) (4), der wie oben beschrieben aufgebaut ist, kann der Bewegungsvektor aus beiden Informationen bestimmt werden, indem die Kor relationsoperation mit dem Bild, überlagert mit der Luminanz und α, durchgeführt wird. Wenn der absolute Wert des Negativwerts (–100) des transparenten Bereichs durch Gleichung 3 bestimmt wurde, kann der Bewegungsvektor, bei dem die Konturinformation des opaken Bereichs stärker betont wird, ermittelt werden. Dies ist besonders wirksam, wenn es keine Anhaltspunkte wie Kanten oder Muster gibt, die zur Vorhersage der Bewegung innerhalb des Bereichs effektiv sind. Der Affinitätstransformationskoeffizient-Operationsabschnitt (408) bestimmt den Affinitätstransformationsparameter unter Durchführung der quadratischen Funktionsnäherung, nicht durch die lokale Korrelationsoperation. Bei der lokalen Korrelationsoperation gibt es viele Fälle, dass der Bewegungsvektor in der Richtung der Konturtangente in der Peripherie monotoner Kontur frei ist. In diesem Fall wird jedoch, obwohl ein großer Vorhersagefehler bei der in dem herkömmlichen Beispiel gezeigten zweistufigen Affinitätstransformationsparametervorhersage erwartet wird, bei der in der vorliegenden Ausführung gezeigten Technik die Freiheit durch die quadratische Funktion ausgedrückt und die Gesamtsumme der quadratischen Funktion wird umfassend minimiert, wodurch von ihr erwartet wird, dass sie den Parameter stabiler vorhersagt.
Des Weiteren besitzt die quadratische Funktionsnäherung, bei der die Abweichung von SAD-Korrelation eine Variable ist, einen Vorteil, dass sie die unbestimmten Parameter einfach ableiten kann, da die durch Gleichung 17 dargestellte Eulersche Gleichung ein linearer Ausdruck in Bezug auf die unbestimmten Parameter wird. Dies ist selbst in dem Fall allgemein wahr, wenn allgemeinere Polynome verwendet werden. Beispielsweise kann die in Gleichung 22 und Gleichung 23 gezeigte Gleichung des Bewegungsvektors den Bewegungsvektor ausdrücken, der aus dem projektiven Bild der Ebenensubstanz unter der Perspektivtransformation erzeugt wurde.
r = (r0, r1, r2, r3, r4, r5, r6, r7)t (23)
In diesem Fall wird, wie bei der Affinitätstransformation, die Eulersche Formel von Gleichung 24 berechnet und der Parameter kann durch die ähnlichen Prozeduren wie in Gleichung 19 bis 21 einfach vorhergesagt werden.
Bisher wurden der Deformationsanalysator (201) und der Deformationssynthesizer der Schichtbildcodierer (101 und 102) beschrieben. Gleichzeitig wurde das Strukturbeispiel der Bewegungsvektorerfassungsvorrichtung gezeigt. Nachfolgend werden hier restliche Blöcke in 10 beschrieben.
Der Unterschied der Luminanzdaten und der Opazitätsdaten wird jeweils durch die Differentialvorrichtungen (203 und 204) an den Luminanzebenenfehlercodierer (206) und den α-Ebenenfehlercodierer (207) übertragen und individuell codiert. Jeder Codierer besitzt die in 15 bzw. 16 gezeigte Struktur. 15 ist eine Strukturansicht des Luminanzebenenfehlercodierers und 701 stellt einen DCT-Operationsabschnitt dar, 702 stellt einen Quantisierungsabschnitt dar und 703 stellt einen Abschnitt der Codierung variabler Länge (1) dar.
16 ist eine Strukturansicht eines α-Ebenenfehlercodierers und 801 stellt einen Haar-Transformations-Operationsabschnitt dar, 802 stellt einen Quantisierungsabschnitt dar und 803 stellt einen Abschnitt der Codierung variabler Länge (2) dar. Der DCT-Operationsabschnitt (701) führt die diskrete Kosinustransformation an den Blöcken von 8 × 8 Bildpunkten durch und der transformierte DCT-Koeffizient wird durch den Quantisierungsabschnitt (702) quantisiert und der Kosinustransformationskoeffizient wird durch den Abschnitt der Codierung variabler Länge (703) abgetastet, um der zweidimensionalen Haffmann-Codierung in Verbindung mit der Nullkoeffizientenlänge und dem Quantisierungskoeffizienten unterzogen zu werden. Diese Verarbeitung ist ungefähr dieselbe wie die in CCITT Recommendation H.261 offenbarte Technologie, weshalb eine ausführliche Beschreibung weggelassen wird.
Bei dem α-Ebenenfehlercodierer (207) wird bei den Blöcken von 8 × 8 Bildpunkten statt der diskreten Kosinustransformation Haar-Transformation verwendet. Hier wird die Haar-Transformation verwirklicht, indem die eindimensionale Haar-Transformation durchgeführt wird, bei der der Spaltenvektor von 8 × 1 von rechts der Gleichung 25 in Bezug auf die Bildpunktblöcke 8 × 8 längsgerichtet und kreuzweise multipliziert wird.
Der Unterschied zu dem Luminanzebenencodierer (206) besteht darin, dass die Quantisierungstabelle und die Haffmann-Tabelle auf Grund der Verwendung der Haar-Transformation statt der diskreten Kosinustransformation leicht verändert sind. Da jedoch die grundlegende Wirkung dieselbe ist, wird eine ausführliche Beschreibung weggelassen. Nun kehren wir wieder zu 10 zurück.
Die Ausgabe des Luminanzebenenfehlercodierers (206) und des α-Ebenenfehlercodierers (207), die bisher beschrieben wurden, wird von dem Multiplexer (210) gemultiplext und ausgegeben. Andererseits wird die oben beschriebene Ausgabe in den Luminanzebenenfehlerdecodierer (208) und den α-Ebenenfehlerdecodierer (209) eingegeben, um das Vorhersagebild des nächsten Einzelbilds zu formen. Jeder Decoder besitzt die in 17 und 18 gezeigte Struktur.
17 ist eine Strukturansicht des Luminanzebenenfehlerdecodierers und 901 stellt einen Abschnitt der Decodierung variabler Länge dar, 902 stellt einen Abschnitt inverser Quantisierung dar, 903 stellt einen Abschnitt inverser DCT-Operation dar. 18 ist eine Strukturansicht des α-Ebenenfehlerdecodierers und 1001 stellt einen Abschnitt der Decodierung variabler Länge dar, 1002 stellt einen Abschnitt inverser Quantisierung dar, 1003 stellt einen Abschnitt inverser Haar-Transformationsoperation dar. Der Abschnitt der Decodierung variabler Länge (901) unterzieht die Kombination der Nullkoeffizientenlänge und des Quantifizierungskoeffizienten der Haffmann-Decodierung und gibt sie an den Kosinustransformationskoeftizienten zurück. Und der Abschnitt inverser Quantisierung (902) ersetzt den Quantisierungsindex durch den repräsentativen Wert und zuletzt wird das Bild von 8 × 8-Bildpunktblöcken durch den Abschnitt inverser DCT-Operation (903) reproduziert. Diese Verarbeitung ist ungefähr dieselbe wie die in CCITT Recommendation H.261 offenbarte Technologie wie bei dem Luminanzebenenfehlercodierer (206), weshalb eine ausführliche Beschreibung weggelassen wird.
Der Operationsabschnitt inverser Haar-Transformation (906) wird verwirklicht durch längsgerichtete und kreuzweise Herausnahme des Spaltenvektors von 8 × 1 in Bezug auf den Haar-Koeffizienten 8 × 8 und Multiplizieren der in Gleichung 26 gezeigten Matrix von links. Die Wirkung des Abschnitts der Decodierung variabler Länge (1001) und des Abschnitts inverser Quantisierung (1002) unterscheidet sich nur bei den Inhalten der Tabelle von dem Block des Luminanzebenendecodierers (209) entsprechend dem α-Ebenencodierer (207), weshalb eine ausführliche Beschreibung davon weggelassen wird.
Nächstfolgend werden die Schichtbilddecodierer (105 und 106), die das Schichtcodiersystem von 9 bilden, mit Bezug auf 12 beschrieben. 12 ist eine Strukturansicht der Schichtbilddecodierer (105 und 106) entsprechend dem Strukturbeispiel der Bilddecodiervorrichtung.
Mit Bezug auf 11 stellt 301 einen Demultiplexer dar, 302 stellt einen Luminanzebenenfehlerdecodierer dar, 303 stellt α-Ebenenfehlerdecodierer dar, 304 stellt einen Vorhersagecodedecodierer dar, 305 stellt einen Deformationssynthesizer dar, 306 und 307 stellen Addierer dar, 308 und 309 stellen Einzelbildverzögerungsvorrichtungen dar. Zur Eingabe des Demultiplexers (301) gibt es gemultiplexte Deformationsparameter, die aus dem Luminanzfehler, dem α-Fehler, dem Affinitätstransformationsparameter und dem Bewegungsvektor in Bezug auf Blöcke, die in die Länge und die Breite von 18 × 22 geteilt sind, bestehen. Diese werden getrennt und jeweils an den Luminanzebenenfehler decodierer (302), den α-Ebenenfehlerdecodierer (303) und den Vorhersagecodedecodierer (304) ausgegeben.
Hier vollziehen der Luminanzebenenfehlerdecodierer (302), der α-Ebenenfehlerdecodierer (303) und der Deformationssynthesizer (305) dieselbe Wirkung wie die des Luminanzebenenfehlerdecodierers (208), des α-Ebenenfehlerdecodierers (209) bzw. des Deformationssynthesizers (202) von 10. Die erste Ausführung, bei der die Strukturen der Schichtcodierer (101 und 102) und Schichtdecodierer (105 und 106), die das Schichtcodieren von 9 bilden, so wie in 10 und 11 sind, wurde beschrieben. Die vorliegende Ausführung besitzt eine Eigenschaft, dass die Schablone sequentiell als Codieren zwischen Einzelbildern aktualisiert wird. Die Differenz der Opazität zwischen Schablonen wird der Transformationscodierung als die Wellenforminformation, die Grauskalen aufweist, unterzogen. Durch unabhängiges Codieren der α-Ebene kann das dynamische Bild der halbtransparenten Substanz, wie Mattglas und Ähnliches, gehandhabt werden, wobei sich dies von der nachfolgend beschriebenen zweiten Ausführung unterscheidet. Da das Bild geschichtet ist, werden solche Fälle, bei denen der Vordergrund und der Hintergrund nur durch den Affinitätstransformationsparameter beschrieben werden können, erhöht.
In diesem Fall wird die Codiereffizienz stark verbessert, da nur der Affinitätstransformationsparameter übertragen wird und es nicht erforderlich ist, die Blockbewegungskomponente, andere Luminanzfehlerbilder und α-Ebenenfehlerbilder zu codieren. Des Weiteren wird, wenn die Substanz deformiert ist und nicht durch den Affinitätstransformationsparameter beschrieben werden kann, die Schablone durch die Blockbewegungskomponente, andere Luminanzfehlerbilder und α-Ebenenfehlerbilder aktualisiert, wodurch das Bild nicht in großem Maße verschlechtert wird.
Nebenbei müssen die Operationen von Gleichung 19 bis 21, die durch den Affinitätsparameter-Operationsabschnitt (504) ausgeführt werden, nicht bei dem gesamten Bild durchgeführt werden. Wird die Vorhersage außer für Blöcke, die einen großen Fehlerwert aufweisen, unter Verwendung von Gleichung 14 anhand des vorhergesagten Affinitätstransformationsparameters durchgeführt, kann der Affinitätstransformationsparameter, der zu der Bewegung einer Vielzahl von Blöcken passt, nicht die in 18 × 22 geteilte gesamte Blockeinheit, vorhergesagt werden. Dadurch wird es möglich, dass Codieren der Blockbewegungskomponente, anderer Luminanzfehlerbilder und α-Ebenenfehlerbilder für die Korrektur von Schablonen lokal durchgeführt wird. Darüber hinaus ist es bei der vorliegenden Ausführung, obwohl die Berechnung der Blockkorrelation durch SAD durchgeführt wird, dennoch möglich andere Bewertungsmaßnahmen, wie quadrierte Fehlersumme (SSD) und Korrelationskoeffizient, zu verwenden.

Claims

Prädiktive Bilddecodiervorrichtung zur Decodierung eines Bildes, das in eine Mehrzahl von quadratischen Bildblöcken einschließlich einem Transparenzbildblock und einem Luminanzbildblock unterteilt ist, durch Bezugnahme auf ein Referenzbild, das ein Referenzluminanzbild und ein Referenztransparenzbild enthält, wobei sich der Transparenzbildblock und der Luminanzbildblock auf denselben Bildabschnitt beziehen, die prädiktive Bilddecodiervorrichtung umfasst: einen Transparenzdecoder zur Decodierung eines codierten Transparenzbildblocks, um einen decodierten Transparenzbildblock zu erhalten, einen Luminanzdecoder zur Decodierung eines codierten Luminanzbildblocks, um einen decodierten Luminanzbildblock zu erhalten, und einen Übereinstimmungsdecoder (304) zur Decodierung einer Übereinstimmung zwischen einem zu decodierenden Bildblock und dem Referenzbild, um eine decodierte Übereinstimmung zu erhalten, wobei der Luminanzdecoder umfasst: einen Luminanzbildungsdecoder (305) zur Bildung eines vorhergesagten Luminanzbildblocks aus dem Referenzluminanzbild unter Verwendung der decodierten Übereinstimmung, einen Fehlerluminanzbildblockdecoder (302) zur Decodierung einer codierten Differenz der Luminanz zwischen dem vorhergesagten Luminanzbildblock und dem zu decodierenden Luminanzbildblock, um einen Fehlerluminanzbildblock zu erhalten, und einen Addierer (306) zur Addierung des vorhergesagten Luminanzbildblocks und des Fehlerluminanzbildblocks, um den decodierten Luminanzbildblock zu erhalten, und der Transparenzdecoder umfasst: einen Transparenzbildungsdecoder (305) zur Bildung eines vorhergesagten Transparenzbildblocks aus dem Referenztransparenzbild unter Verwendung der decodierten Übereinstimmung und einen Transparenzbildblockdecoder (303) zur Decodierung des codierten Transparenzbildblocks unter Bezugnahme auf den vorhergesagten Transparenzbildblock, um den decodierten Transparenzbildblock zu erhalten.
Prädiktive Bilddecodiervorrichtung nach Anspruch 1, wobei der Transparenzbildblockdecoder außerdem umfasst: einen Fehlertransparenzbildblockdecoder (303) zur Decodierung einer codierten Differenz der Transparenz zwischen dem vorhergesagten Transparenzbildblock und dem zu decodierenden Transparenzbildblock, um einen Fehlertransparenzbildblock zu erhalten, und einen Addierer (307) zur Addierung des vorhergesagten Transparenzbildblocks und des Fehlertransparenzbildblocks, um den dekodierten Transparenzbildblock zu erhalten, wobei der Transparenzbildblock einen Grau-Skalen Wert zur Anzeige eines Transparenzpegels aufweist.