DE69233722T2 - Verfahren zur Ermittlung von Objektbildern und Verfahren zur Bestimmung der Bewegung davon - Google Patents

Verfahren zur Ermittlung von Objektbildern und Verfahren zur Bestimmung der Bewegung davon Download PDF

Info

Publication number
DE69233722T2
DE69233722T2 DE69233722T DE69233722T DE69233722T2 DE 69233722 T2 DE69233722 T2 DE 69233722T2 DE 69233722 T DE69233722 T DE 69233722T DE 69233722 T DE69233722 T DE 69233722T DE 69233722 T2 DE69233722 T2 DE 69233722T2
Authority
DE
Germany
Prior art keywords
viewing window
candidate
image
layer
contour line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69233722T
Other languages
English (en)
Other versions
DE69233722D1 (de
Inventor
Shuji Ashigarakami-gun Ono
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of DE69233722D1 publication Critical patent/DE69233722D1/de
Application granted granted Critical
Publication of DE69233722T2 publication Critical patent/DE69233722T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft ein computer-implementiertes Verfahren zum Extrahieren eines Objektbilds, bei dem ein Extraktionsbereich für die Extraktion eines Kandidaten für ein vorbestimmtes Objektbild aus einem Bild bestimmt wird.
  • Beschreibung des Standes der Technik
  • Ein menschliches Wesen betrachtet ein Bild und erkennt, um was es sich bei dem in dem Bild eingebetteten Ding handelt. Es ist bekannt, dass dieser Vorgang sich in zwei Stufen aufteilen lässt: eine erste Stufe besteht in der Durchführung der Aktion „Entdecken und Extrahieren", indem der Betrachtungspunkt bewegt wird, ein Erkennungsziel im Mittelpunkt des visuellen Felds eingestellt wird und gleichzeitig die Größe des Objekts aufgefunden wird. Ein zweiter Schritt besteht darin, eine Beurteilung aus dem Gedächtnis und der Kenntnis des menschlichen Wesens darüber vorzunehmen, was das in dem Betrachtungspunkt vorhandene Objekt darstellt. Üblicherweise iterieren menschliche Wesen die beiden Schritte und gelangen damit zur Information über die Außenwelt.
  • Andererseits wird bei den üblichen Methoden zum Erkennen eines Musters durch Ausführen einer Bildverarbeitung, typischerweise bei Musteranpassmethoden, Bedeutung ausschließlich auf den zweiten Schritt gelegt. Daher sind dem ersten Schritt für die „Entdeckung und Extraktion" verschiedene Beschränkungen auferlegt. Beispielsweise ist es notwendig, dass ein menschliches Wesen eingreift, um ein Ziel auszuschneiden und die Größe des Ziels zu normieren. Wie im Fall der automatischen Lesegeräte für Postleitzahlen ist es außerdem notwendig, ein Zielobjekt an einer vorbestimmten Position zu platzie ren. Als Mustererkennungsmethoden, die unbeeinflusst durch eine Größenänderung und eine Positionsänderung eines Ziels sind, wurden verschiedene Methoden vorgeschlagen, bei denen eine Beurteilung anhand einer invariablen Größe erfolgt. Beispielsweise wurden ein Verfahren unter Verwendung eines zentralen Moments, ein Verfahren unter Verwendung eines Fourier-Beschreibungselements und ein Verfahren unter Verwendung eines mittleren quadratischen Fehlers vorgeschlagen. Bei diesen Verfahren ist es zum Zweck der Erkennung notwendig, komplizierte Integrationsvorgänge oder Koordinatentransformationen auszuführen. Deshalb sind extrem große Rechenaufwendungen in solchen Fällen erforderlich, in denen nicht bekannt ist, wo sich das Zielobjekt befindet, oder in solchen Fällen, in denen ein großes Bild verarbeitet wird. Außerdem besteht bei diesen Verfahren dann, wenn mehrere Objekte in ein Bild eingebettet sind, das Risiko, dass die Koexistenz der Objekte zu Rauschen und zum Auftreten von Fehlern beim Erkennen der Objekte führt. Damit sind diese Verfahren in der Praxis nicht zufriedenstellend.
  • Als ein Modell zum Erkennen eines Zielobjekts, welches nicht beeinflusst wird durch die Größe eines Zielobjekts oder durch eine Lageverschiebung des Zielobjekts, wurde ein Modell vorgeschlagen, welches ein Neocognitron verwendet, bei dem es sich um eine der Methoden für neuronale Netzwerke handelt. Das Neocognitron ist beschrieben von Fukushima in „Neocognitron: A Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position," Collected Papers of The Institute of Electronics and Communication Engineers of Japan, A, J62-A(10), Seiten 658–665, Oktober 1979. Das Neocognitron basiert auf dem Prinzip, dass eine Musteranpassung bezüglich eines kleinen Teils eines Zielobjekts durchgeführt wird, eine Positionsverschiebung in mehreren Stufen mit einer geschichteten Architektur angenähert wird und die Positionsverschiebung hierdurch toleriert wird. Allerdings ist bei einem derartigen Prinzip naturgemäß eine Grenze gesetzt für die Erzielung sowohl einer exakten Erkennung als auch einer Angleichung der Positionsverschiebung. Beispielsweise wurde von Nagano in „Neural Net for Extracting Size Invariant Features," Computrol, Nr. 29, Seiten 26–31 berichtet, dass das Neocognitron üblicherweise nur annähernd das Vierfache von Größenschwankungen tolerieren kann. Was die Lageverschiebung angeht, kann das Neocognitron nur annäherungsweise das Zwei- oder Dreifache der Größe eines Zielobjekts tolerieren. Die Toleranzfähigkeit bleibt auch bei einem neulich vorgeschlagenen Neocognitron-Modell unverändert, welches mit einem selektiven Aufmerksamkeitsmechanismus ausgestattet ist.
  • Wie die visuelle Funktion eines menschlichen Wesens den ersten obigen Schritt durchführt, wurde noch nicht vollständig geklärt. Wie allerdings der Betrachtungspunkt sich bewegt, wurde in gewissem Ausmaß geklärt, beschrieben zum Beispiel von Okewatari in „Visual and Auditory Information Processing in Living Body Systems", Information Processing, Vol. 23, Nr. 5, Seiten 451–459, 1982 oder von Sotoyama in „Structure and Function of Visual System", Information Processing, Vol. 26, Nr. 2, Seiten 108–116, 1985. Es ist bekannt, dass Augenbewegungen eine ruckartige Bewegung beinhalten, außerdem eine Folgebewegung und eine unfreiwillige Bewegung. Verschiedene Modelle wurden vorgeschlagen, welche diese Augenbewegungen simulieren. Beispielsweise gibt es ein Modell, bei dem der Betrachtungspunkt zu der Seite eines größeren Differentialwerts eines Bildes bewegt wird, welches vorgeschlagen wurde von beispielsweise Nakano in „Pattern Recognition Learning System", Image Information (I), 1987/1, Seiten 31–37 oder von Shiratori, et al. in „Simulation of Saccadic Movement by Pseudo-Retina Mask", Television Engineering Report, ITEJ Tec. Rep. Vol. 14, Nr. 36, Seiten 25–30, ICS' 90–54, AIDS' 90–46, Juni 1990. Außerdem wurde ein Modell vorgeschlagen, bei dem der Betrachtungspunkt zur Seite größerer Helligkeit bewegt wird, siehe beispielsweise Hirahara, et al. in „Neural Net for Specifying a Viewpoint", Television Engineering Report, ITEJ Tec. Rep. Vol. 14, Nr. 33, Seiten 25–30, VAI' 90–28, Juni 1990. Außerdem wird ein Modell vorgeschlagen, bei dem der Betrachtungspunkt zu einem Punkt einer Kontur großer Krümmung bewegt wird, vergleiche beispielsweise Inui, et al. in der japanischen ungeprüften Patentveröffentlichung Nr. 2(1990)-138677 . Allerdings sind diese vorgeschlagenen Modelle ziemlich einfach und simulieren die menschliche Sehfunktion nicht gut.
  • Zum Zweck der Auffindung eines Erkennungsziels und zum Extrahieren einer das gesamte Ziel enthaltenden Zone ist es, anstatt lediglich an lokalen Merkmalen des Zielobjekts zu verhaften, notwendig, dass die Bewegung des Betrachtungspunkts stabil (ortsfest) im Mittelpunkt des gesamten Ziels wird. Mit den oben angesprochenen herkömmlichen Modellen jedoch kann ein derartiger Vorgang des Stabilisierens des Betrachtungspunkts nicht vorgenommen werden. Bei dem beispielsweise von Shiratori, et al. vorgeschlagenen Modell, bei dem eine Pseudo-Retinamaske verwendet wird, bewegt sich der Betrachtungspunkt um die Konturlinie eines Objekts nach vorn und nach hinten und wird nicht stabil. Auch bei dem von Inui et al. vorgeschlagenen Modell kann der Betrachtungspunkt schließlich nur einen Merkmalspunkt in einem gewissen begrenzten Teil eines Objekts einfangen. Darüber hinaus erfordern die meisten der oben angesprochenen herkömmlichen Modelle als stillschweigende Vorbedingung, dass der Hintergrund eines Objekts einfach ist. Damit können die meisten der vorgenannten herkömmlichen Modelle nicht bei natürlichen Bildern Anwendung finden, so zum Beispiel bei üblichen Photoaufnahmen.
  • Wie oben erläutert wurde, sind verschiedene Methoden vorgeschlagen worden, die ein zufriedenstellendes Erkennen eines Ziels in solchen Fällen ermöglichen, in denen ein menschliches Wesen eingreift, um eine Lageverschiebung des Ziels oder eine Größenänderung des Ziels anzugleichen, oder in solchen Fällen, in denen die Lage und die Größe des Ziels vorab normiert wurden. Allerdings wurde bislang noch keine hervorragende Methode vorgeschlagen, mit der das gesamte Zielobjektbild aus einem Bild zu dem Zweck der Erkennung des Objektbilds extrahiert werden kann.
  • Auf dem Gebiet der Methoden zum Extrahieren eines vorbestimmten Objektbilds aus einem Bild abhängig von Konturlinien des Objektbilds, das in das Gesamtbild eingebettet ist, und zum Treffen von Entscheidungen anhand des extrahierten Objektbilds bezüglich des Bildzustands wurden bislang Versuche unternommen, im einzelnen die Beziehung unter zahlreichen in dem Bild enthaltenen Konturlinien zu analysieren, das Analyseergebnis mit vorab vorhandener Kenntnis zu vergleichen und basierend auf zahlreichen Kombinationen die Konturlinien zu bestimmen oder zu unterscheiden, welche Konturlinien von welchem Objekt in dem Bild enthalten sind. Auf diese Weise wird es möglich, Kenntnis darüber zu erlangen, welches Ding von einem Teil in dem Bild repräsentiert wird.
  • In jüngerer Zeit wurde das Konzept vorgeschlagen, dass, wenn ein Bild aus dem Gesichtspunkt verschiedener Merkmale betrachtet wird, so zum Beispiel bezüglich Konturli nien, Helligkeitsverteilungen, Farben und Formen, das sogenannte „Feld" des Bilds auf Basis der Merkmale existiert. Dieses Konzept ist zum Beispiel beschrieben in der japanischen Patentanmeldung Nr. 3(1991)-323344 für die Erfindung, die von Ono gemacht wurde und das Extrahieren eines Kandidaten für ein Objektbild mit einer Karte eines Potentialfelds betrifft.
  • Aus dem Gesichtspunkt der Konturlinien eines Objektbilds lässt sich feststellen, dass vom Konzept her das sogenannte „Konturlinienfeld" existiert. Als ein Beispiel für das „Konturlinienfeld" kann man ein konisches Feld betrachten, in welchem das Feld in Richtung der Positionen der Konturlinien selbst sinkt.
  • Wenn Information über einen Gradienten eines Konturlinienfelds erhalten wird, so kann selbst dann, wenn die Gesamtform der Konturlinien des Bilds unbekannt ist, die Information auf verschiedenen Gebieten der Bildverarbeitungen eingesetzt werden. Beispielsweise kann die Information über den Gradienten des Konturlinienfelds dazu benutzt werden, die Richtung auf den Mittelpunkt eines Objekts vorherzusagen, welches von einer Konturlinie umgeben ist, oder die Richtung einer Konturlinie eines Objekts vorherzusagen. Auch der Betrag eines Gradientenwerts entspricht der Menge an Bildinformation an einer entsprechenden Stelle innerhalb des Bilds. Deshalb kann die Information über den Gradienten des Konturlinienfelds während der Kompression der Bildinformation oder dergleichen verwendet werden. Damit ist die Information über den Gradienten des Konturlinienfelds diejenige Bildinformation, die man für eine große Vielfalt von Zwecken nutzen kann.
  • Nur wenn zahlreiche Linien, die eine äußere Form eines in ein Bild eingebetteten Objektbilds bilden, sich in einer signifikanten Lagebeziehung zueinander befinden, kann man diese Linien als Konturlinien eines einzelnen Objekts oder mehrerer Objekte betrachten. Im allgemeinen enthält ein Bild Konturlinien eines Objektsbilds sowie zahlreiche weitere Linien. Andere Linien als die Konturlinien eines Objektbilds treten auch aufgrund eines Schattenwurfs eines Objekts auf, wobei der Schatten durch einen geringen Einfluss des Lichts hervorgerufen wird, auf der Oberfläche eines Objekts Falten wirft, auf der Oberfläche eines Objekts ein Muster oder dergleichen bildet. Das Auswählen nur derjenigen Li nien, die zu Konturlinien einen Beitrag leisten, unter den in ein Bild eingebetteten Linien, und das Beseitigen der übrigen Linien, ist wichtig im Rahmen der Methoden zur Verarbeitung unterschiedlicher Bildverarbeitungsschritte. Bei einem der typischen Verfahren zum Auswählen der Linien, die Bestandteile von Konturlinien sind, wird die Beziehung unter vielen in einem Bild enthaltenen Linien im einzelnen analysiert. Die Ergebnisse der Analyse werden dann mit vorab ermittelter Kenntnis verglichen. Basierend auf zahlreichen Linien-Kombinationen wird ermittelt oder unterschieden, welche Konturlinien von welchem Objekt in dem Bild enthalten sind.
  • Außerdem wurde ein Verfahren vorgeschlagen, bei dem Endpunkte von Konturlinien für ein gegebenes Bild ermittelt werden, um vorherzusagen, dass die Kontur eines Ziels in Richtungen gelegen ist, in denen die Endpunkte und die Konturlinien einander rechtwinklig schneiden. Ein solches Verfahren ist zum Beispiel vorgeschlagen von Finkel L. H., et al. in „Integration of Distributed Cortical Systems by Reentry: A Computer Simulation of Interactive Functionally Segregated Visual Areas", JONS (1989), Vol. 9, Nr. 9, Seiten 3188–3208. Bei dem vorgeschlagenen Verfahren werden selbst dann, wenn ein in einem gegebenen Bild aufgezeichnetes Objekt sich mit dem Hintergrund vermischt, und auch dann, wenn der Kontrast des Bilds gering ist und Konturlinien eines Objekts nicht erkennbar sind, Konturlinien von Endpunkten von in dem Bild eingebetteten Konturlinien gebildet, und hierdurch wird das Ziel aus dem Bild extrahiert. Wie zum Beispiel in 92A gezeigt ist, werden in solchen Fällen, in denen Objekte 210A, 210B, 210C und 210D in das Bild eingebettet sind, die Endpunkte dieser Objekte verlängert. Auf diese Weise werden, wie in 92B dargestellt ist, Konturlinien eines Objekts 211 gebildet.
  • Wie oben beschrieben wurde, extrahieren Menschen eine passende Größe eines Ziels der Erkennung aus einem Bild der Außenwelt und führen anschließend in effizienter Weise eine Erkennungsverarbeitung durch. Bei den herkömmlichen Methoden wird andererseits ein Versuch unternommen, ein Ziel in einem Bild der Außenwelt mit Hilfe nur eines einzelnen Verarbeitungssystems zu erkennen. Deshalb gibt es Probleme dahingehend, dass sehr komplizierte Prozeduren und recht lange Zeit erforderlich sind. Außerdem gibt es Probleme in der Weise, dass der menschliche Eingriff notwendig ist bei der Extraktion des Ziels, oder dass die Notwendigkeit besteht, dass der Hintergrund des Bilds einfach strukturiert ist. Deshalb sind herkömmliche Verfahren in der Praxis nicht zufriedenstellend. Diese Probleme treten deshalb auf, weil bislang kein effizientes Verfahren zur Verfügung gestanden hat, um ein zu erkennendes Zielobjekt aus einem Bild der Außenwelt zu extrahieren, wobei die Struktur des Erkennungssystems derart beschaffen ist, dass eine Beurteilungseinrichtung eines Erkennungssystems einer starken Belastung ausgesetzt ist.
  • Außerdem kommt es bei den oben beschriebenen herkömmlichen Verfahren in solchen Fällen, in denen mehrere Zielobjektbilder in ein Bild eingebettet sind, häufig dazu, dass ein bereits einmal extrahiertes Objektbild noch einmal extrahiert wird. Dieses Wieder-Extrahieren eines Objektbilds, welches bereits extrahiert wurde, hat abträgliche Einflüsse auf die Extraktion eines Zielobjektbilds, welches noch nicht extrahiert wurde. Aus diesem Grund kann kein hoher Wirkungsgrad bei der Ausführung der Extraktion erreicht werden.
  • Außerdem kommt es bei den herkömmlichen Verfahren, die das Wandern des Betrachtungspunkts simulieren, häufig vor, dass der Betrachtungspunkt nicht nur an einer Stelle anhält, an der sich der Betrachtungspunkt beim Auffinden eines Zielobjekts befindet, sondern auch an einer Stelle, an der sich kein Zielobjekt befindet. In diesem Fall muss eine Person in der Weise eingreifen, dass der Betrachtungspunkt aus dem Stillstandszustand an der Stelle, an der sich kein Zielobjekt befindet, herausbewegt wird. Derartige Probleme machen die herkömmlichen Verfahren für die Praxis untauglich.
  • Bei den oben beschriebenen herkömmlichen Verfahren kommt es in Fällen, in denen ein von einem Zielobjekt verschiedenes kleines Objekt beim Wandern des Betrachtungspunkts über ein gegebenes Bild in Richtung des Zielobjekts angetroffen wird, häufig vor, dass das andere Objekt fälschlicherweise als das Zielobjekt erkannt wird. In diesen Fällen hält der Betrachtungspunkt an der Stelle des unterschiedlichen Objekts an und kann sich nicht mehr in Richtung des Zielobjekts bewegen.
  • Die oben angesprochenen Verfahren, bei denen ein Objektbild aus einem Bild zu dem Zweck extrahiert wird, Information über einen Gradienten eines Konturlinienfelds zu er halten, haben den Nachteil, dass sehr große Mengen an Berechnungen erforderlich sind. Wenn außerdem Konturlinien Fehlteile enthalten, oder wenn die Formen der Konturlinien unvollständig sind, kann ein Vergleich mit vorab erlangter Kenntnis nicht in passender Weise vorgenommen werden. Folglich kann die Bestimmung oder Unterscheidung darüber, welche Konturlinien von welchem Objekt in dem Bild enthalten sind, nicht vorgenommen werden. Wenn außerdem ein Fehler bei der Unterscheidung auftritt, gibt es Probleme dadurch, das nicht einmal Information über Teile der Konturlinien gewonnen werden kann.
  • Außerdem wird bei den oben angesprochenen Modellen, die das Wandern des menschlichen Blickpunkts simulieren, Bedeutung ausschließlich auf solche Teile eines Bilds gelegt, an denen Unterscheidungswerte des Bilds groß sind oder Krümmungen der Konturlinien stark ausgeprägt sind. Diese Verfahren sind zu einfach, und es ist schwierig, ein Konturlinienfeld mit solchen Prozessen zu erkennen.
  • Die oben angesprochenen Verfahren, bei denen lediglich die Konturlinien bildenden Linien von in dem Bild eingebetteten Linien ausgewählt werden, während die übrigen Linien eliminiert werden, haben den Nachteil, dass, wenn die Anzahl der in das Bild eingebetteten Linien groß wird, enormer Rechenaufwand für Kombinationen der Linien erforderlich ist. Wenn außerdem die Linien fehlende Teile aufweisen, oder wenn die Beziehung zwischen den Linien unvollständig ist, kommt es zu einer Inkonsistenz zwischen den Linien und der vorab ermittelten Kenntnis, so dass ein Vergleich mit dieser vorab erlangten Kenntnis nicht in passender Weise vorgenommen werden kann. Das Bestimmen oder Unterscheiden der Konturlinien lässt sich daher nicht in wirksamer Weise vornehmen.
  • Außerdem kommt es häufig vor, dass mehrere Objektbilder in ein gegebenes Bild eingebettet sind. Beispielsweise kann in Fällen eines Bilds eines menschlichen Gesichts mit einer Maske und eines menschlichen Gesichts als Bild im Vordergrund eines Wegweiserbilds ein kleines Objektbild im Vordergrund eines großen Objektbilds gelegen sein und möglicherweise das große Objektbild überlappen oder Teile von Objektbildern können einander überlappen. In solchen Fällen ist es mit den oben beschriebenen herkömmlichen Verfahren schwierig, eine Beurteilung dahingehend vorzunehmen, welches Objektbild als Extraktionsziel der Konturlinien hergenommen werden soll. Außerdem ist es schwierig, die Konturlinien beider Zielobjektbilder unabhängig voneinander zu extrahieren.
  • Bei dem oben angesprochenen Verfahren von Finkel et al., bei dem Endpunkte von Konturlinien erfasst werden, wie dies in 92A durch Pfeile angedeutet ist, werden Detektiervorgänge bezüglich der Endpunkte der Konturlinien ausgeführt, wobei die Endpunkte sich an allen Stellen in sämtlichen Richtungen innerhalb des Bilds von einem Endpunkt jedes der Objekte 210A, 210B, 210C und 210D aus gelesen sein können. Außerdem zielt das vorgeschlagene Verfahren darauf ab, eine Konturlinie in jede Richtung vorherzusagen. Bei dem vorgeschlagenen Verfahren muss also in solchen Fällen, in denen ein kompliziertes Bild vorliegt, eine Vorhersage bezüglich einer großen Vielfalt von Konturlinien getroffen werden, und die Konturlinien eines Zielobjekts können nicht akkurat vorhergesagt und extrahiert werden.
  • Es wurde vorgeschlagen (PROCEEDINGS OF THE SPIE CONFERENCE, APPLICATIONS OF ARTIFICIAL INTELLIGENCE VI Vol. 937, 6. April 1988, ORLANDO, FLORIDA, USA, Seiten 328–335 XP000044424 LEE J. S. J., LIN C. "An Intelligent Real-Time Multiple Moving Objekt Tracker") ein Interessensgebiet innerhalb eines Bilds zu identifizieren, um ein Kandidatenobjekt zu segmentieren. Man kann dies in der Weise verstehen, dass ein Mittelpunkt eines Betrachtungsfensters zu einem Kandidatenobjekt wandert.
  • PROCEEDINGS OF THE 3RD INTERNATIONAL WORKSHOP, TIME-VARYING IMAGE PROCESSING AND MOVING OBJECT RECOGNITION 2, 31. Mai 1989, FLORENCE, ITALY, Seiten 316–322 WELLER G. A.; GROEN F. C. A. "A GRADIENT COMPARISON METHOD FOR TRACKING AND FOCUSING PURPOSES" schlägt die Verwendung eines Nachführfensters zum Verfolgen eines beweglichen interessierenden Objekts vor. Auch dies kann verstanden werden als Wandern eines Mittelpunkts eines Betrachtungsfensters zu einem Kandidatenobjekt.
  • OFFENBARUNG DER ERFINDUNG
  • Ein Ziel der Erfindung ist es, ein Verfahren zum Extrahieren eines Objektbilds anzugeben, bei dem selbst dann, wenn in einem gegebenen Bild mehrere zu extrahierende Objektbilder enthalten sind, die Objektbilder effizient extrahiert werden, so dass ein bereits einmal extrahiertes Objektbild nicht noch einmal extrahiert wird.
  • Ein spezifisches Ziel der Erfindung ist die Schaffung eines Verfahrens zum Extrahieren eines Objektbilds, bei dem die Belastung durch Arbeitsschritte im Bereich eines Extraktionsschritts, beispielsweise eines Beurteilungsschritts, bei dem eine Beurteilung dahingehend gemacht wird, ob ein extrahierter Kandidat für ein vorbestimmtes Objektbild das vorbestimmte Objektbild ist oder nicht, und ein Lernschritt, deutlich gering gehalten wird, und die Leistung des Verarbeitungssystems unter Ausnutzung des Verfahrens zum Extrahieren eines Objektbilds gemäß der Erfindung entsprechend gut ist.
  • Erreicht wird dies durch die Merkmale des Anspruchs 1. Bevorzugte Ausführungsformen sind durch die abhängigen Ansprüche definiert.
  • Die vorliegende Erfindung schafft außerdem ein Verfahren zum Extrahieren eines Objektbilds, bei dem Extrahiervorgänge nur bezüglich einer begrenzten Zone im Inneren eines Betrachtungsfensters ausgeführt werden, das heißt ausschließlich bezüglich eines Kandidaten für ein vorbestimmtes Objektbild, und dadurch der Umfang der Operationen auch dann gering gehalten wird, wenn das betreffende Bild eine beträchtliche Größe aufweist.
  • Die Erfindung schafft außerdem ein Verfahren zum Extrahieren eines Objektbilds, bei dem in einem System, in welchem sich eine Bildeingabeeinrichtung wie zum Beispiel eine Kamera, selbst bewegt, ein Betrachtungsfenster dazu gebracht wird, in Richtung eines Objekts zu wandern, das in ein Bild eingebettet ist, um eine von der Bewegung eines Hintergrunds abweichende Bewegung zu zeigen, und hierdurch das Objekt aus dem Bild extrahiert wird.
  • Die vorliegende Erfindung schafft außerdem ein Verfahren zum Extrahieren eines Objektbilds, bei dem ein Kandidat für ein vorbestimmtes Objektbild exakt aus einem Bild extrahiert wird, der Mittelpunkt eines Betrachtungsfensters an einem Anhalten gehindert wird, wenn der Mittelpunkt des Betrachtungsfensters dazu neigt, an der Stelle eines Objekts anzuhalten, welches verschieden ist von dem Kandidaten für ein vorbestimmtes Objektbild, während der Mittelpunkt des Betrachtungsfensters über das Bild in Richtung des Kandidaten für das vorbestimmte Objektbild wandert, und der Mittelpunkt der Betrachtungsfensters hierdurch veranlasst wird, in effizienter Weise zu wandern, so dass der Kandidat für das vorbestimmte Objektbild effizient extrahiert werden kann.
  • Die vorliegende Erfindung schafft außerdem ein Verfahren zum Extrahieren eines Objektbilds, bei dem ein neuronales Netzwerk dazu verwendet wird, einen Kandidaten für das vorbestimmte Objektbild zu extrahieren und zu verhindern, dass der Mittelpunkt eines Betrachtungsfensters anhält (beispielsweise mit Hilfe eines Annealing-Verfahrens oder durch das Hinzufügen eines Trägheitsterms), um dadurch den Kandidaten für das vorbestimmte Objekt exakter zu extrahieren, wobei die Leistung eines Verarbeitungssystems, das von dem Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung Gebrauch macht, auf einem guten Wert gehalten wird.
  • Die Erfindung schafft außerdem ein Verfahren zum Extrahieren eines Objektbilds, bei dem zwei Typen von Richtungen, in die ein Betrachtungsfenster gerade wandert, eingestellt werden, wobei diese jeweiligen Richtungen unabhängig voneinander erfasst werden. Ausgangssignale eines neuronalen Netzwerks veranlassen das Betrachtungsfenster, in die jeweiligen Richtungen zu wandern und werden in gut ausgewogener Weise eingesetzt. Das Extrahieren eines Objektbilds wird dadurch mit einem hohen Grad an Freiheit entsprechend den vorgesehenen Zwecken durchgeführt, so zum Beispiel für einen Unterscheidungsvorgang oder einen Lernvorgang, für den das extrahierte Objektbild zu verwenden ist.
  • Die vorliegende Erfindung schafft außerdem ein Verfahren zum Detektieren eines Gradienten eines Konturlinienfelds, wobei Teile der Information über Bereiche einer Kontur linie eines Objektbilds, das in ein Bild eingebettet ist, in effizienter Weise erfasst werden, die Beziehungen unter den Stellen der Teile der durch die detektierten Informationsstücke repräsentierten Konturlinie gemeinsam verwendet werden, und Information über den Gradienten eines Konturlinienfelds mit einer sehr einfachen Architektur gewonnen werden.
  • Die Erfindung schafft außerdem ein Verfahren zum Detektieren eines Gradienten eines Konturlinienfelds, bei dem der Aufwand für einen Prozess zum Extrahieren eines Objektbilds durch Vorhersagen der Richtung zum Mittelpunkt des Objektbilds, ein Prozess zum Vorhersagen der Richtung entlang einer Konturlinie des Objektbilds, ein Prozess zum Komprimieren von Bildinformation oder dergleichen deutlich gering gehalten wird, außerdem die für die Operationen benötigte Zeit gering gehalten wird und die Leistungsfähigkeit eines Verarbeitungssystems, das von dem erfindungsgemäßen Verfahren zum Detektieren eines Gradienten eines Konturlinienfelds auf einem hohen Wert gehalten wird.
  • Die vorliegende Erfindung schafft ferner ein Verfahren zum Extrahieren einer Konturlinie eines Objektbilds, bei dem eine Konturlinie eines vorbestimmten Objektbild exakt und in passender Weise aus einem gegebenen Bild extrahiert wird, die extrahierte Linie für die Bewegung eines Betrachtungsfensters, das Detektieren eines Gradienten eines Bildfelds oder das Extrahieren eines Objektbilds eingesetzt werden kann und die Zeit, die für die Operation notwendig ist, kurz gehalten werden kann.
  • Die vorliegende Erfindung schafft außerdem ein Verfahren zum Extrahieren einer Konturlinie eines Objektbilds, bei dem selbst dann, wenn eine Konturlinie eines Kandidaten für ein vorbestimmtes Objektbild unklar ist, für den Kandidaten eines vorbestimmten Objektbilds detektierte Konturlinien verkleinert werden durch Erkennen von Endpunkten von radialen Linien, die durch den Kandidaten für das vorbestimmte Objektbild gesperrt werden, und die Konturlinie des Kandidaten für das vorbestimmte Objektbild dadurch exakt aus dem gegebenen Bild extrahiert wird.
  • Die Erfindung schafft außerdem ein Verfahren zum Extrahieren einer Konturlinie eines Objektbilds, bei dem selbst bei einem Bild, in dem mehrere Kandidaten für vorbestimmte Objektbilder eingebettet sind, so dass zumindest Teile der Kandidaten einander überlappen, sämtliche Konturlinien der Kandidaten für die vorbestimmten Objektbilder exakt und unabhängig voneinander extrahiert werden.
  • Die vorliegende Erfindung schafft außerdem ein Verfahren zum Extrahieren einer Konturlinie eines Objektbilds, bei dem Konturlinien von Kandidaten für vorbestimmte Objektbilder mit verschiedenen Größen und/oder Formen extrahiert werden als solche, die annähernd identische Größen und/oder Formen haben, so dass der Aufwand für einen Schritt nach dem Extrahieren der Konturlinie des Objektbilds zum Bewegen eines Betrachtungsfensters oder zum Erfassen eines Gradienten eines Felds gering gehalten wird und eine angemessene Bewegung des Betrachtungsfensters oder ein angemessenes Erkennen des Feldgradienten ermöglicht wird.
  • Im folgenden soll erläutert werden, was hier unter dem Begriff „Potentialfeld" verstanden wird. Wenn ein Mensch ein Bild betrachtet, schaut er über das Bild und bewegt seinen Blickpunkt zu einem vorbestimmten, in dem Bild eingebetteten Objektbild (zum Beispiel zu einem Bild eines Gesichts in dem Fall, dass das Bild ein menschliches Gesicht ist und als Hintergrund den Himmel zeigt). Anschließend erkennt er, dass das im Blickpunkt befindliche Ding das Gesichts-Bild ist. Wenn sich der Blickpunkt gerade an einer Stelle befindet, die von dem vorbestimmten Objektbild entfernt ist, so muss der Blickpunkt eine lange Strecke in Richtung auf das in dem Bild enthaltene vorbestimmte Objektbild wandern. Wenn der Blickpunkt sich exakt an der Stelle in der Nähe des vorbestimmten Objektbilds befindet, muss der Blickpunkt nur eine kurze Strecke zurücklegen, um das vorbestimmte Objektbild zu erreichen. An der Stelle des vorbestimmten Objektbilds wird der Blickpunkt stabil. Insbesondere dann, wenn Richtung und Betrag, in der bzw. über den sich der Blickpunkt bewegt, als Vektor für die Bewegung oder Wanderung des Betrachtungspunkts ausgedrückt wird, so repräsentiert der Vektor für de Bewegung des Blickpunkts oder Betrachtungspunkts die Richtung des Blickpunkt-Stabilisierungspunkts und der entsprechenden Bewegungsstrecke, ausgehend von der derzeitigen Lage des Blickpunkts. An dem Blick-Stabilisierungspunkt, das heißt an dem Mittelpunkt des vorbestimmten Objektbilds, beträgt der Vektor für die Bewegung des Blicks Null. Wenn man berücksichtigt, dass das Bild ein „Feld" der Blick-Stabilität besitzt, so ist dieses „Feld" an dem Blick-Stabilisierungspunkt flach und ist ein Gradient an einer Stelle, an der der Blick instabil ist, und von dem aus der Blick wandern muss, um stabil zu werden. Wie oben ausgeführt, kann man sagen, dass der Vektor für die Bewegung des Blicks den Gradienten des „Felds" repräsentiert. Außerdem kann man sagen, dass die Wanderung des Blicks äquivalent ist zu der Bewegung zu der Seite eines niedrigeren Potentials innerhalb des „Felds". Das „Feld" der Stabilität des Blicks wird hier als „Potentialfeld" bezeichnet.
  • Die Karte oder Abbildung des Potentialfelds über dem gesamten Bild wird aus Gradientenvektoren des Potentialfelds erzeugt, die an einzelnen Stellen des gesamten Bilds berechnet werden. Insbesondere die Vektoren für die Bewegung des menschlichen Blicks werden als Gradientenvektoren des Potentialfelds hergenommen und so behandelt, als ob das Potentialfeld in der Richtung geneigt wäre, in der jeder Gradientenvektor des Potentialfelds gerichtet ist. Die Feldgradienten werden auf dem Gesamtbild aufgezeichnet, so dass der Gradientenvektor des Potentialfelds am Mittelpunkt des Kandidaten für das vorbestimmte Objektbild den Wert Null annehmen kann, das heißt, dass das Potentialfeld dort ein Minimum wird. Aus der auf diese Weise erstellten Karte lässt sich einfach ersehen, welchen Weg der Blick an einer laufenden Stelle auf dem Bild nehmen wird, um in den Minimum-Punkt des Potentialfelds zu gelangen. Die Extraktionsfläche wird abhängig von der Größe und/oder der Form des Kandidaten für das vorbestimmte Objektbild bestimmt, indem der Minimumpunkt des Potentials als Referenzwert hergenommen wird.
  • Das Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung kann auf verschiedene Weise gemäß den Ansprüchen 2 bis 8 ausgeführt werden, und hierauf sollte Bezug genommen werden.
  • Bei dem Verfahren zum Extrahieren eines Objektbilds, bei dem eine Extraktionsfläche zum Extrahieren eines Kandidaten für ein vorbestimmtes Objektbild aus einem Bild bestimmt wird, wird der Mittelpunkt des Betrachtungsfensters, das eine vorbestimmte Größe hat, dazu gebracht, zu der Stelle des Kandidaten für das vorbestimmte Objektbild zu wandern, und die Extraktionsfläche wird abhängig von der Größe und/oder der Form des Kandidaten für das vorbestimmte Objektbild bestimmt. Während der Bestimmung der Extraktionsfläche wird der Mittelpunkt des Betrachtungsfensters als Referenzwert hergenommen. Deshalb kann nicht nur ein spezifisches Objektbild extrahiert werden, sondern auch ein vorbestimmtes Objektbild mit beliebiger Form. Selbst wenn der Hintergrund des Kandidaten für das vorbestimmte Objektbild in dem gegebenen Bild kompliziert ist, lässt sich der Kandidat für das vorbestimmte Objektbild in passender Weise extrahieren.
  • Alternativ kann ein Bild, das in die Zone im Inneren des Betrachtungsfelds vorbestimmter Größe fällt, aus dem Bild ausgeschnitten werden, und eine Konturlinie des Kandidaten für das vorbestimmte Objektbild kann aus dem Ausschnittsbild erkannt werden. Anschließend werden Konturlinienkomponenten, die in einem vorbestimmten Winkel gegenüber den Umfangsrichtungen konzentrischer, den Mittelpunkt des Betrachtungsfensters umgebender Kreise geneigt sind, aus der Konturlinie des Kandidaten für das vorbestimmte Objektbild extrahiert. Aus diesen Konturlinienkomponenten werden Azimutvektoren ermittelt. Falls notwendig, werden auf die Azimutvektoren Phasenverschiebungen in vorbestimmten Winkeln oder Gewichten angewendet. Dann wird ein Vektor aus den Azimutvektoren zusammengesetzt, und dadurch wird ein Vektor für die Versetzung des Betrachtungsfensters ermittelt. Auf diese Weise wird die Richtung bestimmt, in der der Mittelpunkt des Betrachtungsfensters wandern oder weiterrücken sollte. Anschließend wird die Extraktionsfläche abhängig von der Größe und/oder der Form des Kandidaten für das vorbestimmte Objektbild ermittelt, der Mittelpunkt des Betrachtungsfensters wird hierbei als Referenzwert hergenommen. In solchen Fällen, in denen das Ausschnittsbild durch die Komplex-Log-Abbildung transformiert wird, kann der Kandidat für das vorbestimmte Objektbild in der gleichen Weise extrahiert werden, wie wenn die Extraktion des Kandidaten für das vorbestimmte Objektbild in der kartesischen Ebene durchgeführt würde. Außerdem braucht die Verarbeitung nur für einen begrenzten Teil des Bilds ausgeführt werden, in welchem sich der Kandidat für das vorbestimmte Objektbild befindet, so dass die Arbeitszeit kurz gehalten werden kann.
  • Als weitere Alternative können, nachdem mehrere Konturlinien des Kandidaten für das vorbestimmte Objektbild aus den mehreren so erhaltenen Konturlinien erkannt wurden, Konturlinien mit einem hohen Maß an Kontinuität in etwa der gleichen Richtung wie der vorbestimmten Richtung und/oder Konturlinien mit hoher Intensität dazu veranlasst werden, miteinander zu kooperieren und dadurch verstärkt zu werden. Die Konturlinien mit einem hohen Maß an Kontinuität und/oder die Konturlinien mit starker Intensität sowie Konturlinien mit einem geringen Maß an Kontinuität in etwa der gleichen Richtung wie der vorbestimmten Richtung und/oder Konturlinien mit geringer Intensität werden dazu gebracht, miteinander zu konkurrieren. Auf diese Weise werden die Konturlinien mit einem geringen Maß an Kontinuität und/oder Konturlinien mit geringer Intensität gelöscht. Aus einer betonten Konturlinie, die gebildet wurde durch die Betonung der Konturlinien mit einem hohen Maß an Kontinuität und/oder der Konturlinien mit starker Intensität, werden sämtliche Komponenten der betonten Konturlinie extrahiert, die um einen vorbestimmten Winkel gegenüber den Umfangsrichtungen von konzentrischen Kreisen um den Mittelpunkt des Betrachtungsfensters geneigt sind. Auf diese Weise lässt sich der Kandidat für das vorbestimmte Objektbild noch einfacher extrahieren.
  • In Fällen, in denen das Ausschnittsbild durch die Komplex-Log-Abbildung transformiert wird, kann der Kandidat für das vorbestimmte Objektbild in der gleichen Weise extrahiert werden, wie wenn die Extraktion des Kandidaten in der kartesischen Ebene ausgeführt würde.
  • Auch in den Fällen, in denen die Extraktion des Kandidaten für das vorbestimmte Objektbild entsprechend seiner Konturlinie und die Extraktion des Kandidaten für das vorbestimmte Objektbild entsprechend seiner Farbe gleichzeitig in der oben beschriebenen Weise ausgeführt werden, lässt sich der Kandidat für das vorbestimmte Objektbild exakter extrahieren.
  • Das Extrahieren des Kandidaten für das vorbestimmte Objektbild gemäß dessen Konturlinie, ein Extrahieren des Kandidaten für das vorbestimmte Objektbild gemäß dessen Farbe und ein Extrahieren des Kandidaten für das vorbestimmte Objektbild entsprechend dessen Bewegung sollten vorzugsweise simultan ausgeführt werden. In solchen Fällen lässt sich der Kandidat für das vorbestimmte Objektbild noch exakter extrahieren.
  • Wenn außerdem ein Vektor für das Weiterrücken des Betrachtungsfensters zusammengesetzt wird, addieren sich möglicherweise thermische Schwankungen oder ein Trägheitsterm zu dem Vektor für das Weiterrücken des Betrachtungsfensters. In diesem Fall kann verhindert werden, dass der Mittelpunkt des Betrachtungsfensters anhält, wenn die Wahrscheinlichkeit besteht, dass er an einer anderen Stelle als der Stelle des Kandidaten für das vorbestimmte Objektbild anhält, beispielsweise an der Stelle eines Objekts, welches sich von dem Kandidaten unterscheidet, während der Mittelpunkt des Betrachtungsfensters über ein gegebenes Bild in Richtung des Kandidaten für das vorbestimmte Objektbild vorrückt.
  • In solchen Fällen, in denen ein neuronales Netzwerk verwendet wird und das Ausgangssignals des neuronalen Netzwerks unter Verwendung des Annealing-Prozesses thermischen Schwankungen ausgesetzt ist, kann der Kandidat für das vorbestimmte Objektbild durch parallele Operationen mehrerer Neuronen effizient extrahiert werden. Aus diesem Grund kann eine hohe Leistungsfähigkeit des Systems beibehalten werden, in welchem das Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung eingesetzt wird.
  • Außerdem kann die Größe des Betrachtungsfensters entsprechend der Lage der Konturlinie des Kandidaten für das vorbestimmte Objektbild geändert werden, wobei die Lage in radialer Richtung bezüglich des Mittelpunkts des Betrachtungsfensters verstanden wird. Selbst wenn in solchen Fällen mehrere Kandidaten für vorbestimmte Objektbilder deutlich verschiedener Größen in dem Bild eingebettet sind, lassen sich sämtliche Kandidaten für vorbestimmte Objektbilder korrekt extrahieren.
  • Außerdem lässt sich der Betrag des Vektors für das Vorrücken des Betrachtungsfensters abhängig von der Lage der Konturlinie des Kandidaten für das vorbestimmte Objektbild ändern, wobei die Lage in radialer Richtung bezüglich des Mittelpunkts des Fensters verstanden wird. In diesen Fällen kann das Betrachtungsfenster rasch zu der Stelle des Kandidaten für das vorbestimmte Objektbild wandern. Wenn außerdem das Betrachtungsfensters dem Kandidaten für das vorbestimmte Objektbild nahe kommt, kann das Betrachtungsfenster dazu gebracht werden, sich nur langsam zu bewegen. Aus diesem Grund lässt sich das Extrahieren des Kandidaten für das vorbestimmte Objektbild (im folgenden einfach als „Kandidat" bezeichnet) effizienter durchführen.
  • Nachdem der Kandidat aus dem Bild mit einem der Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung extrahiert wurde, kann außerdem der Prozess zum Verhindern ausgeführt werden, dass der extrahierte Kandidat noch einmal extrahiert wird, und zwar in bezug auf die Bildzone, für die der Kandidat extrahiert wurde. Selbst wenn in derartigen Fällen mehrere Kandidaten für vorbestimmte Objektbilder in ein einzelnes Bild eingebettet sind, kann ein bereits extrahierter Kandidat an einem erneuten Extrahieren gehindert werden.
  • Der Prozess zum Verhindern einer nochmaligen Extraktion kann durchgeführt werden mit Hilfe eines Maskiervorgangs oder durch Einführen eines Ermüdungsterms in das neuronale Netzwerk. Auf diese Weise kann verhindert werden, dass ein bereits extrahiertes Objekt noch einmal extrahiert wird.
  • Bi dem bevorzugten Verfahren zum Extrahieren eines Objekts gemäß der Erfindung wird ein Bild, welches in die Zone im Inneren des Blickfensters vorbestimmter Größe fällt, aus einem gegebnen Bild ausgeschnitten. Ein Vektor für die Bewegung des Betrachtungsfensters wird zusammengesetzt aus dem Ausschnittsbild, und der Mittelpunkt des Fensters wird dazu gebracht, entsprechend dem Vektor für die Bewegung des Betrachtungsfensters vorzurücken. Wenn der Mittelpunkt des Betrachtungsfensters anhält, erfolgt eine Beurteilung, um zu sehen, ob ein Kandidat in dem in Zone im Inneren des Betrachtungsfelds fallenden Bild enthalten ist oder nicht. Der Kandidat wird in den Fällen extrahiert, in denen beurteilt wird, dass der Kandidat in dem in die Zone im Inneren des Betrachtungsfensters fallenden Bild enthalten ist. Nachdem der Kandidat extrahiert wurde, oder in Fällen, in denen sich kein Kandidat in dem Bild im Inneren der Zone des Betrachtungsfensters befindet, wird der Mittelpunkt des Fensters zu einer anderen Stelle auf dem gegebenen Bild transferiert. Im Anschluss daran wird der Mittelpunkt des Fensters erneut von der Stelle aus, zu der er transferiert wurde, in Bewegung gesetzt. Wenn daher der Mittelpunkt an gehalten hat, kann er seinen Anhaltezustand verlassen und erneut auf die Suche nach einem Kandidaten gehen.
  • In solchen Fällen, in denen der Mittelpunkt des Betrachtungsfensters an einer Stelle des Bilds angehalten hat, an der sich kein Kandidat befindet, kann außerdem der Mittelpunkt des Fensters in eine beliebige Richtung transferiert werden, um erneut eine Kandidatensuche zu beginnen. In solchen Fällen, in denen der Mittelpunkt des Fensters an einer Konturlinie eines Kandidaten angehalten hat, sollte der Mittelpunkt des Fensters vorzugsweise entlang der Konturlinie, auf der er angehalten hat, transferiert werden. Auf diese Weise kann der Mittelpunkt des Betrachtungsfensters dazu gebracht werden, zu einem Schnittpunkt der Konturlinien oder dergleichen zu wandern, der einen der Merkmalspunkte des Kandidaten bildet, und der Kandidat kann auf diese Weise extrahiert werden.
  • Darüber hinaus kann der Prozess zum Verhindern einer erneuten Extraktion für die Zone ausgeführt werden, aus der der Kandidat extrahiert wurde. In diesen Fällen wird, wenn der Mittelpunkt des Fensters transferiert wird, der bereits extrahierte Kandidat nicht erneut extrahiert. Aus diesem Grund kann die Extraktion von Kandidaten in effizienterer Weise vorgenommen werden.
  • Neuronale Netzwerke können dazu benutzt werden, die Extraktion des Kandidaten für ein vorbestimmtes Objekt durchzuführen, außerdem die Kompensation für die Bewegung des Hintergrunds, den Prozess zum Verhindern einer Neu-Extraktion, den Transfer des Mittelpunkts des Betrachtungsfensters und dergleichen. In diesen Fällen kann der Kandidat effektiv durch Paralleloperationen mehrerer Neuronen extrahiert werden. Aus diesem Grund kann die Leistungsfähigkeit des Systems, in welchem das erfindungsgemäße Verfahren zum Extrahieren eines Objektbilds eingesetzt wird, auf einem hohen Wert gehalten werden.
  • Bei dem bevorzugten Verfahren zum Extrahieren eines Objektbilds werden die Vektoren für die Bewegung des Bettrachtungsfensters, die mit Hilfe eines der obigen Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung bestimmt wurden, als Gradien tenvektoren eines Potentialfelds betrachtet. Die Gradientenvektoren des Potentialfelds werden auf dem Gesamtbild aufgezeichnet, und es wird hierdurch eine Karte des Potentialfelds erzeugt. Die Extraktionsfläche wird anschließend abhängig von der Größe und/oder der Form des Kandidaten für das vorbestimmte Objektbild festgelegt, wobei ein Minimumpunkt des Potentials in der Karte als Referenzwert während der Bestimmung der Extraktionsfläche hergenommen wird. Wie bei den obigen Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung ist es daher möglich, nicht nur einen Kandidaten für ein spezifisches Objektbild zu extrahieren, sondern auch einen Kandidaten für ein Objektbild beliebiger Form. Selbst wenn der Hintergrund des Kandidaten in dem Bild kompliziert ist, lässt sich der Kandidat in angemessener Weise extrahieren. Die gleichen Effekte kann man auch mit dem siebten Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung erzielen.
  • Bei dem Verfahren zum Detektieren eines Gradienten eines Konturlinienfelds wird ein Vektor zusammengesetzt aus Azimutvektoren, die mit einem der obigen Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung detektiert wurden, und der zusammengesetzte, so gewonnene Vektor wird als Gradient des Konturlinienfelds hergenommen. Aus der Information über den Gradienten des durch die Konturlinie gebildeten Felds lässt sich also die Richtung zum Mittelpunkt des vorbestimmten Objektbilds entsprechend der Konturlinie des Objektbilds erfassen. Außerdem kann entsprechend der detektierten Richtung zum Mittelpunkt des vorbestimmten Objektbild das Vorrücken des Betrachtungsfensters iteriert werden, und das Fenster kann zu dem Mittelpunkt des vorbestimmten Objektbilds gebracht werden. Darüber hinaus lässt sich die Richtung entlang der Konturlinie dadurch erfassen, dass man die Richtung auffindet, die sich rechtwinklig mit der Richtung des Gradienten des Konturlinienfelds schneidet. Auf diese Weise kann das Betrachtungsfenster dazu gebracht werden, derart vorzurücken, dass es der Konturlinie folgt. Außerdem ist der Betrag des Werts des Gradienten des Konturlinienfelds proportional zu der Menge der Bildinformation, die an der entsprechenden Stelle vorhanden ist. Deshalb kann ausschließlich die benötigte Information selektiv aus dem Bild entsprechend der Information über den Feldgradienten erfasst werden, der durch ein von der Konturlinie umgebenes Objekt gebildet wird. Die so erfasst benötigte Information kann dann so komprimiert werden, dass sie effektiv nutzbar ist, oder sie kann rasch übertragen werden. Darüber hinaus muss die Verarbeitung lediglich für ein begrenztes Teilgebiet des Bilds durchgeführt werden, so dass die Arbeitszeit kurz gehalten werden kann.
  • Bei dem Verfahren zum Extrahieren einer Konturlinie eines Objektbilds gemäß der Erfindung wird ein in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fallendes Bild aus dem gegebenen Bild ausgeschnitten. Linien, die sich in eine vorbestimmte Richtung erstrecken, werden dann aus dem Ausschnittsbild erfasst. Von den so erfassten Linien werden solche Linien, die ein hohes Maß an Kontinuität in nahezu gleicher Richtung wie die vorbestimmte Richtung aufweisen, und/oder Linien mit einer hohen Intensität dazu gebracht, zusammenzuwirken, wodurch sie verstärkt werden. Außerdem werden Linien mit einem hohen Maß an Kontinuität und/oder die Linien mit hoher Intensität und Linien mit geringem Maß an Kontinuität in nahezu der gleichen Richtung wie der vorbestimmten Richtung und/oder Linien mit geringer Intensität dazu gebracht, miteinander in Konkurrenz zu treten, und die Linien mit einem geringen Maß an Kontinuität und/oder die Linien mit geringer Intensität werden hierdurch beseitigt. Auf diese Weise wird die Konturlinie des Kandidaten für das vorbestimmte Objektbild extrahiert. Durch die Iteration der Gewichtung und der Auslöschung werden diejenigen Linien selektiert, die die Konturlinie des Kandidaten bilden, wohingegen diejenigen Linien, die nicht die Konturlinie des Kandidaten bilden, gelöscht werden. Selbst wenn die Linien fehlende Abschnitte aufweisen, werden diese durch den Wettstreit und das Zusammenwirken aufgefüllt. Hierdurch ist es möglich, nicht nur eine Konturlinie eines Kandidaten aufzufinden und zu extrahieren, sondern auch eine Konturlinie eines Kandidaten mit beliebiger Form. Selbst wenn der Hintergrund des Kandidaten innerhalb des Bilds kompliziert ist, lässt sich die Konturlinie des Kandidaten in angemessener Weise extrahieren. Außerdem kann die Verarbeitung, die für lediglich einen beschränkten Teil des Bilds aufzuwenden ist, zu einer kurzen Operationszeit führen.
  • Bei dem Verfahren zum Extrahieren einer Konturlinie eines Objektbilds gemäß der Erfindung wird das Erfassen von Linien, die durch ein in ein Bild eingebettetes Objektbild gebildet werden, mit jedem von mehreren synaptischen Gewichtsmustern zum Erfassen von Konturlinien durchgeführt, wobei diese Muster Größen aufweisen, die sich stufenweise voneinander unterscheiden, indem eine Faltung des Ausschnittsbilds durch Verwendung jeder der mehreren synaptischen Gewichtsmuster zum Erfassen von Konturlinien erfolgt. Die Betonung oder Hervorhebung und das Beseitigen oder Löschen der erfassten Linien erfolgen durch Ausführen einer Faltung bezüglich jeder Gruppe von Liniengruppen, die mit den zugehörigen synaptischen Gewichtsmustern zum Detektieren von Konturlinien erfasst wurden unter Einsatz jedes der mehreren synaptischen Gewichtsmuster für den Wettstreit und das Zusammenwirken. Diese Muster haben Größen, die den Größen der synaptischen Gewichtsmuster zum Detektieren von Konturlinien entsprechen. Aus diesem Grund werden Liniengruppen, die jeweils mit jedem der synaptischen Gewichtsmuster für den Wettstreit und das Zusammenwirken betont wurden, dazu gebracht, miteinander in Konkurrenz zu treten und zusammenzuwirken. Auf diese Weise lässt sich eine Konturlinie, die noch näher an die wahre Konturlinie des Kandidaten herankommt, aus der Information über mehrere Konturlinien ausgewählt werden. Außerdem lässt sich die Extraktion der Konturlinie des Kandidaten in passender Weise und exakt ausführen.
  • Bei dem Verfahren zum Extrahieren einer Konturlinie eines Objektbilds wird ein Bild, das in eine Zone innerhalb eines Betrachtungsfensters vorbestimmter Größe fällt, aus einem gegebenen Bild ausgeschnitten. Linien, die sich in radialer Richtung bezüglich des Mittelpunkts des Betrachtungsfensters erstrecken, werden aus dem Ausschnittsbild erfasst. Endpunkte der erfassten Linien, die sich in radialer Richtung erstrecken, werden anschließend ermittelt, und es wird eine Konturlinie des Kandidaten, die sich in kreisförmiger oder ringförmiger Richtung erstreckt, entsprechend den erfassten Endpunkten erzeugt. Bei einem anderen Verfahren zum Extrahieren einer Konturlinie wird ein Bild, das in eine Zone innerhalb eines Betrachtungsfensters vorbestimmter Größe fällt, aus einem gegebenen Bild ausgeschnitten, und es werden Linien, die sich in kreisförmiger oder ringförmiger Richtung und in radialer Richtung bezüglich des Mittelpunkts des Betrachtungsfensters erstrecken, aus dem Ausschnittsbild ermittelt. Endpunkt der ermittelten Linien, die sich in radialer Richtung erstrecken, werden anschließend ermittelt. Danach wird eine Konturlinie des Kandidaten für das vorbestimmte Objektbild, die sich in kreisförmiger oder ringförmiger Richtung erstreckt, entsprechend den ermittelten Endpunkten betont. Auf diese Weise wird die Konturlinie des Kandidaten extrahiert.
  • Selbst wenn also der Kandidat mit dem Hintergrund in dem gegebenen Bild verschmilzt, lässt sich die Konturlinie des Kandidaten dadurch verengen, dass man die Endpunkte der Radiallinien des Hintergrunds erfasst, bei dem eine starke Wahrscheinlichkeit dafür besteht, dass er durch den Kandidaten blockiert wird, und die Konturlinie des Kandidaten entlang der Ringrichtung abhängig von den ermittelten Endpunkten vorhersagt. Auf diese Weise kann die Konturlinie, die eine hohe Wahrscheinlichkeit für das vorbestimmte Objektbild besitzt, extrahiert werden. Außerdem braucht die Verarbeitung nur für einen begrenzten Teil des Bilds durchgeführt werden, so dass die Operationszeit kurzgehalten werden kann.
  • Bei dem Verfahren zum Extrahieren einer Konturlinie eines Objekts, wird ein Bild, das in eine Zone im Inneren eines Betrachtungsfensters vorbestimmter Größe fällt, aus einem gegebenen Bild ausgeschnitten, indem mehrere Kandidaten für vorbestimmte Objektbilder eingebettet sind, so dass zumindest Teile der mehreren Kandidaten einander überlappen können. Linien, die sich in einer vorbestimmten Richtung bezüglich des Mittelpunkts des Betrachtungsfensters erstrecken, werden dann aus dem Ausschnittsbild ermittelt. Von den so ermittelten Linien werden solche mit einem hohen Maß an Kontinuität in nahezu der gleichen Richtung wie der vorbestimmten Richtung und/oder Linien mit hoher Intensität dazu gebracht, miteinander zusammenzuwirken, wodurch sie verstärkt werden. Außerdem werden die Linien mit einem hohen Maß an Kontinuität und/oder die Linien mit einer hohen Intensität und Linien mit einem geringen Maß an Kontinuität in etwa der gleichen Richtung wie der vorbestimmten Richtung und/oder Linien mit geringer Intensität dazu gebracht, miteinander in Konkurrenz zu treten. Dabei werden die Linien mit einem geringen Maß an Kontinuität und/oder Linien mit geringer Intensität gelöscht oder beseitigt. Auf diese Weise wird eine Konturlinie eines einzelnen Kandidaten für ein Objektbild unter den mehreren Kandidaten vorbestimmter Objektbilder extrahiert. Ein Prozess zum Verhindern einer erneuten Extraktion wird anschließend bezüglich der extrahierten Konturlinie des Kandidaten durchgeführt. Im Anschluss daran erfolgt eine Extraktion einer neuen Konturlinie eines neuen Kandidaten für ein vorbestimmtes Objektbild, welche Konturlinie sich unterscheidet von der gerade extrahierten Konturlinie des Kandidaten, wobei die Extraktion durchgeführt wird durch Betonen von Linien, die verschieden von den betonten Linien sind, und es wird ein Prozess zum Verhindern einer Neu-Extraktion in bezug auf die neu extrahierte Konturlinie des neuen Kandidaten durchgeführt, und diese Prozesse werden solange iteriert, bis Konturlinien sämtlicher der mehreren Kandidaten für vorbestimmte Objektbilder extrahiert sind. Daher lassen sich auch von einem Bild, in dem mehrere Kandidaten eingebettet sind, so dass zumindest Teile der Kandidaten einander überlappen, sämtliche Konturlinien der Kandidaten exakt und unabhängig voneinander extrahieren.
  • Bei dem Verfahren zum Extrahieren einer Konturlinie eines Objektbilds werden die Größe und/oder die Form des Kandidaten normiert, indem der Mittelpunkt eines Betrachtungsfensters vorbestimmter Größe und eine Konturlinie des Kandidaten als Referenzgröße verwendet werden. Im Anschluss daran wird die Konturlinie des normierten Kandidaten extrahiert. Aus diesem Grund werden Konturlinien von Kandidaten mit unterschiedlichen Größen und/oder Formen als Kandidaten mit annähernd gleichen Größen und/oder Formen extrahiert. Hierdurch kann die Arbeitsbelastung für einen Schritt, beispielsweise einen Diskriminierungsschritt oder einen Lernschritt, der nach der Extraktion der Konturlinie des Objektbilds ausgeführt wird, gering gehalten werden. Außerdem kann der Schritt im Anschluss an die Extraktion, so zum Beispiel ein Schritt zum Diskriminieren des vorbestimmten Objektbilds oder ein Schritt zum Durchführen von Lernoperationen, in passender Weise durchgeführt werden.
  • Bei dem Verfahren zum Ermitteln eines Gradienten eines Objektfarbbildfeldes gemäß der Erfindung wird der Gradientenvektor dieses Objektfarbbildfelds aus dem Azimut und der Entfernung des Kandidaten ermittelt, der entsprechend der Farbe mit Hilfe des obigen Verfahrens zum Extrahieren eines Objektbilds gemäß der Erfindung erfasst wurde. Aus der Information über den Gradienten des Felds, das durch die Farbe gebildet wird, lässt sich also die Richtung zum Mittelpunkt des vorbestimmten Objektbilds entsprechend dessen Farbe erfassen. Außerdem lässt sich entsprechend der ermittelten Richtung zum Mit telpunkt des vorbestimmten Objektbilds die Bewegung des Betrachtungsfensters iterieren, und das Fenster kann zu dem Mittelpunkt des vorbestimmten Objektbilds gebracht werden. Außerdem lässt sich die Richtung entlang dem Umfang der durch die Farbe umgebenen Zone dadurch erkennen, dass man die Richtung auffindet, die sich rechtwinklig mit der Richtung des Gradienten des Farbfelds schneidet. Auf diese Weise kann das Betrachtungsfensters dazu gebracht werden, sich derart zu bewegen, dass es der Konturlinie folgt. Weiterhin ist der Betrag des Gradientenvektors des Farbfelds proportional zur Menge der Bildinformation an der entsprechenden Stelle. Deshalb lässt sich ausschließlich die benötigte Information selektiv aus dem Bild abhängig von der Information über den Feldgradienten, der durch die aus der Farbe gebildete Zone zustande kommt, detektieren. Die so detektierte notwendige Information kann dann komprimiert werden, so dass sie sich effizient verarbeiten oder rasch übertragen lässt. Außerdem braucht die Verarbeitung nur für einen begrenzten Teil des Bilds ausgeführt zu werden, so dass sich die Verarbeitungszeit gering hält.
  • Bei dem Verfahren zum Detektieren einer Bewegung eines Bilds gemäß der Erfindung wird die Differenz zwischen Konturlinien von Objektbildern, die in mehrere Bilder des gleichen Objekts mit einem Hintergrund eingebettet sind, berechnet. Die Bewegung des Bilds in der Richtung parallel zur Bildebene wird aus der Differenz ermittelt. Gleichzeitig werden die Bilder mit einer Komplex-Log-Abbildung in Komplex-Log-Abbilder transformiert. Die Differenz zwischen den Konturlinien der Objektbilder, die sich in der radialen Richtung erstrecken, wird anhand der Komplex-Log-Abbilder berechnet, und eine Bewegung des Bilds in einer Drehrichtung innerhalb der Bildebene wird dadurch ermittelt. Außerdem wird die Differenz zwischen Konturlinien von Objektbildern, die sich in ringförmiger Richtung erstrecken, anhand der Komplex-Log-Abbilder berechnet, und eine Bewegung des Bilds in radialer Richtung wird hierdurch ermittelt. Anschließend wird die Bewegung des Gesamtbilds abhängig von der detektierten Bewegung des Bilds in einer Richtung parallel zur Bildebene und in einer Drehrichtung bezüglich der Bildebene und/oder in der radialen Richtung erfasst.
  • In der oben beschriebenen Weise lässt sich die Bewegung des Bilds für solche Fälle detektieren, in denen lediglich ein vorbestimmtes Objektbild innerhalb des Bilds sich bewegt, und in solchen Fällen, in denen sich das Gesamtbild bewegt. Durch Ausnutzung der Information über die Bildbewegung lassen sich Komponenten des Bildhintergrunds kompensieren. Auf diese Weise ist es möglich, in solchen Fällen, in denen ein Objektbild in dem Bild vorhanden ist, das eine von der Hintergrundbewegung abweichende Bewegung ausführt, ausschließlich Bewegung des Objektbilds detektieren.
  • Aus der Information über die Bewegung des Objektbilds lässt sich die Richtung zu dem Mittelpunkt des Objektbilds erkennen. Entsprechend der detektierten Richtung zum Mittelpunkt des Objektbilds lässt sich das Vorrücken der Bildeingabeeinrichtung, das ist das Betrachtungsfenster vorbestimmter Größe, iterieren, und das Betrachtungsfenster kann zum Mittelpunkt des Objektbilds gebracht werden. Darüber hinaus kann die Richtung entlang dem Umfang des Objektbilds durch Auffinden derjenigen Richtung ermittelt werden, die sich rechtwinklig mit der Richtung zum Mittelpunkt des Objektbilds schneidet. Auf diese Weise kann das Betrachtungsfenster veranlasst werden, in der Weise vorzurücken, dass es der Konturlinie folgt. Außerdem tragen in zahlreichen Fällen bewegte Objektbilder effektive Bildinformation. Aus diesem Grund ist es möglich, ausschließlich die benötigte Information, das ist die Information bezüglich des bewegten Objektbilds, selektiv aus dem Bild zu detektieren. Die so detektierte notwendige Information lässt sich komprimieren, so dass sie in wirksamer Weise genutzt oder rasch übertragen werden kann.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, welches das Grundkonzept veranschaulicht, das hinter einer ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds steht,
  • 2A und 2B sind anschauliche Darstellungen, an welchen Teilen einer Figur sich der menschliche Blickpunkt stabilisiert,
  • 3 ist ein Blockdiagramm eines grundlegenden Konzepts hinter der Berechnung eines Vektors zum Vorrücken des Betrachtungsfensters aus der Bewegung eines Objekts bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds,
  • 4 ist eine anschauliche Darstellung eines Teils eines neuronalen Netzwerks, der eine Bewegung eines Bildhintergrunds detektiert, wobei das neuronale Netzwerk dazu dient, einen Kandidaten für ein vorbestimmtes Objektbild (im folgenden einfach als Kandidat bezeichnet) abhängig von einer Bewegung des Kandidaten bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds zu extrahieren,
  • 5A und 5B sind Diagramme von Bildern zur Zeit t und zur Zeit t + α,
  • 6 ist eine anschauliche Darstellung von synaptischen Wichtungsmustern zum Extrahieren der Konturlinien,
  • 7A und 7B sind Diagramme von Konturlinien in den Bildern zur Zeit t und zur Zeit t + α,
  • 8 ist ein Diagramm, das die Differenz zwischen den Konturlinien in den Bildern zur Zeit t und zur Zeit t + α veranschaulicht,
  • 9 ist eine anschauliche Darstellung von synaptischen Wichtungsmustern zum Extrahieren von Aufwärtsbewegungskomponenten und synaptischen Wichtungsmustern zum Extrahieren von nach links gerichteten Bewegungskomponenten,
  • 10A und 10B sind Diagramme von Bildern, in denen die Bewegungskomponenten von Konturlinien in einer parallelen Richtung extrahiert wurden,
  • 11A und 11B sind Diagramme von Bildern zur Zeit t und zur Zeit t + α,
  • 12A und 12B sind Diagramme von Bildern, die erhalten werden durch Transformieren der Bilder zur Zeit t und zur Zeit t + α bei Komplex-Log-Abbildung,
  • 13A, 13B und 13C sind anschauliche Ansichten von Resultaten der Transformation verschiedener Figuren mit Hilfe der Komplex-Log-Abbildung,
  • 14A und 14B sind Diagramme von Konturlinien in den Bildern, die gewonnen wurden durch Transformieren der Bilder zur Zeit t und zur Zeit t + α mit Hilfe Komplex-Log-Abbildung,
  • 15 ist ein Diagramm, das den Unterschied zwischen den Konturlinien in den Bildern, die durch Transformieren der Bilder zur Zeit t und zur Zeit t + α mit der Komplex-Log-Abbildung erhalten wurden, veranschaulicht,
  • 16 ist eine anschauliche Darstellung eines synaptischen Wichtungsmusters zum Extrahieren von Komponenten in einer Vergrößerungsrichtung und eines synaptischen Wichtungsmusters zum Extrahieren von Komponenten in einer Verkleinerungsrichtung,
  • 17A und 17B sind Diagramme von Bildern, in denen die Bewegungskomponenten der Konturlinien in radialer Richtung extrahiert wurden,
  • 18A und 18B sind Diagramme von Bildern zur Zeit t und zur Zeit t + α,
  • 19A und 19B sind Diagramme von Bildern, die erhalten werden durch Transformieren der Bilder zur Zeit t und zur Zeit t + α mit Komplex-Log-Abbildung,
  • 20A und 20B sind Diagramme von Konturlinien in den Bildern, die erhalten wurden durch Transformieren der Bilder zur Zeit t und zur Zeit t + α mittels Komplex-Log-Abbildung,
  • 21 ist ein Diagramm der Differenz zwischen den Konturlinien in den Bildern, die erhalten wurden durch Transformieren der Bilder zur Zeit t und zur Zeit t + α mittels Komplex-Log-Abbildung,
  • 22 ist eine anschauliche Darstellung eines synaptischen Wichtungsmusters zum Extrahieren von Komponenten in einer Uhrzeiger-Drehrichtung, und eines synaptischen Wichtungsmusters zum Extrahieren von Komponenten in einer Gegenuhrzeigersinn-Drehrichtung,
  • 23A und 23B sind Diagramme von Bildern, in denen die Bewegungskomponenten der Konturlinien in Drehrichtung extrahiert wurden,
  • 24 ist ein Flussdiagramm eines Prozesses zum Aufheben der Bewegung des Bildhintergrunds,
  • 25A und 25B sind Diagramme von Bildern zur Zeit t und zur Zeit t + α, in denen die Bewegung des Hintergrunds beseitigt wurde,
  • 26 ist ein Diagramm eines Bilds, in dem die Bewegung des Hintergrunds aufgehoben wurde,
  • 27 ist ein Blockdiagramm eines Grundkonzepts hinter dem Extrahieren eines Kandidaten für das vorbestimmte Objektbild,
  • 28 ist eine anschauliche Darstellung eines Beispiels für ein neuronales Netzwerk zum Extrahieren eines Kandidaten in einer Ausführungsform des Verfahrens zum Extrahieren eines Objektbilds gemäß der Erfindung, wobei ein Vektor für die Bewegung eines Betrachtungsfensters berechnet wird aus einer Konturlinie für den Kandidaten,
  • 29A und 29B sind anschauliche Darstellungen von synaptischen Wichtungsmustern zum Extrahieren von Linien in c1- und c2-Schichten,
  • 30A bis 30G sind anschauliche Darstellungen, die zeigen, wie eine sich in ringförmiger Richtung erstreckende Linie aus dem Bild, das in einer a-Schicht ausgeschnitten wurde, hervorgehoben wird,
  • 31A und 31B sind anschauliche Darstellungen von synaptischen Wichtungsmustern zum Detektieren von Endpunkten von Linien, die sich in der d-Schicht in radialer Richtung erstrecken,
  • 32 ist eine anschauliche Darstellung, die zeigt, wie die Konturlinien, die in der c1-Schicht extrahiert wurden, miteinander konkurrieren und miteinander zusammenarbeiten,
  • 33 ist eine anschauliche Darstellung, die zeigt, wie Konturlinien, die in der c2-Schicht extrahiert wurden, miteinander konkurrieren und zusammenwirken,
  • 34 ist eine anschauliche Darstellung, die zeigt, wie Komponenten, die unter vorbestimmten Winkeln in bezug auf eine ringförmige Richtung gekippt sind, aus einer sich in Ringrichtung erstreckenden Konturlinie extrahiert werden,
  • 35 ist eine anschauliche Darstellung, die zeigt, wie Komponenten, die in bezug auf die ringförmige Richtung unter vorbestimmten Winkeln geneigt sind, aus einer sich in radialer Richtung erstreckenden Konturlinie extrahiert werden,
  • 36 ist eine anschauliche Darstellung, die eine e1-Schicht, eine f1-Schicht, eine g1-Schicht, eine h1-Schicht und eine i-Schicht des in 28 gezeigten neuronalen Netzwerks veranschaulicht, das bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verwendet wird,
  • 37 ist eine graphische Darstellung von Gewichten oder Wichtungen, die auf Ausgangswerte von Neuronen aufgebracht werden,
  • 38 ist eine anschauliche Darstellung eines Beispiels für ein neuronales Netzwerk zum Bestimmen eines Vektors für die Bewegung des Betrachtungsfensters von einer Konturlinie eines Kandidaten,
  • 39A, 39B, 39C und 39D sind anschauliche Darstellungen, wie Komplex-Log-abgebildete Ebenen und entsprechende kartesische Ebenen als Hilfsmittel zum Erläutern dienen, wie ein Betrachtungsfenster zum Mittelpunkt eines Kandidaten wandert,
  • 40A, 40B, 40C und 40D sind beispielhafte Ansichten, die Komplex-Log-abgebildete Ebenen und entsprechende kartesische Ebenen als Hilfsmittel für die Erläuterung zeigen, wie ein Betrachtungsfenster zu einem Schnittpunkt von Konturlinien eines Kandidaten vorrückt,
  • 41 ist eine anschauliche Darstellung, die zeigt, wie die Bewegungsrichtung eines Betrachtungsfensters in solchen Fällen ermittelt wird, in denen der Mittelpunkt des Betrachtungsfensters von der Seite nach Innen ausgehend von einem Kandidaten zu einem Schnittpunkt von Konturlinien für den Kandidaten wandert,
  • 42 ist eine anschauliche Darstellung, die zeigt, wie die Bewegungsrichtung eines Betrachtungsfensters durch Anwenden einer Phasenverschiebung bestimmt wird,
  • 43 ist eine anschauliche Darstellung, die ein Beispiel für ein neuronales Netzwerk zum Extrahieren eines Kandidaten abhängig von einer Farbe des Kandidaten bei der ersten Ausführungsform der erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds veranschaulicht,
  • 44 ist eine anschauliche Darstellung, die die Transformationsergebnisse verschiedener Figuren mit der Komplex-Log-Abbildung veranschaulicht,
  • 45 ist eine anschauliche Darstellung, die örtlich begrenzte, interaktive gewichtete Verbindungen für Wettstreit und Kooperation veranschaulicht, ausgelegt in der Weise, dass eine ein hohes Maß an Übereinstimmung der Farbe mit einem Kandidaten aufweist, ausgewählt werden kann,
  • 46 ist eine anschauliche Darstellung, wie eine f''-Schicht, eine g''-Schicht und eine i''-Schicht des in 43 gezeigten neuronalen Netzwerks zeigt, das bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verwendet wird,
  • 47 ist eine erste anschauliche Darstellung von Komplex-Log-Abbildungsebenen und einer entsprechenden kartesischen Ebene als Hilfsmittel zum Erläutern, wie ein Betrachtungsfenster zu dem Mittelpunkt eines Kandidaten wandert,
  • 48 ist eine zweite anschauliche Darstellung, die zeigt, wie Komplex-Log-Abbildungsebenen und eine entsprechende kartesische Ebene als Hilfsmittel beim Erläutern dienen, wie ein Betrachtungsfenster zum Mittelpunkt eines Kandidaten wandert,
  • 49 ist eine dritte anschauliche Darstellung, die zeigt, wie Komplex-Log-Abbildungsebenen und eine entsprechende kartesische Ebene als Hilfsmittel beim Erläutern dienen, wie ein Betrachtungsfenster zum Mittelpunkt eines Kandidaten wandert,
  • 50A und 50B sind anschauliche Ansichten eines Bilds eines auf einem Stromkabel sitzenden Vogels und einer graphischen Darstellung des entsprechenden Potentialfelds,
  • 51 ist eine anschauliche Darstellung, die zeigt, wie ein Trägheitsterm hinzugefügt wird,
  • 52 ist eine anschauliche Ansicht, die zeigt, wie eine Differenz der Empfindlichkeit bezüglich der Größe eines Kandidaten einem neuronalen Netzwerk hinzugefügt wird,
  • 53A und 53B sind anschauliche Ansichten, die zeigen, wie die Größe eines Betrachtungsfensters geändert wird, um Gewichte oder Wichtungen von synaptischen Verbindungen zu ändern,
  • 54A und 54B sind anschauliche Darstellungen, die zeigen, wie die Größe eines Betrachtungsfensters durch Ändern von synaptischen Verbindungen geändert wird,
  • 55A, 55B, 55C und 55D sind graphische Darstellungen, die Wahrscheinlichkeitsdichtefunktionen der Anregungsebene von Neuronen als Hilfsmittel zum Erläutern, wie die Größe eines Betrachtungsfensters gesteuert wird, zeigen,
  • 56 ist eine anschauliche Darstellung, die zeigt, wie der Mittelpunkt eines Betrachtungsfensters innerhalb eines Bilds wandert, in welchem ein menschliches Bild eingebettet ist,
  • 57A und 57B sind anschauliche Darstellungen einer Konturlinie eines Kandidaten, dessen Mittelpunkt übereinstimmt mit dem Mittelpunkt des Betrachtungsfensters, betrachtet in einer kartesischen Ebene und einer Komplex-Log-Abbildungsebene,
  • 58 ist eine anschauliche Ansicht, die einen Prozess zum Verhindern der erneuten Extraktion bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds veranschaulicht,
  • 59 ist ein Flussdiagramm, welches zeigt, wie ein Betrachtungsfenster dazu gebracht wird, entsprechend dem Anhaltezustand des Mittelpunkts des Betrachtungsfensters bei der Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verlagert wird (oder springt),
  • 60 ist eine anschauliche Darstellung, die zeigt, wie ein Betrachtungsfenster dazu gebracht wird, entsprechend dem Anhaltezustand des Mittelpunkts des Betrachtungsfens ters bei der Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verlagert wird (oder springt),
  • 61A und 61B sind anschauliche Ansichten, die zeigen, wie die Ergebnisse von Wettstreit und Zusammenarbeit bezüglich der Ringrichtung in einer e1-Schicht ermittelt werden und eine Wahrscheinlichkeitsdichtefunktion in der radialen Richtung erzeugt wird,
  • 62 ist ein Blockdiagramm, die das Grundkonzept hinter der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds veranschaulicht,
  • 63 ist eine anschauliche Darstellung, die eine Karte eines Potentialfelds in einem Bild veranschaulicht, in welchem ein elliptisches Bild, ein dreieckiges Bild und ein quadratisches Bild eingebettet sind,
  • 64 ist eine anschauliche Darstellung, die Gradienten eines Potentialfelds veranschaulicht,
  • 65 ist eine anschauliche Darstellung, die ein Beispiel für ein neuronales Netzwerk zum Extrahieren eines Kandidaten durch Bewegen des Mittelpunkts eines Betrachtungsfensters zum Mittelpunkt des Kandidaten bei einer dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds veranschaulicht,
  • 66A, 66B, 66C und 66D sind anschauliche Darstellungen von Gewichten von synaptischen Verbindungen zwischen Schichten des neuronalen Netzwerks, welches bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verwendet wird,
  • 67A und 67B sind anschauliche Darstellungen von synaptischen Wichtungsmustern zum Detektieren von Endpunkten radialer Linien bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds,
  • 68 ist eine anschauliche Darstellung von synaptischen Wichtungsmustern zum Detektieren vorhergesagter Konturlinien eines Kandidaten, die sich in ringförmiger Richtung erstrecken, bezogen auf die dritte Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds,
  • 69A, 69B, 69C und 69D sind anschauliche Darstellungen von Gewichten synaptischer Verbindungen zwischen Schichten des neuronalen Netzwerks, das dazu verwendet wird, den Mittelpunkt des Betrachtungsfensters dazu zu bringen, sich zu einem Schnittpunkt von Konturlinien eines Kandidaten bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds zu bewegen,
  • 70A und 70B sind anschauliche Darstellungen, die zeigen, wie eine Differenz der Position zwischen dem Mittelpunkt eines Betrachtungsfensters und eines Kandidaten für die dritte Ausführungsform des erfindungsgemäßen Verfahrens detektiert wird,
  • 71A und 71B sind anschauliche Darstellungen, die zeigen, wie eine Lagedifferenz zwischen dem Mittelpunkt eines Betrachtungsfensters und eines Kandidaten dadurch detektiert wird, dass der Mittelpunkt des Betrachtungsfensters dazu gebracht wird, in Richtung eines Schnittpunkts von Konturlinien des Kandidaten bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zu wandern,
  • 72 ist eine anschauliche Darstellung, die ein Beispiel eines neuronalen Netzwerks zum Extrahieren eines Kandidaten veranschaulicht, indem der Mittelpunkt eines Betrachtungsfensters dazu gebracht wird, zum Mittelpunkt des Kandidaten bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zu wandern,
  • 73 ist eine anschauliche Darstellung, die Gewichte von synaptischen Verbindungen in einer Schicht des neuronalen Netzwerks veranschaulicht, welches dazu verwendet wird, den Mittelpunkt eines Betrachtungsfensters zu veranlassen, zu einer Zone zu wandern, die näherungsweise in der Farbe mit einem Kandidaten übereinstimmt, bezogen auf die dritte Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds,
  • 74 ist eine anschauliche Darstellung, die zeigt, wie ein Verfahren zum Verhindern der erneuten Extraktion bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens ausgeführt wird,
  • 75 ist ein Blockdiagramm eines Grundkonzepts hinter dem Verfahren zum Detektieren eines Gradienten eines Konturlinienfelds gemäß der Erfindung,
  • 76 ist ein Blockdiagramm eines Grundkonzepts hinter dem Verfahren zum Extrahieren einer Konturlinie eines Objektbilds gemäß der Erfindung,
  • 77 ist eine anschauliche Darstellung eines Beispiels eines neuronalen Netzwerks zum Extrahieren einer Konturlinie eines Kandidaten bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds,
  • 78A und 78B sind anschauliche Darstellungen, die zeigen, wie große und kleine Gesichtsbilder mit Hilfe der Komplex-Log-Abbildung transformiert werden,
  • 79 ist eine anschauliche Darstellung, die zeigt, wie eine Konturlinie eines Kandidaten bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds normiert wird,
  • 80 ist eine anschauliche Darstellung, die die Ergebnisse der Transformation eines langen Gesichtsbilds mit Hilfe der Komplex-Log-Abbildung veranschaulicht,
  • 81A, 81B, 81C und 81D sind anschauliche Darstellungen, die zeigen, wie eine Konturlinie eines Kandidaten bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds in solchen Fällen extrahiert wird, in denen ein Betrachtungsfenster an einem Schnittpunkt von Konturlinien des Kandidaten angehalten hat,
  • 82 ist eine anschauliche Darstellung, die zeigt, wie der Mittelpunkt eines Betrachtungsfensters auf einem Bild eines menschlichen Körpers und eines Signalmastens wandert,
  • 83A, 83B, 83C und 83D sind anschauliche Darstellungen, die zeigen, wie einer Zone einer Konturlinie eines Kandidaten entsprechende Neuronen in einer e1-Schicht der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds ermüden,
  • 84 ist eine anschauliche Darstellung, die ein Beispiel für ein neuronales Netzwerk zum Extrahieren einer Konturlinie eines Kandidaten bei einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds veranschaulicht,
  • 85A, 85B und 85C sind anschauliche Ansichten, die zeigen, wie Linien in einer c1-Schicht der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds extrahiert werden,
  • 86A, 86B und 86C sind anschauliche Darstellungen, die zeigen, wie Linien miteinander konkurrieren und kooperieren in einer e1-Schicht der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds,
  • 87A, 87B und 87C sind anschauliche Darstellungen, die zeigen, wie Linien in einer c2-Schicht der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds extrahiert werden,
  • 88A, 88B und 88C sind anschauliche Darstellungen, die zeigen, wie die Linien miteinander konkurrieren und kooperieren in einer e2-Schicht der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds,
  • 89 ist eine anschauliche Darstellung, die ein Beispiel für ein neuronales Netzwerk zum Extrahieren einer Konturlinie eines Kandidaten für eine dritte Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds veranschaulicht,
  • 90A, 90B, 90C und 90D sind anschauliche Darstellungen, die zeigen, wie einer Zone einer Konturlinie eines Kandidaten entsprechende Neuronen in einer interaktiven Verbindungsschicht bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds ermüden,
  • 91 ist eine beispielhafte Ansicht eines Bilds, in welches drei menschliche Körperbilder eingebettet sind,
  • 92A und 92B sind anschauliche Ansichten, die zeigen, wie eine Konturlinie eines Objekts mit Hilfe des Finkel-Verfahrens erzeugt wird,
  • 93A ist eine graphische Darstellung der Eingangs-Ausgangs-Übertragungskennlinie eines Neurons,
  • 93B ist eine graphische Darstellung der Eingangs-Ausgangs-Übertragungskennlinie eines Neurons, dem thermische Fluktuationen mit Hilfe eines Annealing-Prozesses hinzugefügt wurden,
  • 94 ist eine graphische Darstellung eines Farbartdiagramms,
  • 95 ist eine beispielhafte Ansicht eines neuronalen Netzwerks zum Detektieren des Übereinstimmungsmaßes in der Farbe, und
  • 96 ist eine graphische Darstellung, die auf Ausgangswerte von Neuronen angewendete Wichtungen veranschaulicht.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung wird im folgenden in größerer Einzelheit unter Bezugnahme auf die begleitenden Zeichnungen beschrieben.
  • 1 ist ein Blockdiagramm, welches ein Grundrezept veranschaulicht, das hinter der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds veranschaulicht. Bei dieser Ausführungsform erfolgt die Extraktion eines Kandidaten für ein vorbestimmtes Objektbild (im folgenden einfach: „Kandidat") dadurch, dass der Mittelpunkt eines Betrachtungsfensters vorbestimmter Größe dazu gebracht wird, zu der Stelle des Kandidaten abhängig von den Konturlinien, der Farbe und der Bewegung des Kandidaten vorzurücken oder zu wandern, und eine Extraktionsfläche nach Maßgabe der Größe und/oder der Form des Kandidaten zu bestimmen, wobei der Mittelpunkt des Betrachtungsfensters während der Bestimmung der Extraktionsfläche als Referenzwert hergenommen wird. Ein neuronales Netzwerk dient zum Extrahieren des Kandidaten.
  • Wie in 1 gezeigt ist, enthält diese Ausführungsform eine in Form eines neuronalen Netzwerks ausgebildete Verarbeitungseinheit 3 zum Suchen und eine Verarbeitungseinheit 4 zur Beurteilung bezüglich des Anhaltezustands des Betrachtungsfensters. Die Verarbeitungseinheit 3 für die Suche iteriert das Vorrücken des Betrachtungsfensters und sucht einen Kandidaten unter Nutzung eines neuronalen Netzwerks. Die Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters untersucht den Bewegungszustand des Betrachtungsfensters. Wenn das Betrachtungsfenster anhält, führt die Verarbeitungseinheit 4 eine Beurteilung darüber aus, ob das Anhalten des Betrach tungsfensters verursacht wurde durch die Entdeckung eines Kandidaten oder nicht. Falls notwendig, extrahiert die Verarbeitungseinheit 4 den Kandidaten.
  • Insbesondere werden in der als neuronales Netzwerk ausgebildeten Verarbeitungseinheit 3 für die Suche die Position des Mittelpunkts des Betrachtungsfensters und dessen Größe innerhalb des Bilds eingestellt, und ein Teil des in die Zone im Inneren des Betrachtungsfensters fallender Bildteil wird aus dem Bild herausgenommen. Anschließend werden aus der Bewegung, den Konturlinien und die Farbe des Kandidaten Vektoren für die Bewegung des Betrachtungsfensters berechnet. Die Bewegungsvektoren für das Betrachtungsfenster werden miteinander kombiniert, und hierdurch wird in zusammengesetzter Vektor für die Bewegung oder das Vorrücken des Betrachtungsfensters ermittelt. Danach wird das Betrachtungsfenster dazu gebracht, auf dem Bild entsprechend dem zusammengesetzten Vektor für die Bewegung des Betrachtungsfensters vorzurücken. In der Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters wird der Bewegungshub des Betrachtungsfensters untersucht. Stellt sich heraus, dass das Betrachtungsfenster wandert, wird ein Signal zum Anweisen einer weiteren Bewegung des Betrachtungsfensters in die neuronale Netzwerk-Verarbeitungseinheit 3 für die Suche eingespeist. Stellt sich heraus, dass das Betrachtungsfenster angehalten hat, erfolgt eine Beurteilung über den Anhaltezustand des Betrachtungsfensters. Insbesondere erfolgt eine Beurteilung dahingehend, ob das Anhalten des Betrachtungsfensters auf dem Bild veranlasst wurde durch die Entdeckung eines Kandidaten. Wenn das Anhalten des Betrachtungsfensters nicht durch die Entdeckung eines Kandidaten verursacht wurde, so muss das Betrachtungsfenster nicht in der derzeitigen Anhalteposition verharren, und deshalb wird in die neuronale Netzwerk-Verarbeitungseinheit 3 für die Suche eine neue Position und eine Größe für das Betrachtungsfenster eingestellt. Nach Erhalt dieses Signals veranlasst die neuronale Netzwerk-Verarbeitungseinheit 3 für die Suche eine erneute Bewegung des Betrachtungsfensters. Wenn das Anhalten des Betrachtungsfensters durch die Entdeckung eines Kandidaten verursacht wurde, wird der entdeckte Kandidat ausgeschnitten, das heißt extrahiert. Ein Signal bezüglich des extrahierten Kandidaten wird zu einer Beurteilungseinrichtung, die in 1 dargestellt ist und eine Beurteilung darüber vornimmt, ob der extrahierte Kandidat das vorbestimmte Objektbild ist oder nicht, übertragen.
  • In der neuronalen Netzwerk-Verarbeitungseinheit 3 für die Suche wird das neuronale Netzwerk derart aufgebaut, dass das Betrachtungsfenster in der gleichen Weise vorrücken kann wie die Bewegung des menschlichen Blickpunkts. Es wurde aus früheren Studien berichtet, dass in solchen Fällen, in denen ein menschliches Wesen eine in 2A oder 2B gezeigte Figur betrachtet, seinen Blickpunkt lange Zeit auf der Kontur oder einem Endpunkt des Objekts verharrt. Im Fall der 2B verbleibt der menschliche Blickpunkt an Teilen S, die durch gestrichelte Linien gekennzeichnet sind. Außerdem hat die Erfahrung gezeigt, dass zu dem Zeitpunkt, zu dem ein Mensch ein Objekt als einzelne Masse erkennt, sein Blickpunkt sich nicht auf der Konturlinie des Objekts befindet, sondern in dem von der Konturlinie umgebenen Mittelbereich bleibt. Wenn beispielsweise ein Mensch die in 2A gezeigte Figur betrachtet, bleibt sein Blickpunkt an einem von der gestrichelten Linie umgebenen Teil S. Insbesondere lässt sich sagen, dass der menschliche Blickpunkt am Mittelpunkt eines von einer Konturlinie umgebenen Objekts, am Schnittpunkt von Linien oder an einem Scheitelpunkt eines Polygons stabil wird. Aus diesem Grund sollte das neuronale Netzwerk mit derartigen Funktionen ausgestattet sein, dass in Fällen, in denen ein Objektbild nur in einem Peripheriebereich des Betrachtungsfensters vorhanden ist, das Betrachtungsfenster zu einer Stelle näher bei dem Objektbild bewegt werden kann, so dass anschließend der Mittelpunkt des Betrachtungsfensters zu dem Mittelpunkt, einem Scheitelpunkt oder dergleichen des Objektbilds bewegt werden kann, damit das Betrachtungsfenster stabil wird.
  • Wie der Vektor für die Bewegung des Betrachtungsfensters aus einer Konturlinie eines Objekts in der neuronalen Netzwerk-Verarbeitungseinheit 3 für die Suche berechnet wird, soll im folgenden beschrieben werden.
  • 28 ist eine anschauliche Darstellung eines Beispiels für ein neuronales Netzwerk zum Berechnen des Vektors für die Bewegung des Betrachtungsfensters entsprechend der Konturlinie des Kandidaten für das vorbestimmte Objektbild. Ein Signal, welches ein Stehbild der Außenwelt repräsentiert und zu einer Zeit durch das Betrachtungsfenster läuft, wird in das neuronale Netzwerk eingegeben. Außerdem repräsentiert das von dem neuronalen Netzwerk gewonnene Ausgangssignal den Bewegungshub, um den das Be trachtungsfenster bewegt wird. Diese Ausgangsgröße wird als zweidimensionaler Vektor aufgefasst und wird im folgenden als Vektor für die Bewegung des Betrachtungsfensters bezeichnet. Der Betrag des Vektors für die Bewegung des Betrachtungsfensters repräsentiert das Instabilitätsmaß am Mittelpunkt des Betrachtungsfensters. Die Richtung des Vektors für die Bewegung des Betrachtungsfensters repräsentiert die Richtung, in der sich das Betrachtungsfenster bewegen sollte, um stabiler zu werden.
  • Der grundlegende Aufbau des für diese Ausführungsform verwendeten neuronalen Netzwerks ist der des geschichteten Typs. Allerdings sind die Neuronen sowohl der e1- als auch der e2-Schicht miteinander in interaktiver Weise verbunden. Deshalb kann das neuronale Netzwerk auch als komplexer Typ bezeichnet werden. Außerdem ist in einem Backpropagation-Modell, das als geschichteter Typ bekannt ist, jedes Neuron in jeder Schicht mit jedem Neuron der Nachbarschicht verbunden. Im Gegensatz zu dem Backpropagation-Modell ist das bei dieser Ausführungsform verwendete neuronale Netzwerk ein Typ vom örtlich begrenzten Verbindungstyp (Local Area), bei dem Verbindungen nur zwischen solchen Neuronen vorhanden sind, die sich an einander entsprechenden Stellen in benachbarten Schichten befinden, oder zwischen den Neuronen, die in der Nähe dieser entsprechenden Neuronen gelegen sind. Aus diesem Grund kann die Anzahl von Synapsen zwischen den Schichten deutlich verringert werden, und die Operationszeit kann kurzgehalten werden. Darüber hinaus werden Verbindungen zwischen den Neuronen in jeder interaktiven Verbindungsschicht nur zwischen jenen Neuronen zustandegebracht, deren Lage eng benachbart ist. Diese sogenannte Local-Area-Verbindungsstruktur ist ähnlich der Struktur einer Nervenleitung von der Netzhaut des menschlichen Auges zu der primären visuellen Zone des Gehirns.
  • Die Schichten des bei dieser Ausführungsform verwendeten neuronalen Netzwerks haben die im folgenden beschriebenen Funktionen. Dieses neuronalen Netzwerk wird gebildet durch eine a-Schicht zum Einspeisen eines Signals für das Bild in das Netzwerk, einer b-Schicht zum Transformieren des Eingangsbilds mit der Komplex-Log-Abbildung (eine logarithmische Polarkoordinaten-Transformation). Das neuronale Netzwerk besteht außerdem aus einer c1-Schicht zum Detektieren von Konturlinien, die sich in ringförmiger Richtung erstrecken, und einer c2-Schicht zum Detektieren von sich in radialer Richtung erstreckenden Konturlinien. Das neuronale Netzwerk wird auch gebildet durch eine d-Schicht zum Detektieren der Endpunkte der Konturlinien, die sich in radialer Richtung erstrecken, die e1-Schicht als interaktive Verbindungsschicht zum Selektieren einer sich in Ringrichtung erstreckenden Konturlinie, und der e2-Schicht als interaktive Verbindungsschicht zum Selektieren einer sich in radialer Richtung erstreckenden Konturlinie. Zusätzlich wird das neuronale Netzwerk gebildet durch eine f1-Schicht zum Detektieren der Differenzen an einer Stelle zwischen Komponenten der Konturlinien des Kandidaten, die sich in Ringrichtung erstreckt, und dem Mittelpunkt des Betrachtungsfensters, und eine f2-Schicht zum Detektieren der Differenzen in den Positionen zwischen Komponenten der Konturlinie des Kandidaten, die sich in radialer Richtung erstreckt, und dem Mittelpunkt des Betrachtungsfensters. Außerdem wird das neuronale Netzwerk gebildet durch eine g1-Schicht zum Detektieren der Azimutvektoren des Kandidaten bezüglich der Ringrichtung, und eine g2-Schicht zum Detektieren der Azimutvektoren des Kandidaten bezüglich der radialen Richtung. Ferner wird das neuronale Netzwerk gebildet durch eine h1-Schicht zum Kombinieren der detektierten Azimutvektoren bezüglich der Ring- oder Umfangsrichtung, eine h2-Schicht zum Detektieren der Azimutvektoren bezüglich der radialen Richtung, und eine i-Schicht zum Generieren einer Ausgangsgröße für einen Vektor der Betrachtungsfenster-Bewegung. In dem bei dieser Ausführungsform verwendeten neuronalen Netzwerk sind die synaptischen Verbindungen zwischen benachbarten Elementen der b-Schicht und den nachfolgenden Schichten raum-invariant. Außerdem sind die synaptischen Verbindungen zwischen jeder interaktiven Verbindungsschicht raum-invariant. Die Raum-Invarianz dient dem Zweck, die Modellsimulation und die Parallelverarbeitung zu vereinfachen, außerdem brauchen die synaptischen Verbindungen nicht notwendigerweise raum-invariant zu sein. In solchen Fällen allerdings, in denen die synaptischen Verbindungen raum-invariant sind, wird der Ausgangswert jedes Neurons äquivalent zu einem Ausgangswert, den man dann erhält, wenn das Ergebnis einer Faltung (das heißt die Anpassung mit einem synaptischen Wichtungsmuster) der synaptischen Verbindungsmatrix und der vorausgehenden Neuronenschicht-Matrix durch eine nicht lineare Funktion läuft. Deshalb wird die rechnerische Verarbeitung deutlich einfa cher, wenn die Simulation des neuronalen Netzwerks mit einem Computer durchgeführt wird.
  • Als erstes wird das Signal für das Bild in das neuronale Netzwerk eingespeist. In der b-Schicht wird das eingegebene Bild mit der Komplex-Log-Abbildung transformiert, wobei der Mittelpunkt des Betrachtungsfensters als Abbildungs-Pol verwendet wird. Weil das Bild auf diese Weise mit der Komplex-Log-Abbildung in der b-Schicht transformiert wird, können die Operationen in der b-Schicht und den daran anschließenden Schichten des neuronalen Netzwerks rechnerisch als Faltung zwischen der Anordnung der Bildinformation und einer raum-invarianten synaptischen Verbindungsinformationsanordnung verarbeitet werden.
  • 13A, 13B und 13C zeigen die Ergebnisse der Transformation verschiedener Figuren mittels der Komplex-Log-Abbildung. Bei der Komplex-Log-Abbildung wird in solchen Fällen, in denen der Abbildungs-Pol, das ist der Mittelpunkt des Betrachtungsfensters, sich am Mittelpunkt eines Kandidaten befindet, eine Gruppe von konzentrischen kreisförmigen Linien gemäß 13 transformiert in horizontale Geraden. Außerdem werden in 13B gezeigte radiale Linien transformiert in vertikale Geraden, und ein Dreieck wird in das in 13C gezeigte Muster transformiert.
  • Wenn ein Punkt W(x, y) in der kartesischen Ebene vor der Transformation durch eine komplexe Zahl ausgedrückt wird: z = x + iy (1)so wird ein Komplex-Log-abgebildeter Punkt W' dargestellt durch die Formel W' = 1n(z) = 1n(|z|) + jθz (2)wobei z = (x2 + y2)1/2 (3) θz = tan–1(y/x) (4)
  • Insbesondere wird bei der Komplex-Log-Abbildung die Transformation derart ausgeführt, dass die Entfernungsachse der Komplex-Log-abgebildeten Ebene den logarithmischen Wert des Abstands vom Mittelpunkt des betrachteten Fensters darstellen kann, während die Azimut-Achse den Winkel bezüglich des Mittelpunkts des Betrachtungsfensters repräsentieren kann.
  • Die Information über das Komplex-Log-abgebildete Bild wird in die c1-Schicht und die c2-Schicht eingespeist. In diesen Schichten verlaufen Konturlinien in Umfangsrichtung und in radialer Richtung und werden in der Komplex-Log-abgebildeten Ebene extrahiert. In der c1-Schicht wird das Komplex-Log-abgebildete Bild als mit einem in 29A dargestellten synaptischen Gewichtungsmuster gewichtetes Signal übertragen, und die sich in Umfangsrichtung erstreckenden Konturlinien werden auf diese Weise extrahiert. Außerdem wird in der c2-Schicht das Komplex-Log-abgebildete Bild als Signal übertragen, welches durch das in 29B dargestellte synaptische Gewichtungsmuster gewichtet ist, und die sich in radialer Richtung erstreckenden Konturlinien werden hierdurch extrahiert.
  • Der Begriff „Umfangsrichtung oder Ring-Richtung in einer Komplex-Log-abgebildeten Ebene" bedeutet hier die Richtung entlang der Azimut-Achse der Komplex-Log-Ebene. Insbesondere repräsentiert die Azimut-Achse der Komplex-Log-Ebene den Winkel um den Ursprung der kartesischen Ebene (das heißt um den Mittelpunkt des Betrachtungsfensters gemäß der Erfindung). Ein Kreis mit seinem Mittelpunkt im Ursprung der kartesischen Ebene wird als Gerade ausgedrückt, die parallel zu der Azimut-Achse innerhalb der Komplex-Log-Ebene verläuft. Deshalb wird die Richtung entlang der Azimut-Achse der Komplex-Log-Ebene als Umfangsrichtung oder Ring-Richtung bezeichnet. Außerdem repräsentiert die Abstandsachse der Komplex-Log-Ebene den Abstand vom Ursprung der kartesischen Ebene. Eine radiale Gerade durch den Ursprung in der kartesischen Ebene wird als Gerade parallel zur Abstandsachse in der Komplex-Log-Ebene ausgedrückt. Des halb wird die Richtung entlang der Abstandsachse in der Komplex-Log-Ebene als radiale Richtung bezeichnet.
  • In den Fällen, in denen ein Kandidat durch einen anderen Körper blockiert ist, der sich auf der Seite des Vordergrunds befindet, erscheinen Endpunkte der sich radial erstreckenden Konturlinien an der Grenze zwischen dem Kandidaten und dem anderen im Vordergrund befindlichen Körper. In der d-Schicht werden solche Endpunkte der radial verlaufenden Konturlinien aus dem aus der c2-Schicht empfangenen Muster extrahiert, wobei die sich in radialer Richtung erstreckenden Konturlinien extrahiert wurden.
  • Im folgenden soll erläutert werden, wie die Endpunkte der radial verlaufenden Konturlinien extrahiert werden.
  • Um ein Beispiel zu geben, wird in die a-Schicht ein Signal betreffend das in 30A gezeigte Bild eingespeist. In dem Eingabebild sind eingebettet: Konturlinien eines nahezu kreisförmigen Kandidaten und ein aus Linien bestehender Hintergrund, wobei die Linien sich in radialer Richtung erstrecken und blockiert werden von dem Kandidaten für das vorbestimmte Objektbild. In solchen Fällen wird innerhalb der b-Schicht das Eingabebild durch eine Komplex-Log-Abbildung transformiert. 30B zeigt diese Komplex-Log-Abbildung. In den c1- und c2-Schichten werden die sich in Umfangsrichtung und in der radialen Richtung erstreckenden Konturlinien aus dem Komplex-Log-Abbild detektiert, und hierdurch werden die in den 30C und 30D gezeigten Muster erhalten. Danach werden in der d-Schicht Endpunkte der radial verlaufenden Konturlinien, die in 30D gezeigt sind, und von der c2-Schicht detektiert wurden, detektiert, und hierdurch erhält man das in 30E dargestellte Endpunktmuster. Das in der c2-Schicht gewonnene Konturlinienmuster wird als ein durch die in den 31A und 31B gezeigten synaptischen Gewichtungsmuster gewichtetes Signal übertragen, und hierdurch werden die Endpunkte detektiert. In diesem Fall werden die Endpunkte der zum Mittelpunkt des Betrachtungsfensters weisenden Konturlinien durch die in 31A gezeigten synaptischen Wichtungsmuster detektiert. Außerdem werden die Endpunkte der von dem Mittelpunkt des Betrachtungsfensters wegweisenden Konturlinien durch das in 31B dargestellte synaptische Wichtungsmuster detektiert. Ein für das Muster der Endpunkte der radial verlaufenden Konturlinien repräsentatives Signal, bei dem die Endpunkte von der d-Schicht in der oben beschriebenen Weise detektiert wurden, wird in die e1-Schicht eingespeist, und hierdurch wird ein in 30F dargestelltes Muster gewonnen. Die e1-Schicht und die e2-Schicht sind interaktive Verbindungsschichten mit begrenzter lokaler Fläche, und es können interaktiv gewichtete Verbindungen wie beispielsweise eine sich in Umfangsrichtung erstreckende Konturlinie und eine sich in radialer Richtung erstreckende Konturlinie, betont werden. In der e1-Schicht werden entsprechend den in Umfangsrichtung verlaufenden Konturlinien, die von der c1-Schicht detektiert wurden und in 30C dargestellt sind, und die Endpunkte der radial verlaufenden Konturlinien, die in der d-Schicht detektiert wurden und in 30E dargestellt sind, Konturlinien mit einem hohen Maß an Kontinuität in Umfangsrichtung und Konturlinien mit hoher Intensität betont, wohingegen unabhängige oder schwache Konturlinien beseitigt werden. Auf diese Weise erhält man ein Muster entsprechend einer Konturlinie, wie es in 30G dargestellt ist. In solchen Fällen, in denen der Hintergrund von dem Kandidaten blockiert wird, erscheinen die Endpunkte der radial verlaufenden Konturlinien entlang der Konturlinie des Kandidaten. Deshalb kann in der e1-Schicht die Konturlinie dadurch selektiert werden, dass die Konturlinien, die in Umfangsrichtung verlaufen und für die es eine starke Wahrscheinlichkeit dafür gibt, dass Teile der Konturlinie des Kandidaten vorhanden sind, stark hervorgehoben werden, abhängig von einem Signal über die Stellen der Endpunkte der radial verlaufenden Konturlinien, wobei die Endpunkte in der d-Schicht detektiert wurden. Wenn die Endpunkte auf diese Weise detektiert sind, lässt sich die Konturlinie des Kandidaten für das vorbestimmte Objektbild exakter extrahieren.
  • Im folgenden wird detailliert erläutert, wie die e1-Schicht arbeitet.
  • Wenn die Position eines Neurons A in der Komplex-Log-Abbildungsebene ausgedrückt wird in der Form (Xa, Ya) und die Position eines Neurons B in dieser Ebene ausgedrückt wird in der Form (Xb, Yb), so sind die Werte für die Gewichte der interaktiven Neuronenverbindungen innerhalb der e1-Schicht durch folgende Formel gegeben: Wab – (1.0 – 4.0 × Dx × (11.0 – Dy × Mc)2) × exp (–2.0 × Dx × (1.0 – Dy × Mc)2) × exp(–2.0 × Dy2) (5)wobei Dx = Kx × |Xa – Xb| Dy = Ky × |Ya – Yb|wobei Kx und Ky jeweils einen passenden positiven Faktor darstellen und Mc ein geeigneter Faktor ist. Die Formel (5) gibt an, dass die Neuronen mit kooperativen Gewichten, das heißt mit positiven Gewichten, verbunden sind in der Umfangsrichtung, und dass sie mit sperrenden Gewichten, das heißt mit negativen Gewichten, bezüglich der radialen Richtung verbunden sind. Die Formel (5) gibt außerdem an, dass die Stärke der Verbindung von dem Abstand zwischen den Neuronen abhängt. Insbesondere solche Neuronen, die sich an nahe benachbarten Stellen befinden, sind mit einem stärkeren Gewicht untereinander verbunden, während Neuronen, die sich an weiter voneinander entfernteren Stellen befinden, mit einem geringeren Gewicht verbunden sind. Derartige interne Verbindungen sind vom sogenannten Typ der begrenzten lokalen interaktiven Verbindung. In der e1-Schiht mit solchen interaktiven Verbindungen werden das Betonen und das Löschen der Konturlinien in der im folgenden beschriebenen Weise vorgenommen.
  • Beispielsweise sind in dem von der a-Schicht zugeführten Bild die Konturlinien des Kandidaten unterbrochen, oder der Hintergrund ist kompliziert. Daher sind, wie in 32 durch ein Muster 43 veranschaulicht ist, die in der c1-Linie extrahierten und in die e1-Schicht eingespeisten Konturlinien unterbrochen. Von den dem Muster 43 entsprechenden Neuronen sind solche Neuronen, die in einem möglichst kontinuierlichen Muster stark angeregt sind für die Umfangsrichtung, im wesentlichen repräsentativ für eine Zone mit starker Wahrscheinlichkeit für das Auftreten eines einzelnen Objekts in der kartesischen Ebene. Die Neuronen der e1-Schicht, die dem einzelnen Bild entsprechen, sind so verbunden, dass sie miteinander interaktiv sein können. Wenn daher das Muster 43 als ein Signal übertragen wird, das mit einem synaptischen Gewichtsmuster 44 für Konkurrenz und Kooperation gewichtet ist, so wirken die den Endpunkten der gebrochenen Konturlinien entsprechenden Neuronen miteinander in Umfangsrichtung so zusammen, dass sie die angeregten Zonen über Iteration der rekurrierenden Signale innerhalb der e1-Schicht verbinden. Als Ergebnis werden Neuronen, die Neuronen benachbart sind, die den Endpunkten der gebrochenen Konturlinien entsprechen, sequentiell in den Richtungen angeregt, die in einem Muster 43a durch die ausgezogenen Pfeile angegeben sind. Auf diese Weise werden die gebrochenen Konturlinien nach und nach durchgängig. Außerdem besitzt das synaptische Gewichtungsmuster 44 für Wettstreit und Kooperation eine spezifische Geometrie, derzufolge die etwas gegenüber der Umfangsrichtung geneigten Konturlinien miteinander verbunden werden können. Dementsprechend lässt sich schließlich eine Konturlinie gewinnen, die in Umfangsrichtung kontinuierlich ist. Andererseits repräsentieren von den dem Muster 43 entsprechenden Neuronen solchen Neuronen, die in einem Muster mit geringem Maß an Kontinuität bezüglich der Umfangsrichtung nur schwach erregt sind (das sind Neuronen entsprechend den Punkten in dem Muster 43) Zonen, die nur eine geringe Wahrscheinlichkeit für das Auftreten eines einzelnen Objekts in der kartesischen Ebene haben. Wie oben beschrieben wurde, werden die Neuronen in der e1-Schicht miteinander in interaktiver Weise derart verbunden, dass sie miteinander bezüglich der Umfangsrichtung kooperieren können, sie hingegen in radialer Richtung miteinander im Wettstreit stehen. Daher werden die den Punkten in dem Muster 43 entsprechenden Neuronen mit denjenigen Neuronen im Wettstreit stehen, die den kontinuierlichen Linien entsprechen, die sich in Umfangsrichtung erstrecken und stark angeregt sind. Auf diese Weise werden die den Punkten in dem Muster 43 entsprechenden Neuronen unterdrückt und ausgelöscht durch Signale, die von Neuronen erzeugt werden, welche den in Umfangsrichtung verlaufenden Konturlinien entsprechen, und die stark angeregt sind und außerdem gegenüber der radialen Richtung sperrend wirken (das heißt bezüglich der Richtungen, die durch gestrichelte Pfeile angegeben sind). Im Ergebnis wird ein Muster 43b für ausschließlich die in Umfangsrichtung kontinuierliche Konturlinie aus dem in die e1-Schicht eingespeisten Muster 43 gewonnen.
  • In der e2-Schicht werden von den in radialer Richtung verlaufenden Konturlinien, die von der c2-Schicht detektiert wurden, diejenigen mit einem hohen Maß an Kontinuität in radialer Richtung, und Konturlinien mit starker Intensität betont, wohingegen unabhängige oder schwache Konturlinien gelöscht werden. Die Gewichte von interaktiven Neuronen verbindungen in der e2-Schicht werden durch eine Formel repräsentiert, die man aus der Formel (5) dadurch gewinnt, dass man x und y miteinander vertauscht. Die Neuronen in der e2-Schicht sind untereinander durch wettstreitende Gewichte bezüglich der Umfangsrichtung verbunden, und sie sind miteinander durch kooperative Gewichte bezüglich der radialen Richtung verbunden. Wenn daher ein in 33 dargestelltes Muster 45, welches von der c2-Schicht extrahiert wurde, als Signal übertragen wird, welches durch ein synaptisches Gewichtemuster 46 für Wettstreit und Kooperation gewichtet ist, so kooperieren von den im Muster 45 entsprechenden Neuronen solche, die stark in einem Muster mit einem hohen Maß an Kontinuität bezüglich der radialen Richtung angeregt sind, miteinander. Im Ergebnis werden Neuronen, die den Endpunkten der gebrochenen Konturlinien entsprechenden Neuronen benachbart sind, sequentiell in den Richtungen angeregt, die in einem Muster 45a durch ausgezogene Pfeile angedeutet sind. Auf diese Weise werden die unterbrochenen Konturlinien nach und nach durchgängig. Andererseits werden von den dem Muster 45 entsprechenden Neuronen solche, die in einem Muster mit nur geringem Maß an Kontinuität für die radiale Richtung nur schwach angeregt werden (das sind Neuronen entsprechend den Punkten in dem Muster 45) in Wettstreit treten mit den Neuronen, die den radial verlaufenden Konturlinien entsprechen und stark angeregt sind. Auf diese Weise werden die den Punkten in dem Muster 45 entsprechenden Neuronen gesperrt und gelöscht durch Signale, die erzeugt werden von den Neuronen entsprechend den radial verlaufenden Konturlinien, die stark angeregt sind, und die in bezug auf die Umfangsrichtung oder Ring-Richtung sperrend wirken (das heißt bezüglich der Richtungen der gestrichelten Pfeile). Im Ergebnis wird aus dem in die e2-Schicht eingespeisten Muster 45 ein Muster 45 gewonnen, welches nur die in radialer Richtung kontinuierliche Konturlinie repräsentiert.
  • Im Anschluss daran werden in der f1-Schicht Komponenten, die unter vorbestimmten Winkeln in bezug auf die Umfangrichtung geneigt sind, aus der Konturlinie extrahiert, die in Umfangsrichtung verläuft und die von der e1-Schicht in Form der interaktiven Verbindungsschicht selektiert wurde. Insbesondere wird gemäß 34 eine in Umfangsrichtung laufende Konturlinie 51 als Signal übertragen, welches mit einem synaptischen Gewichtungsmuster 52 zum Extrahieren der Komponenten gewichtet wurde, die nach rechts oben geneigt sind, und als synaptisches Wichtungsmuster 53 zum Extrahieren der Komponenten, die nach oben links geneigt sind. Die synaptischen Gewichtungsmuster 52 und 53 zum Extrahieren der geneigten Komponenten verstärken Teile der Konturlinie in derjenigen Richtung, entlang der die „+"-Komponenten angeordnet sind, und sie heben solche Teile der Konturlinie auf, die sowohl die „+"- als auch die „–"-Komponenten abdecken. Wenn daher die in Umfangsrichtung verlaufende Konturlinie 51 als Signal übertragen wird, welches mit den synaptischen Gewichtungsmustern 52 und 53 gewichtet ist, so werden Komponenten 51a der Konturlinie 51, die nach oben rechts geneigt sind, und Komponenten 51b der Konturlinie 51, die nach oben links geneigt sind, extrahiert. Bei dieser Ausführungsform werden die Komponenten der in Umfangsrichtung verlaufenden Konturlinie, die unter Winkeln von 20 bis 30 Grad gegenüber der Umfangsrichtung in der Komplex-Log-Abbildungsebene geneigt sind, von den synaptischen Wichtungsmustern 52 und 53 zum Extrahieren der geneigten Komponenten extrahiert.
  • Außerdem werden in der f2-Schicht Komponenten, die unter vorbestimmten Winkeln gegenüber der Umfangsrichtung geneigt sind, aus der Konturlinie extrahiert, die in radialer Richtung verläuft, welche von der e2-Schicht als interaktiver Verbindungsschicht selektiert wurde. Insbesondere wird gemäß 35 eine radial verlaufende Konturlinie 54 als ein Signal übertragen, das mit einem synaptischen Wichtungsmuster 55 zum Extrahieren derjenigen Komponenten gewichtet ist, die nach oben links geneigt sind, und mit einem synaptischen Gewichtungsmuster 56 zum Extrahieren von Komponenten gewichtet ist, die nach oben rechts geneigt sind. Die Komponenten 54a der Konturlinie 54, die nach oben links geneigt sind, und die Komponenten 54b der Konturlinie 54, die nach oben rechts geneigt sind, werden auf diese Weise extrahiert. Bei dieser Ausführungsform werden die Komponenten der radial verlaufenden Konturlinie, die unter Winkeln von 60 bis 70 Grad gegenüber der Umfangsrichtung in der Komplex-Log-Abbildungsebene geneigt sind, durch die synaptischen Wichtungsmuster 55 und 56 zum Extrahieren der geneigten Komponenten extrahiert.
  • Im folgenden soll beschrieben werden, wie der Vektor für die Bewegung des Betrachtungsfensters aus den Komponenten der in der oben beschriebenen Weise detektierten Konturlinien bestimmt wird. Als Hilfe zum Erleichtern der Erläuterung wird im folgenden beschrieben, wie der Vektor für die Bewegung des Betrachtungsfensters zusammengesetzt wird durch Operationen in der e1-Schicht und den daran anschließenden Schichten.
  • 36 ist eine anschauliche Darstellung, die in größerer Einzelheit die e1-Schicht, die f1-Schicht (gebildet durch f1A- und f1B-Schichten), die g1-Schicht (gebildet durch g1A- und g1B-Schichten), die h1-Schicht und die i-Schicht des in 28 gezeigten neuronalen Netzwerks erläutert, welches in der Ausführungsform des Verfahrens zum Extrahieren eines Objektbilds gemäß der Erfindung verwendet wird.
  • Wie in 36 dargestellt ist, sind die jeweiligen Schichten miteinander über synaptische Verbindungen verbunden. Die e1-Schicht und die f1-Schicht haben zweidimensional angeordnete Neuronen. Die Verteilung der angeregten Neuronen in der e1-Schicht entspricht den Komponenten der Konturlinie des Kandidaten, welche Linie sich in Ring- oder Umfangsrichtung erstreckt und von den interaktiven synaptischen Verbindungen in der e1-Schicht ausgewählt wurde.
  • Wichtungsfaktoren von synaptischen Verbindungen 62, über die die Anregungssignale aus der e1-Schicht in die f1A-Schicht übertragen werden, werden in der Weise gesendet, dass von der Verteilung der Anregung in der e2-Schicht nur die Komponenten 61, die nach oben links geneigt sind, einfach übertragen werden können. Aus diesem Grund werden in 36 innerhalb der f1A-Schicht nur gruppenweise Neuronen 63, die den Stellen der geneigten Komponenten 61 entsprechen, angeregt. Im Anschluss daran werden zum Detektieren eines Azimutvektors Anregungssignale aus der f1A-Schicht in die g1A-Schicht übertragen, wobei letztere aus eindimensional angeordneten Neuronen besteht und mit der f1A-Schicht über synaptische Verbindungen verbunden ist, um die Signale von der Gruppe von Neuronen zu empfangen, die sich auf dem gleichen Azimut innerhalb der f1A-Schicht befinden. Im Ergebnis wird in der g1A-Schicht ein dem Azimut der Gruppe von Neuronen 63 entsprechendes Neuron 64 angeregt. Der Azimut des Neurons 64 und die Intensität seiner Erregung entsprechen einem Azimutvektor. Die f1A-Schicht und die g1A-Schicht sollten bevorzugt so miteinander verbunden sein, dass der Azimut der Gruppe von Neuronen 63 und der Azimut des Neurons 64 eine gegenseitige Winkelverschiebung β aufweisen, das heißt Phasen der Gruppe der Neuronen 63 gegenüber der Phase des Neurons 64 verschoben sind. Alternativ können gemäß 37 Gewichte an den Verbindungen zwischen der f1A-Schicht und der g1A-Schicht in der Weise angebracht werden, dass die Gewichte der Verbindungen von den Neuronen der f1A-Schicht, die Stellen entfernt vom Betrachtungsfenster entsprechen, größer sind als die Gewichte von Verbindungen von den Neuronen der f1A-Schicht, die einer Stelle näher bei dem Betrachtungsfenster entsprechen. Sowohl die Phasenverschiebung als auch die Gewichte W sollten vorzugsweise gemeinsam verwendet werden.
  • In der oben beschriebenen Weise werden Anregungssignale von nach oben rechts geneigten Komponenten 60 aus der f1B-Schicht in die g1B-Schicht übertragen, in der ein für einen Azimutvektor stehendes Neuron 66 angeregt wird. Auch in diesem Fall werden vorzugsweise die Phasenverschiebung β und/oder die Gewichte W benutzt.
  • In der h1-Schicht werden die Azimutvektoren, die in der g1A-Schicht und der g1B-Schicht in der oben beschriebenen Weise detektiert wurden, miteinander kombiniert. In der i-Schicht wird der Vektor für die Bewegung des Betrachtungsfensters ermittelt. Die Zusammensetzung des Vektors für die Bewegung des Fensters lässt sich in dem Polarkoordinatensystem oder in der kartesischen Ebene ausführen. In 36 setzt sich der Vektor für die Bewegung des Betrachtungsfensters in der kartesischen Ebene zusammen. Die von den Neuronen 64 und 66 kommenden Anregungssignale werden invers in der Komplex-Log-Abbildung transformiert und an die i-Schicht übertragen, wo der Schwerpunkt jedes Azimutvektors ermittelt und als Vektor für die Bewegung des Betrachtungsfensters ausgegeben wird. Die Eingaben in die i-Schicht gemäß obiger Beschreibung erfolgen für das Detektieren und die Zusammensetzung des Azimutvektors in Richtung Mittelpunkt des Hauptobjektbilds. Tatsächlich jedoch werden auch Azimutvektoren in die i-Schicht eingegeben und in noch zu erläuternder Weise passend kombiniert, welche zu einem Punkt einer Konzentration der Kontur des Hauptobjektbilds gerichtet sind.
  • Im folgenden soll beschrieben werden, wie das Betrachtungsfenster in Richtung des Kandidaten abhängig von dem Vektor für die Bewegung des Betrachtungsfensters vorrückt, der entsprechend der Konturlinie des Kandidaten in der oben beschriebenen Weise ermittelt wurde.
  • 39A, 39B, 39C und 39D sind anschauliche Darstellungen von Komplex-Log-Abbildungsebenen und entsprechenden kartesischen Ebenen als Hilfsmittel zu der Erläuterung, wie der Mittelpunkt eines Betrachtungsfensters von der Seite außerhalb eines Kandidaten zum Mittelpunkt des Kandidaten vorrückt. Bei diesem Beispiel ist als Hilfsmittel zum Erleichtern der Erläuterung der Kandidat kreisförmig, und der Mittelpunkt des Betrachtungsfensters rückt in Richtung des Kreises vor.
  • Wie in 39A zu sehen ist, werden, wenn ein Teil eines Kandidaten 71 in ein Betrachtungsfenster 73 gelangt, Komponenten einer Konturlinie eines Komplex-Log-abgebildeten Kandidaten 71', die unter vorbestimmten Winkeln +α und –α in der in 39A gezeigten Komplex-Log-Abbildungsebene geneigt sind, durch die f1-Schicht detektiert. Die vorbestimmten Winkel +α und –α sind die Winkel der gekippten oder geneigten Komponenten der Konturlinie, die sich in Umfangsrichtung erstreckt, und die in bezug auf die Umfangsrichtung von der f1-Schicht extrahiert werden. Der Neigungswinkel nach oben rechts bezüglich der Umfangsrichtung wird als positiver Winkel bewertet, und der Neigungswinkel nach oben links bezüglich der Umfangsrichtung wird als negativer Winkel bewertet. Die unter den vorbestimmten Winkeln +α und –α geneigten Komponenten werden durch die g1-Schicht als Azimutvektoren 74, 74 (die den Azimutvektoren 72, 72 in der kartesischen ebene entsprechen) detektiert. Um das Vorrücken des Mittelpunkts Q des Betrachtungsfensters 73 in Richtung des Mittelpunkts O des Kandidaten 71 zu erleichtern, wird auf den Azimutvektor eine Phasenverschiebung +β angewendet, entsprechend der unter dem vorbestimmten Winkel +α geneigten Komponenten, und es wird eine Phasenverschiebung –β auf den Azimutvektor angewendet, entsprechend der unter dem vorbestimmten Winkel –α geneigten Komponente. Außerdem werden Wichtungen oder Gewichte entsprechend den Entfernungen zwischen dem Mittelpunkt des Betrachtungsfensters und den unter den vorbestimmten Winkel +α und –α geneigten Komponenten auf die Azimutvektoren angewendet, entsprechend den um die vorbestimmten Winkel +α und –α geneigten Komponenten. Auf diese Weise erhält man Azimutvektoren 74', 74' in der kartesischen Ebene. In der h1-Schicht wird aus den Azimutvektoren 74', 74' ein zusammengesetzter Vektor gewonnen. Dieser zusammengesetzte Vektor wird bestimmt als Vektor 75 für das Vorrücken des Betrachtungsfensters 73. Wenn der Vektor 75 für das Wandern des Betrachtungsfensters 73 auf diese Weise festgelegt ist, rückt das Betrachtungsfenster 73 entsprechend dem Vektor 75 für das Betrachtungsfenster 73 vor. 39B zeigt den Zustand des Betrachtungsfensters 73, welches auf diese Weise vorgerückt ist.
  • Wie in 39B gezeigt ist, werden der Mittelpunkt Q des Betrachtungsfensters 73 des Kandidaten 71 in vergleichsweise nahe nebeneinander liegende Positionen gebracht, und der gesamte Kandidat 71 gelangt in die Zone im Inneren des Betrachtungsfensters 73. In diesem Zustand werden zwei unter dem vorbestimmten Winkel +α geneigte Komponenten und zwei unter dem bestimmten Winkel –α geneigte Komponenten detektiert. Deshalb werden vier Azimutvektoren 74, 74, 74, 74 detektiert. In diesem Fall wird wie in dem in 39A gezeigten Fall die Phasenverschiebung von +β oder –β in Verbindung mit Gewichten auf jeden Azimutvektor angewendet, und hierdurch wird ein Vektor 75 für die Bewegung des Betrachtungsfensters 73 erhalten. Der Mittelpunkt Q des Betrachtungsfensters 73 wandert entsprechend dem Vektor 75 für die Bewegung des Betrachtungsfensters 73. 39C zeigt den Zustand des Betrachtungsfensters 73 nach dessen derartigem Vorrücken.
  • In dem in 39C gezeigten Zustand wird ein Vektor 75 für die Bewegung des Betrachtungsfensters 73 in der gleichen Weise wie oben beschrieben ermittelt, und der Mittelpunkt Q des Fensters 73 rückt entsprechend dem Vektor 75 für das Betrachtungsfenster 73 in den in 39D gezeigten Zustand vor. Schließlich fällt die Stelle des Mittelpunkts Q des Betrachtungsfensters 73 zusammen mit der Stelle des Mittelpunkts Q des Kandidaten 71, und der Mittelpunkt Q des Betrachtungsfensters 73 hält an.
  • Der Wert β für die Phasenverschiebung wird auf einen Wert eingestellt, der in den Bereich von 0 Grad bis weniger als 90-α Grad fällt, so dass der Vektor 75 für die Bewegung des Betrachtungsfensters 73 auf den Kandidaten 71 gerichtet sein kann. (Wenn der Wert von β für die Phasenverschiebung größer als 90-α Grad ist, ist der Vektor 75 für die Bewegung des Betrachtungsfensters 73 auf die dem Kandidaten 71 entgegengesetzte Seite gerichtet.)
  • Die auf die Azimutvektoren 74 und 72 angewendeten Gewichte werden entsprechend den Entfernungen zwischen dem Mittelpunkt Q des Betrachtungsfensters 73 und denjenigen Komponenten der Konturlinie eingestellt, die unter den vorbestimmten Winkeln +α und –α geneigt sind. Ein stärkeres Gewicht wird für einen größeren Abstand angewendet, so dass der Vektor 75 für die Bewegung des Betrachtungsfensters 73 zum Mittelpunkt O des Kandidaten gerichtet sein kann.
  • Was den Wert für α des vorbestimmten Winkels angeht, so ist in solchen Fällen, in denen der Mittelpunkt Q des Betrachtungsfensters 73 sich in der Zone außerhalb des Kandidaten 71 befindet, der α-Punkt sicherlich vorhanden, wenn α in den Bereich von 0 Grad bis 90 Grad fällt. (Wenn α einen Wert von 90 Grad hat, tritt der Azimutvektor in Berührung mit dem Kandidaten 71, und es wird nur ein einzelner α-Punkt gefunden.) In solchen Fällen hingegen, in denen der Mittelpunkt Q des Betrachtungsfensters 73 sich in der Zone innerhalb des Kandidaten 71 befindet, gibt es keinen α-Punkt abhängig von der Entfernung zwischen dem Mittelpunkt Q des Betrachtungsfensters 73 und dem Mittelpunkt O des Kandidaten, und es gibt einen Wert α von Null. Untersuchungen haben ergeben, dass in solchen Fällen, in denen der Kandidat 71 wie bei diesem Beispiel kreisförmig ist, bei einem Wert α von 25 Grad der α-Punkt verschwindet, wenn der Abstand zwischen dem Mittelpunkt Q des Fensters 73 und dem Mittelpunkt O des Kandidaten 71 etwa 60% des Radius des Kandidaten 71 ausmacht. Beträgt α 45 Grad, verschwindet der α-Punkt, wenn der Abstand zwischen dem Mittelpunkt Q des Fensters 73 und der Mittelpunkt O des Kandidaten 71 etwa 80% des Radius des Kandidaten 71 ausmacht. Wenn also der Wert von α klein ist, kann der Mittelpunkt Q des Betrachtungsfensters 73 zu dem Mittelpunkt O des Kandidaten 71 wandern. Tatsächlich jedoch ist der Kandidat kein echter Kreis, sondern nimmt unterschiedliche Formen an. Dementsprechend sollte der Wert für α vorzugsweise entsprechend dem Kandidaten, den es zu extrahieren gilt, eingestellt werden.
  • Versuche zeigen, dass bei einem natürlichen Bild der Wert α vorzugsweise in einen Bereich von etwa 20 bis 30 Grad fallen sollte.
  • In den Fällen, in denen der Mittelpunkt Q des Fensters 73 und der Mittelpunkt O des kreisförmigen Kandidaten 71 miteinander übereinstimmen, wie dies in 13A gezeigt ist, drückt sich die Konturlinie des Kandidaten 71, die in dem Mittelteil des Betrachtungsfensters enthalten ist, in Form einer Geraden parallel zu der Umfangsrichtung in der Komplex-Log-Abbildungsebene aus. Insbesondere ist das Bewegen des Mittelpunkts des Fensters zum Mittelpunkt des Kandidaten gleichbedeutend mit einer Operation, bei der die sich in Umfangsrichtung erstreckende Konturlinie, die durch die e1-Schicht ausgewählt wird, durch zahlreiche Komponenten möglichst parallel zur Umfangsrichtung gebildet wird.
  • Im folgenden soll beschrieben werden, wie der Vektor für die Bewegung oder das Vorrücken des Betrachtungsfensters von den f2-, g2- und h2-Schichten bestimmt wird, und wie das Betrachtungsfenster entsprechend dem Vektor für die Bewegung des Betrachtungsfensters vorrückt.
  • 40A, 40B, 40C und 40D sind anschauliche Darstellungen von Komplex-Log-Abbildungsebenen und entsprechenden kartesischen Ebenen als Hilfsmittel zum Erläutern, wie ein Betrachtungsfenster zu einem Schnittpunkt von Konturlinien eines Kandidaten läuft.
  • Wie in 40A gezeigt ist, werden, wenn ein Teil eines Kandidaten 76 in ein Betrachtungsfenster 73 gelangt, Komponenten einer Konturlinie eines Komplex-Log-abgebildeten Kandidaten 76', die unter vorbestimmten Winkeln +α' und –α' in der in 40A gezeigten Komplex-Log-Abbildungsebene geneigt sind, von der f2-Schicht detektiert. Die vorbestimmten Winkel +α' und –α' sind die Winkel der geneigten Komponenten der sich in radialer Richtung erstreckenden Konturlinie, die von der f2-Schicht extrahiert werden, und zwar in bezug auf die Umfangsrichtung. Der Neigungswinkel nach oben rechts bezüglich der Umfangsrichtung wird als positiver Winkel betrachtet, der Nei gungswinkel nach links oben bezüglich der Umfangsrichtung wird als negativer Winkel betrachtet. Die unter den vorbestimmten Winkeln +α' und –α' geneigten Komponenten werden von der g2-Schicht als Azimutvektoren 77, 77, 77, 77 detektiert. Um das Vorrücken des Mittelpunkts Q des Betrachtungsfensters 73 zum Schnittpunkt T der Konturlinien des Kandidaten 76 zu erleichtern, wird auf den Azimutvektor eine Phasenverschiebung +β angewendet, entsprechend den um den vorbestimmten Winkel +α' geneigten Komponenten, und es wird eine Phasenverschiebung –β' auf den Azimutvektor entsprechend der unter dem vorbestimmten Winkel –α' geneigten Komponente angewendet. Außerdem werden Gewichte auf die Azimutvektoren angewendet, die den unter den vorbestimmten Winkeln +α' und –α' geneigten Komponenten entsprechen. Auf diese Weise werden Azimutvektoren 77', 77', 77', 77' in der kartesischen Ebene erhalten. In der h2-Schicht wird ein zusammengesetzter Vektor aus den Azimutvektoren 77', 77', 77', 77' erhalten. Der zusammengesetzte Vektor wird bestimmt als Vektor 78 für das Vorrücken des Betrachtungsfensters 73, und Information über den zusammengesetzten Vektor wird aus der i-Schicht ausgegeben. Wenn der Vektor 78 für die Bewegung des Betrachtungsfensters 73 auf diese Weise bestimmt ist, rückt das Betrachtungsfenster entsprechend dem Vektor 78 vor. 40B zeigt den Zustand des so vorgerückten Betrachtungsfensters 73.
  • In dem in 40B gezeigten Zustand wird ein Vektor 78 für die Bewegung des Betrachtungsfensters 73 in der oben beschriebenen Weise bestimmt, und der Mittelpunkt Q des Fensters 73 wandert entsprechend dem Vektor 78 in den in 40C und den in 40D gezeigten Zustand. Schließlich stimmt die Lage des Mittelpunkts Q des Betrachtungsfensters 73 überein mit dem Schnittpunkt T der Konturlinien des Kandidaten 76, und der Mittelpunkt Q des Betrachtungsfensters 73 hält an.
  • Was den Wert α' des vorbestimmten Winkels angeht, so sind in den Fällen, in denen der Scheitelpunkt-Winkel klein ist und gleichzeitig der Wert α' klein ist, zwei +α'-Punkte und zwei –α'-Punkte vorhanden. Wenn allerdings der Wert α größer als ein gewisser Wert ist, gibt es nur einen einzigen +α'-Punkt (und nur einen einzigen –α'-Punkt). Wenn der Wert von α' kleiner als 90 Grad ist, ist zumindest ein einzelner α'-Punkt vorhanden. Unter einer solchen Bedingung, dass zwei α'-Punkte vorhanden sind, dient als Vektor für das Vorrücken des Betrachtungsfensters 73 in Richtung des Scheitelpunkts ein Vektor, der sich lediglich zusammensetzt aus den Azimutvektoren, die von dem Mittelpunkt des Betrachtungsfensters 73 zu den beiden α'-Punkten gerichtet sind. Allerdings gibt es Probleme nur dann, wenn ein einzelner α'-Punkt oder gar kein derartiger Punkt vorhanden ist. Untersuchungen haben gezeigt, dass dann, wenn der Wert von α' für den vorbestimmten Winkel klein ist, der α'-Punkt fehlt, wenn der Scheitelpunkt-Winkel des Objekts größer wird. Um daher zu garantieren, dass das Betrachtungsfenster 73 unabhängig von dem Wert des Scheitelpunkt-Winkels zu dem Scheitelpunkt wandert, ist es zunächst notwendig, dass der α'-Punkt vorhanden ist. Folglich sollte der Wert für α' des vorbestimmten Winkels möglichst nahe bei 90 Grad liegen.
  • Wie in 41 gezeigt ist, erstreckt sich in solchen Fällen, in denen der Mittelpunkt Q des Fensters und der Scheitelpunkt auf einer einzigen horizontalen Linie liegen, der Winkel des Scheitelpunkts symmetrisch nach oben und nach unten in bezug auf die Horizontale, und es ist nur ein einziger α'-Punkt vorhanden. Der Vektor 78 für die Bewegung des Fensters, der sich zusammensetzt aus den Azimutvektoren 77, 77, ist zu der dem Scheitelpunkt entgegengesetzten Seite gerichtet. Um ein solches Problem zu beseitigen, sollten gemäß 42 Phasenverschiebungen +β und –β derart angewendet werden, dass der Vektor 78 für die Bewegung des Betrachtungsfensters zum Scheitelpunkt hin gerichtet ist. Zu diesem Zweck sollten die Phasenverschiebungen +β und –β so angewendet werden, dass die Azimutvektoren 77, 77 zumindest zu der Seite rechts von einer Senkrechten liegen, die durch den Mittelpunkt Q des Betrachtungsfensters läuft. Der Wert für β' wird so eingestellt, dass folgende Bedingungen erfüllt sind: β' > α' – C/2, und 0 < β' < 90°wobei C den zu detektierenden Wert des Winkels des Scheitelpunkts darstellt und die Bedingung 0 < C < 360° erfüllt.
  • Durch das Anwenden der angemessenen Phasenverschiebung und Wichtung kann der Mittelpunkt Q des Betrachtungsfensters 73 zu dem Schnittpunkt der Konturlinie des Kandidaten 76 unabhängig davon bewegt werden, unter welchem Winkel die Konturlinien einander schneiden.
  • In solchen Fällen, in denen der Mittelpunkt Q des Betrachtungsfensters 73 und der Scheitelpunkt des Kandidaten 76 miteinander übereinstimmen, wie in 13B gezeigt ist, werden die Konturlinien des Kandidaten 76, der entsprechend dem Betrachtungsfenster 73 ausgeschnitten wird, als gerade Linien parallel zu der radialen Richtung innerhalb der Komplex-Log-Abbildungsebene ausgedrückt. Insbesondere entspricht die Bewegung des Mittelpunkts des Betrachtungsfensters zu dem Scheitelpunkt des Kandidaten einer Operation, bei der die in radialer Richtung verlaufende Konturlinie, die von der e2-Schicht ausgewählt wird, durch zahlreiche Komponenten gebildet werden kann, die möglichst parallel zu der radialen Richtung verlaufen können.
  • In der i-Schicht werden der Vektor für die Bewegung des Betrachtungsfensters, der in der h1-Schicht erhalten wurde, und der in der h2-Schicht erhaltene Vektor für die Bewegung des Betrachtungsfensters in geeigneter Weise kombiniert. Die Information über den zusammengesetzten Vektor für die Bewegung des Betrachtungsfensters wird aus der i-Schicht ausgegeben. Im folgenden wird beschrieben, wie die i-Schicht funktioniert.
  • Es kommt häufig vor, dass der Vektor für die Bewegung des Betrachtungsfensters, der aus der h1-Schicht erhalten wurde, und der aus der h2-Schicht erhaltene Vektor für die Bewegung des Betrachtungsfensters voneinander verschieden sind, was von den jeweiligen Umständen abhängt. In solchen Fällen beispielsweise, in denen der Mittelpunkt des Fensters sich in der Zone außerhalb des vorbestimmten Objektbilds befindet, sind die oben genannten beiden Typen von Vektoren für die Bewegung des Betrachtungsfensters in die gleiche Richtung orientiert. In solchen Fällen, in denen der Mittelpunkt für das Betrachtungsfenster sich in unmittelbarer Nachbarschaft des vorbestimmten Objektbilds befindet oder in der Zone im Inneren des Objektbilds, werden die erwähnten beiden Typen für die Vektoren der Bewegung des Betrachtungsfensters verschieden voneinander. Wenn daher die Ausgangsgrößen des neuronalen Netzwerks, die von den h1- und h2-Schichten ermittelt wurden, in gut ausgewogener Weise eingesetzt werden, lässt sich das Betrachtungsfenster entsprechend dem gewünschten vorbestimmten Objektbild bewegen. In solchen Fällen zum Beispiel, in denen eine charakteristische Form eines Teils eines vorbestimmten Objektbilds zu detektieren und für Lernoperationen zu verwenden ist, erhält die i-Schicht für die Ausgabe seitens der h2-Schicht große Bedeutung. In solchen Fällen, in denen das gesamte vorbestimmte Objektbild aufgefunden werden soll, kann der Ausgangsgröße aus der h1-Schicht innerhalb der i-Schicht große Bedeutung beigemessen werden.
  • Gleichzeitig mit dem Berechnen des Vektors für die Bewegung des Betrachtungsfensters aus der Konturlinie des Kandidaten in der oben beschriebenen Weise wird auch ein Vektor für die Bewegung des Betrachtungsfensters aus der Bewegung des Kandidaten berechnet.
  • Im Fall eines beweglichen Bilds gibt es eine starke Wahrscheinlichkeit dafür, dass ein sich vor einem Hintergrund bewegendes Objekt einen Kandidaten für das vorbestimmte Objektbild darstellt. Deshalb lässt sich der Kandidat dadurch exakt unter Beseitigung des Hintergrunds extrahieren, dass man nur das bewegliche Objekt extrahiert und das Betrachtungsfenster zum Vorrücken bringt.
  • Im folgenden soll beschrieben werden, wie der Vektor für die Bewegung des Betrachtungsfensters aus der Bewegung eines Objekts in der neuronalen Netzwerkverarbeitungseinheit 3 berechnet wird.
  • 3 ist ein Blockdiagramm, das ein Grundkonzept veranschaulicht, welches hinter der Berechnung eines Vektors die Bewegung des Betrachtungsfensters aus der Objektbewegung veranschaulicht. In dieser Ausführungsform wird ein neuronales Netzwerk verwendet, um einen Kandidaten für das Bild einer Yacht zu extrahieren, das als Kandidat für das vorbestimmte Objektbild dient.
  • Wie in 3 gezeigt ist, wird aus dem Bild bei dieser Ausführungsform im Zuge eines Schritts A innerhalb des neuronalen Netzwerks die Lage des Mittelpunkts des Betrachtungsfensters in dem Bild eingestellt, und es wird ein Teil des in die Zone im Inneren des Betrachtungsfensters fallenden Bilds aus dem Bild entnommen. Anschließend wird in einem Schritt B eine Bewegung des Bilds, das ist eine Bewegung des Bilds in einer Richtung parallel zur Bildebene und/oder einer radialen Richtung detektiert. Im Schritt C wird die Bewegung des Hintergrunds aufgehoben (kompensiert). Dann wird im Schritt D ein Objekt, das eine andere Bewegung als der Hintergrund ausführt, nämlich ein Kandidat, detektiert. In einem Schritt E wird das Betrachtungsfenster dazu gebracht, zu dem eine andere Bewegung ausführenden Objekt vorzurücken.
  • Bewegungen eines Bilds entsprechend den drei im folgenden beschriebenen Bewegungstypen.
    • (1) Eine Bewegung parallel zu der Bildebene innerhalb einer rechtwinklig zur Blicklinie verlaufenden Ebene. (Diese Bewegung entspricht einer Augapfelbewegung oder einer Bewegung einer Bildeingabeeinrichtung wie zum Beispiel einer Kamera in einer Richtung rechtwinklig zur Blicklinie.)
    • (2) Eine Bewegung der Vergrößerung oder Verkleinerung um den Blickpunkt. (Diese Bewegung entspricht einer Bewegung einer Bildeingabeeinrichtung in einer Richtung zu oder weg von der Außenwelt entlang einer Blicklinie.)
    • (3) Eine im Uhrzeigersinn oder im Gegenuhrzeigersinn erfolgenden Drehbewegung um die Blicklinie. (Diese Bewegung entspricht einer Drehbewegung der Bildeingabeeinrichtung um die Blicklinie.) Jede Bewegung lässt sich in eine dieser drei Bewegungen klassifizieren.
  • 4 ist eine anschauliche Darstellung, die ein Beispiel eines neuronalen Netzwerks zum Detektieren der Bildbewegung veranschaulicht.
  • Ein Signal, welches einen Teil eines Bilds der Außenwelt repräsentiert und welches durch das Betrachtungsfenster vorbestimmter Größe erhalten wird, wird in das neuronale Netzwerk eingespeist. Außerdem wird aus dem neuronalen Netzwerk ein Signal ausgegeben, welches die Richtung repräsentiert, in der sich das Bild bewegt. Die oben angesprochene parallele Bewegung ist raum-invariant in der kartesischen Ebene. Deshalb sollte das Detektieren dieser Parallelbewegung vorzugsweise in der kartesischen Ebene erfolgen. Andererseits sind die Vergrößerungs- oder Verkleinerungsbewegung ebenso wie die Drehbewegung räumlich variant in der kartesischen Ebene, sind allerdings nach Transformation mittels der Komplex-Log-Abbildung raum-invariant. Deshalb sollte das Detektieren der Vergrößerungs- oder Verkleinerungsbewegung sowie der Drehbewegung vorzugsweise in der Komplex-Log-Abbildungsebene erfolgen.
  • Die Schichten des bei dieser Ausführungsform verwendeten neuronalen Netzwerks haben die im folgenden beschriebenen Funktionen. Dieses neuronale Netzwerk ist unterteilt in ein neuronales Netzwerk 10, welches eine parallele Bildbewegung detektiert, und ein neuronales Netzwerk 20, welches eine Vergrößerungs- oder Verkleinerungsbewegung sowie eine Drehbewegung detektiert. Der grundlegende Aufbau des neuronalen Netzwerks dieser Ausführungsform ist der des Schicht-Typs. Das neuronale Netzwerk 10 zum Detektieren einer Parallelbewegung des Bilds wird gebildet durch eine A1-Schicht mit dem Betrachtungsfenster vorbestimmter Größe, in welcher das Bild mit der Größe des Betrachtungsfensters ausgeschnitten und in das neuronale Netzwerk eingespeist wird, und eine A2-Schicht zur Erzeugung einer zeitlichen Verzögerung für das Ausschnittbild. Das neuronale Netzwerk 10 wird auch durch eine C1-Schicht zum Detektieren der Konturlinien eines Objektbilds, das in das in der A1-Schicht ausgeschnittene Bild eingebettet ist, und einer C2-Schicht zum Detektieren der Konturlinien des Objektbilds, das in das in der A2-Schicht mit der Zeitverzögerung versehene Bild eingebettet ist, gebildet. Das neuronale Netzwerk 10 ist darüber hinaus gebildet durch eine D1-Schicht zum Auffinden der Differenz zwischen dem durch Detektieren der Konturlinien in der C1-Schicht erhaltenen Bild und dem durch Detektieren der Konturlinien in der C2-Schicht erhaltenen Bild. Das neuronale Netzwerk 10 wird außerdem gebildet durch E1-, E2-, E3- und E4-Schichten zum Extrahieren lediglich der Komponenten in vorbestimmten Richtungen aus der Differenz, die in der D1-Schicht aufgefunden wurde. Das neuronale Netzwerk 10 wird außerdem gebildet durch eine F1-Schicht zum Erzeugen einer Ausgangsgröße, die die Bewegung des Bilds repräsentiert, so zum Beispiel den Azimut einer Parallelbewegung aus Komponenten von Konturlinien, die in den E1-, E2-, E3- und E4-Schichten extrahiert wurden.
  • Andererseits besteht das neuronale Netzwerk 20 aus einer A3-Schicht mit dem Betrachtungsfenster vorbestimmter Größe, in welcher Schicht das Bild mit der Größe des Fensters ausgeschnitten und in das neuronale Netzwerk eingespeist wird, einer A4-Schicht, die dem Ausschnittsbild eine Zeitverzögerung vermittelt. Das neuronale Netzwerk 20 besteht außerdem aus einer B1-Schicht zum Transformieren des in der A3-Schicht ausgeschnittenen Bilds durch Komplex-Log-Abbildung, und einer B2-Schicht zum Transformieren des in der A4-Schicht mit einer Zeitverzögerung versehenen Bilds durch Komplex-Log-Abbildung. Das neuronale Netzwerk 10 wird darüber hinaus gebildet durch eine C3-Schicht zum Detektieren der Konturlinien eines Objektbilds, welches in das in der B1-Schicht erhaltene Komplex-Log-Abbild eingebettet ist, und einer C4-Schicht zum Detektieren der Konturlinien des Objektbilds, welches eingebettet ist in die in der B2-Schicht erhaltene Komplex-Log-Abbildung. Das neuronale Netzwerk 20 ist weiterhin gebildet aus einer D2-Schicht zum Auffinden der Differenz zwischen dem Bild, welches durch das Detektieren der Konturlinien in der C3-Schicht erhalten wurde, und dem Bild, welches durch Detektieren der Konturlinien in der C4-Schicht erhalten wurde. Das neuronale Netzwerk 20 besitzt ferner E5- und E6-Schichten zum Extrahieren ausschließlich der Komponenten in radialer Richtung aus der in der D2-Schicht aufgefundenen Differenz. Das neuronale Netzwerk 20 besitzt zusätzlich E7- und E8-Schichten zum Extrahieren ausschließlich der Komponenten in Umfangsrichtung aus der in der D2-Schicht aufgefundenen Differenz. Weiterhin enthält das neuronale Netzwerk 20 eine F2-Schicht zum Generieren einer Ausgangsgröße, die die Bewegung des Bilds als Vergrößerungs- oder Verkleinerungsbewegung repräsentiert, das heißt als Azimut einer Radialbewegung, aus den Komponenten der Konturlinien, die in den E5- und E6-Schichten extrahiert wurden. Das neuronale Netzwerk 20 besitzt weiterhin eine F3-Schicht zum Generieren einer Ausgangsgröße bezüglich der Bewegung des Bilds als Azimut einer Drehbewegung aus den Komponenten der Konturlinien, die in den E7- und E8-Schichten extrahiert wurden.
  • In dem bei dieser Ausführungsform verwendeten neuronalen Netzwerk sind die synaptischen Verbindungen zwischen benachbarten Schichten von der B- und den daran anschließenden Schichten räumlich invariant. Außerdem sind die synaptischen Verbindungen innerhalb jeder dieser Schichten räumlich invariant. Die räumliche Invarianz wird deshalb eingesetzt, um die Modellsimulation und die Parallelverarbeitung zu erleichtern. Die synaptischen Verbindungen brauchen aber nicht notwendigerweise räumlich invariant zu sein. In solchen Fällen allerdings, in denen die synaptischen Verbindungen räumlich invariant sind, wird die Ausgangsgröße jedes Neurons äquivalent zu einem Ausgangssignal, welches erhalten wird, wenn das Ergebnis einer Faltung (das heißt einer Anpassung mit einem synaptischen Wichtungsmuster) der synaptischen Verbindungsmatrix und der vorhergehenden Neuronenschicht-Matrix durch eine nicht-lineare Funktion geleitet wird. Deshalb wird der Rechenaufwand spürbar einfach, wenn eine Simulation des neuronalen Netzwerks auf einem Computer vorgenommen wird. In dem bei dieser Ausführungsform eingesetzten neuronalen Netzwerk werden positive Neuronensignale und positive und negative synaptische Verbindungen verwendet. Insbesondere dann, wenn ein positives Signal über eine positive Verbindung geleitet wird, wird es als positives Anregungssignal übertragen. Wenn ein positives Signal über eine negative Verbindung geleitet wird, wird es als negatives Anregungssignal übertragen. Allerdings sind die Neuronensignale nicht auf positive Signale beschränkt, es kann von einem Neuronenmodell Gebrauch gemacht werden, bei dem Neuronensignale positive und negative Anregungssignale enthalten, synaptische Verbindungen positive und negative Verbindungen beinhalten, und wobei, wenn ein negatives Signal über eine negative Verbindung läuft, es als positives Anregungssignal übertragen wird.
  • Das neuronale Netzwerk 10 hat die im folgenden beschriebenen Funktionen. Zunächst wird in der A1-Schicht ein Bild 11A zu der Zeit t ausgeschnitten, welches in 5A gezeigt ist und in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fällt. Außerdem wird in der Schicht A2 ein Bild 11B zur Zeit t + α ausgeschnitten, welches in 5B gezeigt ist und in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fällt. Zu dem Bild 11B zur Zeit t + α wurde eine Bewegung parallel zur Bildebene und entgegen der Bewegung einer Bildeingabeeinrichtung, zum Beispiel einer Kamera, hinzugefügt. Im Vergleich zu dem Bild 11A hat sich das Bild 11B nach oben bewegt (die Bildeingabeeinrichtung hat sich nach unten bewegt). In den 5A und 5B bedeuten die weißen Teile in jedem Bild, dass die Signalintensität groß ist, schwarze Teile in jedem Bild bedeuten, dass die Signalintensität gering ist. Im Anschluss daran werden die Konturlinien der Objektbilder, die in die in den A1- und A2-Schichten ausgeschnittenen Bildern 11A und 11B eingebettet sind, detektiert. Insbesondere werden die Bilder 11A und 11B als mit einem synaptischen Gewichtungsmuster 12 zum Extrahieren der Konturlinien behaftete Signale übertragen, wobei das Muster in 6 dargestellt ist. Auf diese Weise werden die Konturlinien der Bilder 11A und 11B detektiert, die durch die Bilder 13A und 13B in den 7A und 7B angegeben sind.
  • Danach erfolgt in der D1-Schicht eine Operation zum Auffinden der Differenz zwischen dem Bild 13A, welches durch das Detektieren der Konturlinien in der C1-Schicht erhalten wurde, und dem Bild 13B, welches durch Detektieren der Konturlinien in der C2-Schicht erhalten wurde. Insbesondere wird der Vorgang (Bild 13A–Bild 13B) ausgeführt. Auf diese Weise erhält man das in 8 gezeigte Bild 14. Insbesondere empfängt die D1-Schicht Neuronensignale mit positiven Gewichten aus der C1-Schicht, und sie empfängt Neuronensignale mit negativen Gewichten aus der C2-Schicht. Die schraffierten Teile in 8 bedeuten, dass der Signalwert Null ist. Anschließend wird in den E1-, E2-, E3- und E4-Schichten das Bild 14 als mit synaptischen Gewichtungsmustern zum Detektieren von Bewegungen parallel zu der Bildebene gewichtetes Signal übertragen, und es werden Komponenten repräsentativ für die jeweiligen Bewegungsrichtungen extrahiert. Als Hilfe zum Erleichtern der Erläuterung dieses Beispiels werden mit Hilfe eines synaptischen Wichtungsmusters 15 zum Extrahieren der Aufwärtskomponenten und eines synaptischen Wichtungsmusters 16 zum Extrahieren von nach links gerichteten Komponenten gemäß 9 nur zwei Typen von Bewegungskomponenten extrahiert, nämlich die Komponenten in Aufwärtsrichtung und die Komponenten in der Richtung nach links. Ein in 10A dargestelltes Bild 17A und ein in 10B dargestelltes Bild 17B stellen die Ergebnisse der Übertragung des Bilds 14 als durch das synaptische Wichtungsmuster 15 und das synaptische Wichtungsmuster 16 gewichtete Signal dar. Information über die Komponenten der Bewegungen der Konturlinien, die in den E1-, E2-, E3- und E4-Schichten ext rahiert wurden, werden in die F1-Schicht eingespeist. Danach detektiert der aus F1-, F1'- und F''-Schichten bestehenden Teil des neuronalen Netzwerks, welche Bewegungskomponenten-Richtung stärker extrahiert wurde, und es wird ein Ausgangssignal erzeugt, welches den Azimut der Bewegung in Richtung parallel zur Bildebene repräsentiert. Insbesondere besitzen, wie aus dem Bild 17A in 10A hervorgeht, bei dieser Ausführungsform die Aufwärtskomponenten die größte Signalintensität. Deshalb wird aus einem Neuron, welches das Auftreten einer Aufwärtsbewegung repräsentiert, ein Signal mit hoher Intensität ausgegeben, und aus einem Neuron, welches das Auftreten einer Bewegung nach links repräsentiert, wird kein Signal ausgegeben.
  • Das neuronale Netzwerk 20 hat die im folgenden beschriebenen Funktionen.
  • Zunächst soll im folgenden beschrieben werden, wie das neuronale Netzwerk 20 arbeitet, wenn sich eine Bildeingabeeinrichtung wie zum Beispiel eine Kamera in Richtung des Bilds bewegt und das Bild ausschneidet.
  • Als erstes wird in der A3-Schicht ein Bild 21A zur Zeit t ausgeschnitten, welches in 11A gezeigt ist und in die Zone innerhalb des Betrachtungsfensters vorbestimmter Größe fällt. Außerdem wird in der A4-Schicht ein Bild 218 zur Zeit t + α ausgeschnitten, welches in 11B gezeigt ist und in die Zone innerhalb des Betrachtungsfensters vorbestimmter Größe fällt. Dem Bild 21B zur Zeit t + α wurde eine Bewegung zur Bildvergrößerung aufgrund der Bewegung der Bildeingabeeinrichtung, zum Beispiel einer Kamera, in Richtung der Außenwelt hinzugefügt. Im Vergleich zu dem Bild 21A ist das Bild 21B vergrößert. Anschließend werden in den B1- und B2-Schichten die in den A3- und A4-Schichten ausgeschnittenen Bilder 21A und 21B mit Hilfe der Komplex-Log-Abbildung transformiert. Auf diese Weise werden Bilder 22A und 22B nach den 12A und 12B gewonnen.
  • Im Anschluss daran wird in den C3- und C4-Schichten Konturlinien von Objektbildern, die in die Bilder 22A und 22B eingebettet sind, welche aus der Transformation mit der Komplex-Log-Abbildung in den B1- und B2-Schichten erhalten wurden, detektiert. Insbe sondere werden die Bilder 22A und 22B als Signale übertragen, die mit dem synaptischen Wichtungsmuster 12 zum Extrahieren der Konturlinien gewichtet sind, wobei das Muster in 6 gezeigt ist. Auf diese Weise werden die Konturlinien der Bilder 22A und 22B detektiert, wobei die Konturlinien durch die Bilder 23A und 23B in den 14A und 14B gezeigt sind.
  • Danach wird in der D2-Schicht ein Vorgang ausgeführt, um die Differenz zwischen dem Bild 23A, welches durch Detektieren der Konturlinien in der C3-Schicht erhalten wurde, und dem Bild 23B, welches durch Detektieren der Konturlinien in der C4-Schicht erhalten wurde, aufzufinden. Insbesondere wird der Vorgang (Bild 23A–Bild 23B) ausgeführt. Auf diese Weise erhält man ein Bild 24, das in 15 gezeigt ist. Danach wird in den E5- und E6-Schichten das Bild 24 als ein Signal, welches mit synaptischen Gewichtungsmustern zum Detektieren von Bewegungen in radialer Richtung gewichtet ist, übertragen, und es werden Komponenten extrahiert, die die jeweiligen Bewegungsrichtungen repräsentieren. Insbesondere werden mit Hilfe eines synaptischen Gewichtungsmusters 25 zum Extrahieren der Komponenten in Vergrößerungsrichtung und eines synaptischen Wichtungsmusters 26 zum Extrahieren der Komponenten in Verkleinerungsrichtung, dargestellt in 16, Bewegungskomponenten des Bilds in radialen Richtungen aufgrund einer Vergrößerung und Verkleinerung extrahiert. Ein in 17A gezeigtes Bild 27A und ein in 17B gezeigtes Bild 27B zeigen die Ergebnisse der Übertragung des Bilds 24 als Signal, das mit den synaptischen Wichtungsmustern 25 und 26 gewichtet wurde. Information über die Komponenten der Bewegungen der Konturlinien, die in den E5- und E6-Schichten extrahiert wurden, werden in die F2-Schicht eingespeist. Danach detektiert derjenige Teil des neuronalen Netzwerks, der aus den Schichten F2, F2' und F2'' gebildet wird, welche Bewegungskomponenten-Richtung stärker extrahiert wurde, und es wird ein Ausgangssignal generiert, welches den Azimut der Radialbewegung darstellt. Insbesondere sind bei dieser Ausführungsform, wie durch das Bild 27A in 17A und das Bild 27B in 17B dargestellt ist, die Intensitäten der Komponenten in Vergrößerungsrichtung stark, während die Intensitäten der Komponenten in Verkleinerungsrichtung schwach sind. Deshalb wird aus einem Neuron, welches die Bewegung in Vergrößerungsrichtung repräsentiert, ein Signal hoher Intensität ausgegeben, und es wird aus einem Neuron, welches die Bewegung in Verkleinerungsrichtung repräsentiert, kein Signal ausgegeben.
  • Im folgenden soll beschrieben werden, wie das neuronale Netzwerk 20 arbeitet, wenn eine Bildeingabeeinrichtung wie zum Beispiel eine Kamera, um den Mittelpunkt ihres Betrachtungsfensters gedreht wird und das Bild aufnimmt.
  • Als erstes wird in der A3-Schicht ein Bild 31A zur Zeit t ausgeschnitten, welches in 18A dargestellt ist und in den Bereich innerhalb des Betrachtungsfensters vorbestimmter Größe fällt. Außerdem wird in der A4-Schicht ein Bild 31B zur Zeit t + α ausgeschnitten, das in 18B gezeigt ist und in die Zone innerhalb des Betrachtungsfensters vorbestimmter Größe fällt. Dem Bild 31B zur Zeit t + α wird eine Drehbewegung als Drehbewegung der Eingabeeinrichtung, beispielsweise einer Kamera, hinzugefügt. Im Vergleich zu dem Bild 31A ist das Bild 31B um den Mittelpunkt des Betrachtungsfensters im Uhrzeigersinn gedreht. Anschließend werden in den B1- und B2-Schichten die Bilder 31A und 31B, die in den A3- und A4-Schichten ausgeschnitten wurden, mittels der Komplex-Log-Abbildung transformiert. Auf diese Weise werden die Bilder 32A und 32B in den 19A und 19B gewonnen. Im Anschluss daran werden in den C3- und C4-Schichten Konturlinien von Objektbildern, die in die durch Transformation durch Komplex-Log-Abbildung in den B1- und B2-Schichten erhaltenen Bilder 32A und 32B eingebettet sind, detektiert. Insbesondere werden die Bilder 32A und 32B als Signale übertragen, die gedichtet sind mit dem synaptischen Wichtungsmuster 12 zum Extrahieren der Konturlinien, wie es in 6 gezeigt ist. Auf diese Weise werden in den Bildern 32A und 32B Konturlinien detektiert, welche in den 20A und 20B durch Bilder 33A und 33B angegeben sind.
  • Im Anschluss daran wird in der D2-Schicht eine Operation zu dem Zweck ausgeführt, die Differenz zu ermitteln zwischen dem Bild 33A, welches erhalten wurde durch Detektieren der Konturlinien in der C3-Schicht, und dem Bild 33B, welches erhalten wurde durch das Detektieren der Konturlinien in der C4-Schicht. Insbesondere erfolgt die Ausführung der Operation (Bild 33A–Bild 33B). Auf diese Weise erhält man ein Bild 34, das in 21 dargestellt ist. Im Anschluss daran wird das Bild 34 in den E7- und E8-Schichten als ein Signal übertragen, welches mit synaptischen Wichtungsmustern zum Detektieren von Bewegungen in Drehrichtung gewichtet ist, und Komponenten, die die jeweiligen Drehrichtungen repräsentieren, werden extrahiert. Insbesondere werden Komponenten der Drehbewegungen in dem Bild im Uhrzeigersinn und im Gegenuhrzeigersinn mit Hilfe von synaptischen Wichtungsmustern 32 zum Extrahieren der Komponenten im Uhrzeigersinn und eines synaptischen Wichtungsmuster 36 zum Extrahieren der Komponenten im Gegenuhrzeigersinn, dargestellt in 22, extrahiert. Ein in 23A gezeigtes Bild 37A und ein in 23B gezeigtes Bild 37B geben die Ergebnisse der Übertragung des Bilds 34 als Signal, das von dem synaptischen Wichtungsmuster 35 bzw. dem synaptischen Wichtungsmuster 36 gewichtet ist, an. Information über die Komponenten der Bewegungen der Konturlinien, die in den E7- und E8-Schichten extrahiert wurden, werden in die F3-Schicht eingespeist. Im Anschluss daran detektiert der durch die F3-, F3'- und F3''-Schichten gebildete Teil des neuronalen Netzwerks, welche Drehrichtung der Bewegungskomponenten stärker extrahiert wurden, und es wird eine Ausgangsgröße generiert, die den Azimut der Bewegung in der Drehrichtung innerhalb der Ebene repräsentiert. Insbesondere sind bei dieser Ausführungsform, wie durch das Bild 37A in 23A und das Bild 37B in 23B angegeben ist, die Intensitäten der Komponenten in Uhrzeigerrichtung stark, wohingegen die Intensität der Komponenten in Richtung gegen Uhrzeigersinn schwach sind. Deshalb wird ein Signal mit großer Intensität aus einem Neuron ausgegeben, welches das Auftreten der Bewegung im Uhrzeigersinn repräsentiert, wohingegen von einem Neuron, das eine Drehbewegung im Gegenuhrzeigersinn repräsentiert, kein Signal ausgegeben wird.
  • Das Detektieren der Bewegung des Bilds aus den Komponenten der Differenzkonturlinien in den F1-, F1'-, F1''-Schichten, den F2-, F2'-, F2''-Schichten und den F3-, F3'-, F3''-Schichten lässt sich erreichen durch wiederholtes Einspeisen von Eingangssignalen in ein neuronales Netzwerk vom Perceptron-Typ, was Instruktorsignale, die korrekte Beurteilungsergebnisse repräsentieren, an das neuronale Netzwerk liefert, um dadurch Lernoperationen in dem neuronalen Netzwerk durchzuführen. Auf diese Weise kann das neuronale Netzwerk derart zum Wachsen gebracht werden, dass es Bewegungen von Bildern erken nen kann. Auf diese Weise lassen sich Ausgangsgrößen über korrekte Ergebnisse des Erkennens von Bildbewegungen durch Differenzkonturlinien unterschiedlicher Bilder gewinnen.
  • Danach können im Schritt C die Differenzkomponenten über die Bewegungen des Gesamtbilds, das heißt der Hintergrund, zwischen den beiden Bildern, die mit der Zeitdifferenz a aufgenommen wurden, ausgelöscht werden (kompensiert werden) entsprechend der Bewegung des Gesamtbilds, die in der oben beschriebenen Weise erfasst wurde. Insbesondere kann eine der erkannten Bewegung entgegengesetzte Bewegung entsprechend der Richtung und dem Ausmaß der erkannten Bildbewegung hinzugefügt werden. 24 ist ein Flussdiagramm, welches den Ablauf zum Beseitigen der Hintergrundbewegung veranschaulicht. Beispielsweise wird das Signal S1, S2 oder S3, das die Ergebnisse der Bewegungserkennung repräsentiert, in einer Richtung, die der erkannten Bewegungsrichtung entgegengesetzt ist, dem Signal entsprechend dem Bild 11B, 21B oder 31B nach 5B, 11B bzw. 18B, hinzugefügt. Auf diese Weise lässt sich aus jedem Bild ein Bild gewinnen, bei dem die Bewegung des gesamten Bilds, das heißt die Bewegung des Hintergrunds, beseitigt ist.
  • Im Anschluss daran wird im Schritt D ein Vorgang durchgeführt, um die Differenz zwischen dem Bild zur Zeit t + α, aus dem die Bewegung des Gesamtbilds, des heißt die Bewegung des Hintergrunds, im Schritt C beseitigt wurde, und dem Bild zur Zeit t zu ermitteln. Auf diese Weise wird ausschließlich das Objekt extrahiert, welches eine von der Bewegung des Hintergrunds abweichende Bewegung vollzieht. Insbesondere wird gemäß 25A ein Bild 41A durch Extrahieren der Konturlinienkomponenten aus dem Bild zur Zeit t, aus dem die Bewegung des Hintergrunds beseitigt wurde, extrahiert. Außerdem wird gemäß 35B gewonnen durch Extrahieren der Konturlinienkomponenten aus dem Bild zur Zeit t + α, in welchem die Bewegung des Hintergrunds erhalten wurde. Die Differenz zwischen den Bildern 41A und 41B ist bei dieser Ausführungsform die in dem Bild erkennbare Yacht als Gegenstand einer Bewegung, die sich von der Hintergrundbewegung unterscheidet. Dieses Objekt wird als Kandidat für das vorbestimmte Objektbild hergenommen.
  • Danach wird im Schritt E das Betrachtungsfenster dazu gebracht, in Richtung des Kandidaten zu wandern, der die von der Hintergrundbewegung verschiedene Bewegung ausführt. 27 ist ein Flussdiagramm des Prozesses zum Durchführen der Bewegung des Betrachtungsfensters im Schritt E. Im Schritt E sind in den Fällen, in denen sich mehrere Objekte von dem Hintergrund unterscheiden, das heißt, es mehrere Kandidaten durch Detektieren im Schritt D gibt, eine Verkleinerung vorgenommen, und dadurch wird ein als Kandidat mit der größten Wahrscheinlichkeit angenommener Kandidat ausgewählt. Im Anschluss daran wird das Betrachtungsfenster dazu gebracht, zu dem ausgewählten Kandidaten zu wandern.
  • 38 ist eine beispielhafte Ansicht eines Beispiels eines neuronalen Netzwerks zum Berechnen eines Vektors für die Bewegung des Betrachtungsfensters von der Konturlinie des Kandidaten aus. Elemente dieses neuronalen Netzwerks sind jenen des neuronalen Netzwerks nach 28 äquivalent und in 38 mit gleichen, jedoch gestrichenen Bezugszeichen versehen. Das Signal repräsentativ für das in 26 gezeigte Bild 42, das heißt das Bild der Konturlinien des Objekts (des Kandidaten), das eine von der Hintergrundbewegung abweichende Bewegung zeigt, wird in das in 38 gezeigte neuronale Netzwerk eingespeist. Außerdem repräsentiert der von dem neuronalen Netzwerk gewonnene Ausgangssignalwert den Betrag und die Richtung, in der das Betrachtungsfenster bewegt wird, das heißt den Vektor für die Bewegung des Betrachtungsfensters.
  • Gleichzeitig mit der Berechnung der Vektoren für die Bewegung des Betrachtungsfensters aus der Konturlinie des Kandidaten und der Bewegung des Kandidaten in der oben beschriebenen Weise wird auch ein Vektor für die Bewegung des Betrachtungsfensters aus der Farbe des Kandidaten berechnet.
  • 43 ist eine anschauliche Darstellung eines Beispiels eines neuronalen Netzwerks zum Bestimmen eines Vektors für die Bewegung eines Betrachtungsfensters aus der Farbe eines Kandidaten.
  • Wie bei der Ausführungsform des Verfahrens gemäß der Erfindung, bei der der Vektor für die Bewegung des Betrachtungsfensters aus der Konturlinie errechnet wird, wird in das neuronale Netzwerk auch hier ein Signal, welches ein Bild der Außenwelt zur Zeit t repräsentiert und durch das Betrachtungsfenster vorbestimmter Größe erhalten wurde, eingespeist. Darüber hinaus repräsentiert das von dem neuronalen Netzwerk erhaltene Ausgangssignal Betrag und Richtung der Bewegung des Betrachtungsfensters.
  • Wie in dem neuronalen Netzwerk zum Berechnen des Vektors für die Bewegung des Betrachtungsfensters aus der Bewegung des Kandidaten und in dem neuronalen Netzwerk zum Berechnen des Vektors für die Bewegung des Betrachtungsfensters aus der Konturlinie des Kandidaten, ist auch hier der grundlegende Aufbau des neuronalen Netzwerks der eines geschichteten Typs. Allerdings sind die Neuronen in der e''-Schicht miteinander interaktiv gekoppelt. Deshalb kann das neuronale Netzwerk auch als Komplex-Typ bezeichnet werden.
  • Die Schichten des bei dieser Ausführungsform eingesetzten neutralen Netzwerks haben die im folgenden erläuterten Funktionen. Wie bei der Ausführungsform, bei der der Vektor für die Bewegung des Betrachtungsfensters aus der Bewegung des Kandidaten berechnet wird, und der Ausführungsform, bei der der Vektor für die Bewegung des Betrachtungsfensters aus der Konturlinie des Kandidaten berechnet wird, ist auch dieses neuronale Netzwerk in drei Stufen unterteilt.
  • Die Stufe zum Einstellen der Position des Mittelpunkts des Betrachtungsfensters in dem Bild und zum Holen des Teils des Bilds, der in die Zone im Inneren des Betrachtungsfensters fällt, wird durch eine a''-Schicht gebildet, die zu dem Betrachtungsfenster vorbestimmter Größe bereitgestellt wird, wobei in dieser Schicht das Bild mit der Größe des Betrachtungsfensters ausgeschnitten und in das neuronale Netzwerk eingespeist wird. Eine b''-Schicht dient zum Transformieren des eingegebenen Bilds mit Hilfe der Komplex-Log-Abbildung (Transformation mittels logarithmischer Polarkoordinaten).
  • Im Schritt zum Verkleinern des Kandidaten von dem Eingabebild wird gebildet durch c''-, d''-, und e''-Schichten zum Detektieren von Neuronen, die in eine Zone fallen, welche farblich in etwa übereinstimmt mit dem Kandidaten, und zum Detektieren des Maßes der Übereinstimmung der Farbe zwischen der Zone und dem Kandidaten. Der Schritt wird auch durch eine f''-Schicht gebildet, bei der es sich um eine interaktive Verbindungsschicht zum Auswählen einer Zone handelt, die ein hohes Maß an Übereinstimmung in der Farbe mit dem Kandidaten aufweist und hinsichtlich Form und Größe näher bei dem vorbestimmten Objektbild liegt.
  • Der Schritt zum Detektieren einer Lageverschiebung zwischen dem Kandidaten und dem Betrachtungsfenster und zum Berechnen des Bewegungshubs des Betrachtungsfensters wird durch eine g''-Schicht zum Detektieren von Azimut und Entfernung einer Zone der Gruppe der Neuronen gebildet, die in eine Zone fallen, welche annähernd in der Farbe mit dem Kandidaten übereinstimmt, und eine i''-Schicht zum Generieren einer Ausgangsgröße für einen Vektor entsprechend der Bewegung des Betrachtungsfensters gemäß dem detektierten Azimut und der detektierten Entfernung. Wie in den oben erläuterten Ausführungsformen sind in dem bei dieser Ausführungsform verwendeten neuronalen Netzwerk die synaptischen Verbindungen zwischen benachbarten Schichten der b''-Schicht und der dieser nachfolgenden Schichten räumlich invariant. Außerdem sind die synaptischen Verbindungen in der interaktiven Verbindungsschicht räumlich invariant.
  • Als erstes wird in der a''-Schicht ein Teil des in die Zone des Betrachtungsfensters vorbestimmter Größe fallenden Bilds ausgeschnitten. In der a''-Schicht wird die Dichte der vorhandenen Neuronen in einem Bereich näher am Mittelpunkt des Betrachtungsfensters größer. In der b''-Schicht wird das in der a''-Schicht erfasste Bild mit Hilfe der Komplex-Log-Abbildung transformiert, wobei der Mittelpunkt des Betrachtungsfensters als Abbildungs-Pol verwendet wird. Weil das Bild auf diese Weise mit der Komplex-Log-Abbildung in der b''-Schicht transformiert wird, können die Prozesse in der b''-Schicht und den daran anschließenden Schichten ausgeführt werden durch eine Faltung mit einem räumlich invarianten Muster synaptischer Gewichte.
  • 44 zeigt die Transformationsergebnisse der verschiedenen Figuren mit der Komplex-Log-Abbildung, die in der b''-Schicht des in 43 gezeigten neuronalen Netzwerks ausgeführt wird. Bei der Komplex-Log-Abbildung wird in solchen Fällen, in denen ein Kandidat sich in der Nähe des Abbildungs-Pols, das heißt dem Mittelpunkt des Betrachtungsfensters, befindet, dieser Kandidat in eine vergleichsweise große Abmessung transformiert. In solchen Fällen, in denen ein Kandidat sich an einer Stelle entfernt von dem Abbildungs-Pol befindet, das heißt entfernt vom Mittelpunkt des Betrachtungsfensters, wird dieser Kandidat in eine vergleichsweise geringe Größe transformiert. Die Neuronen der b''-Schicht werden entsprechend der Intensität des transformierten Bildmusters angeregt.
  • Derjenige Teil des neuronalen Netzwerks, der durch die c''-, d''- und e''-Schichten gebildet wird, und der ein Anregungsmuster von Neuronen repräsentiert, die dem Komplex-Log-Abbild entsprechen, extrahiert die Zone, die annähernd in der Farbe mit dem Kandidaten übereinstimmt, und detektiert das Übereinstimmungsmaß in der Farbe zwischen der extrahierten Zone und dem Kandidaten. Die Neuronen in der e''-Schicht werden entsprechend dem detektierten Übereinstimmungsmaß in der Farbe angeregt. Die synaptischen Verbindungen zum Extrahieren der in die Zone mit annähernder farblicher Übereinstimmung mit dem Kandidaten fallenden Neuronen werden über Lernoperationen nach dem Rückwärts-Ausbreitungsverfahren oder dergleichen bestimmt.
  • Bei dieser Ausführungsform kann beispielsweise ein neuronales Netzwerk mit einer Dreischichtstruktur als der Teil des neuronalen Netzwerks zum Detektieren des farblichen Übereinstimmungsmaßes mit dem Kandidaten verwendet werden. Ein derartiges Beispiel wird im folgenden näher erläutert.
  • 95 ist eine beispielhafte Ansicht, die in größerer Einzelheit die c''-Schicht, die d''-Schicht und die e''-Schicht des in 43 gezeigten neuronalen Netzwerks veranschaulicht, welches bei der Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verwendet wird.
  • Der durch die c''-Schicht, die d''-Schicht und die e''-Schicht gebildete Teil lässt sich als dreischichtiges neuronales Netzwerk betrachten, in welchem die c''-Schicht als Eingangsschicht, die d''-Schicht als Zwischenschicht und die e''-Schicht als Ausgabeschicht fungiert.
  • Das in die c''-Schicht eingespeiste Signal ist die von den Neuronen der vorausgehenden Neuronenschicht erhaltene Farbinformation. In der c''-Schicht wird die Farbinformation, die von der vorhergehenden Neuronenschicht empfangen wurde, separiert in drei Primärfarben des Lichts (Rot, Grün und Blau), und ein einzelnes Neuron empfängt jedes Teil der Farbinformation. Deshalb werden in der c''-Schicht einem einzelnen Bildelement drei Neuronen zugeordnet. Das in die c''-Schicht eingespeiste Signal wird von den synaptischen Verbindungen gewichtet und zu der d''-Schicht gesendet. Die Gewichte der synaptischen Verbindungen von der c''-Schicht zu der d''-Schicht wird dargestellt durch W1ij, wobei i die Neuronen der c''-Schicht und j die Neuronen der d''-Schicht bedeuten.
  • Die d''-Schicht ist die als Zwischenschicht bezeichnete Neuronenschicht. Im allgemeinen wird die Anzahl von Elementen in passender Weise abhängig von dem Wert der Komplexität des auszuführenden Prozesses ausgewählt. Bei diesem Beispiel werden fünf Neuronen einem einzelnen Bildelement zugeordnet. Deshalb erfolgt die Signalübertragung von diesen Neuronen zu fünf Neuronen pro Bildelement durch 15 synaptische Verbindungen.
  • Die Signalübertragung von der d''-Schicht zu der e''-Schicht erfolgt anschließend. Die e''-Schicht entspricht der Ausgangsschicht des dreischichtigen neuronalen Netzwerks. Dieses detektiert das Maß der farblichen Übereinstimmung mit dem Kandidaten und das Maß der farblichen Übereinstimmung zwischen einem gewissen Bildelement und dem Kandidaten kann dargestellt werden als der Pegel oder die Stärke der Anregung eines einzelnen Neurons. Deshalb wird ein einzelnes Neuron jedem Bildelement zugeordnet. Dementsprechend wird die Signalübertragung von der d''-Schicht zu der e''-Schicht durch fünf synaptische Verbindungen pro Bildelement durchgeführt. Die Gewichte der synaptischen Verbindungen von der d''-Schicht zu der e''-Schicht werden dargestellt durch W2ij, wobei i die Neuronen der d''-Schicht und j die Neuronen der e''-Schicht sind.
  • Tatsächlich sind die Neuronen und die synaptischen Verbindungen abhängig von der Anzahl der Bildelemente vorhanden. Die Signalübertragung von der c''-Schicht zu der e''-Schicht können gleichzeitig für die jeweiligen Bildelemente stattfinden. In diesem neuronalen Netzwerk sind die auszuführenden Prozesse für die jeweiligen Bildelemente identisch. Aus diesem Grund sind die Charakteristika der Neuronen und Gewichte für die synaptischen Verbindungen identisch für die einzelnen Bildelemente.
  • Die synaptischen Verbindungen zum Durchführen der Operationen zum Detektieren des Übereinstimmungsgrads in der Farbe mit dem Kandidaten können gewonnen werden durch Lernoperationen des neuronalen Netzwerks. Beispielsweise zeigt die nachstehende Tabelle 1 die Werte der synaptischen Gewichte, die in den Fällen verwendet werden können, in denen Hautfarbe eines menschlichen Gesichts als Farbe des Kandidaten angenommen wird, derart definiert, dass die Häufigkeitsverteilung der Hautfarbe, die aus einer gewissen Population extrahiert wurde, proportional ist zum Maß oder Grad der farblichen Übereinstimmung.
  • Figure 00780001
  • Die Lernoperationen lassen sich unter Verwendung eines Rückwärts-Ausbreitungsverfahrens durchführen. Als erstes werden als Eingangssignale solche Signale verwendet, die die drei Primärfarben unterschiedlicher Farben einschließlich der Hautfarbe repräsentieren. Außerdem werden als Instruktorsignale oder Lehrsignale Signale entsprechend dem Übereinstimmungsmaß in der Farbe verwendet, die aus der Häufigkeitsverteilung der Hautfarbe ermittelt werden. Die Eingangssignale und die Instruktorsignale werden wiederholt auf das neuronale Netzwerk gegeben. Entsprechend der Differenz zwischen den Instruktorsignalen und aktuellen Ausgangssignalen des neuronalen Netzwerks werden die Gewichte der synaptischen Verbindungen jeweils etwas geändert, so dass die Differenzen kleiner werden können. Die Lernoperationen werden auf diese Weise solange durchgeführt, bis das neuronale Netzwerk Ausgangssignale erzeugt, die mit den Instruktorsignalen für gegebene Eingangsgrößen identisch sind.
  • Die Grade der Übereinstimmung mit der Hauptfarbe, die entsprechend den Ausgangssignalen aus diesem neuronalen Netzwerk erhalten wurde, sind in dem in 94 dargestellten Farbartdiagramm als Farbwertlinien angegeben. Das Maß der Übereinstimmung in der Farbe beträgt 1,0 für eine Farbe, die der Hautfarbe am nächsten kommt. Das Maß der Übereinstimmung in der Farbe nimmt ab, wenn eine Farbe zunehmend anders als die Hautfarbe wird. Operationen zum Ausdrücken der Information über die drei Primärfarbenwerte einer Farbe werden dargestellt durch x- und y-Koordinaten in dem Farbartdiagramm, und die Operationen werden entsprechend folgenden Formeln ausgeführt: x = (1.1302 + 1.6387r/(r + g + b) + 0.8215g/(r + g + b)/(8.7848 – 3.0157r/(r + g + b) – 0.3857g/(r + g + b) y = (0.0601 + 0.9399r/(r + g + b) + 4.58068/(r + g + b)/(8.7846 – 3.0157r/(r + g + b) – 0.3857g/(r + g + b)wobei r den Rot-Farbenwert, g den Grün-Farbenwert und b den Blau-Farbenwert angibt.
  • Durch Verwendung der Gewichte der synaptischen Verbindungen, die sich durch die Lernoperationen in der oben beschriebenen Weise bestimmen, wird das Maß der farblichen Übereinstimmung zwischen der extrahierten Zone und dem Kandidaten durch denjenigen Teil des neuronalen Netzwerks erfasst, der durch die c''-, d''- und e''-Schichten gebildet wird. Auf diese Weise lässt sich das Maß der Übereinstimmung in der Farbe erfassen als Stufe oder Stärke der Erregung des Neurons der e''-Schicht.
  • Die f''-Schicht wird gebildet durch die interaktive Verbindungsschicht mit begrenzter lokaler Fläche, interaktive gewichtete Verbindungen für den Wettstreit und die Zusammenarbeit in der Weise, dass eine Zone, die ein hohes Maß von farblicher Übereinstimmung mit dem Kandidaten zeigt und eine Form und Größe besitzt, die sich am besten für den Kandidaten eignen, ausgewählt werden kann. Wie in 45 durch ein synaptisches Wichtungsmuster 80 dargestellt ist, ist jedes Neuron innerhalb der f''-Schicht synaptisch mit einem positiven Gewicht zu einem nahegelegenen Neuron und mit einem negativen Gewicht zu einem etwas entfernten Neuron gekoppelt. Anregungssignale werden durch derartige interaktive Verbindungen innerhalb der f''-Schicht transferiert. Im Ergebnis wird innerhalb der f''-Schicht von den Neuronen, die von den angeregten Neuronen in der e''-Schicht, die ein hohes Maß farblicher Übereinstimmung mit dem Kandidaten repräsentieren, Signale empfangen haben, eine Zone einer Gruppe von Neuronen mit vorbestimmter Form und Größe und einer starken Anregungsintensität, das heißt einem hohen Maß farblicher Übereinstimmung, ausgewählt und zum Feuern gebracht, wohingegen Neuronen, die in eine isolierte Zone fallen oder in eine Zone, die ein geringes farbliches Überstimmungsmaß mit dem Kandidaten aufweist, nicht feuern. Beispielsweise sei angenommen, dass von den in der e''-Schicht extrahierten Zonen 81, 82 und 83 gemäß 45 das Maß der farblichen Übereinstimmung zwischen der Zone 81 und der Hautfarbe den Wert 1,0 in dem erwähnten Farbartdiagramm habe. Außerdem sei das Maß der farblichen Übereinstimmung zwischen der Zone 82 und der Hautfarbe 0,9, und das Maß der farblichen Übereinstimmung zwischen der Zone 83 und der Hautfarbe sei 0,2. Weil in diesen Fällen die Zone 83 ein geringeres Maß an farblicher Übereinstimmung mit der Hautfarbe hat als die Zonen 82 und 81, wird die Zone 83 gehemmt und ausgelöscht, wenn die Zonen 83 und 81, 82 mit einander in Wettstreit treten. Außerdem besitzt die Zone 82 ein geringeres Maß an farblicher Übereinstimmung mit der Hautzone als die Zone 82, demzufolge die Zone 82 ausgelöscht wird, wenn die Zone 82 und die Zone 81 miteinander in Wettstreit gebracht werden. Weil außerdem die Zone 81 ein hohes Maß an farblicher Übereinstimmung mit der Hautfarbe besitzt, kooperieren die der Zone 81 entsprechenden Neuronen miteinander, und das Maß der Anregung dieser Neuronen verstärkt sich. Deshalb wird lediglich die Zone 81 als Ergebnis des Wettstreits und des Zusammenarbeitens innerhalb der f''-Schicht ausgewählt.
  • In der f''-Schicht wird in solchen Fällen, in denen das Maß der farblichen Übereinstimmung zwischen den Zonen 81, 82, 83 und der Hautfarbe gleich groß ist, eine Zone ausgewählt, die hinsichtlich Form und Größe des synaptischen Wichtungsmusters 80 am besten übereinstimmt. In solchen Fällen beispielsweise, in denen die Form und die Größe des positiven Gewichtsteils des synaptischen Wichtungsmusters 80 näherungsweise übereinstimmen mit Form und Größe der Zone 81, werden die Zonen 82 und 83 während des Wettstreits und des Zusammenarbeitens ausgelöscht, und es wird nur die Zone 81 ausgewählt.
  • Außerdem wird in der f''-Schicht in solchen Fällen, in denen das Maß der farblichen Übereinstimmung zwischen den Zonen 81, 82, 83 und der Hautfarbe gleich groß ist, und die Formen und die Größen dieser Zonen annähernd miteinander übereinstimmen, in 96 dargestellte Gewichte den Neuronen der f''-Schicht verliehen. Insbesondere werden Wichtungen W derart zugeordnet, dass das Gewicht der Verbindung von einem Neuron, welches in ein Gebiet mit einem Radius von etwa 30% bis 40% des Betrachtungsfenster-Radius fällt, am größten sein kann. Durch derartiges Anwenden der Gewichte wird von den an den in 45 gezeigten Stellen befindlichen Zonen 81, 82 und 83 nur die Zone 81, die dem Gebiet mit dem größten Gewicht am nächsten liegt, ausgewählt.
  • Im folgenden soll beschrieben werden, wie ein Vektor für das Vorrücken des Betrachtungsfensters aus Komponenten der feuernden Zone einer Gruppe von Neuronen bestimmt wird, die ein hohes Maß an farblicher Übereinstimmung mit dem Kandidaten besitzen, wobei diese Zone in der oben beschriebenen Weise ausgewählt wurde.
  • 46 ist eine anschauliche Darstellung, die in größerer Einzelheit die f''-Schicht, die g''-Schicht und die i''-Schicht des neuronalen Netzwerks nach 43 veranschaulicht, welches bei dieser Ausführungsform eingesetzt wird.
  • Wie in 46 dargestellt ist, sind die jeweiligen Schichten miteinander über synaptische Verbindungen gekoppelt. Die f''-Schicht besitzt zweidimensional angeordnete Neuronen. Die Verteilung der angeregten Neuronen in der f''-Schicht entspricht den Komponenten der Zone, die ein hohes Maß farblicher Übereinstimmung besitzt und die Form und Größe aufweist, die am besten zu dem Kandidaten passt. Diese Zone wurde durch die interaktiven synaptischen Verbindungen innerhalb der f''-Schicht ausgewählt.
  • Um einen Azimut-Vektor zu detektieren, werden Anregungssignale aus der f''-Schicht an die g''-Schicht übertragen. Letztere wird gebildet durch eindimensional angeordnete Neuronen, und sie ist mit der f''-Schicht über synaptische Verbindungen so verbunden, dass sie die Signale von der Gruppe von Neuronen empfängt, die sich an dem selben Azimut innerhalb der f''-Schicht befinden. Im Ergebnis wird in der g''-Schicht ein dem Azimut und der Entfernung der Gruppe von Neuronen 45 entsprechendes Neuron 86 angeregt. Der Azimut des Neurons 86 und die Intensität seiner Erregung repräsentieren den Azimut und die Entfernung.
  • Danach wird in der i''-Schicht ein Vektor zusammengesetzt aus dem Azimut und der Entfernung, die durch die g''-Schicht in der oben beschriebenen Weise erfasst wurden, und der Vektor für das Vorrücken des Betrachtungsfensters wird hierdurch festgelegt. Die Zusammensetzung des Vektors für die Bewegung des Betrachtungsfensters lässt sich im Polarkoordinatensystem oder in der kartesischen Ebene ausführen. In 46 setzt sich der Vektor für die Bewegung des Betrachtungsfensters in der kartesischen Ebene zusammen. Das von dem Neuron 46 kommende Anregungssignal wird durch Komplex-Log-Abbildung invers transformiert und zu der i''-Schicht übertragen. In der i''-Schicht wird der Schwerpunkt jedes Azimut-Vektors ermittelt und als Vektor für die Bewegung des Betrachtungsfensters ausgegeben.
  • In den Fällen, in denen der Vektor für die Bewegung des Betrachtungsfensters mit einem neuronalen Netzwerk zu bestimmen ist, in welchem das oben angesprochene Wettstreiten und das erwähnte Zusammenarbeiten nicht ausgeführt werden, geschieht es häufig, dass mehrere Vektoren erfasst werden. In derartigen Fällen können in 96 dargestellte Gewichte, das sind Gewichte entsprechend der Entfernung vom Mittelpunkt des Betrachtungsfensters, den Neuronen der f''-Schicht derart zugeordnet werden, dass ein einzelner Vektor für die Bewegung des Betrachtungsfensters ausgewählt werden kann.
  • Außerdem können in solchen Fällen, in denen Wettstreit und Zusammenarbeit ausgeführt werden und mehrere Vektoren detektiert werden, in 96 gezeigte Gewichte auf die Neuronen der f''-Schicht angewendet werden, so dass ein einzelner Vektor für die Bewegung des Betrachtungsfensters ausgewählt werden kann. Auf diese Weise kann selbst dann, wenn mehrere Vektoren für die Bewegung des Betrachtungsfensters detektiert werden, der Vektor für die Bewegung des Fensters in Richtung des am besten erscheinenden Kandidaten detektiert werden. In den Fällen, in denen nur ein einzelner Vektor für die Bewegung des Betrachtungsfensters detektiert werden konnte, wird, wenn der Abstand zwischen dem Fenster und dem Kandidaten groß ist, der Betrag des Vektors für die Bewegung des Betrachtungsfensters klein.
  • Im folgenden soll beschrieben werden, wie das Betrachtungsfenster in Richtung des Kandidaten abhängig von dem Vektor für die Bewegung des Betrachtungsfensters vorrückt, der aus der Farbe des Kandidaten in der oben beschriebenen Weise extrahiert wurde.
  • 47, 48 und 49 sind anschauliche Ansichten von Komplex-Log-Abbildungsebenen und entsprechenden kartesischen Ebenen als Hilfe bei der Erläuterung, wie der Mittelpunkt des Betrachtungsfensters von der Seite außerhalb eines Kandidaten zu der Seite innerhalb des Kandidaten läuft.
  • Wie in 47 gezeigt ist, wird in solchen Fällen, in denen ein Kandidat 71 für das vorbestimmte Objektbild nicht den Mittelpunkt Q eines Betrachtungsfensters 73 enthält, dieser Kandidat 71 als einzelne Masse mit der Komplex-Log-Abbildung transformiert und als eine Zone erfasst, die ein hohes Maß an farblicher Übereinstimmung mit dem Kandidaten aufweist, und zwar in der in 47 gezeigten Komplex-Log-Abbildungsebene. Innerhalb der f''-Schicht, die eine interaktive Verbindungsschaltungsschicht für den Wettstreit und die Zusammenarbeit bildet, wird eine Operation zum Einengen eines Kandidaten 71' durchgeführt. Im Ergebnis werden eine einzelne Kandidatenzone oder werden mehrere Kandidatenzonen, die ein hohes Maß farblicher Übereinstimmung mit dem Kandidaten und eine passende Größe aufweisen, ausgewählt. (Bei dieser Ausführungsform wird eine einzelne derartige Kandidatenzone ausgewählt.) Anschließend wird aus dem Azimut und der Entfernung der ausgewählten Zone ein Vektor zusammengesetzt, und dadurch wird ein Vektor 75 für das Vorrücken des Betrachtungsfensters 73 erhalten. Der Vektor 75 für die Bewegung des Betrachtungsfensters 73 ist auf den Kandidaten 71 gerichtet. Wenn daher das Fenster 73 entsprechend dem Betrag des Vektors 75 für die Bewegung des Fensters 73 bewegt wird, kann der Mittelpunkt Q des Betrachtungsfensters 73 sich an den Kandidaten 71 annähern.
  • Wie in 48 gezeigt ist, werden der Mittelpunkt Q des Betrachtungsfensters 73 und der Kandidat 71 an Stellen gebracht, an denen sie vergleichsweise nahe nebeneinander liegen, und der gesamte Kandidat 71 gelangt in die Innenzone des Betrachtungsfensters 73. In derartigen Fällen wird der Komplex-Log-abgebildete Kandidat 71' als eine Zone erfasst, die sich in jeden Azimut erstreckt und die ein hohes Maß an farblicher Übereinstimmung mit dem Kandidaten besitzt. In diesem Zustand wird der Kandidat 71' durch die interaktive Verbindungsschaltung für Wettstreit und Zusammenarbeit eingeengt. Während der Einengung des Kandidaten 71' sperren die Zonen für denselben Kandidaten, die sich in sämtliche Azimutrichtungen erstrecken, gegenseitig. Im Ergebnis ist es möglich, ausschließlich die Gruppe von Neuronen zu extrahieren, die den Azimuten entspricht, bei denen der Abstand zwischen dem Außenrand des Kandidaten 71' und dem Mittelpunkt Q des Betrachtungsfensters 73 am größten ist. Eine diese Gruppe von Neuronen enthaltende Zone 87 wird erfasst. Anschließend werden Azimut und Abstand aus dem Azimut und der Intensität der Anregung der detektierten Zone 87 erfasst. Auf dese Weise wird ein Vektor 75 für das Vorrücken des Betrachtungsfensters 73 erhalten. Der Vektor 75 ist auf den Mittelpunkt des Kandidaten 71 gerichtet. Wenn daher das Betrachtungsfenster 73 entspre chend dem Betrag des Vektors 75 für die Bewegung des Betrachtungsfensters 73 bewegt wird, kann sich der Mittelpunkt Q des Fensters 73 noch weiter an den Kandidaten 71 annähern.
  • Schließlich gelangen gemäß 49 der Mittelpunkt Q des Betrachtungsfensters 73 und der Kandidat 71 fast in die gleiche Position. In solchen Fällen wird der Komplex-Log-abgebildete Kandidat 71' als eine Zone detektiert, die sich gleichmäßig in jedem Azimut erstreckt und nahezu farblich übereinstimmt mit den Kandidaten. In diesem Zustand wird der Kandidat 71' durch die interaktive Verbindungsschaltung für Wettstreit und Zusammenarbeit eingeengt. Während dieses Einengvorgangs des Kandidaten 71' treten die Zonen desselben Kandidaten, die sich gleichmäßig in sämtliche Azimute erstrecken, miteinander in Wettstreit und sperren einander. Im Ergebnis lässt sich keine Zone anregen. Deshalb werden als nächstes detektierter Betrag und Abstand Null. Außerdem wird der Betrag des Vektors für die Bewegung des Betrachtungsfensters 73 Null. In diesem Fall hält während des Vorgangs zum Bewegen des Betrachtungsfensters 73 entsprechend dem Betrag des Vektors für die Bewegung des Fensters diese Bewegung des Mittelpunkts Q des Betrachtungsfensters 73 am Mittelpunkt des Kandidaten 71 an.
  • Das bei dieser Ausführungsform verwendete neuronale Netzwerk iteriert die oben beschriebenen Operationen und bewirkt dadurch, dass der Mittelpunkt des Betrachtungsfensters in Richtung des Mittelpunkts des Kandidaten vorrückt. Wenn allerdings der Mittelpunkt des Fensters auf ein Objekt trifft, welches sich von dem Kandidaten für das vorbestimmte Objektbild unterscheidet, während sich das Fenster bewegt, so kommt es häufig vor, dass der Mittelpunkt des Betrachtungsfensters an der Stelle dieses Objekts anhält. Insbesondere dann, wenn ein solches Problem in bezug auf ein Potentialfeld des Bilds betrachtet wird, so bedeutet das Problem, dass der Mittelpunkt des Betrachtungsfensters an einer Minimumstelle des Potentialfelds des Objekts gefangen ist, welches von dem Kandidat verschieden und kleiner als dieser ist.
  • Beispielsweise zeigt 50A ein Bild 88, in dem das Bild eines Vogels 89 als Kandidat für ein vorbestimmtes Objektbild fungiert und das Bild eines Drahts 90 eingebettet sind.
  • Das Vogelbild 89 ruht auf dem Drahtbild 90. 50B ist eine graphische Darstellung des Potentialfelds des Bilds 88. In 50B bedeutet eine Kurve 91 das Potentialfeld des Bilds 88 entlang der Linie I-I in 50A. Wie durch die Kurve 91 dargestellt ist, besitzt das Potentialfeld des Bilds 88 entlang der Linie I-I in 50A einen Minimumpunkt P1' an der Stelle, die einem Mittelpunkt P1 des Vogelbilds 89 entspricht. Wenn der Mittelpunkt des Betrachtungsfensters über das Bild 88 wandert, bewegt er sich in Richtung des Mittelpunkts P1 des Vogelbilds 89. Allerdings besitzt das Potentialfeld des Bilds 88 auch einen winzigen Minimumpunkt P2' an der Stelle, die einem Punkt P2 in dem Drahtbild 90 entspricht, welcher Punkt auf der Linie I-I liegt. Wenn daher der Mittelpunkt des Betrachtungsfensters am Punkt P1 in dem Drahtbild 90 anhält, wobei der Punkt P auf der Linie I-I liegt, während er in Richtung des Mittelpunkts P1 des Vogelbilds 89 wandert, so kann der Mittelpunkt des Betrachtungsfensters den Mittelpunkt P1 des Vogelbilds 89 nicht erreichen. Folglich ist es notwendig, dass der Mittelpunkt des Betrachtungsfensters daran gehindert wird, am Punkt P2 des Drahtbilds 90 anzuhalten.
  • In dem bei dieser Ausführungsform verwendeten neuronalen Netzwerk kann ein sogenannter „Annealing-Prozess" verwendet werden. Bei dem Annealing-Prozess werden dem Ausgangssignal eines Neurons thermische Schwankungen verliehen. Die Temperatur wird auf eine hohe Temperatur eingestellt und anschließend nach und nach gesenkt. Auf diese Weise kann verhindert werden, dass der Mittelpunkt des Betrachtungsfensters am Punkt P2 des Drahtbilds 90 anhält.
  • Beispielsweise kann man die Eingangs-/Ausgangs-Übertragungskennlinie eines Neurons darstellen durch eine Sigmoid-Funktion, die folgendermaßen lautet: f(x) = sigmoid(x) (8)
  • Wenn in solchen Fällen die thermischen Schwankungen Null sind, folgt die Eingangs-/Ausgangs-Übertragungskennlinie des Neurons dem in 93A gezeigten Muster. Wer den dem Ausgangswert des Neuron thermische Schwankungen verliehen, lässt sich die Eingangs-/Ausgangs-Übertragungskennlinie des Neurons folgendermaßen ausdrücken: f(x) = sigmoid (x + N × e × p(–1/T) × RND) (7)wobei N die Rauschkomponenten-Konstante, T der Temperaturparameter und RND eine Zufallsfunktion im Bereich –1 bis 1 ist. Durch das Anwenden der thermischen Schwankungen kann die Eingangs-/Ausgangs-Übertragungskennlinie des Neurons gewonnen werden, die Fehler gemäß 93B enthält.
  • Insbesondere kann der Ausgangswert des Neurons dazu gebracht werden, wahrscheinlichkeitsgemäß innerhalb des durch die Schraffierung in 93B angegebenen Bereichs zu schwanken. Auf diese Weise kann das Ausgangssignal des Fehler enthaltenden Neurons gewonnen werden, wenn dem Ausgangswert des Neurons Hochtemperatur-Wärmeschwankungen verliehen werden, das heißt, wenn die Temperatur auf einen hohen Temperaturwert eingestellt wird. Aus diesem Grund kann der Annealing-Prozess (Glüh-Prozess) auf die Ausgangswerte beispielsweise der f1- und f2-Schichten des für diese Ausführungsform verwendeten neuronalen Netzwerks angewendet werden. Aufgrund großer Fehler in den Ausgangswerten der f1- und f2-Schichten kann, wenn de Mittelpunkt des Betrachtungsfensters wahrscheinlich an dem winzigen Minimumpunkt P2' in der in 50B gezeigten Kurve 91 anhalten wird, der Mittelpunkt des Betrachtungsfensters an einem Anhalten gehindert werden. Insbesondere wie durch die gestrichelte Linie in 50B dargestellt ist, wird, wenn der Mittelpunkt des Betrachtungsfensters wahrscheinlich an dem winzigen Minimumpunkt P2' anhalten wird, das heißt, wenn das neuronale Netzwerk wahrscheinlich in einen Fangzustand gerät, die Temperatur derart angehoben, dass der Mittelpunkt des Betrachtungsfensters über die „Wand" des kleinen Minimumpunkts P2' (das ist der kleine Stabilitätspunkt) aufgrund der thermischen Schwankungen in den Ausgangswerten der Neuronen gelangen kann. Anschließend wird die Temperatur gesenkt (das heißt die Neuronen sind geglüht), so dass der Mittelpunkt des Betrachtungsfensters von dem kleinen Minimumpunkt P2' abrücken und weiter vorrücken kann, um stabil zu werden.
  • Durch den oben beschriebenen Annealing-Prozess werden die thermischen Schwankungen nur dann zugeordnet, wenn der Mittelpunkt des Betrachtungsfensters wahrscheinlich an dem kleinen Minimumpunkt zum Anhalten gelangt. Alternativ können die thermischen Schwankungen zu jeder Zeit den Ausgangsgrößen der Neuronen einer beliebigen Schicht des neuronalen Netzwerks zugeordnet werden, so dass der Mittelpunkt des Betrachtungsfensters an einem Anhalten bei einem winzigen Minimumpunkt in dem Bild in jeder Situation gehindert werden kann.
  • Außerdem wird bei der oben beschriebenen Ausführungsform der Mittelpunkt des Betrachtungsfensters daran gehindert, an der Stelle eines Objekts in dem Bild anzuhalten, welches sich von dem Kandidaten unterscheidet (das heißt an einem winzigen Minimumpunkt des Potentialfelds), indem von dem Annealing-Prozess in dem neuronalen Netzwerk Gebrauch gemacht wird und die thermischen Schwankungen den Ausgangsgrößen der Neuronen zugeordnet werden. Alternativ kann der Mittelpunkt des Betrachtungsfensters an einem Anhalten an einer solchen Stelle dadurch gehindert werden, dass dem Vektor für die Bewegung des Fensters ein Trägheitsterm hinzuaddiert wird. In diesen Fällen wird der durch die Formel (8) dargestellte Kennwert dem Vektor für die Bewegung des Betrachtungsfensters beigegeben, wobei der Vektor aus der i-Schicht des in 28 gezeigten neuronalen Netzwerks ausgegeben wird:
    Figure 00880001
    wobei m(t) den Vektor für die Bewegung des Betrachtungsfensters darstellt, mit welchem Vektor der Mittelpunkt des Fensters dazu gebracht wird, sich zur Zeit t zu bewegen, mf(t) den Vektor für die Bewegung des Betrachtungsfensters repräsentiert, der aus der Neigung des Feldes berechnet wird, welches zur Zeit t aus dem neuronalen Netzwerk ausgegeben wird, k(t) den Dämpfungsfaktor im Verlauf der Zeit repräsentiert, und t1 und t2 jeweils für die verstrichene Zeit stehen, wobei die Bedingung t > t1 > t2 erfüllt ist.
  • In der Formel (8) stellt der Integral-Term den Trägheitsterm dar (das ist ein Trägheitsvektor). Mit dem Trägheitsterm werden die Vektoren für die Bewegung des Betrachtungsfensters, mit welchen der Mittelpunkt des Betrachtungsfensters dazu gebracht wird, vorzurücken, und die aus der i-Schicht des neuronalen Netzwerks während der Zeitspanne zwischen dem Zeitpunkt t1 und dem Zeitpunkt t2, die von der Zeit t auf die Vergangenheit zurückgehen, ausgegeben werden, multipliziert mit dem Dämpfungsfaktor im Verlauf der Zeit. Die so gewonnenen Produkte werden von der Zeit t1 bis zur Zeit t2 integriert.
  • Wie beispielsweise in 51 gezeigt ist, wandert ein Mittelpunkt Q des Betrachtungsfensters in Richtung des Bilds 93 eines menschlichen Gesichts, das als Kandidat für ein vorbestimmtes Objektbild innerhalb eines Bilds 92 dient. Ein Objekt, welches verschieden ist von dem Kandidaten (in diesem Fall das Bild eines Signalmastens 94 im Hintergrund des Bilds 93 des menschlichen Gesichts) befindet sich in der Nähe des Wegs des Mittelpunkts Q des Betrachtungsfensters entsprechend den Bewegungsvektoren für das Betrachtungsfenster. Wenn das Potentialfeld des Bilds 92 berücksichtigt wird, wandert in derartigen Fällen das Betrachtungsfenster von seiner Ausgangsposition A entsprechend den Vektoren m1, m2 und m3 für die Bewegung des Betrachtungsfensters. Ein folgender Vektor mf4 für die Bewegung des Fensters ist auf das Bild des Signalmastens 94 gerichtet. Aus diesem Grund wandert dann der Mittelpunkt des Betrachtungsfensters in Richtung auf den Signalmasten 94. Wenn der Mittelpunkt des Betrachtungsfensters dann in Richtung des Bilds 94 des Signalmastens wandert, kann er das Bild 93 des menschlichen Gesichts, das als Kandidat fungiert, nicht erreichen. Um derartige Probleme zu beheben, werden die Vektoren m1, m2 und m3 für die Bewegung des Fensters multipliziert mit dm Dämpfungsfaktor im Verlauf der Zeit. Die so gewonnenen Produkte werden integriert, und hierdurch wird ein Trägheitsvektor mk erhalten. Durch Addieren des Trägheitsvektors mk erhält man einen Vektor m4 für die Bewegung des Fensters, wobei der Vektor m4 zu der Seite des Gesichtsbilds 93 stärker zugewandt ist als der Vektor mf für die Bewegung des Betrachtungsfensters. Selbst wenn der Mittelpunkt des Betrachtungsfensters dazu neigt, sich in Richtung des Signalmasten-Bilds 94 zu bewegen, kann der Mittelpunkt des Fensters dazu gebracht werden, zu dem Gesichtsbild 93 entsprechend dem Vektor m4 für die Bewegung des Betrachtungsfensters zu wandern. Anschließend wandert der Mittel- Punkt des Betrachtungsfensters entsprechend den Vektoren m5, m6 und m7 für die Bewegung des Fensters und hält schließlich am Mittelpunkt des Gesichtsbilds 93 an.
  • In der oben beschriebenen Weise wird mit dem für diese Ausführungsform verwendeten neuronalen Netzwerk der Mittelpunkt des Betrachtungsfensters dazu gebracht, über ein gegebenes Bild in Richtung des Mittelpunkts des Kandidaten zu wandern, so dass der Mittelpunkt des Fensters nicht an der Stelle eines Objekts zum Halten kommt, welches sich von dem Kandidaten unterscheidet. In der Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters wird, wenn der Vektor für die Bewegung des Fensters den Wert Null annimmt, der Mittelpunkt des Betrachtungsfensters in Übereinstimmung sein mit dem Mittelpunkt des Kandidaten, und der Kandidat für das vorbestimmte Objekt wird ausgeschnitten (das heißt extrahiert). Die Information über den Kandidaten für das vorbestimmte Objektbild, die auf diese Weise extrahiert wurde, wird in die Beurteilungseinrichtung eingespeist.
  • Bei dem Verfahren zum Extrahieren eines Objektbilds gemäß der Erfindung unabhängig von seiner Größe und den Stellen von Merkmalsteilen innerhalb des Kandidaten extrahiert werden. Allerdings stellt ein derartiger Weg zum Ausschneiden des Kandidaten eine deutliche Belastung für den nachfolgenden Beurteilungsschritt dar. Wenn also ein Kandidat ausgeschnitten werden soll, sollte er vorzugsweise derart normiert werden, dass die Größe jedes Kandidaten etwa die gleiche ist und die Stellen von Merkmalsteilen unter den Kandidaten annähernd gleich sind. Auf diese Weise lässt sich die Belastung für die Beurteilungseinrichtung, die eine Beurteilung darüber fällt, welches der Kandidat ist, vermindert werden kann. Außerdem lässt sich die für den Vorgang erforderliche Zeit gering halten.
  • Außerdem kann bei der oben beschriebenen Ausführungsform die Größe des Betrachtungsfensters ebenso wie der Betrag des Vektors für die Bewegung des Betrachtungsfensters abhängig von der Objektgröße, das heißt der Größe des Kandidaten, geändert werden. Beispielsweise kann man die Position der sich in Umfangsrichtung erstreckenden Konturlinie detektieren, de in der erwähnten e1-Schicht in bezug auf die radiale Richtung innerhalb der Komplex-Log-Abbildungsebene detektiert wurde. Auf diese Weise kann man die Entfernung zwischen dem Mittelpunkt des Betrachtungsfensters und der Konturlinie des Kandidaten erfassen. Danach können die Größe des Betrachtungsfensters und der Betrag des Vektors für die Bewegung des Fensters entsprechend der ermittelten Entfernung geändert werden.
  • Im folgenden soll beschrieben werden, wie die Größe des Betrachtungsfensters geändert wird.
  • Es gibt die Überlegung, dass, wenn ein Mensch aus der Außenwelt erhaltene visuelle Information verarbeitet, er bewusst oder unbewusst Aufmerksamkeit einem Objekt mit einer spezifischen Größe andauernd zukommen lässt oder die Größe entsprechend den Umständen ändert. Das Vorhandensein dieses Mechanismus wird unterstützt durch die empirisch ermittelten Tatsachen, dass eine Schrift-Darstellung aus Zeichen mit diskontinuierlichen Größen schwer zu lesen ist, und Figuren mit extrem schwankenden Größen schwer zu erkennen sind. Bei dieser Ausführungsform entspricht eine derartige spezifische Größe, welcher Aufmerksamkeit geschenkt wird, der Größe des Betrachtungsfensters.
  • Um einen Mechanismus zum Ändern der Größe des Betrachtungsfensters in das Modell des neuronalen Netzwerks zum Durchführen des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds einzuführen, wird den Kennwerten des neuronalen Netzwerks eine Empfindlichkeits-Differenz bezüglich der Größe eines Objekts vermittelt. Außerdem wird die Empfindlichkeits-Differenz in passender Weise abhängig von einem zu untersuchenden Bild gesteuert.
  • Beispielsweise lassen sich die synaptischen Verbindungen zwischen den a- und b-Schichten des in 28 gezeigten neuronalen Netzwerks in einer Weise einstellen, die einen Kandidaten begünstigt, der eine spezifische Größe aufweist. Wie in 52 gezeigt ist, lassen sich in den Fällen, in denen ein Kandidat, der kleiner ist als die Größe des Betrachtungsfensters, sich in der Zone innerhalb des Betrachtungsfensters befindet, die Gewichte der synaptischen Verbindungen zwischen dem Mittelteil der a-Schicht und der b-Schicht auf große Werte einstellen (wie durch die ausgezogenen dicken Linien angedeutet ist). Außerdem können die Gewichte der synaptischen Verbindungen zwischen dem Umfangsbereich der a-Schicht und der b-Schicht auf kleinere Werte eingestellt werden (wie durch die feinen Linien angedeutet ist).
  • Als Verfahren zum Ändern der Größe des Betrachtungsfensters können, wie in den 53A und 53B veranschaulicht ist, die physikalischen Zustände der Verbindungen zwischen Neuronenschichten unverändert bleiben, und die Gewichte der synaptischen Verbindungen können geändert werden. Wie beispielsweise in 53A gezeigt ist, können in solchen Fällen, in denen ein kleiner Kandidat in einer Zone im Inneren des Betrachtungsfensters aufgefunden wird, die Gewichte der synaptischen Verbindungen zwischen dem Mittelteil der a-Schicht und der b-Schicht auf große Werte eingestellt werden. Wie außerdem in 53B gezeigt ist, können in solchen Fällen, in denen ein großer Kandidat in der Zone im Inneren des Fensters aufgefunden wird, die Gewichte für die synaptischen Verbindungen zwischen dem Umfangsbereich der a-Schicht und der b-Schicht auf große Werte eingestellt werden.
  • Als alternatives Verfahren zum Ändern der Größe des Betrachtungsfensters lässt sich gemäß 54A und 54B der Zustand der Verbindungen zwischen Neuronenschichten ändern, und die Fläche der nicht verarbeiteten Zone lässt sich dementsprechend ändern. Insbesondere können gemäß 54A in den Fällen, in denen ein kleiner Kandidat sich in der Zone innerhalb des Fensters befindet, die Intervalle zwischen den Neuronen der a-Schicht auf kleine Werte eingestellt werden. Außerdem können in solchen Fällen gemäß 54B, in denen ein großer Kandidat sich in der Zone des Fensters befindet, die Intervalle zwischen den Neuronen der a-Schicht auf große Werte eingestellt werden.
  • Als weitere Alternative zum Ändern der Größe des Betrachtungsfensters kann von einem Zoom-Objektiv im Eingabegerät zum Einspeisen eines Bilds in die a-Schicht Gebrauch gemacht werden, und man kann die Größe des Eingabebilds selbst ändern.
  • Als Verfahren zum Ändern des Betrags des Vektors für die Bewegung des Betrachtungsfensters kann der Vektor, der in der i-Schicht gewonnen wird, mit einer gewissen Verstär kung multipliziert werden. Insbesondere in den Fällen, in denen der Mittelpunkt des Betrachtungsfensters rasch vorrücken sollte, kann der Vektor für das Betrachtungsfenster, der in der i-Schicht erhalten wird, mit einem großen Verstärkungswert multipliziert werden. Auch in den Fällen, in denen der Mittelpunkt des Betrachtungsfensters nur etwas oder überhaupt nicht wandern sollte, kann der Vektor für das Betrachtungsfenster, der in der i-Schicht gewonnen wird, mit einem kleinen Verstärkungswert oder mit Null multipliziert werden und auf diese Weise reduziert oder zu Null gemacht werden.
  • Im folgenden soll erläutert werden, wie die Größe des Betrachtungsfensters und der Betrag des Vektors für die Bewegung des Fensters gesteuert werden. Die Größe des Kandidaten in einer Zone im Inneren des Betrachtungsfensters wird durch die e1- oder e1'-Schicht des oben beschriebenen neuronalen Netzwerks erfasst. Die Größe des Betrachtungsfensters und der Betrag des Vektors für die Bewegung des Fensters werden entsprechend der ermittelten Größe des Kandidaten geändert. Um ein Beispiel zu geben: zum Zweck des Erfassens der Größe des Kandidaten kann eine Wahrscheinlichkeitsdichtefunktion erzeugt werden, in der der Abstand vom Mittelpunkt des Betrachtungsfensters in radialer Richtung auf der horizontalen Achse aufgetragen wird, während auf der vertikalen Achse das Ausmaß der Anregung jedes Neurons aufgetragen wird. Die Wahrscheinlichkeitsdichtefunktion kann dann analysiert werden, und man kann die Größe des Kandidaten aus den Analyseergebnissen der Wahrscheinlichkeitsdichtefunktion ermitteln.
  • Beispielsweise sind in den Fällen, in denen eine Wahrscheinlichkeitsdichtefunktion gemäß 55A erhalten wird, die Stärke der Anregung der Neuronen insgesamt gering, und deshalb wird beurteilt, dass sich in der Zone im Inneren des Betrachtungsfensters kein Kandidat befindet. In diesen Fällen wird die Größe des Betrachtungsfensters nach und nach derart erweitert, dass eine größere Bildfläche in den Bereich innerhalb des Betrachtungsfensters gelangt. Durch Vergrößern der Fenstergröße lässt sich ein Kandidat in der Nähe des Betrachtungsfensters am Fenster-Ende auffinden, und die Bewegung des Fensters in Richtung des Kandidaten kann begonnen werden. Wenn außerdem die Größe des Betrachtungsfensters vergrößert wird, wird der Betrag des Vektors für die Bewegung des Fensters auf Null gesetzt, so dass sich das Betrachtungsfenster nicht bewegt.
  • Wie in 55B gezeigt ist, wird in den Fällen, in denen die Wahrscheinlichkeitsdichtefunktion einen Spitzenwert an einer vom Mittelpunkt des Fensters beabstandeten Stelle besitzt, beurteilt, dass ein Kandidat im Umfangsteil des Betrachtungsfensters aufzufinden ist.
  • In derartigen Fällen wird die Größe des Betrachtungsfensters nicht geändert, und der Betrag des Vektors für die Bewegung des Betrachtungsfensters wird auf einen großen Wert eingestellt, so dass das Betrachtungsfensters schneller in die dem Spitzenwert entsprechende Richtung wandern kann. Auf diese Weise kann das Betrachtungsfenster rasch in Richtung des Kandidaten wandern.
  • Wie in 55C gezeigt ist, wird in den Fällen, in denen die Wahrscheinlichkeitsdichtefunktion einen kleinen Spitzenwert an einer Stelle in der Nähe des Mittelpunkts des Betrachtungsfensters besitzt, beurteilt, dass sich an der Stelle in der Nähe des Mittelpunkts des Fensters ein Kandidat finden lässt, wobei jedoch der Mittelpunkt des Fensters und der Mittelpunkt des Kandidaten gegeneinander verschoben sind. In diesen Fällen kann die Größe des Fensters so geändert werden, dass sie an die Größe des Kandidaten angepasst ist. Auch in diesen Fällen ist der Vektor für die Bewegung des Fensters nicht mit einem Verstärkungswert multipliziert, und das Fenster wird dazu gebracht, mit normaler Vorrück-Geschwindigkeit zu wandern.
  • Wie in 55D gezeigt ist, wird in solchen Fällen, in denen die Wahrscheinlichkeitsdichtefunktion eine sehr große Spitze aufweist, beurteilt, dass der Mittelpunkt des Fensters etwa den Mittelpunkt des Kandidaten erreicht hat, und die Ränder des Kandidaten sich in etwa gleichen Abständen vom Mittelpunkt des Betrachtungsfensters befinden. In diesen Fällen wird der Betrag des Vektors für die Wanderung des Betrachtungsfensters auf einen kleinen Wert eingestellt, so dass der Mittelpunkt des Kandidaten exakter gesucht werden kann, und die Größe des Kandidaten und die Größe des Betrachtungsfensters lassen sich mit höherer Genauigkeit aneinander anpassen. Auf diese Weise wird die Bewegungsgeschwindigkeit des Betrachtungsfensters auf einen Wert unterhalb der Nor malgeschwindigkeit eingestellt, und die Größe des Betrachtungsfensters wird in Übereinstimmung gebracht mit der Größe des Kandidaten.
  • Die Größe des Fensters und der Betrag des Vektors für die Bewegung des Fensters, das ist die Bewegungsgeschwindigkeit des Vektors, werden in der oben erläuterten Weise geändert. Auf diese Weise lassen sich sämtliche Kandidaten aus einem Bild extrahieren, in welchem Kandidaten unterschiedlicher Größen eingebettet sind.
  • Wie zum Beispiel 56 zeigt, wird in solchen Fällen, in denen das Bild eines menschlichen Körpers 95 aus einem Bild 96 zu extrahieren ist, in das das Körperbild 95 eingebettet ist, zunächst der Mittelpunkt des Fensters an einem Punkt Q1 geortet. Danach wandert der Mittelpunkt des Betrachtungsfensters über die Punkte Q2, Q3 und Q4 in Richtung auf das Bild 95 des menschlichen Körpers. Der Mittelpunkt des Betrachtungsfensters hält dann am Mittelpunkt Q5 des Gesichtsmusters 95a des Bilds 95 an. Das Gesichtsmuster 95a wird von der Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters normiert und extrahiert. Die Information über das extrahierte Gesichtsmuster 95a wird in die Beurteilungseinrichtung eingespeist. In diesen Fällen bedeutet der Begriff „Normierung eines Gesichtsmusters 95a'' den Vorgang, mit dessen Hilfe die Gesichtsmuster verschiedener Formen (das sind Muster großer Gesichter, kleiner Gesichter und langer Gesichter) umgewandelt werden in kreisförmige Gesichtsmuster mit annähernd gleicher Größe, was mit Hilfe von Kompression oder Vergrößerung in der Weise geschieht, dass die Stellen von Augen und die Mund-Muster als Merkmalsteile der Gesichtsmuster dienen, die sich in passender Weise unter verschiedenen Gesichtsmustern angleichen lassen.
  • Bei dem in dieser Ausführungsform verwendeten neuronalen Netzwerk wird, nachdem der Kandidat in der oben beschriebenen Weise extrahiert wurde, das Betrachtungsfenster erneut dazu gebracht, vorzurücken, um einen nächsten Kandidaten in der im folgenden beschriebenen Weise zu extrahieren. In solchen Fällen kommt es häufig vor, dass der Mittelpunkt des Betrachtungsfensters zum Mittelpunkt des Kandidaten läuft, der bereits extrahiert wurde, so dass erneut derselbe Kandidat extrahiert würde. Um eine erneute Extrak tion desselben Kandidaten zu verhindern, befindet sich entsprechend dem Bereich der Größe des gegebenen Bilds vor beispielsweise der a-Schicht des neuronalen Netzwerks nach 28 eine retinale Neuronenschicht, die ein gegebenes Bild reflektiert. Die durch die Formel (9) repräsentierte Kenngröße wird den Neuronen der retinalen Neuronenschicht zugeordnet.
    Figure 00960001
    wobei oi(t) die Ausgangsgröße eines i-Neurons zur Zeit t ist, ii(t) die Eingangsgröße des i-Neurons zur Zeit t ist, ki(t) = 0, wenn das i-Neuron einer Stelle auf der Seite außerhalb des Kandidaten entspricht und ki(t) = 1, wenn das i-Neuron einer Stelle auf der Seite innerhalb des Kandidaten entspricht.
  • In der Formel (9) repräsentiert der Integralterm die Ansammlung der Ermüdung. Mit dem Integrationsterm werden Ausgangsgrößen eines gewissen Neurons, die innerhalb einer vorbestimmten Zeitspanne erzeugt werden, die um die Zeit tf von dem Zeitpunkt t aus zurückgeht, zeitlich integriert werden. Wie in 57A gezeigt ist, bilden in den Fällen, in denen der Mittelpunkt des Betrachtungsfensters und der Mittelpunkt des Kandidaten übereinstimmen, ein Betrachtungsfenster 97 und die Konturlinie eines Kandidaten 98 konzentrische Kreise auf der kartesischen Ebene. Wie in 57B in der e1-Schicht angegeben ist, erscheint, wenn die Konturlinie des Kandidaten 98 für das vorbestimmte Objektbild mit der Komplex-Log-Abbildung transformiert wird, die Konturlinie als einzelne Gerade 98', die in der Komplex-Log-Abbildungsebene etwa horizontal verläuft. Die Neuronen der retinalen Neuronenschicht besitzen die durch die Formel (9) angegebenen Charakteristika. Wie in 58 dargestellt ist, wird ki(t) für sämtliche Neuronen, die in eine Zone 99 der e1-Schicht fallen, auf 1 gesetzt, wobei die Zone der Seite im Inneren der Konturlinie des Kandidaten 98 entspricht. Außerdem wird ki(t) auf Null gestellt für diejenigen Neuronen, die in eine Zone der e1-Schicht fallen, welche der Seite außerhalb der Konturlinie des Kandidaten 98 entspricht. Auf diese Weise wird die Ermüdung nur bei den Neuronen der retinalen neuronalen Schicht angesammelt, die in die Zone fallen, die der Seite im Inneren des als Kandidaten dienenden Gesichtsbilds entspricht. Nach der Formel (9) ermüden also diejenigen Neuronen, die in die Zone entsprechend der Seite außerhalb des Kandidaten fallen, nicht, und die Eingänge dieser Neuronen werden direkt als Ausgangswerte abgenommen. Allerdings sammelt sich für die Neuronen, die in die Zone entsprechend der Seite innerhalb des Kandidaten fallen, deren Müdigkeiten an. Wenn daher die Neuronen in der Zone entsprechend der Seite im Inneren des Kandidaten Eingangssignale empfangen, verringern sich die Ausgangswerte dieser Neuronen aufgrund des erwähnten Ermüdungsterms. Wegen der Verringerung der Ausgangswerte werden Signale von den Neuronen entsprechend der Zone im Inneren des Kandidaten nicht aus der retinalen Neuronenschicht in die nächste Schicht übertragen. Das Betrachtungsfenster kann daher zu einem nächsten Kandidaten wandern, und hierdurch lässt sich dieser nächste Kandidat extrahieren. Was die Ermüdung angeht, so wiederholt durch geeignete Einstellung der Werte ki(t) und tf in solchen Fällen, in denen ein gewisses Neuron zu jeder Zeit eine Eingangsgröße empfängt, der Ausgang dieses Neurons im Verlauf der Zeit eine Zunahme und eine Abnahme. Wenn der Wert für tf auf unendlich gestellt wird, wird ein einmal angeregtes Neuron nicht erneut angeregt, und deshalb wird auch derselbe Kandidat, der bereits extrahiert wurde, nicht erneut extrahiert.
  • Bei der ersten oben beschriebenen Ausführungsform wird der Prozess zum Verhindern der erneuten Extraktion desselben Kandidaten ausgeführt durch Einführen des Ermüdungsterms in das neuronale Netzwerk. Alternativ kann von irgendeinem anderen von mehreren Prozessen Gebrauch gemacht werden, mit dem verhindert werden kann, dass derselbe Kandidat noch einmal extrahiert wird. Beispielsweise können die Ausgangswerte von Neuronen, die der Zone im Inneren des Kandidaten entsprechen, der bereits einmal extrahiert wurde, auf 0 oder 1 gesetzt werden, um dadurch eine Maskierung vorzunehmen. Als weitere Alternative können die retinale Neuronenschicht und ein Maskierrahmen einander überlagert werden. Werte von Signalen in der Zone des Maskierungsrahmens entsprechend der Zone in der retinalen Neuronenschicht, in welcher Zone der Kandidat extrahiert wird, können dann auf 0 oder 1 gesetzt werden. Auf diese Weise kann die retinale Neuronenschicht maskiert werden.
  • Im folgenden soll beschrieben werden, wie ein Prozess ausgeführt wird, wenn der Mittelpunkt des Betrachtungsfensters beispielsweise aufgrund der Extraktion eines Kandidaten anhält.
  • 59 ist ein Flussdiagramm, welches zeigt, wie ein Prozess durchgeführt wird, wenn der Mittelpunkt des Betrachtungsfensters anhält.
  • Wie in 59 dargestellt ist, vollzieht die Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters eine Beurteilung dahingehend, ob der Mittelpunkt des Betrachtungsfensters angehalten hat oder nicht. In den Fällen, in denen beurteilt wird, dass der Mittelpunkt des Betrachtungsfensters nicht angehalten hat, wird ein hierfür repräsentatives Signal in die zur Suche dienende neuronale Netzwerkverarbeitungseinheit 3 eingespeist, und der Mittelpunkt des Betrachtungsfensters wird dazu gebracht, seine Bewegung fortzusetzen. In den Fällen, in denen beurteilt wird, dass der Mittelpunkt des Betrachtungsfensters angehalten hat, wird eine Wahrscheinlichkeitsdichtefunktion bezüglich der radialen Richtung aus den Ergebnissen erzeugt, die erhalten wurden durch Wettstreit und Kooperation in Umfangsrichtung, durchgeführt in jeder der e1-, e1'-, und e1''-Schichten. Die Wahrscheinlichkeitsdichtefunktion wird analysiert, und es wird eine Beurteilung aus den Analyseergebnissen der Wahrscheinlichkeitsdichtefunktion dahingehend vorgenommen, ob diese Wahrscheinlichkeitsdichtefunktion einen Spitzenwert besitzt oder nicht. Beispielsweise werden in den Fällen, in denen gemäß 60 der Mittelpunkt eines Betrachtungsfensters 71A an dem Mittelpunkt eines Kandidaten 101 angehalten hat, der mit seiner elliptischen Form einem menschlichen Gesicht ähnelt, die Ergebnisse nach 61A aus dem Wettstreit und der Kooperation gewonnen, die in der e1-Schicht durchgeführt werden. In 61A werden die Neuronen näherungsweise in Umfangsrichtung angeregt. In diesem Fall wird die Wahrscheinlichkeitsdichtefunktion gemäß 61B erhalten, die an einer den angeregten Neuronen entsprechenden Stelle einen Spitzenwert enthält. Deshalb beurteilt die Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters, dass der Mittelpunkt des Fensters 71A angehalten hat aufgrund der Entdeckung des Kandidaten 101. Die von einem Kreis 109 umschlossene Zone wird anschließend als Kandidat extrahiert. Ein für den extrahier ten Kandidaten 101 repräsentatives Signal wird zu der Beurteilungseinrichtung transferiert.
  • Nachdem der Kandidat 101 in der oben beschriebenen Weise extrahiert wurde, bleibt der Mittelpunkt des Betrachtungsfensters 71A ortsfest an der Stelle des Kandidaten 101. Wenn dieser Zustand andauert, kann nicht der nächste Kandidat gesucht werden. Daher ist es notwendig, dass der Mittelpunkt des Betrachtungsfensters 71A über eine große Strecke bewegt wird. Insbesondere wird das Betrachtungsfenster 71A aus dem Zustand, in dem sein Mittelpunkt angehalten hat, das heißt aus dem stabilen Zustand der Neuronen, in beliebige Richtung (in diesem Fall in Pfeilrichtung 102) zu der Stelle eines Betrachtungsfensters 71A' bewegt. Aus diesem Grund gelangt ein Teil des Kandidaten 104 in das Betrachtungsfenster 71A'. Aus diesem Grund wandert dann der Mittelpunkt des Betrachtungsfensters 71A' in Richtung des Mittelpunkts des Kandidaten 104.
  • Zurückkehrend zu der 59 erzeugt in solchen Fällen, in denen festgestellt wurde, dass die Wahrscheinlichkeitsdichtefunktion, die aus den Ergebnissen des Wettstreits und der Kooperation in Umfangsrichtung erzeugt wurde, keinen Spitzenwert enthält, die Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters eine Wahrscheinlichkeitsdichtefunktion für die Umfangsrichtung aus den Ergebnissen, die gewonnen wurden aus dem Wettstreit und der Kooperation in radialer Richtung, ausgeführt beispielsweise in der e1-Schicht. Die Wahrscheinlichkeitsdichtefunktion wird analysiert, und es wird aus den Analyseergebnissen der Funktion beurteilt, ob die Funktion einen Spitzenwert hat oder nicht. Wenn die Funktion einen Spitzenwert hat, beurteilt die Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters, dass, wie durch ein Betrachtungsfenster 71B in 60 angedeutet ist, der Mittelpunkt des Fensters 71B sich auf der Konturlinie eines Kandidaten 102 befindet, oder dass, wie durch ein Betrachtungsfenster 71D in 60 angedeutet ist, der Mittelpunkt des Betrachtungsfensters 71D sich auf einem Scheitelpunkt eines Kandidaten 103 befindet. Aus diesem Grund wird der Mittelpunkt des Betrachtungsfensters 71B oder 71D in die Richtung transferiert, die der Spitze der Wahrscheinlichkeitsdichtefunktion entspricht, das heißt in die Richtung entlang der Konturlinie des Kandidaten 102 oder 103. Auf diese Weise wird der Mittelpunkt des Betrachtungsfensters 71B oder 71D zu der Stelle eines Betrachtungsfensters 71B' oder 71D' bewegt. Wie oben erläutert wurde, wird der Mittelpunkt des Betrachtungsfensters 71B oder 71D zu der Richtung entlang der Konturlinie transferiert (das ist die Pfeilrichtung 106 oder 108); dies deshalb, weil es eine starke Wahrscheinlichkeit dafür gibt, dass ein Schnittpunkt einer Konturlinie oder dergleichen, der als Merkmalspunkt des Kandidaten 102 oder 103 fungiert, in Richtung entlang der Konturlinie vorhanden ist.
  • Wie in 60 gezeigt ist, befindet sich in den Fällen, in denen der Mittelpunkt eines Betrachtungsfensters 71C an einer Stelle angehalten hat, wo sich kein Kandidat befindet, kein Objekt, welches eine Anregung der Neuronen verursacht, in der Zone im Inneren des Betrachtungsfensters 71C, und deshalb bleibt der Mittelpunkt des Betrachtungsfensters 71C in diesem Zustand. In diesem Zustand besitzen Wahrscheinlichkeitsdichtefunktionen, die aus Resultaten erzeugt werden, die man durch den Wettstreit und die Kooperation gewinnt, ausgeführt beispielsweise in den e1- und e2-Schichten, keinen Spitzenwert. Wie in 59 gezeigt ist, beurteilt folglich die Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters, dass der Mittelpunkt des Betrachtungsfensters deshalb angehalten hat, weil sich im Inneren des Betrachtungsfensters 71C kein Kandidat befunden hat. Dann wird der Mittelpunkt des Betrachtungsfensters 71C in beliebige Richtung bewegt (in diesem Fall in Pfeilrichtung 107), um an die Stelle eines Betrachtungsfensters 71C' zu gelangen. Aus diesem Grund wandert dann der Mittelpunkt des Betrachtungsfensters 71C' zum Mittelpunkt des Kandidaten 104.
  • Bei der oben beschriebenen Ausführungsform erfolgt der Transfer des Mittelpunkts des Betrachtungsfensters aus dem Zustand, in welchem der Mittelpunkt des Fensters angehalten hat, abhängig von der durch die Bearbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters vorgenommenen Beurteilung. Alternativ kann zu diesem Zweck ein Annealing-Prozess in dem neuronalen Netzwerk ausgeführt werden.
  • Wie oben beschrieben wurde, wird mit dem Annealing-Prozess dann, wenn ein gewisses Neuron des neuronalen Netzwerks ein Eingangssignal empfängt und eine Ausgangsgröße erzeugt, die Eingangs-/Ausgangs-Transferkennlinie des Neurons derart modifiziert, dass das Neuron kein Ausgangssignal entsprechend der Funktion der ursprünglichen Eingangs-/Ausgangs-Transferkennlinie des Neurons erzeugen kann, sondern stattdessen ein Ausgangssignal erzeugen kann, welches thermische Schwankungen, das heißt ein Ausgangssignal mit Rauschen erzeugen kann. Der Pegel des in dem Ausgangssignal enthaltenen Rauschens wird durch den Wert der Temperatur repräsentiert. Durch Steigerung oder Verringerung der Temperatur wird verhindert, dass der Zustand des Systems des neuronalen Netzwerks in einen stabilen Zustand fällt und in einen anderen stabilen Zustand verschoben wird.
  • Wenn daher die Eingangs-/Ausgangs-Kennlinie eines Neurons durch eine Sigmoid-Funktion dargestellt wird, ausgedrückt durch die Formel (6), erhält das Neuron eine Eingangs-/Ausgangs-Transferkennlinie entsprechend der Formel (7). Auf diese Weise kann die Eingangs-/Ausgangs-Transferkennlinie des Neurons gewonnen werden, die Fehler enthält, wie in 93B gezeigt ist. Insbesondere kann das Ausgangssignal des Neurons dazu gebracht werden, Wahrscheinlichkeitsstatistik gemäß innerhalb des in 93B schraffierten Bereichs zu schwanken. Wenn die Schwankungswerte der thermischen Schwankungen groß sind, das heißt wenn die Temperatur auf einen hohen Wert eingestellt ist, enthält das Ausgangssignal des Neurons Fehler. Aus diesem Grund kann aufgrund von Fehlern das neuronale Netzwerk von dem stabilen Zustand abrücken.
  • Alternativ kann der Ermüdungsterm in das neuronale Netzwerk eingeführt werden, so dass es den stabilen Zustand verlässt. In diesen Fällen befindet sich, wie oben erläutert wurde, eine retinale Neuronenschicht, die ein gegebenes Bild wiederspiegelt, an einer Stelle entsprechend dem Bereich der Größe des gegebenen Bilds, beispielsweise der a-Schicht des in 28 dargestellten neuronalen Netzwerks. Die durch die Formel (9) dargestellte Kennlinie wird den Neuronen der retinalen Neuronenschicht zugeordnet.
  • In den Fällen, in denen der Mittelpunkt des Betrachtungsfensters nicht innerhalb einer vorbestimmten Zeitspanne vorgerückt ist, beurteilt die Verarbeitungseinheit 4 für die Beurteilung des Anhaltezustands des Betrachtungsfensters, dass der Mittelpunkt des Be trachtungsfensters angehalten hat. In der Formel (9) wird ki(t) für die Neuronen der retinalen Neuronenschicht auf 1 gesetzt, die der Zone im Inneren des Betrachtungsfensters an einer Stelle entspricht, bei der der Mittelpunkt des Betrachtungsfensters angehalten hat. Außerdem wird ki(t) für solche Neuronen der retinalen Neuronenschicht auf 0 gesetzt, die der Zone außerhalb des Betrachtungsfensters entsprechen. Auf diese Weise sammelt sich die Ermüdung nur in den Neuronen der retinalen Neuronenschicht an, die der Zone im Inneren des Betrachtungsfensters entsprechen. Aus diesem Grund zeigen entsprechend der Formel (9) die der Zone außerhalb des Fensters entsprechenden Neuronen keine Ermüdung, und die Eingangsgrößen in diese Neuronen können direkt als Ausgangswerte abgenommen werden. Allerdings sammelt sich für die Neuronen, die der Zone im Inneren des Betrachtungsfensters entsprechen, die Müdigkeit an. Wenn also die der Zone im Inneren des Betrachtungsfensters entsprechenden Neuronen Eingangssignale empfangen, reduzieren sich die Ausgangswerte dieser Neuronen auf den erwähnten Ermüdungsterm. Aufgrund der Verringerung der Ausgangswerte werden Signale von Neuronen, die der Zone im Inneren des Betrachtungsfensters entsprechen, nicht von der retinalen Neuronenschicht zur nächsten Schicht übertragen. Aus diesem Grund kann der Mittelpunkt des Betrachtungsfensters zum nächsten Kandidaten vorrücken. Was die Ermüdung angeht, so kann durch geeignete Einstellung der Werte für ki(t) und tf in den Fällen, in denen ein gewisses Neuron jederzeit ein Eingangssignal empfängt, der Ausgangswert dieses Neurons wiederholt eine Zunahme und eine Abnahme im Verlauf der Zeit ausführen. Wenn der Wert für tf auf unendlich eingestellt wird, so wird ein bereits einmal angeregtes Neuron nicht noch einmal angeregt, demzufolge der Mittelpunkt des Betrachtungsfensters nicht noch einmal an der Stelle anhält, an der er bereits angehalten hatte.
  • Im folgenden wird eine zweite Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds beschrieben.
  • 62 ist ein Blockdiagramm, das ein Grundkonzept darstellt, welches sich hinter der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verbirgt. Wie in 62 gezeigt ist, wird bei dieser Ausführungsform die neuronale Netzwerkverarbeitungseinheit 3 für die Suche verwendet, welche die gleiche ist wie diejenige, die bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds gemäß 1 verwendet wird. Vektoren für die Bewegung des Betrachtungsfensters, die durch diese neuronale Netzwerkverarbeitungseinheit 3 für die Suche ermittelt wurden, werden als Gradientenvektoren eines Potentialfelds hergenommen. In einer Einheit 4' zum Bestimmen eines Extraktionsgebiets wird eine Karte des Potentialfelds der gesamten Bildfläche aus den Gradientenvektoren des Potentialfelds erzeugt. Außerdem wird ein Extraktionsgebiet entsprechend der Größe und/oder der Form des Kandidaten bestimmt, wobei ein Minimumpunkt des Potentials innerhalb der Karte als Referenzwert während der Bestimmung des Extraktionsgebiets hergenommen wird.
  • Die Karte des Potentialfelds des Bilds lässt sich dadurch erzeugen, dass man die Gradientenvektoren des Potentialfelds an einzelnen Punkten des Gesamtgebiets des Bilds gewinnt und die Gradientenvektoren des Potentialfelds auf dem Bild aufträgt.
  • Wie oben beschrieben wurde, repräsentiert das Potentialfeld das Feld eines Punkts, an dem ein Blickpunkt menschlicher Augen stabil ist. Wenn das Potentialfeld in bezug auf das oben angesprochene neuronale Netzwerk zum Extrahieren des Kandidaten betrachtet wird, so kann man das Potentialfeld auffassen als das Feld eines Punkts, an welchem der Mittelpunkt des Betrachtungsfensters stabil ist. Insbesondere lässt sich das Potentialfeld als an dem Mittelpunkt des Kandidaten flach betrachten, an welchem Punkt der Mittelpunkt des Betrachtungsfensters stabil ist. Außerdem kann das Potentialfeld als Gradient an einem Punkt betrachtet werden, bei dem der Mittelpunkt des Betrachtungsfensters instabil ist, und von dem aus das Betrachtungsfenster vorrücken muss. In derartigen Fällen ist das, was der Gradient des Potentialfelds ausdrückt, die Richtung des Gradientenvektors des Potentialfelds, welcher Vektor in dem oben angesprochenen neuronalen Netzwerk für die Extraktion gewonnen wird. Deshalb kann die Karte des Potentialfelds des Bilds dadurch erzeugt werden, dass die gesamte Fläche des gegebenen Bilds mit dem Betrachtungsfenster des obigen neuronalen Netzwerks abgetastet und die Gradientenvektoren des Potentialfelds, die an den einzelnen Bildpunkten aufgefunden werden, auf dem Bild aufgezeichnet werden.
  • 63 ist eine anschauliche Darstellung einer Karte eines Potentialfelds, welches durch Aufzeichnen der Gradientenvektoren des Potentialfelds, die in der oben beschriebenen Weise aufgefunden wurden, auf dem Bild erzeugt wird.
  • Gemäß 63 sind in ein Bild 110 ein Ellipsenbild 111, ein Dreieckbild 112 und ein Quadratbild 113 eingebettet. Gradientenvektoren des Potentialfelds auf dem gesamten Gebiet des Bilds 110 werden mit dem obigen neuronalen Netzwerk berechnet und an den jeweiligen Stellen in dem Bild 110, die den Stellen entsprechen, an denen die Gradientenvektoren des Potentialfelds aufgefunden wurden, aufgezeichnet. Auf diese Weise erhält man eine Karte des Potentialfelds. In 63 sind die Gradientenvektoren des Potentialfelds zu den Mittelpunkten P1, P2 und P3 des Ellipsenbilds 111, des Dreieckbilds 112 und des Quadratbilds 113 gerichtet. Wenn die Richtungen der Gradientenvektoren des Potentialfelds als die Gradienten des Potentialfelds betrachtet werden, lassen sich Minimumpunkte des Potentialfelds an den Mittelpunkten P1, P2 und P3 des Ellipsenbilds 111, des Dreieckbilds 112 bzw. des Quadratbilds 113 auffinden.
  • 64 ist eine graphische Darstellung von Gradienten des Potentialfelds. In 64 ist das in 63 gezeigte Bild 110 mit dem Betrachtungsfenster 73 abgetastet, und ein Gradientenvektor 75 des Potentialfelds am Mittelpunkt N des Betrachtungsfensters 73 ist zum Mittelpunkt des Quadratbilds 113 gerichtet.
  • Ein Graph 114 im oberen Teil der 64 ist ein zweidimensionaler Graph des Potentialfelds, welches erhalten wird durch Auffinden der Gradienten des Potentialfelds in der oben beschriebenen Weise, wobei der Querschnitt des Potentialfelds entlang der Linie I-I des Bilds 110 verwendet wird.
  • Der Graph 114 besitzt drei Minima P1', P2' und P3', die dem Mittelpunkt P1 des Ellipsenbilds 111, dem Mittelpunkt P2 des Dreieckbilds 112 bzw. dem Mittelpunkt P3 des Quadratbilds 113 entsprechen. Außerdem entspricht ein Punkt N' im Graphen 114 dem Mittelpunkt N des Betrachtungsfensters auf dem Bild 110. Wenn die Gradienten des Potentialfelds auf dem gesamten Gebiet des Bilds 110 auf diese Weise berechnet werden und die Karte des Potentialfelds erzeugt wird, kann selbst dann, wenn das Betrachtungsfenster an irgendeinem Punkt in dem Bild eingerichtet wird, das Fenster dazu gebracht werden, zu den Minima des Potentialfelds zu wandern, das heißt zu den Mittelpunkten der Kandidaten, wozu kürzesten Wegen gefolgt wird. Kandidaten für die vorbestimmten Objektbilder werden anschließend entsprechend den Größen und/oder Formen der Kandidaten extrahiert, indem die Minima des Potentialfelds als Bezugsgrößen verwendet werden. Auf diese Weise lässt sich das Extrahieren der Kandidaten äußerst effizient ausführen. Nachdem ein Kandidat extrahiert wurde, kann die Zone der Karte des Potentialfelds entsprechend dem extrahierten Kandidaten maskiert werden. Auf diese Weise kann verhindert werden, dass der bereits einmal extrahierte Kandidat erneut extrahiert wird. Zum Zweck der Maskierung der Karte des Potentialfelds kann die Karte des Potentialfelds mit einem Maskierrahmen überlagert werden. Anschließend können Signalwerte in der Zone des Maskierrahmens entsprechend der Zone der Karte des Potentialfelds, in der der Kandidat extrahiert wurde, auf 0 oder 1 gesetzt werden. Auf diese Weise lässt sich die Karte des Potentialfelds markieren, und der Kandidat, der bereits extrahiert wurde, kann vor einem erneuten Extrahieren bewahrt werden.
  • Im folgenden wird eine dritte Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds erläutert.
  • Bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds werden in der Ausführungsform, in der der Vektor für die Bewegung des Betrachtungsfensters aus der Bewegung des Kandidaten berechnet wird, die extrahierten Konturlinien des Kandidaten, der eine von der Hintergrundbewegung verschiedene Bewegung zeigt, nicht der Transformation mit der Komplex-Log-Abbildung unterzogen, und es wird ein Vektor für die Bewegung des Betrachtungsfensters durch Verwendung eines neuronalen Netzwerks mit einer ähnlich wie eine kartesische Ebene ausgestalteten Neuronenanordnung bestimmt. Außerdem wird bei den Ausführungsformen, bei denen die Vektoren für die Bewegung des Betrachtungsfensters aus der Konturlinie des Kandidaten und aus der Farbe des Kandidaten errechnet wird, das Bild zur Zeit t, welches ausgeschnitten wurde und in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fällt, keiner Transformation mit der Komplex-Log-Abbildung unterzogen, und der Vektor für die Bewegung des Betrachtungsfensters wird unter Verwendung eines neuronalen Netzwerks bestimmt, bei dem die Neuronen ähnlich einer kartesischen Ebene angeordnet sind.
  • 65 ist eine anschauliche Darstellung eines Beispiels für ein neuronales Netzwerk zum Extrahieren eines Kandidaten durch Bewegen des Mittelpunkts eines Betrachtungsfensters zum Mittelpunkt des Kandidaten bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds. Als erstes wird ein neuronales Netzwerk beschrieben, welches ein Bild, das in die Zone im Inneren des Betrachtungsfensters fällt, heranzieht, um einen Vektor für die Bewegung des Betrachtungsfensters aus den Konturlinien des Kandidaten für das vorbestimmte Objektbild zu errechnen, der eine von der Hintergrundbewegung abweichende Bewegung vollzieht, wobei die Linien bei der Ausführungsform zum Berechnen des Vektors für die Bewegung des Betrachtungsfensters aufgefunden werden aus der Bewegung des Kandidaten oder aus der Konturlinie des Kandidaten. Das bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds verwendete neuronale Netzwerk wird durch eine Mehrzahl von Neuronenschichten gebildet. Insbesondere wird das neuronale Netzwerk gebildet durch eine Eingangsschicht 120 zum Ausschneiden eines Bildteils, der in die Zone im Inneren eines Betrachtungsfensters vorbestimmter Größe fällt, aus einem gegebenen Bild 115. (In den Fällen, in denen ein Vektor für die Bewegung des Betrachtungsfensters aus der Bewegung des Kandidaten berechnet wird, wird das Signal für das Bild 42 gemäß 26, welches die Konturlinien des Kandidaten repräsentiert und eine von der Hintergrundbewegung abweichende Bewegung zeigt, in die Eingangsschicht 120 eingespeist.) Das neuronale Netzwerk wird außerdem gebildet durch eine Konturlinien-Detektorschicht 121 zum Erfassen von kreisbogenähnlichen Konturlinien eines Kandidaten aus dem Bild, welches ausgeschnitten wurde (oder welches in die Eingangsschicht 120 eingespeist wurde), und eine Konturliniendetektorschicht 121' zum Erfassen radialer Konturlinien aus dem ausgeschnittenen Bild. Darüber hinaus wird das neuronale Netzwerk gebildet von einer Endpunktdetektorschicht 122 zum Erfassen der Endpunkte der radialen Konturlinien, einer interaktiven Verbindungsschicht 123 zum Auswählen einer kontinuierlichen kreisbogenähnlichen Konturlinie, und einer interaktiven Verbindungsschicht 123' zum Auswählen einer kontinuierlichen radialen Konturlinie. Darüber hinaus wird das neuronale Netzwerk gebildet aus einer Neigungskomponenten-Extrahierschicht 124 zum Extrahieren sämtlicher Konturlinienkomponenten, die unter einem vorbestimmten Winkel gegenüber den Umfangsrichtungen den Mittelpunkt des Betrachtungsfensters konzentrisch umgebender Kreise geneigt sind, aus der ausgewählten kreisbogenähnlichen Konturlinie, und eine Neigungskomponenten-Extrahierschicht 124' zum Extrahieren sämtlicher Konturlinienkomponenten, die unter einem vorbestimmten Winkel gegenüber Umfangsrichtungen konzentrischer, den Mittelpunkt des Betrachtungsfensters umgebender Kreise geneigt sind, aus der ausgewählten radialen Konturlinie. Darüber hinaus wird das neuronale Netzwerk gebildet durch eine Azimutvektor-Detektorschicht 125 zum Erfassen der Azimute und Intensitäten, die Azimutvektoren des Kandidaten in bezug auf die Konturen der Gruppe konzentrischer Kreise repräsentieren, welche den Mittelpunkt des Betrachtungsfensters umgeben, aus den Neigungskomponenten der Kreisbogenähnlichen, extrahierten Konturlinie, und eine Azimutvektor-Detektorschicht 125' zum Erfassen der Azimute und Intensitäten, die Azimutvektoren des Kandidaten in bezug auf die Konturen der Gruppe konzentrischer Kreise repräsentieren, welche den Mittelpunkt des Betrachtungsfensters umgeben, aus den geneigten Komponenten der radialen, ausgewählten Konturlinien. Zusätzlich wird das neuronale Netzwerk gebildet durch eine Azimutvektor-Zusammensetzungsschicht 126 zum Zusammensetzen eines Azimutvektors aus den erfassten Azimuten und Intensitäten der Komponenten der kreisbogenähnlichen Konturlinie, und eine Azimutvektor-Zusammensetzungsschicht 126' zum Zusammensetzen eines Azimutvektors aus den erfassten Azimuten und Intensitäten der Komponenten der radialen Konturlinie. Ferner besitzt das neuronale Netzwerk eine Bewegungsvektor-Ausgangsschicht 127 zum Festlegen eines Vektors für die Bewegung des Betrachtungsfensters aus den zusammengesetzten Azimutvektoren. Speziell entspricht die Eingangsschicht 120 der a- oder a'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks zum Bestimmen des Bewegungsvektors für das Betrachtungsfenster in der Komplex-Log-Abbildungsebene. Außerdem entsprechen die Konturlinien-Detektorschichten 121 und 121' der c1- oder c1'-Schicht bzw. der c2- oder c2'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks. Zusätzlich entspricht die Endpunktdetektorschicht 122 der d- oder d'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks. Außerdem entsprechen die interaktiven Verbindungsschichten 123 und 123' der e1- oder e1'-Schicht bzw. der e2- oder e2'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks. Außerdem entsprechen die Neigungskomponenten-Extrahierschichten 124 und 124' der f1- oder f1'-Schicht bzw. der f2- oder f2'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks. Darüber hinaus entsprechen die Azimutvektor-Detektorschichten 125 und 125' der g1- oder g1'-Schicht bzw. der g2- oder g2'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks. Ferner entsprechen die Azimutvektor-Zusammensetzungsschichten 126 und 126' der h1- oder h1'-Schicht bzw. der h2- oder h2'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks, und die Bewegungsvektor-Ausgangsschicht 127 entspricht der i- oder der i'-Schicht des in 28 oder 38 gezeigten neuronalen Netzwerks.
  • Als erstes wird in der Eingangsschicht 120 ein Teil des in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fallenden Bilds ausgeschnitten und aus der Außenwelt herausgenommen. (Alternativ wird das das Bild 42 nach 26 repräsentierende Signal in die Eingangsschicht 120 eingespeist.) Information über das durch die Eingangsschicht 120 aufgenommene Bild wird in die Konturlinien-Detektorschichten 121 und 121' eingespeist, die kreisbogenähnliche Konturlinien und radiale Konturlinien erkennen. Zum Zweck des Erfassens der kreisbogenähnlichen Konturlinien und radialen Konturlinien werden die Gewichte der synaptischen Verbindungen von der Eingangsschicht 120 zu den Konturlinien-Detektorschichten 121 und 121' auf die in den 66A und 69A dargestellten Muster verteilt. Insbesondere wird in der Konturlinien-Detektorschicht 121 eine Gruppe von synaptischen Gewichtsmustern 128 auf konzentrischen Kreisen angeordnet, die den Mittelpunkt des Betrachtungsfensters umgeben, so dass die synaptischen Wichtungsmuster in passender Weise kreisbogenähnliche Konturlinien erfassen können. Die Gruppe der synaptischen Wichtungsmuster 128 besitzt solche Größen, dass der Bereich der Verbindungen in einer Zone nahe dem Mittelpunkt des Betrachtungsfensters enger werden kann. Außerdem wird in der Konturlinien-Detektorschicht 121' eine Gruppe von synaptischen Wichtungsmustern 128' auf konzentrischen Kreisen derart angeordnet, dass die synaptischen Wichtungsmuster in passender Weise Konturli nien erkennen können, welche sich vom Mittelpunkt des Betrachtungsfensters aus radial erstrecken. Wie bei der Gruppe von synaptischen Wichtungsmustern 128 besitzen die Muster in der Gruppe synaptischer Wichtungsmuster 128 derartige Größen, dass der Bereich der Verbindungen an einer Zone nahe dem Mittelpunkt des Betrachtungsfensters enger werden kann. Das Ändern des Bereichs von Verbindungen entsprechend dem Abstand zum Mittelpunkt des Betrachtungsfensters entspricht der nichtlinearen, logarithmischen Transformation der radialen Entfernung bei der ersten Ausführungsform, bei der die Transformation mit der Komplex-Log-Abbildung durchgeführt wird. In solchen Fällen, in denen ein Kandidat von einem anderen Körper im Bereich des Vordergrunds versperrt wird, treten Endpunkte der radialen Konturlinie an der Grenze zwischen dem Kandidaten und dem anderen Körper im Vordergrund auf. In der Endpunkt-Detektorschicht 122 werden derartige Endpunkte radialer Konturlinien aus dem von der Konturlinien-Detektorschicht 121', in der radiale Konturlinien extrahiert wurden, empfangenen Muster extrahiert. Um die Endpunkte zu erfassen, wird bezüglich des Konturlinienmusters, welches in der Konturlinien-Detektorschicht 121' erhalten wurde, durch Verwendung der in den 67A und 67B dargestellten synaptischen Wichtungsmuster die Faltung ausgeführt. In diesem Fall werden die Endpunkte der Konturlinien, die vom Mittelpunkt des Betrachtungsfensters wegweisen, durch eine Gruppe synaptischer Wichtungsmuster 133a erkannt. Außerdem werden die Endpunkte der Konturlinien, die zum Mittelpunkt des Betrachtungsfensters weisen, von einer Gruppe synaptischer Wichtungsmuster 123b erkannt. Ein Signal, welches das Muster der Endpunkte der in radialer Richtung verlaufenden Konturlinie repräsentiert, welche Endpunkte in der Endpunkt-Detektorschicht 122 in der oben beschriebenen Weise erfasst wurden, wird über eine Gruppe synaptischer Wichtungsmuster 134 gemäß 68 als ein Signal zu der interaktiven Verbindungsschicht 123 übertragen, welches eine vorhergesagte Konturlinie des Kandidaten entlang der Umfangsrichtung repräsentiert. Auf diese Weise werden die kreisbogenähnlichen Konturlinien, die vorhergesagte Konturlinie und die radialen Konturlinien erfasst. Im Anschluss daran wird in den interaktiven Verbindungsschichten 123 und 123' eine kontinuierliche kreisbogenähnliche Konturlinie sowie eine kontinuierliche radiale Konturlinie ausgewählt.
  • Die Gewichte der synaptischen Verbindungen innerhalb der interaktiven Verbindungsschicht 123 sind in dem in 66B gezeigten Muster verteilt. Insbesondere sind gruppenweise synaptische Wichtungsmuster 129 so angeordnet, dass sie den Mittelpunkt Q des Betrachtungsfensters umgeben. Durch die Gruppe von synaptischen Wichtungsmustern 129 werden sich in Umfangsrichtung erstreckende Konturlinien zur Zusammenarbeit gebracht, und Konturlinien, die ein hohes Maß an Kontinuität in Umfangsrichtung und eine hohe Intensität aufweisen, werden betont. Im Ergebnis werden Konturlinien, die aufgrund des Hintergrunds in der Umfangsrichtung unterbrochen sind, durchgängig gemacht. Außerdem werden in radialer Richtung verlaufende Konturlinien in Wettstreit gebracht mit Konturlinien, die ein hohes Maß an Kontinuität in Umfangsrichtung und eine hohe Intensität aufweisen. Auf diese Weise werden die in radialer Richtung verlaufenden Konturlinien gesperrt und ausgelöscht durch Sperrsignale entsprechend den Konturlinien, die sich in Umfangsrichtung erstrecken.
  • Die Gewichte der synaptischen Verbindungen in der interaktiven Verbindungsschicht 123' sind in dem in 69B gezeigten Muster verteilt. Insbesondere ist eine Gruppe synaptischer Wichtungsmuster 129' derart angeordnet, dass sie den Mittelpunkt Q des Betrachtungsfensters umgibt. Bei der Gruppe synaptischer Wichtungsmuster 129' arbeiten in radialer Richtung verlaufende Konturlinien miteinander, und Konturlinien, die ein hohes Maß an Kontinuität in radialer Richtung aufweisen und eine starke Intensität besitzen, werden hervorgehoben. Im Ergebnis werden in radialer Richtung aufgrund des Hintergrunds unterbrochene Konturlinien durchgängig gemacht. Außerdem treten Konturlinien, die sich in Umfangsrichtung erstrecken, in Wettstreit mit Konturlinien, die ein hohes Maß an Kontinuität in radialer Richtung und eine hohe Intensität aufweisen. Die in Umfangsrichtung verlaufenden Konturlinien werden also gesperrt und ausgelöscht durch Sperrsignale, die den in radialer Richtung verlaufenden Konturlinien entsprechen.
  • Im Anschluss daran werden in den Neigungskomponenten-Extrahierschichten 124 und 124' sämtliche Konturlinienkomponenten, die unter einem vorbestimmten Winkel bezüglich der Konturen der Gruppe den Mittelpunkt des Betrachtungsfensters umgebender konzentrischer Kreise geneigt sind, von den ausgewählten Konturlinien extrahiert.
  • Die Gewichte der synaptischen Verbindungen von der interaktiven Verbindungsschicht 123 zu der Neigungskomponenten-Extrahierschicht 124 sind derart ausgestaltet, dass die synaptischen Gewichte in den Neigungskomponenten-Extrahierschichten 124a und 124b in die in den 66C und 66D dargestellten Muster verteilt werden können. Eine Gruppe synaptischer Wichtungsmuster 130 zum Detektieren einer in 66C gezeigten Konturlinie sind nach rechts oben unter vorbestimmten Winkeln +α und –α gegenüber den Umfangrichtungen einer Gruppe konzentrischer Kreise geneigt, die den Mittelpunkt des Betrachtungsfensters umgeben. Außerdem sind gruppenweise synaptische Wichtungsmuster 131 zum Detektieren einer in 66D gezeigten Konturlinie nach oben links unter vorbestimmten Winkeln +α und –α gegenüber den Umfangsrichtungen einer Gruppe konzentrischer Kreise geneigt, die den Mittelpunkt des Betrachtungsfensters umgeben. Die Gruppe synaptischer Wichtungsmuster 130 zum Erfassen einer Konturlinie und die Gruppe synaptischer Gewichtungsmuster 131 zum Detektieren einer Konturlinie besitzen solche Größen, dass der Bereich von Verbindungen in einer Zone nahe dem Mittelpunkt des Betrachtungsfensters enger werden kann. Die Gruppe synaptischer Wichtungsmuster 130 zum Detektieren einer Konturlinie und die Gruppe synaptischer Wichtungsmuster 131 zum Detektieren einer Konturlinie erfassen die Komponenten der kreisbogenähnlichen Konturlinie des Kandidaten, die unter dem vorbestimmten Winkel bezüglich der Richtungen entlang den Umfängen um den Mittelpunkt des Betrachtungsfensters geneigt sind. Beispielsweise wird in solchen Fällen, in denen ein kreisförmiger Kandidat 132 für das vorbestimmte Objektbild sich an der in 70A oder 70B gezeigten Stelle befindet, von den Komponenten der Konturlinie des Kandidaten 132, die von der interaktiven Verbindungsschicht 123 ausgewählt wurde, die nach rechts oben geneigte Komponente durch ein synaptisches Wichtungsmuster 130a erfasst, das in der Gruppe synaptischer Wichtungsmuster 130 zum Detektieren einer Konturlinie enthalten ist. Außerdem wird die nach oben links geneigte Komponente erkannt durch ein synaptisches Wichtungsmuster 131a, das in der Gruppe synaptischer Wichtungsmuster 131 zum Detektieren einer Konturlinie enthalten ist. Aus den Azimuten und den Intensitäten der so detektierten geneigten Komponenten werden der Azimut und die Intensität der nach oben rechts geneigten Komponente innerhalb der Azimutvektor-Detektorschicht 125a erkannt. Außerdem werden Azimut und Intensität der nach links oben geneigten Komponenten in der Azimutvektor-Detektorschicht 125b erkannt. Anschließend wird in der Azimutvektor-Zusammensetzungsschicht 126 ein Azimutvektor zusammengesetzt aus den Azimuten und den Intensitäten, die von den Azimutvektor-Detektorschichten 125a und 125b erfasst wurden. Information über den Azimutvektor, der auf diese Weise zusammengesetzt wurde, wird zu der Bewegungsvektor-Ausgangsschicht 127 übertragen und als Information über den Vektor für die Bewegung des Betrachtungsfensters ausgegeben.
  • Die Gewichte der synaptischen Verbindungen von der interaktiven Verbindungsschicht 123' der Neigungskomponenten-Extrahierschicht 124' sind derart ausgestaltet, dass die synaptischen Gewichte in den Neigungskomponenten-Extrahierschichten 124a' und 124b' in den in 69C und 69D dargestellten Mustern verteilt werden können. Eine Gruppe synaptischer Wichtungsmuster 130' zum Detektieren einer Konturlinie gemäß 69C ist nach links oben unter vorbestimmten Winkeln +α' und –α' gegenüber den Umfangsrichtungen einer Gruppe konzentrischer Kreise geneigt, die den Mittelpunkt des Fensters umgeben. Außerdem sind Elemente der Gruppe synaptischer Wichtungsmuster 131' zum Detektieren einer Konturlinie gemäß 69D nach rechts oben unter vorbestimmten Winkeln +α' und –α' gegenüber Umfangrichtungen einer Gruppe konzentrischer Kreise geneigt, die den Mittelpunkt des Betrachtungsfensters umgeben. Die Gruppe synaptischer Wichtungsmuster 130' zum Detektieren einer Konturlinie und die Gruppe synaptischer Wichtungsmuster 131' zum Detektieren einer Konturlinie haben solche Größen, dass der Bereich der Verbindungen in einer Zone näher am Mittelpunkt des Betrachtungsfensters enger werden kann. Die Gruppe synaptischer Wichtungsmuster 130' zum Detektieren einer Konturlinie und die Gruppe synaptischer Wichtungsmuster 131' zum Detektieren einer Konturlinie erfassen die Komponenten der radialen Konturlinie des Kandidaten, die unter dem vorbestimmten Winkel gegenüber den Richtungen entlang den Umfängen um den Mittelpunkt des Betrachtungsfensters geneigt sind. In solchen Fällen zum Beispiel, in denen ein Schnittpunkt der Konturlinie eines Kandidaten 132' sich an der in 71A oder 71B dargestellten Stelle der Komponenten der Konturlinien des Kandidaten 132' befindet, die von der interaktiven Verbindungsschicht 123' ausgewählt wurden, wird die nach links oben geneigte Komponente von einem synaptischen Wichtungsmuster 130a' erfasst, die in der Gruppe synaptischer Wichtungsmuster 130 zum Er fassen einer Konturlinie enthalten ist. Außerdem wird die nach rechts oben geneigte Komponente von einem synaptischen Wichtungsmuster 131a' erfasst, das in der Gruppe synaptischer Wichtungsmuster 131' zum Detektieren einer Konturlinie enthalten ist. Von den Azimuten und Intensitäten der auf diese Weise erfassten geneigten Komponenten werden der Azimut und die Intensität einer nach links oben geneigten Komponente in der Azimutvektor-Detektorschicht 125a' erfasst. Außerdem werden Azimut und Intensität der nach rechts oben geneigten Komponente in der Azimutvektor-Detektorschicht 125b' erfasst. Im Anschluss daran wird in der Azimutvektor-Zusammensetzungsschicht 126' aus den Azimuten und den Intensitäten, die von den Schichten 125a' und 125b' erfasst wurden, ein Azimutvektor zusammengesetzt. Information über den so zusammengesetzten Azimutvektor wird zu der Bewegungsvektor-Ausgabeschicht 127 übertragen und als Information über den Vektor der Bewegung des Betrachtungsfensters ausgegeben.
  • Die Vektoren für die Bewegung des Betrachtungsfensters, die in der Azimutvektor-Zusammensetzungsschicht 126 und 126' zusammengesetzt wurden, unterscheiden sich voneinander abhängig von den Umständen, unter denen der Mittelpunkt des Fensters platziert wird. Wie bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objekts kann allerdings, wenn die Ausgangsgrößen, die die beiden Typen von Vektoren für die Bewegung des Betrachtungsfensters repräsentieren, in gut ausgewogener Weise innerhalb der Vektorbewegungs-Ausgabeschicht 127 verwendet werden, das Fenster unabhängig von den Umständen, unter denen der Mittelpunkt des Fensters platziert wird, zu einer vorbestimmten Position bewegt werden.
  • Gleichzeitig mit der Berechnung des Vektors für die Bewegung des Betrachtungsfensters aus der Bewegung des Kandidaten und mit der Berechnung des Vektors für die Bewegung des Fensters aus der Konturlinie des Kandidaten wird außerdem ein Vektor für die Bewegung des Betrachtungsfensters aus der Farbe des Kandidaten berechnet.
  • 72 ist eine anschauliche Darstellung eines Beispiels eines neuronalen Netzwerks zum Extrahieren eines Kandidaten durch Bewegen des Mittelpunkts eines Betrachtungsfensters zum Mittelpunkt des Kandidaten für das vorbestimmte Objektbild dieser Ausfüh rungsform. Das in 72 gezeigte neuronale Netzwerk wird gebildet durch eine Mehrzahl von Neuronenschichten. Insbesondere wird das neuronale Netzwerk gebildet durch eine Eingangsschicht 150 zum Ausschneiden eines Bilds, welches in die Zone eines Betrachtungsfensters vorbestimmter Größe füllt, aus einem gegebenen Bild 140. Das neuronale Netzwerk wird außerdem gebildet aus Schichten 151, 152 und 153 zum Erfassen von Zonen, die annäherungsweise farblich übereinstimmen mit dem Kandidaten innerhalb des ausgeschnittenen Bilds, und zum Detektieren des Übereinstimmungsmaßes in der Farbe zwischen den Zonen und dem Kandidaten, ferner durch eine interaktive Verbindungsschicht 154 zum Auswählen einer Farbzone mit vorbestimmter Größe und vorbestimmter Intensität. Darüber hinaus wird das neuronale Netzwerk gebildet durch eine Azimutvektor-Detektorschicht 155 zum Detektieren des Azimuts und der Entfernung der ausgewählten Farbzone, und eine Bewegungsvektor-Ausgabeschicht 156 zum Zusammensetzen eines Vektors aus dem detektierten Azimut und der detektierten Entfernung sowie zum Erzeugen eines Ausgangssignals entsprechend dem Vektor für die Bewegung des Betrachtungsfensters.
  • Insbesondere entspricht die Eingangsschicht 150 der a''-Schicht des in 43 gezeigten neuronalen Netzwerks zum Bestimmen des Vektors für die Bewegung des Betrachtungsfensters innerhalb der Komplex-Log-Abbildungsebene. Außerdem entsprechen die Schichten 151, 152 und 153 den c''-, d''- und e''-Schichten des neuronalen Netzwerks nach 43. Darüber hinaus entspricht die interaktive Verbindungsschicht 154 der f''-Schicht des in 43 gezeigten neuronalen Netzwerks. Außerdem entspricht die Azimutvektor-Detektorschicht 155 der g''-Schicht des neuronalen Netzwerks nach 43. Ferner entspricht die Bewegungsvektor-Ausgabeschicht 156 der i''-Schicht des in 43 gezeigten neuronalen Netzwerks.
  • Als erstes wird innerhalb der Eingangsschicht 150 ein Teil eines Bilds, das in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fällt, ausgeschnitten und aus der Außenumgebung entnommen. Information über das von der Eingangsschicht 150 aufgenommene Bild wird in die Schichten 151, 152 und 153 eingespeist, die Zonen erfassen, die farblich ungefähr übereinstimmen mit dem Kandidaten. Durch die Schichten 151, 152 und 153 werden die farblich annähernd mit dem Kandidaten übereinstimmenden Zone erfasst und die Grade der Übereinstimmung in der Farbe zwischen den erfassten Zonen und den Kandidaten werden ermittelt. Im Anschluss daran werden in der interaktiven Verbindungsschicht 154 Gruppen von Neuronen, die in die Zonen mit hohen Graden der farblichen Übereinstimmung mit dem Kandidaten ausgewählt. Danach werden Neuronen einer Gruppe, die in die Zone fällt, deren Form und Größe sich am besten für den Kandidaten eignet, aus den ausgewählten Gruppen von Neuronen ausgewählt, die in die Zonen fallen, die hohe Grade an farblicher Übereinstimmung mit dem Kandidaten aufweisen. In der interaktiven Verbindungsschicht 154 werden die Gewichte der interaktiven synaptischen Verbindungen zum Auswählen der Farbzone vorbestimmter Größe und vorbestimmter Intensität gemäß 73 eingestellt. Wie in 73 gezeigt ist, wird eine Gruppe synaptischer Gewichtsmuster 160 zum Erfassen einer Gruppe von Neuronen, die ein hohes Maß an farblicher Übereinstimmung mit dem Kandidaten aufweisen, derart eingestellt, dass der Bereich der Verbindungen in einer Zone näher am Mittelpunkt des Betrachtungsfensters enger werden kann. Mit der Gruppe synaptischer Wichtungsmuster 160 wird eine Gruppe von Neuronen erfasst, die ein hohes Maß an farblicher Übereinstimmung mit dem Kandidaten aufweisen. Anschließend wird aus dem Azimut und der Entfernung, die von der Azimutvektor-Detektorschicht 155 erfasst wurden, ein Azimutvektor zusammengesetzt. Information über den zusammengesetzten Azimutvektor wird zu der Bewegungsvektor-Ausgabeschicht 156 übertragen und als Information ausgegeben, die repräsentativ ist für den Vektor der Bewegung des Betrachtungsfensters.
  • In der oben beschriebenen Weise werden drei Typen von Vektoren für die Bewegung des Betrachtungsfensters aus dem neuronalen Netzwerk gewonnen, wobei der Vektor für die Bewegung des Fensters berechnet wird aus der Konturlinie des Kandidaten, aus dem neuronalen Netzwerk, bei dem der Vektor für die Bewegung des Betrachtungsfensters berechnet wird aus der Bewegung des Kandidaten, und aus dem neuronalen Netzwerk, bei dem der Vektor für die Bewegung des Betrachtungsfensters berechnet wird aus der Farbe des Kandidaten. Daran anschließend werden diese drei Typen von Vektoren für die Bewegung des Betrachtungsfensters miteinander in einer Weise kombiniert, die sich für den aufzufindenden Kandidaten eignet. Auf diese Weise wird schließlich ein Abschlussvektor für die Bewegung des Kandidaten bestimmt. Das Betrachtungsfenster wird entsprechend mit dem letztlich bestimmten Vektor für die Bewegung des Betrachtungsfensters dazu gebracht, sich in Richtung des Kandidaten für das vorbestimmte Objektbild zu bewegen.
  • Das Betrachtungsfenster wird dazu gebracht, in der in oben beschriebener Weise vorzurücken, und der Mittelpunkt des Betrachtungsfensters erreicht dann den Mittelpunkt des Kandidaten. Im Anschluss daran wird wie bei der oben beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds der Kandidat normiert und ausgeschnitten. Information über den ausgeschnittenen Kandidaten wird in die Beurteilungseinrichtung eingespeist, die eine Beurteilung dahingehend vornimmt, ob der Kandidat dem vorbestimmten Objektbild entspricht oder nicht.
  • Bei der oben beschriebenen dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds kann wie bei der ersten Ausführungsform der Annealing-Prozess oder dergleichen für das neuronale Netzwerk verwendet werden, um den Ausgangsgrößen der Neuronen thermische Schwankungen zu vermitteln und dadurch zu verhindern, dass das Betrachtungsfenster an einem winzigen Minimum innerhalb des Bildes anhält. In diesen Fällen kann die durch die Formel (7) dargestellte Kennlinie den Ausgangsgrößen der Neuronen der Neigungskomponenten-Extrahierschichten 124 und 124' des bei der dritten Ausführungsform verwendeten neuronalen Netzwerks vermittelt werden. Außerdem kann wie bei der ersten Ausführungsform die durch die Formel (8) dargestellte Kennlinie auf den Vektor für die Bewegung des Betrachtungsfensters angewendet werden, der aus der Bewegungsvektor-Ausgabeschicht 127 erhalten wurde. Damit kann der Trägheitsterm addiert werden, und so kann das Betrachtungsfenster daran gehindert werden, an einem kleinen Minimumpunkt anzuhalten.
  • Darüber hinaus kann bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds der Ermüdungsterm des neuronalen Netzwerks eingeführt werden, oder der Maskierprozess oder dergleichen kann so ausgeführt werden, dass der Kandidat nach seinem einmaligen Extrahieren nicht noch einmal extrahiert wird. Beispielsweise befindet sich die oben erläuterte retinale Neuronenschicht vor der Eingangs schicht des neuronalen Netzwerks der dritten Ausführungsform. Die durch die Formel (9) dargestellte Kenngröße wird den Neuronen der retinalen Neuronenschicht beigegeben. Wie in 74 dargestellt ist, wird ki(t) für solche Neuronen auf 1 gesetzt, die in eine Zone 123A der interaktiven Verbindungsschicht 123 dieser Ausführungsform fallen, wobei diese Zone der Seite im Inneren der Konturlinie des Kandidaten entspricht. Diese Konturlinie ist in der interaktiven Verbindungsschicht 123 betont worden. Außerdem wird ki(t) für solche Neuronen auf 0 gesetzt, die in eine Zone der interaktiven Verbindungsschicht 123 fallen, die sich auf der Seite außerhalb der Konturlinie für den Kandidaten befinden, welche in der interaktiven Verbindungsschicht 123 betont wurde. Auf diese Weise sammelt sich die Ermüdung nur in den Neuronen einer retinalen Neuronenschicht 161 an, die in eine Zone 162A entsprechend der Seite im Inneren des Gesichtsbilds fallen, welches als Kandidat fungiert. Entsprechend der Formel (9) ermüden also solche Neuronen, die in die Zone außerhalb des Kandidaten fallen, nicht, und die Eingänge dieser Neuronen können direkt als Ausgangsgrößen abgenommen werden. Allerdings sammeln diejenigen Neuronen, die in die Zone innerhalb des Kandidaten fallen, ihre Müdigkeit an. Wenn daher die auf die Seite innerhalb des Kandidaten fallenden Neuronen Eingangssignale empfangen, reduzieren sich die Ausgangswerte dieser Neuronen aufgrund des erwähnten Ermüdungsterms. Aufgrund der Verringerung der Ausgangsgrößen werden Signale von Neuronen entsprechend der Zone im Inneren eines Kandidaten nicht von der retinalen Neuronenschicht 161 in die nächste Schicht übertragen. Aus diesem Grund kann das Betrachtungsfenster zu einem nächsten Kandidaten wandern, und der nächste Kandidat kann dadurch extrahiert werden. Was die oben angesprochene Ermüdung angeht, wiederholt durch geeignete Einstellung der Werte von ki(t) und tf in solchen Fällen, in denen ein gewisses Neuron ständig ein Eingangssignal empfängt, der Ausgang dieses Neurons eine Zunahme und eine Abnahme im Verlauf der Zeit. Wenn der Wert tf auf Unendlich eingestellt wird, wird ein bereits einmal angeregtes Neuron nicht noch einmal angeregt, und deshalb wird nicht noch einmal ein bereits extrahierter Kandidat extrahiert.
  • Wie bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens können der Eingangs-Ausgangs-Transferkennlinie der Neuronen der Neigungskomponenten-Extrahierschicht 124 und 124' durch Anwendung des Annealing-Prozesses thermische Schwankungen beigegeben werden, oder es kann der Ermüdungsterm in die retinalen Neuronenschichten eingebracht werden. Auf diese Weise kann das Betrachtungsfenster veranlasst werden, aus dem Anhaltezustand heraus erneut in eine vorbestimmte Richtung zu wandern.
  • Wie bei der zweiten Ausführungsform des erfindungsgemäßen Verfahrens können die Vektoren für die Bewegung des Betrachtungsfensters, die bei der dritten Ausführungsform ermittelt werden, als Gradientenvektoren des Potentialfelds aufgefasst werden, und dadurch lässt sich eine Karte des Potentialfelds erstellen. Der Kandidat kann dann entsprechend dem Minimum innerhalb der Karte extrahiert werden.
  • Be den obigen Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds wird ein Kandidat extrahiert, und dann wird beurteilt, ob der extrahierte Kandidat dem vorbestimmten Objektbild entspricht oder nicht. Alternativ kann nach dem Extrahieren eines Kandidaten dieser extrahierte Kandidat als das vorbestimmte Objektbild angenommen und während der Lernoperationen des neuronalen Netzwerks verwendet werden. Der Kandidat wurde normalisiert und besitzt eine starke Wahrscheinlichkeit dafür, dass er das vorbestimmte Objektbild ist. Deshalb lassen sich die Lernvorgänge des neuronalen Netzwerks effizient durchführen.
  • Außerdem werden bei den obigen Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds neuronale Netzwerke verwendet, um den Kandidaten zu extrahieren. Die neuronalen Netzwerke brauchen aber nicht notwendigerweise eingesetzt werden, zum Erreichen des Zwecks kann auch jede andere geeignete Methode verwendet werden.
  • Bei den oben beschriebenen Ausführungsformen, bei denen der Vektor für die Bewegung des Betrachtungsfensters oder der Gradientenvektor des Potentialfelds (diese beiden Typen von Vektoren werden im folgenden als Vektor für die Bewegung des Betrachtungsfensters oder ähnlich bezeichnet) aus der Bewegung des Kandidaten berechnet wird, wird eine in der Ebene parallele Bewegung des Bilds in der kartesischen Ebene erfasst. Außer dem wird die Bewegung in der radialen Richtung oder in Drehrichtung innerhalb der Ebene erfasst, nachdem das Bild mit der Komplex-Log-Abbildung transformiert wurde. Allerdings braucht diese Transformation nicht notwendigerweise während des Detektierens der Bildbewegung ausgeführt zu werden, die Bildbewegung kann in der kartesischen Ebene erfasst werden. Außerdem kann die zur Ebene parallele Bewegung des Bilds erfasst werden, nachdem das Bild mit der Komplex-Log-Abbildung transformiert wurde. Außerdem wird bei den obigen Ausführungsformen, bei denen der Vektor für die Bewegung des Betrachtungsfensters und dergleichen aus der Kandidatenbewegung errechnet wird, eine Menge von drei Typen von Bildbewegungen in der Richtung parallel zur Ebene, in radialer Richtung und in Drehrichtung innerhalb der Ebene erfasst. In solchen Fällen, in denen die Bildbewegung konstant ist (zum Beispiel dann, wenn sich das Bild nur in einer Richtung parallel zur Ebene bewegt), ausschließlich ein Bewegungstyp erfasst werden (beispielsweise nur eine Bewegung parallel zur Ebene).
  • Außerdem werden bei den obigen Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds neuronale Netzwerke für sämtliche Schritte verwendet, beginnend beim Ausschneiden des Bildteils, der in das Innere der Zone innerhalb des Betrachtungsfensters fällt, bis hin zu dem Vorrücken (Bewegen) des Betrachtungsfensters. Außerdem werden neuronale Netzwerke verwendet für den Prozess zum Verhindern einer erneuten Extraktion desselben Kandidaten, für das Hinzufügen thermischer Schwankungen und für das Einbringen des Ermüdungsterms. Allerdings brauchen die neuronalen Netzwerke nicht notwendigerweise für sämtliche Schritte eingesetzt zu werden, ein neuronales Netzwerk kann auch in mindestens einem Schritt während der Extraktion des Objektbilds benutzt werden. Außerdem kann das Ausschneiden des Kandidaten unter Einsatz eines neuronalen Netzwerks vorgenommen werden.
  • Darüber hinaus wird bei den obigen Ausführungsformen des erfindungsgemäßen Extrahierverfahrens das Bild eines menschlichen Gesichts oder das Bild einer Yacht extrahiert. Das Verfahren ist natürlich auch anwendbar, wenn andere Typen vorbestimmter Objektbilder zu extrahieren sind. In solchen Fällen kann jedes beliebige Objektbild effizient in der gleichen Weise extrahiert werden, wie dies bei dem Bild des menschlichen Gesichts oder dem Bild der Yacht mit Hilfe eines neuronalen Netzwerks und beim Ausführen der Lernoperationen des neuronalen Netzwerks in einer für das zu extrahierende Objektbild geeigneten Weise geschieht.
  • Außerdem ist das erfindungsgemäße Verfahren zum Extrahieren eines Objektbilds nicht nur dann anwendbar, wenn ein Kandidat aus einem stehenden Bild extrahiert wird, in dem beispielsweise ein Bild eines menschlichen Gesichts eingebettet ist, sondern auch dann, wenn einem beweglichen Kandidat gefolgt wird. In diesen Fällen kann das Betrachtungsfenster veranlasst werden, wie bei den obigen Ausführungsformen vorzurücken, und man kann dem beweglichen Kandidaten auf diese Weise folgen. Im Anschluss daran kann der Kandidat extrahiert werden, und es kann eine Beurteilung dahingehend erfolgen, ob der bewegliche Kandidat dem vorbestimmten Objektbild entspricht oder nicht.
  • Außerdem wird bei den obigen Ausführungsformen des Verfahrens zum Extrahieren eines Objektbilds gemäß der Erfindung der letztlich ermittelte Vektor für die Bewegung des Betrachtungsfensters oder dergleichen dadurch ermittelt, dass die drei Typen von Vektoren für die Bewegung des Betrachtungsfensters, die aus den drei Merkmalstypen, nämlich der Bewegung, der Konturlinie und der Farbe des Kandidaten errechnet wurden, zusammengesetzt werden. Alternativ lässt sich der Vektor für die Bewegung des Betrachtungsfensters anhand der Konturlinie und der Farbe des Kandidaten bestimmen. Als weitere Alternative kann der Vektor für die Bewegung des Betrachtungsfensters bestimmt werden aus der Bewegung und der Konturlinie des Kandidaten. Als eine weitere Alternative kann der Vektor für die Bewegung des Betrachtungsfensters ermittelt werden aus der Bewegung und der Farbe des Kandidaten. Als letzte Alternative kann der Vektor für die Bewegung des Betrachtungsfensters aus lediglich der Bewegung, der Konturlinie oder der Farbe des Kandidaten ermittelt werden.
  • Außerdem werden ei den obigen Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds der Prozess zum Verhindern einer Neu-Extraktion, das Einführen des Ermüdungsterms, das Hinzufügen von thermischen Schwankungen und dergleichen nur auf dem neuronalen Netzwerk zum Bestimmen des Vektors für die Be wegung des Fensters entsprechend der Konturlinie des Kandidaten durchgeführt. Der Prozess zum Verhindern einer Neu-Extraktion, das Einführen des Ermüdungsterms und das Hinzufügen thermischer Schwankungen und dergleichen können auch auf dem neuronalen Netzwerk zum Bestimmen des Vektors für die Bewegung des Betrachtungsfensters entsprechend der Farbe des Kandidaten und dem neuronalen Netzwerk zum Bestimmen des Vektors für die Bewegung des Betrachtungsfensters abhängig von der Bewegung des Kandidaten ausgeführt werden.
  • Im folgenden wird eine Ausführungsform des Verfahrens zum Detektieren eines Gradienten eines Konturlinienfelds gemäß der Erfindung beschrieben.
  • 75 ist ein Blockdiagramm, das ein Grundkonzept darstellt, welches hinter dem Verfahren zum Detektieren eines Gradienten eines Konturlinienfelds gemäß der Erfindung steht.
  • Wie in 75 dargestellt ist, wird diese Ausführungsform gebildet aus einer neuronalen Netzwerk-Verarbeitungseinheit 163, in der mit einem neuronalen Netzwerk ein Gradientenvektor eines Konturlinienfelds erfasst wird.
  • Zunächst wird im Schritt A in dem neuronalen Netzwerk-Verarbeitungsteil 163 die Lage des Mittelpunkts des Betrachtungsfensters in einem Bild eingerichtet, und ein Teil des Bilds, der in die Zone innerhalb des Fensters fällt, wird aus dem Bild entnommen. Danach wird in einem Schritt B, falls mehrere Objektbilder in dem entnommenen Bild enthalten sind, die Bilder verkleinert, und ein Objektbild, welches am wahrscheinlichsten dem vorbestimmten Objektbild entspricht, wird auf diese Weise ausgewählt. In einem Schritt C wird eine Lageverschiebung zwischen dem Betrachtungsfenster und dem vorbestimmten Objektbild erfasst, und das Ausmaß, in welchem das Betrachtungsfenster vorrücken soll, wird berechnet. Insbesondere wird im Schritt C der Gradientenvektor des Konturlinienfelds berechnet.
  • Das in der Verarbeitungseinheit 163 verwendete neuronale Netzwerk kann in der gleichen Weise aufgebaut sein wie das Netzwerk, das in 28 dargestellt ist und den Bewegungsvektor für das Betrachtungsfenster aus der Konturlinie des Kandidaten berechnet. Bei dieser Ausführungsform des Verfahrens zum Erfassen eines Gradienten eines Konturlinienfelds gemäß der Erfindung wird der Gradientenvektor für das Konturlinienfeld dadurch berechnet, dass ein Vektor zusammengesetzt wird aus den Azimutvektoren, die in der h1- und h2-Schicht des neuronalen Netzwerks nach 28 erfasst werden. In derartigen Fällen repräsentieren Betrag und Richtung des erwähnten Vektors für die Bewegung des Betrachtungsfensters den Betrag und die Richtung des Gradientenvektors für das Konturlinienfeld.
  • Alternativ kann der Gradientenvektor für das Konturlinienfeld unter Verwendung des neuronalen Netzwerks bestimmt werden, welches in 65 gezeigt ist, und den Vektor für die Bewegung des Fensters in der kartesischen Ebene erfasst.
  • In solchen Fällen, in denen der Gradientenvektor des Konturlinienfelds als Vektor für die Bewegung des Betrachtungsfensters aufgefasst wird, kann letzteres dazu gebracht werden, in der gleichen Weise zum Mittelpunkt des Objektbilds zu wandern, wie bei der Ausführungsform, die bereits beschrieben wurde. In solchen Fällen, in denen der Gradientenvektor des Konturlinienfelds als Gradientenvektor des Potentialfelds aufgefasst wird, lässt sich in der oben beschriebenen Weise eine Karte des Potentialfelds erstellen.
  • Es ist außerdem möglich, den Schwerpunkt auf dem Objektbild durch geeignete Zusammensetzung eines Vektors aus den erwähnten Azimutvektoren aufzufinden, um auf diese Weise den Gradientenvektor des Konturlinienfelds zu berechnen.
  • Wenn außerdem der Gradient eines Felds, der den Gradientenvektor des Konturlinienfelds senkrecht schneidet, berechnet wird, lässt sich die Richtung entlang der Konturlinie des Objektbilds erkennen, und dadurch lässt sich das Betrachtungsfenster dazu bringen, entlang der Konturlinie des Objektbilds zu wandern.
  • Wenn außerdem ein Teil des Bilds, bei dem der Gradientenvektor des Konturlinienfelds groß ist, oder wenn Information über die Richtung vorhanden ist, in die das Feld absinkt, lässt sich ausschließlich die effektive Information selektiv erfassen, und dadurch lässt sich die Bildinformation komprimieren.
  • Speziell in solchen Fällen, in denen das Konturlinienfeld die Form eines kegelförmigen Felds annimmt, so dass das Feld zum Mittelpunkt des Objektbilds, das von der Konturlinie umgeben ist, absinken kann, lässt sich die Bildinformation komprimieren, während de Information über die Seite im Inneren der Konturlinie auf einem hohen Qualitätswert gehalten wird. In den Fällen, in denen das Konturlinienfeld derart beschaffen ist, dass es zu der Stelle der Konturlinie selbst abfällt, lässt sich die Bildinformation komprimieren, während die Konturlinieninformation Priorität erhält.
  • An einem Bereich des Bilds, bei dem das Konturlinienfeld keinen Gradienten bildet, gibt es keine wichtige Konturlinieninformation, die einen Feld-Gradienten liefert. An einem Teil des Bilds, an welchem das Konturlinienfeld einen starken Gradienten liefert, gibt es wichtige Konturlinieninformation, die den starken Feldgradienten liefert. Deshalb kann die Kompression der Bildinformation in der oben beschriebenen Weise durchgeführt werden. Die Richtung, in welcher das Feld absinkt, gibt die Seite innerhalb der Konturlinien an. Im allgemeinen wird die Seite innerhalb der Konturlinie als die „Oberfläche" oder ähnlich bezeichnet, die Seite außerhalb der Konturlinie wird als „Boden" oder ähnlich bezeichnet. Die „Oberfläche" wird als Ziel betrachtet, der „Boden" als Hintergrund. In den meisten Fällen ist die Seite im Inneren der Konturlinie wichtiger als die Seite außerhalb der Konturlinie. Deshalb sollte daran gedacht werden, dass die Information über den Teil, bei dem das Feld einen Gradienten hat, und die Information entsprechend der Stelle in der Richtung, in der das Feld absinkt, wichtig und effektiv sind. Wenn zum Beispiel die Bildinformation komprimiert wird, kann auf diese Weise die Qualität der ausgewählten wichtigen Information auf einem hohen Wert gehalten werden.
  • Der Vektor für die Bewegung des Betrachtungsfensters, der bestimmt wird aus der Farbe des Kandidaten in der oben beschriebenen Weise, kann als Gradientenvektor eines Ob jektbild-Farbfelds erfasst werden. In diesen Fällen kann ähnlich wie der Gradientenvektor des Konturlinienfelds der Gradientenvektor des Objektbild-Farbfelds in einer großen Vielfalt von Bildprozessen eingesetzt werden.
  • Außerdem kann die Bewegung des Bilds, die durch das neuronale Netzwerk nach 4 bestimmt wird, als Bildbewegungsvektor erfasst werden. In diesen Fällen kann ähnlich wie der Gradientenvektor des Konturlinienfelds und der Gradientenvektor des Farbfelds der Bildbewegungsvektor in einer Vielfalt von Bildprozessen eingesetzt werden.
  • Im folgenden werden Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds beschrieben.
  • 76 ist ein Blockdiagramm eines grundlegenden Konzepts, welches hinter dem Verfahren zum Extrahieren einer Konturlinie eines Objektbilds gemäß der Erfindung steht. Bei den im folgenden beschriebenen Ausführungsbeispielen wird eine Konturlinie eines Bilds eines menschlichen Gesichts, welches als Kandidat für ein vorbestimmtes Objektbild fungiert, mit Hilfe eines neuronalen Netzwerks aus einem Bild extrahiert.
  • Wie in 76 gezeigt ist, ist jede der Ausführungsformen gebildet aus einer neuronalen Netzwerkverarbeitungseinheit 174, in der der Kandidat unter Verwendung eines neuronalen Netzwerks und durch Iterieren des Vorrückens eines Betrachtungsfensters gesucht wird.
  • Als erstes wird in einem Schritt A der neuronalen Netzwerkverarbeitungseinheit 174 die Lage des Mittelpunkts eines Betrachtungsfensters in einem Bild eingerichtet, und ein Teil des Bilds, der in das Betrachtungsfenster fällt, wird aus dem Bild herausgegriffen. Im Anschluss daran werden in solchen Fällen, in denen mehrere Konturlinien des Kandidaten in dem herausgegriffenen Bild erkannt wurden, diese Linien verengt, und es wird eine Konturlinie ausgewählt, die am wahrscheinlichsten die Konturlinie des Kandidaten ist.
  • 77 ist eine anschauliche Darstellung eines Beispiels eines neuronalen Netzwerks, welches die oben angesprochenen Funktionen hat und in einer ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds verwendet wird.
  • Ein Signal, welches einen Teil eines Bilds der Außenwelt repräsentiert und welches durch das Betrachtungsfenster vorbestimmter Größe erhalten wird, wird in das neuronale Netzwerk eingespeist. Außerdem repräsentiert das von dem neuronalen Netzwerk erhaltene Ausgangssignal eine Konturlinie eines Kandidaten, der in das eingegebene Bild eingebettet ist.
  • Der grundlegende Aufbau des neuronalen Netzwerks dieser Ausführungsform ist der geschichtete oder Schichttyp. Allerdings sind die Neuronen in sowohl der e1- als auch der e2-Schicht miteinander interaktiv gekoppelt. Deshalb kann das neuronale Netzwerk auch als Komplex-Typ aufgefasst werden. Ferner ist in einem Rückwärtsausbreitungsmodell, welches als Schichttyp allgemein akzeptiert wird, jedes Neuron jeder Schicht mit jedem Neuron in der Nachbarschicht gekoppelt. Im Gegensatz zu dem Rückwärtsausbreitungsmodell ist das bei dieser Ausführungsform verwendete neuronale Netzwerk ein Netzwerk vom Typ lokalen Gebiets mit beschränkter Verbindung, bei dem die Verbindungen nur zwischen solchen Neuronen, die sich an den entsprechenden Stellen in Nachbarschichten befinden, wirksam sind, oder aber zwischen den Neuronen, die sich in der Nähe dieser entsprechenden Neuronen befinden. Deshalb lässt sich die Anzahl von Synapsen zwischen den Schichten deutlich reduzieren, und die Verarbeitungszeit kann gering gehalten werden. Darüber hinaus werden die Verbindungen zwischen den Neuronen in jeder interaktiven Verbindungsschicht nur zwischen solchen Neuronen bewirkt, deren Stellen eng benachbart sind. Eine solche auf einen lokalen Bereich beschränkte Verbindungsstruktur ist ähnlich der Struktur eines Nervenschaltkreises, der von der Netzhaut des menschlichen Auges zu dem primären Sehbereich des menschlichen Gehirns führt.
  • Die Schichten des neuronalen Netzwerks bei dieser Ausführungsform haben die im folgenden beschriebenen Funktionen. Dieses neuronale Netzwerk ist aufgeteilt in zwei Stu fen A und B, wie aus 76 hervorgeht. Wie oben beschrieben, wird in der Stufe A die Lage des Mittelpunkts des Betrachtungsfensters in dem Bild eingestellt, und ein Teil des Bilds innerhalb des Betrachtungsfensters wird herausgegriffen. Schritt A wird durch die a-Schicht realisiert, die mit dem Betrachtungsfenster vorbestimmter Größe ausgestattet ist. In dieser Schicht wird das Bild mit der Größe des Betrachtungsfensters ausgeschnitten und in das neuronale Netzwerk eingespeist, außerdem dient eine b-Schicht zum Transformieren des eingegebenen Bilds mit Hilfe der Komplex-Log-Abbildung (eine logarithmische Polarkoordinaten-Transformation). Der Schritt B zum Verengen von Konturlinien eines Kandidaten gegenüber dem eingegebenen Bild wird realisiert durch eine c1-Schicht zum Erfassen von Linien des Kandidaten, die sich in ringförmiger oder Umfangsrichtung erstrecken, und eine c2-Schicht zum Erfassen von Linien des Kandidaten, die sich in radialer Richtung erstrecken. Der Schritt B wird außerdem gebildet durch eine d-Schicht zum Detektieren der Endpunkte der Linien in radialer Richtung, die e1-Schicht als interaktive Verbindungsschicht zum Auswählen einer sich in Umfangsrichtung erstreckenden Linie, und die e2-Schicht als interaktive Verbindungsschicht zum Auswählen einer sich in radialer Richtung erstreckenden Linie.
  • Das bei dieser Ausführungsform verwendete neuronale Netzwerk ist identisch mit dem in 38 gezeigten neuronalen Netzwerk bezüglich der a-Schicht bis zu den e1- und e2-Schichten, und es wird bei der Ausführungsform des Verfahrens zum Extrahieren eines Objektbilds gemäß der Erfindung eingesetzt.
  • Bei dieser Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie werden das Wettstreiten und die Kooperation in den e1- und e2-Schichten iteriert, und es wird eine Konturlinie für den Kandidaten auf diese Weise gebildet. Die gebildete Konturlinie wird dann normiert und extrahiert.
  • Im folgenden soll beschrieben werden, wie die Konturlinie des Kandidaten normiert wird.
  • Im folgenden wird beschrieben, wie die Konturlinie des Kandidaten, die durch die e1-Schicht ausgewählt wird, normiert wird. In den in den 78A und 78B dargestellten Fällen stimmen der Mittelpunkt O des Betrachtungsfensters und der Mittelpunkt des Kandidaten miteinander überein. Insbesondere fallen der Mittelpunkt O des Betrachtungsfensters und der Mittelpunkt eines kleinen Bilds 166 eines menschlichen Gesichts oder eines großen Bilds 167 eines menschlichen Gesichts, welches als Kandidat für das vorbestimmte Objektbild fungiert, zusammen. In diesen Fällen werden, wie in den rechten Teilen in 78A und 78B dargestellt ist, mit Hilfe der Komplex-Log-Abbildung die Konturlinien des kleinen Gesichtsbilds 166 und des großen Gesichtsbilds 167 in Geraden 166' und 167' transformiert, die von dem Mittelpunkt des Betrachtungsfensters Abstände R1 bzw. R2 haben. Die Normierung erfolgt dadurch, dass die Abstände R1 und R2 einander gleich gemacht werden. Zu diesem Zweck wird der im folgenden beschriebene Prozess ausgeführt.
  • 79 ist eine anschauliche Darstellung, wie die Normierung bei dieser Ausführungsform stattfindet.
  • Wie in 79 gezeigt ist, werden in solchen Fällen, in denen der Mittelpunkt des Betrachtungsfensters und der Mittelpunkt des kreisförmigen Gesichtsbilds miteinander übereinstimmen, Neuronen 170 der e1-Schicht angeregt, die sich in der Umfangsrichtung in etwa gleichen Abständen vom Mittelpunkt des Betrachtungsfensters befinden. Entlang jeder der Reihen des Feldes von Neuronen der e0-Schicht, welche Reihen regelmäßig Seite an Seite in radialer Richtung angeordnet sind, werden die Ausgangsgrößen der in Umfangsrichtung angeordneten Neuronen durch synaptische Verbindungen 171 aufaddiert. Im Ergebnis generiert von den Neuronen 172, die die Additionssummen repräsentieren, nur das Neuron 173, welches vom Mittelpunkt des Betrachtungsfensters einen Abstand Rθ besitzt, ein Ausgangssignal. Der Abstand Rθ repräsentiert den Abstand vom Mittelpunkt des Gesichtsbilds bis zu der Konturlinie. Der Abstand Rθ wird auf die Komplex-Log-Abbildung invers zu einem Abstand ln–1Rθ transformiert. Ein Expansions- und Kontraktionsfaktor k (= L/Rθ) wird dann ermittelt, mit welchem der Abstand ln–1Rθ, der aus der zu der Komplex-Log-Abbildung inversen Transformation gewonnen wird, kann auf einen vorbestimmten Wert L normiert werden. Wenn die Konturlinie des Gesichtsbilds als Kandidat in der kartesischen Ebene extrahiert wird, so erfolgt die Extraktion in der Weise, dass die Konturlinien der Gesichtsbilder unterschiedlicher Größen annähernd gleiche Größe entsprechend dem Expansions- und Kontraktionsfaktor k annehmen.
  • Die Form eines menschlichen Gesichts variiert bei verschiedenen Personen. Wie in 80 gezeigt ist, wird in solchen Fällen, in denen der Mittelpunkt O des Betrachtungsfensters mit dem Mittelpunkt eines länglichen elliptischen Gesichtsbilds 175 übereinstimmt, die Konturlinie des länglichen Gesichtsbilds 175 mit der Komplex-Log-Abbildung in eine Kurve 175' transformiert. Der Abstand zwischen dem Mittelpunkt des Betrachtungsfensters und der Kurve 175 variiert entsprechend dem Winkel zu der Umfangsrichtung (in diesem Beispiel ist der Maximalwert R3, der Minimalwert R4). In diesen Fällen lässt sich ein Expansions- und Kontraktionsfaktor k (= L/Rθ), mit welchem der Abstand ln–1Rθ aus der zu der Komplex-Log-Abbildung inversen Transformation erhalten wurde, für jeden Winkel bezüglich der Umfangsrichtung aufgefunden. Wenn die Konturlinie des länglichen Gesichtsbilds 175 in der kartesischen Ebene extrahiert wird, erfolgt das Extrahieren in der Weise, dass Konturlinien von menschlichen Gesichtsbildern unterschiedlicher Formen und Größen nahezu die gleiche Form und nahezu die gleiche Größe erhalten, entsprechend dem Expansions- und Kontraktionsfaktor k für jeden Winkel.
  • Im folgenden soll beschrieben werden, wie die Normierung in den Fällen erfolgt, in denen den Ausgangswerten der e2-Schicht Bedeutung zugemessen wird. Wie in 81A gezeigt ist, stimmen in diesem Fall der Mittelpunkt O des Betrachtungsfensters 181 und ein Schnittpunkt T von Konturlinien eines Kandidaten 180 miteinander überein. Der Schnittpunkt T der Konturlinien bildet einen Teil des Kandidaten 180. Um diesen Teil zu extrahieren, ist Information über die Größe des gesamten Kandidaten 180 erforderlich. Deshalb wird die Gewichtung der Ausgangswert-Zusammensetzung vorübergehend so geändert, dass Bedeutung auf die Ausgangssignale der e1-Schicht gegeben wird und das Betrachtungsfenster hierdurch veranlasst wird, soweit zu wandern, bis sein Mittelpunkt O mit dem Mittelpunkt des Kandidaten 180 übereinstimmt.
  • Dabei befindet sich der Mittelpunkt O des Betrachtungsfensters bereits an einem Teil der Konturlinien des Kandidaten 180. Wenn daher der Kandidat 180 eine Größe aufweist, die vollständig im Betrachtungsfenster 181 Platz findet, lässt sich das Fenster 181 zuverlässig durch Suche dazu bringen, zum Mittelpunkt des Kandidaten 180 zu wandern.
  • Wie allerdings in 81A gezeigt ist, kann, wenn die Größe des Kandidaten 180 größer ist als das Betrachtungsfenster 181, der Mittelpunkt O des Betrachtungsfensters 181 nicht zum Mittelpunkt des Kandidaten 180 gelangen. Ob der Mittelpunkt des Fensters exakt zum Mittelpunkt des Kandidaten gelangen kann, lässt sich dadurch erfahren, dass die Anregungszustände der Neuronen der e1-Schicht untersucht werden. Wie in 81A gezeigt ist, wird in solchen Fällen, in denen kein Neuron oberhalb eines vorbestimmten Schwellenwerts in der e1-Schicht angeregt wird, beurteilt, dass der gesamte Kandidat 180 größer als das Betrachtungsfenster 181 ist. In diesem Fall kann ein Signal zum Vergrößern der Zone des Bilds der Außenwelt, welches Bild von der a-Schicht ausgeschnitten wird, das heißt das Betrachtungsfenster 181, derart in die a-Schicht eingespeist werden, dass der gesamte Kandidat 180 in dem Bereich innerhalb des Betrachtungsfensters 181 Platz findet. Wie in 81B gezeigt ist, werden in solchen Fällen, in denen der gesamte Kandidat 180 in der Zone im Inneren des vergrößerten Betrachtungsfensters 181' Platz findet, die Neuronen der e1-Schicht angeregt, und der Mittelpunkt des Betrachtungsfensters 181' kann zum Mittelpunkt des Kandidaten 180 wandern. Auf diese Weise kann gemäß 81C das neuronale Netzwerk den Mittelpunkt O des Betrachtungsfensters 181 dazu bringen, zu dem Mittelpunkt des Kandidaten 180 vorzurücken.
  • Danach wird in der oben beschriebenen Weise die Größe R5 des Kandidaten 180 berechnet aus dem Abstand zwischen dem Mittelpunkt O des Fensters 181 und der in Umfangsrichtung verlaufenden Konturlinie. Danach wird gemäß 81D der Mittelpunkt O des Fensters auf den Schnittpunkt T der Konturlinien zurückgestellt, welcher Punkt zuvor aufgefunden wurde. Eine Zone, die ihren Mittelpunkt an dem Schnittpunkt T der Konturlinien hat und ein vorbestimmtes Größenverhältnis zur Größe des gesamten Kandidaten 180 besitzt, (bei diesem Beispiel ist es die Zone mit einem Radius k·ln–1R5 mit k als Expansions- und Kontraktionsfaktor) extrahiert.
  • In der oben beschriebenen Weise wird das die Konturlinie des Gesichtsbilds, das als Kandidat fungiert, repräsentierende Muster normiert und extrahiert.
  • Was die Extraktion der Konturlinie des Kandidaten in solchen Fällen angeht, in denen nur ein einzelner Kandidat in ein gegebenes Bild eingebettet ist, so kann die Konturlinie des Kandidaten direkt extrahiert werden. In einem in 82 dargestellten Bild 183 ist ein Bild 182 eines menschlichen Körpers in den Vordergrund eines Verkehrsschild-Bilds 184 eingebettet. Mit dem erfindungsgemäßen Verfahren zum Extrahieren einer Konturlinie können selbst dann, wenn sowohl die Konturlinie eines Gesichtsbilds 182a als auch die Konturlinie des Verkehrsschild-Bilds 184 als Konturlinie des Kandidaten zu extrahieren ist, die Konturlinie des Bilds 182a und die Konturlinie des Verkehrsschild-Bilds 184 unabhängig voneinander extrahiert werden. Im folgenden soll erläutert werden, wie eine derartige Extraktion vorgenommen wird.
  • Wie in 82 gezeigt ist, wandert der Mittelpunkt des Betrachtungsfensters von einem Punkt Q1 in Richtung des Mittelpunkts eines Gesichtsbilds 182a und hält schließlich am Mittelpunkt des Gesichtsbilds 182a an. In diesem Zustand verlaufen gemäß 83A zwei Konturlinien 182a' und 184' etwa in Umfangsrichtung, und sie werden in der e1-Schicht betont. Die Neuronen innerhalb der e1-Schicht sind interaktiv miteinander verknüpft, und die Gewichte ihrer Verbindungen sind durch die Formel (5) angegeben. Deshalb erfolgen Wettstreit und Kooperation zwischen der Konturlinie 182a' und der Konturlinie 184', und die Konturlinie 182a' des Gesichtsbilds, die eine stärkere Intensität hat als die Konturlinie 184' des Verkehrsschild-Bilds, sperrt und löscht die Konturlinie 184'. Im Ergebnis verbleibt gemäß 83B nur die Konturlinie 182a' des Gesichtsbilds ungelöscht. In diesem Zustand wird zunächst das in 82 dargestellte Gesichtsbild 182a extrahiert.
  • Den Neuronen der e1-Schicht werden die Kennwerte entsprechend der Formel (10) zugeordnet:
    Figure 01310001
    wobei oi(t) das Ausgangssignal eines i-Neurons zur Zeit t bedeutet, ii(t) das Eingangssignal von einer anderen Schicht zu dem i-Neuron zur Zeit t bedeutet, ij(t) das Eingangssignal zu einem j-Neuron in der e1-Schicht zur Zeit t ist, Wij die Gewichte der interaktiven Verbindung zwischen dem i-Neuron und dem j-Neuron in der e1-Schicht repräsentiert, ki eine passende positive Zahl ist und tf eine geeignete positive Zahl ist.
  • In der Formel (10) repräsentiert der Integralterm den Term der Ansammlung der Ermüdung. Durch den Integralterm werden Ausgangsgrößen eines gewissen Neurons, die innerhalb einer vorbestimmten Zeitpanne erzeugt werden, die zurückgeht um die Zeit tf ausgehend von der Zeit t, zeitlich integriert. Der Wert für ki wird für Neuronen der e1-Schicht, die der Konturlinie 182a' des in 83B gezeigten Gesichtsbild entsprechen, auf 1 gesetzt. Der Wert von ki wird für Neuronen, die anderen Bereichen entsprechen, auf 0 gesetzt. Auf diese Weise wird die Ermüdung nur für Neuronen angesammelt, die der Konturlinie 182a' des Gesichtsbilds entsprechen. Insbesondere werden gemäß Formel (10) die Neuronen, die anderen Zonen als der der Konturlinie 182a des Gesichtsbilds entsprechen, nicht ermüdet, und die Eingangsgrößen dieser Neuronen können direkt als deren Ausgangssignale abgegriffen werden. Allerdings sammeln die Neuronen, die der Konturlinie 182a' des Gesichtsbilds entsprechen, ihre Ermüdung an. Wenn daher die Neuronen, die der Konturlinie 182a' des Gesichtsbilds entsprechen, Eingangsgrößen empfangen, so verringern sich die Ausgangssignale dieser Neuronen aufgrund des erwähnten Ermüdungsterms. Aufgrund der Verringerung der Ausgangssignale verschwinden gemäß 83c die Ausgangssignale derjenigen Neuronen, die der Konturlinie 182a' des Gesichtsbilds entsprechen. Wie in 83D dargestellt ist, erzeugen daher die Neuronen, die der Konturlinie 184' des Verkehrsschild-Bilds entsprechen, welche Linie von der Konturlinie 182a' des Gesichtsbilds gesperrt wurde, erneut ihre Ausgangsgrößen. In dem in 83D dargestellten Zustand wird die Konturlinie des in 82 gezeigten Verkehrsschild-Bilds 184 extrahiert.
  • Im Verlauf der Zeit sammeln in der gleichen Weise wie die Neuronen entsprechend der Konturlinie 182a' des Gesichtsbilds die der Konturlinie 184' des Verkehrsschild-Bilds entsprechende Neuronen ebenfalls ihre Ermüdung an und zeigen eine Verringerung ihrer Ausgangsgrößen. Außerdem erzeugen die der Konturlinie 182a' des Gesichtsbilds entsprechenden Neuronen erneut ihre Ausgangssignale. Bei dieser Ausführungsform wird abhängig von den Werten ki und tf in der Formel (10) die Erzeugung der Ausgangssignale der Neuronen entsprechend der Konturlinien 182a' des Gesichtsbilds und die Erzeugung der Ausgangssignale der Neuronen entsprechend der Konturlinie 184' des Verkehrsschild-Bilds abwechselnd wiederholt. Wenn der Wert von tf in der Formel (10) auf Unendlich gesetzt wird, wird ein Neuron, welches einmal angeregt wurde, nicht noch einmal angeregt, und deshalb wird die Konturlinie desselben Kandidaten, der bereits einmal extrahiert wurde, nicht noch einmal extrahiert.
  • Im folgenden wird eine zweite Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie erläutert.
  • 84 ist eine anschauliche Darstellung eines neuronalen Netzwerks zum Durchführen der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds.
  • Bei der zweiten Ausführungsform des Verfahrens wird in einer a-Schicht ein in die Zone des Betrachtungsfensters fallendes Bild ausgeschnitten. In einer b-Schicht wird das ausgeschnittene Bild mit Hilfe der Komplex-Log-Abbildung transformiert. Anschließend wird in jeder der c1- und c2-Schichten eine Faltung bezüglich der Komplex-Log-Abbildungen aus der b-Schicht mit Hilfe mehrerer synaptischer Wichtungsmuster zum Erfassen von Konturlinien, die stufenweise unterschiedliche Größen besitzen, ausgeführt. Auf diese Weise erfolgt die Erfassung einer Gruppe von Linien mit jedem der synaptischen Wichtungsmuster. Im Anschluss daran werden in den e1- und e2-Schichten Faltungen bezüglich der jeweiligen Gruppen von Linien durchgeführt, die mit den synaptischen Wichtungsmustern zum Detektieren von Konturlinien erfasst wurden, unter Verwendung mehrerer synaptischer Wichtungsmuster für Wettstreit und Kooperation ausgeführt, wobei die Muster Größen aufweisen, die den Größen der synaptischen Wichtungsmuster zum Erfassen der Konturlinien entsprechen. Gruppen von Linien, die jeweils mit jedem der synaptischen Wichtungsmuster für Wettstreit und Kooperation betont wurden, werden dann dazu gebracht, miteinander in Wettstreit und in Zusammenarbeit zu treten. Die Linien werden auf diese Weise entweder betont (hervorgehoben) oder gelöscht, und dadurch wird die Konturlinie des Kandidaten extrahiert.
  • Bei der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie werden das Ausschneiden des Bilds in der a-Schicht und die Transformation durch Komplex-Log-Abbildung in der b-Schicht in der gleichen Weise ausgeführt wie bei der ersten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds. In der c1-Schicht werden Faltungen der Komplex-Log-Abbildung, die aus der b-Schicht erhalten wurde, unter Verwendung von drei Typen synaptischer Wichtungsmuster 191a, 191b und 191c zum Erfassen von Konturlinien durchgeführt, die in den 85A, 85B und 85C dargestellt sind und verschiedene Größen besitzen. Hierdurch werden Muster 192A, 192B und 192C erhalten, welche Linien repräsentieren, die entsprechend den Größen der synaptischen Wichtungsmuster 191a, 191b und 191c zum Erfassen von Konturlinien erfasst wurden. In den Fällen, in denen in dem Bild, welches in der a-Schicht ausgeschnitten wurde, beispielsweise das Bild des menschlichen Gesichts eingebettet ist, enthalten die Linien, die durch die synaptischen Wichtungsmuster 191a zum Detektieren von Konturlinien erfasst werden und durch das Muster 192A repräsentiert sind, enthaltene Linien kleiner Einzelheiten, so zum Beispiel die Augenmuster, die Mundpartien und die Ohrformen. Andererseits enthalten die Linien, die durch die synaptischen Wichtungsmuster 191c zum Detektieren von Konturlinien detektiert werden und durch das Muster 192C repräsentiert sind, keine Linien derartiger kleiner Einzelheiten, sondern sie enthalten lediglich solche Linien, die die Konturlinien des menschlichen Gesichtsbilds oder die Konturlinie eines größeren Objekts darstellen.
  • Danach werden in der e1-Schicht, wie in 86A, 86B und 86C dargestellt ist, bezüglich der Muster 192A, 192B und 192C Faltungen unter Verwendung synaptischer Wichtungsmuster 193a, 193b und 193c für Wettstreit und Kooperation durchgeführt, wo bei die Größen der Muster den Größen der synaptischen Gewichtungsmuster 191a, 191b und 191c zum Detektieren von Konturlinien entsprechen. Im Ergebnis kooperieren solche Neuronen, die den gestrichelten Linien in jedem der Muster 192A, 192B und 192C entsprechen, welche Neuronen stark angeregt werden und ein hohes Maß an Kontinuität in Umfangsrichtung besitzen. Auf diese Weise werden Neuronen, die den den Endpunkten dieser gestrichelten Linien entsprechenden Neuronen entsprechen, sequentiell in Umfangsrichtung angeregt, und hierdurch werden die gebrochenen Linien in Umfangsrichtung kontinuierlich gemacht. Andererseits treten Neuronen, die nur schwach angeregt werden und ein geringes Maß an Kontinuität in Umfangsrichtung besitzen, miteinander in Wettstreit und werden ausgelöscht durch die Neuronen, die stark angeregt werden und ein hohes Maß an Kontinuität in Umfangsrichtung besitzen. Im Fall des Musters 192A werden Wettstreit und Kooperation der Linien entsprechend der Größe der synaptischen Wichtungsmuster 193a für Wettstreit und Kooperation in einem kleinen Bereich vorgenommen. Deshalb werden, wie durch das in 86A gezeigte Muster 194A angedeutet ist, feine Linien ausgewählt. Im Fall des Musters 192B erfolgen Wettstreit und Kooperation der Linien in einem Bereich, der breiter ist als das synaptische Wichtungsmuster 193a für Wettstreit und Kooperation, entsprechend der Größe der synaptischen Wichtungsmuster 193b für Wettstreit und Kooperation. Deshalb werden diejenigen Linien ausgewählt, die durch ein Muster 194B in 86B dargestellt sind. Wenn die Faltung bei dem Muster 192C unter Verwendung der synaptischen Wichtungsmuster 193c für Wettstreit und Kooperation durchgeführt wird, werden Linien, die durch das Muster 194C in 86C dargestellt sind, ausgewählt.
  • Anregungssignale werden unter den Neuronen, die den Muster 194A, 194B und 194C für die Linien entsprechen, gegenseitig übertragen. Der Wettstreit und die Kooperation erfolgen bevorzugt bei den Neuronen, die angeregt werden und für die entsprechenden Stellen in den Muster 194A, 194B und 194C, welche die Linien repräsentieren, arbeiten. Im Ergebnis werden ausschließlich diejenigen Neuronen dauernd angeregt, die zu der Konturlinie des Kandidaten gehören. Auf diese Weise werden die Anregungszustände der Neuronen, welche den die Linien repräsentierenden Muster 194A, 194B und 194C entsprechen, in angeordneten Formen erhalten. Die Anregungszustände der Neuronen wer den zusammengelegt, und die Konturlinie des Kandidaten wird hierdurch gebildet und extrahiert.
  • In der c2-Schicht werden Faltungen bezüglich des Komplex-Log-Abbildes, welches durch die b-Schicht gewonnen wurde, unter Verwendung von drei Typen von synaptischen Wichtungsmustern 195a, 195b und 195c zum Detektieren von Konturlinien gemäß den 87A, 87B und 87C unterschiedlicher Größen durchgeführt. Die Muster 196A, 196B und 196C werden auf diese Weise gewonnen, sie repräsentieren Linien, die entsprechend den Größen der synaptischen Gewichtsmuster 195a, 195b und 195c zum Detektieren von Konturlinien erfasst wurden. Die durch die synaptischen Wichtungsmuster 195a zum Detektieren von Konturlinien erfassten Linien, die durch das Muster 196A repräsentiert werden, enthalten Linien kleine Einzelheiten des Bilds, welches in der a-Schicht ausgeschnitten wurde. Andererseits enthalten die Linien, die von dem synaptischen Wichtungsmuster 195c zum Detektieren von Konturlinien erfasst wurden, und die durch das Muster 196C repräsentiert sind, keine Linien solcher feiner Einzelheiten. Auf diese Weise ist der Bereich der Extraktion der Linien in der Reihenfolge der Muster 196A, 196B und 196C größer.
  • Daran anschließend werden in der e2-Schicht gemäß den 88A, 88B und 88C bezüglich der Muster 196A, 196B und 196C unter Verwendung von synaptischen Wichtungsmustern 197a, 197b und 197c für Wettstreit und Kooperation mit Größen entsprechend den Größen der synaptischen Wichtungsmuster 195a, 195b und 195c zum Detektieren von Konturlinien Faltungen durchgeführt. Im Ergebnis treten die Neuronen, die den gebrochenen Linien in jedem der Muster 196A, 196B und 196C entsprechen und stark angeregt wurden sowie ein hohes Maß an Kontinuität in radialer Richtung aufweisen, miteinander in Wettstreit. Auf diese Weise werden Neuronen, die den den Endpunkten dieser gebrochenen Linien entsprechenden Neuronen benachbart sind, sequentiell in radialer Richtung angeregt, und die gestrichelten Linien werden in der radialen Richtung durchgehend gemacht. Andererseits werden Neuronen, die nur schwach angeregt wurden und ein geringes Maß an Kontinuität in radialer Richtung besitzen, von denjenigen Neuronen in Wettstreit gebracht und ausgelöscht, die stark angeregt sind und ein hohes Maß an Konti nuität in radialer Richtung besitzen. Im Fall des Musters 196A erfolgen Wettstreit und Kooperation der Linien innerhalb eines kleinen Bereichs entsprechend der Größe des synoptischen Wichtungsmusters 197a für Wettstreit und Kooperation. Deshalb werden, wie durch das Muster 198A in 88A dargestellt ist, feine Linien ausgewählt. Im Fall des Musters 196B erfolgen Wettstreit und Kooperation der Linien in einem Bereich, welcher breiter ist als das synaptische Wichtungsmuster 197a für Wettstreit und Kooperation, abhängig von der Größe des synoptischen Wichtungsmusters 197b für Wettstreit und Kooperation. Deshalb werden die Linien ausgewählt, die durch ein Muster 198B in 88B dargestellt sind. Wenn die Faltung an dem Muster 196C durch Verwendung des synoptischen Wichtungsmusters 197c für Wettstreit und Kooperation durchgeführt wird, so werden Linien ausgewählt, die durch ein Muster 198C in 88C dargestellt sind.
  • Anregungssignale werden gegenseitig unter den Neutronen ausgetauscht, die den Muster 198A, 198B und 198C für die Linien entsprechen. Der Vorgang des Wettstreits und der Kooperation erfolgt bevorzugt bei den Neuronen, die angeregt sind und für entsprechende Stellen in den für die Linien repräsentativen Muster 198A, 198B und 198C arbeiten. Im Ergebnis werden kontinuierlich nur solche Neuronen angeregt, die zu der Konturlinie des Kandidaten gehören. Auf diese Weise erhält man die Zustände der Anregung der Neuronen, die den für die Linien repräsentativen Muster 198A, 198B und 198C entsprechen, in angeordneten Formen. Die Anregungszustände der Neuronen werden zusammengelegt, und dadurch wird die Konturlinie des Kandidaten gebildet und extrahiert.
  • Im folgenden wird eine dritte Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds erläutert.
  • Bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds wird das ausgeschnittene Bild, welches in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fällt, nicht mit der Komplex-Log-Abbildung transformiert. Die Konturlinie des Kandidaten wird extrahiert unter Verwendung eines neuronalen Netzwerks, bei dem die Neuronen in der Form der kartesischen Ebene angeordnet sind.
  • 89 ist eine beispielhafte Ansicht eines Beispiels für ein neuronales Netzwerk zum Extrahieren einer Konturlinie eines Kandidaten für ein vorbestimmtes Objektbild entsprechend der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds. Gebildet wird das neuronale Netzwerk durch eine Eingangsschicht 200 zum Ausschneiden eines Bilds, das in die Zone im Inneren des Betrachtungsfensters vorbestimmter Größe fällt, aus einem gegebenen Bild 199. Außerdem wird das neuronale Netzwerk gebildet durch eine Liniendetektorschicht 201 zum Erfassen kreisbogenförmiger Linien aus dem ausgeschnittenen Bild, und einer Liniendetektorschicht 201' zum Detektieren von radial verlaufenden Linien aus dem Ausschnittsbild. Darüber hinaus enthält das neuronale Netzwerk eine Endpunktdetektorschicht 202 zum Erfassen von Endpunkten der radial verlaufenden Linien. Das neuronale Netzwerk enthält weiterhin eine interaktive Verbindungsschicht 203 zum Selektieren einer durchgehenden kreisbogenförmigen Linie, und eine interaktive Verbindungsschicht 203' zum Auswählen einer durchgehenden radialen Linie.
  • Das bei dieser Ausführungsform verwendete neuronale Netzwerk ist identisch im Aufbau von der Eingangsschicht 120 zu den interaktiven Verbindungsschichten 123, 123' mit dem in 65 gezeigten neuronalen Netzwerks und wird bei der Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren eines Objektbilds gemäß der Erfindung verwendet.
  • Bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds werden Wettstreit und Kooperation in den interaktiven Verbindungsschichten 203 und 203' iteriert, und hierdurch wird eine Konturlinie des Kandidaten gebildet. Die gebildete Konturlinie wird dann normiert und extrahiert.
  • Die Konturlinie des Kandidaten für das vorbestimmte Objektbild wird in der oben beschriebenen Weise ausgewählt. Im Anschluss daran wird in der gleichen Weise wie bei der ersten und der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds die Konturlinie des Kandidaten für das vorbestimmte Bild normiert und extrahiert.
  • Bei der dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds werden, wenn die Konturlinie des Kandidaten extrahiert wird, die charakteristischen Merkmale entsprechend der Formel (10) den Neuronen der interaktiven Verbindungsschicht 203 beigegeben. Deshalb kann wie bei der ersten und der zweiten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie die Konturlinie des Bilds 182a eines menschlichen Gesichts sowie die Konturlinie des Verkehrsschild-Bilds 184 unabhängig von dem jeweils anderen Bild in 82 extrahiert werden. Wie beispielsweise in 90A gezeigt ist, wird aus dem in 82 gezeigten Bild ein Muster erhalten, in welchem eine Konturlinie 182a'' des Gesichtsbilds und eine Konturlinie 184'' des Verkehrsschild-Bilds hervorgehoben sind. In der gleichen Weise wie bei der ersten und der zweiten Ausführungsform des Verfahrens zum Extrahieren einer Konturlinie werden Wettstreit und Kooperation zwischen der Konturlinie 182a'' des Gesichtsbilds und der Konturlinie 184'' des Verkehrsschild-Bilds vorgenommen, und die Konturlinie 182a'' des Gesichtsbilds, die eine höhere Intensität aufweist als die Konturlinie 184'' des Verkehrsschild-Bilds, sperrt und löscht die Konturlinie 184'' aus. Im Ergebnis wird gemäß 90B ausschließlich die Konturlinie 182a'' des Gesichtsbilds ungelöscht erhalten. In dem in 90B gezeigten Zustand wird als erstes das in 82 gezeigte Bild 182a des menschlichen Gesichts extrahiert. Mit dem Verstreichen der Zeit nach dem Extrahieren des Bilds 182a des Gesichts sammeln die Neuronen, welche der Konturlinie 182a'' des Gesichtsbilds entsprechen, ihre Ermüdung an. Wenn daher die Neuronen, die der Konturlinie 182a'' des Gesichtsbilds entsprechen, Eingangssignale empfangen, sind die Ausgangssignale dieser Neuronen verringert. Aufgrund der Verringerung der Ausgangssignale verschwinden gemäß 90C die Ausgangssignale von denjenigen Neuronen, die der Konturlinie 182a'' des Gesichtsbilds entsprechen. Deshalb erzeugen gemäß 90D die der Konturlinie 184'' des Verkehrsschild-Bilds, welche von der Konturlinie 182a'' des Gesichtsbilds gesperrt wurde, entsprechende Neuronen erneut ihre Ausgangssignale. In dem in 90D gezeigten Zustand wird die Konturlinie des Verkehrsschild-Bilds 184 nach 82 extrahiert.
  • Die Konturlinie des Kandidaten für das vorbestimmte Objektbild, die bei der oben erläuterten ersten, zweiten oder dritten Ausführungsform des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie extrahiert wurde, kann auf unterschiedlichen Gebieten der Bildverarbeitung eingesetzt werden, auf denen Information über Konturlinien verwendet wird. Beispielsweise kann die Konturlinie in einem Prozess zum Extrahieren der von der Konturlinie umgebenen Zone eingesetzt werden, zu der ein Fenster wandern sollte, wobei das Betrachtungsfenster dazu gebracht wird, zu dem Mittelpunkt eines Kandidaten vorzurücken. Die Konturlinie kann auch in einem Verfahren zum Bestimmen eines Gradienten eines Felds eines Bilds aus der Bewegungsrichtung des Betrachtungsfensters verwendet werden.
  • Bei den oben geschilderten Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds werden die Konturlinie des Bilds eines menschlichen Gesichts und die Konturlinie des Bilds eines Verkehrsschilds unabhängig voneinander aus dem Bild extrahiert, in welchem das Gesichtsbild und das Verkehrsschild-Bild so eingebettet sind, dass sie einander vollständig überlagern. Bei dem Verfahren zum Extrahieren einer Konturlinie eines Objektbilds gemäß der Erfindung können außerdem Konturlinien mehrerer Kandidaten unabhängig voneinander aus dem Bild extrahiert werden, in dem zumindest Teile der Kandidaten einander überlagern, beispielsweise aus dem in 91 gezeigten Bild, in welchem nur gewisse Teile von drei Gesichtern einander überlagert sind.
  • In solchen Fällen, in denen eine Konturlinie eines Kandidaten für ein vorbestimmtes Objektbild aus einem Bild extrahiert wird, in dem keine einander überlappenden Teile von Kandidaten vorhanden sind, braucht der Prozess zum Verhindern einer erneuten Extraktion nicht notwendigerweise für die extrahierte Konturlinie des Kandidaten ausgeführt zu werden.
  • Außerdem werden bei den obigen Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds neuronale Netzwerke eingesetzt, um die Konturlinie des Kandidaten zu extrahieren. Es brauchen aber die neuronalen Netzwerke nicht immer eingesetzt zu werden, man kann zu diesem Zweck auch von anderen Methoden Gebrauch machen.
  • Weiterhin wird bei den obigen Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds die Konturlinie des Bilds eines menschlichen Gesichts extrahiert. Das Verfahren zum Extrahieren einer Konturlinie ist aber auch anwendbar, wenn Konturlinien anderer Typen vorbestimmter Objektbilder extrahiert werden. In solchen Fällen kann eine Konturlinie eines beliebigen Objektbilds effizient in der gleichen Weise extrahiert werden wie die Konturlinie des Bilds eines menschlichen Gesichts unter Verwendung eines neuronalen Netzwerks während der Extraktion und während der Ausführung von Lernoperationen des neuronalen Netzwerks in einer für das Objektbild geeigneten Weise.
  • Bei den oben beschriebenen Ausführungsformen des Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds gemäß der Erfindung wird der Prozess zum Verhindern einer erneuten Extraktion durch Einführen eines Ermüdungsterms in das neuronale Netzwerk ausgeführt. Alternativ kann auch ein beliebiger anderer Prozess verwendet werden, mit dem die Konturlinie des Kandidaten, die bereits einmal extrahiert wurde, an einer erneuten Extraktion gehindert werden kann. Beispielsweise kann auf die bereits extrahierte Konturlinie eine Maskierung des Kandidaten angewendet werden.
  • Bei den obigen Ausführungsformen des erfindungsgemäßen Verfahrens zum Extrahieren einer Konturlinie eines Objektbilds werden außerdem neuronale Netzwerke für sämtliche Stufen des Ausschneidens des Bildteils innerhalb des Betrachtungsfensters bis hin zur Extraktion der Konturlinie des Kandidaten eingesetzt. Allerdings brauchen nicht notwendigerweise neuronale Netzwerke für sämtliche Schritte eingesetzt zu werden, man kann auch ein neuronales Netzwerk für mindestens einen Schritt während der Extraktion der Konturlinie des Objektbilds verwenden. Außerdem kann die Extraktion der Konturlinie des Kandidaten für das vorbestimmte Objektbild mit Hilfe eines neuronalen Netzwerks durchgeführt werden.

Claims (8)

  1. Computer-implementiertes Verfahren zum Extrahieren eines Objektbilds, bei dem ein Extraktionsbereich für die Extraktion eines Kandidaten für ein vorbestimmtes Objektbild aus einem Bild bestimmt wird, wobei das Verfahren zum Extrahieren eines Objektbilds folgende Schritte aufweist: i) Ausschneiden eines Bilds, welches in eine Zone im Inneren eines Betrachtungsfensters vorbestimmter Größe fällt, aus dem Bild, ii) Detektieren einer Konturlinie des Kandidaten für das vorbestimmte Objektbild, welche Linie sich in einer vorbestimmten Richtung von dem ausgeschnittenen Bild aus erstreckt; iii) Extrahieren sämtlicher Komponenten der detektierten Konturlinie, die unter einem vorbestimmten Winkel in Bezug auf konzentrische Kreise geneigt sind, welche den Mittelpunkt des Betrachtungsfensters umgeben, aus der detektierten Konturlinie des Kandidaten für das vorbestimmte Objektbild, iv) Detektieren von Azimuten und Intensitäten der extrahierten Komponenten in Bezug auf den Mittelpunkt des Betrachtungsfensters, wobei die Azimute und Intensitäten dazu dienen, einen Azimut-Vektor zu ermitteln; v) Zusammensetzen eines Vektors für ein Verfahren des Betrachtungsfensters aus den Azimut-Vektoren; vi) Veranlassen, dass der Mittelpunkt des Betrachtungsfensters entsprechend dem Vektor für die Fahrt des Betrachtungsfensters weiterrückt; vii) Wiederholen der obigen Schritte ii) bis vi), bis der gesamte Kandidat in dem Bereich innerhalb des Betrachtungsfensters enthalten ist, und viii) Bestimmen eines Extraktionsbereichs nach Maßgabe der Größe und/oder der Form des Kandidaten für das vorbestimmte Objektbild, wobei der Mittelpunkt des Betrachtungsfensters, der auf diese Weise zum Weiterrücken gebracht wurde, als Bezugswert während der Bestimmung des Extraktionsbereichs hergenommen wird.
  2. Verfahren nach Anspruch 1, bei dem ein neuronales Netzwerk dazu benutzt wird, zumindest einen einzelnen Schritt durchzuführen, welcher ausgewählt ist aus der Gruppe, welche das Ausschneiden des Bilds, das Detektieren der Konturlinie, das Extrahieren der Komponenten der Konturlinie, die unter einem vorbestimmten Winkel geneigt sind, das Detektieren der Azimut-Vektoren, die Vektorzusammensetzung aus den Azimut-Vektoren, das Weiterrücken des Mittelpunkts des Betrachtungsfensters und das Ermitteln des Extraktionsbereichs umfasst.
  3. Verfahren nach Anspruch 1, bei dem das Detektieren der Konturlinie des Kandidaten für das vorbestimmte Objektbild, welche Linie sich in einer vorbestimmten Richtung erstreckt, durchgeführt wird nachdem das ausgeschnittene Bild durch eine Komplex-Log-Abbildung in ein Komplex-Log-Bild transformiert wurde, wobei der Mittelpunkt des Betrachtungsfensters als Abbildungs-Pol hergenommen wird, das Extrahieren der Komponenten der Detektierten Konturlinie ausgeführt wird durch Extrahieren sämtlicher Konturlinien-Komponenten, die unter einem vorbestimmten Winkel bezüglich einer ringförmigen Richtung in einer Komplex-Log-Abbildungsebene geneigt sind, aus der in dem Komplex-Log-Bild detektierten Konturlinie, und die Azimut-Vektoren detektiert werden durch Detektieren von Azimuten und Intensitäten der extrahierten Konturlinien-Komponenten innerhalb der Komplex-Log-Abbildungsebene.
  4. Verfahren nach Anspruch 3, bei dem die Transformation durch die Komplex-Log-Abbildung unter Verwendung eines neuronalen Netzwerks durchgeführt wird.
  5. Verfahren nach Anspruch 1, bei dem, nachdem eine Mehrzahl von Konturlinien aus dem ausgeschnittenen Bild von den detektierten Konturlinien ermittelt wurde, Konturlinien mit einem höheren Maß an Kontinuität in etwa der gleichen Richtung wie der erwähnten vorbestimmten Richtung und/oder Konturlinien mit einer hohen Intensität dazu gebracht werden, zusammenzuwirken und dadurch hervorgehoben werden, die Konturlinien mit einem hohen Maß an Kontinuität und/oder die Konturlinien mit hoher Intensität und Konturlinien mit einem geringen Maß an Kontinuität in etwa der gleichen Richtung wie der vorbestimmten Richtung und/oder Konturlinien mit geringer Intensität dazu gebracht werden, miteinander in Wettstreit zu treten, wodurch die Konturlinien mit einem geringen Maß an Kontinuität und/oder die Konturlinien mit geringer Intensität beseitigt werden, und aus einer hervorgehobenen Konturlinie, die durch Hervorhebung der Konturlinie mit hohem Maß an Kontinuität und/oder der Konturlinie mit hoher Intensität gebildet wurden, sämtliche Komponenten der hervorgehobenen Konturlinie, die unter einem vorbestimmten Winkel bezüglich Umfangsrichtung konzentrischer Kreise um den Mittelpunkt des Betrachtungsfensters herum geneigt sind, extrahiert werden.
  6. Verfahren nach Anspruch 5, bei dem ein neuronales Netzwerk dazu eingesetzt wird, zumindest einen einzelnen Schritt aus folgender Gruppe von Schritten durchzuführen: die Hervorhebung und das Beseitigen der mehreren detektierten Konturlinien und das Extrahieren von Komponenten der hervorgehobenen Konturlinie, die unter dem vorbestimmten Winkel geneigt sind.
  7. Verfahren nach Anspruch 1, bei dem während der Vektorzusammensetzung aus den Azimut-Vektoren Phasenverschiebungen vorbestimmter Winkel auf die Azimut-Vektoren angewendet werden.
  8. Verfahren nach Anspruch 1 oder 7, bei dem während der Vektorzusammensetzung aus den Azimut-Vektoren Gewichte auf die Azimut-Vektoren angewendet werden in Abhängigkeit der Abstände zwischen dem Mittelpunkt des Betrachtungsfensters und den Komponenten der Konturlinie.
DE69233722T 1991-09-12 1992-09-14 Verfahren zur Ermittlung von Objektbildern und Verfahren zur Bestimmung der Bewegung davon Expired - Fee Related DE69233722T2 (de)

Applications Claiming Priority (20)

Application Number Priority Date Filing Date Title
JP23321391 1991-09-12
JP23321391 1991-09-12
JP32334491 1991-12-06
JP32334391 1991-12-06
JP32334291 1991-12-06
JP32334291 1991-12-06
JP32334491 1991-12-06
JP32334391 1991-12-06
JP1309692 1992-01-28
JP1309792 1992-01-28
JP1309292 1992-01-28
JP1309692 1992-01-28
JP1309392 1992-01-28
JP1309592 1992-01-28
JP1309292 1992-01-28
JP1309392 1992-01-28
JP1309792 1992-01-28
JP1309492 1992-01-28
JP1309492 1992-01-28
JP1309592 1992-01-28

Publications (2)

Publication Number Publication Date
DE69233722D1 DE69233722D1 (de) 2008-03-27
DE69233722T2 true DE69233722T2 (de) 2009-02-12

Family

ID=27579628

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69233722T Expired - Fee Related DE69233722T2 (de) 1991-09-12 1992-09-14 Verfahren zur Ermittlung von Objektbildern und Verfahren zur Bestimmung der Bewegung davon

Country Status (3)

Country Link
US (5) US5619593A (de)
EP (1) EP0532052B1 (de)
DE (1) DE69233722T2 (de)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07501162A (ja) 1991-06-28 1995-02-02 リム ホン リップ 3dコンピュータグラフィック用可視性計算の改善
US6728404B1 (en) 1991-09-12 2004-04-27 Fuji Photo Film Co., Ltd. Method for recognizing object images and learning method for neural networks
US5740274A (en) * 1991-09-12 1998-04-14 Fuji Photo Film Co., Ltd. Method for recognizing object images and learning method for neural networks
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
KR100292138B1 (ko) * 1993-07-12 2002-06-20 이데이 노부유끼 디지탈비디오신호용송신기및수신기
US6049793A (en) * 1996-11-15 2000-04-11 Tomita; Kenichi System for building an artificial neural network
SE507680C2 (sv) * 1997-01-13 1998-07-06 Qualisys Ab Metod och anordning för att bestämma positionen av ett objekt
US5892854A (en) * 1997-01-21 1999-04-06 Xerox Corporation Automatic image registration using binary moments
US5978521A (en) * 1997-09-25 1999-11-02 Cognex Corporation Machine vision methods using feedback to determine calibration locations of multiple cameras that image a common object
US6141434A (en) * 1998-02-06 2000-10-31 Christian; Andrew Dean Technique for processing images
US6394557B2 (en) * 1998-05-15 2002-05-28 Intel Corporation Method and apparatus for tracking an object using a continuously adapting mean shift
JP4328397B2 (ja) * 1998-07-03 2009-09-09 富士通株式会社 画像データ処理方法及び装置並びに記憶媒体
US6314204B1 (en) * 1998-11-03 2001-11-06 Compaq Computer Corporation Multiple mode probability density estimation with application to multiple hypothesis tracking
US6353679B1 (en) * 1998-11-03 2002-03-05 Compaq Computer Corporation Sample refinement method of multiple mode probability density estimation
JP2000165648A (ja) 1998-11-27 2000-06-16 Fuji Photo Film Co Ltd 画像処理方法および装置並びに記録媒体
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP2001126075A (ja) 1999-08-17 2001-05-11 Fuji Photo Film Co Ltd 画像処理方法および装置並びに記録媒体
US6647131B1 (en) * 1999-08-27 2003-11-11 Intel Corporation Motion detection using normal optical flow
JP2001188910A (ja) * 1999-10-22 2001-07-10 Toshiba Corp 画像の輪郭抽出方法、画像からの物体抽出方法およびこの物体抽出方法を用いた画像伝送システム
US6968081B1 (en) * 1999-11-15 2005-11-22 Luminus Systems, Inc. System, method, and apparatus for orienting images
US7221780B1 (en) * 2000-06-02 2007-05-22 Sony Corporation System and method for human face detection in color graphics images
DE10145608B4 (de) * 2001-09-15 2006-01-26 Eads Deutschland Gmbh Modellbasierte Objektklassifikation und Zielerkennung
US7545949B2 (en) * 2004-06-09 2009-06-09 Cognex Technology And Investment Corporation Method for setting parameters of a vision detector using production line information
US9092841B2 (en) 2004-06-09 2015-07-28 Cognex Technology And Investment Llc Method and apparatus for visual detection and inspection of objects
US7444006B2 (en) * 2002-04-16 2008-10-28 Pixart Imaging Inc. Method of image qualification for optical navigation sensor
US20040027618A1 (en) * 2002-06-03 2004-02-12 Fuji Photo Film Co., Ltd. Image defect detecting method
JP3785456B2 (ja) * 2002-07-25 2006-06-14 独立行政法人産業技術総合研究所 駅ホームにおける安全監視装置
TWI285852B (en) 2002-11-05 2007-08-21 Asia Air Survey Co Ltd System and method for visualization processing and recording medium with visualization processing program recorded therein
JP4140402B2 (ja) * 2003-03-03 2008-08-27 松下電工株式会社 画像処理装置
TWI267800B (en) * 2003-06-13 2006-12-01 Lite On Technology Corp Automatic correction method of tilted image
US7920725B2 (en) * 2003-09-09 2011-04-05 Fujifilm Corporation Apparatus, method, and program for discriminating subjects
US7298867B2 (en) * 2004-02-20 2007-11-20 Lockheed Martin Corporation Component association tracker system and method
US20050276445A1 (en) * 2004-06-09 2005-12-15 Silver William M Method and apparatus for automatic visual detection, recording, and retrieval of events
US8243986B2 (en) * 2004-06-09 2012-08-14 Cognex Technology And Investment Corporation Method and apparatus for automatic visual event detection
US8127247B2 (en) 2004-06-09 2012-02-28 Cognex Corporation Human-machine-interface and method for manipulating data in a machine vision system
US8891852B2 (en) 2004-06-09 2014-11-18 Cognex Technology And Investment Corporation Method and apparatus for configuring and testing a machine vision detector
US8594370B2 (en) * 2004-07-26 2013-11-26 Automotive Systems Laboratory, Inc. Vulnerable road user protection system
JP4677753B2 (ja) * 2004-10-01 2011-04-27 株式会社ニコン 動画像処理装置及び方法
US7720315B2 (en) * 2004-11-12 2010-05-18 Cognex Technology And Investment Corporation System and method for displaying and using non-numeric graphic elements to control and monitor a vision system
US9292187B2 (en) 2004-11-12 2016-03-22 Cognex Corporation System, method and graphical user interface for displaying and controlling vision system operating parameters
US7636449B2 (en) 2004-11-12 2009-12-22 Cognex Technology And Investment Corporation System and method for assigning analysis parameters to vision detector using a graphical interface
US20060140867A1 (en) * 2004-12-28 2006-06-29 Helfer Jeffrey L Coated stent assembly and coating materials
JP4001162B2 (ja) * 2005-11-04 2007-10-31 オムロン株式会社 画像処理方法、画像処理用のプログラムならびにその記憶媒体、および画像処理装置
US7630541B2 (en) * 2006-05-30 2009-12-08 Microsoft Corporation Image-wide matting
US7848592B2 (en) * 2006-07-31 2010-12-07 Carestream Health, Inc. Image fusion for radiation therapy
CN101617535B (zh) * 2007-03-28 2011-07-06 富士通株式会社 图像处理装置、图像处理方法
US8237099B2 (en) * 2007-06-15 2012-08-07 Cognex Corporation Method and system for optoelectronic detection and location of objects
US20080317355A1 (en) * 2007-06-21 2008-12-25 Trw Automotive U.S. Llc Method and apparatus for determining characteristics of an object from a contour image
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
US8036468B2 (en) * 2007-12-24 2011-10-11 Microsoft Corporation Invariant visual scene and object recognition
US8320615B2 (en) * 2008-02-27 2012-11-27 Honeywell International Inc. Systems and methods for recognizing a target from a moving platform
US8330810B2 (en) * 2008-02-27 2012-12-11 Honeywell International Inc. Systems and method for dynamic stabilization of target data detected from a moving platform
JP5290915B2 (ja) * 2009-09-03 2013-09-18 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
CN102870135B (zh) * 2010-06-29 2016-02-03 富士胶片株式会社 用于形状提取的方法和装置、尺寸测量装置和距离测量装置
KR101972356B1 (ko) * 2010-12-21 2019-04-25 한국전자통신연구원 상반신 검출장치 및 검출방법
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
US9651499B2 (en) 2011-12-20 2017-05-16 Cognex Corporation Configurable image trigger for a vision system and method for using the same
KR101921610B1 (ko) * 2012-08-31 2018-11-23 에스케이 텔레콤주식회사 촬영영상으로부터 객체를 감시하기 위한 장치 및 방법
KR20140031613A (ko) * 2012-09-05 2014-03-13 삼성전자주식회사 영상 처리 장치 및 방법
JP6183038B2 (ja) * 2012-11-15 2017-08-23 株式会社リコー 領域抽出装置、領域抽出方法およびプログラム
US9189702B2 (en) 2012-12-31 2015-11-17 Cognex Corporation Imaging system for determining multi-view alignment
US10346680B2 (en) * 2013-04-12 2019-07-09 Samsung Electronics Co., Ltd. Imaging apparatus and control method for determining a posture of an object
EP2998934B1 (de) * 2013-05-16 2020-08-05 Sony Corporation Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und programm
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US9224068B1 (en) * 2013-12-04 2015-12-29 Google Inc. Identifying objects in images
NO336680B1 (no) * 2013-12-04 2015-10-19 Global Maritime As Fremgangsmåte for estimering av risiko for minst én utilsiktet sluppet last fra minst én kran på en plattform eller et fartøy på undersjøiske rørledninger og annet undersjøisk utstyr, samt anvendelser av fremgangsmåten
US9378435B1 (en) * 2014-06-10 2016-06-28 David Prulhiere Image segmentation in optical character recognition using neural networks
CN105608459B (zh) * 2014-10-29 2018-09-14 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
JP2017102904A (ja) 2015-10-23 2017-06-08 株式会社半導体エネルギー研究所 半導体装置および電子機器
KR20170084020A (ko) 2015-10-23 2017-07-19 가부시키가이샤 한도오따이 에네루기 켄큐쇼 반도체 장치 및 전자 기기
US20190065878A1 (en) * 2017-08-22 2019-02-28 GM Global Technology Operations LLC Fusion of radar and vision sensor systems
US11562500B2 (en) * 2019-07-24 2023-01-24 Squadle, Inc. Status monitoring using machine learning and machine vision

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5926064B2 (ja) * 1979-09-10 1984-06-23 工業技術院長 輪郭画像の特徴抽出装置
FR2502875B1 (fr) * 1981-03-30 1985-11-29 Tugaye Jean Procede et dispositif de cadrage et de stabilisation d'image de camera electro-optique
US4988189A (en) * 1981-10-08 1991-01-29 Westinghouse Electric Corp. Passive ranging system especially for use with an electro-optical imaging system
JPH0766446B2 (ja) * 1985-11-27 1995-07-19 株式会社日立製作所 移動物体像を抽出する方法
US4803736A (en) * 1985-11-27 1989-02-07 The Trustees Of Boston University Neural networks for machine vision
US4796187A (en) * 1986-12-24 1989-01-03 Hughes Aircraft Company Method for processing image data to select a target aimpoint
US4959714A (en) * 1988-08-08 1990-09-25 Hughes Aircraft Company Segmentation method for terminal aimpoint determination on moving objects and apparatus therefor
US5109425A (en) * 1988-09-30 1992-04-28 The United States Of America As Represented By The United States National Aeronautics And Space Administration Method and apparatus for predicting the direction of movement in machine vision
JPH0719292B2 (ja) * 1988-11-18 1995-03-06 株式会社エイ・ティ・アール視聴覚機構研究所 画像特徴点検出方法
GB8905926D0 (en) * 1989-03-15 1990-04-25 British Aerospace Target aim point location
US5036474A (en) * 1989-03-31 1991-07-30 Honeywell Inc. Motion detection and tracking from a mobile platform
JP2885823B2 (ja) * 1989-04-11 1999-04-26 株式会社豊田中央研究所 視覚認識装置
JP2953712B2 (ja) * 1989-09-27 1999-09-27 株式会社東芝 移動物体検知装置
JP2810152B2 (ja) * 1989-10-13 1998-10-15 株式会社日立製作所 ポイントパターンマッチング方法

Also Published As

Publication number Publication date
US5604823A (en) 1997-02-18
DE69233722D1 (de) 2008-03-27
US5878165A (en) 1999-03-02
US5619593A (en) 1997-04-08
EP0532052B1 (de) 2008-02-13
US5751831A (en) 1998-05-12
EP0532052A2 (de) 1993-03-17
EP0532052A3 (de) 1994-04-13
US5604820A (en) 1997-02-18

Similar Documents

Publication Publication Date Title
DE69233722T2 (de) Verfahren zur Ermittlung von Objektbildern und Verfahren zur Bestimmung der Bewegung davon
DE602004006190T2 (de) Vorrichtung, Verfahren und Programm zur Gestenerkennung
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE10043460C2 (de) Auffinden von Körperpartien durch Auswerten von Kantenrichtungsinformation
DE60130742T2 (de) Mustererkennung mit hierarchischen Netzen
DE69333094T2 (de) Vorrichtung zum Extrahieren von Merkmalen eines Gesichtsbildes
DE69734855T2 (de) Vorrichtung und Verfahren zur Extraktion eines Objektes in einem Bild
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE602004002180T2 (de) Objekterkennung
DE69833999T2 (de) Verfahren zur automatischen erkennung menschlicher augen in digitalbildern
DE60203871T2 (de) Verfahren und system zum selektiven anwenden eines bildverbesserungsprozesses auf ein bild
DE60213032T2 (de) Gerät zur Gesichtsdetektion, Gerät zur Detektion der Gesichtspose, Gerät zur Extraktion von Teilbildern und Verfahren für diese Geräte
DE102014212556A1 (de) Verfahren und system zur gewinnung einer verbesserten struktur eines neuronalen zielnetzes
DE102004051159B4 (de) Gesichts-Identifizierungsvorrichtung, Gesicht-Identifizierungsverfahren und Gesicht-Identifizierungsprogramm
DE10319491A1 (de) Verfahren zum Detektieren eines sich bewegenden Objekts
DE602004002837T2 (de) Objekterkennung
CN111046880A (zh) 一种红外目标图像分割方法、系统、电子设备及存储介质
DE102008056600A1 (de) Verfahren und Vorrichtung zum Erkennen von Objekten
EP2624170B1 (de) Verfahren zur Erkennung eines vorgegebenen Musters in einem Bilddatensatz
DE102007050568A1 (de) Verfahren und Einrichtung zur Objekterkennung in einem Bild
Das et al. Color night vision for navigation and surveillance
DE202022101680U1 (de) Ein automatisches System zur Erkennung von Handgesten
DE10017551C2 (de) Verfahren zur zyklischen, interaktiven Bildanalyse sowie Computersystem und Computerprogramm zur Ausführung des Verfahrens
DE112014001697T5 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsprogramm und Betriebsverfahren für Bildverarbeitungsvorrichtung
EP4064819B1 (de) Verfahren zum bearbeiten von pflanzen auf einem feld, zum generieren von trainingsdaten und zum trainieren eines neuronalen netzes

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee