DE19634769A1 - Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts - Google Patents

Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts

Info

Publication number
DE19634769A1
DE19634769A1 DE19634769A DE19634769A DE19634769A1 DE 19634769 A1 DE19634769 A1 DE 19634769A1 DE 19634769 A DE19634769 A DE 19634769A DE 19634769 A DE19634769 A DE 19634769A DE 19634769 A1 DE19634769 A1 DE 19634769A1
Authority
DE
Germany
Prior art keywords
decision
neural network
probabilistic
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19634769A
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Princeton University
Siemens Corporate Research Inc
Original Assignee
Princeton University
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Princeton University, Siemens Corporate Research Inc filed Critical Princeton University
Publication of DE19634769A1 publication Critical patent/DE19634769A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features

Description

Die vorliegende Erfindung bezieht sich allgemein auf das Maschinen-Sehvermögen bzw. das maschinelle Sehvermögen und insbesondere auf ein System, das entscheidungsbasierte neurale Netzwerke implementiert, die zum Lokalisieren und Erkennen von verformbaren Objekten wie etwa dem menschlichen Gesicht imstande sind.
Die Aufgabe der Erfassung und Erkennung eines verformbaren bzw. nicht formbeständigen Musters oder Objekts ist ein wichtiges Problem bei dem maschinellen Lernen und dem Computer-Sehvermögen. Die Aufgabe enthält das Auffinden und Identifizieren eines spezifischen, jedoch lokal verformbaren Musters in einem Bild, wie etwa eines mensch­ lichen Gesichts. Das maschinelle Lernen und das Computer-Sehvermögen (machine learning and computer vision) weist viele wichtige kommerzielle Anwendungen auf. Diese Anwendungen enthalten die ATM-Methode bzw. automatische Verfolgung, die Zugangs­ steuerung, die Überwachung und den Videokonferenzbetrieb, sind aber nicht hierauf beschränkt. Demgemäß hat das maschinelle Lernen (Maschinenlernen) und das Computer- Sehvermögen in den letzten Jahren große Aufmerksamkeit auf sich gezogen.
Bei Gesichtserkennungssystemen, die bei der Identifikation von Personen benutzt werden, wird typischerweise ein Gesichtsdetektor eingesetzt, der die Position und die Ausdehnung eines oder mehrerer menschlicher Gesichter in einer nicht gleichförmigen, beliebigen Bildszene bestimmt. Diese Aufgabe wird von solchen Systemen als schwierig empfunden, da die menschlichen Gesichter natürlich strukturiert und aus verformbaren Komponenten wie etwa den Backen, dem Mund, der Stirn usw. aufgebaut sind. Sobald das Gesicht aufgefunden wird, vergleicht das System dann in jedem Fall das Gesicht mit anderen, in einer Datenbank gespeicherten Gesichtern, um die Person zu identifizieren.
Bei Systemen, die bei vielen Beobachtungs- und Überwachungsanwendungen eingesetzt werden, ist es wichtig, daß das System die Position der menschlichen Augen in einem Bild oder einer Bildfolge, die ein menschliches Gesicht enthält, bestimmen kann. Sobald die Position der Augen ermittelt ist, können alle anderen wesentlichen Gesichtsmerkmale, wie etwa die Positionen der Nase und des Mundes, ermittelt werden. Diese Information kann dann für eine Vielzahl von Aufgaben wie etwa zur Erkennung eines Gesichts aus einer vorhandenen Gesichts-Datenbank eingesetzt werden.
Das Schlüsselmerkmal und die Schwierigkeit bei der Gesichtserkennung besteht darin, dem breiten Bereich von möglichen Änderungen des Gesichtsmusters in einer gegebenen Bildszene Rechnung zu tragen. In der Vergangenheit wurden drei hauptsächliche Ansätze zur Befassung mit diesen Musteränderungen angewendet, nämlich (1) der Einsatz von Korrelationsschablonen oder Korrelationslehren, (2) räumliche Bildinvarianten und (3) sichtbasierte Eigen-Räume (eigen spaces) usw . .
Korrelationsschablonen berechnen eine Ähnlichkeitsmessung zwischen einem festgelegten Zielmuster und der Position des Kandidatenbilds. Falls das Ausgangssignal eine bestimmte Schwelle überschreitet, wird eine Übereinstimmung bestätigt, das heißt ein Gesicht erfaßt. Es gibt manche Gesichtserfassungssysteme, die eine Bank von mehreren Korrelations­ schablonen zur Erfassung von wesentlichen Gesichts-Untermerkmalen in einer Bildszene benutzen. Jedoch ist das Leistungsvermögen dieser Systeme begrenzt, da die Klasse aller möglichen Gesichtsmuster zu variantenreich ist, um durch eine einfache Bank von Korrela­ tionsschablonen modelliert zu werden.
Bei Schemata mit räumlicher Bildinvarianz wird angenommen, daß manche gemeinsamen und einzigartigen räumlichen Bildbeziehungen in allen Gesichtsmustern vorhanden sind. Ein solcher Satz aus Bildinvarianten muß hinsichtlich positivem Auftreten dieser Invarian­ ten bei allen Bildpositionen überprüft werden. Ein spezielles Bild-Invarianten-Schema basiert zum Beispiel auf der lokalen Ordnungszahl-Struktur bzw. normalen Struktur der Helligkeitsverteilung bei unterschiedlichen Teilen eines menschlichen Gesichts.
Ein mit den Korrelationsschablonen sehr eng verwandter Ansatz ist derjenige der sicht­ basierten Eigenräume. Bei diesem Ansatz wird davon ausgegangen, daß der Satz aus allen möglichen Gesichtsmustern einen kleinen und leicht parameterisierbaren Unterraum in dem ursprünglichen Vektorraum des eingegebenen Bilds hoher Dimension belegt. Typischerwei­ se wird bei diesem Ansatz der Unterraum von Gesichtsmustern unter Verwendung von Daten-Clustern bzw. Daten-Gruppen und deren hauptsächlichen Komponenten aus einem oder mehreren Beispielssätzen von Gesichtsbildern angenähert. Ein Bildmuster wird als "ein Gesicht" klassifiziert, wenn sein Abstand zu den Clustern bzw. Gruppen unterhalb einer bestimmten Schwelle in Abhängigkeit von einem geeigneten Abstandsmaß bzw. Abstandsmaßstab liegt. Jedoch wurde dieser Ansatz lediglich bei Gesichtsbildern bei im wesentlichen gleichförmigen Hintergrund demonstriert.
Gegenwärtig vorhandene Algorithmen und Methoden zur Augenlokalisierung basieren im allgemeinen auf der Hough-Transformation, Geometrie und Symmetrieüberprüfung, und auf verformbaren Modellen. Der größte Teil dieser Algorithmen und Methoden ist im allgemeinen bei Gestaltänderungen nicht adäquat und zeitaufwendig. Weiterhin können mit keiner dieser vorhandenen Methoden Augen lokalisiert werden, wenn sie geschlossen sind.
Neurale Netzwerkmodelle wurden für Gesichtserkennungssysteme als sehr günstig gefun­ den. Bekanntlich ist ein neurales bzw. neuronales Netzwerk im allgemeinen eine Im­ plementierung eines Algorithmus, der den Computer imstande versetzt, adaptiv zu sein, indem er direkt von eingegebenen Daten lernt, die zum "Trainieren" des Computers zur Ausführung einer gewissen Aufgabe eingesetzt werden. Dies erlaubt dem Computer die Verarbeitung von Daten, die den Trainingsdaten lediglich in gewissem Umfang ähneln. Darüber hinaus sind solche Computer auch zur Verarbeitung von nicht vollständigen oder fehlerhaften Daten oder zum Erzeugen eines Maßes für die Fehlertoleranz imstande.
Ferner können solche Computer komplexe Interaktionen zwischen den Eingangsvariablen bzw. eingegebenen Variablen eines Systems erkennen. Da neurale Netzwerke parallel sind, kann ein großes Netzwerk Echtzeitgeschwindigkeiten erzielen, so daß ihr Einsatz in vielen Bereichen noch praxisgemäßer wird.
Ein neurales Netzwerk besteht im allgemeinen aus miteinander verbundenen Berechnungs­ elementen oder Einheiten, die parallel arbeiten und die in Mustern angeordnet sind, die biologische neurale bzw. neuronale Netzwerke zum großen Teil nachahmen. Jede Verbin­ dung zwischen Berechnungselementen ist mit einem modifizierbaren Gewicht verknüpft. Bei dem Betrieb wandelt ein Berechnungselement ein Muster von ankommenden Signalen in ein einziges, abgehendes Signal um, das es zu anderen verbundenen Berechnungsele­ menten sendet. Das Berechnungselement bewerkstelligt dies, indem es jedes ankommende Signal mit dem Gewicht an der Verbindung (bzw. dem dieser Verbindung zugeordneten Gewicht) multipliziert und alle gewichteten Eingangsgrößen addiert, um hierdurch eine Größe zu erhalten, die als die Gesamteingabe bezeichnet wird. Das Berechnungselement benutzt dann eine Eingangs-Ausgangs-Funktion, die die Gesamteingabe in ein abgehendes Signal umwandelt. Damit das neurale Netzwerk eine spezielle Aufgabe durchführen kann, müssen die Berechnungselemente miteinander in einer bestimmten Netzwerkanordnung verbunden werden, und es müssen auch die Gewichte in geeigneter Weise festgelegt werden. Die Verbindungen bestimmen, wie sich die Berechnungselemente jeweils gegen­ seitig beeinflussen, während die Gewichte die Stärke dieser Beeinflussung festlegen.
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein entscheidungsbasiertes (deci­ sion-based) neurales Netzwerk und ein System zum Implementieren des Netzwerks zu schaffen, das verformbare Objekte bei speziellen Anwendungen, die auf die Erfassung von menschlichen Gesichtern und auf die Lokalisierung von Augen in den Gesichtern gerichtet sind, lokalisiert bzw. auffindet und erkennt.
Mit der Erfindung wird ein System zur automatischen Erfassung und Erkennung der Identität eines verformbaren Objekts wie etwa eines menschlichen Gesichts innerhalb einer beliebigen Bildszene geschaffen. Das System weist einen Objektdetektor zur Ermittlung, ob das Objekt in der beliebigen Bildszene vorhanden ist, und eine Merkmalslokalisierungs­ einrichtung zur Ermittlung der Position eines identifizierenden Merkmals an dem Objekt wie etwa der Augen auf, wobei sowohl der Objektdetektor als auch die Merkmalslokalisie­ rungseinrichtung jeweils als ein probabilistisches, entscheidungsbasiertes neurales Netz­ werk ausgebildet sind. Eine Merkmalsextrahiereinrichtung ist mit der Merkmalslokalisie­ rungseinrichtung gekoppelt und empfängt Koordinaten, die von der Merkmalslokalisie­ rungseinrichtung abgegeben werden und die die Position des identifizierenden Merkmals anzeigen, und greift auch aus den Koordinaten Informationen heraus, die sich auf andere Merkmale des Objekts beziehen, wie etwa auf die Augenbrauen und die Nase, die zur Erzeugung eines geringe Auflösung aufweisenden Bilds des Objekts benutzt werden. Eine auf einem probabilistischen, entscheidungsbasierten neuralen Netzwerk basierende Objekt­ erkennungseinrichtung zur Bestimmung der Identität des Objekts empfängt das geringe Auflösung aufweisende Bild des Objekts, das durch die Merkmalsextrahiereinrichtung eingangsseitig angelegt wird, um hierdurch das Objekt zu identifizieren.
Mit der vorliegenden Erfindung wird auch ein Verfahren zum automatischen Erfassen und Erkennen der Identität eines verformbaren Objekts innerhalb einer beliebigen Bildszene geschaffen. Bei dem Verfahren wird die Bildszene einer Vorverarbeitung zu Unterbildern unterzogen. Jedes der Unterbilder wird mit einer Objektdetektor-Datenbank verglichen, die unterschiedliche Versionen des Objekts speichert, um hieraus zu ermitteln, ob irgendeines der Unterbilder das Objekt ist. Die Koordinaten eines identifizierenden Merkmals an dem Objekt werden dann dadurch lokalisiert, daß die Koordinaten mit einer Datenbank der Merkmalslokalisierungseinrichtung verglichen werden, in der Koordinaten gespeichert sind, die unterschiedliche Versionen des identifizierenden Merkmals anzeigen. Informatio­ nen, die sich auf andere Merkmale des Objekts beziehen, werden aus den Koordinaten herausgegriffen, um ein Bild des Objekts mit geringer Auflösung zu erzeugen. Nachfol­ gend wird das geringe Auflösung besitzende Bild des Objektbilds in eine Objekterken­ nungseinrichtung eingespeist und die Identität des Objekts ermittelt.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die Zeichnungen näher erläutert.
Fig. 1 zeigt eine schematische Ansicht einer als Beispiel dienenden Ausführungsform des erfindungsgemäßen Systems zur Lokalisierung und Erkennung von Gesich­ tern,
Fig. 2A zeigt eine schematische Darstellung eines entscheidungsbasierten neuralen Netzwerks,
Fig. 2B zeigt eine strukturelle Darstellung eines probabilistischen, entscheidungsbasier­ ten neuralen Netzwerks gemäß der vorliegenden Erfindung,
Fig. 3 zeigt eine schematische Darstellung eines probabilistischen, entscheidungs­ basierten neuralen Netzwerks gemäß der vorliegenden Erfindung,
Fig. 4 zeigt eine schematische Darstellung einer zweiten, als Beispiel dienenden Ausführungsform eines erfindungsgemäßen Systems zur Lokalisierung und Erkennung von Gesichtern, das eine Gesichts-Verifizierungseinrichtung enthält, und
Fig. 5 zeigt eine schematische Darstellung eines mehrere Kanäle aufweisenden, entscheidungsbasierten neuralen Netzwerks gemäß der vorliegenden Erfindung.
Auch wenn die vorliegende Erfindung bei der Lokalisierung oder Auffindung von nahezu jedem beliebigen verformbaren Muster oder Objekt eingesetzt werden kann, ist die vorliegende Erfindung insbesondere für den Einsatz bei der Gesichtserfassung, der Augen­ lokalisierung und der Personenidentifizierung geeignet. Demgemäß wird die vorliegende Erfindung in diesem Zusammenhang erläutert.
Die Gesichtserfassung, die Augenlokalisierung und die Gesichtserkennung sind im wesent­ lichen Probleme der Mustererkennung bzw. Musterklassifizierung. Als Beispiel wird bei der Gesichtserfassung ein gegebenes Muster in zwei Klassen eingeordnet, nämlich "Ge­ sicht" oder "kein Gesicht". Bei der vorliegenden Erfindung ist eine probabilistische Variante bzw. Wahrscheinlichkeitsvariante eines entscheidungsbasierten neuralen Netz­ werks (DBNN = decision-based neural network) zur Durchführung dieser Klassifizie­ rungsaufgabe vorgesehen. Genauer gesagt, werden sowohl die Gesichtserfassung als auch die Augenlokalisierung durch ein probabilistisches, entscheidungsbasiertes neurales Netzwerk implementiert, das im weiteren Text in größeren Einzelheiten beschrieben wird. Bei diesen Anwendungen und allgemeiner bei der Erfassung von beliebigen verformbaren Mustern ist lediglich ein Unternetz bei dem entscheidungsbasierten neuralen Netzwerk erforderlich. Bei der als Beispiel dienenden Ausführungsform der vorliegenden Erfindung repräsentiert das Unternetz die Gesichts/Augen-Klasse. Falls somit bei einem eingegebenen Muster x der Diskriminantenfunktionswert größer ist als der Schwellwert, wird x als ein Gesicht/Auge erkannt. Andernfalls wird x als "kein Gesicht" betrachtet.
Es wird nun auf Fig. 1 Bezug genommen. Dort ist eine als Beispiel dienende Ausführungs­ form eines vollständig automatischen Gesichtserkennungssystems gemäß der vorliegenden Erfindung gezeigt und mit dem Bezugszeichen 10 bezeichnet. Das System 10 weist eine Videokamera 12 für die Einspeisung einer beliebigen Bildszene 11 mit 320 x 240 Bild­ elementen (Pixel) auf. Ein auf einem entscheidungsbasierten neuralen Netzwerk basieren­ der Gesichtsdetektor 14 ist mit der Videokamera 12 gekoppelt und enthält einen Speicher 16, der als eine Datenbank zur Speicherung von Bildern von unterschiedlichen mensch­ lichen Gesichtern dient. Der Gesichtsdetektor 14 ermittelt, ob ein Gesicht in der beliebigen Bildszene 11 vorhanden ist. Die Daten, die in der Gesichtsdatenbank 16 gespeichert sind, werden zum Trainieren des Gesichtsdetektors 14 benutzt. Während des Trainings werden aktualisierte Netzwerk-Gewichtsparameter und Schwellenwerte in der Gesichts-Datenbank 16 gespeichert.
Die über die Videokamera 12 eingegebenen Bilder werden zunächst vorverarbeitet, bevor sie an den auf dem entscheidungsbasierten neuralen Netzwerk basierenden Gesichtsdetektor 14 angelegt werden. Die Eingangsgrößen für den Gesichtsdetektor 14 auf der Basis eines entscheidungsbasierten neuralen Netzwerks sind ein Satz von Bildern mit vorab definierten Koordinaten. Zur Erfassung eines Gesichts in einem eingegebenen Bild wird jedes der möglichen Unterbilder verarbeitet, um zu erkennen, ob ein Gesicht repräsentiert. Ein Vertrauensergebnis bzw. eine Zuverlässigkeitsbewertung wird erzeugt, das das Vertrauen des Systems in dieses Erfassungsergebnis anzeigt. Falls das Ergebnis unterhalb einer gewissen Schwelle liegt, ist kein Gesicht detektiert worden.
Falls durch den Gesichtsdetektor 14 eine positive Identifizierung eines Gesichts vorgenom­ men wird, wird eine Augenlokalisierungseinrichtung 18, die auf einem entscheidungs­ basierten neuralen Netzwerk basiert und mit dem Gesichtsdetektor 14 gekoppelt ist, aktiviert, um die beiden Augen in dem Gesichtsbild zu lokalisieren. Die Kenntnis der exakten Position der Augen stellt eine sehr effiziente Einrichtung zur Normalisierung der Größe des Gesichts und zur Reorientierung des Gesichtsbilds dar. Die Musterauflösung, die für die Augen benutzt wird, ist erheblich höher als diejenige, die für die Gesichter eingesetzt wird. Sowohl der Gesichtsdetektor 14 als auch die Augenlokalisierungsein­ richtung 18 sind gegenüber kleinen Änderungen der Größe des Kopfs, der Orientierung des Gesichts (bis zu ungefähr 30%) und dem Vorhandensein von Brillen unempfindlich.
Die Augenlokalisierungseinrichtung 18 enthält auch einen Speicher 20, der als eine Datenbank zum Speichern von Informationen dient, die mit den Koordinaten von ver­ schiedenen, unterschiedlichen Augen zusammenhängen. Die Augenlokalisierungsein­ richtung 18 ermittelt die Koordinaten jedes Auges und gibt diese Koordinaten dann an eine Gesichtsmerkmal-Extrahiereinrichtung 22 ab, die im weiteren Text beschrieben ist. Die Daten, die in der Augen-Datenbank 20 gespeichert sind, werden zum Trainieren der Augenlokalisierungseinrichtung 18 benutzt. Während des Trainings werden aktualisierte Netzwerk-Gewichtsparameter und Schwellenwerte in der Augen-Datenbank 20 gespeichert.
Die Gesichtsmerkmal-Extrahiereinrichtung 22 ist mit der Augenlokalisierungeinrichtung 18 gekoppelt und benutzt die Augenkoordinaten, die von der Augenlokalisierungseinrichtung 18 zugeführt werden, dazu, ein Unterbild mit geringer Auflösung herauszugreifen, das ungefähr 140 × 100 Bildelemente enthält und der Gesichtsregion entspricht. Die Gesichts­ region enthält die Augenbrauen, die Augen und die Nase (unter Ausschluß des Mundes). Eine solche Gesichtsregion ergibt ein sehr hohes Maß an Vertrauen (bzw. Zuverlässigkeit) dahingehend, daß es eine Stabilität gegenüber unterschiedlichen Ausdrücken des Gesichts, Frisuren und Bewegungen des Mundes bietet. Eine verbesserte Klassifizierung kann auch aus sekundären Gesichtsmerkmalen wie etwa der Haarlinie bzw. des Scheitels oder des Haaransatzes, und dem Mund gewonnen werden.
Die Gesichtsmerkmal-Extrahiereinrichtung 22 normalisiert (bzw. standardisiert) die Intensitäten und die Ränder in der Gesichtsregion (auf einen Bereich zwischen 1 und 0), um eine sich ändernde Beleuchtung zu kompensieren. Zur Rekonditionierung der Gesichts­ bilder können Randfilterungs- und Histogramm-Modifikations-Methoden eingesetzt werden. Die normalisierten und rekonditionierten Bilder mit 140 × 100 Bildelementen werden dann auf gröbere Merkmalsvektoren mit ungefähr 13 × 9 Bildelementen reduziert. Der Einsatz von Gesichtsmerkmalen mit geringerer Auflösung führt zu beträchtlichen Verringerungen hinsichtlich der Berechnungskosten und des Speicherraums und vergrößert die Toleranz hinsichtlich Fehlern bei der Gesichts/Augen-Lokalisierung.
Damit eine ausreichende Unterschiedlichkeit bzw. Vielfältigkeit der reellen Gesichtsbilder in dem Trainingssatz sichergestellt ist, nimmt der Algorithmus das erhaltene Sensorbild und wandelt es zur Erzeugung von zusätzlichen Trainingsexemplaren um, was auch als virtuelle Trainingsmuster bekannt ist. Zwei Arten von Trainingsmustern werden benutzt.
Das erste Trainingsmuster besteht aus positiven Mustern (Gesicht/Augen-Muster), die für ein verstärktes bzw. verstärkendes Lernen benutzt werden. Das zweite Trainingsmuster besteht aus negativen Mustern (Muster "kein Gesicht/Auge"), die zu einem verstärkten Lernen in Gegenrichtung (im folgenden auch als anti-verstärkendes bzw. anti-verstärktes Lernen bezeichnet) benutzt werden. Die Gewichtungsparameter des Netzwerks und die Schwellenwerte werden durch dieses verstärkte Lernen/verstärkte Lernen in Gegenrichtung aktualisiert. Eine noch detailliertere Diskussion der Erzeugung von virtuellen Mustern wird im weiteren Text gegeben.
Der Merkmalsvektor, der durch die Gesichtsmerkmal-Extrahiereinrichtung erzeugt wird, wird dann in eine Gesichtserkennungseinrichtung 24, die auf einem entscheidungsbasierten neuralen Netzwerk basiert, für eine Erkennung eingespeist. Die Gesichtserkennungsein­ richtung 24 enthält einen Speicher 26, der als eine Datenbank zum Speichern von Perso­ nenidentifikationsinformationen dient.
Das trainierte System kann leicht für einen Einsatz bei einer Gesichtsverifizierung angepaßt werden. Aufgrund des verteilten Aufbaus eines entscheidungsbasierten neuralen Netzwerks kann jede beliebige Datenbank für eine einzelne Person individuell für eine Verifizierung seiner oder ihrer behaupteten Identität hergeholt bzw. wiedergewonnen werden.
Die entscheidungsbasierten neuralen Netzwerk-Methoden, die in dem Gesichtsdetektor 14, in der Augenlokalisierungseinrichtung 18 und in der Gesichtserkennungseinrichtung 24 implementiert und bei dem vorstehend erläuterten System 10 beschrieben sind, können auch bei anderen, ähnlichen Systemen zur Erfassung von nahezu jeder beliebigen Art von verformbaren Objekten eingesetzt werden. Die unmittelbar nachfolgende Diskussion beschreibt die Einzelheiten des probabilistischen, entscheidungsbasierten neuralen Netz­ werks, das bei dem vorstehend erläuterten System implementiert ist.
Das bei der vorliegenden Erfindung eingesetzte, entscheidungsbasierte, neurale Netzwerk benutzt eine verteilte und lokalisierte Aktualisierungsregel, die auf der Strategie des verstärkten Lernens und des in Gegenrichtung verstärkten Lernens basiert. Der Gradient der Diskriminanten-Funktion mit Bezug zu den Gewichtsparametern wird als eine Aktualisie­ rungsrichtung eingesetzt. Der hauptsächliche Nutzen dieser Vorgehensweise besteht dabei darin, daß sie es ermöglicht, die Grenze zwischen zwei beliebigen Klassen gegenseitig festzulegen, wobei sich nur minimale Seitenwirkungen bzw. Nebenwirkungen auf andere Grenzen ergeben. Bei dem entscheidungsbasierten, neuralen Netzwerk sagt der Lehrer lediglich die Korrektheit der Klassifikation für jedes Trainingsmuster. Der Lehrer ist ein Satz von Symbolen, T = {ti}, die die korrekte Klasse für jedes eingegebene Muster bezeichnen bzw. kennzeichnen. Im Unterschied zu einer Approximierungsformulierung sind keine exakte Werte des oder der Lehrer erforderlich. Demgemäß besteht die Aufgabe des Trainings darin, einen Satz von Gewichten zu finden, der eine korrekte Klassifizierung ergibt.
Bei einer komplexen Musterverteilung ist die Diskriminantenfunktion üblicherweise im Vorhinein nicht bekannt. Dies führt zu einer Kredit-Zuordnungsregel dahingehend, wann, was und wie die Aktualisierung des Netzwerks auszuführen ist. Ihr hauptsächlicher Zweck besteht in der Erleichterung des Problems des Übertrainierens der Netzwerke. Es gibt drei hauptsächliche Gesichtspunkte der Trainingsregel: wann zu aktualisieren ist; was zu aktualisieren ist; und wie die Gewichte zu aktualisieren sind.
Bei der Trainingsregel wird die Erkenntnis, wann zu aktualisieren ist, zum Beispiel durch eine selektive Trainingsmethode bestimmt, die das Gewicht lediglich dann aktualisiert, wenn eine fehlerhafte Klassifizierung vorliegt. Da die Regel verteilt und lokalisiert ist, wird die Kenntnis, was zu aktualisieren ist, dadurch erzielt, daß ein verstärktes Lernen bei dem Unternetz, das der korrekten Klasse entspricht, sowie ein verstärktes Lernen in Gegenrichtung bei dem Unternetz, das der nicht korrekten Klasse entspricht, eingesetzt wird. Eine Aktualisierung unter bzw. gemäß der Regel wird dadurch erreicht, daß die Grenze dadurch eingestellt wird, daß der Gewichtsvektor w entweder in der Richtung des Gradienten der Diskriminanten-Funktion (das heißt ein verstärktes Lernen) oder entgegen­ gesetzt zu dieser Richtung (das heißt ein verstärktes Lernen in Gegenrichtung) aktualisiert wird.
Im folgenden wird die vorstehend gerade erläuterte, entscheidungsbasierte Lernregel (decision-based learning rule) beschrieben. Es sei angenommen, daß S = {x(1), . . . , x(N)} ein Satz von gegebenen Trainingsmustern ist, die jeweils einer der M Klassen {ωi, i = 1, . . . M} entspricht. Jede Klasse ist durch ein Unternetz mit Diskriminanten-Funktionen modelliert, zum Beispiel Φ(x, wi) i = 1, . . . M. Es sei angenommen, daß es bekannt ist, daß das m-te Trainingsmuster X(m) zu der Klasse ωi gehört, und daß gilt
Demgemäß ist die gewinnende Klasse für das Muster die j-te Klasse (Unternetz). Dann und nur dann, wenn j ≠ i ist (das heißt, wenn X(m) fehlerhaft klassifiziert ist, wird die nach­ stehende Aktualisierung durchgeführt.
Typischerweise wird ein Ausgangsknoten zum Repräsentieren einer Klasse bezeichnet. Der Aufbau Alle-Klassen-in-einem-Netzwerk (ACON-Struktur = All-Class-In-One-Network structure) wird bei einem herkömmlichen MLP eingesetzt, bei dem alle Klassen in ein Super-Netzwerk zusammengeballt sind. Das Supernetz steht unter der Belastung, gleichzei­ tig alle Lehrer zu befriedigen, so daß die Anzahl von versteckten Einheiten K dazu tendiert, groß zu sein. Empirische Ergebnisse haben bestätigt, daß die Konvergenzrate des ACON-Netzwerks sich drastisch mit Bezug zu der Netzwerksgröße verschlechtert, da das Trainieren der versteckten Einheiten durch möglicherweise im Widerspruch stehende Signale von unterschiedlichen Lehrern beeinflußt wird.
In Fig. 2A ist eine schematische Darstellung gezeigt, in der das bei der vorliegenden Erfindung eingesetzte, entscheidungsbasierte neurale Netzwerk dargestellt und mit dem Bezugszeichen 30 versehen ist. Wie gezeigt ist, wird bei dem entscheidungsbasierten, neuralen Netzwerk 30 eine Struktur "eine Klasse in einem Netzwerk" (OCON-Struktur = One-Class-In-One-Network structure) eingesetzt, bei der einem Netzwerk lediglich eine Klasse zugeordnet ist. Jedes Unternetz 32, 34 und 36 ist hinsichtlich der Unterteilung seiner eigenen Klasse von den anderen spezialisiert, so daß die Anzahl von versteckten Einheiten üblicherweise gering ist. Experimentelle Ergebnisse, die auf einem breiten Bereich von Anwendungen basieren (OCR bzw. optische Zeichenerkennung, Sprache und Gesichtserkennung, legen nahe, daß drei bis fünf versteckte bzw. verborgene Einheiten je Unternetz vorzuziehen sind. Die OCON-Struktur eines entscheidungsbasierten, neuralen Netzwerks macht dieses für inkrementales Trainieren, daß heißt für eine Erneuerung des Netzwerks bei der Hinzufügung/dem Entfernen von Mitgliedern, am besten geeignet.
Die Trainingsmethode des entscheidungsbasierten, neuralen Netzwerks 30 beruht auf dem Lernen "lokal nicht überwacht, global überwacht" (LUGS-Lernen = Locally Unsupervised Globally Supervised learning). Bei dieser Methode gibt es zwei Phasen: Während der lokal nicht überwachten Phase (LU-Phase) wird jedes Unternetz individuell trainiert, und es kann keine gegenseitige Information zwischen den Klassen benutzt werden. Nach dem Abschluß der lokal nicht überwachten Phase (LU-Phase) tritt das Training in die global überwachte Phase (GS-Phase) ein. In dieser global überwachten Phase wird die Lehrer- Information zur Verstärkung oder zur Anti-Verstärkung (Verstärkung in Gegenrichtung) der Entscheidungsgrenzen eingeführt, die während der lokal nicht überwachten Phase erhalten wurden. Die Diskriminanten-Funktionen in allen Clustern werden in einer zwei­ phasigen Lerntechnik trainiert, die einen globalen Pegel und einen lokalen Pegel aufweist. Bei der dem globalen Pegel entsprechenden Lernphase wird eine überwachte, gegenseitige (entscheidungsbasierte) Lernregel eingesetzt. Bei der dem lokalen Pegel entsprechenden Lernphase erfolgt die Initialisierung stets durch eine nicht überwachte Clusterbildungs- bzw. Gruppenbildungs-Methode wie etwa einem k-Mittelwert (k-mean). Falls zu viele Cluster bzw. Gruppen eingesetzt werden, kann eine Überanpassung resultieren, die ihrerseits wieder die Fähigkeit zur Generalisierung behindert. Eine geeignete Anzahl von Gruppen kann durch eine nicht überwachte Gruppenbildungs-Methode festgelegt werden.
Die Lernregel des entscheidungsbasierten, neuralen Netzwerks 30 wird sehr stark durch die Entscheidungsgrenze beeinflußt bzw. durch diese gesteuert. Wenn die Musterklassen klar getrennt sind, führt ein derartiges Lernen üblicherweise zu einem sehr schnellen und dennoch zufriedenstellenden Lernverhalten. Anwendungsbeispiele enthalten das optische Zeichenlesen OCR und die (begrenzte bzw. finite) Gesichts/Objekt-Erkennung. Unter­ schiedliche Strategien sind notwendig, wenn man es mit einer überlappenden Verteilung und/oder Ergebnissen hinsichtlich falscher Akzeptanz/Zurückweisung zu tun hat, was bei Anwendungen wie etwa der Gesichtserkennung und Verifizierung vorliegt. Bei solchen Anwendungen stellt die vorliegende Erfindung eine probabilistische Variante bzw. Wahr­ scheinlichkeitsvariante des entscheidungsbasierten, neuralen Netzwerks bereit, wie es vorstehend in Verbindung mit dem Gesichtsdetektor 14, der Augenlokalisierungsein­ richtung 18 und der Gesichtserkennungseinrichtung 24 des automatischen Gesichtserken­ nungssystems 10 gemäß Fig. 1 erläutert ist.
Es wird nun auf Fig. 2B Bezug genommen. Dort ist eine als Beispiel dienende Ausfüh­ rungsform eines probabilistischen entscheidungsbasierten, neuralen Netzwerks schematisch gezeigt und mit dem Bezugszeichen 40 versehen. Die Unternetze 42 und 44 des probabili­ stischen, entscheidungsbasierten, neuralen Netzwerks 40 sind derart ausgelegt, daß sie log- Likelihood-Funktionen bzw. Funktionen mit logarithmischer Wahrscheinlichkeit (Likeli­ hood) modellieren. Bei dem probabilistischen, entscheidungsbasierten, neuralen Netzwerk 40 wird ein verstärktes, antiverstärktes Lernen bei allen Clustern bzw. Gruppen des globalen Gewinners und des angenommenen (das heißt des korrekten) Gewinners einge­ setzt, wobei eine Gewichtsverteilung eingesetzt wird, die proportional zu dem Ausmaß der möglichen Beteiligung (durch die Wahrscheinlichkeit gemessen) durch jede Gruppe (Cluster) ist.
Das probabilistische, entscheidungsbasierte, neurale Netzwerk 40 ist derart ausgelegt, daß es die Bayes′schen späteren Wahrscheinlichkeiten (posteriori-Wahrscheinlichkeiten) und Wahrscheinlichkeitsfunkionen annähert. Es ist bekannt, daß der optimale Datenklassifizie­ rer der Bayes-Klassifizierer ist. Wenn angenommen wird, daß M-Klassen {ω₁, . . . ωM} in dem Merkmalsraum vorhanden sind, klassifiziert das Bayes-Entscheidungsnetzwerk die eingegebenen Muster auf der Grundlage ihrer späteren Wahrscheinlichkeiten: Die Ein­ gangsgröße x wird in die Klasse ωi klassifiziert, wenn P(ωi|x) < P(ωj|x) bei allen j ≠ i ist. Es läßt sich zeigen, daß der Bayes-Klassifizierer die minimale Fehlerrate besitzt.
Wenn angenommen wird, daß die Wahrscheinlichkeitsdichte der Eingangsgröße x, der die Klasse ωi zugeordnet ist, eine D-dimensionale Gauß′sche Verteilung ist, läßt sich die spä­ tere bzw. nachträgliche Wahrscheinlichkeit P(ωi|x) durch die Bayes′sche Regel erhalten.
Hierbei bezeichnet P(ωi) die vorhergehende Wahrscheinlichkeit (priori-Wahrscheinlichkeit) der Klasse ωi (durch die Definition
Die Klassen-Wahrscheinlichkeitsfunktion p(x|ωi) kann zu einer Mischung von Gauß′schen Verteilungen ausgedehnt werden. Wenn p(x|ωir) als eine der Gauß′schen Verteilungen definiert wird, die p(x|ωi) enthält:
Hierbei bezeichnet θr = {µr, Σr} den Parametersatz für das Cluster bzw. die Gruppe r, P(θri) die vorhergehende Wahrscheinlichkeit des Clusters r, wenn die Eingangsmuster aus der Klasse ωi stammen, und p(x|ωi, θr) = N(µr, Σr). Durch Definition ist ΣR T=1P(θri) = 1. Bei vielen Anwendungen ist es angebracht, anzunehmen, daß P(ωi) = P(ωj). Daher kann die Likelihood-Wahrscheinlichkeit p(x|ωi) die nachträgliche Wahr­ scheinlichkeit P(ωi|x) ersetzen, um als Diskriminantenfunktion zu dienen.
Die Diskriminantenfunktion jedes Unternetzes in dem probabilistischen, entscheidungsba­ sierten, neuralen Netzwerk modelliert die logarithmische Wahrscheinlichkeitsfunktion:
Die Gesamtdarstellung einer solchen Diskriminantenfunktion ist in Fig. 2B dargestellt, die die Struktur des probabilistischen, entscheidungsbasierten, neuralen Netzwerks veranschau­ licht. Der Funktionsknoten f() ist ein Nichtlinearitäts-Operator. Wenn die Annahme getroffen wird, daß P(ωi) = P(ωj) ist, ist f() ein logarithmischer Operator (Likelihood- Typ). Falls P(ωi) ≠ P(ωj) ist, ist f() ein Normalisierungs-Operator. Sein Zweck besteht darin, zu erreichen, daß sich die Diskriminantenfunktion der nachträglichen Klassenwahr­ scheinlichkeit (nachträglicher Typ) annähert. Das entscheidungsbasierte, neurale Netzwerk, das bei der als Beispiel dienenden Ausführungsform gezeigt ist, ist vom Likelihood-Typ.
Es ist anzumerken, daß ein ausdrücklicher Lehrerwert nicht erforderlich wäre oder ist, auch wenn es sich um ein überwachtes Training handelt, da die Kenntnis des Lehrers hinsichtlich der korrekten Klassifizierung bei dem Training entscheidend ist. In Fig. 3 ist eine schematische Darstellung eines probabilistischen, entscheidungsbasierten, neuralen Netzwerk 40 für die Erfassung von verformbaren Objekten gezeigt. Bei der allgemeinsten Formulierung sollte die Basis-Funktion eines Clusters bzw. einer Gruppe imstande sein, die Gauß′sche Verteilung mit einer vollrangigen Kovarianz-Matrix anzunähern. Eine Hyper-Basis-Funktion (HyperBF = hyper-basis function) ist hierfür bzw. hierbei gemeint. Jedoch entmutigt das Trainingsverhalten und der Speicherraum die Modellierung einer derartigen Matrix bei denjenigen Anwendungen, die sich mit Daten hoher Dimension, jedoch begrenzter Anzahl von Trainingsmustern befassen. Eine natürliche, vereinfachte Annahme besteht darin, unkorrelierte Merkmale mit ungleicher Wichtigkeit anzunehmen.
Dies bedeutet, daß anzunehmen ist, daß p(x|ωi, θr) eine D-dimensionale Gauß′sche Verteilung mit unkorrelierten Merkmalen ist, das heißt
Hierbei bezeichnet µr = [ωr1, ωr2, . . . , ωrD]T den mittleren Vektor bzw. Mittelwertvektor, und die diagonale Matrix Σr = diag[σ²r1, σ²r2, . . . σ²rD] bezeichnet die Kovarianz-Matrix.
Zur Approximierung der Dichtefunktion in der Gleichung (4) werden die elliptischen Basisfunktionen (EBF = elliptic basis function) eingesetzt, um als die Basisfunktion für jedes Cluster zu dienen:
Hierbei gilt:
Nach einer exponentiellen Transformation kann exp{ψ(x, ωi, θr)} als die gleiche Gauß′sche Verteilung wie in Gleichung (4) beschrieben betrachtet werden, mit einer kleineren Benennungsänderung:
Anders ausgedrückt ergibt sich:
Die Lernregeln für das probabilistische, entscheidungsbasierte, neurale Netzwerk 40 sind die folgenden. Bei der Trainingsmethode für das entscheidungsbasierte, neurale Netzwerk wird das LUGS-Prinzip befolgt. Bei der lokal nicht überwachten Phase (LU-Phase) bei dem probabilistischen, entscheidungsbasierten, neuralen Netzwerk können mehrere nicht überwachte Lernmethoden wie etwa LVQ, k-Mean (k-Mittelwert) EM usw. eingesetzt werden. Hinsichtlich des global überwachten Lernens (GS-Lernen) wird die entscheidungs­ basierte Lernregel eingesetzt. Es sein angenommen, daß bekannt ist, daß das m-te Trai­ ningsmuster x(m) zu ωi gehört, und daß
Dies bedeutet, daß die gewinnende Klasse für das Muster die j-te Klasse (Unternetz) ist. Dann und nur dann, wenn j ≠ i ist, (das heißt, wenn x(m) fehlerhaft klassifiziert wird), wird die nachfolgende Aktualisierung durchgeführt:
Falls das Trainingsmuster zu dem sogenannten negativen Trainingssatz (das heißt dem Satz "unbekannt") gehört, wird lediglich die antiverstärkende Lernregel durchgeführt, da keine "korrekte" Klasse zur Verstärkung vorhanden ist.
Die Gradientenvektoren in Gleichung (8) werden in folgender Weise berechnet:
Hierbei gilt:
P(θri) und (Pωi), falls P(ωi) ≠ P(ωj)) kann durch den EM-Algorithmus gelernt werden:
Bei der Epoche bzw. dem Zyklus j:
Da das probabilistische, entscheidungsbasierte, neurale Netzwerk 40 probabilistische Ausgänge bzw. Wahrscheinlichkeits-Ausgangsgrößen bereitstellt, wird ein Ablauf, der ähnlich der Neyman-Pearson-Hypothese ist, zur Aktualisierung des Schwellenwerts befolgt. Demzufolge wird das Testen dadurch bewerkstelligt, daß ein Schwellenwert für die Ausgangsgrößen bzw. Ausgangssignale des Netzwerks eingestellt wird, und daß die Wahrscheinlichkeit eines fehlerhaften Akzeptierens und eines fehlerhaften Zurückweisens berechnet wird. Damit die wahrscheinlichsten Regionen für Muster aus der Klasse ωi ausfindig gemacht werden, ist es bevorzugt, eine Schwelle Ti derart auszuwählen, daß eine Eingangsgröße bzw. ein Eingangssignal x in die Klasse ωi klassifiziert wird, falls log p(x|ωi) < Ti ist. Bei einer Eingangsgröße x, bei der x ein Element von ωi darstellt, (x ∈ ωi), jedoch log p(x|ωi) < Ti ist, sollte Ti seinen Wert verringern. Falls auf der anderen Seite x kein Element von ωi ist, jedoch log p(x|ωi) < Ti ist, sollte Ti anwachsen. Bei der vorliegenden Erfindung wird eine adaptive Lernregel zum Trainieren des Schwellwerts Ti wie folgt vorgeschlagen: Definiere d ≡ Ti - log p(x|ω). Weiterhin wird eine Kostenfunk­ tion l(d) definiert. l(d) kann entweder eine Schrittfunktion bzw. Stufenfunktion, eine lineare Funktion oder eine sigmoidale (bzw. sigmaförmige oder summenförmige) Funktion mit Fuzzy-Entscheidung sein. Sobald das Netzwerk das Training beendet hat, können die Schwellenwerte in folgender Weise trainiert werden: Wenn der positive Lernparameter ηi beim Schritt i bzw. j gegeben ist:
In der nachfolgenden Erläuterung ist die Methode, die zum Erzeugen von Trainingsmu­ stern für das probabilistische, entscheidungsbasierte, neurale Netzwerk eingesetzt wird, in größeren Einzelheiten beschrieben. Im allgemeinen gibt es drei hauptsächliche Gesichts­ punkte für die bei der vorliegenden Erfindung eingesetzte Methode zur Erzeugung von Trainingsmustern. Der erste Gesichtspunkt besteht in der Erzeugung von virtuellen bzw. künstlichen Trainingsmustern. Bei dem Beginn der Trainingsphase wird eine gewisse An­ zahl von Gesichtsbildern ausgewählt, um als Beispiel dienende Gesichts/Augen-Muster zum Trainieren des vorstehend erläuterten Gesichtsdetektors und der Augenlokalisierungs­ einrichtung, die jeweils auf dem entscheidungsbasierten, neuralen Netzwerk basieren, zu erzeugen. Typischerweise können diese als Beispiel dienenden Gesichts/Augen-Muster ma­ nuell aus diesen Bildern extrahiert werden. Für jedes als Beispiel dienende Muster können virtuelle bzw. künstliche Muster dadurch erzeugt werden, daß verschiedene, affine Trans­ formationen wie etwa eine Drehung, eine Skalierung, eine Verschiebung und eine Spiege­ lungsverarbeitung bezüglich des ursprünglichen Musters durchgeführt werden. Mittels dieser Methode wird jedes der als Beispiel dienenden Muster bzw. Musterexemplare zur erneuten Erzeugung einer Anzahl von bis zu 200 künstlichen Trainingsmustern benutzt.
Der zweite Gesichtspunkt ist die Erzeugung von positiven/negativen Trainingsmustern. Nicht alle künstlichen Trainingsmuster werden als gute Gesichts- oder Augenmuster betrachtet. Falls ein künstliches Muster gegenüber dem ursprünglichen Musterexemplar geringfügig gestört bzw. verzerrt ist, wird es in den positiven Trainingssatz eingeschlos­ sen. Dies verstärkt allgemein die Robustheit des neuralen Netzwerks. Falls die Störung bzw. Verzerrung auf der anderen Seite einen gewissen Schwellwert (empirisch durch Versuch und Irrtum festgelegt) überschreitet, wird das künstliche Muster in den negativen Trainingssatz übernommen. Wenn das probabilistische, entscheidungsbasierte, neurale Netzwerk trainiert wird, werden positive Muster für verstärktes Lernen benutzt, während negative Muster für antiverstärktes Lernen eingesetzt werden.
Der dritte Gesichtspunkt besteht in der Erzeugung eines negativen Laufzeit- bzw. Laufdau­ er-Musters. Während der Trainingsphase kann das probabilistische, entscheidungsbasierte, neurale Netzwerk, das sich noch im Training befindet, zur Überprüfung der gesamten Bilddatenbank bei jeweils k Epochen bzw. Zyklen eingesetzt werden. Falls das Netzwerk ein Gesicht (Auge) irgendwo in einem Bild fehlerhaft erfaßt, wird dieses bestimmte Unterbild in den negativen Trainingssatz übernommen.
Da das probabilistische, entscheidungsbasierte, neurale Netzwerk für eine Multi-Sensor- Klassifizierung zweckmäßig ist, kann eine zusätzliche Sensorinformation zur Verbesserung des Erkennungsvermögens leicht eingefügt werden. Zwei Ansätze für eine Multi-Sensor- Klassifizierung sind bei der vorliegenden Erfindung möglich. Der erste Ansatz enthält eine hierarchische Klassifizierung, bei der Sensorinformationen in aufeinanderfolgenden Verarbeitungsstufen kaskadenförmig verarbeitet bzw. behandelt werden. Mögliche Kandi­ daten für einen hierarchischen Sensor sind die Haarlinie bzw. der Haaransatz und der Mund. Der zweite Ansatz enthält eine Multi-Sensor-Verschmelzung, bei der Sensorinfor­ mationen lateral zusammengefaßt werden, um eine verbesserte Klassifizierung zu ergeben.
Es wird nun auf Fig. 4 Bezug genommen. Dort ist ein hierarchisches Informationsverarbei­ tungssystem auf der Basis eines probabilistischen, entscheidungsbasierten, neuralen Netz­ werks gezeigt, das mit dem Bezugszeichen 50 bezeichnet ist. Das System 50 ist gleichartig wie das System gemäß Fig. 1 und enthält weiterhin ein Vorverarbeitungs-Modul 52, das Haaransatz- oder Mund-Merkmale bereitstellt. Gemäß Fig. 4 werden die Haaransatz- Merkmale durch das Vorverarbeitungs-Modul 52 bereitgestellt. Die Haaransatz-Bilder wer­ den an die Gesichts-Verifizierungseinrichtung 54 zusammen mit einer Entscheidungsinfor­ mation angelegt, die durch die Gesichtserkennungseinrichtung 24 erzeugt wird. Allgemein arbeitet dieses System, indem zwei Verarbeitungsstufen kaskadenförmig verschaltet werden. Genauer gesagt, ist eine Gesichtsverifizierungstufe kaskadenförmig nach der (ursprünglichen) Gesichtserkennungsstufe angeordnet. Die Gesichtsverifizierungsein­ richtung 52 selbst ist ein weiterer Klassifizierer in Form eines entscheidungsbasierten, neuralen Netzwerks. Ihre Funktion besteht in der Verifizierung/Zurückweisung der Ent­ scheidung der primären Erkennungseinrichtung. Die Verifizierungseinrichtung kann gemäß der entscheidungsbasierten Lernregel trainiert werden. Der Eingangsvektor ist ein 12 × 8- Merkmalsvektor, der durch Abwärtsabtastung der Stirn/Haaransatz-Region des Gesichts­ bilds erhalten wird. In diesem System sind drei Verifikationsmethoden möglich. Bei der ersten Methode ist in Erinnerung zu rufen, daß jedes Unternetz bzw. Teilnetz der primären DBNN-Erkennungseinrichtung ein Vertrauensergebnis für ein eingegebenes Muster er­ zeugt. Es sei angenommen, daß das höchste Ergebnis in dem i-ten Unternetz erzielt wird. Falls das Vertrauensergebnls des Unternetzes i unterhalb der Schwelle liegt, wird die höchstrangige Wahl der Gesichtsverifizierungseinrichtung überprüft. Falls die beste Übereinstimmung der Stirn/Haaransatz-Region ebenfalls die Klasse i, dann wird die Klasse i erkannt und verifiziert. Andernfalls wird das Testmuster als ein Eindringling beurteilt. Falls das Vertrauensergebnis des Unternetzes i oberhalb der Schwelle liegt, und falls die Klasse i in den obersten k Übereinstimmungen der Stirn/Haaransatz-Region liegt (k ist zum Beispiel gleich 6), wird die Erkennung bestätigt. Andernfalls wird die Person zurückgewie­ sen.
Bei der zweiten Methode werden Ähnlichkeitslisten eingeführt. Jede Klasse hat ihre eigene Ähnlichkeitsliste. Die Längen der Listen verändern sich ebenfalls von Person zu Person. Anfänglich enthält die Ähnlichkeitsliste der Klasse j lediglich die Klasse j selbst. Es sei nun angenommen, daß die DBNN-Gesichtsverifizierungseinrichtung den Trainingsprozeß auf der Basis der entscheidungsbasierten Lernregel abgeschlossen hat. Falls ein Trainings­ muster (ursprünglich aus der Klasse j) in eine andere Klasse klassifiziert bzw. eingereiht worden ist, zum Beispiel das Trainingsmuster k, dann wird die Klasse k zu der Ähnlich­ keitsliste der Klasse j hinzuaddiert. Dieser Prozeß wird solange wiederholt, bis alle Trainingsmuster der bekannten Personen getestet sind.
Im Hinblick auf die Verifikationsregel wird, wenn das Vertrauensergebnis des Unternetzes i unterhalb der Schwelle liegt, die oberste bzw. erste Wahl der Gesichtsverifizierungsein­ richtung überprüft. Falls die beste Übereinstimmung der Stirn/Haaransatz-Region ebenfalls die Klasse i ist, dann wird die Klasse i erkannt und verifiziert. Andernfalls wird das Testmuster als dasjenige eines Eindringlings beurteilt. Falls das Vertrauensergebnis des Unternetzes i oberhalb der Schwelle liegt, und falls die oberste bzw. favorisierteste Klasse der Gesichtsverifizierungseinrichtung sich in der Ähnlichkeitsliste der Klasse i befindet, wird die Erkennung bestätigt. Andernfalls wird die Person zurückgewiesen.
Die dritte Methode ist die gleiche wie die zweite Methode, mit der Ausnahme, daß die Be­ stätigung nun noch strenger gemacht ist. Genauer gesagt kann, wenn sich das Vertrauens­ ergebnis des Unternetzes i unterhalb der Schwelle befindet, dessen Erkennung dennoch be­ stätigt werden, wenn die oberste bzw. primäre Wahl der Gesichtsverifizierungseinrichtung die Klasse i ist und deren Vertrauensergebnis den Schwellenwert der Verifizierungsein­ richtung überschreitet. Andernfalls wird die Person zurückgewiesen. Falls das Vertrauens­ ergebnis des Unternetzes i oberhalb der Schwelle liegt, kann die Erkennung lediglich dann bestätigt werden, wenn die primäre Wahl der Gesichtsverifizierungseinrichtung sich in der Ähnlichkeitsliste der Klasse i befindet und deren Vertrauensergebnis den Schwellwert der Verifizierungseinrichtung überschreitet. Andernfalls wird die Person zurückgewiesen.
Alle diese drei Methoden verbessern das Leistungsvermögen der Gesichtserkennungsein­ richtung beträchtlich. Experimentelle Ergebnisse zeigten, daß die dritte Methode ungefähr die gleiche Rate (Rate falscher Akzeptanz + falscher Zurückweisung) wie die zweite Methode ergibt. Der Unterschied zwischen diesen beiden Methoden besteht darin, daß die Rate fehlerhafter Zurückweisung bei der dritten Methode größer ist, während die Rate fehlerhafter Akzeptanz niedriger ist.
Es wird nun auf Fig. 5 Bezug genommen. Dort ist eine als Beispiel dienende Ausführungs­ form eines entscheidungsbasierten neuralen Netzwerks mit mehreren Kanälen für eine biometrische Erkennung mit mehreren Sensoren gezeigt und mit dem Bezugszeichen 60 versehen. Diese Gestaltung besteht aus mehreren Klassifizierungskanälen C 1, 1 bis C 1, 6 und C2, 1 bis C2, 6, von denen jeder Eingangsvektoren entweder von unterschiedlichen Sensoren oder von einem Abschnitt eines höhere Dimension aufweisenden Merkmals­ vektors empfängt. Hierbei sind die Kanäle C1, 1 bis C1, 6 und C2, 1 bis C2, 6 nicht in primäre oder sekundäre Kategorien unterteilt bzw. unterschieden. Daher ist eine laterale Verschmelzung der Information noch angebrachter. Die Ausgangssignale der Kanäle werden mit einigen geeigneten Gewichtungen W11 bis W26 zusammengefaßt. Der Ge­ wichtsfaktor wird auf der Basis des Vertrauens bzw. der Zuverlässigkeit zugeordnet, das bzw. die der entsprechende Kanal seinem Erkennungsergebnis zumißt. Da das entschei­ dungsbasierte, neurale Netzwerk probabilistische Ausgänge bzw. Wahrscheinlichkeits- Ausgangssignale erzeugt, ist es naturgemäß die Kanalgewichte derart auszulegen, daß sie Wahrscheinlichkeitseigenschaften besitzen. cki bezeichnet das Ausgangssignal des i-ten Unternetzes in dem Kanal k, das gleich p(|ωi, Ck) ist. Weiterhin ist anzumerken, daß das Vertrauens- bzw. Zuverlässigkeitsmaß Wki = P(Cki) und das zusammengefaßte Aus­ gangssignal für das Unternetz i gleich Oi ist, das p(|ωi) ist.
Bei der klassenabhängigen Kanalverschmelzung entsprechen die Gewichtungsfaktoren dem Vertrauen bzw. der Zuverlässigkeit P(Cki) für jeden Kanal. Hierbei repräsentiert P(Cki) die Anzeige für die Zuverlässigkeit im Kanal k, wenn das Testmuster aus der Klasse ωi herrührt. (Definitionsgemäß ist ΣK k=1P(Cki) = 1, so daß sie die Eigen­ schaft einer Wahrscheinlichkeitsfunktion besitzt). Es sei angenommen, daß K Kanäle in dem Unternetz ωi vorhanden sind, und daß innerhalb jedes Kanals R Cluster bzw. Gruppen vorhanden sind. Das Wahrscheinlichkeitsmodell des Netzwerks mit Kanalverschmelzung auf der Basis eines entscheidungsbasierten, neuralen Netzwerks läßt sich in folgender Weise beschreiben:
Hierbei bezeichnet p(x|ωi, Ck) die Diskriminantenfunktion des Unternetzes i in dem Kanal k, während p(x|ωi) die kombinierte Diskriminantenfunktion für die Klasse ωi bezeichnet. Es ist anzumerken, daß x = [x₁T, . . ., xK T]T ist, und daß lediglich xk in der obigen Gleichung enthalten ist, da p(x|ωi, Ck) von Ck bedingungsmäßig abhängig ist. Nachdem alle Parameter in den Kanälen ihr Training abgeschlossen haben, läßt sich die Kanalzuver­ lässigkeit P(Ck, ωi) in folgender Weise erlernen: Es wird αk = P(Cki) definiert. Am Beginn wird
zugeordnet.
Beim Schritt j
Sobald das NN (neurale Netzwerk) trainiert ist, werden die Verschmelzungsgewichte während der Gewinnungsphase bzw. Wiedergewinnungsphase konstant bleiben.
Es wird nun eine noch allgemeinere Version einer mehrkanaligen Verschmelzung vor­ gestellt, die als eine datenabhängige Kanalverschmelzung bezeichnet wird. Anstelle der Benutzung der Wahrscheinlichkeit (Likelihood) der Beobachtung von k, das einer Klasse (p(x|ωi, Ck)) gegeben bzw. zugeordnet ist, um die Diskriminantenfunktion für jedes Cluster zu modellieren, werden die nachträglichen Wahrscheinlichkeiten der Auswahl einer Klasse bei gegebenem x benutzt (pωi|x, Ck)). Bei dieser Version des mehrkanaligen Netzwerks wird eine neue Zuverlässigkeit P(Ck|x) zugeordnet, die für das Vertrauen im Kanal k steht, wenn das Eingangsmuster x ist.
Demgemäß wird das Wahrscheinlichkeitsmodell ebenfalls derart abgeändert, daß es zu
wird.
P(ωi|x, Ck) kann durch P(ωi|x, Ck) = P(ωi|Ck)p(x|ωi, Ck)/p(x|Ck) erhalten werden, und die Zuverlässigkeit P(Ck|x) kann aus den folgenden Gleichungen erhalten werden:
Hierbei kann p(x|Ck) geradlinig aus der Gleichung p(x|Ck) = ΣiP(ωi|Ck)p(x|ωi, Ck) berechnet werden und P(Ck) kann aus der Gleichung (12) in Erfahrung gebracht werden (wobei aber p(x|ωi, Ck) durch p(x|Ck) zu ersetzen ist. Der Ausdruck P(Ck) kann als "das allgemeine Vertrauen" bzw. "die allgemeine Zuverlässigkeit" bezeichnet werden, das bzw. die man bezüglich des Kanals k hat.
Im Unterschied zu dem klassenabhängigen Ansatz müssen die Verschmelzungsgewichte für jedes Testmuster während der Wiedergewinnungsphase berechnet werden.
Im folgenden werden Testergebnisse beschrieben.
Experimentelle Testergebnisse werden nachfolgend kurz zusammengefaßt. Das probabilisti­ sche, entscheidungsbasierte, neurale Netzwerk hat aktuelle Gesichtspositionen wider­ spruchsfrei und zuverlässig bestimmt, und zwar auf der Basis von Experimenten, die für mehr als 1000 Testmuster durchgeführt wurden. Das probabilistische, entscheidungsba­ sierte, neurale Netzwerk ergibt auch ein sehr zufriedenstellendes Lokalisierungsvermögen bei der Augenlokalisierung. Es ist gegenüber kleinen Änderungen der Kopfgröße, der Orientierung des Gesichts (bis zu ungefähr 30%) und dem Vorhandensein von Brillen un­ empfindlich. Die vorliegende Erfindung ist gegenüber starken Veränderungen der Gesichts­ merkmale und der Augenformen sehr robust. Das probabilistische, entscheidungsbasierte, neurale Netzwerk benötigt lediglich 200 ms auf einer Arbeitsstation SUN Sparc20, um menschliche Gesichter in einem Bild mit 320 × 240 Bildelementen aufzufinden. Bei einem Gesichtsbild mit 320 × 240 Bildelementen benötigt das probabilistische, entscheidungsba­ sierte, neurale Netzwerk 500 ms für die Lokalisierung von zwei Augen auf einer Arbeits­ station SUN Sparc20. Aufgrund der inhärenten, parallelen und verteilten Verarbeitungs­ natur des entscheidungsbasierten, neuralen Netzwerks kann diese Technik auch mittels spezialisierter Hardware für ein Echtzeit-Leistungsvermögen einfach implementiert werden.
Nachfolgend wird ein Beispiel des Einsatzvermögens beschrieben, das auf der Grundlage des experimentellen Verhaltens bei öffentlichen Datenbanken (FERET-Datenbank) und im Haus befindlichen Datenbanken (SCR-Datenbanken) durchgeführt wurden. Zunächst wurde ein Experiment bei 200 Personen (jeweils mit zwei Frontansichten) der Datenbank ARPA/ ARL FERET durchgeführt. Ein Bild je Person wurde zum Trainieren und das andere Bild zum Testen benutzt. Ein mit Entscheidungsgrenzen angesteuertes bzw. mit Entscheidungs­ grenzen-Steuerung arbeitendes, entscheidungsbasiertes, neuralen Netzwerk erreicht beim Training eine Genauigkeit von 100% und beim Testen eine Genauigkeit von 96%. Eine verbesserte probabilistische Variante des entscheidungsbasierten, neuralen Netzwerks erreichte eine Erkennungsrate von 99%. Die Datenbank SCR 80 × 20 besteht aus 80 Leuten unterschiedlicher Rasse, unterschiedlichen Alters und unterschiedlichen Ge­ schlechts. Die Datenbank enthält 20 Bilder für jede Person. Falls eine Person eine Brille trägt, sind 10 Bilder mit Brille und 10 ohne Brille. Der Trainingssatz umfaßte 4 Bilder je Person. Der Testsatz enthielt 16 Bilder je Person, das heißt insgesamt 1280 Bilder. Bei allen Bildern erfaßte der Gesichtsdetektor, der auf dem entscheidungsbasierten, neuralen Netzwerk basiert, die Mitte des Gesichts stets korrekt, wodurch eine Erfolgsrate von 100 % erreicht wurde. Die Augenlokalisierung ist eine schwierigere Aufgabe als die Gesichts­ erfassung, insbesondere dann, wenn Brillen vorhanden sind. Von den 1280 Bildern kam die Augenlokalisierungseinrichtung, die auf dem entscheidungsbasierten, neuralen Netz­ werk basiert, bei 5 Bildern zu einer fehlerhaften Erfassung der Augen mit einem Fehler von mehr als 5 Bildelementen. Bei den verbleibenden 1275 Bildern erzielte die Gesichts­ erkennungseinrichtung auf der Basis des entscheidungsbasierten, neuralen Netzwerks eine Erkennungsrate von 100%. Eine Datenbank SCR-IM 40 × 150 bot die Gelegenheit zum Experimentieren mit einer sehr viel größeren Orientierung und anderen Variationen. Die Datenbank enthielt 150 Bilder für jede von 40 Personen. Die Bilder wurden kontinuierlich gewonnen, während die Person ihren Kopf langsam bewegte und drehte. Die Kopfdrehun­ gen lagen nicht nur in einem sehr breiten Winkel (bis zu 45°), sondern auch entlang verschiedener Achsen vor (das heißt links-rechts, oben-unten und verkippte Drehungen). Der Gesichtsdetektor auf DBNN-Basis und die Augenlokalisierungseinrichtung auf DBNN- Basis arbeiteten bei 75% der 6000 Bilder in dieser Datenbank korrekt, was den sogenann­ ten gültigen Datensatz bildete. Ein herkömmlicher Gesichtsdetektor und eine herkömmliche Augenlokalisierungseinrichtung wurden lediglich bezüglich Frontansichten trainiert. Sie konnten Bilder mit Drehungen bis lediglich 30° handhaben. Die Gesichtserkennungsein­ richtung auf DBNN-Basis erzielte eine sehr hohe Erfassungsrate von 98%.
Das hierarchische Gesichtserkennungssystem auf der DBNN-Basis wurde mittels einer Ge­ sichts-Datenbank für 38 Personen getestet. Die hierarchische Klassifizierung reduzierte die fehlerhafte Akzeptanz erheblich von 9,35% auf 0% und die fehlerhafte Zurückweisung von 7,29% auf 2,25%, verglichen mit einer nicht hierarchischen Gesichtserkennung.
Es versteht sich, daß die hier beschriebenen Ausführungsbeispiele lediglich als Beispiel dienen und verschiedenartige Abänderungen und Modifikationen unter Einsatz funktionell äquivalenter Elemente ergriffen werden können.

Claims (31)

1. System zum automatischen Erfassen und Erkennen der Identität eines verformbaren Objekts in einer beliebigen Bildszene, mit
einer Objekterfassungseinrichtung zum Erkennen, ob das Objekt in der beliebi­ gen Bildszene vorhanden ist,
einer Merkmalslokalisierungseinrichtung zum Bestimmen der Position eines bestimmten identifizierenden Merkmals an dem Objekt, wobei die Merkmalslokalisierungs­ einrichtung mit der Objekterfassungseinrichtung gekoppelt ist,
einer Merkmalsextrahiereinrichtung, die mit der Merkmalslokalisierungsein­ richtung gekoppelt ist und zum Empfangen von Koordinaten, die von der Merkmals­ lokalisierungseinrichtung abgegeben werden und die die Position des identifizierenden Merkmals anzeigen, und zum Herausgreifen von Informationen aus den Koordinaten dient, wobei die Informationen mit anderen Merkmalen des Objekts zusammenhängen, die zur Erzeugung eines geringe Auflösung besitzenden Bilds des Objekts eingesetzt werden, und
einer Objekterkennungseinrichtung zum Ermitteln der Identität des Objekts, wobei die Objekterkennungseinrichtung mit der Merkmalsextrahiereinrichtung gekoppelt ist und dahingehend betreibbar ist, daß sie das geringe Auflösung besitzende Bild des Objekts, das von der Merkmalsextrahiereinrichtung zugeführt wird, zur Identifizierung des Objekts empfängt.
2. System nach Anspruch 1, gekennzeichnet durch eine Bildgabeein­ richtung zur Gewinnung der beliebigen Bildszene, aus der das Objekt erfaßt und erkannt wird, wobei die Bildgabeeinrichtung mit dem Objektdetektor gekoppelt ist.
3. System nach Anspruch 1, gekennzeichnet durch eine erste Spei­ chereinrichtung zum Speichern von Informationen, die mit dem Objekt zusammenhängen, wobei die erste Speichereinrichtung mit der Objekterfassungseinrichtung verknüpft ist.
4. System nach einem der vorhergehenden Ansprüche, gekennzeich­ net durch eine zweite Speichereinrichtung zum Speichern von Informationen, die mit dem identifizierenden Merkmal des Objekts zusammenhängen, wobei die zweite Speicher­ einrichtung mit der Merkmalslokalisierungseinrichtung verknüpft ist.
5. System nach einem der vorhergehenden Ansprüche, gekennzeich­ net durch eine dritte Speichereinrichtung zum Speichern von Informationen, die mit der Identität des Objekts zusammenhängen, wobei die dritte Speichereinrichtung mit der Objekterkennungseinrichtung verknüpft ist.
6. System nach einem der vorhergehenden Ansprüche, dadurch gekenn­ zeichnet, daß die Objekterfassungseinrichtung, die Merkmalslokalisierungsein­ richtung und die Objekterkennungseinrichtung jeweils als ein entscheidungsbasiertes, neurales Netzwerk implementiert sind.
7. System nach Anspruch 6, dadurch gekennzeichnet, daß das entscheidungsbasierte, neurale Netzwerk einen Aufbau mit "eine Klasse in einem Netz­ werk" besitzt, der eine Mehrzahl von Unternetzen und eine Mehrzahl von Klassen auf­ weist, wobei jedes der Unternetze einer der Klassen zugeordnet ist, um diese von den anderen Klassen zu unterscheiden.
8. System nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß das entscheidungsbasierte, neurale Netzwerk ein Trainingsschema enthält, das eine erste Phase und eine zweite Phase umfaßt, wobei die erste Phase das individuelle Trainieren jedes der Unternetze ohne gegenseitigen Austausch von Informationen zwischen den Klassen beinhaltet und die zweite Phase ein verstärkendes Lernen und ein anti-verstärken­ des Lernen des während der ersten Phase erzielten Lernens beinhaltet.
9. System nach einem der Ansprüche 6 bis 8, dadurch gekennzeich­ net, daß das entscheidungsbasierte, neurale Netzwerk ein probabilistisches, entschei­ dungsbasiertes, neurales Netzwerk aufweist, wobei das verstärkende Lernen und das antiverstärkende Lernen durch ein Trainingsmuster x(m) bereitgestellt werden, das zu einer Klasse gehört, wobei gilt: wobei das verstärkende Lernen in folgender Weise durchgeführt wird: und das anti-verstärkende Lernen gemäß der folgenden Beziehung durchgeführt wird:
10. System nach Anspruch 8, dadurch gekennzeichnet, daß das entscheidungsbasierte, neurale Netzwerk ein probabilistisches, entscheidungsbasiertes, neurales Netzwerk aufweist, das eine Mehrzahl von probabilistischen Ausgangssignalen enthält, von denen jeder einen Schwellenwert hat, der gemäß einer adaptiven Lernregel trainiert ist:
11. System nach einem der Ansprüche 1 bis 5, dadurch gekennzeich­ net, daß die Objekterfassungseinrichtung, die Merkmalslokalisierungseinrichtung und die Objekterkennungseinrichtung jeweils durch ein probabilistisches, entscheidungsbasiertes, neurales Netzwerk implementiert sind.
12. System nach Anspruch 11, dadurch gekennzeichnet, daß das probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Unternetzen enthält, wobei jedes Unternetz eine Mehrzahl von Cluster-Basisfunktionen aufweist, die vorhergehende Cluster-Wahrscheinlichkeiten gemäß der folgenden Beziehung aufweisen:
13. System nach Anspruch 11, dadurch gekennzeichnet, daß das probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Unternetzen enthält, von denen jedes eine Mehrzahl von elliptischen Basisfunktionen gemäß der folgenden Beziehung aufweist:
14. System nach Anspruch 11, dadurch gekennzeichnet, daß das probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Unternetzen enthält, von denen jedes eine Diskriminantenfunktion enthält, die einen Nichtlinearitäts- Operator aufweist.
15. System nach Anspruch 14, dadurch gekennzeichnet, daß die Diskriminantenfunktion einen logarithmischen Operator aufweist, der eine logarithmische Wahrscheinlichkeitsfunktion approximiert:
16. System nach Anspruch 14, dadurch gekennzeichnet, daß die Diskriminantenfunktion einen Normalisierungs-Operator aufweist, der eine nachträgliche Klassenwahrscheinlichkeit approximiert.
17. System nach Anspruch 11, gekennzeichnet durch eine Objektve­ rifizierungseinrichtung, die als ein probabilistisches, entscheidungsbasiertes, neurales Netzwerk zum Verifizieren der Entscheidung der Objekterkennungseinrichtung implemen­ tiert ist, wobei die Objektverifizierungseinrichtung zusätzliche Information bezüglich des Objekts empfängt, die in aufeinanderfolgenden Verarbeitungsstufen in einer hierarchischen Weise mittels der Objektverifizierungseinrichtung kaskadenförmig bearbeitet werden.
18. System nach Anspruch 11, dadurch gekennzeichnet, daß das probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Klassifizie­ rer-Kanälen aufweist, die jeweils einen Ausgang haben, wobei die Ausgänge lateral bzw. seitlich durch Gewichten der Kanäle verschmolzen werden.
19. System nach Anspruch 11, dadurch gekennzeichnet, daß das probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Klassifizie­ rer-Kanälen aufweist, die jeweils einen Ausgang haben, wobei die Ausgänge durch eine klassenabhängige Kanalverschmelzung lateral bzw. seitlich gemäß der folgenden Gleichung verschmolzen bzw. zusammengefaßt werden:
20. System nach Anspruch 11, dadurch gekennzeichnet, daß das probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Klassifizie­ rer-Kanälen aufweist, die jeweils einen Ausgang bzw. ein Ausgangssignal haben, wobei die Ausgänge bzw. Ausgangssignale durch eine datenabhängige Kanalverschmelzung gemäß der folgenden Gleichung seitlich bzw. lateral verknüpft werden:
21. System nach einem der vorhergehenden Ansprüche, dadurch gekenn­ zeichnet, daß das Objekt ein menschliches Gesicht aufweist und daß das identifizie­ rende Merkmal ein Augenpaar in dem menschlichen Gesicht enthält.
22. Verfahren zum automatischen Erfassen und Erkennen der Identität eines verformbaren Objekts in einer beliebigen Bildszene, mit den Schritten:
Vorverarbeiten der Bildszene zu Unterbildern,
Vergleichen jedes der Unterbilder mit einer Datenbank eines Objektdetektors, die unterschiedliche Versionen des Objekts speichert, um hierdurch zu ermitteln, ob irgendeines der Unterbilder das Objekt ist,
Lokalisieren der Koordinaten eines identifizierenden Merkmals an dem Objekt durch Vergleichen der Koordinaten mit einer Datenbank einer Merkmalslokalisierungsein­ richtung, die Koordinaten speichert, die unterschiedliche Versionen des identifizierenden Merkmals anzeigen,
Herausgreifen von Informationen, die mit anderen Merkmalen des Objekts zusammenhängen, aus den Koordinaten, um eine geringe Auflösung besitzendes Bild des Objekts zu erzeugen,
Eingeben des geringe Auflösung aufweisenden Bilds des Objektbilds in eine Objekterkennungseinrichtung, und
Bestimmen der Identität des Objekts.
23. Verfahren nach Anspruch 21, dadurch gekennzeichnet, daß der Schritt des Vergleichens jedes der Unterbilder mit der Datenbank des Objektdetektors die weiteren Schritte enthält:
Erzeugen eines Erfassungsergebnisses für jedes Unterbild,
Erzeugen eines Vertrauensergebnisses bzw. einer Quote für jedes Unterbild, das bzw. die das Vertrauen bzw. die Zuverlässigkeit bezüglich des Erfassungsergebnisses anzeigt, und
Vergleichen des Vertrauensergebnisses bzw. Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei das Objekt erfaßt wird, wenn das Ver­ trauensmaß oberhalb des vorbestimmten, trainierten Schwellwerts liegt, und das Objekt nicht erfaßt wird, wenn das Zuverlässigkeitsmaß unterhalb des vorbestimmten, trainierten Schwellwerts liegt.
24. Verfahren nach Anspruch 22, dadurch gekennzeichnet, daß der Schritt des Herausgreifens von Informationen, die mit anderen Merkmalen des Objekts zusammenhängen, die weiteren Schritte aufweist:
Einstellen der Intensität und der Ränder des identifizierenden Merkmals und der anderen Merkmale, um ein normalisiertes bzw. standardisiertes und rekonditioniertes Ob­ jektbild zu erzeugen und
Verringern der Auflösung des Objektbilds.
25. Verfahren nach einem der Ansprüche 22 bis 24, dadurch gekenn­ zeichnet, daß der Schritt der Bestimmung der Identität des Objektbilds die weiteren Schritte enthält:
Erzeugen eines Erfassungsergebnisses für das geringe Auflösung aufweisende Objektbild,
Erzeugen eines Vertrauens- bzw. Zuverlässigkeitsmaßes für das Objektbild, das das Vertrauen bzw. die Zuverlässigkeit hinsichtlich des Erfassungsergebnisses anzeigt, und
Vergleichen des Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei das Objektbild identifiziert wird, wenn das Zuverlässigkeitsmaß oberhalb des vorbestimmten, trainierten Schwellwerts liegt, während das Objektbild nicht identifiziert wird, wenn das Zuverlässigkeitsmaß unterhalb des vorbestimmten, trainierten Schwellwerts liegt.
26. Verfahren nach einem der Ansprüche 22 bis 25, dadurch gekenn­ zeichnet, daß das verformbare Objekt ein menschliches Gesicht aufweist, daß das identifizierende Merkmal Augen enthält, daß die anderen Merkmale Augenbrauen, eine Nase, einen Mund und einen Haaransatz enthalten, und daß das Objektbild die Augen und den Mund aufweist.
27. Verfahren nach einem der Ansprüche 22 bis 26, dadurch gekenn­ zeichnet, daß die Schritte des Vergleichens der Unterbilder mit der Datenbank des Objektdetektors, der Lokalisierung der Koordinaten des identifizierenden Merkmals an dem Objekt, und der Bestimmung der Identität des Objektbilds jeweils durch ein probabili­ stisches, entscheidungsbasiertes, neurales Netzwerk implementiert werden.
28. Verfahren nach einem der Ansprüche 22 bis 27, gekennzeich­ net durch den Schritt der Verifizierung der Identität des Objekts.
29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, daß der Verifizierungsschritt durch ein probabilistisches, entscheidungsbasiertes, neurales Netzwerk implementiert wird.
30. Verfahren nach einem der Ansprüche 22 bis 29, dadurch gekenn­ zeichnet, daß der Schritt der Bestimmung der Identität des Objektbilds die weiteren Schritte enthält:
Bereitstellen einer angeblichen Identität des Objekts durch eine separate Identifizierungseinrichtung,
Erzeugen eines Vertrauens- bzw. Zuverlässigkeitsmaßes, das die Zuverlässig­ keit der angeblichen Identität anzeigt, aus dem geringe Auflösung aufweisenden Objekt­ bild,
Vergleichen des Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei die angebliche Identität des Objekts bestätigt wird, wenn das Zuver­ lässigkeitsmaß oberhalb des trainierten Schwellwerts liegt, während die angebliche Identität des Objekts nicht bestätigt wird, wenn das Zuverlässigkeitsmaß unterhalb des trainierten Schwellwerts liegt.
31. Verfahren nach Anspruch 30, dadurch gekennzeichnet, daß der Schritt der Erzeugung des Zuverlässigkeitsmaßes durch ein probabilistisches, entschei­ dungsbasiertes, neurales Netzwerk durchgeführt wird.
DE19634769A 1995-08-30 1996-08-28 Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts Ceased DE19634769A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/521,176 US5850470A (en) 1995-08-30 1995-08-30 Neural network for locating and recognizing a deformable object

Publications (1)

Publication Number Publication Date
DE19634769A1 true DE19634769A1 (de) 1997-03-06

Family

ID=24075676

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19634769A Ceased DE19634769A1 (de) 1995-08-30 1996-08-28 Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts

Country Status (2)

Country Link
US (1) US5850470A (de)
DE (1) DE19634769A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006021518A1 (de) * 2006-05-04 2007-11-15 LÜTH & DÜMCHEN Automatisierungsprojekt GmbH Räumlich und zeitlich verteilte Einrichtungen und Verfahren zur Gesichtserkennung zwecks Identifikation oder Verifikation
DE102006057948A1 (de) * 2006-12-08 2008-06-12 Giesecke & Devrient Gmbh Portabler Datenträger zur biometrischen Benutzererkennung

Families Citing this family (223)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US6418424B1 (en) 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US6661906B1 (en) * 1996-12-19 2003-12-09 Omron Corporation Image creating apparatus
US6907135B2 (en) * 1997-03-03 2005-06-14 British Telecommunications Public Limited Company Security check provision
JP3222091B2 (ja) * 1997-05-27 2001-10-22 シャープ株式会社 画像処理装置及び画像処理装置制御プログラムを記憶した媒体
US7738015B2 (en) 1997-10-09 2010-06-15 Fotonation Vision Limited Red-eye filter method and apparatus
US7042505B1 (en) 1997-10-09 2006-05-09 Fotonation Ireland Ltd. Red-eye filter method and apparatus
US7630006B2 (en) 1997-10-09 2009-12-08 Fotonation Ireland Limited Detecting red eye filter and apparatus using meta-data
US6035055A (en) * 1997-11-03 2000-03-07 Hewlett-Packard Company Digital image management system in a distributed data access network system
US6108437A (en) * 1997-11-14 2000-08-22 Seiko Epson Corporation Face recognition apparatus, method, system and computer readable medium thereof
US6941274B1 (en) * 1997-11-28 2005-09-06 Diebold, Incorporated Automated transaction machine
US6606398B2 (en) * 1998-09-30 2003-08-12 Intel Corporation Automatic cataloging of people in digital photographs
US6480814B1 (en) * 1998-10-26 2002-11-12 Bennett Simeon Levitan Method for creating a network model of a dynamic system of interdependent variables from system observations
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP2000259814A (ja) * 1999-03-11 2000-09-22 Toshiba Corp 画像処理装置及びその方法
WO2000055811A1 (fr) * 1999-03-12 2000-09-21 Sony Corporation Processeur de donnees, procede de traitement de donnees, et support d'enregistrement
JP2000350123A (ja) * 1999-06-04 2000-12-15 Fuji Photo Film Co Ltd 画像選択装置、カメラ、画像選択方法及び記録媒体
US6944319B1 (en) * 1999-09-13 2005-09-13 Microsoft Corporation Pose-invariant face recognition system and process
US6741756B1 (en) * 1999-09-30 2004-05-25 Microsoft Corp. System and method for estimating the orientation of an object
US6698653B1 (en) 1999-10-28 2004-03-02 Mel Diamond Identification method, especially for airport security and the like
US6594382B1 (en) * 1999-11-04 2003-07-15 The United States Of America As Represented By The Secretary Of The Navy Neural sensors
AUPQ464099A0 (en) * 1999-12-14 2000-01-13 Canon Kabushiki Kaisha Emotive editing system
US6816085B1 (en) 2000-01-14 2004-11-09 Michael N. Haynes Method for managing a parking lot
US7123166B1 (en) 2000-11-17 2006-10-17 Haynes Michael N Method for managing a parking lot
US6940545B1 (en) * 2000-02-28 2005-09-06 Eastman Kodak Company Face detecting camera and method
US6504470B2 (en) 2000-05-19 2003-01-07 Nextgenid, Ltd. Access control method and apparatus for members and guests
US6496595B1 (en) 2000-05-19 2002-12-17 Nextgenid, Ltd. Distributed biometric access control apparatus and method
US6671391B1 (en) * 2000-05-26 2003-12-30 Microsoft Corp. Pose-adaptive face detection system and process
US7110570B1 (en) 2000-07-21 2006-09-19 Trw Inc. Application of human facial features recognition to automobile security and convenience
US7398555B2 (en) * 2000-08-28 2008-07-08 Fujitsu Limited Electronic apparatus and medium
EP1202214A3 (de) * 2000-10-31 2005-02-23 Matsushita Electric Industrial Co., Ltd. Verfahren und Gerät zur Erkennung von Gegenständen
US7099510B2 (en) * 2000-11-29 2006-08-29 Hewlett-Packard Development Company, L.P. Method and system for object detection in digital images
US6975750B2 (en) * 2000-12-01 2005-12-13 Microsoft Corp. System and method for face recognition using synthesized training images
US7379926B1 (en) * 2001-02-09 2008-05-27 Remington Partners Data manipulation and decision processing
US6895520B1 (en) 2001-03-02 2005-05-17 Advanced Micro Devices, Inc. Performance and power optimization via block oriented performance measurement and control
US6768815B2 (en) 2001-05-10 2004-07-27 The United States Of America As Represented By The Secretary Of The Navy Color sensor
US7274800B2 (en) * 2001-07-18 2007-09-25 Intel Corporation Dynamic gesture recognition from stereo sequences
US8218829B2 (en) * 2001-08-20 2012-07-10 Polycom, Inc. System and method for using biometrics technology in conferencing
WO2003028376A1 (en) * 2001-09-14 2003-04-03 Vislog Technology Pte Ltd Customer service counter/checkpoint registration system with video/image capturing, indexing, retrieving and black list matching function
US7218775B2 (en) * 2001-09-17 2007-05-15 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Agriculture And Agrifood Method and apparatus for identifying and quantifying characteristics of seeds and other small objects
US20030053662A1 (en) * 2001-09-19 2003-03-20 Koninklijke Philips Electronics N.V. Method and apparatus for digital encoding and operator identification using stored user image
US7286692B2 (en) * 2001-12-27 2007-10-23 Amnart Kanarat Automatic celebrity face matching and attractiveness rating machine
US6734798B2 (en) 2002-01-31 2004-05-11 Ervin M. Smith Fuel dispenser with a human detection and recognition system
AUPS140502A0 (en) * 2002-03-27 2002-05-09 Seeing Machines Pty Ltd Method for automatic detection of facial features
US7369685B2 (en) * 2002-04-05 2008-05-06 Identix Corporation Vision-based operating method and system
US20040052418A1 (en) * 2002-04-05 2004-03-18 Bruno Delean Method and apparatus for probabilistic image analysis
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US20030212552A1 (en) * 2002-05-09 2003-11-13 Liang Lu Hong Face recognition procedure useful for audiovisual speech recognition
CA2390056A1 (en) * 2002-06-07 2003-12-07 Du Pont Canada Inc. Method and system for managing commodity information in a supply chain of production
WO2004029659A2 (en) * 2002-06-14 2004-04-08 Honda Giken Kogyo Kabushiki Kaisha Pedestrian detection and tracking with night vision
US6959109B2 (en) * 2002-06-20 2005-10-25 Identix Incorporated System and method for pose-angle estimation
US7171043B2 (en) 2002-10-11 2007-01-30 Intel Corporation Image recognition using hidden markov models and coupled hidden markov models
EP1576815A1 (de) 2002-12-11 2005-09-21 Nielsen Media Research, Inc. Ermittlung der zuschauerzusammensetzung
US7203338B2 (en) * 2002-12-11 2007-04-10 Nielsen Media Research, Inc. Methods and apparatus to count people appearing in an image
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7203368B2 (en) * 2003-01-06 2007-04-10 Intel Corporation Embedded bayesian network for pattern recognition
WO2004075105A2 (en) * 2003-02-20 2004-09-02 Intelligent Mechatronic Systems Inc. Adaptive visual occupant detection and classification system
US20040208388A1 (en) * 2003-04-21 2004-10-21 Morgan Schramm Processing a facial region of an image differently than the remaining portion of the image
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US8494286B2 (en) 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US8330831B2 (en) 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US7689009B2 (en) 2005-11-18 2010-03-30 Fotonation Vision Ltd. Two stage detection for photographic eye artifacts
US7616233B2 (en) 2003-06-26 2009-11-10 Fotonation Vision Limited Perfecting of digital image capture parameters within acquisition devices using face detection
US7970182B2 (en) 2005-11-18 2011-06-28 Tessera Technologies Ireland Limited Two stage detection for photographic eye artifacts
US7920723B2 (en) 2005-11-18 2011-04-05 Tessera Technologies Ireland Limited Two stage detection for photographic eye artifacts
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US7844076B2 (en) 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US7565030B2 (en) 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US8036458B2 (en) 2007-11-08 2011-10-11 DigitalOptics Corporation Europe Limited Detecting redeye defects in digital images
US7440593B1 (en) 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US8254674B2 (en) 2004-10-28 2012-08-28 DigitalOptics Corporation Europe Limited Analyzing partial face regions for red-eye detection in acquired digital images
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US8155397B2 (en) 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US7620218B2 (en) 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US8170294B2 (en) 2006-11-10 2012-05-01 DigitalOptics Corporation Europe Limited Method of detecting redeye in a digital image
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
WO2005006278A2 (en) * 2003-06-30 2005-01-20 Honda Motor Co., Ltd. Systems and methods for training component-based object identification systems
US7783082B2 (en) * 2003-06-30 2010-08-24 Honda Motor Co., Ltd. System and method for face recognition
US7310442B2 (en) * 2003-07-02 2007-12-18 Lockheed Martin Corporation Scene analysis surveillance system
US9412007B2 (en) 2003-08-05 2016-08-09 Fotonation Limited Partial face detector red-eye filter method and apparatus
US8520093B2 (en) 2003-08-05 2013-08-27 DigitalOptics Corporation Europe Limited Face tracker and partial face tracker for red-eye filter method and apparatus
JP2007521572A (ja) * 2003-09-10 2007-08-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ フィーチャー認識のための装置及び方法
WO2005034025A1 (en) * 2003-10-08 2005-04-14 Xid Technologies Pte Ltd Individual identity authentication systems
US7366325B2 (en) * 2003-10-09 2008-04-29 Honda Motor Co., Ltd. Moving object detection using low illumination depth capable computer vision
US7697026B2 (en) * 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
JP2005346806A (ja) * 2004-06-02 2005-12-15 Funai Electric Co Ltd Dvdレコーダおよび記録再生装置
JP4419759B2 (ja) * 2004-09-01 2010-02-24 株式会社ニコン 電子カメラシステム
JP2006079458A (ja) * 2004-09-10 2006-03-23 Fuji Photo Film Co Ltd 画像伝送システム、画像伝送方法、及び画像伝送プログラム
WO2006036150A1 (en) * 2004-09-28 2006-04-06 Nielsen Media Research, Inc Data classification methods and apparatus for use with data fusion
WO2006040761A2 (en) * 2004-10-15 2006-04-20 Oren Halpern A system and a method for improving the captured images of digital still cameras
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
KR100775005B1 (ko) 2004-12-07 2007-11-08 한국전자통신연구원 사용자 인식 시스템 및 그 방법
US7634113B2 (en) * 2004-12-07 2009-12-15 Electronics And Telecommunications Research Institute User authentication system and method thereof
US7734067B2 (en) * 2004-12-07 2010-06-08 Electronics And Telecommunications Research Institute User recognition system and method thereof
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US8503800B2 (en) 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
US8190540B2 (en) * 2005-01-14 2012-05-29 Ultra-Scan Corporation Multimodal fusion decision logic system for determining whether to accept a specimen
US7558765B2 (en) 2005-01-14 2009-07-07 Ultra-Scan Corporation Multimodal fusion decision logic system using copula model
US8130285B2 (en) * 2005-04-05 2012-03-06 3Vr Security, Inc. Automated searching for probable matches in a video surveillance system
US7813581B1 (en) 2005-05-06 2010-10-12 Fitzpatrick Ben G Bayesian methods for noise reduction in image processing
US7860344B1 (en) 2005-05-06 2010-12-28 Stochastech Corporation Tracking apparatus and methods using image processing noise reduction
US7590267B2 (en) * 2005-05-31 2009-09-15 Microsoft Corporation Accelerated face detection based on prior probability of a view
US20060291697A1 (en) * 2005-06-21 2006-12-28 Trw Automotive U.S. Llc Method and apparatus for detecting the presence of an occupant within a vehicle
US20070009139A1 (en) * 2005-07-11 2007-01-11 Agere Systems Inc. Facial recognition device for a handheld electronic device and a method of using the same
JP4750520B2 (ja) * 2005-09-21 2011-08-17 富士フイルム株式会社 人物画像補正装置および方法
US20070106797A1 (en) * 2005-09-29 2007-05-10 Nortel Networks Limited Mission goal statement to policy statement translation
US20070071288A1 (en) * 2005-09-29 2007-03-29 Quen-Zong Wu Facial features based human face recognition method
US7885458B1 (en) * 2005-10-27 2011-02-08 Nvidia Corporation Illuminant estimation using gamut mapping and scene classification
US7599577B2 (en) 2005-11-18 2009-10-06 Fotonation Vision Limited Method and apparatus of correcting hybrid flash artifacts in digital images
US20070153091A1 (en) * 2005-12-29 2007-07-05 John Watlington Methods and apparatus for providing privacy in a communication system
WO2007095553A2 (en) 2006-02-14 2007-08-23 Fotonation Vision Limited Automatic detection and correction of non-red eye flash defects
US8334993B2 (en) 2006-03-01 2012-12-18 Fotomedia Technologies, Llc Methods, systems, and computer program products for associating an image with a communication characteristic
US7783085B2 (en) 2006-05-10 2010-08-24 Aol Inc. Using relevance feedback in face recognition
US7907755B1 (en) 2006-05-10 2011-03-15 Aol Inc. Detecting facial similarity based on human perception of facial similarity
WO2008039252A2 (en) 2006-05-15 2008-04-03 Retica Systems, Inc. Multimodal ocular biometric system
US20070291104A1 (en) * 2006-06-07 2007-12-20 Wavetronex, Inc. Systems and methods of capturing high-resolution images of objects
ATE497218T1 (de) 2006-06-12 2011-02-15 Tessera Tech Ireland Ltd Fortschritte bei der erweiterung der aam- techniken aus grauskalen- zu farbbildern
US20080004892A1 (en) * 2006-06-30 2008-01-03 Jerry Zucker Biometric aid for customer relations
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US7403643B2 (en) 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US8121356B2 (en) 2006-09-15 2012-02-21 Identix Incorporated Long distance multimodal biometric system and method
WO2008033784A2 (en) * 2006-09-15 2008-03-20 Retica Systems, Inc. Long distance multimodal biometric system and method
US8170293B2 (en) 2006-09-15 2012-05-01 Identix Incorporated Multimodal ocular biometric system and methods
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
JP4845755B2 (ja) 2007-01-30 2011-12-28 キヤノン株式会社 画像処理装置、画像処理方法、プログラム及び記憶媒体
EP2115662B1 (de) 2007-02-28 2010-06-23 Fotonation Vision Limited Trennung der direktionalen beleuchtungsvariabilität in der statistischen gesichtsmodellierung auf basis von texturraumzerlegungen
KR101247147B1 (ko) 2007-03-05 2013-03-29 디지털옵틱스 코포레이션 유럽 리미티드 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출
KR101159830B1 (ko) 2007-03-05 2012-06-26 디지털옵틱스 코포레이션 유럽 리미티드 얼굴 위치 및 방위를 이용한 적목 거짓 양성 필터링 방법
US8564687B2 (en) * 2007-05-07 2013-10-22 Nvidia Corporation Efficient determination of an illuminant of a scene
US7916971B2 (en) 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus
JP4703605B2 (ja) * 2007-05-31 2011-06-15 アイシン・エィ・ダブリュ株式会社 地物抽出方法、並びにそれを用いた画像認識方法及び地物データベース作成方法
US8698917B2 (en) * 2007-06-04 2014-04-15 Nvidia Corporation Reducing computational complexity in determining an illuminant of a scene
US7844085B2 (en) * 2007-06-07 2010-11-30 Seiko Epson Corporation Pairwise feature learning with boosting for use in face detection
KR101363017B1 (ko) * 2007-08-23 2014-02-12 삼성전자주식회사 얼굴영상 촬영 및 분류 시스템과 방법
GB2465716A (en) * 2007-09-07 2010-06-02 Ultra Scan Corp Multimodal fusion decision logic system using copula model
US8503818B2 (en) 2007-09-25 2013-08-06 DigitalOptics Corporation Europe Limited Eye defect detection in international standards organization images
US8750574B2 (en) * 2007-12-31 2014-06-10 Applied Recognition Inc. Method, system, and computer program for identification and sharing of digital images with face signatures
US9721148B2 (en) 2007-12-31 2017-08-01 Applied Recognition Inc. Face detection and recognition
US9639740B2 (en) 2007-12-31 2017-05-02 Applied Recognition Inc. Face detection and recognition
US8212864B2 (en) 2008-01-30 2012-07-03 DigitalOptics Corporation Europe Limited Methods and apparatuses for using image acquisition data to detect and correct image defects
US8693737B1 (en) * 2008-02-05 2014-04-08 Bank Of America Corporation Authentication systems, operations, processing, and interactions
US7855737B2 (en) 2008-03-26 2010-12-21 Fotonation Ireland Limited Method of making a digital camera image of a scene including the camera user
CA2719504A1 (en) 2008-04-14 2009-10-22 Thomson Licensing Technique for automatically tracking an object
JP5121681B2 (ja) * 2008-04-30 2013-01-16 株式会社日立製作所 生体認証システム、認証クライアント端末、及び生体認証方法
TWI410878B (zh) * 2008-05-09 2013-10-01 Princeton Technology Corp 影像辨別裝置及其方法
CN106919911A (zh) 2008-07-30 2017-07-04 快图有限公司 使用脸部检测的自动脸部和皮肤修饰
US8411963B2 (en) * 2008-08-08 2013-04-02 The Nielsen Company (U.S.), Llc Methods and apparatus to count persons in a monitored environment
US8081254B2 (en) 2008-08-14 2011-12-20 DigitalOptics Corporation Europe Limited In-camera based method of detecting defect eye with high accuracy
JP4623193B2 (ja) * 2008-09-29 2011-02-02 カシオ計算機株式会社 撮像装置、撮像方法、及びプログラム
JP2010147808A (ja) * 2008-12-18 2010-07-01 Olympus Imaging Corp 撮像装置および撮像装置における画像処理方法
JP2010165052A (ja) * 2009-01-13 2010-07-29 Canon Inc 画像処理装置及び画像処理方法
US8774498B2 (en) * 2009-01-28 2014-07-08 Xerox Corporation Modeling images as sets of weighted features
US8254699B1 (en) * 2009-02-02 2012-08-28 Google Inc. Automatic large scale video object recognition
US8379940B2 (en) * 2009-06-02 2013-02-19 George Mason Intellectual Properties, Inc. Robust human authentication using holistic anthropometric and appearance-based features and boosting
US8194938B2 (en) * 2009-06-02 2012-06-05 George Mason Intellectual Properties, Inc. Face authentication using recognition-by-parts, boosting, and transduction
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
US8884813B2 (en) 2010-01-05 2014-11-11 The Invention Science Fund I, Llc Surveillance of stress conditions of persons using micro-impulse radar
US9069067B2 (en) 2010-09-17 2015-06-30 The Invention Science Fund I, Llc Control of an electronic apparatus using micro-impulse radar
US9019149B2 (en) 2010-01-05 2015-04-28 The Invention Science Fund I, Llc Method and apparatus for measuring the motion of a person
US20110166937A1 (en) * 2010-01-05 2011-07-07 Searete Llc Media output with micro-impulse radar feedback of physiological response
US9024814B2 (en) * 2010-01-05 2015-05-05 The Invention Science Fund I, Llc Tracking identities of persons using micro-impulse radar
US8872887B2 (en) * 2010-03-05 2014-10-28 Fotonation Limited Object detection and rendering for wide field of view (WFOV) image acquisition systems
US11562013B2 (en) 2010-05-26 2023-01-24 Userzoom Technologies, Inc. Systems and methods for improvements to user experience testing
US8661544B2 (en) * 2010-08-31 2014-02-25 Cisco Technology, Inc. Detecting botnets
US8786735B2 (en) 2011-03-21 2014-07-22 Apple Inc. Red-eye removal using multiple recognition channels
US8837785B2 (en) 2011-03-21 2014-09-16 Apple Inc. Red-eye removal using multiple recognition channels
US8818091B2 (en) 2011-03-21 2014-08-26 Apple Inc. Red-eye removal using multiple recognition channels
US8837827B2 (en) 2011-03-21 2014-09-16 Apple Inc. Red-eye removal using multiple recognition channels
US8723959B2 (en) 2011-03-31 2014-05-13 DigitalOptics Corporation Europe Limited Face and other object tracking in off-center peripheral regions for nonlinear lens geometries
US8903167B2 (en) * 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
JP5923723B2 (ja) * 2011-06-02 2016-05-25 パナソニックIpマネジメント株式会社 人物属性推定システム、人物属性推定装置、及び人物属性推定方法
US8811683B2 (en) * 2011-06-02 2014-08-19 Apple Inc. Automatic red-eye repair using multiple recognition channels
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
US8548207B2 (en) 2011-08-15 2013-10-01 Daon Holdings Limited Method of host-directed illumination and system for conducting host-directed illumination
US8620088B2 (en) 2011-08-31 2013-12-31 The Nielsen Company (Us), Llc Methods and apparatus to count people in images
US10122970B2 (en) 2011-09-13 2018-11-06 Polycom, Inc. System and methods for automatic call initiation based on biometric data
US8493459B2 (en) 2011-09-15 2013-07-23 DigitalOptics Corporation Europe Limited Registration of distorted images
CN108014002A (zh) 2011-11-04 2018-05-11 马萨诸塞眼科耳科诊所 自适应视觉辅助装置
US9202105B1 (en) 2012-01-13 2015-12-01 Amazon Technologies, Inc. Image analysis for user authentication
US8928730B2 (en) 2012-07-03 2015-01-06 DigitalOptics Corporation Europe Limited Method and system for correcting a distorted input image
US8559684B1 (en) * 2012-08-15 2013-10-15 Google Inc. Facial recognition similarity threshold adjustment
WO2014056537A1 (en) 2012-10-11 2014-04-17 Longsand Limited Using a probabilistic model for detecting an object in visual data
WO2014194345A1 (en) * 2013-01-30 2014-12-11 Newsouth Innovations Pty Limited Real-time rotation, shift, scale and skew visual recognition system
US9870598B2 (en) 2013-04-26 2018-01-16 Nvidia Corporation Low complexity adaptive filtering for mobile captures
US10915618B2 (en) 2014-08-28 2021-02-09 Facetec, Inc. Method to add remotely collected biometric images / templates to a database record of personal information
US10803160B2 (en) 2014-08-28 2020-10-13 Facetec, Inc. Method to verify and identify blockchain with user question data
US10698995B2 (en) 2014-08-28 2020-06-30 Facetec, Inc. Method to verify identity using a previously collected biometric image/data
CA2902093C (en) 2014-08-28 2023-03-07 Kevin Alan Tussy Facial recognition authentication system including path parameters
US11256792B2 (en) 2014-08-28 2022-02-22 Facetec, Inc. Method and apparatus for creation and use of digital identification
US10614204B2 (en) 2014-08-28 2020-04-07 Facetec, Inc. Facial recognition authentication system including path parameters
KR102315574B1 (ko) 2014-12-03 2021-10-20 삼성전자주식회사 데이터 분류 방법 및 장치와 관심영역 세그멘테이션 방법 및 장치
US10275902B2 (en) * 2015-05-11 2019-04-30 Magic Leap, Inc. Devices, methods and systems for biometric user recognition utilizing neural networks
US10129477B2 (en) 2015-08-19 2018-11-13 Google Llc Smart image sensor having integrated memory and processor
US10183667B2 (en) 2015-09-15 2019-01-22 Deere & Company Human presence detection on a mobile machine
KR20170095632A (ko) * 2016-02-15 2017-08-23 한국전자통신연구원 얼굴인식방법
KR102223296B1 (ko) 2016-03-11 2021-03-04 매직 립, 인코포레이티드 콘볼루셔널 신경 네트워크들에서의 구조 학습
USD987653S1 (en) 2016-04-26 2023-05-30 Facetec, Inc. Display screen or portion thereof with graphical user interface
JP6702045B2 (ja) * 2016-07-11 2020-05-27 沖電気工業株式会社 監視装置
EP3336774B1 (de) * 2016-12-13 2020-11-25 Axis AB Verfahren, computerprogrammprodukt und vorrichtung zum trainieren eines neuronalen netzes
US10733506B1 (en) 2016-12-14 2020-08-04 Waymo Llc Object detection neural network
US10783393B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Semi-supervised learning for landmark localization
WO2019097285A1 (en) * 2017-08-31 2019-05-23 Banuba Limited Computer-implemented methods and computer systems for real-time detection of human's emotions from visual recordings
US10025950B1 (en) * 2017-09-17 2018-07-17 Everalbum, Inc Systems and methods for image recognition
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
CN113874883A (zh) 2019-05-21 2021-12-31 奇跃公司 手部姿势估计
CN110728665B (zh) * 2019-09-30 2023-04-18 西安电子科技大学 基于并行概率神经网络的sar图像变化检测方法
CN111680600B (zh) * 2020-05-29 2023-09-01 北京百度网讯科技有限公司 人脸识别模型处理方法、装置、设备和存储介质
US11711638B2 (en) 2020-06-29 2023-07-25 The Nielsen Company (Us), Llc Audience monitoring systems and related methods
US11500086B2 (en) * 2020-09-28 2022-11-15 Mitsubishi Electric Research Laboratories, Inc. System and method for tracking a deformation
CN113153267B (zh) * 2021-03-11 2023-04-18 中国石油大学(北京) 一种抽油机井示功图多尺度归一化方法及系统
US11860704B2 (en) 2021-08-16 2024-01-02 The Nielsen Company (Us), Llc Methods and apparatus to determine user presence
US11758223B2 (en) 2021-12-23 2023-09-12 The Nielsen Company (Us), Llc Apparatus, systems, and methods for user presence detection for audience monitoring

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4100500A1 (de) * 1991-01-10 1992-07-16 Bodenseewerk Geraetetech Signalverarbeitungsanordnung zur klassifizierung von objekten aufgrund der signale von sensoren

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579444A (en) * 1987-08-28 1996-11-26 Axiom Bildverarbeitungssysteme Gmbh Adaptive vision-based controller
US5588091A (en) * 1989-05-17 1996-12-24 Environmental Research Institute Of Michigan Dynamically stable associative learning neural network system
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
GB9201006D0 (en) * 1992-01-17 1992-03-11 Philip Electronic And Associat Classifying faces
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
JP3252381B2 (ja) * 1992-09-08 2002-02-04 ソニー株式会社 パターン認識装置
US5497430A (en) * 1994-11-07 1996-03-05 Physical Optics Corporation Method and apparatus for image recognition using invariant feature signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4100500A1 (de) * 1991-01-10 1992-07-16 Bodenseewerk Geraetetech Signalverarbeitungsanordnung zur klassifizierung von objekten aufgrund der signale von sensoren

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GHEZAL, A.: "Automated Human Face Recognition Using an Artificial Neural Network" in: MUsterer- kennung 1991, 13. DAGM-Symposium München, Sprin- ger-Verlag, S. 76-81 *
YANG, G., HUANG, T.S.: "Human face detection in a complex background" in: Pattern Recognition, Vol. 27, Nr. 1, 1994, S. 53-63 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006021518A1 (de) * 2006-05-04 2007-11-15 LÜTH & DÜMCHEN Automatisierungsprojekt GmbH Räumlich und zeitlich verteilte Einrichtungen und Verfahren zur Gesichtserkennung zwecks Identifikation oder Verifikation
DE102006057948A1 (de) * 2006-12-08 2008-06-12 Giesecke & Devrient Gmbh Portabler Datenträger zur biometrischen Benutzererkennung
US8255699B2 (en) 2006-12-08 2012-08-28 Giesecke & Devrient Gmbh Portable data storage medium for biometric user identification

Also Published As

Publication number Publication date
US5850470A (en) 1998-12-15

Similar Documents

Publication Publication Date Title
DE19634769A1 (de) Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts
DE60130742T2 (de) Mustererkennung mit hierarchischen Netzen
DE602004005984T2 (de) Gesichtsidentifikationsverifikation unter verwendung von vorder- und seitenansichten
DE69333811T2 (de) Verfahren und Gerät zur Erzeugung und Einstellung eines Neurones
CN106503687A (zh) 融合人脸多角度特征的监控视频人物身份识别系统及其方法
Omran et al. An iris recognition system using deep convolutional neural network
CN109800643A (zh) 一种活体人脸多角度的身份识别方法
DE69333247T2 (de) Trainingsverfahren und Gerät zur Erzeugung eines neues Neurons
Dai et al. Recognition of facial images with low resolution using a Hopfield memory model
Widrow The “rubber-mask” technique-II. pattern storage and recognition
DE4407998C2 (de) Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
Duffner et al. A neural scheme for robust detection of transparent logos in TV programs
Broussard et al. Using artificial neural networks and feature saliency techniques for improved iris segmentation
R Al-nima Design a biometric identification system based on the fusion of hand geometry and backhand patterns
Gutta et al. Face recognition using ensembles of networks
Karungaru et al. Face recognition in colour images using neural networks and genetic algorithms
CN112766176B (zh) 轻量化卷积神经网络的训练方法及人脸属性识别方法
EP0965088B1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse
Ağgül et al. Development of a Counterfeit Vehicle License Plate Detection System by Using Deep Learning
Gor et al. Fast scale invariant multi-view face detection from color images using skin color segmentation & trained cascaded face detectors
De Souza et al. VG-RAM weightless neural networks for face recognition
EP4338135A1 (de) Bauteilklassifizierungsvorrichtung, verfahren zum klassifizieren von bauteilen und verfahren zum trainieren einer bauteilklassifizierungsvorrichtung
Shekar et al. Offline Signature verification using CNN and SVM classifier
DE102021123761A1 (de) Bauteilklassifizierungsvorrichtung, Verfahren zum Klassifizieren von Bauteilen und Verfahren zum Trainieren einer Bauteilklassifizierungsvorrichtung
Kumar et al. Canny Edge Detection and Contrast Stretching for Facial Expression Detection and Recognition Using Machine Learning

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8181 Inventor (new situation)

Free format text: KUNG, SUN-YUAN, PRINCETON, N.J., US LIN, SHANG-HUNG, PRINCETON, N.J., US LIN, LONG-JI, KENDALL PARK, N.J., US FANG, MING, CRANBURY, N.J., US

8131 Rejection