DE19634769A1 - Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts - Google Patents
Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren ObjektsInfo
- Publication number
- DE19634769A1 DE19634769A1 DE19634769A DE19634769A DE19634769A1 DE 19634769 A1 DE19634769 A1 DE 19634769A1 DE 19634769 A DE19634769 A DE 19634769A DE 19634769 A DE19634769 A DE 19634769A DE 19634769 A1 DE19634769 A1 DE 19634769A1
- Authority
- DE
- Germany
- Prior art keywords
- decision
- neural network
- probabilistic
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
Description
Die vorliegende Erfindung bezieht sich allgemein auf das Maschinen-Sehvermögen bzw.
das maschinelle Sehvermögen und insbesondere auf ein System, das entscheidungsbasierte
neurale Netzwerke implementiert, die zum Lokalisieren und Erkennen von verformbaren
Objekten wie etwa dem menschlichen Gesicht imstande sind.
Die Aufgabe der Erfassung und Erkennung eines verformbaren bzw. nicht formbeständigen
Musters oder Objekts ist ein wichtiges Problem bei dem maschinellen Lernen und dem
Computer-Sehvermögen. Die Aufgabe enthält das Auffinden und Identifizieren eines
spezifischen, jedoch lokal verformbaren Musters in einem Bild, wie etwa eines mensch
lichen Gesichts. Das maschinelle Lernen und das Computer-Sehvermögen (machine
learning and computer vision) weist viele wichtige kommerzielle Anwendungen auf. Diese
Anwendungen enthalten die ATM-Methode bzw. automatische Verfolgung, die Zugangs
steuerung, die Überwachung und den Videokonferenzbetrieb, sind aber nicht hierauf
beschränkt. Demgemäß hat das maschinelle Lernen (Maschinenlernen) und das Computer-
Sehvermögen in den letzten Jahren große Aufmerksamkeit auf sich gezogen.
Bei Gesichtserkennungssystemen, die bei der Identifikation von Personen benutzt werden,
wird typischerweise ein Gesichtsdetektor eingesetzt, der die Position und die Ausdehnung
eines oder mehrerer menschlicher Gesichter in einer nicht gleichförmigen, beliebigen
Bildszene bestimmt. Diese Aufgabe wird von solchen Systemen als schwierig empfunden,
da die menschlichen Gesichter natürlich strukturiert und aus verformbaren Komponenten
wie etwa den Backen, dem Mund, der Stirn usw. aufgebaut sind. Sobald das Gesicht
aufgefunden wird, vergleicht das System dann in jedem Fall das Gesicht mit anderen, in
einer Datenbank gespeicherten Gesichtern, um die Person zu identifizieren.
Bei Systemen, die bei vielen Beobachtungs- und Überwachungsanwendungen eingesetzt
werden, ist es wichtig, daß das System die Position der menschlichen Augen in einem Bild
oder einer Bildfolge, die ein menschliches Gesicht enthält, bestimmen kann. Sobald die
Position der Augen ermittelt ist, können alle anderen wesentlichen Gesichtsmerkmale, wie
etwa die Positionen der Nase und des Mundes, ermittelt werden. Diese Information kann
dann für eine Vielzahl von Aufgaben wie etwa zur Erkennung eines Gesichts aus einer
vorhandenen Gesichts-Datenbank eingesetzt werden.
Das Schlüsselmerkmal und die Schwierigkeit bei der Gesichtserkennung besteht darin, dem
breiten Bereich von möglichen Änderungen des Gesichtsmusters in einer gegebenen
Bildszene Rechnung zu tragen. In der Vergangenheit wurden drei hauptsächliche Ansätze
zur Befassung mit diesen Musteränderungen angewendet, nämlich (1) der Einsatz von
Korrelationsschablonen oder Korrelationslehren, (2) räumliche Bildinvarianten und (3)
sichtbasierte Eigen-Räume (eigen spaces) usw . .
Korrelationsschablonen berechnen eine Ähnlichkeitsmessung zwischen einem festgelegten
Zielmuster und der Position des Kandidatenbilds. Falls das Ausgangssignal eine bestimmte
Schwelle überschreitet, wird eine Übereinstimmung bestätigt, das heißt ein Gesicht erfaßt.
Es gibt manche Gesichtserfassungssysteme, die eine Bank von mehreren Korrelations
schablonen zur Erfassung von wesentlichen Gesichts-Untermerkmalen in einer Bildszene
benutzen. Jedoch ist das Leistungsvermögen dieser Systeme begrenzt, da die Klasse aller
möglichen Gesichtsmuster zu variantenreich ist, um durch eine einfache Bank von Korrela
tionsschablonen modelliert zu werden.
Bei Schemata mit räumlicher Bildinvarianz wird angenommen, daß manche gemeinsamen
und einzigartigen räumlichen Bildbeziehungen in allen Gesichtsmustern vorhanden sind.
Ein solcher Satz aus Bildinvarianten muß hinsichtlich positivem Auftreten dieser Invarian
ten bei allen Bildpositionen überprüft werden. Ein spezielles Bild-Invarianten-Schema
basiert zum Beispiel auf der lokalen Ordnungszahl-Struktur bzw. normalen Struktur der
Helligkeitsverteilung bei unterschiedlichen Teilen eines menschlichen Gesichts.
Ein mit den Korrelationsschablonen sehr eng verwandter Ansatz ist derjenige der sicht
basierten Eigenräume. Bei diesem Ansatz wird davon ausgegangen, daß der Satz aus allen
möglichen Gesichtsmustern einen kleinen und leicht parameterisierbaren Unterraum in dem
ursprünglichen Vektorraum des eingegebenen Bilds hoher Dimension belegt. Typischerwei
se wird bei diesem Ansatz der Unterraum von Gesichtsmustern unter Verwendung von
Daten-Clustern bzw. Daten-Gruppen und deren hauptsächlichen Komponenten aus einem
oder mehreren Beispielssätzen von Gesichtsbildern angenähert. Ein Bildmuster wird als
"ein Gesicht" klassifiziert, wenn sein Abstand zu den Clustern bzw. Gruppen unterhalb
einer bestimmten Schwelle in Abhängigkeit von einem geeigneten Abstandsmaß bzw.
Abstandsmaßstab liegt. Jedoch wurde dieser Ansatz lediglich bei Gesichtsbildern bei im
wesentlichen gleichförmigen Hintergrund demonstriert.
Gegenwärtig vorhandene Algorithmen und Methoden zur Augenlokalisierung basieren im
allgemeinen auf der Hough-Transformation, Geometrie und Symmetrieüberprüfung, und
auf verformbaren Modellen. Der größte Teil dieser Algorithmen und Methoden ist im
allgemeinen bei Gestaltänderungen nicht adäquat und zeitaufwendig. Weiterhin können mit
keiner dieser vorhandenen Methoden Augen lokalisiert werden, wenn sie geschlossen sind.
Neurale Netzwerkmodelle wurden für Gesichtserkennungssysteme als sehr günstig gefun
den. Bekanntlich ist ein neurales bzw. neuronales Netzwerk im allgemeinen eine Im
plementierung eines Algorithmus, der den Computer imstande versetzt, adaptiv zu sein,
indem er direkt von eingegebenen Daten lernt, die zum "Trainieren" des Computers zur
Ausführung einer gewissen Aufgabe eingesetzt werden. Dies erlaubt dem Computer die
Verarbeitung von Daten, die den Trainingsdaten lediglich in gewissem Umfang ähneln.
Darüber hinaus sind solche Computer auch zur Verarbeitung von nicht vollständigen oder
fehlerhaften Daten oder zum Erzeugen eines Maßes für die Fehlertoleranz imstande.
Ferner können solche Computer komplexe Interaktionen zwischen den Eingangsvariablen
bzw. eingegebenen Variablen eines Systems erkennen. Da neurale Netzwerke parallel sind,
kann ein großes Netzwerk Echtzeitgeschwindigkeiten erzielen, so daß ihr Einsatz in vielen
Bereichen noch praxisgemäßer wird.
Ein neurales Netzwerk besteht im allgemeinen aus miteinander verbundenen Berechnungs
elementen oder Einheiten, die parallel arbeiten und die in Mustern angeordnet sind, die
biologische neurale bzw. neuronale Netzwerke zum großen Teil nachahmen. Jede Verbin
dung zwischen Berechnungselementen ist mit einem modifizierbaren Gewicht verknüpft.
Bei dem Betrieb wandelt ein Berechnungselement ein Muster von ankommenden Signalen
in ein einziges, abgehendes Signal um, das es zu anderen verbundenen Berechnungsele
menten sendet. Das Berechnungselement bewerkstelligt dies, indem es jedes ankommende
Signal mit dem Gewicht an der Verbindung (bzw. dem dieser Verbindung zugeordneten
Gewicht) multipliziert und alle gewichteten Eingangsgrößen addiert, um hierdurch eine
Größe zu erhalten, die als die Gesamteingabe bezeichnet wird. Das Berechnungselement
benutzt dann eine Eingangs-Ausgangs-Funktion, die die Gesamteingabe in ein abgehendes
Signal umwandelt. Damit das neurale Netzwerk eine spezielle Aufgabe durchführen kann,
müssen die Berechnungselemente miteinander in einer bestimmten Netzwerkanordnung
verbunden werden, und es müssen auch die Gewichte in geeigneter Weise festgelegt
werden. Die Verbindungen bestimmen, wie sich die Berechnungselemente jeweils gegen
seitig beeinflussen, während die Gewichte die Stärke dieser Beeinflussung festlegen.
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein entscheidungsbasiertes (deci
sion-based) neurales Netzwerk und ein System zum Implementieren des Netzwerks zu
schaffen, das verformbare Objekte bei speziellen Anwendungen, die auf die Erfassung von
menschlichen Gesichtern und auf die Lokalisierung von Augen in den Gesichtern gerichtet
sind, lokalisiert bzw. auffindet und erkennt.
Mit der Erfindung wird ein System zur automatischen Erfassung und Erkennung der
Identität eines verformbaren Objekts wie etwa eines menschlichen Gesichts innerhalb einer
beliebigen Bildszene geschaffen. Das System weist einen Objektdetektor zur Ermittlung,
ob das Objekt in der beliebigen Bildszene vorhanden ist, und eine Merkmalslokalisierungs
einrichtung zur Ermittlung der Position eines identifizierenden Merkmals an dem Objekt
wie etwa der Augen auf, wobei sowohl der Objektdetektor als auch die Merkmalslokalisie
rungseinrichtung jeweils als ein probabilistisches, entscheidungsbasiertes neurales Netz
werk ausgebildet sind. Eine Merkmalsextrahiereinrichtung ist mit der Merkmalslokalisie
rungseinrichtung gekoppelt und empfängt Koordinaten, die von der Merkmalslokalisie
rungseinrichtung abgegeben werden und die die Position des identifizierenden Merkmals
anzeigen, und greift auch aus den Koordinaten Informationen heraus, die sich auf andere
Merkmale des Objekts beziehen, wie etwa auf die Augenbrauen und die Nase, die zur
Erzeugung eines geringe Auflösung aufweisenden Bilds des Objekts benutzt werden. Eine
auf einem probabilistischen, entscheidungsbasierten neuralen Netzwerk basierende Objekt
erkennungseinrichtung zur Bestimmung der Identität des Objekts empfängt das geringe
Auflösung aufweisende Bild des Objekts, das durch die Merkmalsextrahiereinrichtung
eingangsseitig angelegt wird, um hierdurch das Objekt zu identifizieren.
Mit der vorliegenden Erfindung wird auch ein Verfahren zum automatischen Erfassen und
Erkennen der Identität eines verformbaren Objekts innerhalb einer beliebigen Bildszene
geschaffen. Bei dem Verfahren wird die Bildszene einer Vorverarbeitung zu Unterbildern
unterzogen. Jedes der Unterbilder wird mit einer Objektdetektor-Datenbank verglichen, die
unterschiedliche Versionen des Objekts speichert, um hieraus zu ermitteln, ob irgendeines
der Unterbilder das Objekt ist. Die Koordinaten eines identifizierenden Merkmals an dem
Objekt werden dann dadurch lokalisiert, daß die Koordinaten mit einer Datenbank der
Merkmalslokalisierungseinrichtung verglichen werden, in der Koordinaten gespeichert
sind, die unterschiedliche Versionen des identifizierenden Merkmals anzeigen. Informatio
nen, die sich auf andere Merkmale des Objekts beziehen, werden aus den Koordinaten
herausgegriffen, um ein Bild des Objekts mit geringer Auflösung zu erzeugen. Nachfol
gend wird das geringe Auflösung besitzende Bild des Objektbilds in eine Objekterken
nungseinrichtung eingespeist und die Identität des Objekts ermittelt.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf
die Zeichnungen näher erläutert.
Fig. 1 zeigt eine schematische Ansicht einer als Beispiel dienenden Ausführungsform
des erfindungsgemäßen Systems zur Lokalisierung und Erkennung von Gesich
tern,
Fig. 2A zeigt eine schematische Darstellung eines entscheidungsbasierten neuralen
Netzwerks,
Fig. 2B zeigt eine strukturelle Darstellung eines probabilistischen, entscheidungsbasier
ten neuralen Netzwerks gemäß der vorliegenden Erfindung,
Fig. 3 zeigt eine schematische Darstellung eines probabilistischen, entscheidungs
basierten neuralen Netzwerks gemäß der vorliegenden Erfindung,
Fig. 4 zeigt eine schematische Darstellung einer zweiten, als Beispiel dienenden
Ausführungsform eines erfindungsgemäßen Systems zur Lokalisierung und
Erkennung von Gesichtern, das eine Gesichts-Verifizierungseinrichtung enthält,
und
Fig. 5 zeigt eine schematische Darstellung eines mehrere Kanäle aufweisenden,
entscheidungsbasierten neuralen Netzwerks gemäß der vorliegenden Erfindung.
Auch wenn die vorliegende Erfindung bei der Lokalisierung oder Auffindung von nahezu
jedem beliebigen verformbaren Muster oder Objekt eingesetzt werden kann, ist die
vorliegende Erfindung insbesondere für den Einsatz bei der Gesichtserfassung, der Augen
lokalisierung und der Personenidentifizierung geeignet. Demgemäß wird die vorliegende
Erfindung in diesem Zusammenhang erläutert.
Die Gesichtserfassung, die Augenlokalisierung und die Gesichtserkennung sind im wesent
lichen Probleme der Mustererkennung bzw. Musterklassifizierung. Als Beispiel wird bei
der Gesichtserfassung ein gegebenes Muster in zwei Klassen eingeordnet, nämlich "Ge
sicht" oder "kein Gesicht". Bei der vorliegenden Erfindung ist eine probabilistische
Variante bzw. Wahrscheinlichkeitsvariante eines entscheidungsbasierten neuralen Netz
werks (DBNN = decision-based neural network) zur Durchführung dieser Klassifizie
rungsaufgabe vorgesehen. Genauer gesagt, werden sowohl die Gesichtserfassung als auch
die Augenlokalisierung durch ein probabilistisches, entscheidungsbasiertes neurales
Netzwerk implementiert, das im weiteren Text in größeren Einzelheiten beschrieben wird.
Bei diesen Anwendungen und allgemeiner bei der Erfassung von beliebigen verformbaren
Mustern ist lediglich ein Unternetz bei dem entscheidungsbasierten neuralen Netzwerk
erforderlich. Bei der als Beispiel dienenden Ausführungsform der vorliegenden Erfindung
repräsentiert das Unternetz die Gesichts/Augen-Klasse. Falls somit bei einem eingegebenen
Muster x der Diskriminantenfunktionswert größer ist als der Schwellwert, wird x als ein
Gesicht/Auge erkannt. Andernfalls wird x als "kein Gesicht" betrachtet.
Es wird nun auf Fig. 1 Bezug genommen. Dort ist eine als Beispiel dienende Ausführungs
form eines vollständig automatischen Gesichtserkennungssystems gemäß der vorliegenden
Erfindung gezeigt und mit dem Bezugszeichen 10 bezeichnet. Das System 10 weist eine
Videokamera 12 für die Einspeisung einer beliebigen Bildszene 11 mit 320 x 240 Bild
elementen (Pixel) auf. Ein auf einem entscheidungsbasierten neuralen Netzwerk basieren
der Gesichtsdetektor 14 ist mit der Videokamera 12 gekoppelt und enthält einen Speicher
16, der als eine Datenbank zur Speicherung von Bildern von unterschiedlichen mensch
lichen Gesichtern dient. Der Gesichtsdetektor 14 ermittelt, ob ein Gesicht in der beliebigen
Bildszene 11 vorhanden ist. Die Daten, die in der Gesichtsdatenbank 16 gespeichert sind,
werden zum Trainieren des Gesichtsdetektors 14 benutzt. Während des Trainings werden
aktualisierte Netzwerk-Gewichtsparameter und Schwellenwerte in der Gesichts-Datenbank
16 gespeichert.
Die über die Videokamera 12 eingegebenen Bilder werden zunächst vorverarbeitet, bevor
sie an den auf dem entscheidungsbasierten neuralen Netzwerk basierenden Gesichtsdetektor
14 angelegt werden. Die Eingangsgrößen für den Gesichtsdetektor 14 auf der Basis eines
entscheidungsbasierten neuralen Netzwerks sind ein Satz von Bildern mit vorab definierten
Koordinaten. Zur Erfassung eines Gesichts in einem eingegebenen Bild wird jedes der
möglichen Unterbilder verarbeitet, um zu erkennen, ob ein Gesicht repräsentiert. Ein
Vertrauensergebnis bzw. eine Zuverlässigkeitsbewertung wird erzeugt, das das Vertrauen
des Systems in dieses Erfassungsergebnis anzeigt. Falls das Ergebnis unterhalb einer
gewissen Schwelle liegt, ist kein Gesicht detektiert worden.
Falls durch den Gesichtsdetektor 14 eine positive Identifizierung eines Gesichts vorgenom
men wird, wird eine Augenlokalisierungseinrichtung 18, die auf einem entscheidungs
basierten neuralen Netzwerk basiert und mit dem Gesichtsdetektor 14 gekoppelt ist,
aktiviert, um die beiden Augen in dem Gesichtsbild zu lokalisieren. Die Kenntnis der
exakten Position der Augen stellt eine sehr effiziente Einrichtung zur Normalisierung der
Größe des Gesichts und zur Reorientierung des Gesichtsbilds dar. Die Musterauflösung,
die für die Augen benutzt wird, ist erheblich höher als diejenige, die für die Gesichter
eingesetzt wird. Sowohl der Gesichtsdetektor 14 als auch die Augenlokalisierungsein
richtung 18 sind gegenüber kleinen Änderungen der Größe des Kopfs, der Orientierung des
Gesichts (bis zu ungefähr 30%) und dem Vorhandensein von Brillen unempfindlich.
Die Augenlokalisierungseinrichtung 18 enthält auch einen Speicher 20, der als eine
Datenbank zum Speichern von Informationen dient, die mit den Koordinaten von ver
schiedenen, unterschiedlichen Augen zusammenhängen. Die Augenlokalisierungsein
richtung 18 ermittelt die Koordinaten jedes Auges und gibt diese Koordinaten dann an eine
Gesichtsmerkmal-Extrahiereinrichtung 22 ab, die im weiteren Text beschrieben ist. Die
Daten, die in der Augen-Datenbank 20 gespeichert sind, werden zum Trainieren der
Augenlokalisierungseinrichtung 18 benutzt. Während des Trainings werden aktualisierte
Netzwerk-Gewichtsparameter und Schwellenwerte in der Augen-Datenbank 20 gespeichert.
Die Gesichtsmerkmal-Extrahiereinrichtung 22 ist mit der Augenlokalisierungeinrichtung 18
gekoppelt und benutzt die Augenkoordinaten, die von der Augenlokalisierungseinrichtung
18 zugeführt werden, dazu, ein Unterbild mit geringer Auflösung herauszugreifen, das
ungefähr 140 × 100 Bildelemente enthält und der Gesichtsregion entspricht. Die Gesichts
region enthält die Augenbrauen, die Augen und die Nase (unter Ausschluß des Mundes).
Eine solche Gesichtsregion ergibt ein sehr hohes Maß an Vertrauen (bzw. Zuverlässigkeit)
dahingehend, daß es eine Stabilität gegenüber unterschiedlichen Ausdrücken des Gesichts,
Frisuren und Bewegungen des Mundes bietet. Eine verbesserte Klassifizierung kann auch
aus sekundären Gesichtsmerkmalen wie etwa der Haarlinie bzw. des Scheitels oder des
Haaransatzes, und dem Mund gewonnen werden.
Die Gesichtsmerkmal-Extrahiereinrichtung 22 normalisiert (bzw. standardisiert) die
Intensitäten und die Ränder in der Gesichtsregion (auf einen Bereich zwischen 1 und 0),
um eine sich ändernde Beleuchtung zu kompensieren. Zur Rekonditionierung der Gesichts
bilder können Randfilterungs- und Histogramm-Modifikations-Methoden eingesetzt werden.
Die normalisierten und rekonditionierten Bilder mit 140 × 100 Bildelementen werden dann
auf gröbere Merkmalsvektoren mit ungefähr 13 × 9 Bildelementen reduziert. Der Einsatz
von Gesichtsmerkmalen mit geringerer Auflösung führt zu beträchtlichen Verringerungen
hinsichtlich der Berechnungskosten und des Speicherraums und vergrößert die Toleranz
hinsichtlich Fehlern bei der Gesichts/Augen-Lokalisierung.
Damit eine ausreichende Unterschiedlichkeit bzw. Vielfältigkeit der reellen Gesichtsbilder
in dem Trainingssatz sichergestellt ist, nimmt der Algorithmus das erhaltene Sensorbild
und wandelt es zur Erzeugung von zusätzlichen Trainingsexemplaren um, was auch als
virtuelle Trainingsmuster bekannt ist. Zwei Arten von Trainingsmustern werden benutzt.
Das erste Trainingsmuster besteht aus positiven Mustern (Gesicht/Augen-Muster), die für
ein verstärktes bzw. verstärkendes Lernen benutzt werden. Das zweite Trainingsmuster
besteht aus negativen Mustern (Muster "kein Gesicht/Auge"), die zu einem verstärkten
Lernen in Gegenrichtung (im folgenden auch als anti-verstärkendes bzw. anti-verstärktes
Lernen bezeichnet) benutzt werden. Die Gewichtungsparameter des Netzwerks und die
Schwellenwerte werden durch dieses verstärkte Lernen/verstärkte Lernen in Gegenrichtung
aktualisiert. Eine noch detailliertere Diskussion der Erzeugung von virtuellen Mustern wird
im weiteren Text gegeben.
Der Merkmalsvektor, der durch die Gesichtsmerkmal-Extrahiereinrichtung erzeugt wird,
wird dann in eine Gesichtserkennungseinrichtung 24, die auf einem entscheidungsbasierten
neuralen Netzwerk basiert, für eine Erkennung eingespeist. Die Gesichtserkennungsein
richtung 24 enthält einen Speicher 26, der als eine Datenbank zum Speichern von Perso
nenidentifikationsinformationen dient.
Das trainierte System kann leicht für einen Einsatz bei einer Gesichtsverifizierung angepaßt
werden. Aufgrund des verteilten Aufbaus eines entscheidungsbasierten neuralen Netzwerks
kann jede beliebige Datenbank für eine einzelne Person individuell für eine Verifizierung
seiner oder ihrer behaupteten Identität hergeholt bzw. wiedergewonnen werden.
Die entscheidungsbasierten neuralen Netzwerk-Methoden, die in dem Gesichtsdetektor 14,
in der Augenlokalisierungseinrichtung 18 und in der Gesichtserkennungseinrichtung 24
implementiert und bei dem vorstehend erläuterten System 10 beschrieben sind, können
auch bei anderen, ähnlichen Systemen zur Erfassung von nahezu jeder beliebigen Art von
verformbaren Objekten eingesetzt werden. Die unmittelbar nachfolgende Diskussion
beschreibt die Einzelheiten des probabilistischen, entscheidungsbasierten neuralen Netz
werks, das bei dem vorstehend erläuterten System implementiert ist.
Das bei der vorliegenden Erfindung eingesetzte, entscheidungsbasierte, neurale Netzwerk
benutzt eine verteilte und lokalisierte Aktualisierungsregel, die auf der Strategie des
verstärkten Lernens und des in Gegenrichtung verstärkten Lernens basiert. Der Gradient der
Diskriminanten-Funktion mit Bezug zu den Gewichtsparametern wird als eine Aktualisie
rungsrichtung eingesetzt. Der hauptsächliche Nutzen dieser Vorgehensweise besteht dabei
darin, daß sie es ermöglicht, die Grenze zwischen zwei beliebigen Klassen gegenseitig
festzulegen, wobei sich nur minimale Seitenwirkungen bzw. Nebenwirkungen auf andere
Grenzen ergeben. Bei dem entscheidungsbasierten, neuralen Netzwerk sagt der Lehrer
lediglich die Korrektheit der Klassifikation für jedes Trainingsmuster. Der Lehrer ist ein
Satz von Symbolen, T = {ti}, die die korrekte Klasse für jedes eingegebene Muster
bezeichnen bzw. kennzeichnen. Im Unterschied zu einer Approximierungsformulierung
sind keine exakte Werte des oder der Lehrer erforderlich. Demgemäß besteht die Aufgabe
des Trainings darin, einen Satz von Gewichten zu finden, der eine korrekte Klassifizierung
ergibt.
Bei einer komplexen Musterverteilung ist die Diskriminantenfunktion üblicherweise im
Vorhinein nicht bekannt. Dies führt zu einer Kredit-Zuordnungsregel dahingehend, wann,
was und wie die Aktualisierung des Netzwerks auszuführen ist. Ihr hauptsächlicher Zweck
besteht in der Erleichterung des Problems des Übertrainierens der Netzwerke. Es gibt drei
hauptsächliche Gesichtspunkte der Trainingsregel: wann zu aktualisieren ist; was zu
aktualisieren ist; und wie die Gewichte zu aktualisieren sind.
Bei der Trainingsregel wird die Erkenntnis, wann zu aktualisieren ist, zum Beispiel durch
eine selektive Trainingsmethode bestimmt, die das Gewicht lediglich dann aktualisiert,
wenn eine fehlerhafte Klassifizierung vorliegt. Da die Regel verteilt und lokalisiert ist,
wird die Kenntnis, was zu aktualisieren ist, dadurch erzielt, daß ein verstärktes Lernen bei
dem Unternetz, das der korrekten Klasse entspricht, sowie ein verstärktes Lernen in
Gegenrichtung bei dem Unternetz, das der nicht korrekten Klasse entspricht, eingesetzt
wird. Eine Aktualisierung unter bzw. gemäß der Regel wird dadurch erreicht, daß die
Grenze dadurch eingestellt wird, daß der Gewichtsvektor w entweder in der Richtung des
Gradienten der Diskriminanten-Funktion (das heißt ein verstärktes Lernen) oder entgegen
gesetzt zu dieser Richtung (das heißt ein verstärktes Lernen in Gegenrichtung) aktualisiert
wird.
Im folgenden wird die vorstehend gerade erläuterte, entscheidungsbasierte Lernregel
(decision-based learning rule) beschrieben. Es sei angenommen, daß S = {x(1), . . . , x(N)} ein
Satz von gegebenen Trainingsmustern ist, die jeweils einer der M Klassen {ωi, i =
1, . . . M} entspricht. Jede Klasse ist durch ein Unternetz mit Diskriminanten-Funktionen
modelliert, zum Beispiel Φ(x, wi) i = 1, . . . M. Es sei angenommen, daß es bekannt ist, daß
das m-te Trainingsmuster X(m) zu der Klasse ωi gehört, und daß gilt
Demgemäß ist die gewinnende Klasse für das Muster die j-te Klasse (Unternetz). Dann und
nur dann, wenn j ≠ i ist (das heißt, wenn X(m) fehlerhaft klassifiziert ist, wird die nach
stehende Aktualisierung durchgeführt.
Typischerweise wird ein Ausgangsknoten zum Repräsentieren einer Klasse bezeichnet. Der
Aufbau Alle-Klassen-in-einem-Netzwerk (ACON-Struktur = All-Class-In-One-Network
structure) wird bei einem herkömmlichen MLP eingesetzt, bei dem alle Klassen in ein
Super-Netzwerk zusammengeballt sind. Das Supernetz steht unter der Belastung, gleichzei
tig alle Lehrer zu befriedigen, so daß die Anzahl von versteckten Einheiten K dazu
tendiert, groß zu sein. Empirische Ergebnisse haben bestätigt, daß die Konvergenzrate des
ACON-Netzwerks sich drastisch mit Bezug zu der Netzwerksgröße verschlechtert, da das
Trainieren der versteckten Einheiten durch möglicherweise im Widerspruch stehende
Signale von unterschiedlichen Lehrern beeinflußt wird.
In Fig. 2A ist eine schematische Darstellung gezeigt, in der das bei der vorliegenden
Erfindung eingesetzte, entscheidungsbasierte neurale Netzwerk dargestellt und mit dem
Bezugszeichen 30 versehen ist. Wie gezeigt ist, wird bei dem entscheidungsbasierten,
neuralen Netzwerk 30 eine Struktur "eine Klasse in einem Netzwerk" (OCON-Struktur =
One-Class-In-One-Network structure) eingesetzt, bei der einem Netzwerk lediglich eine
Klasse zugeordnet ist. Jedes Unternetz 32, 34 und 36 ist hinsichtlich der Unterteilung
seiner eigenen Klasse von den anderen spezialisiert, so daß die Anzahl von versteckten
Einheiten üblicherweise gering ist. Experimentelle Ergebnisse, die auf einem breiten
Bereich von Anwendungen basieren (OCR bzw. optische Zeichenerkennung, Sprache und
Gesichtserkennung, legen nahe, daß drei bis fünf versteckte bzw. verborgene Einheiten je
Unternetz vorzuziehen sind. Die OCON-Struktur eines entscheidungsbasierten, neuralen
Netzwerks macht dieses für inkrementales Trainieren, daß heißt für eine Erneuerung des
Netzwerks bei der Hinzufügung/dem Entfernen von Mitgliedern, am besten geeignet.
Die Trainingsmethode des entscheidungsbasierten, neuralen Netzwerks 30 beruht auf dem
Lernen "lokal nicht überwacht, global überwacht" (LUGS-Lernen = Locally Unsupervised
Globally Supervised learning). Bei dieser Methode gibt es zwei Phasen: Während der lokal
nicht überwachten Phase (LU-Phase) wird jedes Unternetz individuell trainiert, und es
kann keine gegenseitige Information zwischen den Klassen benutzt werden. Nach dem
Abschluß der lokal nicht überwachten Phase (LU-Phase) tritt das Training in die global
überwachte Phase (GS-Phase) ein. In dieser global überwachten Phase wird die Lehrer-
Information zur Verstärkung oder zur Anti-Verstärkung (Verstärkung in Gegenrichtung)
der Entscheidungsgrenzen eingeführt, die während der lokal nicht überwachten Phase
erhalten wurden. Die Diskriminanten-Funktionen in allen Clustern werden in einer zwei
phasigen Lerntechnik trainiert, die einen globalen Pegel und einen lokalen Pegel aufweist.
Bei der dem globalen Pegel entsprechenden Lernphase wird eine überwachte, gegenseitige
(entscheidungsbasierte) Lernregel eingesetzt. Bei der dem lokalen Pegel entsprechenden
Lernphase erfolgt die Initialisierung stets durch eine nicht überwachte Clusterbildungs-
bzw. Gruppenbildungs-Methode wie etwa einem k-Mittelwert (k-mean). Falls zu viele
Cluster bzw. Gruppen eingesetzt werden, kann eine Überanpassung resultieren, die
ihrerseits wieder die Fähigkeit zur Generalisierung behindert. Eine geeignete Anzahl von
Gruppen kann durch eine nicht überwachte Gruppenbildungs-Methode festgelegt werden.
Die Lernregel des entscheidungsbasierten, neuralen Netzwerks 30 wird sehr stark durch
die Entscheidungsgrenze beeinflußt bzw. durch diese gesteuert. Wenn die Musterklassen
klar getrennt sind, führt ein derartiges Lernen üblicherweise zu einem sehr schnellen und
dennoch zufriedenstellenden Lernverhalten. Anwendungsbeispiele enthalten das optische
Zeichenlesen OCR und die (begrenzte bzw. finite) Gesichts/Objekt-Erkennung. Unter
schiedliche Strategien sind notwendig, wenn man es mit einer überlappenden Verteilung
und/oder Ergebnissen hinsichtlich falscher Akzeptanz/Zurückweisung zu tun hat, was bei
Anwendungen wie etwa der Gesichtserkennung und Verifizierung vorliegt. Bei solchen
Anwendungen stellt die vorliegende Erfindung eine probabilistische Variante bzw. Wahr
scheinlichkeitsvariante des entscheidungsbasierten, neuralen Netzwerks bereit, wie es
vorstehend in Verbindung mit dem Gesichtsdetektor 14, der Augenlokalisierungsein
richtung 18 und der Gesichtserkennungseinrichtung 24 des automatischen Gesichtserken
nungssystems 10 gemäß Fig. 1 erläutert ist.
Es wird nun auf Fig. 2B Bezug genommen. Dort ist eine als Beispiel dienende Ausfüh
rungsform eines probabilistischen entscheidungsbasierten, neuralen Netzwerks schematisch
gezeigt und mit dem Bezugszeichen 40 versehen. Die Unternetze 42 und 44 des probabili
stischen, entscheidungsbasierten, neuralen Netzwerks 40 sind derart ausgelegt, daß sie log-
Likelihood-Funktionen bzw. Funktionen mit logarithmischer Wahrscheinlichkeit (Likeli
hood) modellieren. Bei dem probabilistischen, entscheidungsbasierten, neuralen Netzwerk
40 wird ein verstärktes, antiverstärktes Lernen bei allen Clustern bzw. Gruppen des
globalen Gewinners und des angenommenen (das heißt des korrekten) Gewinners einge
setzt, wobei eine Gewichtsverteilung eingesetzt wird, die proportional zu dem Ausmaß der
möglichen Beteiligung (durch die Wahrscheinlichkeit gemessen) durch jede Gruppe
(Cluster) ist.
Das probabilistische, entscheidungsbasierte, neurale Netzwerk 40 ist derart ausgelegt, daß
es die Bayes′schen späteren Wahrscheinlichkeiten (posteriori-Wahrscheinlichkeiten) und
Wahrscheinlichkeitsfunkionen annähert. Es ist bekannt, daß der optimale Datenklassifizie
rer der Bayes-Klassifizierer ist. Wenn angenommen wird, daß M-Klassen {ω₁, . . . ωM} in
dem Merkmalsraum vorhanden sind, klassifiziert das Bayes-Entscheidungsnetzwerk die
eingegebenen Muster auf der Grundlage ihrer späteren Wahrscheinlichkeiten: Die Ein
gangsgröße x wird in die Klasse ωi klassifiziert, wenn P(ωi|x) < P(ωj|x) bei allen j ≠ i
ist. Es läßt sich zeigen, daß der Bayes-Klassifizierer die minimale Fehlerrate besitzt.
Wenn angenommen wird, daß die Wahrscheinlichkeitsdichte der Eingangsgröße x, der die
Klasse ωi zugeordnet ist, eine D-dimensionale Gauß′sche Verteilung ist, läßt sich die spä
tere bzw. nachträgliche Wahrscheinlichkeit P(ωi|x) durch die Bayes′sche Regel erhalten.
Hierbei bezeichnet P(ωi) die vorhergehende Wahrscheinlichkeit (priori-Wahrscheinlichkeit)
der Klasse ωi (durch die Definition
Die Klassen-Wahrscheinlichkeitsfunktion p(x|ωi) kann zu einer Mischung von Gauß′schen
Verteilungen ausgedehnt werden. Wenn p(x|ωi,θr) als eine der Gauß′schen Verteilungen
definiert wird, die p(x|ωi) enthält:
Hierbei bezeichnet θr = {µr, Σr} den Parametersatz für das Cluster bzw. die Gruppe r,
P(θr|ωi) die vorhergehende Wahrscheinlichkeit des Clusters r, wenn die Eingangsmuster
aus der Klasse ωi stammen, und p(x|ωi, θr) = N(µr, Σr). Durch Definition ist
ΣR T=1P(θr|ωi) = 1. Bei vielen Anwendungen ist es angebracht, anzunehmen, daß P(ωi) =
P(ωj). Daher kann die Likelihood-Wahrscheinlichkeit p(x|ωi) die nachträgliche Wahr
scheinlichkeit P(ωi|x) ersetzen, um als Diskriminantenfunktion zu dienen.
Die Diskriminantenfunktion jedes Unternetzes in dem probabilistischen, entscheidungsba
sierten, neuralen Netzwerk modelliert die logarithmische Wahrscheinlichkeitsfunktion:
Die Gesamtdarstellung einer solchen Diskriminantenfunktion ist in Fig. 2B dargestellt, die
die Struktur des probabilistischen, entscheidungsbasierten, neuralen Netzwerks veranschau
licht. Der Funktionsknoten f() ist ein Nichtlinearitäts-Operator. Wenn die Annahme
getroffen wird, daß P(ωi) = P(ωj) ist, ist f() ein logarithmischer Operator (Likelihood-
Typ). Falls P(ωi) ≠ P(ωj) ist, ist f() ein Normalisierungs-Operator. Sein Zweck besteht
darin, zu erreichen, daß sich die Diskriminantenfunktion der nachträglichen Klassenwahr
scheinlichkeit (nachträglicher Typ) annähert. Das entscheidungsbasierte, neurale Netzwerk,
das bei der als Beispiel dienenden Ausführungsform gezeigt ist, ist vom Likelihood-Typ.
Es ist anzumerken, daß ein ausdrücklicher Lehrerwert nicht erforderlich wäre oder ist,
auch wenn es sich um ein überwachtes Training handelt, da die Kenntnis des Lehrers
hinsichtlich der korrekten Klassifizierung bei dem Training entscheidend ist. In Fig. 3 ist
eine schematische Darstellung eines probabilistischen, entscheidungsbasierten, neuralen
Netzwerk 40 für die Erfassung von verformbaren Objekten gezeigt. Bei der allgemeinsten
Formulierung sollte die Basis-Funktion eines Clusters bzw. einer Gruppe imstande sein,
die Gauß′sche Verteilung mit einer vollrangigen Kovarianz-Matrix anzunähern. Eine
Hyper-Basis-Funktion (HyperBF = hyper-basis function) ist hierfür bzw. hierbei gemeint.
Jedoch entmutigt das Trainingsverhalten und der Speicherraum die Modellierung einer
derartigen Matrix bei denjenigen Anwendungen, die sich mit Daten hoher Dimension,
jedoch begrenzter Anzahl von Trainingsmustern befassen. Eine natürliche, vereinfachte
Annahme besteht darin, unkorrelierte Merkmale mit ungleicher Wichtigkeit anzunehmen.
Dies bedeutet, daß anzunehmen ist, daß p(x|ωi, θr) eine D-dimensionale Gauß′sche
Verteilung mit unkorrelierten Merkmalen ist, das heißt
Hierbei bezeichnet µr = [ωr1, ωr2, . . . , ωrD]T den mittleren Vektor bzw. Mittelwertvektor,
und die diagonale Matrix Σr = diag[σ²r1, σ²r2, . . . σ²rD] bezeichnet die Kovarianz-Matrix.
Zur Approximierung der Dichtefunktion in der Gleichung (4) werden die elliptischen
Basisfunktionen (EBF = elliptic basis function) eingesetzt, um als die Basisfunktion für
jedes Cluster zu dienen:
Hierbei gilt:
Nach einer exponentiellen Transformation kann
exp{ψ(x, ωi, θr)} als die gleiche Gauß′sche Verteilung wie in Gleichung (4) beschrieben
betrachtet werden, mit einer kleineren Benennungsänderung:
Anders ausgedrückt ergibt sich:
Die Lernregeln für das probabilistische, entscheidungsbasierte, neurale Netzwerk 40 sind
die folgenden. Bei der Trainingsmethode für das entscheidungsbasierte, neurale Netzwerk
wird das LUGS-Prinzip befolgt. Bei der lokal nicht überwachten Phase (LU-Phase) bei
dem probabilistischen, entscheidungsbasierten, neuralen Netzwerk können mehrere nicht
überwachte Lernmethoden wie etwa LVQ, k-Mean (k-Mittelwert) EM usw. eingesetzt
werden. Hinsichtlich des global überwachten Lernens (GS-Lernen) wird die entscheidungs
basierte Lernregel eingesetzt. Es sein angenommen, daß bekannt ist, daß das m-te Trai
ningsmuster x(m) zu ωi gehört, und daß
Dies bedeutet, daß die gewinnende Klasse für das Muster die j-te Klasse (Unternetz) ist.
Dann und nur dann, wenn j ≠ i ist, (das heißt, wenn x(m) fehlerhaft klassifiziert wird),
wird die nachfolgende Aktualisierung durchgeführt:
Falls das Trainingsmuster zu dem sogenannten negativen Trainingssatz (das heißt dem Satz
"unbekannt") gehört, wird lediglich die antiverstärkende Lernregel durchgeführt, da keine
"korrekte" Klasse zur Verstärkung vorhanden ist.
Die Gradientenvektoren in Gleichung (8) werden in folgender Weise berechnet:
Hierbei gilt:
P(θr|ωi) und (Pωi), falls P(ωi) ≠ P(ωj)) kann durch den EM-Algorithmus gelernt werden:
Bei der Epoche bzw. dem Zyklus j:
Bei der Epoche bzw. dem Zyklus j:
Da das probabilistische, entscheidungsbasierte, neurale Netzwerk 40 probabilistische
Ausgänge bzw. Wahrscheinlichkeits-Ausgangsgrößen bereitstellt, wird ein Ablauf, der
ähnlich der Neyman-Pearson-Hypothese ist, zur Aktualisierung des Schwellenwerts befolgt.
Demzufolge wird das Testen dadurch bewerkstelligt, daß ein Schwellenwert für die
Ausgangsgrößen bzw. Ausgangssignale des Netzwerks eingestellt wird, und daß die
Wahrscheinlichkeit eines fehlerhaften Akzeptierens und eines fehlerhaften Zurückweisens
berechnet wird. Damit die wahrscheinlichsten Regionen für Muster aus der Klasse ωi
ausfindig gemacht werden, ist es bevorzugt, eine Schwelle Ti derart auszuwählen, daß eine
Eingangsgröße bzw. ein Eingangssignal x in die Klasse ωi klassifiziert wird, falls log
p(x|ωi) < Ti ist. Bei einer Eingangsgröße x, bei der x ein Element von ωi darstellt, (x ∈
ωi), jedoch log p(x|ωi) < Ti ist, sollte Ti seinen Wert verringern. Falls auf der anderen
Seite x kein Element von ωi ist, jedoch log p(x|ωi) < Ti ist, sollte Ti anwachsen. Bei der
vorliegenden Erfindung wird eine adaptive Lernregel zum Trainieren des Schwellwerts Ti
wie folgt vorgeschlagen: Definiere d ≡ Ti - log p(x|ω). Weiterhin wird eine Kostenfunk
tion l(d) definiert. l(d) kann entweder eine Schrittfunktion bzw. Stufenfunktion, eine
lineare Funktion oder eine sigmoidale (bzw. sigmaförmige oder summenförmige) Funktion
mit Fuzzy-Entscheidung sein. Sobald das Netzwerk das Training beendet hat, können die
Schwellenwerte in folgender Weise trainiert werden: Wenn der positive Lernparameter ηi
beim Schritt i bzw. j gegeben ist:
In der nachfolgenden Erläuterung ist die Methode, die zum Erzeugen von Trainingsmu
stern für das probabilistische, entscheidungsbasierte, neurale Netzwerk eingesetzt wird, in
größeren Einzelheiten beschrieben. Im allgemeinen gibt es drei hauptsächliche Gesichts
punkte für die bei der vorliegenden Erfindung eingesetzte Methode zur Erzeugung von
Trainingsmustern. Der erste Gesichtspunkt besteht in der Erzeugung von virtuellen bzw.
künstlichen Trainingsmustern. Bei dem Beginn der Trainingsphase wird eine gewisse An
zahl von Gesichtsbildern ausgewählt, um als Beispiel dienende Gesichts/Augen-Muster
zum Trainieren des vorstehend erläuterten Gesichtsdetektors und der Augenlokalisierungs
einrichtung, die jeweils auf dem entscheidungsbasierten, neuralen Netzwerk basieren, zu
erzeugen. Typischerweise können diese als Beispiel dienenden Gesichts/Augen-Muster ma
nuell aus diesen Bildern extrahiert werden. Für jedes als Beispiel dienende Muster können
virtuelle bzw. künstliche Muster dadurch erzeugt werden, daß verschiedene, affine Trans
formationen wie etwa eine Drehung, eine Skalierung, eine Verschiebung und eine Spiege
lungsverarbeitung bezüglich des ursprünglichen Musters durchgeführt werden. Mittels
dieser Methode wird jedes der als Beispiel dienenden Muster bzw. Musterexemplare zur
erneuten Erzeugung einer Anzahl von bis zu 200 künstlichen Trainingsmustern benutzt.
Der zweite Gesichtspunkt ist die Erzeugung von positiven/negativen Trainingsmustern.
Nicht alle künstlichen Trainingsmuster werden als gute Gesichts- oder Augenmuster
betrachtet. Falls ein künstliches Muster gegenüber dem ursprünglichen Musterexemplar
geringfügig gestört bzw. verzerrt ist, wird es in den positiven Trainingssatz eingeschlos
sen. Dies verstärkt allgemein die Robustheit des neuralen Netzwerks. Falls die Störung
bzw. Verzerrung auf der anderen Seite einen gewissen Schwellwert (empirisch durch
Versuch und Irrtum festgelegt) überschreitet, wird das künstliche Muster in den negativen
Trainingssatz übernommen. Wenn das probabilistische, entscheidungsbasierte, neurale
Netzwerk trainiert wird, werden positive Muster für verstärktes Lernen benutzt, während
negative Muster für antiverstärktes Lernen eingesetzt werden.
Der dritte Gesichtspunkt besteht in der Erzeugung eines negativen Laufzeit- bzw. Laufdau
er-Musters. Während der Trainingsphase kann das probabilistische, entscheidungsbasierte,
neurale Netzwerk, das sich noch im Training befindet, zur Überprüfung der gesamten
Bilddatenbank bei jeweils k Epochen bzw. Zyklen eingesetzt werden. Falls das Netzwerk
ein Gesicht (Auge) irgendwo in einem Bild fehlerhaft erfaßt, wird dieses bestimmte
Unterbild in den negativen Trainingssatz übernommen.
Da das probabilistische, entscheidungsbasierte, neurale Netzwerk für eine Multi-Sensor-
Klassifizierung zweckmäßig ist, kann eine zusätzliche Sensorinformation zur Verbesserung
des Erkennungsvermögens leicht eingefügt werden. Zwei Ansätze für eine Multi-Sensor-
Klassifizierung sind bei der vorliegenden Erfindung möglich. Der erste Ansatz enthält eine
hierarchische Klassifizierung, bei der Sensorinformationen in aufeinanderfolgenden
Verarbeitungsstufen kaskadenförmig verarbeitet bzw. behandelt werden. Mögliche Kandi
daten für einen hierarchischen Sensor sind die Haarlinie bzw. der Haaransatz und der
Mund. Der zweite Ansatz enthält eine Multi-Sensor-Verschmelzung, bei der Sensorinfor
mationen lateral zusammengefaßt werden, um eine verbesserte Klassifizierung zu ergeben.
Es wird nun auf Fig. 4 Bezug genommen. Dort ist ein hierarchisches Informationsverarbei
tungssystem auf der Basis eines probabilistischen, entscheidungsbasierten, neuralen Netz
werks gezeigt, das mit dem Bezugszeichen 50 bezeichnet ist. Das System 50 ist gleichartig
wie das System gemäß Fig. 1 und enthält weiterhin ein Vorverarbeitungs-Modul 52, das
Haaransatz- oder Mund-Merkmale bereitstellt. Gemäß Fig. 4 werden die Haaransatz-
Merkmale durch das Vorverarbeitungs-Modul 52 bereitgestellt. Die Haaransatz-Bilder wer
den an die Gesichts-Verifizierungseinrichtung 54 zusammen mit einer Entscheidungsinfor
mation angelegt, die durch die Gesichtserkennungseinrichtung 24 erzeugt wird. Allgemein
arbeitet dieses System, indem zwei Verarbeitungsstufen kaskadenförmig verschaltet
werden. Genauer gesagt, ist eine Gesichtsverifizierungstufe kaskadenförmig nach der
(ursprünglichen) Gesichtserkennungsstufe angeordnet. Die Gesichtsverifizierungsein
richtung 52 selbst ist ein weiterer Klassifizierer in Form eines entscheidungsbasierten,
neuralen Netzwerks. Ihre Funktion besteht in der Verifizierung/Zurückweisung der Ent
scheidung der primären Erkennungseinrichtung. Die Verifizierungseinrichtung kann gemäß
der entscheidungsbasierten Lernregel trainiert werden. Der Eingangsvektor ist ein 12 × 8-
Merkmalsvektor, der durch Abwärtsabtastung der Stirn/Haaransatz-Region des Gesichts
bilds erhalten wird. In diesem System sind drei Verifikationsmethoden möglich. Bei der
ersten Methode ist in Erinnerung zu rufen, daß jedes Unternetz bzw. Teilnetz der primären
DBNN-Erkennungseinrichtung ein Vertrauensergebnis für ein eingegebenes Muster er
zeugt. Es sei angenommen, daß das höchste Ergebnis in dem i-ten Unternetz erzielt wird.
Falls das Vertrauensergebnls des Unternetzes i unterhalb der Schwelle liegt, wird die
höchstrangige Wahl der Gesichtsverifizierungseinrichtung überprüft. Falls die beste
Übereinstimmung der Stirn/Haaransatz-Region ebenfalls die Klasse i, dann wird die Klasse
i erkannt und verifiziert. Andernfalls wird das Testmuster als ein Eindringling beurteilt.
Falls das Vertrauensergebnis des Unternetzes i oberhalb der Schwelle liegt, und falls die
Klasse i in den obersten k Übereinstimmungen der Stirn/Haaransatz-Region liegt (k ist zum
Beispiel gleich 6), wird die Erkennung bestätigt. Andernfalls wird die Person zurückgewie
sen.
Bei der zweiten Methode werden Ähnlichkeitslisten eingeführt. Jede Klasse hat ihre eigene
Ähnlichkeitsliste. Die Längen der Listen verändern sich ebenfalls von Person zu Person.
Anfänglich enthält die Ähnlichkeitsliste der Klasse j lediglich die Klasse j selbst. Es sei
nun angenommen, daß die DBNN-Gesichtsverifizierungseinrichtung den Trainingsprozeß
auf der Basis der entscheidungsbasierten Lernregel abgeschlossen hat. Falls ein Trainings
muster (ursprünglich aus der Klasse j) in eine andere Klasse klassifiziert bzw. eingereiht
worden ist, zum Beispiel das Trainingsmuster k, dann wird die Klasse k zu der Ähnlich
keitsliste der Klasse j hinzuaddiert. Dieser Prozeß wird solange wiederholt, bis alle
Trainingsmuster der bekannten Personen getestet sind.
Im Hinblick auf die Verifikationsregel wird, wenn das Vertrauensergebnis des Unternetzes
i unterhalb der Schwelle liegt, die oberste bzw. erste Wahl der Gesichtsverifizierungsein
richtung überprüft. Falls die beste Übereinstimmung der Stirn/Haaransatz-Region ebenfalls
die Klasse i ist, dann wird die Klasse i erkannt und verifiziert. Andernfalls wird das
Testmuster als dasjenige eines Eindringlings beurteilt. Falls das Vertrauensergebnis des
Unternetzes i oberhalb der Schwelle liegt, und falls die oberste bzw. favorisierteste Klasse
der Gesichtsverifizierungseinrichtung sich in der Ähnlichkeitsliste der Klasse i befindet,
wird die Erkennung bestätigt. Andernfalls wird die Person zurückgewiesen.
Die dritte Methode ist die gleiche wie die zweite Methode, mit der Ausnahme, daß die Be
stätigung nun noch strenger gemacht ist. Genauer gesagt kann, wenn sich das Vertrauens
ergebnis des Unternetzes i unterhalb der Schwelle befindet, dessen Erkennung dennoch be
stätigt werden, wenn die oberste bzw. primäre Wahl der Gesichtsverifizierungseinrichtung
die Klasse i ist und deren Vertrauensergebnis den Schwellenwert der Verifizierungsein
richtung überschreitet. Andernfalls wird die Person zurückgewiesen. Falls das Vertrauens
ergebnis des Unternetzes i oberhalb der Schwelle liegt, kann die Erkennung lediglich dann
bestätigt werden, wenn die primäre Wahl der Gesichtsverifizierungseinrichtung sich in der
Ähnlichkeitsliste der Klasse i befindet und deren Vertrauensergebnis den Schwellwert der
Verifizierungseinrichtung überschreitet. Andernfalls wird die Person zurückgewiesen.
Alle diese drei Methoden verbessern das Leistungsvermögen der Gesichtserkennungsein
richtung beträchtlich. Experimentelle Ergebnisse zeigten, daß die dritte Methode ungefähr
die gleiche Rate (Rate falscher Akzeptanz + falscher Zurückweisung) wie die zweite
Methode ergibt. Der Unterschied zwischen diesen beiden Methoden besteht darin, daß die
Rate fehlerhafter Zurückweisung bei der dritten Methode größer ist, während die Rate
fehlerhafter Akzeptanz niedriger ist.
Es wird nun auf Fig. 5 Bezug genommen. Dort ist eine als Beispiel dienende Ausführungs
form eines entscheidungsbasierten neuralen Netzwerks mit mehreren Kanälen für eine
biometrische Erkennung mit mehreren Sensoren gezeigt und mit dem Bezugszeichen 60
versehen. Diese Gestaltung besteht aus mehreren Klassifizierungskanälen C 1, 1 bis C 1, 6
und C2, 1 bis C2, 6, von denen jeder Eingangsvektoren entweder von unterschiedlichen
Sensoren oder von einem Abschnitt eines höhere Dimension aufweisenden Merkmals
vektors empfängt. Hierbei sind die Kanäle C1, 1 bis C1, 6 und C2, 1 bis C2, 6 nicht in
primäre oder sekundäre Kategorien unterteilt bzw. unterschieden. Daher ist eine laterale
Verschmelzung der Information noch angebrachter. Die Ausgangssignale der Kanäle
werden mit einigen geeigneten Gewichtungen W11 bis W26 zusammengefaßt. Der Ge
wichtsfaktor wird auf der Basis des Vertrauens bzw. der Zuverlässigkeit zugeordnet, das
bzw. die der entsprechende Kanal seinem Erkennungsergebnis zumißt. Da das entschei
dungsbasierte, neurale Netzwerk probabilistische Ausgänge bzw. Wahrscheinlichkeits-
Ausgangssignale erzeugt, ist es naturgemäß die Kanalgewichte derart auszulegen, daß sie
Wahrscheinlichkeitseigenschaften besitzen. cki bezeichnet das Ausgangssignal des i-ten
Unternetzes in dem Kanal k, das gleich p(|ωi, Ck) ist. Weiterhin ist anzumerken, daß das
Vertrauens- bzw. Zuverlässigkeitsmaß Wki = P(Ck|ωi) und das zusammengefaßte Aus
gangssignal für das Unternetz i gleich Oi ist, das p(|ωi) ist.
Bei der klassenabhängigen Kanalverschmelzung entsprechen die Gewichtungsfaktoren dem
Vertrauen bzw. der Zuverlässigkeit P(Ck|ωi) für jeden Kanal. Hierbei repräsentiert
P(Ck|ωi) die Anzeige für die Zuverlässigkeit im Kanal k, wenn das Testmuster aus der
Klasse ωi herrührt. (Definitionsgemäß ist ΣK k=1P(Ck|ωi) = 1, so daß sie die Eigen
schaft einer Wahrscheinlichkeitsfunktion besitzt). Es sei angenommen, daß K Kanäle in
dem Unternetz ωi vorhanden sind, und daß innerhalb jedes Kanals R Cluster bzw. Gruppen
vorhanden sind. Das Wahrscheinlichkeitsmodell des Netzwerks mit Kanalverschmelzung
auf der Basis eines entscheidungsbasierten, neuralen Netzwerks läßt sich in folgender
Weise beschreiben:
Hierbei bezeichnet p(x|ωi, Ck) die Diskriminantenfunktion des Unternetzes i in dem Kanal
k, während p(x|ωi) die kombinierte Diskriminantenfunktion für die Klasse ωi bezeichnet.
Es ist anzumerken, daß x = [x₁T, . . ., xK T]T ist, und daß lediglich xk in der obigen
Gleichung enthalten ist, da p(x|ωi, Ck) von Ck bedingungsmäßig abhängig ist. Nachdem
alle Parameter in den Kanälen ihr Training abgeschlossen haben, läßt sich die Kanalzuver
lässigkeit P(Ck, ωi) in folgender Weise erlernen: Es wird αk = P(Ck|ωi) definiert. Am
Beginn wird
zugeordnet.
Beim Schritt j
Sobald das NN (neurale Netzwerk) trainiert ist, werden die Verschmelzungsgewichte
während der Gewinnungsphase bzw. Wiedergewinnungsphase konstant bleiben.
Es wird nun eine noch allgemeinere Version einer mehrkanaligen Verschmelzung vor
gestellt, die als eine datenabhängige Kanalverschmelzung bezeichnet wird. Anstelle der
Benutzung der Wahrscheinlichkeit (Likelihood) der Beobachtung von k, das einer Klasse
(p(x|ωi, Ck)) gegeben bzw. zugeordnet ist, um die Diskriminantenfunktion für jedes
Cluster zu modellieren, werden die nachträglichen Wahrscheinlichkeiten der Auswahl einer
Klasse bei gegebenem x benutzt (pωi|x, Ck)). Bei dieser Version des mehrkanaligen
Netzwerks wird eine neue Zuverlässigkeit P(Ck|x) zugeordnet, die für das Vertrauen im
Kanal k steht, wenn das Eingangsmuster x ist.
Demgemäß wird das Wahrscheinlichkeitsmodell ebenfalls derart abgeändert, daß es zu
wird.
P(ωi|x, Ck) kann durch P(ωi|x, Ck) = P(ωi|Ck)p(x|ωi, Ck)/p(x|Ck) erhalten werden, und
die Zuverlässigkeit P(Ck|x) kann aus den folgenden Gleichungen erhalten werden:
Hierbei kann p(x|Ck) geradlinig aus der Gleichung p(x|Ck) = ΣiP(ωi|Ck)p(x|ωi, Ck)
berechnet werden und P(Ck) kann aus der Gleichung (12) in Erfahrung gebracht werden
(wobei aber p(x|ωi, Ck) durch p(x|Ck) zu ersetzen ist. Der Ausdruck P(Ck) kann als "das
allgemeine Vertrauen" bzw. "die allgemeine Zuverlässigkeit" bezeichnet werden, das bzw.
die man bezüglich des Kanals k hat.
Im Unterschied zu dem klassenabhängigen Ansatz müssen die Verschmelzungsgewichte für
jedes Testmuster während der Wiedergewinnungsphase berechnet werden.
Im folgenden werden Testergebnisse beschrieben.
Experimentelle Testergebnisse werden nachfolgend kurz zusammengefaßt. Das probabilisti
sche, entscheidungsbasierte, neurale Netzwerk hat aktuelle Gesichtspositionen wider
spruchsfrei und zuverlässig bestimmt, und zwar auf der Basis von Experimenten, die für
mehr als 1000 Testmuster durchgeführt wurden. Das probabilistische, entscheidungsba
sierte, neurale Netzwerk ergibt auch ein sehr zufriedenstellendes Lokalisierungsvermögen
bei der Augenlokalisierung. Es ist gegenüber kleinen Änderungen der Kopfgröße, der
Orientierung des Gesichts (bis zu ungefähr 30%) und dem Vorhandensein von Brillen un
empfindlich. Die vorliegende Erfindung ist gegenüber starken Veränderungen der Gesichts
merkmale und der Augenformen sehr robust. Das probabilistische, entscheidungsbasierte,
neurale Netzwerk benötigt lediglich 200 ms auf einer Arbeitsstation SUN Sparc20, um
menschliche Gesichter in einem Bild mit 320 × 240 Bildelementen aufzufinden. Bei einem
Gesichtsbild mit 320 × 240 Bildelementen benötigt das probabilistische, entscheidungsba
sierte, neurale Netzwerk 500 ms für die Lokalisierung von zwei Augen auf einer Arbeits
station SUN Sparc20. Aufgrund der inhärenten, parallelen und verteilten Verarbeitungs
natur des entscheidungsbasierten, neuralen Netzwerks kann diese Technik auch mittels
spezialisierter Hardware für ein Echtzeit-Leistungsvermögen einfach implementiert werden.
Nachfolgend wird ein Beispiel des Einsatzvermögens beschrieben, das auf der Grundlage
des experimentellen Verhaltens bei öffentlichen Datenbanken (FERET-Datenbank) und im
Haus befindlichen Datenbanken (SCR-Datenbanken) durchgeführt wurden. Zunächst wurde
ein Experiment bei 200 Personen (jeweils mit zwei Frontansichten) der Datenbank ARPA/
ARL FERET durchgeführt. Ein Bild je Person wurde zum Trainieren und das andere Bild
zum Testen benutzt. Ein mit Entscheidungsgrenzen angesteuertes bzw. mit Entscheidungs
grenzen-Steuerung arbeitendes, entscheidungsbasiertes, neuralen Netzwerk erreicht beim
Training eine Genauigkeit von 100% und beim Testen eine Genauigkeit von 96%. Eine
verbesserte probabilistische Variante des entscheidungsbasierten, neuralen Netzwerks
erreichte eine Erkennungsrate von 99%. Die Datenbank SCR 80 × 20 besteht aus 80
Leuten unterschiedlicher Rasse, unterschiedlichen Alters und unterschiedlichen Ge
schlechts. Die Datenbank enthält 20 Bilder für jede Person. Falls eine Person eine Brille
trägt, sind 10 Bilder mit Brille und 10 ohne Brille. Der Trainingssatz umfaßte 4 Bilder je
Person. Der Testsatz enthielt 16 Bilder je Person, das heißt insgesamt 1280 Bilder. Bei
allen Bildern erfaßte der Gesichtsdetektor, der auf dem entscheidungsbasierten, neuralen
Netzwerk basiert, die Mitte des Gesichts stets korrekt, wodurch eine Erfolgsrate von 100
% erreicht wurde. Die Augenlokalisierung ist eine schwierigere Aufgabe als die Gesichts
erfassung, insbesondere dann, wenn Brillen vorhanden sind. Von den 1280 Bildern kam
die Augenlokalisierungseinrichtung, die auf dem entscheidungsbasierten, neuralen Netz
werk basiert, bei 5 Bildern zu einer fehlerhaften Erfassung der Augen mit einem Fehler
von mehr als 5 Bildelementen. Bei den verbleibenden 1275 Bildern erzielte die Gesichts
erkennungseinrichtung auf der Basis des entscheidungsbasierten, neuralen Netzwerks eine
Erkennungsrate von 100%. Eine Datenbank SCR-IM 40 × 150 bot die Gelegenheit zum
Experimentieren mit einer sehr viel größeren Orientierung und anderen Variationen. Die
Datenbank enthielt 150 Bilder für jede von 40 Personen. Die Bilder wurden kontinuierlich
gewonnen, während die Person ihren Kopf langsam bewegte und drehte. Die Kopfdrehun
gen lagen nicht nur in einem sehr breiten Winkel (bis zu 45°), sondern auch entlang
verschiedener Achsen vor (das heißt links-rechts, oben-unten und verkippte Drehungen).
Der Gesichtsdetektor auf DBNN-Basis und die Augenlokalisierungseinrichtung auf DBNN-
Basis arbeiteten bei 75% der 6000 Bilder in dieser Datenbank korrekt, was den sogenann
ten gültigen Datensatz bildete. Ein herkömmlicher Gesichtsdetektor und eine herkömmliche
Augenlokalisierungseinrichtung wurden lediglich bezüglich Frontansichten trainiert. Sie
konnten Bilder mit Drehungen bis lediglich 30° handhaben. Die Gesichtserkennungsein
richtung auf DBNN-Basis erzielte eine sehr hohe Erfassungsrate von 98%.
Das hierarchische Gesichtserkennungssystem auf der DBNN-Basis wurde mittels einer Ge
sichts-Datenbank für 38 Personen getestet. Die hierarchische Klassifizierung reduzierte die
fehlerhafte Akzeptanz erheblich von 9,35% auf 0% und die fehlerhafte Zurückweisung
von 7,29% auf 2,25%, verglichen mit einer nicht hierarchischen Gesichtserkennung.
Es versteht sich, daß die hier beschriebenen Ausführungsbeispiele lediglich als Beispiel
dienen und verschiedenartige Abänderungen und Modifikationen unter Einsatz funktionell
äquivalenter Elemente ergriffen werden können.
Claims (31)
1. System zum automatischen Erfassen und Erkennen der Identität eines
verformbaren Objekts in einer beliebigen Bildszene, mit
einer Objekterfassungseinrichtung zum Erkennen, ob das Objekt in der beliebi gen Bildszene vorhanden ist,
einer Merkmalslokalisierungseinrichtung zum Bestimmen der Position eines bestimmten identifizierenden Merkmals an dem Objekt, wobei die Merkmalslokalisierungs einrichtung mit der Objekterfassungseinrichtung gekoppelt ist,
einer Merkmalsextrahiereinrichtung, die mit der Merkmalslokalisierungsein richtung gekoppelt ist und zum Empfangen von Koordinaten, die von der Merkmals lokalisierungseinrichtung abgegeben werden und die die Position des identifizierenden Merkmals anzeigen, und zum Herausgreifen von Informationen aus den Koordinaten dient, wobei die Informationen mit anderen Merkmalen des Objekts zusammenhängen, die zur Erzeugung eines geringe Auflösung besitzenden Bilds des Objekts eingesetzt werden, und
einer Objekterkennungseinrichtung zum Ermitteln der Identität des Objekts, wobei die Objekterkennungseinrichtung mit der Merkmalsextrahiereinrichtung gekoppelt ist und dahingehend betreibbar ist, daß sie das geringe Auflösung besitzende Bild des Objekts, das von der Merkmalsextrahiereinrichtung zugeführt wird, zur Identifizierung des Objekts empfängt.
einer Objekterfassungseinrichtung zum Erkennen, ob das Objekt in der beliebi gen Bildszene vorhanden ist,
einer Merkmalslokalisierungseinrichtung zum Bestimmen der Position eines bestimmten identifizierenden Merkmals an dem Objekt, wobei die Merkmalslokalisierungs einrichtung mit der Objekterfassungseinrichtung gekoppelt ist,
einer Merkmalsextrahiereinrichtung, die mit der Merkmalslokalisierungsein richtung gekoppelt ist und zum Empfangen von Koordinaten, die von der Merkmals lokalisierungseinrichtung abgegeben werden und die die Position des identifizierenden Merkmals anzeigen, und zum Herausgreifen von Informationen aus den Koordinaten dient, wobei die Informationen mit anderen Merkmalen des Objekts zusammenhängen, die zur Erzeugung eines geringe Auflösung besitzenden Bilds des Objekts eingesetzt werden, und
einer Objekterkennungseinrichtung zum Ermitteln der Identität des Objekts, wobei die Objekterkennungseinrichtung mit der Merkmalsextrahiereinrichtung gekoppelt ist und dahingehend betreibbar ist, daß sie das geringe Auflösung besitzende Bild des Objekts, das von der Merkmalsextrahiereinrichtung zugeführt wird, zur Identifizierung des Objekts empfängt.
2. System nach Anspruch 1, gekennzeichnet durch eine Bildgabeein
richtung zur Gewinnung der beliebigen Bildszene, aus der das Objekt erfaßt und erkannt
wird, wobei die Bildgabeeinrichtung mit dem Objektdetektor gekoppelt ist.
3. System nach Anspruch 1, gekennzeichnet durch eine erste Spei
chereinrichtung zum Speichern von Informationen, die mit dem Objekt zusammenhängen,
wobei die erste Speichereinrichtung mit der Objekterfassungseinrichtung verknüpft ist.
4. System nach einem der vorhergehenden Ansprüche, gekennzeich
net durch eine zweite Speichereinrichtung zum Speichern von Informationen, die mit dem
identifizierenden Merkmal des Objekts zusammenhängen, wobei die zweite Speicher
einrichtung mit der Merkmalslokalisierungseinrichtung verknüpft ist.
5. System nach einem der vorhergehenden Ansprüche, gekennzeich
net durch eine dritte Speichereinrichtung zum Speichern von Informationen, die mit der
Identität des Objekts zusammenhängen, wobei die dritte Speichereinrichtung mit der
Objekterkennungseinrichtung verknüpft ist.
6. System nach einem der vorhergehenden Ansprüche, dadurch gekenn
zeichnet, daß die Objekterfassungseinrichtung, die Merkmalslokalisierungsein
richtung und die Objekterkennungseinrichtung jeweils als ein entscheidungsbasiertes,
neurales Netzwerk implementiert sind.
7. System nach Anspruch 6, dadurch gekennzeichnet, daß das
entscheidungsbasierte, neurale Netzwerk einen Aufbau mit "eine Klasse in einem Netz
werk" besitzt, der eine Mehrzahl von Unternetzen und eine Mehrzahl von Klassen auf
weist, wobei jedes der Unternetze einer der Klassen zugeordnet ist, um diese von den
anderen Klassen zu unterscheiden.
8. System nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß
das entscheidungsbasierte, neurale Netzwerk ein Trainingsschema enthält, das eine erste
Phase und eine zweite Phase umfaßt, wobei die erste Phase das individuelle Trainieren
jedes der Unternetze ohne gegenseitigen Austausch von Informationen zwischen den
Klassen beinhaltet und die zweite Phase ein verstärkendes Lernen und ein anti-verstärken
des Lernen des während der ersten Phase erzielten Lernens beinhaltet.
9. System nach einem der Ansprüche 6 bis 8, dadurch gekennzeich
net, daß das entscheidungsbasierte, neurale Netzwerk ein probabilistisches, entschei
dungsbasiertes, neurales Netzwerk aufweist, wobei das verstärkende Lernen und das
antiverstärkende Lernen durch ein Trainingsmuster x(m) bereitgestellt werden, das zu einer
Klasse gehört, wobei gilt:
wobei das verstärkende Lernen in folgender Weise durchgeführt wird:
und das anti-verstärkende Lernen gemäß der folgenden Beziehung durchgeführt wird:
10. System nach Anspruch 8, dadurch gekennzeichnet, daß das
entscheidungsbasierte, neurale Netzwerk ein probabilistisches, entscheidungsbasiertes,
neurales Netzwerk aufweist, das eine Mehrzahl von probabilistischen Ausgangssignalen
enthält, von denen jeder einen Schwellenwert hat, der gemäß einer adaptiven Lernregel
trainiert ist:
11. System nach einem der Ansprüche 1 bis 5, dadurch gekennzeich
net, daß die Objekterfassungseinrichtung, die Merkmalslokalisierungseinrichtung und die
Objekterkennungseinrichtung jeweils durch ein probabilistisches, entscheidungsbasiertes,
neurales Netzwerk implementiert sind.
12. System nach Anspruch 11, dadurch gekennzeichnet, daß das
probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Unternetzen
enthält, wobei jedes Unternetz eine Mehrzahl von Cluster-Basisfunktionen aufweist, die
vorhergehende Cluster-Wahrscheinlichkeiten gemäß der folgenden Beziehung aufweisen:
13. System nach Anspruch 11, dadurch gekennzeichnet, daß das
probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Unternetzen
enthält, von denen jedes eine Mehrzahl von elliptischen Basisfunktionen gemäß der
folgenden Beziehung aufweist:
14. System nach Anspruch 11, dadurch gekennzeichnet, daß das
probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Unternetzen
enthält, von denen jedes eine Diskriminantenfunktion enthält, die einen Nichtlinearitäts-
Operator aufweist.
15. System nach Anspruch 14, dadurch gekennzeichnet, daß die
Diskriminantenfunktion einen logarithmischen Operator aufweist, der eine logarithmische
Wahrscheinlichkeitsfunktion approximiert:
16. System nach Anspruch 14, dadurch gekennzeichnet, daß die
Diskriminantenfunktion einen Normalisierungs-Operator aufweist, der eine nachträgliche
Klassenwahrscheinlichkeit approximiert.
17. System nach Anspruch 11, gekennzeichnet durch eine Objektve
rifizierungseinrichtung, die als ein probabilistisches, entscheidungsbasiertes, neurales
Netzwerk zum Verifizieren der Entscheidung der Objekterkennungseinrichtung implemen
tiert ist, wobei die Objektverifizierungseinrichtung zusätzliche Information bezüglich des
Objekts empfängt, die in aufeinanderfolgenden Verarbeitungsstufen in einer hierarchischen
Weise mittels der Objektverifizierungseinrichtung kaskadenförmig bearbeitet werden.
18. System nach Anspruch 11, dadurch gekennzeichnet, daß das
probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Klassifizie
rer-Kanälen aufweist, die jeweils einen Ausgang haben, wobei die Ausgänge lateral bzw.
seitlich durch Gewichten der Kanäle verschmolzen werden.
19. System nach Anspruch 11, dadurch gekennzeichnet, daß das
probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Klassifizie
rer-Kanälen aufweist, die jeweils einen Ausgang haben, wobei die Ausgänge durch eine
klassenabhängige Kanalverschmelzung lateral bzw. seitlich gemäß der folgenden Gleichung
verschmolzen bzw. zusammengefaßt werden:
20. System nach Anspruch 11, dadurch gekennzeichnet, daß das
probabilistische, entscheidungsbasierte, neurale Netzwerk eine Mehrzahl von Klassifizie
rer-Kanälen aufweist, die jeweils einen Ausgang bzw. ein Ausgangssignal haben, wobei die
Ausgänge bzw. Ausgangssignale durch eine datenabhängige Kanalverschmelzung gemäß
der folgenden Gleichung seitlich bzw. lateral verknüpft werden:
21. System nach einem der vorhergehenden Ansprüche, dadurch gekenn
zeichnet, daß das Objekt ein menschliches Gesicht aufweist und daß das identifizie
rende Merkmal ein Augenpaar in dem menschlichen Gesicht enthält.
22. Verfahren zum automatischen Erfassen und Erkennen der Identität eines
verformbaren Objekts in einer beliebigen Bildszene, mit den Schritten:
Vorverarbeiten der Bildszene zu Unterbildern,
Vergleichen jedes der Unterbilder mit einer Datenbank eines Objektdetektors, die unterschiedliche Versionen des Objekts speichert, um hierdurch zu ermitteln, ob irgendeines der Unterbilder das Objekt ist,
Lokalisieren der Koordinaten eines identifizierenden Merkmals an dem Objekt durch Vergleichen der Koordinaten mit einer Datenbank einer Merkmalslokalisierungsein richtung, die Koordinaten speichert, die unterschiedliche Versionen des identifizierenden Merkmals anzeigen,
Herausgreifen von Informationen, die mit anderen Merkmalen des Objekts zusammenhängen, aus den Koordinaten, um eine geringe Auflösung besitzendes Bild des Objekts zu erzeugen,
Eingeben des geringe Auflösung aufweisenden Bilds des Objektbilds in eine Objekterkennungseinrichtung, und
Bestimmen der Identität des Objekts.
Vorverarbeiten der Bildszene zu Unterbildern,
Vergleichen jedes der Unterbilder mit einer Datenbank eines Objektdetektors, die unterschiedliche Versionen des Objekts speichert, um hierdurch zu ermitteln, ob irgendeines der Unterbilder das Objekt ist,
Lokalisieren der Koordinaten eines identifizierenden Merkmals an dem Objekt durch Vergleichen der Koordinaten mit einer Datenbank einer Merkmalslokalisierungsein richtung, die Koordinaten speichert, die unterschiedliche Versionen des identifizierenden Merkmals anzeigen,
Herausgreifen von Informationen, die mit anderen Merkmalen des Objekts zusammenhängen, aus den Koordinaten, um eine geringe Auflösung besitzendes Bild des Objekts zu erzeugen,
Eingeben des geringe Auflösung aufweisenden Bilds des Objektbilds in eine Objekterkennungseinrichtung, und
Bestimmen der Identität des Objekts.
23. Verfahren nach Anspruch 21, dadurch gekennzeichnet, daß der
Schritt des Vergleichens jedes der Unterbilder mit der Datenbank des Objektdetektors die
weiteren Schritte enthält:
Erzeugen eines Erfassungsergebnisses für jedes Unterbild,
Erzeugen eines Vertrauensergebnisses bzw. einer Quote für jedes Unterbild, das bzw. die das Vertrauen bzw. die Zuverlässigkeit bezüglich des Erfassungsergebnisses anzeigt, und
Vergleichen des Vertrauensergebnisses bzw. Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei das Objekt erfaßt wird, wenn das Ver trauensmaß oberhalb des vorbestimmten, trainierten Schwellwerts liegt, und das Objekt nicht erfaßt wird, wenn das Zuverlässigkeitsmaß unterhalb des vorbestimmten, trainierten Schwellwerts liegt.
Erzeugen eines Erfassungsergebnisses für jedes Unterbild,
Erzeugen eines Vertrauensergebnisses bzw. einer Quote für jedes Unterbild, das bzw. die das Vertrauen bzw. die Zuverlässigkeit bezüglich des Erfassungsergebnisses anzeigt, und
Vergleichen des Vertrauensergebnisses bzw. Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei das Objekt erfaßt wird, wenn das Ver trauensmaß oberhalb des vorbestimmten, trainierten Schwellwerts liegt, und das Objekt nicht erfaßt wird, wenn das Zuverlässigkeitsmaß unterhalb des vorbestimmten, trainierten Schwellwerts liegt.
24. Verfahren nach Anspruch 22, dadurch gekennzeichnet, daß der
Schritt des Herausgreifens von Informationen, die mit anderen Merkmalen des Objekts
zusammenhängen, die weiteren Schritte aufweist:
Einstellen der Intensität und der Ränder des identifizierenden Merkmals und der anderen Merkmale, um ein normalisiertes bzw. standardisiertes und rekonditioniertes Ob jektbild zu erzeugen und
Verringern der Auflösung des Objektbilds.
Einstellen der Intensität und der Ränder des identifizierenden Merkmals und der anderen Merkmale, um ein normalisiertes bzw. standardisiertes und rekonditioniertes Ob jektbild zu erzeugen und
Verringern der Auflösung des Objektbilds.
25. Verfahren nach einem der Ansprüche 22 bis 24, dadurch gekenn
zeichnet, daß der Schritt der Bestimmung der Identität des Objektbilds die weiteren
Schritte enthält:
Erzeugen eines Erfassungsergebnisses für das geringe Auflösung aufweisende Objektbild,
Erzeugen eines Vertrauens- bzw. Zuverlässigkeitsmaßes für das Objektbild, das das Vertrauen bzw. die Zuverlässigkeit hinsichtlich des Erfassungsergebnisses anzeigt, und
Vergleichen des Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei das Objektbild identifiziert wird, wenn das Zuverlässigkeitsmaß oberhalb des vorbestimmten, trainierten Schwellwerts liegt, während das Objektbild nicht identifiziert wird, wenn das Zuverlässigkeitsmaß unterhalb des vorbestimmten, trainierten Schwellwerts liegt.
Erzeugen eines Erfassungsergebnisses für das geringe Auflösung aufweisende Objektbild,
Erzeugen eines Vertrauens- bzw. Zuverlässigkeitsmaßes für das Objektbild, das das Vertrauen bzw. die Zuverlässigkeit hinsichtlich des Erfassungsergebnisses anzeigt, und
Vergleichen des Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei das Objektbild identifiziert wird, wenn das Zuverlässigkeitsmaß oberhalb des vorbestimmten, trainierten Schwellwerts liegt, während das Objektbild nicht identifiziert wird, wenn das Zuverlässigkeitsmaß unterhalb des vorbestimmten, trainierten Schwellwerts liegt.
26. Verfahren nach einem der Ansprüche 22 bis 25, dadurch gekenn
zeichnet, daß das verformbare Objekt ein menschliches Gesicht aufweist, daß das
identifizierende Merkmal Augen enthält, daß die anderen Merkmale Augenbrauen, eine
Nase, einen Mund und einen Haaransatz enthalten, und daß das Objektbild die Augen und
den Mund aufweist.
27. Verfahren nach einem der Ansprüche 22 bis 26, dadurch gekenn
zeichnet, daß die Schritte des Vergleichens der Unterbilder mit der Datenbank des
Objektdetektors, der Lokalisierung der Koordinaten des identifizierenden Merkmals an
dem Objekt, und der Bestimmung der Identität des Objektbilds jeweils durch ein probabili
stisches, entscheidungsbasiertes, neurales Netzwerk implementiert werden.
28. Verfahren nach einem der Ansprüche 22 bis 27, gekennzeich
net durch den Schritt der Verifizierung der Identität des Objekts.
29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, daß der
Verifizierungsschritt durch ein probabilistisches, entscheidungsbasiertes, neurales Netzwerk
implementiert wird.
30. Verfahren nach einem der Ansprüche 22 bis 29, dadurch gekenn
zeichnet, daß der Schritt der Bestimmung der Identität des Objektbilds die weiteren
Schritte enthält:
Bereitstellen einer angeblichen Identität des Objekts durch eine separate Identifizierungseinrichtung,
Erzeugen eines Vertrauens- bzw. Zuverlässigkeitsmaßes, das die Zuverlässig keit der angeblichen Identität anzeigt, aus dem geringe Auflösung aufweisenden Objekt bild,
Vergleichen des Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei die angebliche Identität des Objekts bestätigt wird, wenn das Zuver lässigkeitsmaß oberhalb des trainierten Schwellwerts liegt, während die angebliche Identität des Objekts nicht bestätigt wird, wenn das Zuverlässigkeitsmaß unterhalb des trainierten Schwellwerts liegt.
Bereitstellen einer angeblichen Identität des Objekts durch eine separate Identifizierungseinrichtung,
Erzeugen eines Vertrauens- bzw. Zuverlässigkeitsmaßes, das die Zuverlässig keit der angeblichen Identität anzeigt, aus dem geringe Auflösung aufweisenden Objekt bild,
Vergleichen des Zuverlässigkeitsmaßes mit einem vorbestimmten, trainierten Schwellwert, wobei die angebliche Identität des Objekts bestätigt wird, wenn das Zuver lässigkeitsmaß oberhalb des trainierten Schwellwerts liegt, während die angebliche Identität des Objekts nicht bestätigt wird, wenn das Zuverlässigkeitsmaß unterhalb des trainierten Schwellwerts liegt.
31. Verfahren nach Anspruch 30, dadurch gekennzeichnet, daß der
Schritt der Erzeugung des Zuverlässigkeitsmaßes durch ein probabilistisches, entschei
dungsbasiertes, neurales Netzwerk durchgeführt wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/521,176 US5850470A (en) | 1995-08-30 | 1995-08-30 | Neural network for locating and recognizing a deformable object |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19634769A1 true DE19634769A1 (de) | 1997-03-06 |
Family
ID=24075676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19634769A Ceased DE19634769A1 (de) | 1995-08-30 | 1996-08-28 | Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts |
Country Status (2)
Country | Link |
---|---|
US (1) | US5850470A (de) |
DE (1) | DE19634769A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006021518A1 (de) * | 2006-05-04 | 2007-11-15 | LÜTH & DÜMCHEN Automatisierungsprojekt GmbH | Räumlich und zeitlich verteilte Einrichtungen und Verfahren zur Gesichtserkennung zwecks Identifikation oder Verifikation |
DE102006057948A1 (de) * | 2006-12-08 | 2008-06-12 | Giesecke & Devrient Gmbh | Portabler Datenträger zur biometrischen Benutzererkennung |
Families Citing this family (223)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US10361802B1 (en) | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
US6418424B1 (en) | 1991-12-23 | 2002-07-09 | Steven M. Hoffberg | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US6850252B1 (en) | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
US6661906B1 (en) * | 1996-12-19 | 2003-12-09 | Omron Corporation | Image creating apparatus |
US6907135B2 (en) * | 1997-03-03 | 2005-06-14 | British Telecommunications Public Limited Company | Security check provision |
JP3222091B2 (ja) * | 1997-05-27 | 2001-10-22 | シャープ株式会社 | 画像処理装置及び画像処理装置制御プログラムを記憶した媒体 |
US7738015B2 (en) | 1997-10-09 | 2010-06-15 | Fotonation Vision Limited | Red-eye filter method and apparatus |
US7042505B1 (en) | 1997-10-09 | 2006-05-09 | Fotonation Ireland Ltd. | Red-eye filter method and apparatus |
US7630006B2 (en) | 1997-10-09 | 2009-12-08 | Fotonation Ireland Limited | Detecting red eye filter and apparatus using meta-data |
US6035055A (en) * | 1997-11-03 | 2000-03-07 | Hewlett-Packard Company | Digital image management system in a distributed data access network system |
US6108437A (en) * | 1997-11-14 | 2000-08-22 | Seiko Epson Corporation | Face recognition apparatus, method, system and computer readable medium thereof |
US6941274B1 (en) * | 1997-11-28 | 2005-09-06 | Diebold, Incorporated | Automated transaction machine |
US6606398B2 (en) * | 1998-09-30 | 2003-08-12 | Intel Corporation | Automatic cataloging of people in digital photographs |
US6480814B1 (en) * | 1998-10-26 | 2002-11-12 | Bennett Simeon Levitan | Method for creating a network model of a dynamic system of interdependent variables from system observations |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
JP2000259814A (ja) * | 1999-03-11 | 2000-09-22 | Toshiba Corp | 画像処理装置及びその方法 |
WO2000055811A1 (fr) * | 1999-03-12 | 2000-09-21 | Sony Corporation | Processeur de donnees, procede de traitement de donnees, et support d'enregistrement |
JP2000350123A (ja) * | 1999-06-04 | 2000-12-15 | Fuji Photo Film Co Ltd | 画像選択装置、カメラ、画像選択方法及び記録媒体 |
US6944319B1 (en) * | 1999-09-13 | 2005-09-13 | Microsoft Corporation | Pose-invariant face recognition system and process |
US6741756B1 (en) * | 1999-09-30 | 2004-05-25 | Microsoft Corp. | System and method for estimating the orientation of an object |
US6698653B1 (en) | 1999-10-28 | 2004-03-02 | Mel Diamond | Identification method, especially for airport security and the like |
US6594382B1 (en) * | 1999-11-04 | 2003-07-15 | The United States Of America As Represented By The Secretary Of The Navy | Neural sensors |
AUPQ464099A0 (en) * | 1999-12-14 | 2000-01-13 | Canon Kabushiki Kaisha | Emotive editing system |
US6816085B1 (en) | 2000-01-14 | 2004-11-09 | Michael N. Haynes | Method for managing a parking lot |
US7123166B1 (en) | 2000-11-17 | 2006-10-17 | Haynes Michael N | Method for managing a parking lot |
US6940545B1 (en) * | 2000-02-28 | 2005-09-06 | Eastman Kodak Company | Face detecting camera and method |
US6504470B2 (en) | 2000-05-19 | 2003-01-07 | Nextgenid, Ltd. | Access control method and apparatus for members and guests |
US6496595B1 (en) | 2000-05-19 | 2002-12-17 | Nextgenid, Ltd. | Distributed biometric access control apparatus and method |
US6671391B1 (en) * | 2000-05-26 | 2003-12-30 | Microsoft Corp. | Pose-adaptive face detection system and process |
US7110570B1 (en) | 2000-07-21 | 2006-09-19 | Trw Inc. | Application of human facial features recognition to automobile security and convenience |
US7398555B2 (en) * | 2000-08-28 | 2008-07-08 | Fujitsu Limited | Electronic apparatus and medium |
EP1202214A3 (de) * | 2000-10-31 | 2005-02-23 | Matsushita Electric Industrial Co., Ltd. | Verfahren und Gerät zur Erkennung von Gegenständen |
US7099510B2 (en) * | 2000-11-29 | 2006-08-29 | Hewlett-Packard Development Company, L.P. | Method and system for object detection in digital images |
US6975750B2 (en) * | 2000-12-01 | 2005-12-13 | Microsoft Corp. | System and method for face recognition using synthesized training images |
US7379926B1 (en) * | 2001-02-09 | 2008-05-27 | Remington Partners | Data manipulation and decision processing |
US6895520B1 (en) | 2001-03-02 | 2005-05-17 | Advanced Micro Devices, Inc. | Performance and power optimization via block oriented performance measurement and control |
US6768815B2 (en) | 2001-05-10 | 2004-07-27 | The United States Of America As Represented By The Secretary Of The Navy | Color sensor |
US7274800B2 (en) * | 2001-07-18 | 2007-09-25 | Intel Corporation | Dynamic gesture recognition from stereo sequences |
US8218829B2 (en) * | 2001-08-20 | 2012-07-10 | Polycom, Inc. | System and method for using biometrics technology in conferencing |
WO2003028376A1 (en) * | 2001-09-14 | 2003-04-03 | Vislog Technology Pte Ltd | Customer service counter/checkpoint registration system with video/image capturing, indexing, retrieving and black list matching function |
US7218775B2 (en) * | 2001-09-17 | 2007-05-15 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Agriculture And Agrifood | Method and apparatus for identifying and quantifying characteristics of seeds and other small objects |
US20030053662A1 (en) * | 2001-09-19 | 2003-03-20 | Koninklijke Philips Electronics N.V. | Method and apparatus for digital encoding and operator identification using stored user image |
US7286692B2 (en) * | 2001-12-27 | 2007-10-23 | Amnart Kanarat | Automatic celebrity face matching and attractiveness rating machine |
US6734798B2 (en) | 2002-01-31 | 2004-05-11 | Ervin M. Smith | Fuel dispenser with a human detection and recognition system |
AUPS140502A0 (en) * | 2002-03-27 | 2002-05-09 | Seeing Machines Pty Ltd | Method for automatic detection of facial features |
US7369685B2 (en) * | 2002-04-05 | 2008-05-06 | Identix Corporation | Vision-based operating method and system |
US20040052418A1 (en) * | 2002-04-05 | 2004-03-18 | Bruno Delean | Method and apparatus for probabilistic image analysis |
US7165029B2 (en) * | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
CA2390056A1 (en) * | 2002-06-07 | 2003-12-07 | Du Pont Canada Inc. | Method and system for managing commodity information in a supply chain of production |
WO2004029659A2 (en) * | 2002-06-14 | 2004-04-08 | Honda Giken Kogyo Kabushiki Kaisha | Pedestrian detection and tracking with night vision |
US6959109B2 (en) * | 2002-06-20 | 2005-10-25 | Identix Incorporated | System and method for pose-angle estimation |
US7171043B2 (en) | 2002-10-11 | 2007-01-30 | Intel Corporation | Image recognition using hidden markov models and coupled hidden markov models |
EP1576815A1 (de) | 2002-12-11 | 2005-09-21 | Nielsen Media Research, Inc. | Ermittlung der zuschauerzusammensetzung |
US7203338B2 (en) * | 2002-12-11 | 2007-04-10 | Nielsen Media Research, Inc. | Methods and apparatus to count people appearing in an image |
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
US7203368B2 (en) * | 2003-01-06 | 2007-04-10 | Intel Corporation | Embedded bayesian network for pattern recognition |
WO2004075105A2 (en) * | 2003-02-20 | 2004-09-02 | Intelligent Mechatronic Systems Inc. | Adaptive visual occupant detection and classification system |
US20040208388A1 (en) * | 2003-04-21 | 2004-10-21 | Morgan Schramm | Processing a facial region of an image differently than the remaining portion of the image |
US8593542B2 (en) | 2005-12-27 | 2013-11-26 | DigitalOptics Corporation Europe Limited | Foreground/background separation using reference images |
US7471846B2 (en) | 2003-06-26 | 2008-12-30 | Fotonation Vision Limited | Perfecting the effect of flash within an image acquisition devices using face detection |
US8494286B2 (en) | 2008-02-05 | 2013-07-23 | DigitalOptics Corporation Europe Limited | Face detection in mid-shot digital images |
US8330831B2 (en) | 2003-08-05 | 2012-12-11 | DigitalOptics Corporation Europe Limited | Method of gathering visual meta data using a reference image |
US7792970B2 (en) | 2005-06-17 | 2010-09-07 | Fotonation Vision Limited | Method for establishing a paired connection between media devices |
US9129381B2 (en) | 2003-06-26 | 2015-09-08 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
US7574016B2 (en) | 2003-06-26 | 2009-08-11 | Fotonation Vision Limited | Digital image processing using face detection information |
US8498452B2 (en) | 2003-06-26 | 2013-07-30 | DigitalOptics Corporation Europe Limited | Digital image processing using face detection information |
US7689009B2 (en) | 2005-11-18 | 2010-03-30 | Fotonation Vision Ltd. | Two stage detection for photographic eye artifacts |
US7616233B2 (en) | 2003-06-26 | 2009-11-10 | Fotonation Vision Limited | Perfecting of digital image capture parameters within acquisition devices using face detection |
US7970182B2 (en) | 2005-11-18 | 2011-06-28 | Tessera Technologies Ireland Limited | Two stage detection for photographic eye artifacts |
US7920723B2 (en) | 2005-11-18 | 2011-04-05 | Tessera Technologies Ireland Limited | Two stage detection for photographic eye artifacts |
US8948468B2 (en) | 2003-06-26 | 2015-02-03 | Fotonation Limited | Modification of viewing parameters for digital images using face detection information |
US7844076B2 (en) | 2003-06-26 | 2010-11-30 | Fotonation Vision Limited | Digital image processing using face detection and skin tone information |
US7565030B2 (en) | 2003-06-26 | 2009-07-21 | Fotonation Vision Limited | Detecting orientation of digital images using face detection information |
US8036458B2 (en) | 2007-11-08 | 2011-10-11 | DigitalOptics Corporation Europe Limited | Detecting redeye defects in digital images |
US7440593B1 (en) | 2003-06-26 | 2008-10-21 | Fotonation Vision Limited | Method of improving orientation and color balance of digital images using face detection information |
US8682097B2 (en) | 2006-02-14 | 2014-03-25 | DigitalOptics Corporation Europe Limited | Digital image enhancement with reference images |
US8254674B2 (en) | 2004-10-28 | 2012-08-28 | DigitalOptics Corporation Europe Limited | Analyzing partial face regions for red-eye detection in acquired digital images |
US8896725B2 (en) | 2007-06-21 | 2014-11-25 | Fotonation Limited | Image capture device with contemporaneous reference image capture mechanism |
US8155397B2 (en) | 2007-09-26 | 2012-04-10 | DigitalOptics Corporation Europe Limited | Face tracking in a camera processor |
US7269292B2 (en) | 2003-06-26 | 2007-09-11 | Fotonation Vision Limited | Digital image adjustable compression and resolution using face detection information |
US7620218B2 (en) | 2006-08-11 | 2009-11-17 | Fotonation Ireland Limited | Real-time face tracking with reference images |
US8989453B2 (en) | 2003-06-26 | 2015-03-24 | Fotonation Limited | Digital image processing using face detection information |
US8170294B2 (en) | 2006-11-10 | 2012-05-01 | DigitalOptics Corporation Europe Limited | Method of detecting redeye in a digital image |
US9692964B2 (en) | 2003-06-26 | 2017-06-27 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
WO2005006278A2 (en) * | 2003-06-30 | 2005-01-20 | Honda Motor Co., Ltd. | Systems and methods for training component-based object identification systems |
US7783082B2 (en) * | 2003-06-30 | 2010-08-24 | Honda Motor Co., Ltd. | System and method for face recognition |
US7310442B2 (en) * | 2003-07-02 | 2007-12-18 | Lockheed Martin Corporation | Scene analysis surveillance system |
US9412007B2 (en) | 2003-08-05 | 2016-08-09 | Fotonation Limited | Partial face detector red-eye filter method and apparatus |
US8520093B2 (en) | 2003-08-05 | 2013-08-27 | DigitalOptics Corporation Europe Limited | Face tracker and partial face tracker for red-eye filter method and apparatus |
JP2007521572A (ja) * | 2003-09-10 | 2007-08-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | フィーチャー認識のための装置及び方法 |
WO2005034025A1 (en) * | 2003-10-08 | 2005-04-14 | Xid Technologies Pte Ltd | Individual identity authentication systems |
US7366325B2 (en) * | 2003-10-09 | 2008-04-29 | Honda Motor Co., Ltd. | Moving object detection using low illumination depth capable computer vision |
US7697026B2 (en) * | 2004-03-16 | 2010-04-13 | 3Vr Security, Inc. | Pipeline architecture for analyzing multiple video streams |
JP2005346806A (ja) * | 2004-06-02 | 2005-12-15 | Funai Electric Co Ltd | Dvdレコーダおよび記録再生装置 |
JP4419759B2 (ja) * | 2004-09-01 | 2010-02-24 | 株式会社ニコン | 電子カメラシステム |
JP2006079458A (ja) * | 2004-09-10 | 2006-03-23 | Fuji Photo Film Co Ltd | 画像伝送システム、画像伝送方法、及び画像伝送プログラム |
WO2006036150A1 (en) * | 2004-09-28 | 2006-04-06 | Nielsen Media Research, Inc | Data classification methods and apparatus for use with data fusion |
WO2006040761A2 (en) * | 2004-10-15 | 2006-04-20 | Oren Halpern | A system and a method for improving the captured images of digital still cameras |
US8320641B2 (en) | 2004-10-28 | 2012-11-27 | DigitalOptics Corporation Europe Limited | Method and apparatus for red-eye detection using preview or other reference images |
KR100775005B1 (ko) | 2004-12-07 | 2007-11-08 | 한국전자통신연구원 | 사용자 인식 시스템 및 그 방법 |
US7634113B2 (en) * | 2004-12-07 | 2009-12-15 | Electronics And Telecommunications Research Institute | User authentication system and method thereof |
US7734067B2 (en) * | 2004-12-07 | 2010-06-08 | Electronics And Telecommunications Research Institute | User recognition system and method thereof |
US7315631B1 (en) | 2006-08-11 | 2008-01-01 | Fotonation Vision Limited | Real-time face tracking in a digital image acquisition device |
US8503800B2 (en) | 2007-03-05 | 2013-08-06 | DigitalOptics Corporation Europe Limited | Illumination detection using classifier chains |
US8190540B2 (en) * | 2005-01-14 | 2012-05-29 | Ultra-Scan Corporation | Multimodal fusion decision logic system for determining whether to accept a specimen |
US7558765B2 (en) | 2005-01-14 | 2009-07-07 | Ultra-Scan Corporation | Multimodal fusion decision logic system using copula model |
US8130285B2 (en) * | 2005-04-05 | 2012-03-06 | 3Vr Security, Inc. | Automated searching for probable matches in a video surveillance system |
US7813581B1 (en) | 2005-05-06 | 2010-10-12 | Fitzpatrick Ben G | Bayesian methods for noise reduction in image processing |
US7860344B1 (en) | 2005-05-06 | 2010-12-28 | Stochastech Corporation | Tracking apparatus and methods using image processing noise reduction |
US7590267B2 (en) * | 2005-05-31 | 2009-09-15 | Microsoft Corporation | Accelerated face detection based on prior probability of a view |
US20060291697A1 (en) * | 2005-06-21 | 2006-12-28 | Trw Automotive U.S. Llc | Method and apparatus for detecting the presence of an occupant within a vehicle |
US20070009139A1 (en) * | 2005-07-11 | 2007-01-11 | Agere Systems Inc. | Facial recognition device for a handheld electronic device and a method of using the same |
JP4750520B2 (ja) * | 2005-09-21 | 2011-08-17 | 富士フイルム株式会社 | 人物画像補正装置および方法 |
US20070106797A1 (en) * | 2005-09-29 | 2007-05-10 | Nortel Networks Limited | Mission goal statement to policy statement translation |
US20070071288A1 (en) * | 2005-09-29 | 2007-03-29 | Quen-Zong Wu | Facial features based human face recognition method |
US7885458B1 (en) * | 2005-10-27 | 2011-02-08 | Nvidia Corporation | Illuminant estimation using gamut mapping and scene classification |
US7599577B2 (en) | 2005-11-18 | 2009-10-06 | Fotonation Vision Limited | Method and apparatus of correcting hybrid flash artifacts in digital images |
US20070153091A1 (en) * | 2005-12-29 | 2007-07-05 | John Watlington | Methods and apparatus for providing privacy in a communication system |
WO2007095553A2 (en) | 2006-02-14 | 2007-08-23 | Fotonation Vision Limited | Automatic detection and correction of non-red eye flash defects |
US8334993B2 (en) | 2006-03-01 | 2012-12-18 | Fotomedia Technologies, Llc | Methods, systems, and computer program products for associating an image with a communication characteristic |
US7783085B2 (en) | 2006-05-10 | 2010-08-24 | Aol Inc. | Using relevance feedback in face recognition |
US7907755B1 (en) | 2006-05-10 | 2011-03-15 | Aol Inc. | Detecting facial similarity based on human perception of facial similarity |
WO2008039252A2 (en) | 2006-05-15 | 2008-04-03 | Retica Systems, Inc. | Multimodal ocular biometric system |
US20070291104A1 (en) * | 2006-06-07 | 2007-12-20 | Wavetronex, Inc. | Systems and methods of capturing high-resolution images of objects |
ATE497218T1 (de) | 2006-06-12 | 2011-02-15 | Tessera Tech Ireland Ltd | Fortschritte bei der erweiterung der aam- techniken aus grauskalen- zu farbbildern |
US20080004892A1 (en) * | 2006-06-30 | 2008-01-03 | Jerry Zucker | Biometric aid for customer relations |
US7916897B2 (en) | 2006-08-11 | 2011-03-29 | Tessera Technologies Ireland Limited | Face tracking for controlling imaging parameters |
US7403643B2 (en) | 2006-08-11 | 2008-07-22 | Fotonation Vision Limited | Real-time face tracking in a digital image acquisition device |
US8121356B2 (en) | 2006-09-15 | 2012-02-21 | Identix Incorporated | Long distance multimodal biometric system and method |
WO2008033784A2 (en) * | 2006-09-15 | 2008-03-20 | Retica Systems, Inc. | Long distance multimodal biometric system and method |
US8170293B2 (en) | 2006-09-15 | 2012-05-01 | Identix Incorporated | Multimodal ocular biometric system and methods |
US8055067B2 (en) | 2007-01-18 | 2011-11-08 | DigitalOptics Corporation Europe Limited | Color segmentation |
JP4845755B2 (ja) | 2007-01-30 | 2011-12-28 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
EP2115662B1 (de) | 2007-02-28 | 2010-06-23 | Fotonation Vision Limited | Trennung der direktionalen beleuchtungsvariabilität in der statistischen gesichtsmodellierung auf basis von texturraumzerlegungen |
KR101247147B1 (ko) | 2007-03-05 | 2013-03-29 | 디지털옵틱스 코포레이션 유럽 리미티드 | 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출 |
KR101159830B1 (ko) | 2007-03-05 | 2012-06-26 | 디지털옵틱스 코포레이션 유럽 리미티드 | 얼굴 위치 및 방위를 이용한 적목 거짓 양성 필터링 방법 |
US8564687B2 (en) * | 2007-05-07 | 2013-10-22 | Nvidia Corporation | Efficient determination of an illuminant of a scene |
US7916971B2 (en) | 2007-05-24 | 2011-03-29 | Tessera Technologies Ireland Limited | Image processing method and apparatus |
JP4703605B2 (ja) * | 2007-05-31 | 2011-06-15 | アイシン・エィ・ダブリュ株式会社 | 地物抽出方法、並びにそれを用いた画像認識方法及び地物データベース作成方法 |
US8698917B2 (en) * | 2007-06-04 | 2014-04-15 | Nvidia Corporation | Reducing computational complexity in determining an illuminant of a scene |
US7844085B2 (en) * | 2007-06-07 | 2010-11-30 | Seiko Epson Corporation | Pairwise feature learning with boosting for use in face detection |
KR101363017B1 (ko) * | 2007-08-23 | 2014-02-12 | 삼성전자주식회사 | 얼굴영상 촬영 및 분류 시스템과 방법 |
GB2465716A (en) * | 2007-09-07 | 2010-06-02 | Ultra Scan Corp | Multimodal fusion decision logic system using copula model |
US8503818B2 (en) | 2007-09-25 | 2013-08-06 | DigitalOptics Corporation Europe Limited | Eye defect detection in international standards organization images |
US8750574B2 (en) * | 2007-12-31 | 2014-06-10 | Applied Recognition Inc. | Method, system, and computer program for identification and sharing of digital images with face signatures |
US9721148B2 (en) | 2007-12-31 | 2017-08-01 | Applied Recognition Inc. | Face detection and recognition |
US9639740B2 (en) | 2007-12-31 | 2017-05-02 | Applied Recognition Inc. | Face detection and recognition |
US8212864B2 (en) | 2008-01-30 | 2012-07-03 | DigitalOptics Corporation Europe Limited | Methods and apparatuses for using image acquisition data to detect and correct image defects |
US8693737B1 (en) * | 2008-02-05 | 2014-04-08 | Bank Of America Corporation | Authentication systems, operations, processing, and interactions |
US7855737B2 (en) | 2008-03-26 | 2010-12-21 | Fotonation Ireland Limited | Method of making a digital camera image of a scene including the camera user |
CA2719504A1 (en) | 2008-04-14 | 2009-10-22 | Thomson Licensing | Technique for automatically tracking an object |
JP5121681B2 (ja) * | 2008-04-30 | 2013-01-16 | 株式会社日立製作所 | 生体認証システム、認証クライアント端末、及び生体認証方法 |
TWI410878B (zh) * | 2008-05-09 | 2013-10-01 | Princeton Technology Corp | 影像辨別裝置及其方法 |
CN106919911A (zh) | 2008-07-30 | 2017-07-04 | 快图有限公司 | 使用脸部检测的自动脸部和皮肤修饰 |
US8411963B2 (en) * | 2008-08-08 | 2013-04-02 | The Nielsen Company (U.S.), Llc | Methods and apparatus to count persons in a monitored environment |
US8081254B2 (en) | 2008-08-14 | 2011-12-20 | DigitalOptics Corporation Europe Limited | In-camera based method of detecting defect eye with high accuracy |
JP4623193B2 (ja) * | 2008-09-29 | 2011-02-02 | カシオ計算機株式会社 | 撮像装置、撮像方法、及びプログラム |
JP2010147808A (ja) * | 2008-12-18 | 2010-07-01 | Olympus Imaging Corp | 撮像装置および撮像装置における画像処理方法 |
JP2010165052A (ja) * | 2009-01-13 | 2010-07-29 | Canon Inc | 画像処理装置及び画像処理方法 |
US8774498B2 (en) * | 2009-01-28 | 2014-07-08 | Xerox Corporation | Modeling images as sets of weighted features |
US8254699B1 (en) * | 2009-02-02 | 2012-08-28 | Google Inc. | Automatic large scale video object recognition |
US8379940B2 (en) * | 2009-06-02 | 2013-02-19 | George Mason Intellectual Properties, Inc. | Robust human authentication using holistic anthropometric and appearance-based features and boosting |
US8194938B2 (en) * | 2009-06-02 | 2012-06-05 | George Mason Intellectual Properties, Inc. | Face authentication using recognition-by-parts, boosting, and transduction |
US8379917B2 (en) | 2009-10-02 | 2013-02-19 | DigitalOptics Corporation Europe Limited | Face recognition performance using additional image features |
US8884813B2 (en) | 2010-01-05 | 2014-11-11 | The Invention Science Fund I, Llc | Surveillance of stress conditions of persons using micro-impulse radar |
US9069067B2 (en) | 2010-09-17 | 2015-06-30 | The Invention Science Fund I, Llc | Control of an electronic apparatus using micro-impulse radar |
US9019149B2 (en) | 2010-01-05 | 2015-04-28 | The Invention Science Fund I, Llc | Method and apparatus for measuring the motion of a person |
US20110166937A1 (en) * | 2010-01-05 | 2011-07-07 | Searete Llc | Media output with micro-impulse radar feedback of physiological response |
US9024814B2 (en) * | 2010-01-05 | 2015-05-05 | The Invention Science Fund I, Llc | Tracking identities of persons using micro-impulse radar |
US8872887B2 (en) * | 2010-03-05 | 2014-10-28 | Fotonation Limited | Object detection and rendering for wide field of view (WFOV) image acquisition systems |
US11562013B2 (en) | 2010-05-26 | 2023-01-24 | Userzoom Technologies, Inc. | Systems and methods for improvements to user experience testing |
US8661544B2 (en) * | 2010-08-31 | 2014-02-25 | Cisco Technology, Inc. | Detecting botnets |
US8786735B2 (en) | 2011-03-21 | 2014-07-22 | Apple Inc. | Red-eye removal using multiple recognition channels |
US8837785B2 (en) | 2011-03-21 | 2014-09-16 | Apple Inc. | Red-eye removal using multiple recognition channels |
US8818091B2 (en) | 2011-03-21 | 2014-08-26 | Apple Inc. | Red-eye removal using multiple recognition channels |
US8837827B2 (en) | 2011-03-21 | 2014-09-16 | Apple Inc. | Red-eye removal using multiple recognition channels |
US8723959B2 (en) | 2011-03-31 | 2014-05-13 | DigitalOptics Corporation Europe Limited | Face and other object tracking in off-center peripheral regions for nonlinear lens geometries |
US8903167B2 (en) * | 2011-05-12 | 2014-12-02 | Microsoft Corporation | Synthesizing training samples for object recognition |
JP5923723B2 (ja) * | 2011-06-02 | 2016-05-25 | パナソニックIpマネジメント株式会社 | 人物属性推定システム、人物属性推定装置、及び人物属性推定方法 |
US8811683B2 (en) * | 2011-06-02 | 2014-08-19 | Apple Inc. | Automatic red-eye repair using multiple recognition channels |
US9552376B2 (en) | 2011-06-09 | 2017-01-24 | MemoryWeb, LLC | Method and apparatus for managing digital files |
US8548207B2 (en) | 2011-08-15 | 2013-10-01 | Daon Holdings Limited | Method of host-directed illumination and system for conducting host-directed illumination |
US8620088B2 (en) | 2011-08-31 | 2013-12-31 | The Nielsen Company (Us), Llc | Methods and apparatus to count people in images |
US10122970B2 (en) | 2011-09-13 | 2018-11-06 | Polycom, Inc. | System and methods for automatic call initiation based on biometric data |
US8493459B2 (en) | 2011-09-15 | 2013-07-23 | DigitalOptics Corporation Europe Limited | Registration of distorted images |
CN108014002A (zh) | 2011-11-04 | 2018-05-11 | 马萨诸塞眼科耳科诊所 | 自适应视觉辅助装置 |
US9202105B1 (en) | 2012-01-13 | 2015-12-01 | Amazon Technologies, Inc. | Image analysis for user authentication |
US8928730B2 (en) | 2012-07-03 | 2015-01-06 | DigitalOptics Corporation Europe Limited | Method and system for correcting a distorted input image |
US8559684B1 (en) * | 2012-08-15 | 2013-10-15 | Google Inc. | Facial recognition similarity threshold adjustment |
WO2014056537A1 (en) | 2012-10-11 | 2014-04-17 | Longsand Limited | Using a probabilistic model for detecting an object in visual data |
WO2014194345A1 (en) * | 2013-01-30 | 2014-12-11 | Newsouth Innovations Pty Limited | Real-time rotation, shift, scale and skew visual recognition system |
US9870598B2 (en) | 2013-04-26 | 2018-01-16 | Nvidia Corporation | Low complexity adaptive filtering for mobile captures |
US10915618B2 (en) | 2014-08-28 | 2021-02-09 | Facetec, Inc. | Method to add remotely collected biometric images / templates to a database record of personal information |
US10803160B2 (en) | 2014-08-28 | 2020-10-13 | Facetec, Inc. | Method to verify and identify blockchain with user question data |
US10698995B2 (en) | 2014-08-28 | 2020-06-30 | Facetec, Inc. | Method to verify identity using a previously collected biometric image/data |
CA2902093C (en) | 2014-08-28 | 2023-03-07 | Kevin Alan Tussy | Facial recognition authentication system including path parameters |
US11256792B2 (en) | 2014-08-28 | 2022-02-22 | Facetec, Inc. | Method and apparatus for creation and use of digital identification |
US10614204B2 (en) | 2014-08-28 | 2020-04-07 | Facetec, Inc. | Facial recognition authentication system including path parameters |
KR102315574B1 (ko) | 2014-12-03 | 2021-10-20 | 삼성전자주식회사 | 데이터 분류 방법 및 장치와 관심영역 세그멘테이션 방법 및 장치 |
US10275902B2 (en) * | 2015-05-11 | 2019-04-30 | Magic Leap, Inc. | Devices, methods and systems for biometric user recognition utilizing neural networks |
US10129477B2 (en) | 2015-08-19 | 2018-11-13 | Google Llc | Smart image sensor having integrated memory and processor |
US10183667B2 (en) | 2015-09-15 | 2019-01-22 | Deere & Company | Human presence detection on a mobile machine |
KR20170095632A (ko) * | 2016-02-15 | 2017-08-23 | 한국전자통신연구원 | 얼굴인식방법 |
KR102223296B1 (ko) | 2016-03-11 | 2021-03-04 | 매직 립, 인코포레이티드 | 콘볼루셔널 신경 네트워크들에서의 구조 학습 |
USD987653S1 (en) | 2016-04-26 | 2023-05-30 | Facetec, Inc. | Display screen or portion thereof with graphical user interface |
JP6702045B2 (ja) * | 2016-07-11 | 2020-05-27 | 沖電気工業株式会社 | 監視装置 |
EP3336774B1 (de) * | 2016-12-13 | 2020-11-25 | Axis AB | Verfahren, computerprogrammprodukt und vorrichtung zum trainieren eines neuronalen netzes |
US10733506B1 (en) | 2016-12-14 | 2020-08-04 | Waymo Llc | Object detection neural network |
US10783393B2 (en) * | 2017-06-20 | 2020-09-22 | Nvidia Corporation | Semi-supervised learning for landmark localization |
WO2019097285A1 (en) * | 2017-08-31 | 2019-05-23 | Banuba Limited | Computer-implemented methods and computer systems for real-time detection of human's emotions from visual recordings |
US10025950B1 (en) * | 2017-09-17 | 2018-07-17 | Everalbum, Inc | Systems and methods for image recognition |
US10936178B2 (en) | 2019-01-07 | 2021-03-02 | MemoryWeb, LLC | Systems and methods for analyzing and organizing digital photos and videos |
CN113874883A (zh) | 2019-05-21 | 2021-12-31 | 奇跃公司 | 手部姿势估计 |
CN110728665B (zh) * | 2019-09-30 | 2023-04-18 | 西安电子科技大学 | 基于并行概率神经网络的sar图像变化检测方法 |
CN111680600B (zh) * | 2020-05-29 | 2023-09-01 | 北京百度网讯科技有限公司 | 人脸识别模型处理方法、装置、设备和存储介质 |
US11711638B2 (en) | 2020-06-29 | 2023-07-25 | The Nielsen Company (Us), Llc | Audience monitoring systems and related methods |
US11500086B2 (en) * | 2020-09-28 | 2022-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and method for tracking a deformation |
CN113153267B (zh) * | 2021-03-11 | 2023-04-18 | 中国石油大学(北京) | 一种抽油机井示功图多尺度归一化方法及系统 |
US11860704B2 (en) | 2021-08-16 | 2024-01-02 | The Nielsen Company (Us), Llc | Methods and apparatus to determine user presence |
US11758223B2 (en) | 2021-12-23 | 2023-09-12 | The Nielsen Company (Us), Llc | Apparatus, systems, and methods for user presence detection for audience monitoring |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4100500A1 (de) * | 1991-01-10 | 1992-07-16 | Bodenseewerk Geraetetech | Signalverarbeitungsanordnung zur klassifizierung von objekten aufgrund der signale von sensoren |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5579444A (en) * | 1987-08-28 | 1996-11-26 | Axiom Bildverarbeitungssysteme Gmbh | Adaptive vision-based controller |
US5588091A (en) * | 1989-05-17 | 1996-12-24 | Environmental Research Institute Of Michigan | Dynamically stable associative learning neural network system |
US5274714A (en) * | 1990-06-04 | 1993-12-28 | Neuristics, Inc. | Method and apparatus for determining and organizing feature vectors for neural network recognition |
GB9201006D0 (en) * | 1992-01-17 | 1992-03-11 | Philip Electronic And Associat | Classifying faces |
IT1257073B (it) * | 1992-08-11 | 1996-01-05 | Ist Trentino Di Cultura | Sistema di riconoscimento, particolarmente per il riconoscimento di persone. |
JP3252381B2 (ja) * | 1992-09-08 | 2002-02-04 | ソニー株式会社 | パターン認識装置 |
US5497430A (en) * | 1994-11-07 | 1996-03-05 | Physical Optics Corporation | Method and apparatus for image recognition using invariant feature signals |
-
1995
- 1995-08-30 US US08/521,176 patent/US5850470A/en not_active Expired - Lifetime
-
1996
- 1996-08-28 DE DE19634769A patent/DE19634769A1/de not_active Ceased
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4100500A1 (de) * | 1991-01-10 | 1992-07-16 | Bodenseewerk Geraetetech | Signalverarbeitungsanordnung zur klassifizierung von objekten aufgrund der signale von sensoren |
Non-Patent Citations (2)
Title |
---|
GHEZAL, A.: "Automated Human Face Recognition Using an Artificial Neural Network" in: MUsterer- kennung 1991, 13. DAGM-Symposium München, Sprin- ger-Verlag, S. 76-81 * |
YANG, G., HUANG, T.S.: "Human face detection in a complex background" in: Pattern Recognition, Vol. 27, Nr. 1, 1994, S. 53-63 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006021518A1 (de) * | 2006-05-04 | 2007-11-15 | LÜTH & DÜMCHEN Automatisierungsprojekt GmbH | Räumlich und zeitlich verteilte Einrichtungen und Verfahren zur Gesichtserkennung zwecks Identifikation oder Verifikation |
DE102006057948A1 (de) * | 2006-12-08 | 2008-06-12 | Giesecke & Devrient Gmbh | Portabler Datenträger zur biometrischen Benutzererkennung |
US8255699B2 (en) | 2006-12-08 | 2012-08-28 | Giesecke & Devrient Gmbh | Portable data storage medium for biometric user identification |
Also Published As
Publication number | Publication date |
---|---|
US5850470A (en) | 1998-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19634769A1 (de) | Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts | |
DE60130742T2 (de) | Mustererkennung mit hierarchischen Netzen | |
DE602004005984T2 (de) | Gesichtsidentifikationsverifikation unter verwendung von vorder- und seitenansichten | |
DE69333811T2 (de) | Verfahren und Gerät zur Erzeugung und Einstellung eines Neurones | |
CN106503687A (zh) | 融合人脸多角度特征的监控视频人物身份识别系统及其方法 | |
Omran et al. | An iris recognition system using deep convolutional neural network | |
CN109800643A (zh) | 一种活体人脸多角度的身份识别方法 | |
DE69333247T2 (de) | Trainingsverfahren und Gerät zur Erzeugung eines neues Neurons | |
Dai et al. | Recognition of facial images with low resolution using a Hopfield memory model | |
Widrow | The “rubber-mask” technique-II. pattern storage and recognition | |
DE4407998C2 (de) | Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg | |
Duffner et al. | A neural scheme for robust detection of transparent logos in TV programs | |
Broussard et al. | Using artificial neural networks and feature saliency techniques for improved iris segmentation | |
R Al-nima | Design a biometric identification system based on the fusion of hand geometry and backhand patterns | |
Gutta et al. | Face recognition using ensembles of networks | |
Karungaru et al. | Face recognition in colour images using neural networks and genetic algorithms | |
CN112766176B (zh) | 轻量化卷积神经网络的训练方法及人脸属性识别方法 | |
EP0965088B1 (de) | Sichere identifikation mit vorauswahl und rückweisungsklasse | |
Ağgül et al. | Development of a Counterfeit Vehicle License Plate Detection System by Using Deep Learning | |
Gor et al. | Fast scale invariant multi-view face detection from color images using skin color segmentation & trained cascaded face detectors | |
De Souza et al. | VG-RAM weightless neural networks for face recognition | |
EP4338135A1 (de) | Bauteilklassifizierungsvorrichtung, verfahren zum klassifizieren von bauteilen und verfahren zum trainieren einer bauteilklassifizierungsvorrichtung | |
Shekar et al. | Offline Signature verification using CNN and SVM classifier | |
DE102021123761A1 (de) | Bauteilklassifizierungsvorrichtung, Verfahren zum Klassifizieren von Bauteilen und Verfahren zum Trainieren einer Bauteilklassifizierungsvorrichtung | |
Kumar et al. | Canny Edge Detection and Contrast Stretching for Facial Expression Detection and Recognition Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8181 | Inventor (new situation) |
Free format text: KUNG, SUN-YUAN, PRINCETON, N.J., US LIN, SHANG-HUNG, PRINCETON, N.J., US LIN, LONG-JI, KENDALL PARK, N.J., US FANG, MING, CRANBURY, N.J., US |
|
8131 | Rejection |