DE102006012499A1

DE102006012499A1 - Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten

Info

Publication number: DE102006012499A1
Application number: DE102006012499A
Authority: DE
Inventors: Shaohua Kevin Zhou; Bogdan Georgescu; Xiang Zhou; Dorin Comaniciu
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Corporate Research Inc
Priority date: 2005-03-17
Filing date: 2006-03-16
Publication date: 2006-11-23
Also published as: JP2006268850A; US7804999B2; US20070071313A1

Abstract

Es wird ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehört, offenbart. Eine Regressionsfunktion einer Vielzahl von Bildern wird gelernt, wobei für jedes Bild die dazugehörende Entität bekannt ist. Die gelernte Regressionsfunktion wird verwendet, um eine Entität, die zu einem Bild gehört, in dem die Entität nicht bekannt ist, vorauszusagen.

Description

Querverweis zu einer verwandten Anwendung
Diese Anmeldung beansprucht die vorläufige U.S. Anmeldung Serien-Nr. 60/662,877, eingereicht am 17. März 2005, die hierin durch Bezugnahme komplett aufgenommen wird.
Gebiet der Erfindung
Die vorliegende Erfindung betrifft ein Verfahren zum Lösen eines Visionsproblems und insbesondere ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild gehört.

Die Regression auf Bildgrundlage (IBR) ist eine in der Visionsverarbeitung aufsteigende Herausforderung. Das Problem der IBR wird wie folgt definiert: Für ein Bild x wird gewünscht, eine Entität y(x) abzuleiten, die zu dem Bild x gehört. Die Bedeutung von y(x) variiert in verschiedenen Anwendungen signifikant. Zum Beispiel könnte sie ein Merkmal, das das Bild charakterisiert (zum Beispiel Schätzen des menschlichen Alters), ein Parameter in Zusammenhang mit dem Bild (zum Beispiel die Position und anisotrope Ausbreitung eines Tumors) oder eine andere bedeutsame Quantität sein (zum Beispiel die Lage einer intrakardialen Wand).

Ein bekanntes Visionsverarbeitungsverfahren verwendet Support Vector Regression, um einen Formverformungsvektor abzuleiten. Ein anderes Visionsverarbeitungsverfahren verwendet Relevanzvektorregression, um eine dreidimensionale (3D) menschliche Haltung ausgehend von Silhouetten zu schätzen. Bei beiden dieser Verfahren sind die Eingaben zu den Regressoren jedoch nicht die Bilder selbst sondern vielmehr vorverarbeitete Entitäten, zum Beispiel charakteristische Lagen und Formkontextdeskriptoren.

Viele Maschinenlernansätze wurden vorgeschlagen, um Regressionsprobleme im Allgemeinen zu beseitigen. Datengetriebene Ansätze haben insbesondere die Oberhand gewonnen. Beispiele für solche Ansätze enthalten die nicht-parametrische Kernel Regression (NPR), lineare Verfahren und ihre nicht linearen Kernvarianten, wie zum Beispiel Kernel Ridge Regres sion (KRR) und Support Vector Regression (SVR). Diese Verfahren sind jedoch aufgrund einer Anzahl von Herausforderungen oft schwer an Visionsprobleme anzupassen oder sind nicht effizient. Eine Herausforderung wird Fluch der Dimensionalität genannt. Der Eingang (d. h. Bilddaten) ist hoch-dimensional. Idealerweise sollte die Anzahl der erforderlichen Bildmuster, um den Musterraum gut darzustellen, zur Kardinalität des Eingangsraums exponential sein. In der Praxis ist die Anzahl der Trainingsmuster im Vergleich zur Kardinalität des Eingangsraums jedoch oft extrem spärlich. Wird nicht sorgfältig verarbeitet, kann Überanpassen, Overfitting, auftreten.

Eine weitere Herausforderung liegt in der variierenden Erscheinung, die im Bild gegenwärtig ist. Erstens gibt es viele Faktoren, die das Erscheinen des Vordergrundobjekts, das von Interesse ist, beeinflussen. Abgesehen von den intrinsischen Unterschieden unter den Objekten, gehören zu den extrinsischen Faktoren das Kamerasystem, die Bildsynthesegeometrie, die Beleuchtungsbedingungen, Makeup usw. Zweitens ergibt sich Variation aus der Gegenwart des Hintergrunds, dessen Aussehen ebenfalls variiert. Eine dritte Variation wird von der Fluchtung verursacht. Die Regressionstechnik muss entweder den Fluchtungsfehler tolerieren oder die Fluchtungsparameter herausregressieren, um effizient zu funktionieren.

Multiple Ausgänge sind ebenfalls eine Herausforderung, weil die Ausgangsvariable ebenfalls hoch-dimensional ist. Die meisten Regressionsansätze, wie zum Beispiel SVR, können sehr robust mit dem Einzelausgangsregressionsproblem umgehen. Wie in dem Fall von SVR, ist ihr Ausdehnen auf multiple Ausgangseinstellung keine Bagatelle. Eine naive Praxis des Abkoppelns eines Problems mit multiplen Ausgängen auf mehrere isolierte einzelne Ausgangsaufgaben übersieht die statistische Abhängigkeit unter verschiedenen Dimensionen der Ausgangsvariablen.

Speichern und Berechnen sind weitere zu berücksichtigende Probleme. Die Regressionstechniken, wie zum Beispiel die nicht-parametrische Kernel Regression (NPR), Kernel Ridge Regression (KRR) und Support Vector Regression (SVR) sind datengetrieben. Die datengetriebenen Ansätze weisen zwei Hauptnachteile auf: Speichern und Berechnen. Erstens erfordern die Techniken das Speichern großer Trainingsdatenmengen. Bei NPR und KRR werden sämtliche Trainingsdaten gespeichert. Bei SVR werden Stützvektoren gespeichert. Da die Trainingsdaten Bilder mit hohen Dimensionen sind, kann das Speichern der Trainingsbilder viel Speicherplatz in Anspruch nehmen. Zweitens geht das Auswerten der datengetriebenen Regressi onsfunktion langsam, weil das Vergleichen der Eingangsdaten mit den gespeicherten Trainingsbildern zeitaufwändig ist.

Im Allgemeinen findet Regression die Lösung des folgenden Minimierungsproblems:

wobei G der Satz zulässiger Ausgangsfunktionen ist, ε_p(x,y) die Erwartung unter der Erzeugungsverteilung p(x, y) nimmt und die L(o, o)-Funktion die Verlustfunktion ist, die die Abweichung des Regressorausgangs g(x) von dem tatsächlichen Ausgang y(x) pönalisiert.

In der Praxis ist es unmöglich, die Erwartung zu berechnen, weil die Verteilung p(x, y) unbekannt ist. Angesichts eines Satzes von Trainingsbeispielen {(x_n, y(x_n))} N / n=1, wird die Kostenfunktion ε_p(x,y)L(y(x),g(x)) als der Trainingsfehler

approximiert.

Ist die Anzahl der Muster N unendlich groß, ist die oben stehende Approximation gemäß dem Gesetz der großen Zahlen exakt. Leider ist ein praktischer Wert von N nie groß genug, vor allem, wenn es um Bilddaten und hoch-dimensionale Ausgangsparameter geht. Das Overfitting ist ein noch schwerwiegenderes Problem: Bei einer beschränkten Anzahl von Trainingsbeispielen lässt sich eine Funktion g(x), die einen Trainingsfehler gleich Null ergibt, leicht aufbauen. Um das Overfitting zu bekämpfen, werden oft zusätzliche Regelungsauflagen verwendet, die zu einer kombinierten Kostenfunktion führen (unter Nichtberücksichtigen des Skalierfaktors N^–1)

wobei λ > 0 der Regelungskoeffizient ist, der den Regelungsgrad steuert, und R(g) das Regelungsglied ist. Die Regelung auferlegt der Ausgangsfunktion oft eine gewisse Glätte oder reflektiert irgendeine frühere Annahme zu dem Ausgang.

NPR ist eine geglättete Version der k-nächsten Nachbarn-Regression (kNN). Der kNN-Regressor approximiert den bedingten Mittelwert, eine optimale Schätzung in L²-Richtung. NPR nimmt die folgende Form an:

wobei h_σ(o; x_n) eine Kernfunktion ist. Die am weitesten verwendete Kernfunktion ist der RBF-Kern

Der RBF-Kern hat eine nicht kompakte Stützung. Andere Kernfunktionen mit kompakten Stützungen, wie zum Beispiel der Epanechnikov-Kern, können ebenfalls verwendet werden. Bei einem Szenario mit Regression auf Bildbasis ist NPR zwar glatt, tendiert im Allgemeinen jedoch dazu, Daten überanzupassen, das heißt niedrige Verzerrung und hohe Varianz zu ergeben.

KRR geht davon aus, das die Regressionsfunktion mit multiplem Ausgang eine lineare Form annimmt:

wobei k(x:x_n) eine Funktion mit reproduzierendem Kern ist und α_n ein q × 1 -Vektor ist, der die Kernfunktion gewichtet. Die Auswahlen für den reproduzierenden Kern umfassen den RBF-Kern, den polynominalen Kern usw. Die Lösung der KRR mit multiplem Ausgang abgeleitet von Trainingsdaten ist g(x) = Y(K + λI)–1 κ(x), (6) wobei Y_q×N = [y(x₁), y(x₂), ..., y(x_N)] die Trainingsausgangsmatrix ist, K_N×N = [k(x_i; x_j)] die Gram-Matrix für die Trainingsdaten und κ(x)_N×1 = [k(x; x₁), k(x; x₂), ..., k(x; x_N)]^T ist.

Wenn ein linearer Kern verwendet wird, tendiert KRR im Allgemeinen dazu, die Daten unteranzupassen, das heißt eine hohe Verzerrung und niedrige Varianz zu ergeben, weil sie eine einfache lineare Form verwendet. Der Einsatz der nicht linearen Kernfunktion ergibt oft verbesserte Leistung. Eine der Rechenschwierigkeiten von KRR liegt im Umkehren der N × N – Matrix κ + λI.

SVR ist ein robustes Regressionsverfahren. Ihre geläufige Formulierung funktioniert für Daten mit einfachem Ausgang, d. h. q = 1. SVR minimiert die folgende Kostenfunktion

wobei |o|_∊ eine ∊ -insensitive Funktion ist,

wobei k(x; x_n) eine Funktion mit reproduzierendem Kern und w_n die Gewichtung ist, und w = [w₁, w₂, ..., w_n]^T. Da einige der Koeffizienten w_n, die man durch eine quadratische Programmiervorgehensweise erzielen kann, den Wert Null haben, werden Muster x_n, die zu Nichtnull-Gewichten gehören, Stützvektoren genannt.

SVR ergibt ein gutes Gleichgewicht zwischen dem Verzerrungs-Varianzkompromiss und ist daher sehr robust. Leider ist das direkte Anwenden von SVR auf das Regressionsproblem mit multiplem Ausgang schwierig. Man braucht einen Regressor, der auf eine Einstellung mit multiplem Ausgang abzielen kann, die durch Boosten gelernt wird.

Kurzdarstellung der Erfindung

Die vorliegende Erfindung betrifft ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehören. Eine Regressionsfunktion für eine Vielzahl von Bildern wird gelernt, wobei für jedes Bild die dazugehörende Entität bekannt ist. Die gelernte Regressionsfunktion wird verwendet, um eine Entität, die zu einem Bild gehört, in dem die Entität nicht bekannt ist, vorauszusagen.

Kurzbeschreibung der Zeichnungen
Bevorzugte Ausführungsformen der folgenden Erfindung werden unten unter Bezugnahme auf die anliegenden Zeichnungen detaillierter beschrieben, wobei gleiche Bezugszeichen gleiche Elemente angeben:
1 ist ein Blockschaltbild eines erfindungsgemäßen Systems zum Durchführen von Regression auf Bildbasis.
2 veranschaulicht Beispiele von Bildern, an welchen Regressionsaufgaben auf Bildbasis erfindungsgemäß durchgeführt: werden.
3 veranschaulicht ein Verfahren zum Lernen einer Regressionsfunktion gemäß der vorliegenden Erfindung.
4 umreißt ein inkrementales Merkmalauswahlsystem gemäß der vorliegenden Erfindung.
5 umreißt den abschließenden Ausgang für ein Abfragebild gemäß der vorliegenden Erfindung.
6 ist ein Blockschaltbild, das ein Verfahren zum Durchführen von Regression auf Bildbasis unter Einsatz von Boosten gemäß der vorliegenden Erfindung umreißt.
7 ist ein Flussdiagramm, das ein inkrementales Merkmalauswahlsystem gemäß der vorliegenden Erfindung umreißt.
8 zeigt vor und nach der Normierung Musterbilder einer Person mit wechselndem Alter.
9 zeigt einige gleiche CT-Bilder mit Grundwahrheit und Regressionsergebnissen, und
10 zeigt einige Echokardiographiebilder mit Grundwahrheit und Regressionsergebnissen.
Detaillierte Beschreibung
Die vorliegende Erfindung betrifft ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehört. 1 veranschaulicht ein Blockschaltbild eines Systems zum Umsetzen der vorliegenden Erfindung. Eine Kamera 102 wird zum Aufnehmen von Bildern verwendet, an die die Regression auf Bildbasis anzuwenden ist. Verschiedene Typen von Bildern können je nach Zweck der Regression auf Bildbasis erzielt werden. 2 zeigt einige Beispiele von Bildern, an welchen Regressionsaufgaben auf Bildbasis durchgeführt werden können. Das Bild kann zum Beispiel ein menschliches Gesicht 202 sein, für das eine Altersschätzung bestimmt wird. Bei einem anderen Fall kann es sich um das Bild eines Lungentumors 204 handeln, bei dem die Position und die anisotrope Ausbreitung des Tumors bestimmt werden. Ein weiteres Beispiel enthält ein Ultraschallbild 206 eines menschlichen Herzens oder ein Echokardiogramm, bei dem die intrakardiale Wand des linken Ventrikels automatisch abgegrenzt werden kann.
Die Bilder werden an einen Prozessor 104 weiter gegeben, der die Regressionsaufgaben auf Bildbasis, die unten genauer beschrieben werden, durchführt. Nach dem Durchführen der Regressionsaufgaben auf Bildbasis, können die Ergebnisse über die Ausgabevorrichtung 106 berichtet werden. Die Ausgabevorrichtung 106 liefert die Ergebnisse der von der Regression auf Bildbasis ausgeführten Aufgabe. Die Ausgabevorrichtung 106 umfasst ein Display zum Anzeigen der verarbeiteten Bilder. Das Display stellt eine Ansicht der Bilder bereit, die von der Kamera 102 aufgenommen wurden, sowie die gewünschte Information, die von den Regressionsaufgaben auf Bildbasis erzielt wird. Diese Bilder können in der Datenbank 108 gespeichert werden.
Die vorliegende Erfindung untersucht, wie man die Regressionsfunktion mit einer Vielzahl von Bildern und den dazugehörenden Entitäten lernen kann. Wie in 3 dargestellt, zieht die Regressionsfunktion eine nicht lineare Verzweigung in den gemeinsamen Raum der Bildeingabe und Ausgabeentität. Was beobachtet wird, sind nur Muster von der Verzweigung, Id. h. Bilder x₁ – x_n und Ausgänge y₁ – y_n. Von der Datenbank wird die Regressionsfunktion abgeleitet. Die Lernaufgabe wird als Minimieren der Kostenfunktion J(g) formuliert, die aufgebaut wird, um (i) die Voraussagbarkeit des Regressors g(x) für die Daten in der Datenbank wiederzugeben und (ii) um bestimmte Glättbedingungen zu enthalten, um das Überanpassen zu vermeiden. Ein Beispiel der Kostenfunktion ist in Gl. (2) gezeigt.
Die Lernaufgabe wird durch Boosten gelöst, das in 4. gezeigt ist. Das Boosten ist ein iterativer Prozess, der allmählich die Kostenfunktion J(g) minimiert. Mit anderen Worten wird die Voraussagbarkeit des Regressors g(x) geboostet. Angenommen, der Iterationsindex ist t, dann ist J(g_t) eine während t monoton sinkende Funktion. Das erfolgt durch Hinzufügen eines weiteren Bilds a_th_t(x) zu dem Regressor g_t(x), das heißt, g_t(x)= g_t-1(x) + a_th_t(x), wobei a_t ein realer Koeffizient und h_t(x) eine schwache Funktion ist. Das Boosten kombiniert einen ausgewählten Satz schwacher Funktionen in eine starke Funktion. Der abschließende Ausgang des Boostens ist eine Regressionsfunktion g(x) = a₁h₁(x) + a₂h₂(x) + ... + a_Th_T(x), die verwendet wird, um den Ausgang g(x_q) für ein Abfragebild x_q wie in 5 gezeigt vorauszusagen.
Die vorliegende Erfindung stellt ein Bild über einen Satz hoch redundanter Haarähnlicher Merkmale dar, der schnell ausgewertet werden kann. Zu jeder schwachen Funktion gehört ein Merkmal, wenn der Regressionsausgang eindimensional ist, oder mehrere Merkmale, eines pro Dimension, wenn der Regressionsausgang multidimensional ist. Der Satz, der alle schwachen Funktionen enthält, wird Wörterbuchsatz H genannt. Jede Boostiteration wählt daher die schwache Funktion aus dem Wörterbuchsatz oder entsprechend ein Merkmal oder multiple Merkmale aus, so dass die Kostenfunktion maximal verringert wird. Nach dem Boosten besteht keine Notwendigkeit, die Trainingsdaten zu behalten, die Kenntnis der Trainingsdaten wird komplett von den schwachen Funktionen und ihren Koeffizienten absorbiert. Während des Testens ist kein Speichern der Trainingsdaten erforderlich, und die Regressionsfunktion wird in kürzester Zeit ausgewertet. Einfache Decision Stumps werden als schwache Funktionen verwendet, weil sie sich gegenüber Aussehenswechseln robust verhalten.
Beim Beschreiben des Verfahrens zum Durchführen der Regression auf Bildbasis mit Boosten, konzentriert man sich auf die L²-Verlustfunktionen. Um eine allgemeine Verarbeitung zu erlauben und die Skalierbemühung unterschiedlicher Datendimensionen zu bewältigen, werden die folgenden normalisierten Fehlerkosten verwendet: L(y(x), g(x)) = [y(x) – g(x)]T A[y(x) – g(x)] = ||y(x) – g(x)||2A (8)wobei A_q×q eine Normalisierungsmatrix ist, die positiv definit sein muss, und q ist die Dimensionalität der Ausgangsvariablen.
Das Regeln existiert in verschiedenen Formen. Ein datengetriebenes Regelungsglied ||μ – g(x)|| 2 / B, wird verwendet, wenn B_q×q eine Normalisierungsmatrix ist, die positiv defi nit sein muss. Dieses Regelungsglied hat eine Unterraumauslegung, wobei μ der Mittelwert und B^–1 die Kovarianzmatrix ist.
Dann muss die folgende Kostenfunktion minimiert werden.
wobei r(x) = y(x) – g(x) der Approximationsfehler, s(x) = μ – g(x) der Abweichungsfehler ist und die Matrizen R_q×N und S_q×N jeweils wie folgt definiert sind: R = [r(x1), r(x2), ..., r(xN)], S = [s(x1), s(x2), ..., s(xN)] (10)
Mit der oben stehenden Kostenfunktion kann leicht geprüft werden, dass die Kostenfunktion J(g_t) bei der Iteration wie folgt auf J(g_t-1) bezogen ist:
H = [h_t(x₁), h_t(x₂), ..., h_t(x_N)]. Entsprechend wird als Iteration t die beste Funktion h_t(x), die den Wert von ε(h_t) maximiert, ausgewählt. Nach dem Finden der schwachen Funktion kann ihr dazugehörender Koeffizient α_t(h_t) entsprechend berechnet werden als
Eine Übersicht über das erfindungsgemäße Boostverfahren ist in 6 gezeigt. Zuerst wird der Iterationsindex t auf Null initialisiert (Schritt 602). Das zieht das Einstellen der folgenden festgelegten Parameterwerte nach sich: μ (der mittlere Vektor), A und B (die Normalisierungsmatrizen), λ (der Regelungskoeffizient) und η (der Schrumpffaktor). Danach werden die Werte in Zusammenhang mit den Stoppkriterien festgelegt: T_max (die maximale Anzahl an Iterationen), J_min (die Mindestkostenfunktion), ∊_min, und α_min. Die Ausgangswerte werden festgelegt für t = 0, g₀(x) = 0, r₀(x) = y(x) und s₀(x) = μ.
Dann wird die Iteration für t = 1, ..., T_max bestimmt. Zuerst h_t = argmax_h∊H ε_t(h) und sein entsprechendes α ^_t(h_t) und ε_t(h_t) (Schritt 604). Eine neue Funktion g_t(x) = g_t-1(x) + ηα ^_th_t(x) wird gebildet (Schritt 606). Dann werden der Approximationsfehler r_t(x) = y(x) – g_t(x), der Abweichungsfehler s_t(x) = μ – g_t(x), und die Kostenfunktion J(g_t) bewertet (Schritt 608). Dann wird die Konvergenz geprüft, beispielsweise erfolgt ein Bestimmen, ob J(g_t) < J_min, α_t < α_min, ε_t < ε_min oder eine Kombination dieser (Schritt 610).
Wie oben erwähnt, bezieht sich der Wörterbuchsatz H auf das Bild durch Haarähnliche Merkmale. Intuitiv muss diese Funktion weit genug angesetzt werden, so dass sie es erlaubt, durch eine lineare Kombination die hoch komplexe Ausgangsfunktion y(x) zu ergeben. Eindimensionale Decision Stumps sind Stammfunktionen, die zum Aufbauen des Wörterbuchsatzes H verwendet werden. Die Vorteile des Einsatzes von Decision Stumps umfassen (i), dass sie gegenüber Aussehensvariation sehr robust sind; (ii), dass sie lokale Merkmale sind; (iii), dass sie schnell mit dem so genannten integralen Bild zu bewerten sind; und vor allem, (iv), dass sie ein inkrementales Merkmalauswahlsystem erlauben, das unten genauer beschrieben wird.
Ein eindimensionaler (1D) Decision Stump h(x) wird mit einem Haar-Filter-Merkmal f(x), einem Beschlussschwellenwert θ und einem Paritätsrichtungsindikator p, der einen binären Wert von entweder +1 oder –1 annimmt, verbunden.
Jeder Haar-Filter f(x) hat seine eigenen Attribute: Typ, Fensterlage und Fenstergröße. Bei einer mäßigen Bildgröße kann man eine riesige Anzahl von Haar-Filtern durch Variieren der Filterattribute anlegen. Die Anzahl der Haar-Filter wird als M bezeichnet. Durch Anpassen des Schwellenwerts θ (zum Beispiel K gleichmäßig beabstandete Niveaus) für jeden Haar-Filter, kann man ferner K Decision Stumps anlegen. Insgesamt gibt es 2KM 1-D-Decision Stumps. Zu beachten ist, dass die Anzahl 2KM abschreckend groß sein kann, so dass sie sogar zu Schwierigkeiten beim Speichern aller dieser Decision Stumps beim Training führen kann.
Angenommen, die Dimensionalität des Ausgangs ist q. Eine schwache Funktion wird aufgebaut als ein q-dimensionaler (q-D) Decision Stump h(x), der einfach q 1D Decision Stumps stapelt. h(x)q×1 = [h1(x), h2(x), ..., hq(x)]T (12)
Zu beachten ist, dass jedes oben stehende h_j(x) mit einem unterschiedlichen Parameter verbunden werden kann. Man kann daher einen ausreichend großen Satz schwache Funktionen aufbauen, der (2KM)^q Funktionen enthält.
Das Boosten funktioniert als Merkmalauswahlorakel. Bei jedem Boostdurchgang werden die Merkmale ausgewählt, die die Kostenfunktion maximal senken können. Wie in 6 umrissen, umfasst das Verfahren ein Greedy-Merkmalauswahlsystem in Schritt 604, dessen Bewerten zu kostspielig sein kann, weil es das Bewerten von (2MNK)^q Decision Stumps bedeutet, was eine gewaltige Rechenaufgabe darstellt.
Gemäß einer Ausführungsform der vorliegenden Erfindung kann das q-D-Regressionsproblem in q unabhängige 1D-Regressionsprobleme aufgeschlüsselt werden, was zu einem unabhängigen Merkmalauswahlsystem führt. Daher werden bei jedem Boostdurchgang nur 2qMNK Decision Stumps bewertet. Diese Aufschlüsselung vernachlässigt jedoch die mögliche statistische Abhängigkeit unter den Ausgangsdimensionen.
Gemäß einer anderen Ausführungsform der vorliegenden Erfindung wird ein inkrementales Merkmalauswahlsystem verwendet, indem das q-D-Regressionsproblem in ein q abhängiges 1D-Regressionsproblem aufgeschlüsselt wird. Das inkrementale Merkmalauswahlsystem ist in 7 umrissen. Das Initialisieren erfolgt durch Anlegen einer Zufallspermutation von {1, 2, ..., q}, die {<1>, <2>, ..., <q>} ergibt (Schritt 702). Dann werden Iterationen über die Dimension der Ausgangsvariablen i = 1. 2 ..., q ausgeführt. Zuerst werden stichprobenweise aus dem Wörterbuchsatz M' Haar-Filter genommen (Schritt 704). Der reduzierte Satz schwacher Funktionen H' wird gebildet (Schritt 706). Dann werden stichprobenweise N' Datenpunkte aus dem Trainingssatz genommen (Schritt 708). Filterindex m = 1, 2, ..., M' und Schwellenwertni veauindex k = 1, 2, ..., K verschleifen, um h_<i> = argmax_h∊H, ε^<i>(h) zu finden (Schritt 710). Ein neuer Vektor
wird gebildet (Schritt 712). Dann werden wiederverwendbare Mengen
berechnet.
Das oben stehende System verwendet den Inkrementalvektor hi(x)i×1 = [h1(x), h2(x), ..., hi(x)]T = [hi-1(x)T, hi(x)]T, (13)und die Inkrementalmatrizen Cⁱ, Dⁱ und Hⁱ,
Der Inkrementalkoeffizient wird definiert als
Daher wird ein 1D-Decision Stump h_i(x) auf einmal gelernt.
Was das Berechnen betrifft, erfordert das inkrementale Auswahlsystem das Bewerten von 2qMNK Decision Stumps, gleich wie beim unabhängigen Auswahlsystem. Verglichen mit dem unabhängigen System braucht man beim inkrementalen System Overhead-Berechnungen, weil Matrixmengen berechnet werden müssen, wie zum Beispiel
und
während die Gegenstücke bei dem unabhängigen Merkmalauswahlsystem vektorinnere Produkte sind. Wiederverwendbare Berechnungen können jedoch eingegliedert werden. Es kann zum Beispiel gezeigt werden, dass
Um die Robustheit zu verbessern und Verzerrung zu entfernen, wird die Reihenfolge der Dimensionen der Ausgangsvariablen zufällig permutiert. Andere oben erwähnte Ansätze zum Verbessern der Recheneffizienz umfassen: (i) zufällige Stichproben aus dem Wörterbuchsatz, das heißt Ersetzen von M durch ein kleineres M' und (ii) zufällige Stichproben aus dem Trainingsdatensatz, das heißt Ersetzen von N durch ein kleineres N'.
Wie oben erwähnt, kann das erfindungsgemäße Verfahren verwendet werden, um eine Anzahl unterschiedlicher Probleme zu lösen. 5 zeigt eine Übersicht über das erfindungsgemäße Verfahren. Ein Abfragebild wird empfangen, und eine Regressionsfunktion wird an das Abfragebild angewandt, um die Gegenwart einer Entität zu bestimmen, die als Ausgang bereitgestellt wird.
Das erfindungsgemäße Regressionsverfahren auf Bildbasis kann zum Beispiel zum Bestimmen einer Altersschätzung verwendet werden. Unten wird ein Beispiel beschrieben. Das Modellieren des Alterns ist wichtig für Gesichtsanalyse und Erkennen. Ein dazugehörender Aspekt ist das Schätzen menschlichen Alters. Es wird eine Datenbank mit Gesichtsbildern verwendet. Man legt fünf zufällige Unterteilungen mit etwa 80 % der Bilder an, die zum Trainieren verwendet werden, die restlichen 20 % dienen für Tests. Das Alter reicht von 0 bis 69 Jahre. Das Normalisieren erfolgt durch Fluchten einer Anzahl charakteristischer Punkte, gefolgt von einer Null-Mittel-Einheit-Varianz-Operation.
Der Eingang x ist ein Bild zu 60 × 60; der Ausgang y ist sein/ihr normalisiertes Alter. Das tatsächliche Alter wird umgewandelt in y = log(y + 1), um einen negativen Regressorausgang zu vermeiden. Die Gesichtsbilder umfassen alle möglichen Variationen, darunter Beleuchtung, Haltung, Ausdruck, Bärte, Schnurrbärte, Brillen usw. 8 zeigt Musterbilder einer Person in unterschiedlichen Altersphasen und mit verschiedenen Aussehensvariationen. Ein Satz Bilder 802 wird vor dem Normalisieren gezeigt, und ein anderer Satz 804 zeigt die normalisierten Bilder. Der absolute Altersunterschied wird als eine Fehlermessung berechnet. Im vorliegenden Beispiel werden 500 schwache Funktionen, der Regelungskoeffizient λ = 0.1 und der Schrumpffaktor η = 0.5 bewertet.
Eine andere Anwendung der vorliegenden Erfindung erfasst einen Lungentumor in einem Computertomographie(CT)-Bild. Mit einem Eingangs-CT-Bild werden die Mittenposition (t, s) und das anisotrope Ausbreiten des Tumors herausregressiert. Eine anisotrope 2D-Ausbreitung wird beschrieben von einer positiven definiten 2 × 2 -Matrix [a₁₁, a₁₂; a₁₂, a₂₂], wobei a₁₁ > 0 und a₂₂ > 0. Eine CT-Bilddatenbank wird verwendet, die Bilder werden in vier zufällige Unterteilungen geteilt. Etwa 80 % der Bilder werden als Trainingsbilder bezeichnet, die restlichen 20 % als Testbilder. Die Mittenposition liegt größtenteils innerhalb von 6 Pixeln von der Bildmitte, aber die anisotrope Ausbreitung ist hinsichtlich des Maßstabs und der Ausrichtung eher willkürlich.
Der Eingang x ist ein Bild zu 33 × 33; der Ausgang y ist eine S-D-Variable nach Aufhellen, das heißt q = 5. Um die negativen Ausgangswerte von a₁₁ und a₂₂ zu vermeiden, werden log(a₁₁) und log(a₂₂) verwendet. Der Aufhellfilter wird angewandt an [t, s, log(a₁₁), a₁₂, log(a₂₂)]^T. 9 zeigt einige Beispiele von CT-Bildern mit Grundwahrheit und Regressionsergebnissen. Die Bilder enthalten typische Aussehensvariationen: unordentlicher Hintergrund, Bildrauschen, willkürliche Farbe, künstliche Signale usw.
Da jeder Ausgangsparameter auf der Ellipse 602 in dem 2D-Bild definiert ist, wird ein Bereich nicht überlappendes Verhältnis r verwendet, um die Leistung zu messen. Mit den zwei Ellipsen A und B ist r definiert als r = 1 –[area(A ∩ B)/area(A ∪ B)]. Je kleiner das Verhältnis, desto besser überlappen sich die zwei Ellipsen.
Herzhinterwandlokalisierung und -tracking sind eine schwierige Aufgabe beim Verarbeiten echokardiographischer Bilder (d. h. 2D-Ultraschallbilder des Herzens). Insbesondere ist die präzise Lokalisierung des linken Ventrikels für die klinische Herzanalyse wesentlich. Bei diesem Beispiel konzentriert man sich auf das Lokalisieren der intrakardialen Wand des linken Ventrikels in der apikalen Vierkammeransicht. Eine Ultraschallbilddatenbank wird verwendet, die Bilder werden in fünf zufällige Unterteilungen geteilt. Etwa 80 % der Bilder werden als Trainingsbilder bezeichnet, die restlichen 20 % als Testbilder.
Der Eingang x ist ein Bild zu 80 × 74; der Ausgang y ist eine 7-D-Variable, das heißt q = 7. Die intrakardiale Wand ist eine nicht starre offene Kontur parametriert durch 17 Kon trollpunkte, das heißt mit 34 Variablen. Nach dem Aufhellen behält man nur die 7 Hauptbestandteile. Je nach der Bilderfassungserfahrung des Sonographikers und der anatomischen Struktur- und Gewebecharakterisierung des Patienten, variiert das Aussehen des linken Ventrikels, das die Herzspitze, Septumwand, den Papillaris-Muskel, Annulus usw. enthält, von einem Patienten zum anderen signifikant. Bei Ultraschallbilderfassung stößt man ferner oft auf Signalausfall. Daher verformt sich der intrakardiale Rand. 10 zeigt beispielhafte Ultraschallbilder, die das Aussehen der Variationen veranschaulichen. Der mittlere Pixelfehler wird gemessen für die Kontrollpunkte
Nach der Beschreibung von Ausführungsformen für ein Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten zum Ableiten einer Entität, die zu einem Bild gehört, wird darauf hingewiesen, dass der Fachmann angesichts der oben stehenden Lehren Änderungen und Variationen vornehmen kann. Es ist daher klar, dass an den einzelnen Ausführungsformen der Erfindung Änderungen vorgenommen werden können, die in den Geltungsbereich der Erfindung, wie sie in den anliegenden Ansprüchen definiert ist, fallen. Nach der Beschreibung der Erfindung mit den Details und Einzelheiten, die das Patentrecht fordert, wird in den anliegenden Patentansprüchen dargelegt, was beansprucht und wofür Schutz gefordert wird.

Claims

Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehört, wobei das Verfahren die folgenden Schritte aufweist: Lernen einer Regressionsfunktion für eine Vielzahl von Bildern, wobei für jedes Bild die dazugehörende Entität bekannt ist, und Verwenden der gelernten Regressionsfunktion, um eine Entität, die zu einem Bild gehört, in dem die Entität nicht bekannt ist, vorauszusagen.
Verfahren nach Anspruch 1, wobei der Schritt des Lernens einer Regressionsfunktion unter Einsatz von Boosten ferner die folgenden Schritte aufweist: Approximieren der Regressionsfunktion als eine additive Funktion, bei jeder Iteration der additiven Funktion Hinzufügen eines oder mehrerer Merkmale in die Regressionsfunktion, Bestimmen, ob die hinzugefügten Merkmale die Voraussagbarkeit der Entität durch die wiederholte Regressionsfunktion verbessern, und Auswahl der Merkmale, die die Voraussagbarkeit der wiederholten Regressionsfunktion maximal verbessern.
Verfahren nach Anspruch 2, wobei der Schritt des Auswählens hinzugefügter Merkmale ferner die folgenden Schritte aufweist: Auswählen aus den Merkmalen des überkompletten Satzes von Merkmalen derjeniger, die die Kostenfunktion minimieren, die die Voraussagbarkeit der Regression für die verfügbare Datenbank anzeigen, wobei die Kostenfunktion eine L²-Verlustfunktion und ein Regelungsglied aufweist, und Anwenden der Merkmalauswahl entweder in einer Greedy- oder inkrementalen oder unabhängigen Art auf die Ausgangsdimensionen.
Verfahren nach Anspruch 2, wobei jedes Merkmal als ein Haar-Filter repräsentiert wird.
Verfahren nach Anspruch 3, wobei das Objekt multidimensional ist.
Verfahren nach Anspruch 5, wobei ein Decision Stump zur Merkmalauswahl wie folgt verwendet wird:
Verfahren nach Anspruch 1, wobei der Schritt des Verwendens der gelernten Regressionsfunktion ferner die folgenden Schritte aufweist: Empfangen eines Bilds eines Objekts, in dem die dazugehörende Entität unbekannt ist, Bewerten der Merkmalfunktionen in dem Regressor, und Kombinieren aller Merkmalfunktionen, um die zu dem Objekt gehörende Entität abzuleiten.
Verfahren nach Anspruch 7, bei dem das Objekt ein menschliches Gesicht und die abgeleitete Entität das Alter ist.
Verfahren nach Anspruch 7, bei dem das Objekt eine anatomische Struktur und die Entität die Position und die anisotrope Ausbreitung eines Tumors sind.
Verfahren nach Anspruch 7, bei dem das Objekt ein menschliches Herz und die Entität die Lage einer intrakardialen Wand ist.