DE102006012499A1 - Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten - Google Patents

Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten Download PDF

Info

Publication number
DE102006012499A1
DE102006012499A1 DE102006012499A DE102006012499A DE102006012499A1 DE 102006012499 A1 DE102006012499 A1 DE 102006012499A1 DE 102006012499 A DE102006012499 A DE 102006012499A DE 102006012499 A DE102006012499 A DE 102006012499A DE 102006012499 A1 DE102006012499 A1 DE 102006012499A1
Authority
DE
Germany
Prior art keywords
function
entity
regression
image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102006012499A
Other languages
English (en)
Inventor
Shaohua Kevin Zhou
Bogdan Georgescu
Xiang Zhou
Dorin Comaniciu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corporate Research Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of DE102006012499A1 publication Critical patent/DE102006012499A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Es wird ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehört, offenbart. Eine Regressionsfunktion einer Vielzahl von Bildern wird gelernt, wobei für jedes Bild die dazugehörende Entität bekannt ist. Die gelernte Regressionsfunktion wird verwendet, um eine Entität, die zu einem Bild gehört, in dem die Entität nicht bekannt ist, vorauszusagen.

Description

  • Querverweis zu einer verwandten Anwendung
  • Diese Anmeldung beansprucht die vorläufige U.S. Anmeldung Serien-Nr. 60/662,877, eingereicht am 17. März 2005, die hierin durch Bezugnahme komplett aufgenommen wird.
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft ein Verfahren zum Lösen eines Visionsproblems und insbesondere ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild gehört.
  • Die Regression auf Bildgrundlage (IBR) ist eine in der Visionsverarbeitung aufsteigende Herausforderung. Das Problem der IBR wird wie folgt definiert: Für ein Bild x wird gewünscht, eine Entität y(x) abzuleiten, die zu dem Bild x gehört. Die Bedeutung von y(x) variiert in verschiedenen Anwendungen signifikant. Zum Beispiel könnte sie ein Merkmal, das das Bild charakterisiert (zum Beispiel Schätzen des menschlichen Alters), ein Parameter in Zusammenhang mit dem Bild (zum Beispiel die Position und anisotrope Ausbreitung eines Tumors) oder eine andere bedeutsame Quantität sein (zum Beispiel die Lage einer intrakardialen Wand).
  • Ein bekanntes Visionsverarbeitungsverfahren verwendet Support Vector Regression, um einen Formverformungsvektor abzuleiten. Ein anderes Visionsverarbeitungsverfahren verwendet Relevanzvektorregression, um eine dreidimensionale (3D) menschliche Haltung ausgehend von Silhouetten zu schätzen. Bei beiden dieser Verfahren sind die Eingaben zu den Regressoren jedoch nicht die Bilder selbst sondern vielmehr vorverarbeitete Entitäten, zum Beispiel charakteristische Lagen und Formkontextdeskriptoren.
  • Viele Maschinenlernansätze wurden vorgeschlagen, um Regressionsprobleme im Allgemeinen zu beseitigen. Datengetriebene Ansätze haben insbesondere die Oberhand gewonnen. Beispiele für solche Ansätze enthalten die nicht-parametrische Kernel Regression (NPR), lineare Verfahren und ihre nicht linearen Kernvarianten, wie zum Beispiel Kernel Ridge Regres sion (KRR) und Support Vector Regression (SVR). Diese Verfahren sind jedoch aufgrund einer Anzahl von Herausforderungen oft schwer an Visionsprobleme anzupassen oder sind nicht effizient. Eine Herausforderung wird Fluch der Dimensionalität genannt. Der Eingang (d. h. Bilddaten) ist hoch-dimensional. Idealerweise sollte die Anzahl der erforderlichen Bildmuster, um den Musterraum gut darzustellen, zur Kardinalität des Eingangsraums exponential sein. In der Praxis ist die Anzahl der Trainingsmuster im Vergleich zur Kardinalität des Eingangsraums jedoch oft extrem spärlich. Wird nicht sorgfältig verarbeitet, kann Überanpassen, Overfitting, auftreten.
  • Eine weitere Herausforderung liegt in der variierenden Erscheinung, die im Bild gegenwärtig ist. Erstens gibt es viele Faktoren, die das Erscheinen des Vordergrundobjekts, das von Interesse ist, beeinflussen. Abgesehen von den intrinsischen Unterschieden unter den Objekten, gehören zu den extrinsischen Faktoren das Kamerasystem, die Bildsynthesegeometrie, die Beleuchtungsbedingungen, Makeup usw. Zweitens ergibt sich Variation aus der Gegenwart des Hintergrunds, dessen Aussehen ebenfalls variiert. Eine dritte Variation wird von der Fluchtung verursacht. Die Regressionstechnik muss entweder den Fluchtungsfehler tolerieren oder die Fluchtungsparameter herausregressieren, um effizient zu funktionieren.
  • Multiple Ausgänge sind ebenfalls eine Herausforderung, weil die Ausgangsvariable ebenfalls hoch-dimensional ist. Die meisten Regressionsansätze, wie zum Beispiel SVR, können sehr robust mit dem Einzelausgangsregressionsproblem umgehen. Wie in dem Fall von SVR, ist ihr Ausdehnen auf multiple Ausgangseinstellung keine Bagatelle. Eine naive Praxis des Abkoppelns eines Problems mit multiplen Ausgängen auf mehrere isolierte einzelne Ausgangsaufgaben übersieht die statistische Abhängigkeit unter verschiedenen Dimensionen der Ausgangsvariablen.
  • Speichern und Berechnen sind weitere zu berücksichtigende Probleme. Die Regressionstechniken, wie zum Beispiel die nicht-parametrische Kernel Regression (NPR), Kernel Ridge Regression (KRR) und Support Vector Regression (SVR) sind datengetrieben. Die datengetriebenen Ansätze weisen zwei Hauptnachteile auf: Speichern und Berechnen. Erstens erfordern die Techniken das Speichern großer Trainingsdatenmengen. Bei NPR und KRR werden sämtliche Trainingsdaten gespeichert. Bei SVR werden Stützvektoren gespeichert. Da die Trainingsdaten Bilder mit hohen Dimensionen sind, kann das Speichern der Trainingsbilder viel Speicherplatz in Anspruch nehmen. Zweitens geht das Auswerten der datengetriebenen Regressi onsfunktion langsam, weil das Vergleichen der Eingangsdaten mit den gespeicherten Trainingsbildern zeitaufwändig ist.
  • Im Allgemeinen findet Regression die Lösung des folgenden Minimierungsproblems:
    Figure 00030001
    wobei G der Satz zulässiger Ausgangsfunktionen ist, εp(x,y) die Erwartung unter der Erzeugungsverteilung p(x, y) nimmt und die L(o, o)-Funktion die Verlustfunktion ist, die die Abweichung des Regressorausgangs g(x) von dem tatsächlichen Ausgang y(x) pönalisiert.
  • In der Praxis ist es unmöglich, die Erwartung zu berechnen, weil die Verteilung p(x, y) unbekannt ist. Angesichts eines Satzes von Trainingsbeispielen {(xn, y(xn))} N / n=1, wird die Kostenfunktion εp(x,y)L(y(x),g(x)) als der Trainingsfehler
    Figure 00030002
    approximiert.
  • Ist die Anzahl der Muster N unendlich groß, ist die oben stehende Approximation gemäß dem Gesetz der großen Zahlen exakt. Leider ist ein praktischer Wert von N nie groß genug, vor allem, wenn es um Bilddaten und hoch-dimensionale Ausgangsparameter geht. Das Overfitting ist ein noch schwerwiegenderes Problem: Bei einer beschränkten Anzahl von Trainingsbeispielen lässt sich eine Funktion g(x), die einen Trainingsfehler gleich Null ergibt, leicht aufbauen. Um das Overfitting zu bekämpfen, werden oft zusätzliche Regelungsauflagen verwendet, die zu einer kombinierten Kostenfunktion führen (unter Nichtberücksichtigen des Skalierfaktors N–1)
    Figure 00030003
    wobei λ > 0 der Regelungskoeffizient ist, der den Regelungsgrad steuert, und R(g) das Regelungsglied ist. Die Regelung auferlegt der Ausgangsfunktion oft eine gewisse Glätte oder reflektiert irgendeine frühere Annahme zu dem Ausgang.
  • NPR ist eine geglättete Version der k-nächsten Nachbarn-Regression (kNN). Der kNN-Regressor approximiert den bedingten Mittelwert, eine optimale Schätzung in L2-Richtung. NPR nimmt die folgende Form an:
    Figure 00040001
    wobei hσ(o; xn) eine Kernfunktion ist. Die am weitesten verwendete Kernfunktion ist der RBF-Kern
    Figure 00040002
  • Der RBF-Kern hat eine nicht kompakte Stützung. Andere Kernfunktionen mit kompakten Stützungen, wie zum Beispiel der Epanechnikov-Kern, können ebenfalls verwendet werden. Bei einem Szenario mit Regression auf Bildbasis ist NPR zwar glatt, tendiert im Allgemeinen jedoch dazu, Daten überanzupassen, das heißt niedrige Verzerrung und hohe Varianz zu ergeben.
  • KRR geht davon aus, das die Regressionsfunktion mit multiplem Ausgang eine lineare Form annimmt:
    Figure 00040003
    wobei k(x:xn) eine Funktion mit reproduzierendem Kern ist und αn ein q × 1 -Vektor ist, der die Kernfunktion gewichtet. Die Auswahlen für den reproduzierenden Kern umfassen den RBF-Kern, den polynominalen Kern usw. Die Lösung der KRR mit multiplem Ausgang abgeleitet von Trainingsdaten ist g(x) = Y(K + λI)–1 κ(x), (6) wobei Yq×N = [y(x1), y(x2), ..., y(xN)] die Trainingsausgangsmatrix ist, KN×N = [k(xi; xj)] die Gram-Matrix für die Trainingsdaten und κ(x)N×1 = [k(x; x1), k(x; x2), ..., k(x; xN)]T ist.
  • Wenn ein linearer Kern verwendet wird, tendiert KRR im Allgemeinen dazu, die Daten unteranzupassen, das heißt eine hohe Verzerrung und niedrige Varianz zu ergeben, weil sie eine einfache lineare Form verwendet. Der Einsatz der nicht linearen Kernfunktion ergibt oft verbesserte Leistung. Eine der Rechenschwierigkeiten von KRR liegt im Umkehren der N × N – Matrix κ + λI.
  • SVR ist ein robustes Regressionsverfahren. Ihre geläufige Formulierung funktioniert für Daten mit einfachem Ausgang, d. h. q = 1. SVR minimiert die folgende Kostenfunktion
    Figure 00050001
    wobei |o| eine ∊ -insensitive Funktion ist,
    Figure 00050002
    wobei k(x; xn) eine Funktion mit reproduzierendem Kern und wn die Gewichtung ist, und w = [w1, w2, ..., wn]T. Da einige der Koeffizienten wn, die man durch eine quadratische Programmiervorgehensweise erzielen kann, den Wert Null haben, werden Muster xn, die zu Nichtnull-Gewichten gehören, Stützvektoren genannt.
  • SVR ergibt ein gutes Gleichgewicht zwischen dem Verzerrungs-Varianzkompromiss und ist daher sehr robust. Leider ist das direkte Anwenden von SVR auf das Regressionsproblem mit multiplem Ausgang schwierig. Man braucht einen Regressor, der auf eine Einstellung mit multiplem Ausgang abzielen kann, die durch Boosten gelernt wird.
  • Kurzdarstellung der Erfindung
  • Die vorliegende Erfindung betrifft ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehören. Eine Regressionsfunktion für eine Vielzahl von Bildern wird gelernt, wobei für jedes Bild die dazugehörende Entität bekannt ist. Die gelernte Regressionsfunktion wird verwendet, um eine Entität, die zu einem Bild gehört, in dem die Entität nicht bekannt ist, vorauszusagen.
  • Kurzbeschreibung der Zeichnungen
  • Bevorzugte Ausführungsformen der folgenden Erfindung werden unten unter Bezugnahme auf die anliegenden Zeichnungen detaillierter beschrieben, wobei gleiche Bezugszeichen gleiche Elemente angeben:
  • 1 ist ein Blockschaltbild eines erfindungsgemäßen Systems zum Durchführen von Regression auf Bildbasis.
  • 2 veranschaulicht Beispiele von Bildern, an welchen Regressionsaufgaben auf Bildbasis erfindungsgemäß durchgeführt: werden.
  • 3 veranschaulicht ein Verfahren zum Lernen einer Regressionsfunktion gemäß der vorliegenden Erfindung.
  • 4 umreißt ein inkrementales Merkmalauswahlsystem gemäß der vorliegenden Erfindung.
  • 5 umreißt den abschließenden Ausgang für ein Abfragebild gemäß der vorliegenden Erfindung.
  • 6 ist ein Blockschaltbild, das ein Verfahren zum Durchführen von Regression auf Bildbasis unter Einsatz von Boosten gemäß der vorliegenden Erfindung umreißt.
  • 7 ist ein Flussdiagramm, das ein inkrementales Merkmalauswahlsystem gemäß der vorliegenden Erfindung umreißt.
  • 8 zeigt vor und nach der Normierung Musterbilder einer Person mit wechselndem Alter.
  • 9 zeigt einige gleiche CT-Bilder mit Grundwahrheit und Regressionsergebnissen, und
  • 10 zeigt einige Echokardiographiebilder mit Grundwahrheit und Regressionsergebnissen.
  • Detaillierte Beschreibung
  • Die vorliegende Erfindung betrifft ein Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehört. 1 veranschaulicht ein Blockschaltbild eines Systems zum Umsetzen der vorliegenden Erfindung. Eine Kamera 102 wird zum Aufnehmen von Bildern verwendet, an die die Regression auf Bildbasis anzuwenden ist. Verschiedene Typen von Bildern können je nach Zweck der Regression auf Bildbasis erzielt werden. 2 zeigt einige Beispiele von Bildern, an welchen Regressionsaufgaben auf Bildbasis durchgeführt werden können. Das Bild kann zum Beispiel ein menschliches Gesicht 202 sein, für das eine Altersschätzung bestimmt wird. Bei einem anderen Fall kann es sich um das Bild eines Lungentumors 204 handeln, bei dem die Position und die anisotrope Ausbreitung des Tumors bestimmt werden. Ein weiteres Beispiel enthält ein Ultraschallbild 206 eines menschlichen Herzens oder ein Echokardiogramm, bei dem die intrakardiale Wand des linken Ventrikels automatisch abgegrenzt werden kann.
  • Die Bilder werden an einen Prozessor 104 weiter gegeben, der die Regressionsaufgaben auf Bildbasis, die unten genauer beschrieben werden, durchführt. Nach dem Durchführen der Regressionsaufgaben auf Bildbasis, können die Ergebnisse über die Ausgabevorrichtung 106 berichtet werden. Die Ausgabevorrichtung 106 liefert die Ergebnisse der von der Regression auf Bildbasis ausgeführten Aufgabe. Die Ausgabevorrichtung 106 umfasst ein Display zum Anzeigen der verarbeiteten Bilder. Das Display stellt eine Ansicht der Bilder bereit, die von der Kamera 102 aufgenommen wurden, sowie die gewünschte Information, die von den Regressionsaufgaben auf Bildbasis erzielt wird. Diese Bilder können in der Datenbank 108 gespeichert werden.
  • Die vorliegende Erfindung untersucht, wie man die Regressionsfunktion mit einer Vielzahl von Bildern und den dazugehörenden Entitäten lernen kann. Wie in 3 dargestellt, zieht die Regressionsfunktion eine nicht lineare Verzweigung in den gemeinsamen Raum der Bildeingabe und Ausgabeentität. Was beobachtet wird, sind nur Muster von der Verzweigung, Id. h. Bilder x1 – xn und Ausgänge y1 – yn. Von der Datenbank wird die Regressionsfunktion abgeleitet. Die Lernaufgabe wird als Minimieren der Kostenfunktion J(g) formuliert, die aufgebaut wird, um (i) die Voraussagbarkeit des Regressors g(x) für die Daten in der Datenbank wiederzugeben und (ii) um bestimmte Glättbedingungen zu enthalten, um das Überanpassen zu vermeiden. Ein Beispiel der Kostenfunktion ist in Gl. (2) gezeigt.
  • Die Lernaufgabe wird durch Boosten gelöst, das in 4. gezeigt ist. Das Boosten ist ein iterativer Prozess, der allmählich die Kostenfunktion J(g) minimiert. Mit anderen Worten wird die Voraussagbarkeit des Regressors g(x) geboostet. Angenommen, der Iterationsindex ist t, dann ist J(gt) eine während t monoton sinkende Funktion. Das erfolgt durch Hinzufügen eines weiteren Bilds atht(x) zu dem Regressor gt(x), das heißt, gt(x)= gt-1(x) + atht(x), wobei at ein realer Koeffizient und ht(x) eine schwache Funktion ist. Das Boosten kombiniert einen ausgewählten Satz schwacher Funktionen in eine starke Funktion. Der abschließende Ausgang des Boostens ist eine Regressionsfunktion g(x) = a1h1(x) + a2h2(x) + ... + aThT(x), die verwendet wird, um den Ausgang g(xq) für ein Abfragebild xq wie in 5 gezeigt vorauszusagen.
  • Die vorliegende Erfindung stellt ein Bild über einen Satz hoch redundanter Haarähnlicher Merkmale dar, der schnell ausgewertet werden kann. Zu jeder schwachen Funktion gehört ein Merkmal, wenn der Regressionsausgang eindimensional ist, oder mehrere Merkmale, eines pro Dimension, wenn der Regressionsausgang multidimensional ist. Der Satz, der alle schwachen Funktionen enthält, wird Wörterbuchsatz H genannt. Jede Boostiteration wählt daher die schwache Funktion aus dem Wörterbuchsatz oder entsprechend ein Merkmal oder multiple Merkmale aus, so dass die Kostenfunktion maximal verringert wird. Nach dem Boosten besteht keine Notwendigkeit, die Trainingsdaten zu behalten, die Kenntnis der Trainingsdaten wird komplett von den schwachen Funktionen und ihren Koeffizienten absorbiert. Während des Testens ist kein Speichern der Trainingsdaten erforderlich, und die Regressionsfunktion wird in kürzester Zeit ausgewertet. Einfache Decision Stumps werden als schwache Funktionen verwendet, weil sie sich gegenüber Aussehenswechseln robust verhalten.
  • Beim Beschreiben des Verfahrens zum Durchführen der Regression auf Bildbasis mit Boosten, konzentriert man sich auf die L2-Verlustfunktionen. Um eine allgemeine Verarbeitung zu erlauben und die Skalierbemühung unterschiedlicher Datendimensionen zu bewältigen, werden die folgenden normalisierten Fehlerkosten verwendet: L(y(x), g(x)) = [y(x) – g(x)]T A[y(x) – g(x)] = ||y(x) – g(x)||2A (8)wobei Aq×q eine Normalisierungsmatrix ist, die positiv definit sein muss, und q ist die Dimensionalität der Ausgangsvariablen.
  • Das Regeln existiert in verschiedenen Formen. Ein datengetriebenes Regelungsglied ||μ – g(x)|| 2 / B, wird verwendet, wenn Bq×q eine Normalisierungsmatrix ist, die positiv defi nit sein muss. Dieses Regelungsglied hat eine Unterraumauslegung, wobei μ der Mittelwert und B–1 die Kovarianzmatrix ist.
  • Dann muss die folgende Kostenfunktion minimiert werden.
    Figure 00090001
    wobei r(x) = y(x) – g(x) der Approximationsfehler, s(x) = μ – g(x) der Abweichungsfehler ist und die Matrizen Rq×N und Sq×N jeweils wie folgt definiert sind: R = [r(x1), r(x2), ..., r(xN)], S = [s(x1), s(x2), ..., s(xN)] (10)
  • Mit der oben stehenden Kostenfunktion kann leicht geprüft werden, dass die Kostenfunktion J(gt) bei der Iteration wie folgt auf J(gt-1) bezogen ist:
    Figure 00090002
    H = [ht(x1), ht(x2), ..., ht(xN)]. Entsprechend wird als Iteration t die beste Funktion ht(x), die den Wert von ε(ht) maximiert, ausgewählt. Nach dem Finden der schwachen Funktion kann ihr dazugehörender Koeffizient αt(ht) entsprechend berechnet werden als
    Figure 00090003
  • Eine Übersicht über das erfindungsgemäße Boostverfahren ist in 6 gezeigt. Zuerst wird der Iterationsindex t auf Null initialisiert (Schritt 602). Das zieht das Einstellen der folgenden festgelegten Parameterwerte nach sich: μ (der mittlere Vektor), A und B (die Normalisierungsmatrizen), λ (der Regelungskoeffizient) und η (der Schrumpffaktor). Danach werden die Werte in Zusammenhang mit den Stoppkriterien festgelegt: Tmax (die maximale Anzahl an Iterationen), Jmin (die Mindestkostenfunktion), ∊min, und αmin. Die Ausgangswerte werden festgelegt für t = 0, g0(x) = 0, r0(x) = y(x) und s0(x) = μ.
  • Dann wird die Iteration für t = 1, ..., Tmax bestimmt. Zuerst ht = argmaxh∊H εt(h) und sein entsprechendes α ^t(ht) und εt(ht) (Schritt 604). Eine neue Funktion gt(x) = gt-1(x) + ηα ^tht(x) wird gebildet (Schritt 606). Dann werden der Approximationsfehler rt(x) = y(x) – gt(x), der Abweichungsfehler st(x) = μ – gt(x), und die Kostenfunktion J(gt) bewertet (Schritt 608). Dann wird die Konvergenz geprüft, beispielsweise erfolgt ein Bestimmen, ob J(gt) < Jmin, αt < αmin, εt < εmin oder eine Kombination dieser (Schritt 610).
  • Wie oben erwähnt, bezieht sich der Wörterbuchsatz H auf das Bild durch Haarähnliche Merkmale. Intuitiv muss diese Funktion weit genug angesetzt werden, so dass sie es erlaubt, durch eine lineare Kombination die hoch komplexe Ausgangsfunktion y(x) zu ergeben. Eindimensionale Decision Stumps sind Stammfunktionen, die zum Aufbauen des Wörterbuchsatzes H verwendet werden. Die Vorteile des Einsatzes von Decision Stumps umfassen (i), dass sie gegenüber Aussehensvariation sehr robust sind; (ii), dass sie lokale Merkmale sind; (iii), dass sie schnell mit dem so genannten integralen Bild zu bewerten sind; und vor allem, (iv), dass sie ein inkrementales Merkmalauswahlsystem erlauben, das unten genauer beschrieben wird.
  • Ein eindimensionaler (1D) Decision Stump h(x) wird mit einem Haar-Filter-Merkmal f(x), einem Beschlussschwellenwert θ und einem Paritätsrichtungsindikator p, der einen binären Wert von entweder +1 oder –1 annimmt, verbunden.
  • Figure 00100001
  • Jeder Haar-Filter f(x) hat seine eigenen Attribute: Typ, Fensterlage und Fenstergröße. Bei einer mäßigen Bildgröße kann man eine riesige Anzahl von Haar-Filtern durch Variieren der Filterattribute anlegen. Die Anzahl der Haar-Filter wird als M bezeichnet. Durch Anpassen des Schwellenwerts θ (zum Beispiel K gleichmäßig beabstandete Niveaus) für jeden Haar-Filter, kann man ferner K Decision Stumps anlegen. Insgesamt gibt es 2KM 1-D-Decision Stumps. Zu beachten ist, dass die Anzahl 2KM abschreckend groß sein kann, so dass sie sogar zu Schwierigkeiten beim Speichern aller dieser Decision Stumps beim Training führen kann.
  • Angenommen, die Dimensionalität des Ausgangs ist q. Eine schwache Funktion wird aufgebaut als ein q-dimensionaler (q-D) Decision Stump h(x), der einfach q 1D Decision Stumps stapelt. h(x)q×1 = [h1(x), h2(x), ..., hq(x)]T (12)
  • Zu beachten ist, dass jedes oben stehende hj(x) mit einem unterschiedlichen Parameter verbunden werden kann. Man kann daher einen ausreichend großen Satz schwache Funktionen aufbauen, der (2KM)q Funktionen enthält.
  • Das Boosten funktioniert als Merkmalauswahlorakel. Bei jedem Boostdurchgang werden die Merkmale ausgewählt, die die Kostenfunktion maximal senken können. Wie in 6 umrissen, umfasst das Verfahren ein Greedy-Merkmalauswahlsystem in Schritt 604, dessen Bewerten zu kostspielig sein kann, weil es das Bewerten von (2MNK)q Decision Stumps bedeutet, was eine gewaltige Rechenaufgabe darstellt.
  • Gemäß einer Ausführungsform der vorliegenden Erfindung kann das q-D-Regressionsproblem in q unabhängige 1D-Regressionsprobleme aufgeschlüsselt werden, was zu einem unabhängigen Merkmalauswahlsystem führt. Daher werden bei jedem Boostdurchgang nur 2qMNK Decision Stumps bewertet. Diese Aufschlüsselung vernachlässigt jedoch die mögliche statistische Abhängigkeit unter den Ausgangsdimensionen.
  • Gemäß einer anderen Ausführungsform der vorliegenden Erfindung wird ein inkrementales Merkmalauswahlsystem verwendet, indem das q-D-Regressionsproblem in ein q abhängiges 1D-Regressionsproblem aufgeschlüsselt wird. Das inkrementale Merkmalauswahlsystem ist in 7 umrissen. Das Initialisieren erfolgt durch Anlegen einer Zufallspermutation von {1, 2, ..., q}, die {<1>, <2>, ..., <q>} ergibt (Schritt 702). Dann werden Iterationen über die Dimension der Ausgangsvariablen i = 1. 2 ..., q ausgeführt. Zuerst werden stichprobenweise aus dem Wörterbuchsatz M' Haar-Filter genommen (Schritt 704). Der reduzierte Satz schwacher Funktionen H' wird gebildet (Schritt 706). Dann werden stichprobenweise N' Datenpunkte aus dem Trainingssatz genommen (Schritt 708). Filterindex m = 1, 2, ..., M' und Schwellenwertni veauindex k = 1, 2, ..., K verschleifen, um h<i> = argmaxh∊H, ε<i>(h) zu finden (Schritt 710). Ein neuer Vektor
    Figure 00120001
    wird gebildet (Schritt 712). Dann werden wiederverwendbare Mengen
    Figure 00120002
    berechnet.
  • Das oben stehende System verwendet den Inkrementalvektor hi(x)i×1 = [h1(x), h2(x), ..., hi(x)]T = [hi-1(x)T, hi(x)]T, (13)und die Inkrementalmatrizen Ci, Di und Hi,
    Figure 00120003
  • Der Inkrementalkoeffizient wird definiert als
  • Figure 00120004
  • Daher wird ein 1D-Decision Stump hi(x) auf einmal gelernt.
  • Figure 00120005
  • Was das Berechnen betrifft, erfordert das inkrementale Auswahlsystem das Bewerten von 2qMNK Decision Stumps, gleich wie beim unabhängigen Auswahlsystem. Verglichen mit dem unabhängigen System braucht man beim inkrementalen System Overhead-Berechnungen, weil Matrixmengen berechnet werden müssen, wie zum Beispiel
    Figure 00120006
    und
    Figure 00120007
    während die Gegenstücke bei dem unabhängigen Merkmalauswahlsystem vektorinnere Produkte sind. Wiederverwendbare Berechnungen können jedoch eingegliedert werden. Es kann zum Beispiel gezeigt werden, dass
    Figure 00130001
  • Um die Robustheit zu verbessern und Verzerrung zu entfernen, wird die Reihenfolge der Dimensionen der Ausgangsvariablen zufällig permutiert. Andere oben erwähnte Ansätze zum Verbessern der Recheneffizienz umfassen: (i) zufällige Stichproben aus dem Wörterbuchsatz, das heißt Ersetzen von M durch ein kleineres M' und (ii) zufällige Stichproben aus dem Trainingsdatensatz, das heißt Ersetzen von N durch ein kleineres N'.
  • Wie oben erwähnt, kann das erfindungsgemäße Verfahren verwendet werden, um eine Anzahl unterschiedlicher Probleme zu lösen. 5 zeigt eine Übersicht über das erfindungsgemäße Verfahren. Ein Abfragebild wird empfangen, und eine Regressionsfunktion wird an das Abfragebild angewandt, um die Gegenwart einer Entität zu bestimmen, die als Ausgang bereitgestellt wird.
  • Das erfindungsgemäße Regressionsverfahren auf Bildbasis kann zum Beispiel zum Bestimmen einer Altersschätzung verwendet werden. Unten wird ein Beispiel beschrieben. Das Modellieren des Alterns ist wichtig für Gesichtsanalyse und Erkennen. Ein dazugehörender Aspekt ist das Schätzen menschlichen Alters. Es wird eine Datenbank mit Gesichtsbildern verwendet. Man legt fünf zufällige Unterteilungen mit etwa 80 % der Bilder an, die zum Trainieren verwendet werden, die restlichen 20 % dienen für Tests. Das Alter reicht von 0 bis 69 Jahre. Das Normalisieren erfolgt durch Fluchten einer Anzahl charakteristischer Punkte, gefolgt von einer Null-Mittel-Einheit-Varianz-Operation.
  • Der Eingang x ist ein Bild zu 60 × 60; der Ausgang y ist sein/ihr normalisiertes Alter. Das tatsächliche Alter wird umgewandelt in y = log(y + 1), um einen negativen Regressorausgang zu vermeiden. Die Gesichtsbilder umfassen alle möglichen Variationen, darunter Beleuchtung, Haltung, Ausdruck, Bärte, Schnurrbärte, Brillen usw. 8 zeigt Musterbilder einer Person in unterschiedlichen Altersphasen und mit verschiedenen Aussehensvariationen. Ein Satz Bilder 802 wird vor dem Normalisieren gezeigt, und ein anderer Satz 804 zeigt die normalisierten Bilder. Der absolute Altersunterschied wird als eine Fehlermessung berechnet. Im vorliegenden Beispiel werden 500 schwache Funktionen, der Regelungskoeffizient λ = 0.1 und der Schrumpffaktor η = 0.5 bewertet.
  • Eine andere Anwendung der vorliegenden Erfindung erfasst einen Lungentumor in einem Computertomographie(CT)-Bild. Mit einem Eingangs-CT-Bild werden die Mittenposition (t, s) und das anisotrope Ausbreiten des Tumors herausregressiert. Eine anisotrope 2D-Ausbreitung wird beschrieben von einer positiven definiten 2 × 2 -Matrix [a11, a12; a12, a22], wobei a11 > 0 und a22 > 0. Eine CT-Bilddatenbank wird verwendet, die Bilder werden in vier zufällige Unterteilungen geteilt. Etwa 80 % der Bilder werden als Trainingsbilder bezeichnet, die restlichen 20 % als Testbilder. Die Mittenposition liegt größtenteils innerhalb von 6 Pixeln von der Bildmitte, aber die anisotrope Ausbreitung ist hinsichtlich des Maßstabs und der Ausrichtung eher willkürlich.
  • Der Eingang x ist ein Bild zu 33 × 33; der Ausgang y ist eine S-D-Variable nach Aufhellen, das heißt q = 5. Um die negativen Ausgangswerte von a11 und a22 zu vermeiden, werden log(a11) und log(a22) verwendet. Der Aufhellfilter wird angewandt an [t, s, log(a11), a12, log(a22)]T. 9 zeigt einige Beispiele von CT-Bildern mit Grundwahrheit und Regressionsergebnissen. Die Bilder enthalten typische Aussehensvariationen: unordentlicher Hintergrund, Bildrauschen, willkürliche Farbe, künstliche Signale usw.
  • Da jeder Ausgangsparameter auf der Ellipse 602 in dem 2D-Bild definiert ist, wird ein Bereich nicht überlappendes Verhältnis r verwendet, um die Leistung zu messen. Mit den zwei Ellipsen A und B ist r definiert als r = 1 –[area(A ∩ B)/area(A ∪ B)]. Je kleiner das Verhältnis, desto besser überlappen sich die zwei Ellipsen.
  • Herzhinterwandlokalisierung und -tracking sind eine schwierige Aufgabe beim Verarbeiten echokardiographischer Bilder (d. h. 2D-Ultraschallbilder des Herzens). Insbesondere ist die präzise Lokalisierung des linken Ventrikels für die klinische Herzanalyse wesentlich. Bei diesem Beispiel konzentriert man sich auf das Lokalisieren der intrakardialen Wand des linken Ventrikels in der apikalen Vierkammeransicht. Eine Ultraschallbilddatenbank wird verwendet, die Bilder werden in fünf zufällige Unterteilungen geteilt. Etwa 80 % der Bilder werden als Trainingsbilder bezeichnet, die restlichen 20 % als Testbilder.
  • Der Eingang x ist ein Bild zu 80 × 74; der Ausgang y ist eine 7-D-Variable, das heißt q = 7. Die intrakardiale Wand ist eine nicht starre offene Kontur parametriert durch 17 Kon trollpunkte, das heißt mit 34 Variablen. Nach dem Aufhellen behält man nur die 7 Hauptbestandteile. Je nach der Bilderfassungserfahrung des Sonographikers und der anatomischen Struktur- und Gewebecharakterisierung des Patienten, variiert das Aussehen des linken Ventrikels, das die Herzspitze, Septumwand, den Papillaris-Muskel, Annulus usw. enthält, von einem Patienten zum anderen signifikant. Bei Ultraschallbilderfassung stößt man ferner oft auf Signalausfall. Daher verformt sich der intrakardiale Rand. 10 zeigt beispielhafte Ultraschallbilder, die das Aussehen der Variationen veranschaulichen. Der mittlere Pixelfehler wird gemessen für die Kontrollpunkte
    Figure 00150001
  • Nach der Beschreibung von Ausführungsformen für ein Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten zum Ableiten einer Entität, die zu einem Bild gehört, wird darauf hingewiesen, dass der Fachmann angesichts der oben stehenden Lehren Änderungen und Variationen vornehmen kann. Es ist daher klar, dass an den einzelnen Ausführungsformen der Erfindung Änderungen vorgenommen werden können, die in den Geltungsbereich der Erfindung, wie sie in den anliegenden Ansprüchen definiert ist, fallen. Nach der Beschreibung der Erfindung mit den Details und Einzelheiten, die das Patentrecht fordert, wird in den anliegenden Patentansprüchen dargelegt, was beansprucht und wofür Schutz gefordert wird.

Claims (10)

  1. Verfahren zum Durchführen von Regression auf Bildbasis durch Verwenden von Boosten, um eine Entität abzuleiten, die zu einem Bild eines Objekts gehört, wobei das Verfahren die folgenden Schritte aufweist: Lernen einer Regressionsfunktion für eine Vielzahl von Bildern, wobei für jedes Bild die dazugehörende Entität bekannt ist, und Verwenden der gelernten Regressionsfunktion, um eine Entität, die zu einem Bild gehört, in dem die Entität nicht bekannt ist, vorauszusagen.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Lernens einer Regressionsfunktion unter Einsatz von Boosten ferner die folgenden Schritte aufweist: Approximieren der Regressionsfunktion als eine additive Funktion, bei jeder Iteration der additiven Funktion Hinzufügen eines oder mehrerer Merkmale in die Regressionsfunktion, Bestimmen, ob die hinzugefügten Merkmale die Voraussagbarkeit der Entität durch die wiederholte Regressionsfunktion verbessern, und Auswahl der Merkmale, die die Voraussagbarkeit der wiederholten Regressionsfunktion maximal verbessern.
  3. Verfahren nach Anspruch 2, wobei der Schritt des Auswählens hinzugefügter Merkmale ferner die folgenden Schritte aufweist: Auswählen aus den Merkmalen des überkompletten Satzes von Merkmalen derjeniger, die die Kostenfunktion minimieren, die die Voraussagbarkeit der Regression für die verfügbare Datenbank anzeigen, wobei die Kostenfunktion eine L2-Verlustfunktion und ein Regelungsglied aufweist, und Anwenden der Merkmalauswahl entweder in einer Greedy- oder inkrementalen oder unabhängigen Art auf die Ausgangsdimensionen.
  4. Verfahren nach Anspruch 2, wobei jedes Merkmal als ein Haar-Filter repräsentiert wird.
  5. Verfahren nach Anspruch 3, wobei das Objekt multidimensional ist.
  6. Verfahren nach Anspruch 5, wobei ein Decision Stump zur Merkmalauswahl wie folgt verwendet wird:
    Figure 00170001
  7. Verfahren nach Anspruch 1, wobei der Schritt des Verwendens der gelernten Regressionsfunktion ferner die folgenden Schritte aufweist: Empfangen eines Bilds eines Objekts, in dem die dazugehörende Entität unbekannt ist, Bewerten der Merkmalfunktionen in dem Regressor, und Kombinieren aller Merkmalfunktionen, um die zu dem Objekt gehörende Entität abzuleiten.
  8. Verfahren nach Anspruch 7, bei dem das Objekt ein menschliches Gesicht und die abgeleitete Entität das Alter ist.
  9. Verfahren nach Anspruch 7, bei dem das Objekt eine anatomische Struktur und die Entität die Position und die anisotrope Ausbreitung eines Tumors sind.
  10. Verfahren nach Anspruch 7, bei dem das Objekt ein menschliches Herz und die Entität die Lage einer intrakardialen Wand ist.
DE102006012499A 2005-03-17 2006-03-16 Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten Withdrawn DE102006012499A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US66287705P 2005-03-17 2005-03-17
US60/662,877 2005-03-17
US11/372,782 2006-03-10
US11/372,782 US7804999B2 (en) 2005-03-17 2006-03-10 Method for performing image based regression using boosting

Publications (1)

Publication Number Publication Date
DE102006012499A1 true DE102006012499A1 (de) 2006-11-23

Family

ID=37891869

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102006012499A Withdrawn DE102006012499A1 (de) 2005-03-17 2006-03-16 Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten

Country Status (3)

Country Link
US (1) US7804999B2 (de)
JP (1) JP2006268850A (de)
DE (1) DE102006012499A1 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664328B2 (en) * 2005-06-24 2010-02-16 Siemens Corporation Joint classification and subtype discovery in tumor diagnosis by gene expression profiling
US7783097B2 (en) * 2006-04-17 2010-08-24 Siemens Medical Solutions Usa, Inc. System and method for detecting a three dimensional flexible tube in an object
US8117210B2 (en) * 2006-10-06 2012-02-14 Eastman Kodak Company Sampling image records from a collection based on a change metric
US7949173B2 (en) * 2006-10-06 2011-05-24 Siemens Corporation Method and system for regression-based object detection in medical images
JP4677046B2 (ja) * 2006-12-06 2011-04-27 本田技研工業株式会社 多次元ブースト回帰を経た外観及び動作を使用する高速人間姿勢推定
US20080208836A1 (en) * 2007-02-23 2008-08-28 Yahoo! Inc. Regression framework for learning ranking functions using relative preferences
JP5287333B2 (ja) * 2008-02-25 2013-09-11 オムロン株式会社 年令推定装置
TWI393067B (zh) * 2009-05-25 2013-04-11 Inst Information Industry 具有電源閘控功能之繪圖處理系統及電源閘控方法,及其電腦程式產品
US20110268365A1 (en) * 2010-04-30 2011-11-03 Acer Incorporated 3d hand posture recognition system and vision based hand posture recognition method thereof
US8837771B2 (en) 2012-02-28 2014-09-16 Siemens Aktiengesellschaft Method and system for joint multi-organ segmentation in medical image data using local and global context
US8660306B2 (en) * 2012-03-20 2014-02-25 Microsoft Corporation Estimated pose correction
CN103324938A (zh) * 2012-03-21 2013-09-25 日电(中国)有限公司 训练姿态分类器及物体分类器、物体检测的方法及装置
CN107169454B (zh) * 2017-05-16 2021-01-01 中国科学院深圳先进技术研究院 一种人脸图像年龄估算方法、装置及其终端设备
US11264135B2 (en) 2017-11-10 2022-03-01 Siemens Medical Solutions Usa, Inc. Machine-aided workflow in ultrasound imaging

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781650A (en) * 1994-02-18 1998-07-14 University Of Central Florida Automatic feature detection and age classification of human faces in digital images
US6674880B1 (en) * 1999-11-24 2004-01-06 Confirma, Inc. Convolution filtering of similarity data for visual display of enhanced image
US7158692B2 (en) * 2001-10-15 2007-01-02 Insightful Corporation System and method for mining quantitive information from medical images
US7174029B2 (en) * 2001-11-02 2007-02-06 Agostinelli John A Method and apparatus for automatic selection and presentation of information
US7024033B2 (en) * 2001-12-08 2006-04-04 Microsoft Corp. Method for boosting the performance of machine-learning classifiers
US7689033B2 (en) * 2003-07-16 2010-03-30 Microsoft Corporation Robust multi-view face detection methods and apparatuses
WO2005017807A2 (en) * 2003-08-13 2005-02-24 Iconix Pharmaceuticals, Inc. Apparatus and method for classifying multi-dimensional biological data
US7536044B2 (en) * 2003-11-19 2009-05-19 Siemens Medical Solutions Usa, Inc. System and method for detecting and matching anatomical structures using appearance and shape
US20050177040A1 (en) * 2004-02-06 2005-08-11 Glenn Fung System and method for an iterative technique to determine fisher discriminant using heterogenous kernels

Also Published As

Publication number Publication date
JP2006268850A (ja) 2006-10-05
US7804999B2 (en) 2010-09-28
US20070071313A1 (en) 2007-03-29

Similar Documents

Publication Publication Date Title
DE102006012499A1 (de) Verfahren zum Durchführen von Regression auf Bildbasis mit Boosten
Hou et al. Brain CT and MRI medical image fusion using convolutional neural networks and a dual-channel spiking cortical model
DE69838181T2 (de) Visualisierung und selbstorganisation multidimensionaler daten durch ausgeglichene orthogonale abbildung
CN109584254B (zh) 一种基于深层全卷积神经网络的心脏左心室分割方法
DE60133840T2 (de) Vorrichtung und verfahren zur erzeugung einer dreidimensionalen darstellung aus einem zweidimensionalen bild
DE69914370T2 (de) Bestimmung von gesichtsunterräumen
DE602004009960T2 (de) System und verfahren zum erkennen und vergleichen anatomischer strukturen unter verwendung von erscheinungsbild und form
DE112019000708T5 (de) System zur segmentierung anatomischer strukturen bei der herz-cta unter verwendung vollständiger convolutional neural networks
DE112004000393B4 (de) System und Verfahren zum Verfolgen einer globalen Form eines in Bewegung befindlichen Objekts
Dony et al. Optimally adaptive transform coding
DE10255525B4 (de) Automatisierte Lungenknotensegmentierung mittels dynamischer Programmierung und auf EM basierender Klassifizierung
EP3336800B1 (de) Bestimmen einer trainingsfunktion zum generieren von annotierten trainingsbildern
DE102010000274A1 (de) Verfahren und Vorrichtung zur automatischen Identifizierung von Bildansichten in einem 3D-Datensatz
DE102006010607A1 (de) Wahrscheinlichkeitstheoretischer Verstärkungsbaum-Rahmen zum Lernen von Unterscheidungsmodellen
DE102007046582A1 (de) System und Verfahren zum Segmentieren von Kammern eines Herzens in einem dreidimensionalen Bild
CN109754403A (zh) 一种ct图像内的肿瘤自动分割方法及系统
DE102006054822A1 (de) Registrierung eines charakteristischen Pfads eines Kolons
DE102008046861A1 (de) Automatisierte Detektion von Ebenen aus echokardiographischen 3D Daten
DE102013021729A1 (de) Verbesserung der nadelvisualisierung in der diagnostischen ultraschallbildgebung
EP1444654A2 (de) Quantitative analyse, visualisierung und bewegungskorrektur in dynamischen prozessen
DE102008060789A1 (de) System und Verfahren zur nicht überwachten Detektion und Gleason-Abstufung für ein Prostatakrebspräparat (Whole-Mount) unter Verwendung von NIR Fluoreszenz
DE102013106467A1 (de) Verfahren und Vorrichtung zur iterativen Rekonstruktion
DE102006039922A1 (de) System und Verfahren zum Erlernen eines relativen Abstandes in einem Formenraum unter Verwendung von auf einem Bild basierenden Merkmalen
DE102021103293A1 (de) Ein Bayes&#39;sches Bildentrauschungsverfahren, das auf Verteilungsbeschränkungen von rauschhaltigen Bildern basiert
DE102021116436A1 (de) Verfahren und Vorrichtung zur datenfreien Posttraining-Netzwerkquantisierung und Generierung von synthetischen Daten auf Grundlage eines vortrainierten Modells maschinellen Lernens

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee