DE60033580T2 - Verfahren und gerät zur klassifizierung eines bildes - Google Patents

Verfahren und gerät zur klassifizierung eines bildes Download PDF

Info

Publication number
DE60033580T2
DE60033580T2 DE60033580T DE60033580T DE60033580T2 DE 60033580 T2 DE60033580 T2 DE 60033580T2 DE 60033580 T DE60033580 T DE 60033580T DE 60033580 T DE60033580 T DE 60033580T DE 60033580 T2 DE60033580 T2 DE 60033580T2
Authority
DE
Germany
Prior art keywords
region
image
string
images
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60033580T
Other languages
English (en)
Other versions
DE60033580D1 (de
Inventor
Andrew David Andrew Cambridge SINCLAIR
Andrew Kenneth Robert Cambridge WOOD
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Investments UK LLC
Original Assignee
AT&T Investments UK LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Investments UK LLC filed Critical AT&T Investments UK LLC
Application granted granted Critical
Publication of DE60033580D1 publication Critical patent/DE60033580D1/de
Publication of DE60033580T2 publication Critical patent/DE60033580T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Klassifizieren eines Bilds. Die vorliegende Erfindung betrifft außerdem ein Verzeichnis von Bildern, ein Verfahren und eine Vorrichtung zur Bildwiederauffindung, ein Programm und ein Medium, das ein derartiges Programm enthält.
  • Eine bekannte Art von Bildwiederauffindungssystem basiert auf Erzeugen und Suchen von globalen Bildeigenschaften wie Farbhistogramme oder Texturfilterbanken. Derartige Techniken sind jedoch inadäquat zum Wiederauffinden von großen Sammlungen von diversen Bildern. Auf lokalisierte Bildeigenschaften basierende Bildwiederauffindungstechniken sind bekannt und basieren im Allgemeinen auf einer von zwei Bildaufteilungsweisen. In der ersten Weise wird das Bild in einfach definierte regelmäßige Unterteilungen aufgeteilt, auf die globale Messungen angewandt werden. Ein Beispiel dieser Technik ist offenbart in Squire, D.M., Muller, H. und Raki, J.: „Content-based query of image databases, inspirations from text retrieval: inverted files, frequency-bases weights and relevance feedback", Proceedings of SCIA99, 1999. In der zweiten Weise wird das Bild in Regionen basierend auf Rändern, Farbe und Textur unter Verwendung der Eigenschaften der Regionen segmentiert, um ein Verzeichnis einer Bildsammlung zu erstellen. Eine Technik dieser Art ist offenbart in Howe, N.R.: „Percentile blobs for image similarity", IEEE Workshop on Content-based Access to Image and Video Libraries, S. 78-83, 1998, und Wood, M.E.J., Campbell, N.W. und Thomas, B.T.: „Interactive refinement by relevance feedback in content-based digital image retrieval", Proceedings of ACM Multimedia 98, S. 13-20, 1998. Beide Techniken verwenden im Allgemeinen mehrdimensionale Indexierung oder Graphabgleichungstechniken für Bildwiederauffindung, obwohl Squire et al (siehe oben) eine textbasierte Informations-Wiederauffindungstechnik auf die oben erwähnte erste Bildaufteilungsweise anwenden. Der Artikel „An Image Database System with Content Capturing and Fast Image Indexing Abilities", Gong et al, Proceedings of the International Conference on Multimedia Computing and Systems, 14.-19. Mai 1994, Boston, beschreibt ein Bilddatenbanksystem, in dem Bilder sowohl durch numerische Indexschlüssel, die automatisch aus erfassten primitiven Bildmerkmalen unter Verwendung eines Satzes von Regeln erzeugt werden, als auch durch traditionelle beschreibende Schlüsselwörter, die durch Benutzer beim Laden von Bildern eingegeben werden, indexiert werden.
  • Nach einem ersten Aspekt der Erfindung wird ein Verfahren zur Klassifizierung eines Bilds bereitgestellt, umfassend die Schritte der Segmentierung des Bilds in eine Pluralität von Regionen und für mindestens eine der Regionen:
    Quantifizieren jeder einer Pluralität von visuellen Eigenschaften der Region auf einer numerischen Skala für die Eigenschaft; und charakterisiert durch
    Vergleichen jeder quantifizierten Eigenschaft mit einer Pluralität von Bändern der numerischen Skala für die Eigenschaft, wobei jedes Band mit einem Computer-lesbaren Zeichen assoziiert ist; und
    Anordnen der Zeichen, die mit den Bändern assoziiert sind, in die die quantifizierten Eigenschaften fallen, in einer vorbestimmten Reihenfolge, um eine Regionszeichenfolge zu bilden.
  • Der Segmentierungsschritt kann umfassen, das Bild in eine Pluralität von kohärenten Regionen zu segmentieren. In diesem Kontext kann eine kohärente Region als ein Bereich des Bilds von im Allgemeinen einheitlicher Farbe und/oder Textur angesehen werden, dessen Grenzen vorkommen, wo eine signifikante Änderung in der Farbe und/oder Textur ist.
  • Die visuellen Eigenschaften können Bereich enthalten. Die numerische Skala für Bereich kann logarithmisch sein.
  • Die visuellen Eigenschaften können mindestens eine Farbeigenschaft enthalten. Die numerische Skala für die Farbeigenschaft kann linear sein.
  • Die visuellen Eigenschaften können Helligkeit enthalten. Die numerische Skala für Helligkeit kann linear sein.
  • Die visuellen Eigenschaften können Form enthalten.
  • Die visuellen Eigenschaften können Textur enthalten.
  • Jede Regionszeichenfolge kann zweidimensionale Koordinaten enthalten, die die Position der korrespondierenden Region in dem Bild repräsentieren.
  • Das Verfahren kann umfassen, mindestens eine der quantifizierten Eigenschaften mindestens einem neuronalen Netz zuzuführen, das geschult ist, mindestens eine Substanz zu erkennen und, als Reaktion auf die Erkennung durch das neuronale Netz, eine andere Regionszeichenfolge zu bilden. Die andere Regionszeichenfolge kann die mindestens eine Substanz beschreiben. Die andere Regionszeichenfolge kann ein semantisches Wort sein.
  • Das Verfahren kann umfassen, die Regionszeichenfolgen mit dem Bild zu assoziieren.
  • Die Regionszeichenfolge kann in einer Dokumentenauszeichnungssprache eingebettet sein.
  • Nach einem zweiten Aspekt der Erfindung wird ein Verfahren zur Klassifizierung einer Pluralität von Bildern bereitgestellt, umfassend die Klassifizierung jedes der Bilder durch ein Verfahren nach dem ersten Aspekt der Erfindung.
  • Das Verfahren kann umfassen, ein Verzeichnis der Bilder durch die Regionszeichenfolgen zu bilden.
  • Nach einem dritten Aspekt der Erfindung wird ein Verfahren zur Bildwiederauffindung bereitgestellt, umfassend die Erzeugung von mindestens einer Regionszeichenfolge und die Vergleichung der mindestens einen Regionszeichenfolge mit den Zeichenfolgen, die durch ein Verfahren nach dem zweiten Aspekt der Erfindung gebildet wurden.
  • Der Vergleich kann durch ein Textwiederauffindungssystem durchgeführt werden.
  • Die mindestens eine Regionszeichenfolge kann durch ein Verfahren nach dem ersten Aspekt der Erfindung erzeugt werden.
  • Eine Übereinstimmung kann angezeigt werden, wenn mindestens einige der Zeichen der mindestens einen erzeugten Zeichenfolge mit den korrespondierenden Zeichen der Zeichenfolgen, die durch ein Verfahren nach dem zweiten Aspekt der Erfindung gebildet wurden, übereinstimmen.
  • Das Verfahren kann umfassen, mindestens eine weitere Regionszeichenfolge aus der mindestens einen erzeugten Regionszeichenfolge zu erzeugen, indem mindestens eines der Zeichen zu einem Zeichen geändert wird, das mit einem Band assoziiert ist, das an das Band angrenzt, in das die korrespondierende quantifizierte Eigenschaft fällt, und die mindestens eine weitere Regionszeichenfolge mit den Zeichenfolgen verglichen wird, die durch ein Verfahren nach dem zweiten Aspekt der Erfindung gebildet wurden.
  • Nach einem vierten Aspekt der Erfindung wird ein Verfahren zum Organisieren einer Pluralität von Bildern bereitgestellt, umfassend die Klassifizierung der Bilder durch ein Verfahren nach dem zweiten Aspekt der Erfindung und die Anordnung der Bilder gemäß den damit assoziierten Regionszeichenfolgen.
  • Bilder, deren Regionszeichenfolgen am nächsten übereinstimmen, können aneinander angrenzend angeordnet werden.
  • Nach einem fünften Aspekt der Erfindung wird eine Vorrichtung zum Ausführen eines Verfahrens nach dem ersten, zweiten, dritten oder vierten Aspekt der Erfindung bereitgestellt.
  • Die Vorrichtung kann einen programmierten Computer umfassen.
  • Nach einem sechsten Aspekt der Erfindung wird ein Programm zum Steuern eines Computers einer derartigen Vorrichtung bereitgestellt.
  • Nach einem siebten Aspekt der Erfindung wird ein Medium bereitgestellt, das ein Programm nach dem fünften Aspekt der Erfindung enthält.
  • Eine Ausführungsform des fünften Aspekts der Erfindung stellt eine Vorrichtung zum Klassifizieren eines Bilds bereit, umfassend:
    Mittel zum Segmentieren des Bilds in eine Pluralität von Regionen;
    Mittel zum Quantifizieren jeder einer Pluralität von visuellen Eigenschaften der mindestens einen der Regionen auf einer numerischen Skala für die Eigenschaft;
    Mittel zum Vergleichen jeder quantifizierten Eigenschaft mit einer Pluralität von Bändern der numerischen Skala für die Eigenschaft, wobei jedes Band mit einem Computer-lesbaren Zeichen assoziiert ist; und
    Mittel zum Anordnen der Zeichen, die mit den Bändern assoziiert sind, in die die quantifizierten Eigenschaften fallen, in einer vorbestimmten Reihenfolge, um eine Regionszeichenfolge zu bilden.
  • Es ist daher möglich, Techniken zum Klassifizieren von Bildern in einer Weise bereitzustellen, die effektives Suchen und Wiederauffinden von Bildern gestattet. Durch Verwendung von computerlesbaren Zeichen, die in Folgen angeordnet sind, um die kohärenten Regionen von jedem Bild zu klassifizieren, können textbasierte Informationswiederauffindungssysteme für Bildwiederauffindung verwendet werden. Derartige Systeme ermöglichen effizientes Wiederauffinden von Bildern auf der Basis des Bildinhalts. Ein anderer Vorteil dieser Technik ist, dass sie gestattet, Beschreibungen des Bildinhalts in Dokumentenauszeichnungssprachen wie XML einzubetten.
  • Die Erfindung wird weiter als Beispiel beschrieben unter Bezugnahme auf die beigefügten Zeichnungen, von denen:
  • 1 ein schematisches Blockdiagramm eines Systems zum Klassifizieren von Bildern zeigt, das eine erste Ausführungsform der Erfindung darstellt;
  • 2 ein schematisches Blockdiagramm eines Systems zum Wiederauffinden von Bildern zeigt, das eine zweite Ausführungsform der Erfindung darstellt;
  • 3 eine Fotografie eines Bilds zeigt, das klassifiziert werden soll;
  • 4 Regionen darstellt, die aus der Segmentierung des Bilds von 3 resultieren;
  • 5 eine Fotografie eines anderen Bilds zeigt, das klassifiziert werden soll;
  • 6 Regionen darstellt, die aus der Segmentierung des Bilds von 5 resultieren;
  • 7 eine Fotografie eines Bilds für Eingabe in das in 2 dargestellte Wiederauffindungssystem zeigt;
  • 8 Regionen darstellt, die aus der Segmentierung des Bilds von 7 resultieren; und
  • 9 ein schematisches Blockdiagramm einer Vorrichtung zur Ausführung der Systeme von 1 und 2 zeigt.
  • 1 zeigt ein System zum Klassifizieren von Bildern, die in einer Bildbibliothek 1 enthalten sind. Die Bildbibliothek 1 enthält eine Pluralität von Bildern in computerlesbarer Form, beispielsweise digital codiert und gespeichert auf einem geeigneten Speichermedium wie CD-ROM oder zugänglich über beispielsweise das Internet aus einem entfernten Speicher. Obwohl es möglich ist, individuelle Bilder in Echtzeit zu klassifizieren, die beispielsweise von einer Digitalkamera aufgezeichnet wurden, ist es im Allgemeinen vorzuziehen, dass Bilder nach der Aufzeichnung gespeichert und dann dem System für Klassifizierung präsentiert werden.
  • Die Bilder werden einzeln einem Bildsegmentierer 2 zugeführt, der das Bild in eine Pluralität von kohärenten Regionen segmentiert. In diesem Kontext ist eine kohärente Region ein Bereich des Bilds von im Allgemeinen einheitlicher Farbe und/oder Textur, dessen Grenzen vorkommen, wo eine signifikante Änderung in der Farbe und/oder Textur ist. Die für die Bildsegmentierung verwendete tatsächliche Technik ist nicht wichtig, sollte aber derart sein, dass sie eine Segmentierung guter Qualität liefert. Beispielsweise gibt es verschiedene bekannte Techniken zum Segmentieren von Bildern, und eine derartige Technik nutzt Farbkantenerkennung und Voronoi-geimpftes Regionenwachstum, beispielsweise wie offenbart in Sinclair, D.: „Voronoi seeded colow image segmentation", Technical Report 1999.3, AT&T Labaratories Cambridge, http://www.uk.research.att.com/abstracts.html, und in Sinclair, D. und Wood, K.R.: „Colour edge detection and Voronoi-seeded segmentation for region-based image retrieval", eingereicht bei der International Conference on Computer Vision (ICCV99), S. 8, 1999, und in den Verweisen, auf die in diesem Papier verwiesen wird.
  • Der Bildsegmentierer 2 führt jede Region einem Regionsanalysator 3 zur Analyse zu. Der Regionsanalysator 3 analysiert jede Region nacheinander in Bezug auf Farbverteilung, Texturmuster und Form. Zum Beispiel kann die Farbverteilung analysiert werden, um die mittlere Farbe der Region und die Farbkovarianz zu beurteilen, und ein Farbhistogramm kann gebildet werden. Die Formanalyse kann enthalten, die Umrandungsform zu analysieren, die absolute Größe der Region zu bestimmen, die Größe der Region relativ zu der Größe des gesamten Bilds und die Position der Region relativ zu der Umrandung des Bilds zu bestimmen. Ein Beispiel einer Technik, die als oder als Bestandteil einer derartigen Formanalyse verwendet werden kann, beinhaltet Berechnung der lokalen Krümmung und der Breite der zu der lokalen Krümmung senkrechten Region für jedes Bildelement (Pixel) auf der Umrandung der einzelnen Regionen. Die Menge der Paare von Krümmung zu Breite bildet eine Repräsentation der Regionsform, und diese Daten können geclustert oder in ein Histogramm geladen werden. Es kann jedoch jede geeignete Technik verwendet werden, und andere Beispiele sind offenbart in:
    A. Ashbrook, N. Thacker und P. Rockett: „Pairwise geometric histograms: A scaleable solution for the recognition of 2d rigid shape", Technical Report 94/30, Sheffield University, Electronic Systems Group, 1994; I. Biedermann: „Matching Image edges to object memory", Int. Conf. on Computer vision, S. 384-392, 1987; D. Forsyth, J. Malik, M. Fleck und J. Ponce: „Primitives, perceptual organisation and object recognition", Technical Report http://IITTP.CS.Berkeley.EDU/daf/vrll.ps.Z, University of California, Berkeley, Computer Science Division, 1997; B. Huet und E. Hancock: „Fuzzy relational distance for largescale object recognition", Proc. Conf. Computer Vision and Pattern Recognition, S. 138-143, 1998; R. Rangayyan, M. El-Faramawy, J. Desautels und O. Alim: „Measure of acutance and shape for classification of breast tumours", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16:799-810, 1997; E. Rivlin, S. Dickinson und A. Rosenfeld: „Recognition by functional parts", Proc. Conf. Computer Vision and Pattern Recognition, S. 267-274, 1994; C.A. Rothwell, A.P. Zisserman, J.L. Mundy und D.A. Forsyth: „Efficient model library access by projectively invariant indexing functions", Proc. Conf. on Computer Vision and Pattern Recognition, 1992; H. Tek, P. Stoll und B. Kimia: „Shocks from images: propagation of orientation elements", Proc. Conf. Computer Vision and Pattern Recognition, S. 839-845, 1997; und S. Sclaroff und A. Pentland: „Modal matching for correspondence and recognition", IEEE Trans. Pattern Analysis Mach. Intell. 17, S. 545-561 (1995).
  • Beispiele der Texturanalyse sind offenbart in S. Zhu, Y. Wu und D. Mumford: „Minimax entropy principle and its application to texture modelling", Neural Computation, Ausg. 9, S. 1627-1660, 1997, und T. Hofmann, J. Puzicha und J. Buhman: „Unsupervised texture segmentation in a deterministic annealing framework", IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(8), S. 803-818, 1998.
  • Für mindestens einige der Regionseigenschaften, die von dem Analysator 3 analysiert werden, kann die Eigenschaft irgendeinen numerischen Wert innerhalb eines Bereichs von möglichen Werten haben. Der Wertebereich jeder derartigen Eigenschaft ist in aneinandergrenzende Bänder oder Unterbereiche unterteilt, und jedem derartigen Band ist ein computerdarstellbares oder computerlesbares Zeichen zugeordnet. Der Regionsanalysator 3 weist dann für jede Region von jedem Bild ein Zeichen für das Band zu, in das der Wert von jedem seiner Eigenschaften fällt. Ein Zeichenfolgen-Assemblierer 5 empfängt die Zeichen für jede Region von jedem Bild und fügt sie in einer vorbestimmten Reihenfolge zusammen, die mit einer vorbestimmten Reihenfolge der Eigenschaften korrespondiert, um eine Regionszeichenfolge zu bilden, die das Erscheinungsbild der kohärenten Region repräsentiert. Beispielsweise können die computerlesbaren Zeichen Buchstaben des Alphabets sein, wie die Kleinbuchstaben. Ein Beispiel von visuellen Eigenschaften, Buchstabenbereichen und Maßstäben zur Abbildung von Regionseigenschaften auf Buchstaben ist wie folgt:
    Figure 00060001
  • Beispielsweise kann eine große grüne unscharfe Region eines Bilds, vielleicht ein Bild eines Wollpullovers, bei dieser Abbildung durch eine Regionszeichenfolge „rafambc" repräsentiert werden. Jede kohärente Region des gegenwärtig segmentierten Bilds wird in dieser Weise analysiert, und ihr wird eine Regionszeichenfolge oder ein „Regionswort" zugeordnet. Jedes Regionswort kann dann in eine Dokumentenauszeichnungssprache, beispielsweise XLM, eingebettet werden, um eine XML-ähnliche Regionswortdatei, die ein Tag pro Region enthält, der Form: <RW id=7 x=173 y=55>rafambc</RW>zu bilden, wobei RW für Regionswort steht, id ein Identifizierer des Bilds ist (in diesem Fall Bild Nummer 7), x und y die Position des Mittelpunkts der Region repräsentieren (beispielsweise relativ zu einem Ursprung an der unteren linken Ecke des Bilds und in der Form der Zahl der Pixel horizontal und vertikal vom Ursprung) und die Regionszeichenfolge oder das Wort „rafambc" ist.
  • Die von dem Regionsanalysator 3 durchgeführte Analyse wird auch einem oder mehr neuronalen Netzen zugeführt, die allgemein mit 6 gekennzeichnet sind. Zumindest einige der analysierten Regionsdaten werden als Eingaben für das oder jedes neuronale Netz verwendet, das geschult ist, eine gewöhnliche Substanz zu erkennen. Beispielsweise können jeweilige neuronale Netze geschult werden, um gewöhnliche Substanzen wie Himmel, Haut, Gras, Bäume, Wasser usw. zu erkennen. In diesem Kontext ist der Begriff „Substanz" nicht beschränkt auf ein einzelnes Material, sondern umfasst jede Region, die eine visuell erkennbare Zusammensetzung einer oder mehr Materialarten oder Grundsubstanzen umfasst, wobei es innerhalb der Zusammensetzung eine signifikante Abweichung im visuellen Erscheinungsbild oder in der parametrischen Beschreibung, die von einer Segmentierungsroutine geliefert wird, geben kann.
  • Wenn das neuronale Netz oder eines der neuronalen Netze oberhalb einer vorbestimmten Schwelle reagiert, wird für die Region, die gegenwärtig analysiert wird, ein semantisches Regionswort wie „Himmel" oder „Haut" korrespondierend mit den obigen Beispielen erzeugt. Diese Regionswörter beschreiben den Inhalt der Region und können Wörter einer natürlichen Sprache sein, wie in diesem Beispiel. Wenn das neuronale Netz 6 oder eines der neuronalen Netze 6 in dieser Weise reagiert, kann das resultierende semantische Regionswort anstelle der oder zusätzlich zu der von dem Assemblierer 5 bereitgestellten Regionszeichenfolge verwendet werden.
  • Der Zeichenfolgen-Assemblierer 5 und das neuronale Netz oder die neuronalen Netze 6 erzeugen eine Liste von Regionszeichenfolgen oder Wörtern, die den visuellen Inhalt von jedem Bild in der Bildbibliothek 1 repräsentieren. Die Liste der Zeichenfolgen wird einem Textindexierer 7 zugeführt, der die Zeichenfolgen indexiert, beispielsweise unter der Verwendung von standardmäßigen Textindexierungstechniken wie diejenigen, die in Wortsuchmaschinen verwendet werden, für die AltaVista (http://www.altavista.com) und Google (http://www.google.com) Beispiele sind. Andere geeignete Techniken sind offenbart in S. E. Robertson und K. Sparck Jones: „Simple, proven approaches to text retrieval", Technical Report 356, Cambridge University Computing Laboratory, 1997, und H. Turtle und W. B. Croft: „Evaluation of an interference network-based retrieval model", ACM Transactions in Information Systems, Ausg. 9, Nr. 3, S. 187-221, 1991. Der Textindexierer 7 bildet damit ein Verzeichnis 8 für alle Bilder in der Bibliothek 1, und das Verzeichnis kann auf der Basis eines Zielbilds, das unter Verwendung derselben Techniken analysiert wurde, oder auf der Basis von Zeichenfolgen, die in einer gewünschten Weise eingegeben wurden, durchsucht werden, beispielsweise unter Verwendung von standardmäßigen Textinformationswiederauffindungstechniken, wie hierin nachstehend beschrieben. Diese Möglichkeiten sind in 2 dargestellt.
  • Wenn die Bilder der Bibliothek 1 klassifiziert wurden, können sie gemäß den mit ihnen assoziierten Regionszeichenfolgen angeordnet werden. Diejenigen Bilder, deren Regionszeichenfolgen am besten übereinstimmen, können, zumindest fiktiv, angrenzend aneinander angeordnet werden. Beispielsweise können die Bilder in Übereinstimmung mit den assoziierten Regionszeichenfolgen so umgeordnet werden, dass Bilder mit ähnlichem Inhalt nebeneinander sind. Damit werden Bilder, die einander visuell ähnlich sind, angrenzend aneinander angeordnet.
  • Die in 2 dargestellte Bildwiederauffindungstechnik nutzt mehrere der in 1 dargestellten Komponenten, auf die mit denselben Bezugsnummern Bezug genommen wird. Wenn daher gewünscht wird, Bilder zu finden, die einen ähnlichen Inhalt wie ein Zielbild 10 haben, wird das Zielbild dem Bildsegmentierer 2 zugeführt, der das Bild segmentiert, wie vorher hierin beschrieben. Der Regionsanalysator 3, der Eigenschaftenkomparator 4, der Zeichenfolgen-Assemblierer 5 und das neuronale Netz oder die neuronalen Netze 6 operieren an dem segmentierten Zielbild, wie hierin vorher beschrieben, so dass jedem der von dem Segmentierer 2 segmentierten kohärenten Regionen eine Zeichenfolge zugeordnet wird, die seinen visuellen Inhalt repräsentiert. Die Zeichenfolge kann die sein, die von dem Eigenschaftenkomparator 4 und dem Zeichenfolgen-Assemblierer 5 zugeordnet wurde, ein von einem der neuronalen Netze 6 erzeugtes Regionswort oder beide.
  • Alternativ oder zusätzlich können Zeichenfolgen mittels einer Eingabevorrichtung 13 eingegeben werden, um die Basis einer alternativen oder zusätzlichen Suche zu bilden. Beispielsweise können die Regionswörter „Sonne", „Himmel" und „Sand" manuell eingegeben werden, um nach Bildern mit Strandszenen zu suchen und diese wiederaufzufinden.
  • Der Eigenschaftenkomparator 4 liefert die Zeichen zum Bilden der Regionszeichenfolgen an den Zeichenfolgen-Assemblierer 5 über einen Modifizierer 11. Der Modifizierer 11 übergibt die von dem Eigenschaftenkomparator 4 zugeordneten Zeichen an den Zeichenfolgen-Assemblierer 5 und modifiziert außerdem selektiv einige der Zeichen in Übereinstimmung mit vorbestimmten Regeln, um das Suchfeld für ähnliche Bilder zu erweitern. Beispielsweise können einige Eigenschaften einer Region variiert werden, um das Suchfeld auf Bilder zu erweitern, die beispielsweise verschiedene Maßstäbe aufweisen, wenn es gewünscht wird, Bilder wiederaufzufinden, die einen ähnlichen Inhalt haben, aber in denen die Merkmale des Bilds größer oder kleiner als in dem Zielbild sind, eine verschiedene Farbe haben usw. Daher kann der Modifizierer 11 zusätzliche Zeichenfolgen erzeugen, in denen beispielsweise das Zeichen, das die Regionsgröße repräsentiert, geändert wird, um das nächst größere und/oder nächst kleinere Band von möglichen Größen zu repräsentieren. Ähnliche Variationen oder „Verschmierung" kann für andere Regionseigenschaften wie Farbe wünschenswert sein, wie oben erwähnt. Der Zeichenfolgen-Assemblierer 5 fügt die nicht modifizierten Zeichen zu einer Regionszeichenfolge zusammen und fügt außerdem die modifizierten Zeichen zu weiteren Regionszeichenfolgen zur Verwendung beim Suchen und Wiederauffinden zusammen.
  • Sämtliche der Regionszeichenfolgen werden einer Suchmaschine 12 zugeführt, die das Verzeichnis 8 auf Übereinstimmungen mit den aus dem Zielbild 10 gebildeten Regionszeichenfolgen durchsucht. Die Suchstrategie umfasst oder basiert auf konventionelle(n) Textwiederauffindungstechniken und die Suchmaschine 12 bestimmt die Identitäten von Bildern in der Bildbibliothek 1, bei denen mindestens eines der Zielbild-Regionszeichenfolgen mit einer Regionszeichenfolge des Bilds in der Bibliothek übereinstimmt. Das Bild und Einzelheiten der Übereinstimmungen, die gefunden wurden, werden einem Priorisierer 14 zugeführt, der die Bilder aus der Bibliothek, wenn mehr als eines gefunden wurde, entsprechend der Wahrscheinlichkeit einer Übereinstimmung mit dem Zielbild anordnet. Beispielsweise kann der Priorisierer 14 dem wiederaufgefundenen Bild eine Priorität basierend auf der Zahl der Zielbild-Regionszeichenfolgen, die mit Regionszeichenfolgen des wiederaufgefundenen Bilds übereinstimmen, zuschreiben. Die wiederaufgefundenen Bilder können dann in der Reihenfolge der Priorität einer Ausgabevorrichtung 15 zugeführt werden, die beispielsweise eine Anzeige oder einen Drucker umfassen kann.
  • Die von dem Priorisierer 14 durchgeführte Priorisierung kann auf anderen Faktoren oder Kombinationen von Faktoren basieren. Beispielsweise kann wiederaufgefundenen Bildern eine höhere Priorität gegeben werden, auf denen Regionen, deren Zeichenfolgen mit Zielbild-Regionszeichenfolgen übereinstimmen, sich in den gleichen relativen Positionen im Zielbild und im wiederaufgefundenen Bild befinden.
  • Zur Veranschaulichung der Operation des oben beschriebenen Bildklassifizierungs- und -wiederauffindungssystems wird ein vereinfachtes bestimmtes Beispiel beschrieben. 3 zeigt ein Bild in der Form einer Fotografie von roten und grünen Weintrauben für Klassifizierung nach dem in 1 dargestellten System. Das ursprüngliche Farbbild wurde in ein Monochrombild umgewandelt, um die Anforderungen an Patentzeichnungen zu erfüllen.
  • Das Bild in computerlesbarer Form wird aus der Bildbibliothek 1 dem Bildsegmentierer 2 zugeführt, der das Bild in kohärente Regionen segmentiert. Die Grenzen der kohärenten Regionen sind in Schwarz in 4 illustriert. In 4 sind die segmentierten Regionen mit der durchschnittlichen Graustufe der korrespondierenden Regionen in 3 ausgefüllt; für Farbbilder wird die durchschnittliche oder mittlere Farbe der Region zum Ausfüllen verwendet. In dem gegenwärtigen, stark vereinfachten Beispiel sind die Regionseigenschaften, die berücksichtigt werden, Helligkeit, Größe und Textur. In der Praxis würden jedoch weitere Eigenschaften der kohärenten Regionen analysiert und klassifiziert werden, wie vorher hierin erwähnt. Die numerischen Bereiche dieser drei Eigenschaften sind wie folgt:
    Figure 00090001
  • Die Zahl der Bänder für jede dieser Eigenschaften und die Zeichenabbildung in dem gegenwärtigen Fall sind wie folgt:
    Figure 00090002
  • In diesem Beispiel sind die Helligkeits- und Texturabbildungen im Wesentlichen linear, während die Größenabbildung im Wesentlichen logarithmisch ist. Es können jedoch andere Abbildungen verwendet werden.
  • Beispiele von kohärenten Regionen in 4 sind mit A und B gekennzeichnet. Der Regionsanalysator 3 analysiert die Eigenschaften der Region B und liefert Werte von 200 für die Helligkeit, 50000 Pixel für die Größe und einen Texturwert von 5. Der Eigenschaftenkomparator 4 vergleicht diese Werte mit den Bändern in der obigen Tabelle und schreibt die Zeichen „d", „b" und „a" der Helligkeit, der Größe bzw. der Textur zu. Der Zeichenfolgen-Assemblierer 5 fügt diese zusammen, um eine Regionszeichenfolge von „dba" für die Region B zu bilden. In diesem Fall wird angenommen, dass kein neuronales Netz zum Erkennen von Weintrauben geschult ist. Der Textindexierer 7 erzeugt einen Verzeichniseintrag in dem Verzeichnis 8 für die Region B basierend auf der Regionszeichenfolge, beispielsweise unter Verwendung des hierin vorher beschriebenen XML-ähnlichen Formats. Dies wird dann für sämtliche der anderen in 4 dargestellten kohärenten Regionen wiederholt.
  • In diesem spezifischen Beispiel wird dann die Bildwiederauffindung auf der Grundlage des in 5 dargestellten Zielbilds durchgeführt, das eine Fotografie von grünen Weintrauben, Käse und Keksen ist. Dieses Bild wird dem Bildsegmentierer 2 des in 2 dargestellten Wiederauffindungssystems zugeführt, der das Zielbild segmentiert, wie in 6 dargestellt. Wieder werden in 6 die Regionen mit der durchschnittlichen Graustufe der korrespondierenden Regionen des Zielbilds in 5 aufgefüllt. Der Regionsanalysator 3 analysiert die Eigenschaften jeder Region, beispielsweise beginnend mit der Region C in 6, und ermittelt, dass diese Region eine Helligkeit von 180, eine Größe von 30000 und eine Textur von 10 hat. Der Eigenschaftenkomparator 4 vergleicht diese Werte mit den Bändern in der obigen Tabelle und ermittelt, dass die Helligkeit mit dem Zeichen „d" korrespondiert, die Größe mit dem Zeichen „b" korrespondiert und die Textur mit dem Zeichen „a" korrespondiert. Diese Zeichen werden über dem Modifizierer 11 dem Zeichenfolgen-Assemblierer 5 zugeführt, der die Regionszeichenfolge „dba" erzeugt und diese der Suchmaschine 12 zuführt.
  • Die Suchmaschine 12 kann auf jede Regionszeichenfolge reagieren, sobald sie erzeugt ist, oder kann warten, bis sämtliche der Zeichenfolgen für das Zielbild 5 erzeugt wurden. In beiden Fällen wird dann das Verzeichnis 8 auf Übereinstimmungen durchsucht, und in diesem Fall wird eine Übereinstimmung zwischen einer Regionszeichenfolge für das Bild von 3 und der Regionszeichenfolge für das Bild von 5 gefunden. Das Bild von 5 wird aus der Bildbibliothek abgerufen und der Ausgabevorrichtung 15 zugeführt. Wenn Übereinstimmungen mit anderen Bildern gefunden werden, kann der resultierende Satz von Bildern durch den Priorisierer 14 priorisiert oder geordnet werden, beispielsweise danach, wie viele andere übereinstimmende Regionszeichenfolgen gefunden wurden, oder nach der relativen Lage von übereinstimmenden Regionen (oder nach einem anderen geeigneten Kriterium). Der Priorisierer 14 ordnet die Zuführung von Bildern aus der Bibliothek 1 zu der Ausgabevorrichtung 15 derart, dass er versucht, dass die ähnlichsten Bilder oben in einer Liste von wiederaufgefundenen Bildern erscheinen oder in der Reihenfolge des Rangs oder der Priorität von der Ausgabevorrichtung 15 angezeigt werden.
  • 7 zeigt ein anderes Zielbild, das eine Fotografie von grünen Weintrauben umfasst. Wenn dieses Zielbild dem in 2 dargestellten System zugeführt wird, wird es segmentiert, wie in 8 gezeigt, und der Regionsanalysator 3 ermittelt, dass die kohärente Region E eine Helligkeit von 200, eine Größe von 9000 und eine Textur von 3 hat. Der Eigenschaftenkomparator 4 ermittelt, dass die korrespondierenden Zeichen „d", „a" und „a" sind. Der Zeichenfolgen-Assemblierer 5 bildet daraus eine Regionszeichenfolge „daa" und führt diese der Suchmaschine 12 zu. Eine auf dieser Regionszeichenfolge basierende Suche würde daher keine Übereinstimmung mit der Region B des in 3 gezeigten Bilds finden. Der Modifizierer 11 ist jedoch in diesem Beispiel angeordnet, um das Zeichen, das die Größe repräsentiert, zu variieren, um zu versuchen, Übereinstimmungen mit ähnlichen Bildern von verschiedenen Maßstäben zu finden. Insbesondere führt der Modifizierer 11 in dem vorliegenden Fall auch das Zeichen b, das die Größe repräsentiert, dem Zeichenfolgen-Assemblierer 5 zu, der der Suchmaschine 12 zusätzlich die Regionszeichenfolge „dba" zuführt. Die resultierende Suche findet daher das Bild von 3 als eine Übereinstimmung mit dem Zielbild von 7 wieder auf.
  • 9 zeigt eine Computer-basierende Vorrichtung zur Ausführung der Bildklassifizierungs- und -wiederauffindungssysteme der 1 und 2. Die Vorrichtung umfasst eine Zentraleinheit (ZE), die mit der Eingabevorrichtung 13 und der Ausgabevorrichtung 15 verbunden ist. In dem Fall, dass die Bildbibliothek 1 entfernt ist, beispielsweise über das Internet zugänglich, empfängt die ZE 20 die Bilddaten über eine Eingabe-/Ausgabeschnittstelle 21 einer geeigneten Ausführung.
  • Ein Programm zur Steuerung der Operation der ZE zur Ausführung der Bildklassifizierung und -wiederauffindung, wie vorher hierin beschrieben, ist auf einem geeigneten Medium enthalten, wie ein Nur-Lese-Speicher ROM 22 und/oder eine CD-ROM 23. Wenn die Bildbibliothek lokal vorgesehen ist, kann sie gleichermaßen auf einer CD-ROM enthalten sein. Die ZE 20 ist mit „Arbeitsspeicher" versehen, dargestellt als Direktzugriffsspeicher RAM 24.
  • Das von dem Bildklassifizierungssystem gebildete Verzeichnis kann in jeder geeigneten Form gespeichert werden. Es kann beispielsweise in dem RAM 24 gespeichert werden, vorausgesetzt, dieses ist eine nichtflüchtige Ausführung. Als eine Alternative oder zusätzlich kann das Verzeichnis einem CD-Schreiber (CDR) 25 zugeführt werden, so dass das Verzeichnis auf einer CD-ROM gespeichert wird.
  • Während der Bildwiederauffindung kann das Zielbild über die Schnittstelle 21 zugeführt werden. Andere Regionszeichenfolgen können mittels der Eingabevorrichtung 13 eingegeben werden. In dem Fall einer entfernten Bildbibliothek 1 können Bilder über die Eingabe-/Ausgabeschnittstelle 21 wiederaufgefunden werden. In dem Fall einer lokal gespeicherten Bildbibliothek können die Bilder von der CD-ROM 23 wiederaufgefunden werden. Wiederaufgefundene Bilder können dann der Ausgabevorrichtung zugeführt werden, beispielsweise zur Anzeige auf einem Anzeigebildschirm oder zum Drucken, um einen Ausdruck bereitzustellen.

Claims (29)

  1. Verfahren zur Klassifizierung eines Bilds, umfassend die Schritte der Segmentierung (2) des Bilds in eine Pluralität von Regionen und für mindestens eine der Regionen: Quantifizieren (3) jeder einer Pluralität von visuellen Eigenschaften der Region auf einer numerischen Skala für die Eigenschaft; und charakterisiert durch Vergleichen (4) jeder quantifizierten Eigenschaft mit einer Pluralität von Bändern der numerischen Skala für die Eigenschaft, wobei jedes Band mit einem Computer-lesbaren Zeichen assoziiert ist; und Anordnen (5) in einer vorbestimmten Reihenfolge der Zeichen, die mit den Bändern assoziiert sind, in die die quantifizierten Eigenschaften fallen, um eine Regionszeichenfolge zu bilden.
  2. Verfahren nach Anspruch 1, in dem der Segmentierungsschritt Segmentierung des Bilds in eine Pluralität von kohärenten Regionen umfasst, wobei jede kohärente Region ein Bereich des Bilds von im Allgemeinen gleichförmiger Farbe und/oder Textur ist, dessen Grenzen vorkommen, wo eine signifikante Änderung in Farbe und/oder Textur auftritt.
  3. Verfahren nach Anspruch 1 oder 2, in dem die visuellen Eigenschaften Bereich enthalten.
  4. Verfahren nach Anspruch 3, in dem die numerische Skala für Bereich logarithmisch ist.
  5. Verfahren nach einem der vorstehenden Ansprüche, in dem die visuellen Eigenschaften mindestens eine Farbeigenschaft enthalten.
  6. Verfahren nach Anspruch 5, in dem die numerische Skala für die Farbeigenschaft linear ist.
  7. Verfahren nach einem der vorstehenden Ansprüche, in dem die visuellen Eigenschaften Helligkeit enthalten.
  8. Verfahren nach Anspruch 7, in dem die numerische Skala für Helligkeit linear ist.
  9. Verfahren nach einem der vorstehenden Ansprüche, in dem die visuellen Eigenschaften Form enthalten.
  10. Verfahren nach einem der vorstehenden Ansprüche, in dem die visuellen Eigenschaften Textur enthalten.
  11. Verfahren nach einem der vorstehenden Ansprüche, in dem jede Regionszeichenfolge zweidimensionale Koordinaten enthält, die die Position der korrespondierenden Region in dem Bild repräsentieren.
  12. Verfahren nach einem der vorstehenden Ansprüche, umfassend die Zuführung von mindestens einer der quantifizierten Eigenschaften an mindestens ein neuronales Netz, das geschult ist, mindestens eine Substanz zu erkennen und, als Reaktion auf die Erkennung durch das neuronale Netz, eine andere Regionszeichenfolge zu bilden.
  13. Verfahren nach Anspruch 12, in dem die andere Regionszeichenfolge die mindestens eine Substanz beschreibt.
  14. Verfahren nach Anspruch 13, in dem die andere Regionszeichenfolge ein semantisches Wort ist.
  15. Verfahren nach einem der vorstehenden Ansprüche, umfassend die Assoziierung der Regionszeichenfolgen mit dem Bild.
  16. Verfahren nach einem der vorstehenden Ansprüche, in dem die Regionszeichenfolge in einer Auszeichnungssprache eingebettet ist.
  17. Verfahren zur Klassifizierung einer Pluralität von Bildern, umfassend die Klassifizierung jedes der Bilder durch ein Verfahren nach einem der vorstehenden Ansprüche.
  18. Verfahren nach Anspruch 17, umfassend die Bildung eines Verzeichnisses der Bilder durch die Regionszeichenfolgen.
  19. Verfahren zur Bildwiederauffindung, umfassend die Erzeugung von mindestens einer Regionszeichenfolge und die Vergleichung der mindestens einen Regionszeichenfolge mit den Zeichenfolgen, die durch ein Verfahren nach Anspruch 17 oder 18 gebildet wurden.
  20. Verfahren nach Anspruch 19, in dem der Vergleich durch ein Textwiederauffindungssystem durchgeführt wird.
  21. Verfahren nach Anspruch 19 oder 20, in dem die mindestens eine Regionszeichenfolge durch ein Verfahren nach einem der Ansprüche 1 bis 16 erzeugt wird.
  22. Verfahren nach einem der Ansprüche 19 bis 21, in dem eine Übereinstimmung angezeigt wird, wenn mindestens einige der Zeichen der mindestens einen erzeugten Zeichenfolge mit den korrespondierenden Zeichen der Zeichenfolgen, die durch das Verfahren nach Anspruch 17 oder 18 gebildet wurden, übereinstimmen.
  23. Verfahren nach einem der Ansprüche 19 bis 22, umfassend die Erzeugung von mindestens einer weiteren Regionszeichenfolge aus der mindestens einen erzeugten Regionszeichenfolge, indem mindestens eines der Zeichen zu einem Zeichen geändert wird, das mit einem Band assoziiert ist, das an das Band angrenzt, in das die korrespondierende quantifizierte Eigenschaft fällt, und die Vergleichung der mindestens einen weiteren Regionszeichenfolge mit den Zeichenfolgen, die durch ein Verfahren nach Anspruch 17 oder 18 gebildet wurden.
  24. Verfahren zum Organisieren einer Pluralität von Bildern, umfassend die Klassifizierung der Bilder durch ein Verfahren nach Anspruch 17 oder 18 und die Anordnung der Bilder gemäß den damit assoziierten Regionszeichenfolgen.
  25. Verfahren nach Anspruch 25, in dem Bilder, deren Regionszeichenfolgen am nächsten übereinstimmen, aneinander angrenzend angeordnet werden.
  26. Vorrichtung, umfassend Mittel zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 25.
  27. Vorrichtung nach Anspruch 26, umfassend einen programmierten Computer.
  28. Computerprogramm zum Steuern eines Computers, um ein Verfahren nach einem der Ansprüche 1 bis 25 auszuführen.
  29. Computer-lesbares Medium, das ein Computerprogramm, wie in Anspruch 28 beschrieben, enthält.
DE60033580T 1999-11-16 2000-11-13 Verfahren und gerät zur klassifizierung eines bildes Expired - Lifetime DE60033580T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16568199P 1999-11-16 1999-11-16
US165681P 1999-11-16
PCT/GB2000/004319 WO2001037131A2 (en) 1999-11-16 2000-11-13 Method of and apparatus for classifying an image

Publications (2)

Publication Number Publication Date
DE60033580D1 DE60033580D1 (de) 2007-04-05
DE60033580T2 true DE60033580T2 (de) 2007-11-08

Family

ID=22599984

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60033580T Expired - Lifetime DE60033580T2 (de) 1999-11-16 2000-11-13 Verfahren und gerät zur klassifizierung eines bildes

Country Status (6)

Country Link
US (3) US7239746B1 (de)
EP (1) EP1402403B1 (de)
AT (1) ATE354832T1 (de)
AU (1) AU1401401A (de)
DE (1) DE60033580T2 (de)
WO (1) WO2001037131A2 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001037131A2 (en) * 1999-11-16 2001-05-25 At & T Laboratories-Cambridge Limited Method of and apparatus for classifying an image
DE10163469A1 (de) * 2001-12-21 2003-03-20 Siemens Ag Zugriffsystem für diagnostische Bilder
DE10258033A1 (de) * 2002-12-12 2004-06-24 Deutsche Telekom Ag Objekt-Sprachdatenbank
ITMI20031449A1 (it) * 2003-07-15 2005-01-16 St Microelectronics Srl Metodo per classificare una immagine digitale
EP1542150B1 (de) * 2003-12-09 2009-12-09 Mitsubishi Electric Information Technology Centre Europe B.V. Verfahren und Vorrichtung zum Trennen von Inhalten in Bildern
US7831599B2 (en) 2005-03-04 2010-11-09 Eastman Kodak Company Addition of new images to an image database by clustering according to date/time and image content and representative image comparison
FR2887987B1 (fr) * 2005-06-30 2008-01-25 Sferis Sarl Procede et dispositif d'analyse de baies
JP2007094679A (ja) * 2005-09-28 2007-04-12 Fujifilm Corp 画像分析装置、画像分析プログラム、および画像分析プログラム記憶媒体
JP4542013B2 (ja) * 2005-09-29 2010-09-08 富士フイルム株式会社 プリント注文システム、プログラム、プログラム記憶媒体、およびプリント注文サーバ
US8200025B2 (en) * 2007-12-07 2012-06-12 University Of Ottawa Image classification and search
US8611677B2 (en) 2008-11-19 2013-12-17 Intellectual Ventures Fund 83 Llc Method for event-based semantic classification
WO2013065220A1 (ja) * 2011-11-02 2013-05-10 パナソニック株式会社 画像認識装置、画像認識方法、及び集積回路
US9465995B2 (en) * 2013-10-23 2016-10-11 Gracenote, Inc. Identifying video content via color-based fingerprint matching
WO2017129804A1 (en) * 2016-01-29 2017-08-03 Kiwisecurity Software Gmbh Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras
CN112163121B (zh) * 2020-11-03 2021-03-23 万得信息技术股份有限公司 一种基于大数据的视频内容信息智能分析处理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579471A (en) * 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US6173275B1 (en) * 1993-09-20 2001-01-09 Hnc Software, Inc. Representation and retrieval of images using context vectors derived from image information elements
JP3340532B2 (ja) * 1993-10-20 2002-11-05 株式会社日立製作所 ビデオの検索方法および装置
US5913205A (en) * 1996-03-29 1999-06-15 Virage, Inc. Query optimization for visual information retrieval system
AUPO525497A0 (en) * 1997-02-21 1997-03-20 Mills, Dudley John Network-based classified information systems
US6253201B1 (en) * 1998-06-23 2001-06-26 Philips Electronics North America Corporation Scalable solution for image retrieval
US6345279B1 (en) * 1999-04-23 2002-02-05 International Business Machines Corporation Methods and apparatus for adapting multimedia content for client devices
WO2001037131A2 (en) * 1999-11-16 2001-05-25 At & T Laboratories-Cambridge Limited Method of and apparatus for classifying an image

Also Published As

Publication number Publication date
US7545980B2 (en) 2009-06-09
EP1402403B1 (de) 2007-02-21
AU1401401A (en) 2001-05-30
US7239746B1 (en) 2007-07-03
US7778462B2 (en) 2010-08-17
ATE354832T1 (de) 2007-03-15
WO2001037131A2 (en) 2001-05-25
US20070230801A1 (en) 2007-10-04
DE60033580D1 (de) 2007-04-05
EP1402403A2 (de) 2004-03-31
WO2001037131A3 (en) 2003-12-24
US20090214124A1 (en) 2009-08-27

Similar Documents

Publication Publication Date Title
US7545980B2 (en) Method of and apparatus for classifying an image
DE60215063T2 (de) System und verfahren zur ermittlung von bildähnlichkeiten
DE60317053T2 (de) Verfahren und Vorrichtung zur Darstellung einer Bildgruppe
DE10308014B4 (de) System und Verfahren zum Lokalisieren eines nichttextlichen Bereichs eines elektronischen Dokumentes oder Bildes, der mit einer benutzerdefinierten Beschreibung des Bereichs übereinstimmt
DE60129872T2 (de) Verfahren zur Extrahierung von Titeln aus numerischen Bildern
DE19708265B4 (de) Verfahren zum Durchsuchen einer Dokument-Bilddatenbank und Dokumentbild-Durchstöberungssystem sowie Verfahren zum Extrahieren eines Merkmalsvektors aus einem elektronisch gespeicherten Bild
DE60037919T2 (de) Verfahren zum Wiederauffinden von Bildtexturen und Vorrichtung dafür
DE102011003201A1 (de) System für kreative Bildnavigation und Untersuchung
DE102019000675A1 (de) Nutzen eines modells auf der basis eines tiefen neuronalen netzwerks zum identifizieren von visuell ähnlichen digitalen bildern auf der basis von nutzer-ausgewählten visuellen eigenschaften
DE60109278T2 (de) Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera
DE19983528B3 (de) Multi-Linearisierungs-Datenstruktur zum Bild-Browsing
DE10297802B4 (de) Verfahren, Speichermedium und System zum Suchen einer Sammlung von Medienobjekten
DE112008003972T5 (de) Automatische Erzeugung einer skalierbaren, nach Relevanz geordneten Darstellung einer Bildsammlung
DE112007001775T5 (de) Bildverwaltungsverfahren, Bildverwaltungssysteme und Herstellungsartikel
DE10317917A1 (de) System und Verfahren zum Umgrenzen und Klassifizieren von Regionen innerhalb einer graphischen Abbildung
DE60303138T2 (de) Vergleichen von mustern
DE102018003475A1 (de) Formbasierte Grafiksuche
DE102021004260A1 (de) Textuelles Bearbeiten von digitalen Bildern
CN106126585A (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
DE60217748T2 (de) Verfahren und Gerät zur Anzeige eines Bildraumes
DE102005049017B4 (de) Verfahren zur Segmentierung in einem n-dimensionalen Merkmalsraum und Verfahren zur Klassifikation auf Grundlage von geometrischen Eigenschaften segmentierter Objekte in einem n-dimensionalen Datenraum
DE112019004112T5 (de) System und verfahren zur analyse mikroskopischer bilddaten und zur erzeugung eines annotierten datensatzes zum training der klassifikatoren
Ali et al. Human-inspired features for natural scene classification
CN110162654A (zh) 一种基于融合特征与检索结果优化的现勘图像检索算法
Chen The image retrieval algorithm based on color feature

Legal Events

Date Code Title Description
8364 No opposition during term of opposition