-
GEBIET DER
ERFINDUNG
-
Die
vorliegende Erfindung betrifft die Verwendung eines Indexes zum
Archivieren und Abrufen von Informationen in einem Computer. Bei
den Informationen handelt es sich um Multimediaobjekte wie zum Beispiel
Videoclips und Audiosegmente.
-
HINTERGRUND
DER ERFINDUNG
-
In
der Computertechnik sind viele Verfahren bekannt, mit denen Textausdrücke (Wörter und
Sätze)
in natürlicher
Sprache archiviert und wieder abgerufen werden können. Diese Verfahren verwenden
in erster Linie Schlüsselwörter als
Indizes zum Archivieren und Abrufen dieser Textausdrücke. Viele
Objekte, insbesondere Multimediaobjekte (Bilder und Töne) lassen
sich jedoch nicht einfach durch Schlüsselwortindizes beschreiben.
Oft müssen
solche Multimediainformationen wie zum Beispiel das Geräusch eines bellenden
Hundes, in bestimmten Bildern gezeigte Darstellungen oder die Tanzschritte
durch ausdrucksstärkere
Indizes beschrieben werden als dies mit Schlüsselwörtern nach dem Stand der Technik möglich ist.
Es hat sich gezeigt, dass Schlüsselwortindizes
keine hinreichende Beschreibung liefern können, da sie nicht so einfach
in der Lage sind, den Unterschied zwischen einem Gegenstand und
einer Handlung zu kennzeichnen oder zu beschreiben, welche Person
eine bestimmte Handlung ausführt bzw.
mit welchem Objekt sie diese Handlung ausführt. Durch diese und andere
Mängel
der Schlüsselwörter kommt
es zu Mehrdeutigkeiten, wenn man zum Kennzeichnen und Katalogisieren
der Informationen Schlüsselwörter verwendet.
-
Den
Schlüsselwortindizes
nach dem Stand der Technik fehlt die grammatikalische Struktur, durch
die sie Objekte besser beschreiben können. Sätze aus Schlüsselwörtern sind
unstrukturiert, da den Wörtern
in diesen Sätzen
zweierlei fehlt: 1. eine Funktion und 2. Beziehung (Zuordnung).
Bei einer natürlichen
Sprache (d. h. bei von Menschen gesprochenen Sprachen) werden die
Funktion und die Beziehungen der Wörter durch die Grammatik der
Sprache (Grammatikregeln) festgelegt. Beispielsweise hat in dem
Satz „a
man will fall into the pool" (Ein Mann
wird in das Becken fallen) in der natürlichen englischen Sprache
jedes Wort eine Funktion und eine Beziehung zu den anderen Wörtern des
Satzes, die durch die englische Grammatik festgelegt sind. Entsprechend
ihrer Funktion sind die Wörter „Mann" und „Becken" Substantive und „fallen" ein Verb. Die Beziehungen
bestehen zum einen syntaktisch, da „Mann" das Satzsubjekt ist, und zum anderen
semantisch, da er Gegenstand einer Handlung ist; „fallen" ist das die Handlung
beschreibende Prädikat und „Becken" entsprechend der
englischen Syntax das lokale Objekt des Satzes, welches den Handlungsort
beschreibt. Oft ist das Satzobjekt das Ziel der Handlung des Handelnden
und das Satzsubjekt der Handelnde selbst; zum Beispiel „the woman
pushed the ball" (die
Frau trat gegen den Ball). Das Wort „Handelnder" dient zur Beschreibung
des typischen Subjekts; das heißt,
dass Subjekte, wenn nichts anderes bestimmt ist, grundsätzlich zunächst als
Handelnde angesehen werden. Eine strikte Unterscheidung zwischen
Handlungssubjekt und Themensubjekt wird nicht getroffen, da dies
die Logik der Betrachtung nicht beeinflussen würde. Desgleichen wird das Wort „Objekt" für verschiedene
syntaktische Funktionen wie das direkte Objekt, das präpositionale
Objekt und das indirekte Objekt verwendet. Man beachte, dass bei
diesem Satzglied mehrere Einfügungen
möglich
sind, wenn es mehr als ein Objekt gibt, wie zum Beispiel in „The child
dropped the ball into the pool",
(Das Kind warf den Ball in das Becken) wo „Ball" das direkte Objekt und „in das
Becken" das lokale
Objekt der Handlung ist. (Bei allen im Folgenden angeführten Beispielen
werden nur einfache Einfügungen
verwendet.) In natürlichen
Sprachen werden unterschiedliche Grammatikregeln verwendet, um die
Bedeutung der Wörter
zu verändern.
Dazu gehören:
Definieren von Teilen der gesprochenen Rede, Ändern der Reihenfolge der Wörter im
Satz und Verwendung von Präfixen
oder Endungen usw. Da Schlüsselwörter auch
in Sätzen
diesen Grammatikregeln nicht unterliegen, können sie weniger deskriptiv
und daher mehrdeutig sein. Wenn man beispielsweise den Satz „man will
fall into the pool" in
die einzelnen Wörter
aufgliedert, hat das englische Schlüsselwort „fall" keine Funktion (es könnte ein Verb
oder ein Substantiv sein) und kann daher mehrdeutig als „hinunterfallen" oder als „Jahreszeit" (Herbst) interpretiert
werden. Außerdem
liefert das Aufgliedern des Schlüsselwortsatzes „cat eats mouse" (Katze frisst Maus)
in „Katze", „frisst" und „Maus" eine Folge von Schlüsselwörtern ohne
Zuordnung liefern. Da man nicht sagen kann, welches Wort das Subjekt
und welches das Objekt ist, wird die Interpretation mehrdeutig.
Der Satz kann bedeuten: „cat
eats mouse", „mouse
eats cat" oder „cat and mouse
eats".
-
Die
Verhältnisse
werden noch komplizierter, wenn Synonyme, Hypernyme (Wörter mit
einer umfassenderen Bedeutung, welche das Schlüsselwort beinhalten), Hyponyme
(Wörter
innerhalb des Bedeutungsumfangs des Schlüsselwortes) von Schlüsselwörtern verwendet
werden, um die Schlüsselwortsuche
zum Abrufen von Daten zu erweitern. Das ist bei Informationsabfragesystemen
des öfteren
notwendig, da Benutzer oft nur geringfügig voneinander abweichende
Wörter
verwenden, die man durch direkten Vergleich nicht findet.
-
Zum
Beispiel würde
ein Synonym (Hypernym) des englischen Wortes „fall" wie Herbst (Jahreszeit) zu falschen
Ergebnissen führen,
wenn man eine Datenbank nach der Übereinstimmung mit dem Wort „fall" durchsucht, das
eigentlich „hinunterfallen" bedeutet.
-
Die
Verwendung von Beschreibungsdaten auf Grundlage der natürlichen
Sprache zum Indexieren und Abrufen von Multimediaobjekten ist in
der Technik bekannt und zum Beispiel von Y. Y. Lum in „An Architecture
for a Multimedia Database Management System Supporting Content Search", Advances in Computing
and Information, Niagara Falls, Kanada, 23. Mai 1990, S. 305 bis
313, beschrieben worden. In diesem Dokument wird ferner die Erzeugung einer
strukturierten Abfrage durch Aufgliedern einer ursprünglich durch
einen Benutzer in natürlicher Sprache
eingegebenen Abfrage mittels eines Parsers beschrieben. Die in natürlicher
Sprache abgefasste Abfrage wird durch einen Parser in die Form einer „Prädikatsliste" überführt und mit der entsprechenden „Prädikatsliste" verglichen, welche
aus den zu jedem Multimediaobjekt gehörenden Indexierungsdaten in
natürlicher
Sprache erzeugt wurde.
-
Weitere
Ansätze
zur Indexierung von Multimediadokumenten sind aus Dokumenten über das Dedal-System
zum Indexieren von Multimediadokumenten bei technischen Konstruktionen
mittels eines so genannten begrifflichen Indexierungsverfahrens bekannt.
-
Baudin
et al. beschreiben in „DEDAL:
Using Domain Concepts to Index Engineering Design Information", Proc. Meeting of
the Cognitive Science Soc. '92,
Indiana, USA, 1992, S. 702 bis 707, eine Benutzeroberfläche unter
der Bezeichnung Dedal zum Abrufen von Text-, Grafik- und Videodokumenten
mit Konstruktionsinformationen. Das Dedal-System basiert auf einer
beschränkten „Konstruktionssprache" mit einem spezialisierten „Task-Wortschatz", insbesondere zur
Unterstützung
der Konstruktion eines neuen Stoßdämpfers durch Änderung
einer ähnlichen
Konstruktion. Die Suchstrategie von Dedal lässt sich wie folgt zusammenfassen:
es liegt eine Frage der Form <Sachthema,
Subjekt, bevorzugtes Medium, bevorzugte Detailebene> vor. Baudin et al.
führen
dies genauer aus in "DEDAL:
Using Device Models to Facilitate the Retrieval of Multimedia Design Information", Proc. of IJCAI '92, Chambéry, Frankreich,
1992, S. 1237 bis 1242, wobei die verwendete Sprache Begriffe eines
Modells des konstruierten Gegenstands mit einem begrenzten Wortschatz
kombiniert, welcher generische taskabhängige Informationsklassen wiedergibt,
die normalerweise in Konstruktionsdokumenten vorkommen. Der Task-Wortschatz umfasst:
die Themenliste, die Detailebene und das Medium zur Beschreibung
der Daten in den Datensätzen.
-
Die
Dedal-„Sprache" sieht fast wie ein
Inhaltsverzeichnis eines Buches mit Sachthemen zu einem begrenzten
technischen Gebiet aus und erweist sich daher zum Indexieren von Multimediainformationen
mit sehr unterschiedlichen Inhalten wie zum Beispiel Bildern als
ungeeignet.
-
Obwohl
das Grundprinzip der Verwendung strukturierter Indizes beim Archivieren
und Abrufen von Multimediaobjekten bekannt ist, beschreibt keines
der oben angeführten
Dokumente eine Benutzeroberflächenanordnung
gemäß der in
den Ansprüchen
1 und 8 dargelegten vorliegenden Erfindung, welche eine Vorlage
zur Unterstützung
eines Benutzers beim Erstellen eines strukturierten Indexes umfasst,
der der Multimediainformation zugewiesen werden soll.
-
In
den Unteransprüchen
werden weitere bevorzugte Ausführungsarten
der Erfindung aufgeführt.
-
ÜBERBLICK ÜBER DIE
ERFINDUNG
-
Die
vorliegende Erfindung stellt ein leistungsfähiges Verfahren zur Unterstützung von
Computerbenutzern beim Erstellen und Verwenden strukturierter Indizes
zum Archivieren und Abrufen von Informationen mittels eines Universalcomputers
dar. Die Indexstruktur beruht auf einer Grammatik (Grammatikregeln)
und eignet sich besonders zur Beschreibung von Multimediaobjekten,
um dieselben zu archivieren und abzurufen.
-
Bei
einer bevorzugten Ausführungsart
wird dem Benutzer eine heuristische Benutzeroberfläche angezeigt.
Die heuristische Benutzeroberfläche
zeigt dem Benutzer Informationen wie zum Beispiel einen Filmclip
an, und der Benutzer gibt über
die Oberfläche
Zeichenfolgen wie zum Beispiel einen aus Wörtern bestehenden Satz ein.
Die heuristische Benutzeroberfläche unterstützt den
Benutzer dabei, die eingegebene Zeichenfolge in Komponenten mit
einer Struktur umzusetzen, die eine Anzahl von Grammatikregeln erfüllt. Alternativ
kann man die in natürlicher Sprache
abgefassten Beschreibungen durch einen Parser aufgliedern, um die
Komponenten und deren auf den Regeln beruhende Strukturen zu erkennen.
-
Zum
Archivieren der Information wird mittels eines strukturierten Indexes
ein zusammenpassendes Paar erzeugt. Der strukturierte Index wird
mittels eines Zuordnungsalgorithmus aus Komponenten (z. B. Wörtern) der
eingegebenen Zeichenfolgen gebildet, welche nun eine Funktion und
untereinander eine Beziehung haben. Dieser strukturierte Index wird
dann mit einem Zeiger auf die zu archivierende Information verknüpft, um
das zusammenpassende Paar zu erzeugen. Das zusammenpassende Paar weist
deshalb zwei Bestandteile auf: 1. den Zeiger, der als Segmentnummer
oder Segment bezeichnet wird und dem Speicherplatz der zu archivierenden (Multimedia-)Information
zugeordnet ist, und 2. den die Information beschreibenden strukturierten
Index. Dieses zusammenpassende Paar wird dann im Computerspeicher
archiviert bzw. gespeichert.
-
Zum
Abrufen der archivierten Information wird das System durch Eingeben
einer Zeichenfolge wie zum Beispiel einer Zeichenfolgeabfrage in
natürlicher
Sprache abgefragt. Bei einer bevorzugten Ausführungsart unterstützt eine
heuristische Oberfläche den
Benutzer beim Erstellen einer Zeichenfolgeabfrage, die auf einer
bestimmten Grammatik beruht. Alternativ kann ein Parser die Zeichenfolge
der Abfrage in eine strukturierte Abfrage zergliedern, deren Struktur
dem strukturierten Index in den archivierten zusammenpassenden Paaren
identisch ist oder sich auf diesen bezieht. Dann wird ein Suchalgorithmus ausgewählt und
dazu verwendet, einen Schlüssel
zu erstellen. Der Schlüssel
wird mit dem Indexteil (oder einer/mehreren Komponenten des Indexteils)
der zusammenpassenden Paare in der Datenbank verglichen. Aus diesem
Vergleich entsteht eine Liste der zusammenpassenden Paare, die zu
diesem Schlüssel
passen. Somit enthält
diese Liste der zusammenpassenden Paare die Paare, die derjenigen
archivierten Information entsprechen, welche zu der Abfrage innerhalb
der durch den Suchalgorithmus definierten Parameter passt. Abschließend wird
die zur (Multimedia)-Information
gehörende
Segmentnummer, welche Teil jedes zusammenpassenden Paars in der Liste
ist, zum Abrufen der zu der Segmentnummer gehörenden archivierten (Multimedia)-Information von demjenigen
Speicherplatz verwendet, auf den die Segmentnummer zeigt.
-
Das
Suchverfahren kann durch Änderung des
Suchalgorithmus erweitert werden. Teile des Schlüssels können auf Wortklassen zeigen,
die in einer lexikalischen Datenbank gespeichert sind. Die Wörter dieser
lexikalischen Datenbank sind auf irgendeine Weise (Synonym usw.)
den Wörtern
des Schlüssels
zugeordnet. Die Wörter
können
unter Verwendung der durch den Suchalgorithmus definierten Kriterien
aus der lexikalischen Datenbank gesucht werden. Diese in der lexikalischen
Datenbank gefundenen Wörter
werden auch dazu verwendet, die Datenbank der zusammenpassenden
Paare nach Übereinstimmungen
zu durchsuchen. Jedes der zu einem in der lexikalischen Datenbank
gefundenen Wort passende zusammenpassende Paar wird ebenfalls mit
der Liste der Übereinstimmungen
ausgegeben.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
1 zeigt
bevorzugte strukturierte Indizes der vorliegenden Erfindung als
Paar des Datensatzes eines zusammenpassenden Paars.
-
2 ist
ein Ablaufdiagramm des Verfahrens zum Archivieren von Informationen
wie zum Beispiel Multimediainformationen durch Verwendung eines
strukturierten Indexes.
-
3 zeigt
eine Computerbildschirmdarstellung, die als heuristische Benutzeroberfläche eine Vorlage
und eine Multimediadarstellung verwendet.
-
4 ist
ein Ablaufdiagramm des Verfahrens zum Abrufen von Informationen
wie zum Beispiel Multimediainformationen unter Verwendung von strukturierten
Indizes.
-
5 zeigt
in Computersystem, welches zum Archivieren und Abrufen von Informationen
und insbesondere von Multimediainformationen strukturierte Indizes
verwendet.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
Die
vorliegende Erfindung kann auf jedem Universalcomputer laufen, der
einem Benutzer Multimediainformationen darstellen kann. Eine in 5 gezeigte
bevorzugte Ausführungsart
verwendet ein IBM Personal System/2 (P/S 2), Modell 8595 Microchannel
Floor Standing 486 System 500 (das in der mit der Systemeinheit
gelieferten Kurzbeschreibung beschrieben wird). Zum Aufnehmen 520A und
zum Abspielen 520B von Audio- und Videomaterial wird ein
IBM Personal System/2 (P/S 2) ActionMedia II Display Adapter 510 verwendet
(das in der technischen Beschreibung des ActionMedia II beschrieben wird).
-
Diese
bevorzugte Ausführungsart
verwendet auch ein Betriebssystem IBM Operating System/2 (OS/2)
2.0 (das in der OS/2 2.0-Kurzbeschreibung beschrieben wird), einen
IBM Multimedia Presentation Manager/2 (der in der Programmier- und
Bedienungsanleitung der IBM Multimedia Presentation Manager/2 ActionMedia(R)
II Media Control Interface beschrieben wird) und einen Smalltalk/VPM
(der im Anleitungs- und Programmierhandbuch des Smalltalk/VPM beschrieben
wird). Es kann auch andere in der Technik bekannte Multimediahardware 530 verwendet
werden, die an einen Universalcomputer angeschlossen werden kann.
Bei dieser Hardware 530 kann es sich um Kassettenrecordergeräte, Laser-CD-Wiedergabeadapter,
Audioaufnahme- und -wiedergabeadapter usw. handeln. Die Marken OS/2 und
PS/2 sind Warenzeichen von IBM Corporation, die Marke ActionMedia
II ist ein Warenzeichen von Intel Corporation und die Marke Smalltalk/VPM
ist ein Warenzeichen von Digitalk Inc.
-
Die
vorliegende Erfindung verwendet strukturierte Indizes zum Archivieren
von Informationen in einer Computerdatenbank und zum Abrufen aus
derselben. Da strukturierte Indizes wesentlich besser beschreiben
können
als Schlüsselwortindizes
nach dem Stand der Technik, eignen sich strukturierte Indizes ganz
besonders zum Archivieren von Informationen von Multimediaobjekten
und zum Abrufen derselben. Im Allgemeinen enthalten Multimediadaten Informationen
mit sensorischen Qualitäten,
die in einen Computer eingegeben oder durch ihn ausgegeben werden.
Multimediainformationen (-objekte) 550 beinhalten Audioinformationen 532 und
visuelle Informationen 534 wie zum Beispiel Audio- und
Videoclips, Musikaufzeichnungen, Sprache, gedruckten Text, Standbilder,
Zeichnungen, bewegte Bilder, choreographierte Tanzschritte usw.
Eine Ursache für
die Brauchbarkeit eines strukturierten Indexes zur Beschreibung
von Multimediaobjekten besteht darin, dass man in den Index Handlungen,
Handelnde und Objekte von Handlungen einbeziehen kann.
-
Der
strukturierte Index weist eine Struktur auf, da er Informationen
1. über
die Funktion der Indexkomponenten und 2. über die Beziehungen zwischen
den Indexkomponenten beinhaltet. Die Funktion und die Beziehungen
sind durch Grammatikregeln definiert. Bei der bevorzugten Ausführungsart
sind die Indexkomponenten Wörter,
welche ein Multimediaobjekt beschreiben. Die zur Festlegung der
Funktion und der Beziehungen zwischen den Wörtern im Index verwendeten
Grammatikregeln sind in Form der Grammatik einer natürlichen
Sprache angegeben, welche Wörter
verwendet. Die Erfindung ist jedoch weder auf Wörter als Indexkomponenten noch auf
die Grammatik einer natürlichen
Sprache beschränkt.
Der Index kann aus allen möglichen
Komponenten bestehen, welche die zu archivierenden und wieder abzurufenden
Informationen beschreiben können,
und alle Regeln, welche die Funktionen und Beziehungen der Komponenten
definieren, können eine
Grammatik darstellen. Zum Beispiel kann man einen Index für einen
Musik-Clip erzeugen,
indem man eine Tonfolge mit einer bestimmten Struktur verwendet,
deren Rhythmus und Frequenz bestimmten Regeln unterliegt. Ein Index
für eine
Textinformation wie zum Beispiel ein Telefonverzeichnis könnte aus einer
Tonfolge bestehen, die eine Telefonnummer darstellt, wobei deren
Struktur durch Regeln zur Frequenz der Töne (den numerischen Werten
der Ziffern), zur Anzahl der Töne
(Anzahl der Ziffern der Telefonnummer) und der Reihenfolge der Töne festgelegt
wird.
-
Bei
einer bevorzugten Ausführungsart
nimmt ein strukturierter Index die folgende Form an:
[Beziehung:
Komponente (Funktion oder Attribute)]
-
Wenn
man diese Form beispielsweise auf einen Wortindex anwendet, so erhält man für eine Einwortkomponente:
[Handlung:
Wort (Verb, dritte Person, Futur)]
-
Die
Beziehung (Handlung) und die Funktion (Verb) dieses Indexes sind
durch die Regeln der angewendeten Grammatik, d. h. der englischen
Grammatik definiert. Attribute des Wortes (der Komponente) werden
durch die in Klammern zugefügten
Informationen des Indexes dargestellt. Diese Attribute beinhalten
die Funktion des Wortes, können
jedoch auch noch weitere Informationen enthalten. Beim vorliegenden
Beispiel beinhalten die Attribute das Wort Funktion (Verb) sowie
weitere Informationen über
das Verb, die Person und die Zeit. Die Attributinformationen können grammatische
Beschreibungen eines Wortes (wie zum Beispiel Person, Anzahl, Zeit,
Geschlecht) oder auch andere beschreibende Informationen (wie zum
Beispiel Farbe, Größe, Gewicht)
enthalten. Ein solcher Index, der die Beschreibung durch ein einzelnes
Wort (Komponente) vollzieht, wird als einfacher Index bezeichnet.
-
Um
einen Index mit einer Folge von Wörtern (Komponenten) zu erzeugen,
der besser beschreiben kann als ein Index mit einem einzelnen Wort,
verwendet man einen zusammengesetzten Index. Ein zusammengesetzter
Index enthält
mehrere einfache Indizes für
die Wörter
(Komponenten) in dieser Folge. Zum Beispiel kann in dem englischen
Ausdruck „Dad
will fall into a pool" (Vater
wird in ein Becken fallen) ein zusammengesetzt strukturierter Index
die folgende Form annehmen:
[[Handelnder: Vater (Substantiv,
Mensch)], [Handlung: fallen (Verb, dritte Person, Zukunft, stürzen)], [Objekt:
in das Becken (präpositionaler
Ausdruck, Objekt, Schwimmbecken)]].
-
Beim
vorliegenden Beispiel definiert der auf Grundlage der englischen
Grammatik aus dem Ausdruck in natürlicher Sprache erzeugte zusammengesetzte
strukturierte Index die Beziehung (Handelnder, Handlung und Objekt
oder Ort) der Wortkomponenten „Vater", „fallen" bzw. „in das
Becken" des strukturierten
Indexes zueinander. Die Funktion jeder Komponente ist durch die
Grammatik (Substantiv, Verb, präpositionaler
Ausdruck) gegeben. Außerdem
werden zusätzlich
zur Funktion auch noch weitere Attributinformationen angegeben.
Hierbei geben die Attribute Informationen zur Komponente/Wort, die
dazu geeignet sind, dieses zu anderen Komponenten/Wörtern in
Beziehung zu setzen. Die Attribute enthalten Synonyme („drop"; stürzen) und
Hyponyme („swimming
pool"; Schwimmbecken).
-
Unter
einer Grammatik versteht man eine Anzahl von Regeln, die den Komponenten
einer Folge eine Funktion und eine Beziehung, d. h. eine Struktur
verleihen. Die Grammatikregeln organisieren und/oder kennzeichnen
die Komponenten in einer Folge in der Weise, dass sie ihnen bestimmte Funktionen
zuteilen. Zum Beispiel handelt es sich bei in der bevorzugten Ausführungsart
verwendeten Grammatik um die Grammatik der englischen Sprache, also
einer natürlichen
Sprache, bei der Subjekte (Substantive und substantivische Ausdrücke), Prädikate (Verben)
und Objekte (Substantive, substantivische Ausdrücke, präpositionale Ausdrücke usw.)
in einer durch die Grammatikregeln festgelegten Reihenfolge angeordnet
sind, so dass sie einen Ausdruck oder einen Satz bilden. Durch Änderung
der durch die Grammatikregeln festgelegten Funktion und Beziehung
zwischen den Wörtern
kann man die Bedeutung der Ausdrucks oder Satzes verändern. Obwohl
bei der bevorzugten Ausführungsart
die Grammatik einer natürlichen
Sprache und eine Wortfolge (Ausdruck oder Satz) verwendet werden,
beschränkt
sich die Anwendung der Erfindung nicht auf die Grammatik einer natürlichen
Sprache. Die Erfindung kann als Grammatik beliebige Regeln verwenden,
die einer Folge von Komponenten eine Struktur verleihen, um eine
sensorische Bedeutung (auditiv oder visuell) zu erzeugen. Das können zum
Beispiel musikalische Regeln sein, die auf eine Folge von Tönen bestimmter
Frequenzen angewendet werden, um eine Melodie zu erzeugen, aber
auch geometrische Regeln, die auf eine Folge von Mustern angewendet
werden, um eine Form zu erzeugen, oder aber Ausspracheregeln, die
auf eine Folge von Phonemen angewendet werden, um ein erkennbares Wort
zu erzeugen. Die angewendeten Grammatikregeln dienen zur Erzeugung
des strukturierten Indexes. Die Regeln können auch zum Erstellen einer heuristischen
Benutzeroberfläche
für das
Archivieren und Abrufen von Informationen dienen.
-
Gemäß 1 archiviert
die vorliegende Erfindung Informationen und ruft dieselben unter
Verwendung einer Datenbank von strukturierten Indizes 125 ab,
in der zusammenpassende Paare 105 gespeichert sind. Ein
zusammenpassendes Paar 105 besteht aus zwei Teilen: 1)
einem Segment 110, welches den Standort der zu archivierenden
oder abzurufenden Information kennzeichnet und 2) einem zugehörigen strukturierten
Index 100. Bei dem Segment 110 kann es sich um
den Startstandort im Computerspeicher (540 in 5),
welcher die Information enthält,
um einen Zeiger auf einen Standort im Speichermedium, welcher die
Information enthält,
oder um andere Daten handeln, die üblicherweise zum Zugreifen
auf die Information verwendet werden. Im Folgenden werden drei bevorzugte
Speicherstrukturen für
zusammenpassende Paare beschrieben.
-
Bei
einer Ausführungsart
werden die zusammenpassenden Paare 105 als eine „normale" Datendatei 140 gespeichert,
in welcher die Segmentnummer 110 und der zugehörige Index 100 als
sequenzielle Datensätze 120 in
einer auf einem strukturierten Index beruhenden Datenbank 125 gespeichert
werden. Zum Beispiel:
(Segment(771), „Dad will
fall into the pool")
(Segment(772), "a
cat and three mice eat an ear of corn") sind zwei aufeinander folgende Datensätze 120 zusammenpassender
Paare 105. Die zu „Dad
will fall into the pool" (Vater
wird in das Becken fallen) gehörende
Multimediainformation befindet sich am Multimediaspeicherplatz 771 und
ebenso befindet sich die zu „a
cat and three mice eat an ear of corn" (eine Katze und drei Mäuse fressen
einen Kolben von Mais) gehörende
Information am Multimediaspeicherplatz 772. Zum Beispiel
kann es sich in diesen Fällen
bei der Multimediainformation um eine in diesem Speicherplatz gespeicherte
digitale Fotografie handeln. Der gespeicherte „Index" (hier ein aus Worten bestehender Ausdruck)
an sich ist nicht strukturiert, da die Funktion und die Beziehungen
der Wörter
nicht angegeben sind. Bei der vorliegenden Ausführungsart wird der „Index" des Ausdrucks während des
Abrufprozesses wie folgt strukturiert.
-
Eine
besonders bevorzugte Ausführungsart 150 speichert
die zusammenpassenden Paare 105 aus dem Segment 110 und
dem strukturierten Index 100 ebenfalls als Datensätze 120 in
der Datenbank der strukturierten Indizes 125. Hierbei haben
alle Datensätze
Felder, und die Datensätze
werden durch Begrenzer wie zum Beispiel Perioden 122 voneinander
getrennt. Felder innerhalb jedes Datensatzes können durch ihre Position im
Datensatz, durch Begrenzer wie zum Beispiel Klammern 126 oder
durch Feldbezeichner wie zum Beispiel Namen 128 (z. B. Handlung:)
gekennzeichnet werden. Die Speicherung der Datensätze auf
diese Weise ist bekannt.
-
Bei
einer besonders bevorzugten Ausführungsart
werden die zusammenpassenden Paare 105 aus dem Segment 110 und
dem strukturierten Index 100 als sequenzielle Datensätze 120 in
der Datenbank der strukturierten Indizes 125 gespeichert, wobei
jeder Datensatz eine Anzahl von vordefinierten Feldern 130 aufweist,
wie zum Beispiel
{(Segment(770), [[Handlung: stürzen (Pos=Verb, Person=dritte,
Zeit=Gegenwart)], [Handelnder: Junge (Pos=Substantiv, Zahl=Singular,
Mensch=ja)], [Objekt: Teich (Pos=Substantiv, Zahl=Singular, Präposition=into)]]}
{Segment(771),
[[Handlung: fallen (Position=Verb, Person=dritte, Zeit=Futur)],
[Handelnder: Vater (Position=Substantiv, Zahl=Singular, Mensch=ja)],
[Objekt: Becken (Position=Substantiv, Zahl=Singular)]]},
mit
zwei gespeicherten zusammenpassenden Paaren 105 unter Verwendung
zusammengesetzter strukturierter Indizes 100 als Datensätze 120 in
der Datenbank der strukturierten Indizes 125. (Man beachte
auch, dass die Attribute hier die Form „Attribut=Wert" haben, z. B. „Zeit=Futur"). Die Datensätze werden
in einer tabellenähnlichen
Struktur 160 gespeichert. Eine bevorzugte Ausführungsart
ist eine relationale Datenbank. Jeder Datensatz 120 in
der Tabelle 160 hat ein Feld für: die Nummer (770, 771) des
Segments 110; die Handlung 114 (stürzen, fallen),
drei Attribute der Handlung (Teil der gesprochenen Sprache (Position) 116,
Person 118 und Zeit 119); den Handelnden 122 (Junge,
Vater); drei Attribute des Handelnden (Teil der gesprochenen Sprache 124,
Nummer 126 und ob es sich bei dem Handelnden um einen Menschen 128 handelt);
das Objekt 132 (Teich, Becken); und zwei Attribute des
Objekts (Teil der gesprochenen Sprache 134 und Nummer 136).
Ein oder mehrere dieser Datensatzfelder können während des Abrufprozesses durchsucht werden,
um einen Datensatz 120 für ein zusammenpassendes Paar 105 zu
finden, welches auf eine Suchabfrage passt. Man beachte, dass die
Funktion eines Wortes aus technischen Gründen durch dessen Teil der
gesprochenen Sprache (Position) gekennzeichnet werden kann, der
durch die Grammatik festgelegt wurde. Manche dieser Daten können unberücksichtigt
bleiben. Zum Beispiel kann die Tatsache, dass der Wert der Präposition „in das" lautet (Präp=in das),
ohne Bedeutung sein.
-
Die
bevorzugte Ausführungsart
ermöglicht eine
erweiterte Durchsuchung der Datenbank der strukturierten Indizes 125,
wenn man eine andere Datenbank hinzufügt, deren Komponenten (bei
der bevorzugten Ausführungsart:
Wörter)
in lexikalischer Hierarchie angeordnet sind. Diese zweite Datenbank,
die auch als lexikalische Datenbank bezeichnet wird, ist auf eine
in der Technik bekannte Weise aufgebaut.
-
Die
lexikalische Datenbank ordnet die Wörter (oder andere Komponenten)
mit einer relativ engeren Bedeutung in Klassen (Hyponyme) hierarchisch
unter einem Wort mit einer umfassenderen Bedeutung (Hypernym) an,
wie zum Beispiel „Biber" und „Katze" als Hyponyme von „Säugetier", welches wiederum
ein Hyponym von „Tier" ist. Diese Wörter werden
wiederum in einer Wortklasse unter einem Wort mit einer noch umfassenderen
Bedeutung (Hypernym) zusammengefasst. Auf diese Weise stehen die
Wörter
der Datenbank hierarchisch jeweils mit einem anderen Wort in Beziehung.
-
Als
lexikalische Datenbank können
in der vorliegenden Erfindung alle in der Technik bekannten lexikalischen
Datenbanken verwendet werden. Es gibt lexikalische Datenbanken,
welche Wörter
und deren Synonyme, Hypernyme und Hyponyme enthalten. Die Informationen
in den Datenbanken mit Wörterbucheinträgen sind
so aufgeteilt worden, dass sie die Struktur der Einträge bestimmen,
und die bearbeiteten Einträge
wiederum sind in weitere lexikalische Datenbanken nach dem Stand
der Technik geladen worden. Zum Beispiel sind in manchen lexikalischen
Datenbanken Angaben zur Betonung, Teile der gesprochenen Sprache
und Definitionen als einzelne Felder gespeichert, auf die ein Wort
zugreifen kann. Definitionstexte dienen dazu, weitere implizite Informationen
der Wörter
zu erschließen.
Ausdrücklich
sind in den Einträgen
von Thesauren Synonyme enthalten. Aus dem Beschreibungstext können Hyponyme
abgeleitet werden (z. B. wird im Wörterbuch von Merriam-Webster, 7. Aufl.,
1963, ein Wagen als ein „Fahrzeug" definiert, das sich
auf Rädern
fortbewegt). Nachdem diese Information aus einer Vielzahl von Quellen
erschlossen worden ist, kann sie zur weiteren Verarbeitung in eine
lexikalische Datenbank geladen werden. Zum Beispiel kann in einer lexikalischen
Datenbank ein Eintrag für
das Wort „Wagen" wie folgt aussehen:
-
Wagen –
-
Synonyme
-
Auto,
Automobil, Klapperkiste, Maschine, Motor, Motorwagen, Fahrzeug,
Buffetwagen, Kabelwagen, Reisezugwagen, Speisewagen, (Eisenbahn), Schlafwagen,
Wohnwagen
-
Hypernyme
-
Fahrzeug,
Kutsche, Kabine, Teil
-
Hyponyme
-
Güterwagen,
Kabelwagen, Bremserwagen, Salonwagen, Kutsche, Reisezugwagen, Speisewagen,
Plattformwagen, Gondel, Handwagen, Salonwagen, Mini-Cabriolet, Motorwagen,
Salonwagen, Klapperkiste, Kühlwagen,
Serienwagen, Seitenwagen, Schlafwagen, Raucherwaggon, Seilbahnkabine, Einkaufswagen,
Lastwagen, Eisenbahnwaggon, Straßenwagen
-
Wobei
das Synonym, das Hypernym und die Hyponyme Felder in einem Datensatz
der lexikalischen Datenbank sind, die Listen von Wörtern enthalten,
welche durch die vorangehende Verarbeitung extrahiert wurden.
-
2 zeigt
den Prozess der Archivierung einer Information 250 mittel
der bevorzugten Ausführungsart.
Ein Benutzer 255 steht mit einer heuristischen Oberfläche 260 im
Dialog, welche dem Benutzer eine Multimediainformation 270 anzeigt
und ihn zur Eingabe einer aus Komponenten (Wörtern) bestehenden Zeichenfolge
gemäß einer
vorgegebenen Grammatik 275 auffordert. Üblicherweise kann ein Parser 280 die
eingegebene Zeichenfolge in Komponenten aufgliedern. Alternativ
kann der Parser 280 auch entfallen 284.
-
Ein
Zuordnungsalgorithmus verwendet diese Komponenten zum Erstellen
eines strukturierten Indexes 285, der der oben beschriebenen
Form ähnelt. Der
strukturierte Index wird mit der Segmentnummer der zu katalogisierenden 270 Information
verknüpft 290,
um ein zusammenpassendes Paar 295 zu erzeugen, das dann
gemäß Kasten 298 in
der auf dem strukturierten Index beruhenden Datenbank 125 gespeichert
wird.
-
3 zeigt
eine bevorzugte Ausführungsart einer
heuristischen Oberfläche 300 für Videos.
Die heuristische Oberfläche
der bevorzugten Ausführungsart
ist ein Videobild 300, das eine Multimediainformation darstellen
kann. Diese Multimediainformation wird in einer Multimediaspeichervorrichtung
gespeichert oder digitalisiert und in einem Computerspeicher gespeichert.
Das Videobild enthält
eine Vorlage 325, welche den Benutzer zur Eingabe einer
in der natürlichen
Sprache Englisch gehaltenen Beschreibung der Multimediainformation 330 auffordert, welche
ein bewegtes Bild 330 zeigt, auf dem ein Hund langsam zu
einer Tür
läuft.
Die Vorlage 325 ist so formatiert, dass der Benutzer eingeladen
wird, das Bild unter Verwendung der normalen englischen Grammatik
durch einen Ausdruck oder einen Satz zu beschreiben. Die Eingabebereiche 301 bis 305 der Vorlage
sind so gestaltet, dass der Benutzer eine Textinformation eingibt,
welche die Multimediainformation 330 durch Teile der gesprochenen
Sprache entsprechend der englischen Grammatik (Funktionen und/oder
Beziehungen 306 bis 310) beschreibt. Bei diesem
Beispiel gibt der Benutzer in den Eingabebereich 301 ein
Adjektiv 306 (bewegt), welches den Videoclip beschreibt,
oder in den Eingabebereich 302 das Subjekt 307 (Hund)
ein. Die Beziehung der Handlung wird durch das Verb 309 (läuft) beschrieben,
welches der Benutzer in den Eingabebereich 304 eingibt.
In den Eingabebereich 303 wird für die Beziehung (langsam) ein
Adverb 308 eingegeben, welches das Verb 309 beschreibt.
Durch den in den Eingabebereich 305 eingegebenen präpositionalen Ausdruck 310 wird
ein Objekt der Handlungsbeziehung beschrieben. Deshalb gliedert
ein Benutzer mittels einer heuristischen Oberfläche 300 eine in natürlicher
Sprache abgefasste Beschreibung der Multimediainformation 330 in
Komponenten auf, welche eine Funktion und untereinander eine Beziehung
haben, die durch die Grammatik einer natürlichen Sprache festgelegt
sind. Bei der vorliegenden bevorzugten Ausführungsart kann in 2 der
Kasten 280 übersprungen
werden 284, da die in die Vorlage (Kasten 275 von 2)
eingegebenen Daten direkt zum Erstellen eines strukturierten Indexes
(Kasten 285) verwendet werden können. Für diese heuristische Oberfläche 300 kann
jede in der Technik bekannte Software verwendet werden, die eine
Eingabevorlage erstellen kann.
-
Bei
einem Vergleichsbeispiel, das zum Verständnis der Erfindung beiträgt, aber
nicht durch die Ansprüche
erfasst wird, kann die heuristische Oberfläche eine in der Technik bekannte
und in natürlicher Sprache
abgefasste Oberfläche
sein. Zum Beispiel wird die zu archivierende Multimediainformation 330 auf
dem Bildschirm 300 zusammen mit einer Abfrage oder einer
Eingabeaufforderung in natürlicher
Sprache dargestellt. Darauf reagiert der Benutzer, indem er beschreibende
Informationen, üblicherweise
durch einen Text in natürlicher
Sprache, über
den Multimediaclip eingibt. Kasten 275 in 2 zeigt
die Texteingabe.
-
Der
Parser analysiert die in natürlicher
Sprache abgefasste Beschreibung 275 nach den Regeln einer
Grammatik, üblicherweise
der Grammatik einer natürlichen
Sprache wie zum Beispiel Englisch, und gibt den Satz oder Ausdruck
nach Aufgliederung in diejenigen Wörter zurück, die als Teile der gesprochenen
Sprache, als Bestandteile oder Funktionen erkannt wurden. Bei dem
Parser 280 kann es sich um eine der zahlreichen in der
Technik bekannten Ausführungsarten
handeln. Es gibt auch Parser, die weitere Informationen über die
Wörter
wie zum Beispiel Zeit, Zahl sowie weitere Eigenschaften liefern.
Wenn der Parser nicht in der Lage ist, die in natürlicher Sprache
abgefasste Beschreibung 275 aufzugliedern, weil sich die
Beschreibung nicht an die Regeln der englischen Grammatik hält oder
wegen anderer Gründe,
wird die in natürlicher
Sprache abgefasste Beschreibung verworfen 282. Dem Benutzer
kann angezeigt werden, dass die Beschreibung verworfen wurde (damit
er sie neu formulieren kann).
-
Das
durch den Parser 280 ausgegebene Ergebnis hat die Form
von Komponenten eines strukturierten Indexes, vorzugsweise der Komponenten
eines zusammengesetztem strukturierten Indexes (siehe oben). An
dieser Stelle (Kasten 285) analysiert ein Zuordnungsalgorithmus
das Ergebnis des Parsers und erzeugt einen strukturierten Index,
indem er die entsprechenden Teile des Parserergebnisses an die richtigen
Stellen der oben beschriebenen Datenbank der strukturierten Indizes 125 überführt. Die
Funktion des Zuordnungsalgorithmus in Kasten 285 kann Teil des
Parsers oder ein gesonderter Algorithmus zum Zuordnen des Parserergebnisses
in die auf dem strukturierten Index beruhende Datenbank 125 sein. Der
Zuordnungsalgorithmus kann auch so aufgebaut sein, dass man zum
Parserergebnis weitere Informationen hinzufügen oder auch bestimmte vom
Parser kommende Informationen weglassen kann. (Man beachte, dass
das Parserergebnis bei einer bevorzugten Ausführungsart direkt von Kasten 275 kommt, 284).
Geht man beispielsweise von der Annahme aus, dass die meisten Subjekte
selbst handeln, würde
der Ausdruck „das
Fenster zerbricht" wie
folgt aufgegliedert werden:
[[Handelnder: Fenster (Substantiv)],
[Handlung: zerbricht (Verb)]].
-
Bei
diesem Beispiel wurde der Ausdruck nicht richtig aufgegliedert,
das es sich bei dem Wort „Fenster" um das Thema des
Satzes handelt. Da es sich bei den meisten Handelnden um belebte
Substantive handelt, könnte
der Zuordnungsalgorithmus 285 durch Vergleichen der Felder
für Handelnde
mit einer Liste belebter Substantive den Fehler erkennen und den
strukturierten Index wie folgt neu definieren:
[[Objekt: Fenster
(Substantiv)], [Handlung: zerbricht (Verb)]].
-
Es
sind Verfahren bekannt, die man im Zuordnungsalgorithmus verwenden
kann, um dem Wort „Fenster" eine neue Funktion
als Objekt zuweisen und es dann in der Datenbank der strukturierten
Indizes 125 richtig zu speichern.
-
Der
Zuordnungsalgorithmus kann zum Parserergebnis auch weitere Informationen
wie zum zusätzliche
Attribute hinzufügen.
Durch Vergleichen der Wörter
mit Datenbanken und/oder unter Verwendung grammatikalischer Regeln
kann der Zuordnungsalgorithmus Informationen über Person, Zeit, Zahl oder andere
Attribute eines Wortes hinzufügen.
Zum Beispiel kann der Eigenname einer Person mit einer Liste bekannter
Persönlichkeiten
verglichen werden und ein Attribut erhalten, welches diesen Namen
als Persönlichkeit
kennzeichnet, wenn sich der Name in der Liste befindet. In ähnlicher
Weise können
unter Verwendung anderer Datenbanken wie zum Beispiel der oben beschriebenen
lexikalischen Datenbank auch Hyponyme, Hypernyme und Synonyme als
Attribute hinzugefügt
werden. Alternativ kann der Zuordnungsalgorithmus 285 auch
lediglich ausgewählte
Informationen aus dem Parserergebnis (oder Kasten 275)
in der Datenbank der strukturierten Indizes speichern. Zum Beispiel
könnte
der Zuordnungsalgorithmus 285 lediglich Wörter zur
Art der Handlung und des Objekts zusammen mit deren Attributen in
der Datenbank der strukturierten Indizes speichern und alle Wörter zur
Art des Subjekts sowie deren Attribute weglassen.
-
Auch
die Segmentnummer 110 bzw. das Segment 110, welches
den Speicherplatz der gemäß dem Index 100 zu
archivierenden Information beschreibt, ist zusammen mit der durch
den Zuordnungsalgorithmus 285 gespeicherten Information 100 des
strukturierten Indexes im Speicherdatensatz 120 enthalten.
Deshalb sind der Index 100 und das Segment 110 in
einem Datensatz 120 zusammengefasst 290 und bilden
ein zusammenpassendes Paar 105 (Kasten 295), das
der zu archivierenden Information zugeordnet ist. Bevorzugte Ausführungsarten des
zusammenpassenden Paars 105 in der Datenbank 125 der
strukturierten Indizes wurden oben bereits beschrieben. Die Datenbank 125 der
strukturierten Indizes umfasst eine Vielzahl von Datensätzen 120 (Kasten 298)
dieser zusammenpassenden Paare 105, die nach diesem Verfahren
archiviert werden.
-
4 ist
ein Ablaufdiagramm des vorliegenden Prozesses zum Abrufen von Informationen.
Eine Zeichenfolge von Komponenten, üblicherweise von Wörtern 410,
wird durch einen Benutzer über
eine heuristische Oberfläche 415 in
den Computer eingegeben. Die heuristische Oberfläche 415 fordert den Benutzer
zum Eingeben einer Abfrage mit einer Struktur auf, die der beim
Archivieren der Information verwendeten Grammatik entspricht. Bei
dieser Ausführungsart
kann eine in 3 gezeigte Eingabevorlage 325 verwendet
werden. Alternativ kann man als heuristische Oberfläche 415 eine
Oberfläche
verwenden, die auf einer natürlichen
Sprache beruht und den Benutzer zur Eingabe einer Abfrage in einer natürlichen
Sprache auffordert.
-
Wenn
die heuristische Oberfläche 415 zum Eingeben
einer Abfrage in einer natürlichen
Sprache eingerichtet ist, wird ein Parser 420 verwendet.
Wenn die heuristische Oberfläche 415 die
Abfrage jedoch grammatikalisch organisiert, z. B. durch Verwendung einer
Vorlage 325 wie in 3, wird
der Parser 420 übersprungen 418.
Ein Parser gliedert die Abfrage auf und sendet die in eine strukturierte
Abfrage aufgegliederte Abfrage zurück. Wenn der Parser die Abfrage
nicht aufgliedern kann, da sich diese nicht an die verwendete Grammatik
hält, wird
die Abfrage verworfen 423. Der Parser 420 kann
dem Benutzer dieses Problem mitteilen (sodass dieser die Abfrage
neu formulieren oder sich für
eine Schlüsselwortsuche entscheiden
kann).
-
In
der strukturierten Abfrage 425 sind die nach ihrer Funktion
ermittelten Komponenten, z. B. Wörter,
der Abfrage sowie deren gemäß den Grammatikregeln
festgelegte Beziehungen enthalten. Zum Beispiel wird die Abfrage „Vater
wird in das Becken fallen" wie
folgt aufgegliedert (oder durch die heuristische Oberfläche 415 organisiert):
[[(Handlung:
fallen (Verb, dritte Person, Futur)], [Handelnder: Vater (Substantiv,
Singular)], [Objekt: in das (Präposition),
Becken (Substantiv, Singular)].
-
Bei
der bevorzugten Ausführungsart
müssen eine
oder mehrere der Komponenten und/oder deren Attribute in der strukturierten
Abfrage ein Feld bilden, das mit einem Feld in der Datenbank 125 der
strukturierten Indizes übereinstimmt,
damit man später
suchen und eine Übereinstimmung 445 feststellen kann.
Es ist auch möglich,
eine Abfrage umzustrukturieren, damit diese Felder übereinstimmen.
-
Ein
Suchalgorithmus 435 erstellt 430 aus den Komponenten
der strukturierten Abfrage 425 einen Schlüssel. Der
Schlüssel 440 dient
dann zum Durchsuchen 445 der Datenbank 125 der
strukturierten Indizes und liefert 450 eine Liste der zusammenpassenden
Paare, welche entsprechend den Kriterien des Suchalgorithmus 435 auf
die Abfrage zutreffen. Der Suchalgorithmus 435 erweitert
die Kriterien der Suche 445 in der Datenbank der strukturierten
Indizes durch Änderung
des Schlüssels 440 oder
verringert sie. Speziell wird der Schlüssel 440 aus Komponenten
der durch die Suchkriterien veränderten strukturierten
Abfrage erstellt 430. Wenn die Suchkriterien beispielsweise
verlangen, dass nur eine Handlung und ein Objekt übereinstimmen
müssen,
kann der Schlüssel
ohne das Feld des Handelnden erzeugt werden. Alternativ kann in
ein Feld für
den Handelnden im Schlüssel
ein Symbol „nicht
herücksichtigen" (Platzhaltersymbol „*") eingegeben werden.
-
Ein
anderer Suchalgorithmus 435 kann die Suche dadurch erweitern,
dass man im Schlüssel
bestimmte Attribute der Komponenten durch „nicht berücksichtigen" kennzeichnet. Zum Beispiel kann der Schlüssel so
gestaltet werden, dass er zur Zeit oder Zahl eines Verbs passt.
Ein anderer Suchalgorithmus 435 kann die Suche dadurch
erweitern, dass er eine oder mehrere Schlüsselkomponenten auf verwandte Wörter wie
zum Beispiel Synonyme, Hypernyme und/oder Hyponyme erweitert. Der
Algorithmus 435 könnte
durch Verwendung der lexikalischen Datenbank Komponenten oder Attribute
der Komponenten des Schlüssels
ersetzen oder hinzufügen,
um die Suchkriterien zu ändern.
-
Im
Folgenden werden mehrere Beispiele für Schlüssel 440 unter Verwendung
der folgenden strukturierten Abfrage 425 dargestellt, die
durch verschiedene Suchalgorithmen 435 erstellt 430 wurden.
[[Handlung:
fallen (Verb, dritte Person, Futur)], [Handelnder: Vater (Substantiv,
Singular)], [Objekt: in das (Präposition),
Becken (Substantiv, Singular)].
-
Ein
Suchalgorithmus 435 kann einen Schlüssel 440 erstellen,
der auf einen Datensatz 120 in einer Datenbank 125 der
strukturierten Indizes passt, wenn lediglich die Felder für Handlung
und Objekt sowie deren Attribute zusammenpassen:
[[Handlung:
fallen (Verb, dritte Person, Futur)], [Objekt: in das (Präposition),
Becken (Substantiv, Singular)],
oder alternativ:
[[Handlung:
fallen (Verb, dritte Person, Futur)], [Handelnder:*], [Objekt: in
das (Präposition),
Becken (Substantiv, Singular)].
-
In
diesem Fall ist die Komponente Handelnder des Schlüssels entfernt
oder durch „nicht
berücksichtigen" gekennzeichnet worden.
Ein Datensatz 120 wie zum Beispiel „ein Hund wird in das Becken fallen" wird zu dem Schlüssel 440 passen 445.
-
Ein
Suchalgorithmus 435 kann einen Schlüssel erstellen 430,
der zu einem Datensatz 120 der Datenbank 125 der
strukturierten Indizes passt, ohne dass die Person oder die Zeitform
des Verbs oder die Zahl des Substantivs berücksichtigt wird:
[[Handlung:
fallen (Verb, *, *)], (Handelnder: Vater (Substantiv, *)], Objekt:
in das (Präposition),
Becken (Substantiv, *)].
-
Hierbei
hat der Algorithmus 435 in die Felder für die Person und die Zeitform
des Verbs sowie für die
Zahl des Substantivs „nicht
berücksichtigen" eingetragen. Ein
Eintrag der Datenbank wie zum „drei Väter fallen
in die Becken" würden mit
diesem Schlüssel 440 eine Übereinstimmung
erzeugen 445. Entsprechend würde jeder oder alles zu diesem Schlüssel passen,
der oder das in ein oder mehrere Becken fällt.
-
Ein
Suchalgorithmus 435 kann einen Schlüssel erstellen 430,
der zu einem Eintrag der Datenbank der strukturierten Indizes mit
einem Wort eine Übereinstimmung
herstellt, welches einer Komponente ähnlich ist:
[[Handlung:
fallen (Verb, dritte Person, Futur)], (Handelnder: Vater (Substantiv,
Singular)], [Objekt: in das (Präposition),
Synonym=Becken (Substantiv, Singular)].
-
Ein
Eintrag in der Datenbank wie zum Beispiel „Vater wird in den Teich fallen" passt zu diesem Schlüssel, da
die normalerweise in der lexikalischen Datenbank zu findenden Synonyme
für „Becken" dazu verwendet werden,
eine Übereinstimmung
mit den Komponenten im Feld Objekt zu erzeugen.
-
Ein
Suchalgorithmus 435 kann einen Schlüssel 440 unter Verwendung
von Synonymen (und/oder Hyponymen und/oder Hypernymen) von jeder
Komponente des Schlüssels
wie folgt erstellen 430:
[[Handlung: Synonym=fallen
(Verb, dritte Person, Futur)], [Handelnder: Hyponym=Vater (Substantiv,
Singular)], [Objekt: in das (Präposition),
Synonym=Becken (Substantiv, Singular)].
-
Ein
Eintrag wie zum Beispiel „Papa
stürzt
in den Teich" stellt
eine Übereinstimmung
mit diesem Schlüssel
her, da das „Synonym" „wird stürzen" mit „wird fallen", das Synonym „Teich" mit „Becken" und das Hyponym „Papa" mit „Vater" übereinstimmt.
-
Sobald
der Schlüssel 440 erstellt
wurde, kann er unter Verwendung eines in der Technik bekannten Such-
und Vergleichsalgorithmus mit den Einträgen in der Datenbank 125 der
strukturierten Indizes verglichen werden. Zum Beispiel kann der Suchalgorithmus 435 auch
dann eine Übereinstimmung
zulassen, wenn die Schreibweise eines Schlüsselkomponente und eines Feldes
in der Datenbank nur ähnlich
ist, aber nicht identisch übereinstimmt.
Die Suche kann sich logischer Operationen mit den Schlüsselkomponenten
bedienen, d. h. eine Übereinstimmung
feststellen, wenn ein Eintrag mit einer Komponente des Schlüssels übereinstimmt,
die mit einer anderen Komponente durch eine ODER-Funktion verknüpft ist.
-
Der
Such- und Vergleichsschritt 445 gibt (falls eine Übereinstimmung
festgestellt wird) eine Liste aus, die als Datensatzübereinstimmungsliste 450 derjenigen
Datensätze
(falls solche vorliegen) in der Datenbank 125 der strukturierten
Indizes bezeichnet wird, die mit dem Schlüssel 440 übereinstimmen.
Die Segmentnummer 110 jedes Datensatzes 120 der
zusammenpassenden Paare 105 in der Liste 450 dient
dann zum Auffinden 460 der zu diesem zusammenpassenden
Paar 105 gehörenden
Information. Diese Information wird dann als diejenige Information
dem Benutzer bereitgestellt, die der Abfrage entspricht.
-
Anhand
der vorliegenden Beschreibung kann ein Fachmann viele Ausführungsarten
entwickeln, die durch die vorliegende Erfindung beabsichtigt sind.
Zum Beispiel werden bei einer alternativen Ausführungsart der oben erörterten
Datenbank 125 der strukturierten Indizes die zusammenpassenden Paare
als „normale" Datendatei gespeichert,
in der der Teil des zusammenpassenden Paars kein strukturierter
Index, sondern lediglich ein Feld mit Textdaten ist. Bei dieser
Ausführungsart
werden in einem vorbereitenden Such- und Vergleichsschritt diejenigen
Einträge
ausgesucht, die möglicherweise
mit einem Schlüssel 440 übereinstimmen.
Das kann mittels einer Standardsuche nach Schlüsselwörtern erfolgen. Die durch diese
Suche ermittelten Datensätze 120 werden
dann durch einen Parser geschickt, der die Textdaten des zusammenpassenden
Paars in Komponenten aufgliedert, aus denen wie oben beschrieben
strukturierte Indizes des zusammenpassenden Paars erzeugt werden.
Die ausgewählten Einträge, die
nun über
einen strukturierten Index in ihrem zusammenpassenden Paar verfügen, werden in
der oben beschriebenen Weise ein zweites Mal durchsucht und verglichen.