DE60029845T2

DE60029845T2 - System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung

Info

Publication number: DE60029845T2
Application number: DE60029845T
Authority: DE
Inventors: Simon H. Seattle CORSTON-OLIVER; B. William Redmond DOLAN; Hisami Redmond SUZUKI
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1999-06-18
Filing date: 2000-06-15
Publication date: 2006-11-30
Anticipated expiration: 2020-06-16
Also published as: US7536397B2; DE60029845D1; US20050125404A1; EP1393201A2; US20050114294A1; US20050060139A1; WO2000079437A2; US7206787B2; US7290005B2; US7269594B2; AU6802300A; US7290004B2; EP1393201B1; US20050043936A1; US20050125429A1; US7299238B2; WO2000079437A3; US6901402B1; US20050091243A1; ATE335242T1

Description

Hintergrund der Erfindung
Die Erfindung betrifft ein Verfahren zum Bestimmen einer Beziehung (so beispielsweise einer Ähnlichkeit hinsichtlich der Bedeutung) zwischen zwei oder mehr Texteingaben.
Die vorliegende Erfindung ist bei einer großen Vielzahl von Anwendungen von Nutzen, so beispielsweise bei vielen Aspekten des Informationsabrufes, darunter der Indexierung, der Verarbeitung vor der Abfrage, der Verarbeitung nach der Abfrage, der Gruppierung (Clustering) auf Basis der Ähnlichkeit von Dokumenten, der Zusammenfassung von Dokumenten, der Verständnisanalyse natürlicher Sprache und dergleichen mehr. Die vorliegende Erfindung wird gleichwohl im Zusammenhang mit dem Informationsabruf beschrieben, was jedoch lediglich illustrativ bedingt ist.
Im Allgemeinen ist ein Informationsabruf ein Prozess, durch den ein Anwender eine Information, die für ihn von Bedeutung ist, in einem großen Informationsvorrat findet und sie daraus abruft. Bei der Durchführung des Informationsabrufes ist von Bedeutung, sämtliche Information, die der Anwender benötigt, abzurufen (was bedeutet, dass die Vollständigkeit von Bedeutung ist). Gleichzeitig ist wichtig, die für den Anwender abgerufene unwichtige Information zu begrenzen (was bedeutet, dass die Selektivität von Bedeutung ist). Diese Dimensionen werden oftmals mit den Ausdrücken „Rückruf" („recall"; Vollständigkeit) und „Präzision" („precision", Selektivität) bezeichnet. In zahlreichen Informationsabrufsystemen ist von Bedeutung, ein gutes Leistungsvermögen sowohl bezüglich der Dimension „Rückruf" wie auch bezüglich der Dimension „Präzision" zu erreichen.
Bei einigen gängigen Abrufsystemen ist die Informationsmenge, die angefragt und durchsucht werden kann, äußerst groß. So sind einige Informationsabrufsysteme beispielsweise dafür ausgelegt, Information in einem globalen Computernetzwerk (so beispielsweise dem Internet), auf digitalen Videoplatten oder allgemein in anderen Computerdatenbanken zu suchen. Die Informationsabrufsysteme sind üblicherweise beispielsweise als Internetsuchmaschinen und Bibliothekskatalogsuchmaschinen ausgebildet. Darüber hinaus stehen sogar innerhalb des Betriebssystems eines herkömmlichen Desk topcomputers bestimmte Typen von Informationsabrufmechanismen zur Verfügung. So stellen beispielsweise einige Betriebssysteme ein Werkzeug bereit, mit dem ein Anwender sämtliche Dateien in einer gegebenen Datenbank oder in einem Computersystem auf Grundlage bestimmter anwenderseitig eingegebener Ausdrücke durchsuchen kann.
Es sind zahlreiche Informationsabruftechniken bekannt. Eine anwenderseitig eingegebene Anfrage wird bei derartigen Techniken üblicherweise als eine explizit anwenderseitig erzeugte Anfrage oder als eine implizite Anfrage dargestellt, was beispielsweise dann der Fall ist, wenn ein Anwender Dokumente anfordert, die zu einer Menge bestehender Dokumente ähnlich sind. Typische Informationsabrufsysteme durchsuchen Dokumente in einem größeren Datenvorrat entweder auf der Ebene einzelner Worte oder auf der Ebene von Ausdrücken. Jedem der Dokumente wird eine Relevanzwertung (oder Ähnlichkeitswertung) zugeordnet, wobei das Informationsabrufsystem eine bestimmte Untermenge der durchsuchten Dokumente an den Anwender ausgibt (üblicherweise diejenige Untermenge, die eine Relevanzwertung aufweist, die eine gegebene Schwelle übersteigt).
Die eher geringe Präzision herkömmlicher statistischer Suchmaschinen beruht auf der Annahme, dass Worte voneinander unabhängige Variablen darstellen (das heißt, dass Worte in einer beliebigen Textpassage voneinander unabhängig auftreten). Der Ausdruck „unabhängig" bezeichnet in diesem Zusammenhang die Tatsache, dass die Bedingungswahrscheinlichkeit, dass ein beliebiges Wort in einem Dokument bei Anwesenheit eines weiteren Wortes in diesem Dokument stets gleich 0 ist (das heißt, dass das Dokument einfach eine unstrukturierte Sammlung von Worten oder einfach „einen Worthaufen" enthält).
Es ist unmittelbar einsichtig, dass diese Annahme bei jeder beliebigen Sprache trivialerweise fehlerhaft ist. Worte, die in einer Textpassage auftreten, sind nämlich nicht unabhängig voneinander. Sie sind vielmehr hochgradig voneinander abhängig.
Schlüsselwortbasierte Suchmaschinen ignorieren diese raffinierte linguistische Struktur vollkommen. Man betrachte beispielsweise die nachfolgende als Beispiel angeführte Anfrage, die in einer natürlichen Sprache ausgedrückt ist: „Wie viele Herzen hat ein Oktopus?" Eine statistische Suchmaschine, die mit den Inhaltsworten „Herzen" und „Oktopus" oder morphologischen Stämmen hiervon arbeitet, gibt an den Anwender wahrscheinlich ein gespeichertes Dokument aus, das ein Rezept enthält, in dem die Zutaten und damit die Inhaltsworte „Artischockenherzen", „Tintenfische", „Zwiebeln" und „Oktopus" auftreten, oder es leitet den Anwender zu einem solchen Dokument. Eine derartige Suchmaschine kann, wenn Treffer bezüglich zweier Inhaltsworte auftreten, auf der Grundlage statistischer Messungen bestimmen, dass dieses Dokument ein hervorragender Treffer ist. In Wirklichkeit ist dieses Dokument mit Blick auf die Anfrage vergleichsweise unbedeutend.
Im Stand der Technik sind darüber hinaus verschiedene Verfahren zum Extrahieren von Elementen syntaktischer Phrasen bekannt, die als Ausdrücke in einem herkömmlichen statistischen Vektorraummodell indexiert werden. Ein Beispiel für ein derartiges Verfahren ist in der Doktorarbeit „Experiments in Automatic Phrase Indexing for Document Retrieval: A Comparison of Syntactic and Non-Syntactic Methods" von J. L. Fagan, erstellt an der Cornell Universität, 1988, Seiten 1 bis 261, beschrieben. Ein weiteres derartiges syntaxbasiertes Verfahren ist im Zusammenhang mit der Verwendung der Verarbeitung einer natürlichen Sprache zum Zwecke der Auswahl geeigneter Ausdrücke und deren Einbeziehung in Suchanfragen in dem Beitrag „Natural Language Information Retrieval: Tipster-2 Final Report" von T. Strzalkowski, veröffentlicht bei Proceedings of Advances in Text Processing: Tipster Program Phase 2, Darpa, 6. bis 8. Mai 1996, Tysons Corners, VA, Seiten 143 bis 148, sowie in dem Beitrag „Natural Language Information Retrieval" von T. Strzalkowski, veröffentlicht bei Information Processing and Management, Band 31, Nr. 3, 1995, Seiten 397 bis 417, beschrieben. Ein weiteres syntaxbasiertes Verfahren der hier in Rede stehenden Art ist in dem Beitrag „Annotating the World Wide Web Using Natural Language" von B. Katz, veröffentlicht bei Conference Proceedings of R.I.A.O. 97, Computer-assisted Information Search on Internet, McGill University, Quebec, Canada, 25. bis 27. Juni 1997, Band 1, Seiten 135 bis 155 beschrieben.
Diese syntaktischen Verfahren bringen nur geringe Verbesserungen oder konnten in gegenwärtig zur Verfügung stehenden Systemen zur Verarbeitung natürlicher Sprache überhaupt nicht implementiert werden. Daher hat sich die Forschung weg von dem Versuch der direkten Verbesserung der Präzision und des Rückrufes in Verbindung mit den Ergebnissen einer Anfrage und hin zu der Verbesserung der Anwenderschnittstelle bewegt.
Bei einigen Informationsabrufsystemen tritt darüber hinaus ein weiteres Problem auf. So können beispielsweise, wann immer Dokumente indexiert werden, was beispielsweise bei einer typischen statistischen Suchmaschine der Fall ist, der Index – was von der Inhaltsmenge abhängt – und die Anzahl der zu indexierenden Dokumente äußerst groß sein. Große Indizes gehen nicht nur mit großen Problemen hinsichtlich der Speicherkapazität einher, sondern erhöhen auch die Zeit, die für die Durchführung einer Anfrage auf Basis des Indexes benötigt wird.
Der Ausdruck „grammatische Beziehungen" beziehungsweise „Grammatikbeziehungen" wird zur Bezeichnung des Subjektes, des Objektes oder anderer Konstituenten verwendet, die auf Basis einer syntaktischen Analyse identifiziert werden können. Unter Sprachwissenschaftlern ist anerkannt, dass Grammatikbeziehungen nicht alle den gleichen Status aufweisen. So wurde beispielsweise von Keenan und Comrie eine Theorie dahingehend entwickelt, wie verschiedene Sprachen Positionen in einem Umfeld der Relativisierung markieren, die als Nominalphrasen angenommen werden. Die Theorie wird Zugänglichkeitshierarchie (oder Hierarchie der Zugänglichkeit) genannt und folgendermaßen beschrieben.
Thema (optional) > Subjekt > direktes Objekt > indirektes Objekt > präpositionales oder postpositionales Objekt > Genitiv (Possessor) > Objekt eines Vergleiches
Die Hierarchie der Zugänglichkeit stellt eine Verallgemeinerung dahingehend dar, dass je niedriger eine Nominalphrase in der Hierarchie angesiedelt ist, desto unwahrscheinlicher der Ausdruck dieser Nominalphrase als Relativpronomen ist.
Die Zugänglichkeitshierarchie und der Weg zu ihrer Ermittlung werden detaillierter in dem Beitrag „Language Typology and Syntactic Description, Complex Constructions", Kapitel 3, verfasst von Edward L. Keenan, herausgegeben von Timothy Chopin, 1985, sowie in dem Beitrag „N.P. Accessibility and Universal Grammar" von E.L. Keenan und B. Comrie, veröffentlicht bei Linguistic Inquiry 8: 63–100 (1977), beschrieben.
Der Erwähnung bedarf zusätzlich die Tatsache, dass bestimmte Sprachen oftmals Gebrauch von dem machen, was Sprachwissenschaftler oftmals allgemein als „Kasus" („Fälle") bezeichnen. Die englische Sprache verfügt noch über Reste eines früher vorhandenen Kasussystems. So unterscheidet die englische Sprache beispielsweise beim Pronominalsystem ein Subjekt, ein Objekt und einen Genitiv durch die Ausdrücke „he", „him", „his". Obwohl Sprachwissenschaftler viel Zeit und Mühe darauf verwandt haben, den Kasus betreffend die thematische Funktion von anderen Arten der Markierung zu unterscheiden, wird der Ausdruck „Kasus" im Sinne der vorliegenden Beschreibung in den nachfolgenden beiden Bedeutungen verwendet: (1) zur Beschreibung einer morphologischen Inflektion (Beugung), die üblicherweise eine Änderung von Wortendungen umfasst. Deutsch, Russisch und Lateinisch sind Beispiele für Sprachen, die morphologische Kasus aufweisen; (2) zur Beschreibung der Verwendung von Adpositionen (Präpositionen und Postpositionen) oder Partikeln zum Zwecke der Angabe der grammatischen Funktion einer Nominalphrase. Japanisch und Indonesisch sind Beispiele für Sprachen, bei denen Kasusinformationen dieser Art auftreten. Eine Diskussion von Grammatikbeziehungen und Kasus erfolgt in dem Beitrag „Grammatical Relations and Surface Cases" von Shibatani, veröffentlicht bei Language, Band 53, Nummer 4 (1977), Seiten 789 bis 809. Eine Diskussion der grammatischen Funktion und des morphologischen Kasus erfolgt zudem in dem Beitrag „Of Nominative and Accusative: The Hierarchical Assignment of Grammatical Case in Finnish" von Mating, veröffentlicht bei „Case and Other Topics in Finnish Syntactic" von A. Holenberg und U. Nikanne, Studies in Generative Grammar, Foris (1992), Seiten 51 bis 76. In der vorliegenden Beschreibung wird der Ausdruck „Beziehungen" sowohl zur Bezeichnung der Kasus wie auch zur Bezeichnung grammatischer Beziehungen verwendet.
Die Druckschrift US-A-5,331,556 offenbart ein Abrufverfahren für Daten in natürlicher Sprache, bei dem die Daten in natürlicher Sprache in Form einer Textkorpusdatei vorliegen. Diese Daten werden beispielsweise morphologisch analysiert, woraufhin die hieraus entstehenden zusätzlichen Daten der Textkorpusdatei hinzugefügt werden, was zu einer erweiterten Textkorpusdatei führt. So kann die erweiterte Textkorpusdatei beispielsweise einen morphologischen Baum enthalten, der aus einer Wurzel und Blättern für jedes Wort besteht, von denen jedes beispielsweise ein mögliches Suffix, Präfix und dergleichen enthält. Um einen derartigen Baum zu erhalten, kann auch ein Lexikon, so beispielsweise ein auf Medizin abgestimmtes Lexikon, verwendet werden. Für den Abruf von Text aus der erweiterten Textkorpusdatei wird ein Auslösezeichenmorphem aus dem abzurufenden Text gebildet. Aus einem derartigen Morphem wird eine Suchmaske mit dem Inhalt der erweiterten Textkorpusdatei korreliert. In Abhängigkeit von der erweiterten Textkorpusdatei wird eine 1:1-Suche vorgenommen.
Die Druckschrift WO 92/02890 A2 offenbart ein Eingabesystem, das einen Anwender in die Lage versetzt, Text über Symboltasten einzugeben. Mit jeder Taste ist eine Bedeutung (ein Wort) verknüpft. Die Tasten sind in Abhängigkeit von der Art des Wortes – Agens, Aktion oder Patiens – gruppiert. Auf dieser Grundlage kann der Anwender Text eingeben. Zur Ermittlung der richtigen Textabhängigkeit von der verwendeten Sprache werden Regeln und heuristische Vorgehensweisen verwendet, um den Eingabetext auf richtigen Text abzubilden, der anschließend beispielsweise über einen Drucker ausgegeben werden kann.
In dem Beitrag „Learning syntactic rules and tags with genetic algorithms for information retrieval and filtering: an empirical basis for grammatical rules" von R. M. Losee, veröffentlicht bei Information Processing and Management, Elsevier, Barking, GB, Band 32, Nr. 2, 1. März 1996 (1996-03-01), Seiten 185 bis 197, wird ein Verfahren zum Erlernen syntaktischer Regeln und Etiketten mit genetischen Algorithmen zum Informationsabruf und zur Filterung insbesondere für eine empirische Basis für grammatische Regeln offenbart.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein computerimplementiertes Verfahren zur Bestimmung einer Beziehung zwischen ersten und zweiten Texteingaben bereitzustellen, wobei das Verfahren eine verbesserte Effizienz und Genauigkeit bietet.
Die Aufgabe wird durch den Gegenstand des Anspruches 1 gelöst.
Bevorzugte Ausführungsbeispiele sind durch den Gegenstand der abhängigen Ansprüche festgelegt.
Kurzbeschreibung der Zeichnung
1 ist ein stark abstrahiertes Blockdiagramm eines illustrativen Systems, bei dem die vorliegende Erfindung zum Einsatz kommen kann.
2 ist ein Blockdiagramm eines Ausführungsbeispieles eines Computers entsprechend einem Aspekt der vorliegenden Erfindung.
3A ist ein funktionelles Blockdiagramm, das den Betrieb bei einem Aspekt der vorliegenden Erfindung entsprechend einem illustrativen Ausführungsbeispiel hiervon darstellt.
3B ist ein Flussdiagramm, das den Betrieb bei dem System von 3A darstellt.
4 ist ein Flussdiagramm, das den Betrieb des Systems von 3A entsprechend einem weiteren Ausführungsbeispiel der vorliegenden Erfindung darstellt.
5A ist ein funktionelles Blockdiagramm, das ein weiteres System darstellt, bei dem die vorliegende Erfindung verwendet werden kann.
5B bis 5F sind Fluss- und Blockdiagramme, die den Betrieb des Systems von 5A darstellen.
6A ist ein Blockdiagramm, das ein weiteres System darstellt, bei dem die vorliegende Erfindung verwendet werden kann.
6B und 6C sind Flussdiagramme, die den Betrieb des Systems von 6A entsprechend einem Ausführungsbeispiel der vorliegenden Erfindung darstellen.
7 ist ein Flussdiagramm, das eine Testmethodik darstellt, die entsprechend einem Ausführungsbeispiel der vorliegenden Erfindung verwendet wird.
Detailbeschreibung der illustrativen Ausführungsbeispiele
Übersicht
Bei der vorliegenden Erfindung finden Grammatikbeziehungen von Ausdrücken oder Phrasen (Konstituenten) in einer ersten Texteingabe Anwendung, um die Bedeutung oder den „Gehalt" („aboutness") der ersten Texteingabe zu bestimmen. Entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung wird eine Hierarchie von Grammatikbeziehungen identifiziert, bei der Grammatikbeziehungen, die unter ein vorbestimmtes Hierarchieniveau oder eine solche Schwelle fallen, für die Bestimmung des Gehaltes der ersten Texteingabe nicht besonders hilfreich sind. Bei einem weiteren Ausführungsbeispiel wird Kasusinformation identifiziert, durch die angegeben wird, dass Konstituenten entsprechend jener Kasusinformation bei der Bestimmung des Gehaltes der ersten Texteingabe nicht besonders hilfreich sind. Zum Zwecke dieser Diskussion wird das Wort „Ausdrücke" beziehungsweise „Begriffe" verwendet, um sowohl Grammatikbeziehungen wie auch Kasus zu bezeichnen. Während die vorliegende Erfindung für die Verwendung bei einer großen Vielzahl von Anwendungen gedacht ist, wird sie hier primär im Zusammenhang mit einem Informationsabruf beschrieben, was jedoch nur zu Illustrationszwecken erfolgt. In diesem Zusammenhang können diejenigen Konstituenten, die identifiziert sind, aus der ersten Texteingabe entfernt werden, bevor eine Indexierungsoperation vorgenommen wird, um die Größe des Indexes merklich zu verringern. Dies kann ohne merklichen Einfluss entweder auf die Präzision oder den Rückruf während des Informationsabrufprozesses sein. Die vorliegende Erfindung umfasst zudem ein System zum Ermitteln einer Liste von Typen zu identifizierender Konstituenten bei der Identifizierung der relevanten Kasusinformation oder beim Setzen der Hierarchie oder der Hierarchieschwelle, bei bestimmten Datenstrukturen und Systemen zur Erzeugung jener Datenstrukturen.
1 zeigt ein stark abstrahiertes Blockdiagramm eines Computersystems 10 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. Das Computersystem 10 umfasst einen Datenvorrat 12, der mit einem Computer 20 gekoppelt ist. Man beachte, dass der Datenvorrat 12 ein beliebiger Typ eines Speichers sein kann, der entweder innerhalb des Computers 20 oder außerhalb desselben angeordnet ist. Auf ähnliche Weise kann der Datenvorrat 12 mit dem Computer 20 über ein beliebiges geeignetes Mittel gekoppelt sein, so beispielsweise über eine Direktverkabelung, über eine Anwahlmodemverbindung (was beispielsweise dann der Fall ist, wenn der Datenvorrat 12 einem Speicher entspricht, der über ein globales Computernetzwerk, so beispielsweise das Internet, zugänglich ist) oder über eine beliebige andere Verbindung. Auf ähnliche Weise ist der Computer 20 rein beispielhalber ein beliebiger geeigneter Computer, mit dem auf den Datenvorrat 12 zugegriffen werden kann, und ist nachstehend als Personalcomputer angegeben, der detaillierter unter Bezugnahme auf 2 beschrieben wird.
Der Computer 20 umfasst Anwenderschnittstellenvorrichtungen (so beispielsweise eine Tastatur und einen Monitor), sodass ein Anwender eine Anwendereingabe für den Computer 20 bereitstellen kann, durch die er anfordert, dass der Computer 20 bestimmte Operationen an dem Datenvorrat 12 vornimmt.
Die Anwendereingabe kann eine Anforderung dahingehend sein, dass eine Informationsabrufoperation vorgenommen wird. In diesem Fall ist die Anwendereingabe typischerweise eine Anfrage, und der Computer 20 führt die Anfrage auf Grundlage des Datenvorrates 12 aus, um Dokumente zu lokalisieren, die mit Blick auf die von dem Anwender eingegebene Anfrage relevant sind. Der Computer 20 bestimmt eine Beziehung zwischen der ersten Texteingabe (die die Anfrage darstellt) und einer zweiten Textein gabe (die ein in Frage kommendes Dokument oder mehrere hiervon oder indexierte Einträge dieser Dokumente darstellt), identifiziert diejenigen Dokumente, die eine enge Beziehung (so beispielsweise diejenigen Dokumente, die hinsichtlich der Bedeutung ähnlich sind) zu der Anfrage aufweisen und stellt eine Identifizierung jener Dokumente oder die Dokumente selbst als Ausgabe für den Anwender bereit.
Die Anwendereingabe kann auch eine Informationsabrufanforderung vom impliziten Typ sein. In diesem Fall präsentiert der Anwender üblicherweise ein Dokument oder eine andere Texteingabe und fordert den Computer 20 auf, eine Operation vom Typ „Find same" („Finde sowas") vorzunehmen, bei der der Computer 20 Dokumente in dem Datenvorrat 12 lokalisiert, die zu der von dem Anwender bereitgestellten Texteingabe ähnlich sind. Der Computer 20 stellt anschließend entweder eine Identifizierung der lokalisierten Dokumente in Reaktion auf die Anforderung „Find same" oder die Dokumente selbst zur Verfügung.
Auf ähnliche Weise kann die Anwendereingabe eine Anforderung beinhalten, die Dokumente zu gruppieren (zu clustern), wobei in diesem Fall der Computer 20 eine Vielzahl von Dokumenten bezüglich des Datenvorrates 12 untersucht und gleiche Dokumente in denselben Gruppierungen (Clustern) gruppiert (clustert). Hierbei bestimmt der Computer 20 eine Beziehung (so beispielsweise eine Ähnlichkeit hinsichtlich der Bedeutung) zwischen den verschiedenen Dokumenten und platziert diejenigen Dokumente, die eng miteinander verwandt sind, in derselben Gruppierung.
Die Anwendereingabe kann auch eine Anforderung dahingehend sein, dass der Computer 20 ein oder mehrere Dokumente zusammenfasst, die in dem Datenvorrat 12 enthalten sind. In diesem Fall untersucht der Computer 20 die in Frage kommenden Dokumente und entwickelt eine Ausgabe für den Anwender, die die Bedeutung oder den „Gehalt" des zusammengefassten Dokumentes wiedergibt.
In all den vorgenannten Fällen sollte beachtet werden, dass die beschriebenen Operationen entweder über ein Netzwerk (entweder ein Ortsbereichsnetzwerk oder ein Großbereichsnetzwerk) vorgenommen werden können, oder dass sie innerhalb eines einzelnen Computers (was beispielsweise dann der Fall ist, wenn das Betriebssystem ein Suchwerkzeug zur Verfügung stellt, das zum Durchsuchen des Speichers des Computers, auf dem das Betriebssystem läuft, verwendet werden kann) erfolgen.
2 ist ein detaillierteres Blockdiagramm des Computers 20 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. 2 und die damit in Zusammenhang stehende Diskussion sollen eine kurze und allgemeine Beschreibung einer geeigneten Computerumgebung darstellen, in der die Erfindung implementiert werden kann. Obwohl nicht eigens erforderlich, wird die Erfindung wenigstens teilweise im allgemeinen Zusammenhang mit computerausführbaren Anweisungen, so beispielsweise mit Programmmodulen, beschrieben, die von einem Personalcomputer ausgeführt werden. Im Allgemeinen enthalten Programmmodule Routineprogramme, Objekte, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben (tasks) ausführen oder bestimmte abstrakte Datentypen implementieren. Darüber hinaus erschließt sich einem Fachmann auf dem einschlägigen Gebiet unmittelbar, dass die Erfindung auch bei anderen Computersystemkonfigurationen zum Einsatz kommen kann, darunter handbasierten Vorrichtungen, Multiprozessorsystemen, multiprozessorbasierten oder programmierten Geräten der Unterhaltungselektronik, Netzwerk-PCs, Minicomputern, Mainframecomputern und dergleichen mehr. Die Erfindung kann zudem in verteilten Computerumgebungen zum Einsatz kommen, wo Aufgaben (tasks) von entfernt angeordneten Verarbeitungsvorrichtungen ausgeführt werden, die über ein Kommunikationsnetzwerk in Verbindung stehen. In einer verteilten Berechnungsumgebung können Programmmodule sowohl in lokalen wie auch in entfernt angeordneten Speicherablagevorrichtungen lokalisiert sein.
Wie in 2 zu sehen ist, umfasst ein als Beispiel angegebenes System zur Implementierung der Erfindung eine Allzweckcomputervorrichtung in Form eines herkömmlichen Personalcomputers 20 mit einer Verarbeitungseinheit 21, einem Systemspeicher 22 und einem Systembus 23, der die verschiedenen Systemkomponenten, darunter den Systemspeicher, mit der Verarbeitungseinheit 21 koppelt. Der Systembus 23 kann ein beliebiger Systembus unter typischen Busstrukturen sein, darunter ein Speicherbus oder ein Speicherkontroller, ein Peripheriebus und ein lokaler Bus unter Verwendung einer Vielzahl von Busarchitekturen. Der Systemspeicher enthält einen Nurlesespeicher (ROM) 24, und einen Speicher mit wahlfreiem Zugriff (RAM) 25. Ein grundlegendes Eingabe-/Ausgabesystem (BIOS) mit einer Grundroutine, die die Übertragung von Informationen zwischen Elementen innerhalb des Personalcomputers 20 beispielsweise während des Hochfahrens unterstützt, ist in dem ROM 24 abgelegt. Der Personalcomputer 20 umfasst darüber hinaus ein Festplattenlaufwerk 27 zum Lesen von Daten von der (nicht gezeigten) Festplatte und zum Schreiben hierauf, ein Magnetplattenlaufwerk 28 zum Lesen von einer entnehmbaren Magnetplatte 29 oder zum Schreiben hierauf und ein Optikplattenlaufwerk 30 zum Lesen von einer entnehmbaren optischen Platte 31, so beispielsweise einer CD-ROM oder einem anderen optischen Medium, oder zum Schreiben hierauf. Das Festplattenlaufwerk 27, das Magnetplattenlaufwerk 28 und das Optikplattenlaufwerk 30 sind mit dem Systembus 23 über eine Festplattentreiberschnittstelle 32, eine Magnetplattentreiberschnittstelle 33 beziehungsweise eine Optiktreiberschnittstelle 34 verbunden. Die Treiber und die damit verbundenen computerlesbaren Medien stellen nichtflüchtige Speicher für computerlesbare Anweisungen, Datenstrukturen, Programmmodule und andere Daten für den Personalcomputer 20 dar.
Obwohl die als Beispiel angegebene und hier beschriebene Umgebung eine Festplatte, eine entnehmbare Magnetplatte 29 und eine entnehmbare Optikplatte 31 verwendet, erschließt sich einem Fachmann auf dem einschlägigen Gebiet unmittelbar, dass andere Arten computerlesbarer Medien, die in der Lage sind, Daten zu speichern, auf die ein Computer zugreifen kann, so beispielsweise Magnetkassetten, Flash-Memory-Karten, digitale Videoplatten, Bernoulli-Kartuschen, Speicher mit wahlfreiem Zugriff (RAM), Nurlesespeicher (ROM) und dergleichen mehr, ebenfalls in einer als Beispiel angegebenen Betriebsumgebung zum Einsatz kommen können.
Eine Anzahl von Programmmodulen kann auf der Festplatte, der Magnetplatte 29, der Optikplatte 31, in dem ROM 24 oder dem RAM 25 gespeichert sein, darunter ein Betriebssystem 35, ein oder mehrere Anwenderprogramme 36, weitere Programmmodule 37 sowie Programmdaten 38. Ein Anwender kann die Befehle und Informationen in den Personalcomputer 20 über Eingabevorrichtungen, so beispielsweise eine Tastatur 40 und eine Zeigevorrichtung 42, eingeben. Weitere Eingabevorrichtungen (nicht gezeigt) sind unter anderem ein Mikrofon, ein Joystick, ein Gamepad, eine Satellitenschüssel, ein Scanner und dergleichen mehr. Diese und andere Eingabevorrichtungen sind oftmals mit der Verarbeitungseinheit 21 über eine serielle Portschnittstelle 45 gekoppelt, die mit dem Systembus 23 gekoppelt ist, die jedoch auch mit anderen Schnittstellen verbunden sein kann, so beispielsweise einer Sound-Karte, einem Parallelport, einem Gameport oder einem universellen seriellen Bus (USB). Ein Bildschirm 47 oder eine andere Art von Anzeigevorrichtung ist ebenfalls mit dem Systembus 23 über eine Schnittstelle verbunden, so beispielsweise einen Videoadapter 38. Zusätzlich zu dem Bildschirm 37 können Personalcomputer üblicherweise weitere Peripherieausgabevorrichtungen, so beispielsweise einen Lautsprecher und Drucker (nicht gezeigt), umfassen.
Der Personalcomputer 20 kann in einer vernetzten Umgebung unter Verwendung logischer Verbindungen mit einem oder mehreren entfernt angeordneten Computern, so beispielsweise mit dem entfernt angeordneten Computer 49, arbeiten. Der entfernt angeordnete Computer 49 kann ein weiterer Personalcomputer, ein Server, ein Router, ein Netzwerk-PC, ein Peergerät oder ein anderer Netzwerkknoten sein und umfasst üblicherweise viele oder sämtliche Elemente, die vorstehend im Zusammenhang mit dem Personalcomputer 20 beschrieben worden sind, obwohl lediglich eine Speicherablagevorrichtung 50 in 1 dargestellt ist. Die in 1 gezeigten logischen Verbindungen umfassen ein Ortsbereichsnetzwerk (LAN) 51 und ein Großbereichsnetzwerk (WAN) 52. Derartige Netzwerkumgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet weit verbreitet.
Bei Verwendung in einer LAN-Netzwerkumgebung ist der Personalcomputer 20 mit dem Ortsbereichsnetzwerk 51 über eine Netzwerkschnittstelle oder einen Adapter 53 verbunden. Bei Verwendung in einer WAN-Netzwerkumgebung umfasst der Personalcomputer 20 üblicherweise ein Modem 54 oder eine weitere Einrichtung zum Bewerkstelligen von Datenaustauschvorgängen über das Großbereichsnetzwerk 52, so beispielsweise das Internet. Das Modem 54, das ein internes oder ein externes Modem sein kann, ist mit dem Systembus 23 über die serielle Portschnittstelle 46 verbunden. In einer Netzwerkumgebung können Programmmodule, die im Zusammenhang mit dem Personalcomputer 20 beschrieben worden sind, oder Teile hiervon in entfernt angeordneten Speicherablagevorrichtungen abgelegt werden. Man beachte, dass die gezeigten Netzwerkverbindungen rein beispielhalber angegeben sind und dass andere Einrichtungen zum Bewerkstelligen einer Datenaustauschverbindung zwischen den Computern zum Einsatz kommen können.
Identifizieren von Beziehungen
3A ist ein funktionelles Blockdiagramm eines Textverarbeitungssystems 100 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. Die Komponenten in dem System 100 können auf Basis von Programmmodulen oder Anweisungen implementiert sein, die in einem damit verbundenen geeigneten Speicher abgelegt sind, oder auf die ein Computer 20 zugreifen kann. Des Weiteren können die Komponenten in einem Prozessor 21, einem Coprozessor oder einem eigens zu diesem Zweck vorgesehenen Prozessor implementiert sein.
Das Textverarbeitungssystem 100 umfasst eine Konstituentenmarkierungskomponente 102 und eine Beziehungsbestimmungskomponente 104. Die Konstituentenmarkierungskomponente 102 empfängt eine erste Texteingabe und identifiziert die Konstituenten und die damit verbundene Kasusinformation oder die Grammatikbeziehungen der Konstituenten der ersten Texteingabe, was nachstehend detailliert beschrieben wird. Ist die Kasusinformation identifiziert, so werden die damit verbundenen Konstituenten derart gekennzeichnet, dass sie mit einer vorbestimmten Kasusinformation während einer späteren Verarbeitung verglichen werden können. Sind die Grammatikbeziehungen identifiziert, so sind die Konstituenten derart gekennzeichnet, dass sie während einer späteren Verarbeitung nach Rang angeordnet werden können.
Sind die Grammatikbeziehungen identifiziert, so werden die gekennzeichneten Konstituenten und Grammatikbeziehungen bei einem als Beispiel angegebenen Ausführungsbeispiel als syntaktischer Parsingbaum (Zergliederungsbaum) oder als eine andere syntaktische Analyse für die Beziehungsbestimmungskomponente 104 bereitgestellt, obwohl auch andere Typen von Analyse, die Grammatikbeziehungen von Konstituenten identifizieren, verwendet werden können. Ist die Kasusinformation identifiziert, so kann der damit verbundene Konstituent einfach mit einem Kennzeichen bereitgestellt werden, das die Beziehung wiedergibt.
Bei einem Ausführungsbeispiel, bei dem das System 100 verwendet wird, um die Beziehung zwischen zwei oder mehr Texteingaben zu bestimmen, bestimmt die Beziehungsbestimmungskomponente 104 eine Beziehung zwischen der ersten Texteingabe gemäß Darstellung durch die syntaktische Analyse oder den gekennzeichneten Konstituenten gemäß Ausgabe durch die Markierungskomponente 102 und einer zweiten Texteingabe gemäß Bereitstellung für die Komponente 104. Die Komponente 104 stellt eine Wiedergabe der Beziehung an ihrem Ausgang bereit.
Um die Konstituenten zu identifizieren und zu kennzeichnen, umfasst die Markierungskomponente 102 einen Kasus- oder Grammatikbeziehungsanalysator 106 sowie einen Konstituentenidentifizierer und Kennzeichner 108. Die erste Texteingabe wird dem Analysator 106 zugeführt. Bei einem illustrativen Ausführungsbeispiel, bei dem die Kasusinformation ermittelt werden soll, umfasst der Analysator 106 einen Worttrenner (beispielsweise für Japanisch) und einen Analysator, der bestimmt, wo die Kasusmarkierung auftritt. Bei einem anderen Ausführungsbeispiel, bei dem morphologische Kasusinformation identifiziert werden soll (beispielsweise für Deutsch), umfasst der Analysator 106 ei nen Redeteilanalysator und einen morphologischen Analysator, der die Worte bezüglich morphologischer Inflektion analysiert. Die Konstituenten mit der zugehörigen Kasusinformation sind als Ausgabe für den Konstituentenidentifizierer und Kennzeichner 108 vorgesehen.
Bei einem weiteren illustrativen Ausführungsbeispiel umfasst der Analysator 106 einfach einen Satztrenner, der die für ihn bereitgestellte erste Texteingabe untersucht und das Dokument an Satzgrenzen trennt. Die Sätze werden einem syntaktischen und semantischen Analysator (auch in dem Grammatikbeziehungsanalysator 106 enthalten) zugeführt, der die Teile der Rede (so beispielsweise Nomen und Verben), die Konstituenten (so beispielsweise Nominalphrasen und Verbalphrasen) und Grammatikbeziehungen (so beispielsweise Subjekte und Objekte) identifiziert und eine Ausgabe auf Basis einer syntaktischen Analyse bereitstellt, die dem von dem syntaktischen und semantischen Analysator empfangenen Satz entspricht. Man beachte, dass ein beliebiger anderer geeigneter Mechanismus, der die Grammatikbeziehungen zwischen den Konstituenten identifiziert, ebenfalls Verwendung finden kann.
Die syntaktische Analyse oder eine andere Ausgabe (so beispielsweise als Konstituenten mit Kasusinformation) wird für den Konstituentenidentifizierer und Kennzeichner 108 bereitgestellt. Man beachte, dass der Grammatikanalysator 106 auch ein komplizierteres System darstellen kann, das eine weitere morphologische Analyse oder andere Verarbeitungstechniken für natürliche Sprache enthält.
Entsprechend einem spezifischeren illustrativen Ausführungsbeispiel der vorliegenden Erfindung empfängt beispielsweise der syntaktische und semantische Analysator in dem Grammatikbeziehungsanalysator 106 zu einem bestimmten Zeitpunkt eine einzelne Zeile eines Eingabetextes, sei dies nun ein Satz in einem Dokument oder ein Textfragment, und erstellt eine syntaktische Analyse, die als Eingabe für den Rest des Grammatikbeziehungsanalysators 106 dient. Bei einem illustrativen Ausführungsbeispiel, in dem Dokumente analysiert werden, um die Verarbeitung natürlicher Sprache zu erleichtern, die jeweils auf einem einzelnen Satz beruht, wird der Text für jedes Dokument in einer Textdatei unter Verwendung eines herkömmlichen Satztrenners getrennt, bei dem jeder Satz eine eigene Zeile in der Datei einnimmt. Für jede eingegebene Textzeile wird die Zeile zunächst in ihre konstituierenden Wörter geparst beziehungsweise zergliedert. Anschließend wird unter Verwendung eines vordefinierten Eintrages in einem gespeicherten Lexikon für jedes Wort der entsprechende Eintrag für diese konstituierenden Worte (über vordefinierte grammatische Regeln) selbst zu größeren Strukturen oder Analysen kombiniert, die dann wiederum derart kombiniert werden (wiederum durch vordefinierte grammatische Regeln), dass sie noch größere Strukturen bilden, so beispielsweise einen syntaktischen Parsingbaum. Ob eine bestimmte Regel auf eine bestimmt Menge beziehungsweise einen bestimmten Satz von Konstituenten anwendbar ist, hängt zum Teil vom Vorhandensein oder Nichtvorhandensein bestimmter entsprechender Eigenschaften beziehungsweise Attribute und ihrer Werte bei den Worteinträgen ab.
Ein illustratives Lexikon umfasst annähernd 165.000 Stichworteinträge. Dieses Lexikon umfasst verschiedene Klassen von Worten (so beispielsweise Präpositionen, Konjunktionen, Verben, Nomen, Operatoren und Qualifizierer), die syntaktische und semantische Eigenschaften definieren, die den Worten in einer Eingabefolge inhärent zueigen sind, sodass ein Parsingbaum hierfür erstellt werden kann. Es ist einsichtig, dass ein syntaktischer Parsingbaum auch vorab berechnet werden kann, während ein entsprechendes Dokument indexiert und in einem Eintrag für jedes Dokument für einen späteren Zugriff und eine nachfolgende Verwendung abgelegt wird, anstatt dass die Berechnung später erfolgt, sobald das Dokument in Reaktion auf eine Anfrage abgerufen worden ist.
Bei einem besonderen illustrativen Ausführungsbeispiel des Grammatikanalysators 106 wird eine Eingabefolge, so beispielsweise der Satz „Der Oktopus hat drei Herzen.", zunächst morphologisch analysiert, und zwar unter Verwendung des vordefinierten Eintrages in dem Lexikon für jedes seiner Konstituentenworte, um eine sogenannte „Stammform" oder „Basisform" zu erzeugen. Stammformen werden verwendet, um voneinander abweichende Wortformen (so beispielsweise Verbzeiten und Abwandlungen beim Nomen hinsichtlich Singular und Plural) zu normalisieren beziehungsweise zu vereinheitlichen, und zwar auf eine gemeinsame morphologische Form, die von dem Parser verwendet werden kann. Sobald die Stammformen erzeugt sind, wird die Eingabefolge syntaktisch von dem Parser analysiert, und zwar unter Verwendung grammatischer Regeln und Eigenschaften in den Einträgen der Konstituentenworte, um den entsprechenden syntaktischen Parsingbaum zu erhalten. Dieser Baum gibt die Struktur der Eingabefolge, insbesondere jedes Wort oder jede Phrase (so beispielsweise die Nominalphrase „Oktopus") in der Eingabefolge, eine Kategorie der jeweiligen grammatischen Funktion (so beispielsweise NP für jede Nominalphrase) und Verknüpfungen (links) für jedes syntaktisch verwandte Wort oder jede Phrase darin wieder. Für den Beispielssatz würde der damit verbundene syntaktische Parsingbaum folgendermaßen aussehen.
Tabelle 1: Syntaktischer Parsingbaum für den Satz „Der Oktopus hat drei Herzen."
Ein Startknoten, der in der oberen linken Ecke des Baumes angeordnet ist, definiert den Typ der geparsten Eingabefolge. Zu den Satztypen zählen „DECL" (wie hier angegeben) für einen Aussagesatz, „IMPR" für einen Befehlssatz und „QUES" für eine Frage. Vertikal nach rechts verlaufend und unterhalb des Startknotens ist eine Analyse auf einem ersten Niveau. Die Analyse umfasst einen Kopfknoten, der durch einen Asterisken (oder eine andere geeignete Markierung) gegeben ist, üblicherweise ein Hauptverb (hier das Verb „hat"), einen Prämodifizierer (hier die Nominalphrase „Der Oktopus"), gefolgt von einem Postmodifizierer (hier die Nominalphrase „drei Herzen"). Jedes Blatt des Baumes enthält einen lexikalischen Ausdruck oder ein Satzzeichen. Hierbei bezeichnen (als Etiketten) „NP" eine Nominalphrase und „CHAR" ein Satzzeichen.
Die Ausgabe des Kasus- oder Grammatikbeziehungsanalysators 106 (beispielhalber eine syntaktische Analyse entsprechend einem analysierten Satz) wird für den Konstituentenidentifizierer und Kennzeichner 108 bereitgestellt. Bei einem als Beispiel angegebenen Ausführungsbeispiel, bei dem die Konstituenten und die damit verbundene Kasusinformation durch den Analysator 106 bereitgestellt werden, umfasst der Konstituentenidentifizierer und Kennzeichner 108 eine vorbestimmte Liste von Kasusinformationen, die diejenigen Fälle identifiziert, die tendenziell weniger stark den Gehalt der ersten Texteingabe angeben. Bei einem derartigen Ausführungsbeispiel umfasst die Komponente 108 eine Softwarekomponente, die die Ausgabe von dem anderen Analysator 106 emp fängt, und nach Konstituenten mit damit verknüpfter Kasusinformation sucht, die in der vorbestimmten Liste enthalten ist. Die Komponente 108 kennzeichnet diejenigen Konstituenten, die die vorbestimmte Kasusinformation enthalten (und nimmt damit eine Kennzeichnung derjenigen Konstituenten vor, die mit dem Gehalt des Dokumentes vergleichsweise wenig in Beziehung stehen).
Bei einem illustrativen Ausführungsbeispiel umfasst der Konstituentenidentifizierer und Kennzeichner 108 eine vorbestimmte Hierarchie zu identifizierender Grammatikbeziehungen und eine vorbestimmte Hierarchieschwelle. Bei einem illustrativen Ausführungsbeispiel ist die vorbestimmte Hierarchie die Zugänglichkeitshierarchie gemäß der Theorie von Keenan und Comrie, die vorstehend im Abschnitt „Hintergrund der Erfindung" dargestellt worden ist. Die Schwelle ist einfach durch ein vorbestimmtes Niveau oder eine Position in der Hierarchie definiert. Daher sind sämtliche Grammatikbeziehungen, die unterhalb der Schwellenposition in der Hierarchie befindlich sind, in der vorbestimmten Liste von Grammatikbeziehungen enthalten. Die Komponente 108 kennzeichnet die Konstituenten, deren Grammatikbeziehung unter die Schwelle fällt. Derart enthält der Konstituentenidentifizierer und Kennzeichner 108 eine Softwarekomponente, die die syntaktische Analyse, die von dem Grammatikbeziehungsanalysator 106 bereitgestellt worden ist, durchläuft und nach Konstituenten sucht, deren Grammatikbeziehungen in der Liste der vorbestimmten Grammatikbeziehungen enthalten sind (und die damit den Konstituenten entspricht, deren Grammatikbeziehungen unter die Schwelle fallen). Bei der Identifizierung einer Grammatikbeziehung in einem an den Identifizierer und Kennzeichner 108 weitergeleiteten Satz als in der vorbestimmten Liste befindlich kennzeichnet die Komponente 108 den damit verbundenen Konstituenten, um anzugeben, dass es sich hierbei um einen Konstituenten handelt, dessen Grammatikbeziehung in der Liste der vorbestimmten Grammatikbeziehungen enthalten ist.
Entsprechend einem Aspekt der vorliegenden Erfindung sind vorbestimmte Grammatikbeziehungen oder Kasusinformationen diejenigen, bei denen man empirisch bestimmt hat, dass sie bei der Bestimmung dessen, wovon das Gesamtdokument oder der Satz handeln, einen geringen oder gar keinen Beitrag leisten. So ist in vielen Beispielen das Subjekt eines Hauptgliedes in einem Satz tendenziell derart, dass es das intuitive Leseverständnis eines Lesers dahin leitet, wovon der Satz oder das Dokument handeln, während das indirekte Objekt eines untergeordneten Satzgliedes dies nicht tut. Darüber hinaus sind beispielsweise japanische Dokumente mit Trefferschlüsselworten, die mit dem Themamarkierer „wa" markiert sind, oftmals hochgradig relevant, während Dokumente mit Schlüsselworten mit dem Unterordnungsmarkierer „no" (der beispielsweise partitive, attributive, possessive und appositive Verhältnisse markiert) oftmals unwichtig sind. Auf ähnliche Weise werden im Japanischen verschiedene Nominalkoordinationsmarkierer („ya", „nado" und das Komma) nur im Zusammenhang mit einer Aufzählung (so beispielsweise „A, B, C" und so weiter) verwendet. Dokumente, die Schlüsselworte enthalten, die mit diesen Aufzählungsmarkierern markiert sind, sind oftmals irrelevant. Derartige Typen von Konstituenten und Kasusinformation können entsprechend einer geeigneten Testmethodik empirisch identifiziert werden, von denen eine nachstehend detailliert unter Bezugnahme auf 7 beschrieben wird.
Darüber hinaus sollte Beachtung finden, dass eine komplette syntaktische Analyse nicht für die Grobidentifizierung der Grammatikbeziehungen oder Kasus implementiert sein muss. Anstelle dessen können einfache Redeteile und ihre Anordnung in einem Satz identifiziert werden. So hat man beispielsweise beobachtet, dass Nomen, die sehr weit am Anfang eines Satzes stehen, oftmals die Subjekte des Satzes sind. Daher können für den Fall, dass die Anfangsschwelle in der Zugänglichkeitshierarchie genau unterhalb der Subjekte gesetzt ist, alle Ausdrücke in einem Satz nach dem ersten Nomen gekennzeichnet werden. Es können auch andere Techniken zum Einsatz kommen. Algorithmen, die eine Etikettierung der Redeteile vornehmen, sind weit verbreitet und bekannt.
Sobald die relevanten Konstituenten gekennzeichnet worden sind, wird die gekennzeichnete Struktur (so beispielsweise eine gekennzeichnete syntaktische Analyse) in jedem Fall an die Beziehungsbestimmungskomponente 104 übertragen. Bei dem in 3A dargestellten Ausführungsbeispiel ist die Komponente 104 derart konfiguriert, dass sie eine vorbestimmte Beziehung zwischen der ersten Texteingabe gemäß Bereitstellung für den Analysator 106 und einer zweiten Texteingabe gemäß Bereitstellung für die Komponente 104 bestimmt. Bei einem illustrativen Ausführungsbeispiel ist die zu bestimmende Beziehung die Ähnlichkeit hinsichtlich der Bedeutung zwischen der ersten Texteingabe und der zweiten Texteingabe.
Bei der Durchführung dieser Aufgabe (task) berücksichtigt die Komponente 104 die gekennzeichneten Konstituenten (so beispielsweise in der gekennzeichneten syntaktischen Analyse) gemäß Bereitstellung durch die Konstituentenmarkierungskomponente 102. So kann beispielsweise die Komponente 104 die gekennzeichneten Konstituenten schlicht entfernen und den Grad der Ähnlichkeit zwischen der ersten Texteingabe (mit den gelöschten gekennzeichneten Konstituenten) und der zweiten Texteingabe bestimmen.
Dies verringert den Umfang des Vergleiches und der erforderlichen Verarbeitung, da der Gesamttext in der ersten Texteingabe verringert wird. Gewichtungstechniken können ebenfalls verwendet werden und werden in der vorliegenden Druckschrift nachstehend detailliert beschrieben.
3B ist ein Flussdiagramm zur detaillierteren Darstellung des Betriebes des Systems 100 von 3A. Zunächst empfängt der Kasus- oder Grammatikanalysator 106 die erste Texteingabe. Dies ist durch den Block 110 angegeben. Bei einem illustrativen Ausführungsbeispiel ist die Texteingabe ein analysiertes Dokument. Der Analysator 106 nimmt in dem Dokument eine Trennung an Satzgrenzen vor. Darüber hinaus kann bei einem illustrativen Ausführungsbeispiel der Analysator 106 morphologische, syntaktische und semantische Analysekomponenten enthalten oder derartige Komponenten auch nicht enthalten, sondern einfach eine Komponente, die die Kasusinformation oder die Grammatikbeziehungen in jedem Satz identifiziert. Dies ist durch Block 112 angedeutet.
Nach Erzeugung der syntaktischen Analyse (beispielsweise derjenigen von Tabelle 1) oder der Beziehungsinformationen gibt der Analysator 106 jene Ausgabe an den Konstituentenidentifizierer und Kennzeichner 108 weiter. Die Komponente 108 vergleicht Beziehungen gemäß Identifizierung auf Basis der vorbestimmtem Liste von Beziehungen oder durchläuft die syntaktische Analyse gemäß Tabelle 1, bis sie auf einen Konstituenten trifft, dessen Beziehung in der vorbestimmten Liste von Grammatikbeziehungen enthalten ist (und damit unterhalb der vorbestimmtem Hierarchieschwelle befindlich ist). Unter der Voraussetzung, dass, wie beispielsweise in Tabelle 1 angegeben ist, Objekte auf der Liste vorbestimmter Grammatikbeziehungen befindlich sind, durchläuft die Komponente 108 die syntaktische Analyse, bis sie auf denjenigen Knoten trifft, der von der grammatischen Analyse 106 als Objekt identifiziert worden ist. Da die Grammatikbeziehung in der vorbestimmten Liste von Grammatikbeziehungen vorhanden ist, kennzeichnet die Komponente 108 jenem Knoten (und gegebenenfalls alle Ausdrücke, die von jenem Knoten ausgehen) als in der Liste vorbestimmter Grammatikbeziehungen enthalten und als unter der Hierarchieschwelle befindlich. Diese Kennzeichnung ist in Tabelle 1 mit „/Objekt" angegeben. Die Identifizierung der vorbestimmten Grammatikbeziehungen und die Kennzeichnung jener Grammatikbeziehungen ist in 3B durch Blöcke 114 und 116 angedeutet. Auch hier bezeichnet der Ausdruck „Beziehungen" im Sinne der vorliegenden Beschreibung sowohl Grammatikbeziehungen wie auch Kasus.
Die gekennzeichnete syntaktische Analyse (oder eine Ausgabe, die Beziehungskennzeichnungen enthält) wird anschließend an die Komponente 104 von 3A weitergeleitet. Bei einem Ausführungsbeispiel, wo beispielsweise das System 100 die Ähnlichkeit zwischen der ersten und der zweiten Texteingabe bestimmt, ist die Komponente 104 in der Lage, eine Anzahl von Operationen an der gekennzeichneten Ausgabe der Komponente 102 vorzunehmen. Wenn beispielsweise empirisch bestimmt worden ist, dass die gekennzeichneten Ausdrücke nicht denjenigen entsprechen, von denen die erste Texteingabe handelt, können alle gekennzeichneten Ausdrücke einfach mittels Straffung aus der gekennzeichneten Ausgabe entfernt werden. Dies ist in 3B durch Block 118 angedeutet.
Sobald die gekennzeichneten Ausdrücke mittels Straffung entfernt worden sind und die zweite Texteingabe empfangen worden ist, bestimmt die Komponente 104 einfach die Ähnlichkeit zwischen den in dem gestrafften Text verbliebenen Ausdrücken und den Ausdrücken in der zweiten Texteingabe. Ist beispielsweise die erste Texteingabe ein Dokument und die zweite Texteingabe eine Anfrage, so werden die Inhaltsworte in der zweiten Texteingabe (der Anfrage) mit denjenigen Worten verglichen, die in der gestrafften syntaktischen Analyse entsprechend den Sätzen in dem Dokument verblieben sind, um zu bestimmen, ob irgendwelche Treffer vorhanden sind. Es wird dem Dokument eine Wertung zugewiesen, die auf der Anzahl der auftretenden Treffer basiert und die damit die Ähnlichkeit zwischen der ersten Texteingabe (dem Dokument) und der zweiten Texteingabe (der Anfrage) wiedergibt. Diese Wertung wird für die Ausgabe der Komponente 104 zur Verwendung bei einer weiteren Verarbeitung bereitgestellt. Bei Rückgabe der gestrafften syntaktischen Analyse wird der Empfang der zweiten Texteingabe und die Bestimmung der Beziehung zwischen den ersten und zweiten Texteingaben in 3B durch Blöcke 120, 122 und 124 angedeutet.
Wie vorstehend erläutert worden ist, kann die Komponente 104 eine beliebige Anzahl von Operationen an der gekennzeichneten Ausgabe gemäß Bereitstellung durch die Markierungskomponente 102 vornehmen, und zwar auch über das mittels Straffung erfolgende Entfernen gekennzeichneter Ausdrücke hinausgehend. 4 ist ein Flussdiagramm, das eine alternative Operation detaillierter darstellt. Eine Anzahl von Blöcken ähnelt denjenigen von 3B und ist auf ähnliche Weise bezeichnet. Somit empfängt das System 100 die erste Texteingabe und nimmt eine Analyse vor, um Kasusinformation oder Grammatikbeziehungen entsprechend den Konstituenten hiervon (so beispielsweise durch Erzeugung einer syntaktischen Analyse) zu erzeugen, und identifiziert darüber hinaus, ob die Konstituenten damit verbundene Beziehungen aufweisen, die den vorbestimmtem Beziehungen entsprechen (beispielsweise durch Lokalisieren der Beziehungen in der vorbestimmten Liste oder Hierarchie von Beziehungen). Dies ist durch Blöcke 110, 112 und 114 angedeutet.
Anstatt nun einfach die identifizierten Konstituenten auf binäre Weise (wie beispielsweise anhand 3B beschrieben worden ist) zu kennzeichnen, nimmt die Komponente 108 bei dem illustrativen Beispiel gemäß 4 die Zuweisung eines Gewichtungswertes für jeden der Konstituenten in Abhängigkeit davon vor, wie nahe jeder Konstituent am „Gehalt" der ersten Texteingabe ist. So kann beispielsweise empirisch festgestellt werden, dass das Subjekt eines Hauptsatzgliedes enger mit dem Gehalt des Dokumentes verwandt ist als das Objekt in einem untergeordneten Satzglied. Alternativ kann einfach davon ausgegangen werden, dass diejenigen Konstituenten mit damit verbundenen Grammatikbeziehungen, die in der vorerläuterten Zugänglichkeitshierarchie höher angesiedelt sind, enger am Gehalt sind als Konstituenten, die eine damit verbundene Grammatikbeziehung aufweisen, die in der Hierarchie niedriger angeordnet ist. Ist dies der Fall, so wird vorzugsweise eine Verbindung zwischen Ausdrücken in der ersten Texteingabe und Ausdrücken hergestellt, die in der Hierarchie höher angesiedelt sind. Ein Weg zur Bewerkstelligung hiervon besteht in der Zuweisung variierender Gewichtungen an die Konstituenten auf Basis der Lokalisierung ihrer entsprechenden Beziehungen in der Hierarchie. Sobald die Beziehungen der Konstituenten während der Analyse der Texteingabe identifiziert worden sind, können Objekte in den untergeordneten Satzgliedern mit einem sehr niedrigen Wert (beispielsweise 0,1 auf einer Skala zwischen 0 und 1) versehen werden, während Objekte der Hauptsatzglieder mit sehr hohen Werten (so beispielsweise 0,9) gewichtet werden können. Der bestimmte jeweils zugewiesene Gewichtungswert kann empirisch oder intuitiv bestimmt werden. Eine ähnliche Gewichtung kann auf Basis der identifizierten Kasusinformationen vorgenommen werden. Mit anderen Worten, den Konstituenten mit den damit verbundenen Beziehungen, die in der vorbestimmten Rangliste von Beziehungen hoch angesiegelt sind, wird ein höheres Gewicht als denjenigen zugeordnet, die in der Rangliste niedriger angeordnet sind (und zwar unter der Annahme, dass diejenige Beziehung, die in der Liste höher angesiedelt ist, enger mit dem Gehalt verwandt ist). Dies ist in 4 durch Block 116 angedeutet.
Der gekennzeichnete Text (beispielsweise die syntaktische Analyse) wird anschließend an die Komponente 104 übermittelt, was durch Block 126 angegeben ist. Anschließend wird, wie anhand 3B beschrieben worden ist, die zweite Texteingabe empfangen, wie durch Block 122 angedeutet ist, woraufhin die Beziehung zwischen den ersten und zweiten Texteingaben durch Rückgriff auf den gekennzeichneten (gewichteten) Text, wie in Block 128 angegeben, bestimmt wird.
Zusammenfassen und Gruppieren (Clustern)
Die Techniken entsprechend der vorliegenden Erfindung können bei einer Vielzahl von Anwendungen zum Einsatz kommen. Ist die Anwendung beispielsweise dafür bestimmt, die Zusammenfassung eines Dokumentes zu erzeugen, so kann die vorliegende Erfindung zur Identifizierung und aus der Zusammenfassung erfolgenden Entnahme von Satzgliedern oder Ausdrücken verwendet werden, die nicht mit dem Gehalt des Dokumentes in Beziehung stehen. In diesem Fall enthält das System 100 keine Beziehungsbestimmungskomponente 104, die zur Bestimmung der Beziehungen zwischen der ersten Texteingabe und der zweiten Texteingabe verwendet würde. Vielmehr wird hierfür eine allgemeine Zusammenfassungserzeugungskomponente eingesetzt, die derart ausgelegt ist, dass sie eine Zusammenfassung auf Basis des gekennzeichneten oder gestrafften Textes (beispielsweise der syntaktischen Analyse) gemäß Ausgabe durch die Komponente 102 erzeugt.
Ist die Anwendung eine Dokumentengruppierungsanwendung, so ist das System 100 auf ähnliche Weise derart ausgelegt, dass es sämtliche zu gruppierenden Dokumente empfängt und die gekennzeichneten Texte (so beispielsweise die syntaktischen Analysen) auf Basis der Sätze in jedem der Dokumente erzeugt. Anschließend nimmt die Beziehungsbestimmungskomponente 104 als Eingaben einfach gekennzeichnete Texte aus zwei oder mehr Dokumenten, um die Beziehung zwischen den beiden Dokumenten zu bestimmen. Die Beziehungswertungen werden für sämtliche möglichen Dokumentenpaare berechnet, wobei die mit der höchsten Beziehungswertung zusammengruppiert (geclustert) werden.
Informationsabruf vor der Indexierung
Während sämtliche vorgenannten Anwendungen mit der Aufgabe (task) des Informationsabrufes in Zusammenhang stehen, kann die vorliegende Erfindung beispielhalber auch direkt in einer Anwendung zum Einsatz kommen, die einen Informationsabruf innerhalb eines Computers vornimmt, und zwar über ein Ortsbereichsnetzwerk oder ein Großbereichsnetzwerk, so beispielsweise ein globales Computernetzwerk. 5A bis 5F zeigen die Verwendung der vorliegenden Erfindung bei Informationsabrufoperationen im Zusammenhang mit einem globalen Computernetzwerk, wobei Techniken entsprechend der vorliegenden Erfindung vor der Indexierung zum Einsatz kommen.
5A ist ein funktionelles Blockdiagramm, das die Konstituentenmarkierungskomponente 102 (die anhand 3A beschrieben worden ist) im Zusammenhang mit einem Internetinformationsabrufsystem 200 darstellt. Das System 200 umfasst eine Netzdurchpflügerkomponente 202 (web crawler), eine Textfilterkomponente 204, eine Konstituentenmarkierungskomponente 102, einen Indexierer 206 und einen Index 208. Das System 200 umfasst darüber hinaus eine Suchmaschine 210. 5B ist ein Flussdiagramm, das den Betrieb des Systems 200 darstellt.
Die Netzdurchpflügerkomponente 202 (web crawler) ist eine gängige Komponente, die beispielsweise im Betriebssystem eines Computers integriert ist, periodisch einen Zugriff auf vorbestimmte Seiten des globalen Computernetzwerkes vornimmt und eruiert, ob zu der Seite, auf die zugegriffen wird, Inhalt hinzugefügt worden ist. Ist dies der Fall, so stellt die Netzdurchpflügerkomponente 202 den Inhalt für den Textfilter 204 bereit. Der Textfilter 204 ist ebenfalls eine gängige Komponente, die Ausdrücke, die vom Standpunkt der Indexierung aus unerwünscht sind, entnimmt. So entfernt beispielsweise bei einem illustrativen Ausführungsbeispiel die Textfilterkomponente 204 sämtliche HTML-Tags oder andere Ausdrücke aus der von dem Netzdurchpflüger 202 zur Verfügung gestellten Information. Der Empfang der Netzinhaltsinformation ist in 5B durch Block 212 angedeutet, während das Filtern des Textes in 5B durch Block 214 angedeutet ist. Die gefilterte Information wird anschließend für die Konstituentenmarkierungskomponente 102 bereitgestellt. Die Konstituentenmarkierungskomponente 102 arbeitet auf ähnliche Weise, wie dies im Zusammenhang mit 3A beschrieben worden ist. Mit anderen Worten, die Konstituentenmarkierungskomponente 102 umfasst beispielsweise einen Satztrenner, der den an seinem Eingang bereitgestellten Text an Satzgrenzen zertrennt. Die Komponente 102 umfasst darüber hinaus vorzugsweise eine Kasus- oder Grammatikanalysefunktionalität, die die Sätze parst beziehungsweise zergliedert und eine Ausgabe bereitstellt, die Beziehungen (so beispielsweise Kasusinformation oder Grammatikinformation) bereitstellt, die sie mit der vorbestimmten Rangliste vergleicht oder die sie in der vorbestimmten Hierarchie anordnet. Die Komponente 102 umfasst beispielsweise darüber hinaus einen Konstituentenidentifizierer und Kennzeichner 108, der die von dem Kasus- und Grammatikbeziehungsanalysator bereitgestellte Ausgabe empfängt und die Konstituenten auf Basis ihrer Kasusinformation oder Position in der vorbestimmten Hierarchie kennzeichnet.
Die Konstituenten mit den damit verbundenen vorbestimmten Kasusinformationen oder Grammatikbeziehungen, die unterhalb einer vorbestimmten Hierarchieschwelle liegen, können gestrafft werden, oder es können einige oder alle Konstituenten mit einem Gewichtungswert, siehe vorstehende Diskussion, gekennzeichnet werden. Das Identifizieren und Kennzeichnen der Konstituenten wird in 5B durch Block 216 angegeben.
Die Ausdrücke in dem gekennzeichneten oder gestrafften Text werden anschließend der Indexiererkomponente 206 zugeleitet. Der Indexierer 206 kann in einer beliebigen Anzahl geeigneter Formen vorliegen. So kann er beispielsweise in der Suchmaschine 210 gemäß nachstehender Beschreibung oder gemäß der detaillierteren Beschreibung anhand 5C bis 5F, siehe unten, eingebaut sein. In diesem Zusammenhang genügt festzustellen, dass der Indexierer 206 einen Index erzeugt, der den Dokumenten entspricht, die von der Netzdurchpflügerkomponente 200 abgerufen worden sind, und diesen Index 208 an seinem Ausgang bereitstellt. Der Index 208 kann ein einfacher statistischer schlüsselwortbasierter Index oder auch ein Index raffinierterer Art sein, was von dem Indexierer 206 abhängt. Die Erzeugung des Indexes ist in 5B durch Block 218 angedeutet.
Die Suchmaschine 210 ist derart ausgelegt, dass sie eine Anwendereingabeanfrage empfängt und diese Anfrage bezüglich eines Indexes 208 ausführt. Bei einem illustrativen Ausführungsbeispiel nimmt die Suchmaschine 210 ebenfalls die Indexieroperation vor, die im Zusammenhang mit dem Indexierer 206 beschrieben worden ist. Bei diesem Ausführungsbeispiel ist die Suchmaschine 210 eine Internetsuchmaschine, so beispielsweise Alta Vista (das eine eingetragene Marke der Digital Equipment Corporation aus Maynard, MA ist), und ist mit einem Massendatenvorrat verbunden, der den Index 208 enthält. Die Datenmenge beziehungsweise der Datensatz der Dokumenteinträge wird illustrativ von dem Indexierer 206 indexiert, der in der Suchmaschine enthalten sein kann. Jeder derartige Eintrag in dem Index 208 umfasst typischerweise eine Netzadresse (die üblicherweise als „uniform resource locator" (URL) bezeichnet wird), an der das entsprechende Dokument für einen Zugriff durch einen Browser angeordnet ist; vordefinierte Inhaltswörter, die in jenem Dokument zusammen mit – bei einigen Maschinen – einer Relativadresse eines solchen Wortes relativ zu anderen Inhaltswörtern in jenem Dokument auftreten; eine kurze Zusammenfassung (oftmals nur einige Zeilen) des Do kumentes oder die ersten Zeilen desselben; und gegebenenfalls die Beschreibung des Dokumentes gemäß Bereitstellung im HTML-Beschreibungsfeld.
Gibt ein Anwender eine Anfrage beispielsweise über einen Webbrowser ein, so leitet der Browser die Anfrage über eine Internetverbindung an einen Server weiter, der die Suchmaschine 210 enthält. Die Suchmaschine 210 verarbeitet die Anfrage in Bezug auf Dokumenteneinträge, die innerhalb des Indexes 208 abgelegt sind, um eine Menge abgerufener Einträge (für Dokumente) zu erhalten, von denen die Maschine 210 bestimmt, dass diese im Zusammenhang mit der Anfrage von Relevanz sind.
Bei einem Ausführungsbeispiel vergleicht die Suchmaschine 210 die Inhaltsworte in der Anfrage mit den Inhaltsworten in den Dokumenteinträgen gemäß Indexierung in dem Index 208. Auf Basis der Anzahl der Treffer wird den Dokumenten eine Wertung zugewiesen, und es erfolgt eine Anordnung nach Rang. Die nach Rang angeordneten Dokumente werden über die Suchmaschine 210 an den Anwender ausgegeben. Der Empfang und die Ausführung der Anfrage sind in 5B durch Blöcke 220 und 222 angedeutet, während die Wiedergabe der Dokumente durch Block 224 angedeutet ist.
Es sollte selbstverständlich beachtet werden, dass die Suchmaschine 210 auch eine Suchmaschine von einem etwas komplizierteren Typ sein kann. In diesem Fall kann die Suchmaschine 210 die Verarbeitung natürlicher Sprache in der Anfrage oder in den ausgegebenen Dokumenten oder in beiden vornehmen, bevor die Dokumente für den Anwender bereitgestellt werden. Andere Arten von Suchmaschinen sind ebenfalls mitumfasst.
5C ist ein detaillierteres Blockdiagramm des Indexes 206 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. Wie in 15 gezeigt ist, umfasst der Index 206 eine Konstituentenstrafferkomponente 226 und eine Indexerzeugerkomponente 228. In dem Ausführungsbeispiel gemäß Darstellung in 5C ist der zu erzeugende Index 208 einfach ein statistischer Schlüsselwortindex, und der Indexerzeuger 228 ist ein gängiger Indexerzeuger zum Erzeugen eines Indexes auf Basis einer Texteingabe. In diesem Fall wirkt der Konstituentenstraffer 226 derart, dass er mittels Straffung sämtliche gekennzeichneten Konstituenten oder Ausdrücke entfernt oder herausnimmt, die von der Konstituentenmarkierungskomponente 102 bereitgestellt sind (und die die vorbestimmte Kasusinformation enthalten oder unter die Grammatikbeziehungshierarchieschwelle fallen) und die verbleibenden Ausdrücke für den Indexerzeuger 228 bereitstellt. Die Texteingaben werden einfach für die Markierungskomponente 102 und den Straffer 226 bereitgestellt, nachdem sie von der Komponente 204 gefiltert worden sind, und bevor eine Indexierung durch den Indexerzeuger 228 vorgenommen worden ist. Die Komponenten 102 und 226 wirken dahingehend, dass sie Ausdrücke und Satzglieder identifizieren und aus der Indexierung entfernen, die mit dem Gehalt des indexierten Dokumentes wenig oder gar nicht in Beziehung stehen. Dies verringert die Größe des Indexes 208 erheblich, ohne dass die Leistung bezüglich Präzision und Rückruf beeinträchtigt wäre.
5D ist ein Flussdiagramm, das den Betrieb des Indexierers 206 von 5C darstellt. Das Straften der gekennzeichneten Konstituenten ist in 5D durch Block 230 dargestellt, wohingegen das Indexieren der verbleibenden Ausdrücke unter Verwendung gängiger Indexiertechniken in 5D durch Block 232 dargestellt ist.
5E ist ein funktionelles Blockdiagramm, das ein weiteres illustratives Ausführungsbeispiel des Indexierers 206 darstellt, während 5F ein Flussdiagramm ist, das den Betrieb des Indexierers 206, der in 5E gezeigt ist, darstellt. Der Indexierer 206 in 5E umfasst eine Konstituentengewichtungskomponente 234 und einen Indexerzeuger 236. Die Konstituentengewichtungskomponente 234 empfängt die gekennzeichnete Ausgabe von der Komponente 102 und gewichtet die Ausdrücke in der gekennzeichneten Ausgabe oder einige der Ausdrücke in derselben. Die Gewichtung kann unter Verwendung einer Skala vom Binärtyp oder einer kontinuierlichen Skala vorgenommen werden.
So kann die Ausdrucksgewichtungskomponente 234 beispielsweise derart ausgelegt sein, dass sie einfach eine vorbestimmte Markierung allen Worten in der gekennzeichneten syntaktischen Analyse hinzufügt. Mit anderen Worten, sämtlichen Worten in der syntaktischen Analyse, die Grammatikbeziehungen aufweisen, die über der Hierarchieschwelle angesiedelt sind, kann das Kürzel „g_" vorangestellt werden, wodurch angegeben ist, dass diese Worte einen guten Treffer darstellen. Auf ähnliche Weise kann allen Worten, die in der syntaktischen Analyse enthalten sind (und die damit Grammatikbeziehungen aufweisen, die unterhalb der Hierarchieschwelle befindlich sind) das Kürzel „b_" vorangestellt werden, wodurch angegeben wird, dass sie einen schlechten Treffer darstellen, oder einen Treffer, der nicht notwendigerweise beinhaltet, dass die beiden Texteingaben ähnlich sind. Ähnliche Markierungen können auf Basis der vorbestimmten Rangliste der Kasusinformation gesetzt werden.
Bei einem Beispiel kann davon ausgegangen werden, dass die Grammatikbeziehungshierarchieschwelle derart gesetzt ist, dass sämtliche Ausdrücke in der Hierarchie unterhalb der Subjekte unterhalb der Schwelle angesiedelt sind. Für den Fall, dass „Hund" ein Wort ist, das in der syntaktischen Analyse enthalten ist und das ein Subjekt darstellt, empfängt die Ausdrucksgewichtungskomponente 234 den Ausdruck „Hund" und erzeugt an ihrem Ausgang den indexierten Ausdruck „g_Hund". Ist auf analoge Weise der Ausdruck „Knochen" in der syntaktischen Analyse vorhanden und stellt ein direktes Objekt dar, so empfängt die Gewichtungskomponente 234 den Ausdruck „Knochen" an ihrem Eingang und erzeugt an ihrem Ausgang den Ausdruck „b_Knochen". All diese Ausdrücke werden an den Indexerzeuger 236 weitergeleitet, der bei diesem Ausführungsbeispiel eine Indexierung vom statistischen Schlüsselworttyp unter Verwendung der Worte mit den vorangestellten Ausdrücken erzeugt.
Übermittelt anschließend der Anwender der Suchmaschine 210 eine Anfrage, so ist die Suchmaschine 210 derart ausgelegt, dass sie jedem Inhaltswort in der Anfrage den Ausdruck „g_" voranstellt. Die Suchmaschine 210 identifiziert anschließend Treffer nur zwischen Ausdrücken in dem Index und der Anfrage, die einen guten Treffer darstellen. Entsprechend wird ein bevorzugtes Abgleichen nur mit denjenigen Ausdrücken vorgenommen, die Subjekte oder Themenworte in dem Dokument sind.
Es sollte erneut beachtet werden, dass der Indexerzeuger 236 in diesem Ausführungsbeispiel als konventioneller Indexerzeuger implementiert sein kann, der einfach einen Index 208 vom Schlüsselworttyp ohne spezielle Modifikation erzeugt. Bei dem vorerläuterten Ausführungsbeispiel erreicht der Index 208 nicht die Vorteile der Speicherplatzverringerung, die unter Einsatz der vorliegenden Erfindung erreichbar wären, aber er erreicht erfindungsgemäß Vorteile betreffend eine größere Genauigkeit.
Bei einem alternativen Ausführungsbeispiel gewichtet die Ausdrucksgewichtungskomponente 234 die Ausdrücke in der gekennzeichneten Ausgabe gemäß Empfang von der Komponente 102 mit einem kontinuierlichen oder halbkontinuierlichen Gewichtungsschema. In diesem Fall ist die Ausdrucksgewichtungskomponente 234 derart ausgelegt, dass sie durch jeden gekennzeichneten Konstituenten ein Gewicht platziert, durch das die erwartete Relevanz angegeben wird, die der Konstituent bezüglich des Gehaltes des Dokumentes aufweist, und zwar auf Basis einer empirischen Kasusanalyse oder auf Basis der Position in der vorbestimmten Grammatikbeziehungshierarchie. Zeigen empiri sche Ergebnisse beispielsweise, dass ein bestimmter Konstituent eine damit verbundene Grammatikbeziehung aufweist, die in der vorbestimmten Hierarchie mit dem Gehalt eines Dokumentes eng verknüpft ist, so kann dem Konstituenten ein Gewicht angehängt werden, durch das angegeben wird, dass beispielsweise ein Sicherheitsniveau von 90% dahingehend erreicht ist, dass der Ausdruck relevant ist. Dieses Gewicht wird dem Ausdruck in der gekennzeichneten syntaktischen Analyse seitens der Ausdrucksgewichtungskomponente 234 hinzugefügt.
Der Indexerzeuger 236 ist in diesem Ausführungsbeispiel derart ausgelegt, dass er einen Index 208 erzeugt, der nicht nur Ausdrücke gemäß Bereitstellung für den Indexerzeuger 236 umfasst, sondern der auch die Gewichtungswerte gemäß Hinzufügung durch die Ausdrucksgewichtungskomponente 234 beinhaltet. Damit ist die Suchmaschine 210 derart eingerichtet, dass sie nicht nur nach Treffern zwischen den Inhaltsworten in der Anfrage und denjenigen, die in dem Index 208 enthalten sind, sucht, sondern dass sie auch die Wertung bezüglich der Ähnlichkeit zwischen dem Dokument und der Anfrage auf Basis der Anzahl der aufgefundenen Treffer (oder gegebenenfalls weiterer gewünschter Kriterien) und ebenfalls auf Basis des Gewichtes gemäß Zuteilung an die Trefferausdrücke, berechnet.
Bei einem weiteren alternativen Ausführungsbeispiel wird eine bestehende Technik des Indexierens verwendet, wobei jedoch ein Aspekt hinzugefügt wird. Bei einer Reihe bestehender Indexiertechniken erfolgt eine Indexierung eines Dokumentes auf Basis eines Wortes, der Position des Wortes innerhalb des Dokumentes und der Großbuchstabenschreibung des Wortes (das heißt, ob das Wort in Großbuchstaben geschrieben ist oder nicht). Diese Art von Indexierschema kann entsprechend der vorliegenden Erfindung unter Einbeziehung der Ausdrucksgewichtungskomponente 234 dadurch verwendet werden, dass einfach ein zusätzlicher Eintrag zu dem Index hinzugefügt wird. Dieser Eintrag entspricht dem Gewichtungswert, der durch die Ausdrucksgewichtungskomponente 234 zugewiesen worden ist. Das Gewicht kann empirisch bestimmt werden, oder es kann unter Verwendung einer herkömmlichen Technik, so beispielsweise der tf*idf-Technik (term frequency-inverse document frequency), bestimmt werden. In jedem Fall stellt die Ausdrucksgewichtungskomponente 234 den Gewichtungswert für den Indexerzeuger 236 bereit, der den Index auf Basis des Ausdrucks, der Position, der Großbuchstabenschreibung und des zugewiesenen Gewichtungswertes oder eines beliebigen anderen gängigen Eintrages, der für das Indexierungsschema verwendet wird, erstellt. Das Gewichten der Ausdrücke oder Konstituenten auf Basis der Kennzeichnung ist in 5F durch Block 238 angegeben, während die Erstellung des Indexes unter Einbeziehung der Gewichtungsinformation durch Block 240 angedeutet ist.
Informationsabfrageoperationen, die an in Reaktion auf eine Anfrage ausgegebenen Dokumenten vorgenommen werden
Die vorliegende Erfindung kann auch in Nachverarbeitungsoperationen zum Einsatz kommen (so beispielsweise in Operationen, die an einer Dokumentenmenge vorgenommen werden, die von einer herkömmlichen Suchmaschine in Reaktion auf eine Anfrage ausgegeben worden ist). 6A ist ein funktionelles Blockdiagramm zur Erläuterung der Konstituentenmarkierungskomponente 102 in Zusammenhang mit einem Nachverarbeitungsinformationsabrufsystem 300. Das System 300 umfasst eine herkömmliche Informationsabrufmaschine 302, die als einfache Maschine zum Abruf statistischer Informationen implementiert sein kann, oder die als Maschine implementiert sein kann, die kompliziertere Techniken zur Verarbeitung natürlicher Sprache einsetzt. Der Datenvorrat 304 stellt denjenigen Datenvorrat dar, der auf die Anwenderanfrage hin durchsucht wird, die in die Informationsabrufmaschine 302 eingegeben worden ist. Der Datenvorrat 304 kann beispielsweise innerhalb eines Computers, in einem Ortsbereichsnetzwerk oder einem Großbereichsnetzwerk (so beispielsweise einem globalen Computernetzwerk) angeordnet sein. Auf ähnliche Weise kann der Datenvorrat 304 einfach ein Index zu durchsuchender Dokumente sein. Das System 300 enthält darüber hinaus eine Konstituentenstrafferkomponente 306 oder optional eine Konstituentengewichtungskomponente 308. Das System 300 umfasst darüber hinaus eine Abgleichkomponente 310 und eine Rangneuanordnungskomponente 312.
6B ist ein Flussdiagramm, das den Betrieb des Systems 300 darstellt, das in 6A gezeigt ist.
Im Betrieb empfängt die Informationsabrufmaschine 302 zunächst eine Anfrage, die von dem Anwender eingegeben worden ist. Dies ist in 6B durch Block 314 angedeutet. Anschließend führt die Informationsabrufmaschine 302 eine Anfrage auf Basis des Datenvorrates 304 auf herkömmliche Weise aus. Dies ist in 6B durch Block 316 angedeutet. Auf ähnliche Weise empfängt die Informationsabrufmaschine 302 auf herkömmliche Art diejenigen Dokumente und gibt sie aus, von der die Maschine 302 glaubt, dass sie in Bezug auf die Anfrage des Anwenders von Relevanz sind. Dies ist durch Block 318 angedeutet.
Entsprechend einem Ausführungsbeispiel der vorliegenden Erfindung werden die ausgegebenen Dokumente anschließend an der Konstituentenmarkierungskomponente 102 bereitgestellt, die ähnlich zu derjenigen ist, die im Zusammenhang mit 3A beschrieben worden ist. Die gekennzeichneten Konstituenten werden anschließend bei einem illustrativen Ausführungsbeispiel für den Konstituentenstraffer 306 zur Verfügung gestellt. Der Straffer 306 entnimmt die gekennzeichneten Konstituenten mittels Straffung aus der gekennzeichneten Ausgabe gemäß Bereitstellung durch die Markierungskomponente 102. Die gestraffte Ausgabe wird anschließend für die Abgleichkomponente 310 bereitgestellt. Das Identifizieren und Kennzeichnen der Konstituenten auf Basis des Kasus oder der Lokalisierung der damit verbundenen Grammatikbeziehungen in der vorbestimmten Hierarchie ist in 6B durch Block 320 angedeutet, während das Straften selbiger Konstituenten durch Block 322 angedeutet ist.
Die Abgleichkomponente 302 wählt unter den ausgegebenen Dokumenten ein erstes Dokument aus, aus dem die gekennzeichneten Konstituenten entfernt sind. Dies ist durch Block 314 angedeutet. Die Abgleichkomponente 310 bestimmt anschließend, ob ein beliebiger Inhaltsausdruck in der Abfrage gemäß Bereitstellung durch den Anwender immer noch in dem ausgewählten Dokument befindlich ist, nachdem die gekennzeichneten Konstituenten entfernt worden sind. Ist dies nicht der Fall, so sagt dies aus, dass die einzigen Treffer in Bezug auf das ausgewählte Dokument bezüglich derjenigen Konstituenten aufgetreten sind, die die vorbestimmte Kasusinformation enthielten oder die Grammatikbeziehungen aufwiesen, die unterhalb der vorbestimmten Hierarchieschwelle angesiedelt waren (beispielsweise diejenigen, die wenig damit zu tun haben, was das Dokument beschreibt). Dies ist in 6B durch Block 326 angedeutet.
Daher wird das Dokument aus der Liste der ausgegebenen Dokumente entfernt, was durch Block 328 angegeben ist. Die Abgleichkomponente 310 bestimmt, ob irgendwelche Dokumente in der Menge ausgegebener Dokumente verbleiben. Dies ist durch Block 330 angedeutet.
Werden bei Block 326 einige der Inhaltsausdrücke in der Anfrage immer noch in dem ausgewählten Dokument vorgefunden, nachdem die gekennzeichneten Konstituenten hieraus entfernt worden sind, so gibt dies an, dass Treffer in Bezug auf das Dokument mit Blick auf Ausdrücke vorgefunden worden sind, von denen man glaubt, dass sie bezüglich des Gehaltes des Dokumentes von Relevanz sind. Daher wird das ausgewählte Dokument, wie durch Block 332 angedeutet, beibehalten. Erneut bestimmt die Abgleichkomponente 302 in Block 330, ob ein beliebiges der ausgegebenen Dokumente noch analysiert werden muss. Ist dies der Fall, so kehrt die Verarbeitung zu Block 324 zurück.
Nachdem alle der ausgegebenen Dokumente analysiert worden sind, werden die verbleibenden Dokumente (diejenigen, die nicht herausgenommen worden sind) an die Rangneuanordnungskomponente 312 weitergeleitet. Die Rangneuanordnungskomponente 312 bestimmt zunächst, ob die Anzahl der verbleibenden Dokumente derart ausreichend ist, dass man sie dem Anwender vorlegen kann. Dies ist durch Block 334 angedeutet. Mit anderen Worten, es ist möglich, dass die Inhaltsausdrücke der Anfrage Treffer bezüglich der relevanten Ausdrücke nur bei einer sehr kleinen Anzahl der ausgegebenen Dokumente aufweisen. Ist dies der Fall, so kann die Rangneuanordnungskomponente 312 bestimmen, dass die Anzahl der dem Anwender vorgelegten Dokumente unerwünscht klein oder nicht ausreichend ist. Diese Schwelle kann entweder durch den Anwender vorgegeben werden, oder sie kann automatisch auf Basis eines in die Komponente 312 vorab einprogrammierten Schwellenwertes bestimmt werden.
In jedem Fall berechnet für den Fall, dass die Anzahl der verbleibenden Dokumente, wie in Block 334 bestimmt, ausreichend ist, die Rangneuanordnungskomponente 312 anschließend eine neue Wertung für die verbliebenen Dokumente. Die neue Wertung kann auf eine beliebige geeignete Weise berechnet werden. So kann die neue Wertung beispielsweise auf der Anzahl der Treffer zwischen den Inhaltsworten in der Anfrage und den in jedem der Dokumente verbleibenden Ausdrücken erfolgen, nachdem die gekennzeichneten Konstituenten entfernt worden sind. Die Berechnung der neuen Wertung ist durch Block 136 angegeben. Auf Basis der neu in Wertung nimmt die Rangneuanordnungskomponente 312 eine Rangneuanordnung der verbliebenen Dokumente in einer Reihenfolge vor, die durch die neue Wertung bestimmt ist. Dies ist durch Block 338 angegeben. Schließlich gibt die Komponente 312 die rangmäßig neuangeordneten Dokumente an den Anwender in neuer Ranganordnung aus. Dies ist durch Block 340 angedeutet.
Wird, siehe Block 334, bestimmt, dass eine nichtausreichende Anzahl von Dokumenten zur Vorlage beim Anwender verblieben ist, so geht die Verarbeitung bei Block 342 weiter. Die Rangneuanordnungskomponente 312 ruft sämtliche von der Informationsabrufmaschine 302 ausgegebenen Dokumente in Reaktion auf die von dem Anwender eingegebene Anfrage ab. Anstelle der Entnahme der gekennzeichneten Konstituenten, siehe Block 322, leitet die Rangneuanordnungskomponente 312 die Dokumente an die optionale Konstituentengewichtungskomponente 308 zurück. Die Gewichtungskomponente 308 gewichtet die gekennzeichneten Komponenten, die vorher entfernt worden sind (und kann auch sämtliche anderen Konstituenten gewichten), und zwar auf Basis ihrer Kasus oder Positionen der Grammatikbeziehungen in der vorbestimmten Hierarchie). Die gewichteten Ausgaben werden anschließend wieder der Abgleichkomponente 310 zugeleitet, die erneut die Inhaltsworte in der Abfrage gegen die Ausdrücke in den Dokumenten einschließlich der gekennzeichneten Ausdrücke, die gewichtet worden sind, abgleicht. Dies ist durch Block 344 angegeben. Anschließend wird eine neue Wertung für jedes der ausgegebenen Dokumente auf Basis der Gewichtungen berechnet, und die Dokumente werden anschließend neu rangmäßig angeordnet. Dies wird ist Block 346 angegeben. Die Dokumente werden anschließend, wie durch Block 340 angegeben ist, für den Anwender bereitgestellt.
Man beachte ebenfalls, dass in Block 344 anstelle der Gewichtung der gekennzeichneten Konstituenten die Konstituentengewichtungskomponente 308 die Kennzeichnungen, die alle Ausdrücke im Wesentlichen gleich gewichten, entfernen kann. Anschließend nimmt die Abgleichkomponente 310 einfach einen Abgleich gegen selbige Ausdrücke vor, gegen die die Informationsabrufmaschine 302 einen Abgleich vorgenommen hat. Darüber hinaus können anstelle des Herausnehmens der Kennzeichnungen aus allen Dokumenten in Block 344 auch die Kennzeichnungen aus denjenigen Dokumenten entfernt werden, die aus der Suche bei Block 328 entfernt worden sind. Daher werden die Kennzeichnungen einfach aus denjenigen Dokumenten entfernt, von denen die Informationsabrufmaschine 302 bereits bestimmt hat, dass sie ausreichend Relevanz aufweisen, um an den Anwender ausgegeben werden zu können. Diese Dokumente werden anschließend einfach rangmäßig niedriger angeordnet als Dokumente, die sogar bei entfernten gekennzeichneten Konstituenten übriggeblieben sind.
Man beachte, dass sich diejenigen Erläuterungen im vorliegenden Text, die den Informationsabruf betreffen, fortwährend des Ausdruckes „Inhaltswort" bedienen. Dieser Ausdruck wird lediglich zu Illustrationszwecken verwendet. Es ist beabsichtigt, dass die jeweils analysierte linguistische Einheit eine beliebige andere Einheit sein kann, so beispielsweise ein Morphem, ein Wort, eine Phrase, ein N-Gramm von Buchstaben und dergleichen mehr, die im vorliegenden Text sämtlich als „Suchausdrücke" beziehungsweise „Suchausdrücke" bezeichnet werden.
Testmethodik
Ein Ausführungsbeispiel der vorliegenden Erfindung umfasst auch ein System, durch das einschlägige Kasusinformation (oder eine nach Rang angeordnete Liste von Kasusinformation und die entsprechende Schwelle) oder eine Grammatikbeziehungshierarchie oder eine Hierarchieschwelle auf Basis einer beliebigen gegebenen Datenmenge bestimmt werden können, wobei die vorliegende Erfindung zum Einsatz kommt. 7 ist ein Flussdiagramm, das den Betrieb des Computers 20 bei der Implementierung eines derartigen Systems darstellt. Die nachstehend beschriebene Technik kann zur Identifizierung der Kasusinformation und sowohl der zu verwendenden Grammatikbeziehung wie auch der Hierarchieschwelle eingesetzt werden. Gleichwohl behandelt die nachfolgende Diskussion primär den Aspekt des Setzens der Hierarchieschwelle bezüglich der vordefinierten Hierarchie. Es sollte einsichtig sein, dass eine Inhaltsmenge eine beliebige geeignete Sammlung von Dokumenten oder ein beliebiges anderes Textkorpus sein kann, das unter Verwendung von Techniken vom Abruftyp durchsucht werden kann.
Zunächst wird eine Grammatikbeziehungshierarchieschwelle ausgewählt. Diese Hierarchie, bezüglich der die Schwelle gesetzt wird, kann eine beliebige geeignete Hierarchie sein, so beispielsweise die vorstehend erläuterte Zugänglichkeitshierarchie oder eine beliebige andere empirisch bestimmte oder intuitiv festgelegte Hierarchie oder eine Hierarchie, die unter Verwendung derselben Technik bestimmt worden ist wie diejenige, die zum Setzen der Schwelle verwendet worden ist. Die Anfangsschwelle kann im Wesentlichen an jeder Position in der Hierarchie gesetzt werden.
Man geht davon aus, dass die bestimmte Hierarchie und die Hierarchieschwelle, die sich bei der Durchführung von Techniken entsprechend der vorliegenden Erfindung als hilfreich erweisen, bei unterschiedlichen Inhaltsmengen unterschiedlich sind. Unter der Annahme, dass eine Hierarchie ausgewählt worden ist, um die Hierarchieschwelle zu identifizieren, die entsprechend der vorliegenden Erfindung zu verwenden ist, wie dies bei der vorbestimmten Hierarchieschwelle der Fall ist, wird eine erste zu testende Hierarchieschwelle ausgewählt. Dies ist in 7 durch Block 350 angedeutet.
Anschließend wird ein Index aus einem vorbestimmten Textkorpus mit sämtlichen Konstituenten erstellt, die mit Grammatikbeziehungen verbunden sind, die unter die ausgewählte daraus entfernte Hierarchieschwelle fallen. Dies ist durch Block 352 angegeben. Entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung enthält das Textkorpus annähernd 20.000 bis 30.000 Dokumente, die die gewünschte Inhaltsmenge betreffen.
Anschließend wird ein Informationsabruf an dem Index vorgenommen. Dies ist durch Block 354 angegeben. Bei einem illustrativen Ausführungsbeispiel wird der Abruf unter Verwendung von annähernd 20.000 bis 30.000 vorbestimmten Anfragen vorgenommen.
Anschließend werden Konstituenten in der Inhaltsmenge, die eine damit verbundene Grammatikbeziehung aufweisen, die unter die ausgewählte Schwelle fällt, identifiziert, und es wird eine Bestimmung dahingehend vorgenommen, wie nützlich die verbleibenden Konstituenten (die diejenigen sind, die nicht unter die Schwelle fallen) bei der Bestimmung der Bedeutung der Inhaltsmenge sind. Natürlich kann dies auf eine beliebige Anzahl von Weisen erfolgen, so beispielsweise durch Beobachtung der Kenntnisse betreffend die Kontaktmenge, die durch Leser der Konstituenten ermittelt wird, die oberhalb der Schwelle angesiedelt sind.
Eine andere Vorgehensweise besteht in der Verwendung eines Informationsabrufes. Die Diskussion geht nun auf ein illustratives Ausführungsbeispiel über, bei dem ein Informationsabruf erfolgt. Bei diesem Ausführungsbeispiel bestimmt der Computer 20, wie viel Einsparung bezüglich des Indexraumes durch Herausnahme der Konstituenten mit Grammatikbeziehungen unterhalb der ausgewählten Schwelle aus dem Dokumentenkorpus verwirklicht worden ist. Dies ist durch Block 356 angedeutet. Der Computer 20 bestimmt anschließend das Leistungsvermögen der Informationsabrufoperationen, die in Bezug auf diesen Index vorgenommen worden sind. Dies ist durch Block 358 angedeutet. Um zu bestimmen, ob das Leistungsvermögen ausreichend ist, wird ein geeignetes Maß, das die Komponenten „Präzision" und „Rückruf" einschließt, verwendet. Ein geeignetes Maß ist das sogenannte „F-Maß" und wird in der Handreichung „Information Retrieval" von C. J. van Rijsbergen aus dem Jahre 1979 beschrieben. Das F-Maß ist folgendermaßen festgelegt. F = ((B2 + 1,0)·P·R)/(BZ·P + R)
Hierbei bezeichnen P die Präzision, R den Rückruf und B die relative Wichtigkeit des Rückrufes gegenüber der Präzision. Üblicherweise gilt B = 1.
Anschließend bestimmt der Computer 20, ob das Leistungsvermögen eingedenk der Verringerung der Größe des Indexes ausreichend ist. Dies hängt natürlich von der Anwendung ab. Bei Anwendungen, bei denen die Indexgröße von großer Wichtigkeit ist, kann eine größere Verringerung des Informationsabrufleistungsvermögens toleriert werden. Für Zwecke der vorliegenden Diskussion sei eine statistisch merkliche Änderung des F-Maßes durch eine Änderung von 5% oder mehr festgelegt.
In jedem Fall wird darüber entschieden, ob das Leistungsvermögen eingedenk der Verringerung der Indexgröße, siehe Block 360, angemessen ist. Ist dies der Fall, so wird die ausgewählte Schwelle eingegeben, und es werden Grammatikbeziehungen, die unter die Schwelle fallen, zu der Liste vorbestimmter Grammatikbeziehungen in Verbindung mit der Inhaltsmenge gemäß Analyse hinzugefügt. Dies ist durch Block 362 angedeutet.
Wird demgegenüber bei Block 360 bestimmt, dass das Leistungsvermögen eingedenk der Verringerung der Indexgröße nicht ausreichend ist, so wird eine Fehleranalyse vorgenommen, um zu bestimmen, warum die Dokumente, die eigentlich ausgegeben hätten werden sollen, nicht ausgegeben worden sind, oder warum Dokumente ausgegeben worden sind, die eigentlich nicht ausgegeben hätten werden sollen. Dies ist durch Block 364 angedeutet. Beispielhalber wird dies von einer Gruppe von Sprachwissenschaftlern bestimmt, die die ausgegebenen Dokumente oder Dokumente, die ausgegeben hätten werden sollen, jedoch nicht ausgegeben worden sind, analysieren, wodurch bestimmt wird, was den Dokumenten gemeinsam ist, um so wiederum zu bestimmen, warum die Dokumente nicht ausgegeben oder unrichtigerweise ausgegeben worden sind. Bei der Durchführung dieser Analyse können die Sprachwissenschaftler die Hierarchieschwelle (oder die Hierarchiestruktur) weiter dahingehend verfeinern, dass Konstituenten nur bei bestimmten Bedingungen oder in bestimmten Kontexten entfernt werden, und zwar auch dann, wenn sie damit verbundene Grammatikbeziehungen aufweisen, die unterhalb der Schwelle angesiedelt sind. Auf ähnliche Weise können die Sprachwissenschaftler auf einfache Weise bestimmen, dass die ausgewählte Schwelle (oder Hierarchiestruktur) eingedenk der Inhaltsmenge nicht wünschenswert ist. In jedem Fall bestimmt der Computer 20 anschließend, ob zusätzliche Schwellen (oder Hierarchiestrukturen) getestet werden sollen. Ist dies der Fall, so geht die Verarbeitung zu Block 350 über, wo eine neue Schwelle ausgewählt wird. Ist dies nicht der Fall, so sind alle Schwellen, die getestet werden sollen, getestet, und die vorbestimmte Schwelle ist ausgewählt. Dies ist durch Block 366 angedeutet.
Die hierarchische Struktur kann auch entsprechend diesem allgemeinen Prozess bestimmt werden. Konstituenten mit einer ausgewählten Grammatikbeziehung werden aus dem Korpus entfernt, und man ermittelt eine quantitative Angabe der Nützlichkeit der verbleibenden Konstituenten (so beispielsweise durch Vornahme eines Informationsabrufes an dem Index gemäß Bildung auf Basis des gestrafften Korpus). Die Grammatikbeziehung, die die größte Nützlichkeit aufweist (beispielsweise Ergebnisse bezüglich der größten Verringerung des Informationsabrufleistungsvermögens) wird in der Hierarchie am weitesten oben angeordnet. Verbleibende Grammatikbeziehungen werden in absteigender Reihenfolge angeordnet, und zwar auf Basis sich verringernder Nützlichkeit (beispielsweise einer Verringerung ihres Informationsabrufleistungsvermögens).
Darüber hinaus kann dieser allgemeine Prozess verwendet werden, um Kasusinformation auszuwählen, die in der vorbestimmten Rangliste verwendet werden soll. So wird beispielsweise bei einem illustrativen Informationsabrufausführungsbeispiel ein bestimmter Kasus ausgewählt, es werden Ausdrücke mit dem ausgewählten Kasus gekennzeichnet und entfernt, und es wird ein Index mit den verbleibenden Ausdrücken erstellt. Der Informationsabruf wird an dem Index vorgenommen, und es wird das Leistungsvermögen analysiert. Auf Basis der Verringerung der Leistung werden die Kasus in einer Rangliste angeordnet. Die Schwelle innerhalb der Rangliste kann auch auf Basis der Verringerung des Informationsabrufleistungsvermögens bestimmt werden. Eine weitere Analyse kann vorgenommen werden, wo das Leistungsvermögen nicht ausreicht. Der Prozess kann für jede beliebige gewünschte Kasusinformation wiederholt werden.
Aus alledem ergibt sich, dass die vorliegende Erfindung Beziehungen (Kasusinformation oder eine Grammatikbeziehungshierarchie und eine Hierarchieschwelle) identifiziert. Konstituenten mit der damit verbundenen Kasusinformation oder mit Grammatikbeziehungen, die unterhalb der Hierarchieschwelle angeordnet sind, werden derart identifiziert, dass sie gekennzeichnet, gewichtet oder einfach entfernt werden können, wenn bestimmt wird, wovon das Dokument handelt. Dies kann beispielsweise dann erfolgen, wenn ein Dokument während des Informationsabrufes indexiert wird, wenn ein Dokument zusammengefasst wird, nachdem das Dokument unter Verwendung herkömmlicher Informationsabruftechniken abgerufen worden ist, wenn Dokumente gruppiert (geclustert) werden, oder bei einer impliziten Abfrage, bei der ein Dokument bereitgestellt und ein Computer aufgefordert wird, ähnliche Dokumente zu suchen. Die vorliegende Erfindung kann auch in anderen Zusammenhängen eingesetzt werden. Es wird jedoch davon ausgegangen, dass sie bei der Informationsabrufindexierung von besonderem Nutzen ist, da die vorliegende Erfindung die Indexgröße merklich verringern kann, ohne dass dies merklich zu Lasten des Leistungsvermögens ginge.

Claims

Computerimplementiertes Verfahren zum Bestimmen einer Beziehung zwischen einer ersten und einer zweiten Text-Eingabe, wobei das Verfahren umfasst: Ermitteln (112, 114) eines Satzes von Beziehungen; Identifizieren (114) von Konstituenten in der ersten Text-Eingabe, die die Beziehung aufweisen; und Bestimmen (124) der Beziehung zwischen der ersten und der zweiten Text-Eingabe auf Basis der identifizierten Konstituenten und auf Basis der relativen Wichtigkeit der Konstituenten.
Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens einschließt: Bestimmen (124) der Beziehung zwischen der ersten und der zweiten Text-Eingabe auf Basis der Beziehungen.
Verfahren nach Anspruch 1, wobei Ermitteln eines Satzes von Beziehungen umfasst: Ermitteln (238) einer Hierarchie grammatischer Beziehungen; und Ermitteln einer Hierarchie-Schwelle (352) auf Basis einer Nützlichkeit grammatischer Beziehungen in der Hierarchie beim Bestimmen der Beziehung zwischen der ersten und der zweiten Text-Eingabe.
Verfahren nach Anspruch 3, wobei der Schritt des Bestimmens umfasst: Bestimmen der Nützlichkeit der identifizierten Konstituenten durch Lokalisieren der mit den identifizierten Konstituenten verbundenen grammatischen Beziehungen in der Hierarchie.
Verfahren nach Anspruch 4, wobei der Schritt des Identifizierens umfasst: Identifizieren niederrangiger Konstituenten mit entsprechenden grammatischen Beziehungen, die in der Hierarchie unterhalb der Hierarchie-Schwelle angeordnet sind.
Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens umfasst: Bestimmen der Beziehung auf Basis anderer Konstituenten in der ersten Text-Eingabe als den niederrangigen Konstituenten.
Verfahren nach Anspruch 5, wobei der Schritt des Identifizierens einschließt: Identifizieren hochrangiger Konstituenten mit einer entsprechenden grammatischen Beziehung, die in der Hierarchie wenigstens so hoch angeordnet sind wie die Hierarchie-Schwelle; und Kennzeichnen der hochrangigen Konstituenten mit einem Gewichtungs-Wert, der die hochrangigen Konstituenten stärker gewichtet als die niederrangigen Konstituenten.
Verfahren nach Anspruch 7, wobei Identifizieren von Konstituenten in der ersten Text-Eingabe umfasst: Kennzeichnen der hochrangigen und der niederrangigen Konstituenten mit Feinwerten auf Basis einer Anordnung grammatischer Beziehungen, die jedem der Konstituenten in der Hierarchie entsprechen, wobei die Feinwerte relative Nützlichkeit der Konstituenten beim Bestimmen der Beziehung anzeigen.
Verfahren nach Anspruch 8, wobei der Schritt des Bestimmens der Beziehung auf Basis der Konstituenten umfasst: Bestimmen der Beziehung auf Basis der Feinwerte, die mit Konstituenten verbunden sind.
Verfahren nach Anspruch 4, wobei der Schritt des Bestimmens umfasst: bevorzugtes Abgleichen von Ausdrücken in der ersten Text-Eingabe mit höheren Konstituenten in der zweiten Text-Eingabe mit entsprechenden grammatischen Beziehungen, die vergleichsweise höher in der Hierarchie angeordnet sind als grammatische Beziehungen, die niedrigeren Konstituenten entsprechen.
Verfahren nach Anspruch 10, wobei die erste Text-Eingabe ein Dokument umfasst die zweite Text-Eingabe eine Informationsabruf-Anfrage umfasst und das bevorzugte Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei die Einträge nur den höheren Konstituenten und nicht den niedrigeren Konstituenten entsprechen; und Abgleichen von Such-Begriffen in der Anfrage mit den Einträgen in dem Index.
Verfahren nach Anspruch 10, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Informationsabrufanfrage umfasst und das bevorzugte Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei mit den Einträgen, die den höheren Konstituenten entsprechen, höhere Gewichtungs-Werte verbunden sind und mit den Einträgen, die den niedrigeren Konstituenten entsprechen, niedrigere Gewichtungs-Werte verbunden sind; und Abgleichen von Such-Begriffen in der Abfrage mit den Einträgen in dem Index auf Basis der höheren und der niedrigeren Gewichtungs-Werte.
Verfahren nach Anspruch 1, wobei Ermitteln von Beziehungen umfasst: Ermitteln einer Hierarchie von Kasus-Informationen; und Ermitteln einer Hierarchie-Schwelle auf Basis der Nützlichkeit einer Konstituenten mit diesem Kasus.
Verfahren nach Anspruch 13, wobei der Schritt des Bestimmens umfasst: Bestimmen der Nützlichkeit der identifizierten Konstituenten durch Lokalisieren der Kasus-Informationen, die mit den identifizierten Konstituenten in der Hierarchie verbunden sind.
Verfahren nach Anspruch 14, wobei der Schritt des Identifizierens umfasst: Identifizieren niederrangiger Konstituenten mit dem Kasus, der durch die Kasus-Informationen angezeigt wird.
Verfahren nach Anspruch 15, wobei Bestimmen der Beziehung zwischen der ersten und der zweiten Text-Eingabe umfasst: Bestimmen der Beziehung auf Basis von anderen Konstituenten in der ersten Text-Eingabe als den niederrangigen Konstituenten.
Verfahren nach Anspruch 15, wobei der Schritt des Identifizierens einschließt: Identifizieren hochrangiger Konstituenten mit entsprechenden Kasus-Informationen, die in der Hierarchie wenigstens so hoch angeordnet sind wie die Hierarchie-Schwelle; und Kennzeichnen der niederrangigeren Konstituenten mit einem Gewichtungs-Wert, der die niederrangigen Konstituenten schwächer gewichtet als die hochrangigen Konstituenten.
Verfahren nach Anspruch 17, wobei Identifizieren von Konstituenten in der ersten Text-Eingabe umfasst: Kennzeichnen der niederrangigen und der hochrangigen Konstituenten mit Feinwerten auf Basis einer Anordnung der Kasus-Informationen, die mit jeder der nie derrangigen und hochrangigen Konstituenten verbunden sind, in der Hierarchie, wobei die Feinwerte relative Nützlichkeit der Konstituenten anzeigen.
Verfahren nach Anspruch 18, wobei der Schritt des Bestimmens der Beziehung auf Basis der Konstituenten umfasst: Bestimmen der Beziehung auf Basis der mit den Konstituenten verbundenen Feinwerte.
Verfahren nach Anspruch 14, wobei der Schritt des Bestimmens umfasst: bevorzugtes Abgleichen von Ausdrücken in der ersten Text-Eingabe mit höherrangigen Konstituenten in der zweiten Text-Eingabe mit entsprechenden grammatischen Beziehungen, die vergleichsweise höher in der Hierarchie angeordnet sind als grammatische Beziehungen, die niedrigeren Konstituenten entsprechen.
Verfahren nach Anspruch 20, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Informationsabrufanfrage umfasst und bevorzugtes Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei die Einträge nur den höherrangigen Konstituenten und nicht den niederrangigeren Konstituenten entsprechen; und Abgleichen der Suchbegriffe in der Anfrage mit den Einträgen in dem Index.
Verfahren nach Anspruch 20, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Informationsabrufanfrage umfasst und wobei bevorzugtes Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei mit den Einträgen, die den höherrangigen Konstituenten entsprechen, höhere Gewichtungs-Werte verbunden sind und mit den Einträgen, die den niederrangigeren Konstituenten entsprechen, niedrigere Gewichtungs-Werte verbunden sind; und Abgleichen der Suchbegriffe in der Anfrage mit den Einträgen in dem Index auf Basis der höheren und niedrigeren Gewichtungs-Werte.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Ermitteln einer Schwellen-Wichtigkeit und wobei Bestimmen der Beziehung Bestimmen der Beziehung auf Basis lediglich der Konstituenten mit einer relativen Wichtigkeit über der Schwellen-Wichtigkeit umfasst.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Zuordnen eines Gewichtungs-Wertes zu jeder Konstituenten auf Basis der relativen Wichtigkeit, die jeder Konstituenten entspricht, und wobei Bestimmen der Beziehung Bestimmen der Beziehung auf Basis der mit den Konstituenten verbundenen Gewichtungs-Werte umfasst.
Verfahren nach Anspruch 1, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Anfrage umfasst und Bestimmen der Beziehung zwischen der ersten und der zweiten Text-Eingabe Bestimmen von Ähnlichkeit zwischen dem Dokument und der Anfrage hinsichtlich der Bedeutung umfasst.
Verfahren nach Anspruch 1, wobei die erste und die zweite Text-Eingabe jeweils Dokumente umfassen und Bestimmen der Beziehung Bestimmen einer Ähnlichkeit zwischen den Dokumenten hinsichtlich der Bedeutung umfasst.
Verfahren nach Anspruch 26, wobei Bestimmen der Beziehung des Weiteren umfasst, dass bestimmt wird, ob die erste und die zweite Text-Eingabe in einem logischen Cluster auf Basis der Ähnlichkeit zwischen dem ersten und dem zweiten Dokument hinsichtlich der Bedeutung zu gruppieren sind.