DE60029845T2 - System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung - Google Patents

System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung Download PDF

Info

Publication number
DE60029845T2
DE60029845T2 DE60029845T DE60029845T DE60029845T2 DE 60029845 T2 DE60029845 T2 DE 60029845T2 DE 60029845 T DE60029845 T DE 60029845T DE 60029845 T DE60029845 T DE 60029845T DE 60029845 T2 DE60029845 T2 DE 60029845T2
Authority
DE
Germany
Prior art keywords
constituents
relationship
hierarchy
determining
text input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60029845T
Other languages
English (en)
Other versions
DE60029845D1 (de
Inventor
Simon H. Seattle CORSTON-OLIVER
B. William Redmond DOLAN
Hisami Redmond SUZUKI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE60029845D1 publication Critical patent/DE60029845D1/de
Application granted granted Critical
Publication of DE60029845T2 publication Critical patent/DE60029845T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D15/00Printed matter of special format or style not otherwise provided for
    • B42D15/0053Forms specially designed for commercial use, e.g. bills, receipts, offer or order sheets, coupons
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D15/00Printed matter of special format or style not otherwise provided for
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/956Hierarchical
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Description

  • Hintergrund der Erfindung
  • Die Erfindung betrifft ein Verfahren zum Bestimmen einer Beziehung (so beispielsweise einer Ähnlichkeit hinsichtlich der Bedeutung) zwischen zwei oder mehr Texteingaben.
  • Die vorliegende Erfindung ist bei einer großen Vielzahl von Anwendungen von Nutzen, so beispielsweise bei vielen Aspekten des Informationsabrufes, darunter der Indexierung, der Verarbeitung vor der Abfrage, der Verarbeitung nach der Abfrage, der Gruppierung (Clustering) auf Basis der Ähnlichkeit von Dokumenten, der Zusammenfassung von Dokumenten, der Verständnisanalyse natürlicher Sprache und dergleichen mehr. Die vorliegende Erfindung wird gleichwohl im Zusammenhang mit dem Informationsabruf beschrieben, was jedoch lediglich illustrativ bedingt ist.
  • Im Allgemeinen ist ein Informationsabruf ein Prozess, durch den ein Anwender eine Information, die für ihn von Bedeutung ist, in einem großen Informationsvorrat findet und sie daraus abruft. Bei der Durchführung des Informationsabrufes ist von Bedeutung, sämtliche Information, die der Anwender benötigt, abzurufen (was bedeutet, dass die Vollständigkeit von Bedeutung ist). Gleichzeitig ist wichtig, die für den Anwender abgerufene unwichtige Information zu begrenzen (was bedeutet, dass die Selektivität von Bedeutung ist). Diese Dimensionen werden oftmals mit den Ausdrücken „Rückruf" („recall"; Vollständigkeit) und „Präzision" („precision", Selektivität) bezeichnet. In zahlreichen Informationsabrufsystemen ist von Bedeutung, ein gutes Leistungsvermögen sowohl bezüglich der Dimension „Rückruf" wie auch bezüglich der Dimension „Präzision" zu erreichen.
  • Bei einigen gängigen Abrufsystemen ist die Informationsmenge, die angefragt und durchsucht werden kann, äußerst groß. So sind einige Informationsabrufsysteme beispielsweise dafür ausgelegt, Information in einem globalen Computernetzwerk (so beispielsweise dem Internet), auf digitalen Videoplatten oder allgemein in anderen Computerdatenbanken zu suchen. Die Informationsabrufsysteme sind üblicherweise beispielsweise als Internetsuchmaschinen und Bibliothekskatalogsuchmaschinen ausgebildet. Darüber hinaus stehen sogar innerhalb des Betriebssystems eines herkömmlichen Desk topcomputers bestimmte Typen von Informationsabrufmechanismen zur Verfügung. So stellen beispielsweise einige Betriebssysteme ein Werkzeug bereit, mit dem ein Anwender sämtliche Dateien in einer gegebenen Datenbank oder in einem Computersystem auf Grundlage bestimmter anwenderseitig eingegebener Ausdrücke durchsuchen kann.
  • Es sind zahlreiche Informationsabruftechniken bekannt. Eine anwenderseitig eingegebene Anfrage wird bei derartigen Techniken üblicherweise als eine explizit anwenderseitig erzeugte Anfrage oder als eine implizite Anfrage dargestellt, was beispielsweise dann der Fall ist, wenn ein Anwender Dokumente anfordert, die zu einer Menge bestehender Dokumente ähnlich sind. Typische Informationsabrufsysteme durchsuchen Dokumente in einem größeren Datenvorrat entweder auf der Ebene einzelner Worte oder auf der Ebene von Ausdrücken. Jedem der Dokumente wird eine Relevanzwertung (oder Ähnlichkeitswertung) zugeordnet, wobei das Informationsabrufsystem eine bestimmte Untermenge der durchsuchten Dokumente an den Anwender ausgibt (üblicherweise diejenige Untermenge, die eine Relevanzwertung aufweist, die eine gegebene Schwelle übersteigt).
  • Die eher geringe Präzision herkömmlicher statistischer Suchmaschinen beruht auf der Annahme, dass Worte voneinander unabhängige Variablen darstellen (das heißt, dass Worte in einer beliebigen Textpassage voneinander unabhängig auftreten). Der Ausdruck „unabhängig" bezeichnet in diesem Zusammenhang die Tatsache, dass die Bedingungswahrscheinlichkeit, dass ein beliebiges Wort in einem Dokument bei Anwesenheit eines weiteren Wortes in diesem Dokument stets gleich 0 ist (das heißt, dass das Dokument einfach eine unstrukturierte Sammlung von Worten oder einfach „einen Worthaufen" enthält).
  • Es ist unmittelbar einsichtig, dass diese Annahme bei jeder beliebigen Sprache trivialerweise fehlerhaft ist. Worte, die in einer Textpassage auftreten, sind nämlich nicht unabhängig voneinander. Sie sind vielmehr hochgradig voneinander abhängig.
  • Schlüsselwortbasierte Suchmaschinen ignorieren diese raffinierte linguistische Struktur vollkommen. Man betrachte beispielsweise die nachfolgende als Beispiel angeführte Anfrage, die in einer natürlichen Sprache ausgedrückt ist: „Wie viele Herzen hat ein Oktopus?" Eine statistische Suchmaschine, die mit den Inhaltsworten „Herzen" und „Oktopus" oder morphologischen Stämmen hiervon arbeitet, gibt an den Anwender wahrscheinlich ein gespeichertes Dokument aus, das ein Rezept enthält, in dem die Zutaten und damit die Inhaltsworte „Artischockenherzen", „Tintenfische", „Zwiebeln" und „Oktopus" auftreten, oder es leitet den Anwender zu einem solchen Dokument. Eine derartige Suchmaschine kann, wenn Treffer bezüglich zweier Inhaltsworte auftreten, auf der Grundlage statistischer Messungen bestimmen, dass dieses Dokument ein hervorragender Treffer ist. In Wirklichkeit ist dieses Dokument mit Blick auf die Anfrage vergleichsweise unbedeutend.
  • Im Stand der Technik sind darüber hinaus verschiedene Verfahren zum Extrahieren von Elementen syntaktischer Phrasen bekannt, die als Ausdrücke in einem herkömmlichen statistischen Vektorraummodell indexiert werden. Ein Beispiel für ein derartiges Verfahren ist in der Doktorarbeit „Experiments in Automatic Phrase Indexing for Document Retrieval: A Comparison of Syntactic and Non-Syntactic Methods" von J. L. Fagan, erstellt an der Cornell Universität, 1988, Seiten 1 bis 261, beschrieben. Ein weiteres derartiges syntaxbasiertes Verfahren ist im Zusammenhang mit der Verwendung der Verarbeitung einer natürlichen Sprache zum Zwecke der Auswahl geeigneter Ausdrücke und deren Einbeziehung in Suchanfragen in dem Beitrag „Natural Language Information Retrieval: Tipster-2 Final Report" von T. Strzalkowski, veröffentlicht bei Proceedings of Advances in Text Processing: Tipster Program Phase 2, Darpa, 6. bis 8. Mai 1996, Tysons Corners, VA, Seiten 143 bis 148, sowie in dem Beitrag „Natural Language Information Retrieval" von T. Strzalkowski, veröffentlicht bei Information Processing and Management, Band 31, Nr. 3, 1995, Seiten 397 bis 417, beschrieben. Ein weiteres syntaxbasiertes Verfahren der hier in Rede stehenden Art ist in dem Beitrag „Annotating the World Wide Web Using Natural Language" von B. Katz, veröffentlicht bei Conference Proceedings of R.I.A.O. 97, Computer-assisted Information Search on Internet, McGill University, Quebec, Canada, 25. bis 27. Juni 1997, Band 1, Seiten 135 bis 155 beschrieben.
  • Diese syntaktischen Verfahren bringen nur geringe Verbesserungen oder konnten in gegenwärtig zur Verfügung stehenden Systemen zur Verarbeitung natürlicher Sprache überhaupt nicht implementiert werden. Daher hat sich die Forschung weg von dem Versuch der direkten Verbesserung der Präzision und des Rückrufes in Verbindung mit den Ergebnissen einer Anfrage und hin zu der Verbesserung der Anwenderschnittstelle bewegt.
  • Bei einigen Informationsabrufsystemen tritt darüber hinaus ein weiteres Problem auf. So können beispielsweise, wann immer Dokumente indexiert werden, was beispielsweise bei einer typischen statistischen Suchmaschine der Fall ist, der Index – was von der Inhaltsmenge abhängt – und die Anzahl der zu indexierenden Dokumente äußerst groß sein. Große Indizes gehen nicht nur mit großen Problemen hinsichtlich der Speicherkapazität einher, sondern erhöhen auch die Zeit, die für die Durchführung einer Anfrage auf Basis des Indexes benötigt wird.
  • Der Ausdruck „grammatische Beziehungen" beziehungsweise „Grammatikbeziehungen" wird zur Bezeichnung des Subjektes, des Objektes oder anderer Konstituenten verwendet, die auf Basis einer syntaktischen Analyse identifiziert werden können. Unter Sprachwissenschaftlern ist anerkannt, dass Grammatikbeziehungen nicht alle den gleichen Status aufweisen. So wurde beispielsweise von Keenan und Comrie eine Theorie dahingehend entwickelt, wie verschiedene Sprachen Positionen in einem Umfeld der Relativisierung markieren, die als Nominalphrasen angenommen werden. Die Theorie wird Zugänglichkeitshierarchie (oder Hierarchie der Zugänglichkeit) genannt und folgendermaßen beschrieben.
    Thema (optional) > Subjekt > direktes Objekt > indirektes Objekt > präpositionales oder postpositionales Objekt > Genitiv (Possessor) > Objekt eines Vergleiches
  • Die Hierarchie der Zugänglichkeit stellt eine Verallgemeinerung dahingehend dar, dass je niedriger eine Nominalphrase in der Hierarchie angesiedelt ist, desto unwahrscheinlicher der Ausdruck dieser Nominalphrase als Relativpronomen ist.
  • Die Zugänglichkeitshierarchie und der Weg zu ihrer Ermittlung werden detaillierter in dem Beitrag „Language Typology and Syntactic Description, Complex Constructions", Kapitel 3, verfasst von Edward L. Keenan, herausgegeben von Timothy Chopin, 1985, sowie in dem Beitrag „N.P. Accessibility and Universal Grammar" von E.L. Keenan und B. Comrie, veröffentlicht bei Linguistic Inquiry 8: 63–100 (1977), beschrieben.
  • Der Erwähnung bedarf zusätzlich die Tatsache, dass bestimmte Sprachen oftmals Gebrauch von dem machen, was Sprachwissenschaftler oftmals allgemein als „Kasus" („Fälle") bezeichnen. Die englische Sprache verfügt noch über Reste eines früher vorhandenen Kasussystems. So unterscheidet die englische Sprache beispielsweise beim Pronominalsystem ein Subjekt, ein Objekt und einen Genitiv durch die Ausdrücke „he", „him", „his". Obwohl Sprachwissenschaftler viel Zeit und Mühe darauf verwandt haben, den Kasus betreffend die thematische Funktion von anderen Arten der Markierung zu unterscheiden, wird der Ausdruck „Kasus" im Sinne der vorliegenden Beschreibung in den nachfolgenden beiden Bedeutungen verwendet: (1) zur Beschreibung einer morphologischen Inflektion (Beugung), die üblicherweise eine Änderung von Wortendungen umfasst. Deutsch, Russisch und Lateinisch sind Beispiele für Sprachen, die morphologische Kasus aufweisen; (2) zur Beschreibung der Verwendung von Adpositionen (Präpositionen und Postpositionen) oder Partikeln zum Zwecke der Angabe der grammatischen Funktion einer Nominalphrase. Japanisch und Indonesisch sind Beispiele für Sprachen, bei denen Kasusinformationen dieser Art auftreten. Eine Diskussion von Grammatikbeziehungen und Kasus erfolgt in dem Beitrag „Grammatical Relations and Surface Cases" von Shibatani, veröffentlicht bei Language, Band 53, Nummer 4 (1977), Seiten 789 bis 809. Eine Diskussion der grammatischen Funktion und des morphologischen Kasus erfolgt zudem in dem Beitrag „Of Nominative and Accusative: The Hierarchical Assignment of Grammatical Case in Finnish" von Mating, veröffentlicht bei „Case and Other Topics in Finnish Syntactic" von A. Holenberg und U. Nikanne, Studies in Generative Grammar, Foris (1992), Seiten 51 bis 76. In der vorliegenden Beschreibung wird der Ausdruck „Beziehungen" sowohl zur Bezeichnung der Kasus wie auch zur Bezeichnung grammatischer Beziehungen verwendet.
  • Die Druckschrift US-A-5,331,556 offenbart ein Abrufverfahren für Daten in natürlicher Sprache, bei dem die Daten in natürlicher Sprache in Form einer Textkorpusdatei vorliegen. Diese Daten werden beispielsweise morphologisch analysiert, woraufhin die hieraus entstehenden zusätzlichen Daten der Textkorpusdatei hinzugefügt werden, was zu einer erweiterten Textkorpusdatei führt. So kann die erweiterte Textkorpusdatei beispielsweise einen morphologischen Baum enthalten, der aus einer Wurzel und Blättern für jedes Wort besteht, von denen jedes beispielsweise ein mögliches Suffix, Präfix und dergleichen enthält. Um einen derartigen Baum zu erhalten, kann auch ein Lexikon, so beispielsweise ein auf Medizin abgestimmtes Lexikon, verwendet werden. Für den Abruf von Text aus der erweiterten Textkorpusdatei wird ein Auslösezeichenmorphem aus dem abzurufenden Text gebildet. Aus einem derartigen Morphem wird eine Suchmaske mit dem Inhalt der erweiterten Textkorpusdatei korreliert. In Abhängigkeit von der erweiterten Textkorpusdatei wird eine 1:1-Suche vorgenommen.
  • Die Druckschrift WO 92/02890 A2 offenbart ein Eingabesystem, das einen Anwender in die Lage versetzt, Text über Symboltasten einzugeben. Mit jeder Taste ist eine Bedeutung (ein Wort) verknüpft. Die Tasten sind in Abhängigkeit von der Art des Wortes – Agens, Aktion oder Patiens – gruppiert. Auf dieser Grundlage kann der Anwender Text eingeben. Zur Ermittlung der richtigen Textabhängigkeit von der verwendeten Sprache werden Regeln und heuristische Vorgehensweisen verwendet, um den Eingabetext auf richtigen Text abzubilden, der anschließend beispielsweise über einen Drucker ausgegeben werden kann.
  • In dem Beitrag „Learning syntactic rules and tags with genetic algorithms for information retrieval and filtering: an empirical basis for grammatical rules" von R. M. Losee, veröffentlicht bei Information Processing and Management, Elsevier, Barking, GB, Band 32, Nr. 2, 1. März 1996 (1996-03-01), Seiten 185 bis 197, wird ein Verfahren zum Erlernen syntaktischer Regeln und Etiketten mit genetischen Algorithmen zum Informationsabruf und zur Filterung insbesondere für eine empirische Basis für grammatische Regeln offenbart.
  • Die Aufgabe der vorliegenden Erfindung besteht darin, ein computerimplementiertes Verfahren zur Bestimmung einer Beziehung zwischen ersten und zweiten Texteingaben bereitzustellen, wobei das Verfahren eine verbesserte Effizienz und Genauigkeit bietet.
  • Die Aufgabe wird durch den Gegenstand des Anspruches 1 gelöst.
  • Bevorzugte Ausführungsbeispiele sind durch den Gegenstand der abhängigen Ansprüche festgelegt.
  • Kurzbeschreibung der Zeichnung
  • 1 ist ein stark abstrahiertes Blockdiagramm eines illustrativen Systems, bei dem die vorliegende Erfindung zum Einsatz kommen kann.
  • 2 ist ein Blockdiagramm eines Ausführungsbeispieles eines Computers entsprechend einem Aspekt der vorliegenden Erfindung.
  • 3A ist ein funktionelles Blockdiagramm, das den Betrieb bei einem Aspekt der vorliegenden Erfindung entsprechend einem illustrativen Ausführungsbeispiel hiervon darstellt.
  • 3B ist ein Flussdiagramm, das den Betrieb bei dem System von 3A darstellt.
  • 4 ist ein Flussdiagramm, das den Betrieb des Systems von 3A entsprechend einem weiteren Ausführungsbeispiel der vorliegenden Erfindung darstellt.
  • 5A ist ein funktionelles Blockdiagramm, das ein weiteres System darstellt, bei dem die vorliegende Erfindung verwendet werden kann.
  • 5B bis 5F sind Fluss- und Blockdiagramme, die den Betrieb des Systems von 5A darstellen.
  • 6A ist ein Blockdiagramm, das ein weiteres System darstellt, bei dem die vorliegende Erfindung verwendet werden kann.
  • 6B und 6C sind Flussdiagramme, die den Betrieb des Systems von 6A entsprechend einem Ausführungsbeispiel der vorliegenden Erfindung darstellen.
  • 7 ist ein Flussdiagramm, das eine Testmethodik darstellt, die entsprechend einem Ausführungsbeispiel der vorliegenden Erfindung verwendet wird.
  • Detailbeschreibung der illustrativen Ausführungsbeispiele
  • Übersicht
  • Bei der vorliegenden Erfindung finden Grammatikbeziehungen von Ausdrücken oder Phrasen (Konstituenten) in einer ersten Texteingabe Anwendung, um die Bedeutung oder den „Gehalt" („aboutness") der ersten Texteingabe zu bestimmen. Entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung wird eine Hierarchie von Grammatikbeziehungen identifiziert, bei der Grammatikbeziehungen, die unter ein vorbestimmtes Hierarchieniveau oder eine solche Schwelle fallen, für die Bestimmung des Gehaltes der ersten Texteingabe nicht besonders hilfreich sind. Bei einem weiteren Ausführungsbeispiel wird Kasusinformation identifiziert, durch die angegeben wird, dass Konstituenten entsprechend jener Kasusinformation bei der Bestimmung des Gehaltes der ersten Texteingabe nicht besonders hilfreich sind. Zum Zwecke dieser Diskussion wird das Wort „Ausdrücke" beziehungsweise „Begriffe" verwendet, um sowohl Grammatikbeziehungen wie auch Kasus zu bezeichnen. Während die vorliegende Erfindung für die Verwendung bei einer großen Vielzahl von Anwendungen gedacht ist, wird sie hier primär im Zusammenhang mit einem Informationsabruf beschrieben, was jedoch nur zu Illustrationszwecken erfolgt. In diesem Zusammenhang können diejenigen Konstituenten, die identifiziert sind, aus der ersten Texteingabe entfernt werden, bevor eine Indexierungsoperation vorgenommen wird, um die Größe des Indexes merklich zu verringern. Dies kann ohne merklichen Einfluss entweder auf die Präzision oder den Rückruf während des Informationsabrufprozesses sein. Die vorliegende Erfindung umfasst zudem ein System zum Ermitteln einer Liste von Typen zu identifizierender Konstituenten bei der Identifizierung der relevanten Kasusinformation oder beim Setzen der Hierarchie oder der Hierarchieschwelle, bei bestimmten Datenstrukturen und Systemen zur Erzeugung jener Datenstrukturen.
  • 1 zeigt ein stark abstrahiertes Blockdiagramm eines Computersystems 10 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. Das Computersystem 10 umfasst einen Datenvorrat 12, der mit einem Computer 20 gekoppelt ist. Man beachte, dass der Datenvorrat 12 ein beliebiger Typ eines Speichers sein kann, der entweder innerhalb des Computers 20 oder außerhalb desselben angeordnet ist. Auf ähnliche Weise kann der Datenvorrat 12 mit dem Computer 20 über ein beliebiges geeignetes Mittel gekoppelt sein, so beispielsweise über eine Direktverkabelung, über eine Anwahlmodemverbindung (was beispielsweise dann der Fall ist, wenn der Datenvorrat 12 einem Speicher entspricht, der über ein globales Computernetzwerk, so beispielsweise das Internet, zugänglich ist) oder über eine beliebige andere Verbindung. Auf ähnliche Weise ist der Computer 20 rein beispielhalber ein beliebiger geeigneter Computer, mit dem auf den Datenvorrat 12 zugegriffen werden kann, und ist nachstehend als Personalcomputer angegeben, der detaillierter unter Bezugnahme auf 2 beschrieben wird.
  • Der Computer 20 umfasst Anwenderschnittstellenvorrichtungen (so beispielsweise eine Tastatur und einen Monitor), sodass ein Anwender eine Anwendereingabe für den Computer 20 bereitstellen kann, durch die er anfordert, dass der Computer 20 bestimmte Operationen an dem Datenvorrat 12 vornimmt.
  • Die Anwendereingabe kann eine Anforderung dahingehend sein, dass eine Informationsabrufoperation vorgenommen wird. In diesem Fall ist die Anwendereingabe typischerweise eine Anfrage, und der Computer 20 führt die Anfrage auf Grundlage des Datenvorrates 12 aus, um Dokumente zu lokalisieren, die mit Blick auf die von dem Anwender eingegebene Anfrage relevant sind. Der Computer 20 bestimmt eine Beziehung zwischen der ersten Texteingabe (die die Anfrage darstellt) und einer zweiten Textein gabe (die ein in Frage kommendes Dokument oder mehrere hiervon oder indexierte Einträge dieser Dokumente darstellt), identifiziert diejenigen Dokumente, die eine enge Beziehung (so beispielsweise diejenigen Dokumente, die hinsichtlich der Bedeutung ähnlich sind) zu der Anfrage aufweisen und stellt eine Identifizierung jener Dokumente oder die Dokumente selbst als Ausgabe für den Anwender bereit.
  • Die Anwendereingabe kann auch eine Informationsabrufanforderung vom impliziten Typ sein. In diesem Fall präsentiert der Anwender üblicherweise ein Dokument oder eine andere Texteingabe und fordert den Computer 20 auf, eine Operation vom Typ „Find same" („Finde sowas") vorzunehmen, bei der der Computer 20 Dokumente in dem Datenvorrat 12 lokalisiert, die zu der von dem Anwender bereitgestellten Texteingabe ähnlich sind. Der Computer 20 stellt anschließend entweder eine Identifizierung der lokalisierten Dokumente in Reaktion auf die Anforderung „Find same" oder die Dokumente selbst zur Verfügung.
  • Auf ähnliche Weise kann die Anwendereingabe eine Anforderung beinhalten, die Dokumente zu gruppieren (zu clustern), wobei in diesem Fall der Computer 20 eine Vielzahl von Dokumenten bezüglich des Datenvorrates 12 untersucht und gleiche Dokumente in denselben Gruppierungen (Clustern) gruppiert (clustert). Hierbei bestimmt der Computer 20 eine Beziehung (so beispielsweise eine Ähnlichkeit hinsichtlich der Bedeutung) zwischen den verschiedenen Dokumenten und platziert diejenigen Dokumente, die eng miteinander verwandt sind, in derselben Gruppierung.
  • Die Anwendereingabe kann auch eine Anforderung dahingehend sein, dass der Computer 20 ein oder mehrere Dokumente zusammenfasst, die in dem Datenvorrat 12 enthalten sind. In diesem Fall untersucht der Computer 20 die in Frage kommenden Dokumente und entwickelt eine Ausgabe für den Anwender, die die Bedeutung oder den „Gehalt" des zusammengefassten Dokumentes wiedergibt.
  • In all den vorgenannten Fällen sollte beachtet werden, dass die beschriebenen Operationen entweder über ein Netzwerk (entweder ein Ortsbereichsnetzwerk oder ein Großbereichsnetzwerk) vorgenommen werden können, oder dass sie innerhalb eines einzelnen Computers (was beispielsweise dann der Fall ist, wenn das Betriebssystem ein Suchwerkzeug zur Verfügung stellt, das zum Durchsuchen des Speichers des Computers, auf dem das Betriebssystem läuft, verwendet werden kann) erfolgen.
  • 2 ist ein detaillierteres Blockdiagramm des Computers 20 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. 2 und die damit in Zusammenhang stehende Diskussion sollen eine kurze und allgemeine Beschreibung einer geeigneten Computerumgebung darstellen, in der die Erfindung implementiert werden kann. Obwohl nicht eigens erforderlich, wird die Erfindung wenigstens teilweise im allgemeinen Zusammenhang mit computerausführbaren Anweisungen, so beispielsweise mit Programmmodulen, beschrieben, die von einem Personalcomputer ausgeführt werden. Im Allgemeinen enthalten Programmmodule Routineprogramme, Objekte, Komponenten, Datenstrukturen und dergleichen mehr, die bestimmte Aufgaben (tasks) ausführen oder bestimmte abstrakte Datentypen implementieren. Darüber hinaus erschließt sich einem Fachmann auf dem einschlägigen Gebiet unmittelbar, dass die Erfindung auch bei anderen Computersystemkonfigurationen zum Einsatz kommen kann, darunter handbasierten Vorrichtungen, Multiprozessorsystemen, multiprozessorbasierten oder programmierten Geräten der Unterhaltungselektronik, Netzwerk-PCs, Minicomputern, Mainframecomputern und dergleichen mehr. Die Erfindung kann zudem in verteilten Computerumgebungen zum Einsatz kommen, wo Aufgaben (tasks) von entfernt angeordneten Verarbeitungsvorrichtungen ausgeführt werden, die über ein Kommunikationsnetzwerk in Verbindung stehen. In einer verteilten Berechnungsumgebung können Programmmodule sowohl in lokalen wie auch in entfernt angeordneten Speicherablagevorrichtungen lokalisiert sein.
  • Wie in 2 zu sehen ist, umfasst ein als Beispiel angegebenes System zur Implementierung der Erfindung eine Allzweckcomputervorrichtung in Form eines herkömmlichen Personalcomputers 20 mit einer Verarbeitungseinheit 21, einem Systemspeicher 22 und einem Systembus 23, der die verschiedenen Systemkomponenten, darunter den Systemspeicher, mit der Verarbeitungseinheit 21 koppelt. Der Systembus 23 kann ein beliebiger Systembus unter typischen Busstrukturen sein, darunter ein Speicherbus oder ein Speicherkontroller, ein Peripheriebus und ein lokaler Bus unter Verwendung einer Vielzahl von Busarchitekturen. Der Systemspeicher enthält einen Nurlesespeicher (ROM) 24, und einen Speicher mit wahlfreiem Zugriff (RAM) 25. Ein grundlegendes Eingabe-/Ausgabesystem (BIOS) mit einer Grundroutine, die die Übertragung von Informationen zwischen Elementen innerhalb des Personalcomputers 20 beispielsweise während des Hochfahrens unterstützt, ist in dem ROM 24 abgelegt. Der Personalcomputer 20 umfasst darüber hinaus ein Festplattenlaufwerk 27 zum Lesen von Daten von der (nicht gezeigten) Festplatte und zum Schreiben hierauf, ein Magnetplattenlaufwerk 28 zum Lesen von einer entnehmbaren Magnetplatte 29 oder zum Schreiben hierauf und ein Optikplattenlaufwerk 30 zum Lesen von einer entnehmbaren optischen Platte 31, so beispielsweise einer CD-ROM oder einem anderen optischen Medium, oder zum Schreiben hierauf. Das Festplattenlaufwerk 27, das Magnetplattenlaufwerk 28 und das Optikplattenlaufwerk 30 sind mit dem Systembus 23 über eine Festplattentreiberschnittstelle 32, eine Magnetplattentreiberschnittstelle 33 beziehungsweise eine Optiktreiberschnittstelle 34 verbunden. Die Treiber und die damit verbundenen computerlesbaren Medien stellen nichtflüchtige Speicher für computerlesbare Anweisungen, Datenstrukturen, Programmmodule und andere Daten für den Personalcomputer 20 dar.
  • Obwohl die als Beispiel angegebene und hier beschriebene Umgebung eine Festplatte, eine entnehmbare Magnetplatte 29 und eine entnehmbare Optikplatte 31 verwendet, erschließt sich einem Fachmann auf dem einschlägigen Gebiet unmittelbar, dass andere Arten computerlesbarer Medien, die in der Lage sind, Daten zu speichern, auf die ein Computer zugreifen kann, so beispielsweise Magnetkassetten, Flash-Memory-Karten, digitale Videoplatten, Bernoulli-Kartuschen, Speicher mit wahlfreiem Zugriff (RAM), Nurlesespeicher (ROM) und dergleichen mehr, ebenfalls in einer als Beispiel angegebenen Betriebsumgebung zum Einsatz kommen können.
  • Eine Anzahl von Programmmodulen kann auf der Festplatte, der Magnetplatte 29, der Optikplatte 31, in dem ROM 24 oder dem RAM 25 gespeichert sein, darunter ein Betriebssystem 35, ein oder mehrere Anwenderprogramme 36, weitere Programmmodule 37 sowie Programmdaten 38. Ein Anwender kann die Befehle und Informationen in den Personalcomputer 20 über Eingabevorrichtungen, so beispielsweise eine Tastatur 40 und eine Zeigevorrichtung 42, eingeben. Weitere Eingabevorrichtungen (nicht gezeigt) sind unter anderem ein Mikrofon, ein Joystick, ein Gamepad, eine Satellitenschüssel, ein Scanner und dergleichen mehr. Diese und andere Eingabevorrichtungen sind oftmals mit der Verarbeitungseinheit 21 über eine serielle Portschnittstelle 45 gekoppelt, die mit dem Systembus 23 gekoppelt ist, die jedoch auch mit anderen Schnittstellen verbunden sein kann, so beispielsweise einer Sound-Karte, einem Parallelport, einem Gameport oder einem universellen seriellen Bus (USB). Ein Bildschirm 47 oder eine andere Art von Anzeigevorrichtung ist ebenfalls mit dem Systembus 23 über eine Schnittstelle verbunden, so beispielsweise einen Videoadapter 38. Zusätzlich zu dem Bildschirm 37 können Personalcomputer üblicherweise weitere Peripherieausgabevorrichtungen, so beispielsweise einen Lautsprecher und Drucker (nicht gezeigt), umfassen.
  • Der Personalcomputer 20 kann in einer vernetzten Umgebung unter Verwendung logischer Verbindungen mit einem oder mehreren entfernt angeordneten Computern, so beispielsweise mit dem entfernt angeordneten Computer 49, arbeiten. Der entfernt angeordnete Computer 49 kann ein weiterer Personalcomputer, ein Server, ein Router, ein Netzwerk-PC, ein Peergerät oder ein anderer Netzwerkknoten sein und umfasst üblicherweise viele oder sämtliche Elemente, die vorstehend im Zusammenhang mit dem Personalcomputer 20 beschrieben worden sind, obwohl lediglich eine Speicherablagevorrichtung 50 in 1 dargestellt ist. Die in 1 gezeigten logischen Verbindungen umfassen ein Ortsbereichsnetzwerk (LAN) 51 und ein Großbereichsnetzwerk (WAN) 52. Derartige Netzwerkumgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet weit verbreitet.
  • Bei Verwendung in einer LAN-Netzwerkumgebung ist der Personalcomputer 20 mit dem Ortsbereichsnetzwerk 51 über eine Netzwerkschnittstelle oder einen Adapter 53 verbunden. Bei Verwendung in einer WAN-Netzwerkumgebung umfasst der Personalcomputer 20 üblicherweise ein Modem 54 oder eine weitere Einrichtung zum Bewerkstelligen von Datenaustauschvorgängen über das Großbereichsnetzwerk 52, so beispielsweise das Internet. Das Modem 54, das ein internes oder ein externes Modem sein kann, ist mit dem Systembus 23 über die serielle Portschnittstelle 46 verbunden. In einer Netzwerkumgebung können Programmmodule, die im Zusammenhang mit dem Personalcomputer 20 beschrieben worden sind, oder Teile hiervon in entfernt angeordneten Speicherablagevorrichtungen abgelegt werden. Man beachte, dass die gezeigten Netzwerkverbindungen rein beispielhalber angegeben sind und dass andere Einrichtungen zum Bewerkstelligen einer Datenaustauschverbindung zwischen den Computern zum Einsatz kommen können.
  • Identifizieren von Beziehungen
  • 3A ist ein funktionelles Blockdiagramm eines Textverarbeitungssystems 100 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. Die Komponenten in dem System 100 können auf Basis von Programmmodulen oder Anweisungen implementiert sein, die in einem damit verbundenen geeigneten Speicher abgelegt sind, oder auf die ein Computer 20 zugreifen kann. Des Weiteren können die Komponenten in einem Prozessor 21, einem Coprozessor oder einem eigens zu diesem Zweck vorgesehenen Prozessor implementiert sein.
  • Das Textverarbeitungssystem 100 umfasst eine Konstituentenmarkierungskomponente 102 und eine Beziehungsbestimmungskomponente 104. Die Konstituentenmarkierungskomponente 102 empfängt eine erste Texteingabe und identifiziert die Konstituenten und die damit verbundene Kasusinformation oder die Grammatikbeziehungen der Konstituenten der ersten Texteingabe, was nachstehend detailliert beschrieben wird. Ist die Kasusinformation identifiziert, so werden die damit verbundenen Konstituenten derart gekennzeichnet, dass sie mit einer vorbestimmten Kasusinformation während einer späteren Verarbeitung verglichen werden können. Sind die Grammatikbeziehungen identifiziert, so sind die Konstituenten derart gekennzeichnet, dass sie während einer späteren Verarbeitung nach Rang angeordnet werden können.
  • Sind die Grammatikbeziehungen identifiziert, so werden die gekennzeichneten Konstituenten und Grammatikbeziehungen bei einem als Beispiel angegebenen Ausführungsbeispiel als syntaktischer Parsingbaum (Zergliederungsbaum) oder als eine andere syntaktische Analyse für die Beziehungsbestimmungskomponente 104 bereitgestellt, obwohl auch andere Typen von Analyse, die Grammatikbeziehungen von Konstituenten identifizieren, verwendet werden können. Ist die Kasusinformation identifiziert, so kann der damit verbundene Konstituent einfach mit einem Kennzeichen bereitgestellt werden, das die Beziehung wiedergibt.
  • Bei einem Ausführungsbeispiel, bei dem das System 100 verwendet wird, um die Beziehung zwischen zwei oder mehr Texteingaben zu bestimmen, bestimmt die Beziehungsbestimmungskomponente 104 eine Beziehung zwischen der ersten Texteingabe gemäß Darstellung durch die syntaktische Analyse oder den gekennzeichneten Konstituenten gemäß Ausgabe durch die Markierungskomponente 102 und einer zweiten Texteingabe gemäß Bereitstellung für die Komponente 104. Die Komponente 104 stellt eine Wiedergabe der Beziehung an ihrem Ausgang bereit.
  • Um die Konstituenten zu identifizieren und zu kennzeichnen, umfasst die Markierungskomponente 102 einen Kasus- oder Grammatikbeziehungsanalysator 106 sowie einen Konstituentenidentifizierer und Kennzeichner 108. Die erste Texteingabe wird dem Analysator 106 zugeführt. Bei einem illustrativen Ausführungsbeispiel, bei dem die Kasusinformation ermittelt werden soll, umfasst der Analysator 106 einen Worttrenner (beispielsweise für Japanisch) und einen Analysator, der bestimmt, wo die Kasusmarkierung auftritt. Bei einem anderen Ausführungsbeispiel, bei dem morphologische Kasusinformation identifiziert werden soll (beispielsweise für Deutsch), umfasst der Analysator 106 ei nen Redeteilanalysator und einen morphologischen Analysator, der die Worte bezüglich morphologischer Inflektion analysiert. Die Konstituenten mit der zugehörigen Kasusinformation sind als Ausgabe für den Konstituentenidentifizierer und Kennzeichner 108 vorgesehen.
  • Bei einem weiteren illustrativen Ausführungsbeispiel umfasst der Analysator 106 einfach einen Satztrenner, der die für ihn bereitgestellte erste Texteingabe untersucht und das Dokument an Satzgrenzen trennt. Die Sätze werden einem syntaktischen und semantischen Analysator (auch in dem Grammatikbeziehungsanalysator 106 enthalten) zugeführt, der die Teile der Rede (so beispielsweise Nomen und Verben), die Konstituenten (so beispielsweise Nominalphrasen und Verbalphrasen) und Grammatikbeziehungen (so beispielsweise Subjekte und Objekte) identifiziert und eine Ausgabe auf Basis einer syntaktischen Analyse bereitstellt, die dem von dem syntaktischen und semantischen Analysator empfangenen Satz entspricht. Man beachte, dass ein beliebiger anderer geeigneter Mechanismus, der die Grammatikbeziehungen zwischen den Konstituenten identifiziert, ebenfalls Verwendung finden kann.
  • Die syntaktische Analyse oder eine andere Ausgabe (so beispielsweise als Konstituenten mit Kasusinformation) wird für den Konstituentenidentifizierer und Kennzeichner 108 bereitgestellt. Man beachte, dass der Grammatikanalysator 106 auch ein komplizierteres System darstellen kann, das eine weitere morphologische Analyse oder andere Verarbeitungstechniken für natürliche Sprache enthält.
  • Entsprechend einem spezifischeren illustrativen Ausführungsbeispiel der vorliegenden Erfindung empfängt beispielsweise der syntaktische und semantische Analysator in dem Grammatikbeziehungsanalysator 106 zu einem bestimmten Zeitpunkt eine einzelne Zeile eines Eingabetextes, sei dies nun ein Satz in einem Dokument oder ein Textfragment, und erstellt eine syntaktische Analyse, die als Eingabe für den Rest des Grammatikbeziehungsanalysators 106 dient. Bei einem illustrativen Ausführungsbeispiel, in dem Dokumente analysiert werden, um die Verarbeitung natürlicher Sprache zu erleichtern, die jeweils auf einem einzelnen Satz beruht, wird der Text für jedes Dokument in einer Textdatei unter Verwendung eines herkömmlichen Satztrenners getrennt, bei dem jeder Satz eine eigene Zeile in der Datei einnimmt. Für jede eingegebene Textzeile wird die Zeile zunächst in ihre konstituierenden Wörter geparst beziehungsweise zergliedert. Anschließend wird unter Verwendung eines vordefinierten Eintrages in einem gespeicherten Lexikon für jedes Wort der entsprechende Eintrag für diese konstituierenden Worte (über vordefinierte grammatische Regeln) selbst zu größeren Strukturen oder Analysen kombiniert, die dann wiederum derart kombiniert werden (wiederum durch vordefinierte grammatische Regeln), dass sie noch größere Strukturen bilden, so beispielsweise einen syntaktischen Parsingbaum. Ob eine bestimmte Regel auf eine bestimmt Menge beziehungsweise einen bestimmten Satz von Konstituenten anwendbar ist, hängt zum Teil vom Vorhandensein oder Nichtvorhandensein bestimmter entsprechender Eigenschaften beziehungsweise Attribute und ihrer Werte bei den Worteinträgen ab.
  • Ein illustratives Lexikon umfasst annähernd 165.000 Stichworteinträge. Dieses Lexikon umfasst verschiedene Klassen von Worten (so beispielsweise Präpositionen, Konjunktionen, Verben, Nomen, Operatoren und Qualifizierer), die syntaktische und semantische Eigenschaften definieren, die den Worten in einer Eingabefolge inhärent zueigen sind, sodass ein Parsingbaum hierfür erstellt werden kann. Es ist einsichtig, dass ein syntaktischer Parsingbaum auch vorab berechnet werden kann, während ein entsprechendes Dokument indexiert und in einem Eintrag für jedes Dokument für einen späteren Zugriff und eine nachfolgende Verwendung abgelegt wird, anstatt dass die Berechnung später erfolgt, sobald das Dokument in Reaktion auf eine Anfrage abgerufen worden ist.
  • Bei einem besonderen illustrativen Ausführungsbeispiel des Grammatikanalysators 106 wird eine Eingabefolge, so beispielsweise der Satz „Der Oktopus hat drei Herzen.", zunächst morphologisch analysiert, und zwar unter Verwendung des vordefinierten Eintrages in dem Lexikon für jedes seiner Konstituentenworte, um eine sogenannte „Stammform" oder „Basisform" zu erzeugen. Stammformen werden verwendet, um voneinander abweichende Wortformen (so beispielsweise Verbzeiten und Abwandlungen beim Nomen hinsichtlich Singular und Plural) zu normalisieren beziehungsweise zu vereinheitlichen, und zwar auf eine gemeinsame morphologische Form, die von dem Parser verwendet werden kann. Sobald die Stammformen erzeugt sind, wird die Eingabefolge syntaktisch von dem Parser analysiert, und zwar unter Verwendung grammatischer Regeln und Eigenschaften in den Einträgen der Konstituentenworte, um den entsprechenden syntaktischen Parsingbaum zu erhalten. Dieser Baum gibt die Struktur der Eingabefolge, insbesondere jedes Wort oder jede Phrase (so beispielsweise die Nominalphrase „Oktopus") in der Eingabefolge, eine Kategorie der jeweiligen grammatischen Funktion (so beispielsweise NP für jede Nominalphrase) und Verknüpfungen (links) für jedes syntaktisch verwandte Wort oder jede Phrase darin wieder. Für den Beispielssatz würde der damit verbundene syntaktische Parsingbaum folgendermaßen aussehen.
  • Figure 00160001
    Tabelle 1: Syntaktischer Parsingbaum für den Satz „Der Oktopus hat drei Herzen."
  • Ein Startknoten, der in der oberen linken Ecke des Baumes angeordnet ist, definiert den Typ der geparsten Eingabefolge. Zu den Satztypen zählen „DECL" (wie hier angegeben) für einen Aussagesatz, „IMPR" für einen Befehlssatz und „QUES" für eine Frage. Vertikal nach rechts verlaufend und unterhalb des Startknotens ist eine Analyse auf einem ersten Niveau. Die Analyse umfasst einen Kopfknoten, der durch einen Asterisken (oder eine andere geeignete Markierung) gegeben ist, üblicherweise ein Hauptverb (hier das Verb „hat"), einen Prämodifizierer (hier die Nominalphrase „Der Oktopus"), gefolgt von einem Postmodifizierer (hier die Nominalphrase „drei Herzen"). Jedes Blatt des Baumes enthält einen lexikalischen Ausdruck oder ein Satzzeichen. Hierbei bezeichnen (als Etiketten) „NP" eine Nominalphrase und „CHAR" ein Satzzeichen.
  • Die Ausgabe des Kasus- oder Grammatikbeziehungsanalysators 106 (beispielhalber eine syntaktische Analyse entsprechend einem analysierten Satz) wird für den Konstituentenidentifizierer und Kennzeichner 108 bereitgestellt. Bei einem als Beispiel angegebenen Ausführungsbeispiel, bei dem die Konstituenten und die damit verbundene Kasusinformation durch den Analysator 106 bereitgestellt werden, umfasst der Konstituentenidentifizierer und Kennzeichner 108 eine vorbestimmte Liste von Kasusinformationen, die diejenigen Fälle identifiziert, die tendenziell weniger stark den Gehalt der ersten Texteingabe angeben. Bei einem derartigen Ausführungsbeispiel umfasst die Komponente 108 eine Softwarekomponente, die die Ausgabe von dem anderen Analysator 106 emp fängt, und nach Konstituenten mit damit verknüpfter Kasusinformation sucht, die in der vorbestimmten Liste enthalten ist. Die Komponente 108 kennzeichnet diejenigen Konstituenten, die die vorbestimmte Kasusinformation enthalten (und nimmt damit eine Kennzeichnung derjenigen Konstituenten vor, die mit dem Gehalt des Dokumentes vergleichsweise wenig in Beziehung stehen).
  • Bei einem illustrativen Ausführungsbeispiel umfasst der Konstituentenidentifizierer und Kennzeichner 108 eine vorbestimmte Hierarchie zu identifizierender Grammatikbeziehungen und eine vorbestimmte Hierarchieschwelle. Bei einem illustrativen Ausführungsbeispiel ist die vorbestimmte Hierarchie die Zugänglichkeitshierarchie gemäß der Theorie von Keenan und Comrie, die vorstehend im Abschnitt „Hintergrund der Erfindung" dargestellt worden ist. Die Schwelle ist einfach durch ein vorbestimmtes Niveau oder eine Position in der Hierarchie definiert. Daher sind sämtliche Grammatikbeziehungen, die unterhalb der Schwellenposition in der Hierarchie befindlich sind, in der vorbestimmten Liste von Grammatikbeziehungen enthalten. Die Komponente 108 kennzeichnet die Konstituenten, deren Grammatikbeziehung unter die Schwelle fällt. Derart enthält der Konstituentenidentifizierer und Kennzeichner 108 eine Softwarekomponente, die die syntaktische Analyse, die von dem Grammatikbeziehungsanalysator 106 bereitgestellt worden ist, durchläuft und nach Konstituenten sucht, deren Grammatikbeziehungen in der Liste der vorbestimmten Grammatikbeziehungen enthalten sind (und die damit den Konstituenten entspricht, deren Grammatikbeziehungen unter die Schwelle fallen). Bei der Identifizierung einer Grammatikbeziehung in einem an den Identifizierer und Kennzeichner 108 weitergeleiteten Satz als in der vorbestimmten Liste befindlich kennzeichnet die Komponente 108 den damit verbundenen Konstituenten, um anzugeben, dass es sich hierbei um einen Konstituenten handelt, dessen Grammatikbeziehung in der Liste der vorbestimmten Grammatikbeziehungen enthalten ist.
  • Entsprechend einem Aspekt der vorliegenden Erfindung sind vorbestimmte Grammatikbeziehungen oder Kasusinformationen diejenigen, bei denen man empirisch bestimmt hat, dass sie bei der Bestimmung dessen, wovon das Gesamtdokument oder der Satz handeln, einen geringen oder gar keinen Beitrag leisten. So ist in vielen Beispielen das Subjekt eines Hauptgliedes in einem Satz tendenziell derart, dass es das intuitive Leseverständnis eines Lesers dahin leitet, wovon der Satz oder das Dokument handeln, während das indirekte Objekt eines untergeordneten Satzgliedes dies nicht tut. Darüber hinaus sind beispielsweise japanische Dokumente mit Trefferschlüsselworten, die mit dem Themamarkierer „wa" markiert sind, oftmals hochgradig relevant, während Dokumente mit Schlüsselworten mit dem Unterordnungsmarkierer „no" (der beispielsweise partitive, attributive, possessive und appositive Verhältnisse markiert) oftmals unwichtig sind. Auf ähnliche Weise werden im Japanischen verschiedene Nominalkoordinationsmarkierer („ya", „nado" und das Komma) nur im Zusammenhang mit einer Aufzählung (so beispielsweise „A, B, C" und so weiter) verwendet. Dokumente, die Schlüsselworte enthalten, die mit diesen Aufzählungsmarkierern markiert sind, sind oftmals irrelevant. Derartige Typen von Konstituenten und Kasusinformation können entsprechend einer geeigneten Testmethodik empirisch identifiziert werden, von denen eine nachstehend detailliert unter Bezugnahme auf 7 beschrieben wird.
  • Darüber hinaus sollte Beachtung finden, dass eine komplette syntaktische Analyse nicht für die Grobidentifizierung der Grammatikbeziehungen oder Kasus implementiert sein muss. Anstelle dessen können einfache Redeteile und ihre Anordnung in einem Satz identifiziert werden. So hat man beispielsweise beobachtet, dass Nomen, die sehr weit am Anfang eines Satzes stehen, oftmals die Subjekte des Satzes sind. Daher können für den Fall, dass die Anfangsschwelle in der Zugänglichkeitshierarchie genau unterhalb der Subjekte gesetzt ist, alle Ausdrücke in einem Satz nach dem ersten Nomen gekennzeichnet werden. Es können auch andere Techniken zum Einsatz kommen. Algorithmen, die eine Etikettierung der Redeteile vornehmen, sind weit verbreitet und bekannt.
  • Sobald die relevanten Konstituenten gekennzeichnet worden sind, wird die gekennzeichnete Struktur (so beispielsweise eine gekennzeichnete syntaktische Analyse) in jedem Fall an die Beziehungsbestimmungskomponente 104 übertragen. Bei dem in 3A dargestellten Ausführungsbeispiel ist die Komponente 104 derart konfiguriert, dass sie eine vorbestimmte Beziehung zwischen der ersten Texteingabe gemäß Bereitstellung für den Analysator 106 und einer zweiten Texteingabe gemäß Bereitstellung für die Komponente 104 bestimmt. Bei einem illustrativen Ausführungsbeispiel ist die zu bestimmende Beziehung die Ähnlichkeit hinsichtlich der Bedeutung zwischen der ersten Texteingabe und der zweiten Texteingabe.
  • Bei der Durchführung dieser Aufgabe (task) berücksichtigt die Komponente 104 die gekennzeichneten Konstituenten (so beispielsweise in der gekennzeichneten syntaktischen Analyse) gemäß Bereitstellung durch die Konstituentenmarkierungskomponente 102. So kann beispielsweise die Komponente 104 die gekennzeichneten Konstituenten schlicht entfernen und den Grad der Ähnlichkeit zwischen der ersten Texteingabe (mit den gelöschten gekennzeichneten Konstituenten) und der zweiten Texteingabe bestimmen.
  • Dies verringert den Umfang des Vergleiches und der erforderlichen Verarbeitung, da der Gesamttext in der ersten Texteingabe verringert wird. Gewichtungstechniken können ebenfalls verwendet werden und werden in der vorliegenden Druckschrift nachstehend detailliert beschrieben.
  • 3B ist ein Flussdiagramm zur detaillierteren Darstellung des Betriebes des Systems 100 von 3A. Zunächst empfängt der Kasus- oder Grammatikanalysator 106 die erste Texteingabe. Dies ist durch den Block 110 angegeben. Bei einem illustrativen Ausführungsbeispiel ist die Texteingabe ein analysiertes Dokument. Der Analysator 106 nimmt in dem Dokument eine Trennung an Satzgrenzen vor. Darüber hinaus kann bei einem illustrativen Ausführungsbeispiel der Analysator 106 morphologische, syntaktische und semantische Analysekomponenten enthalten oder derartige Komponenten auch nicht enthalten, sondern einfach eine Komponente, die die Kasusinformation oder die Grammatikbeziehungen in jedem Satz identifiziert. Dies ist durch Block 112 angedeutet.
  • Nach Erzeugung der syntaktischen Analyse (beispielsweise derjenigen von Tabelle 1) oder der Beziehungsinformationen gibt der Analysator 106 jene Ausgabe an den Konstituentenidentifizierer und Kennzeichner 108 weiter. Die Komponente 108 vergleicht Beziehungen gemäß Identifizierung auf Basis der vorbestimmtem Liste von Beziehungen oder durchläuft die syntaktische Analyse gemäß Tabelle 1, bis sie auf einen Konstituenten trifft, dessen Beziehung in der vorbestimmten Liste von Grammatikbeziehungen enthalten ist (und damit unterhalb der vorbestimmtem Hierarchieschwelle befindlich ist). Unter der Voraussetzung, dass, wie beispielsweise in Tabelle 1 angegeben ist, Objekte auf der Liste vorbestimmter Grammatikbeziehungen befindlich sind, durchläuft die Komponente 108 die syntaktische Analyse, bis sie auf denjenigen Knoten trifft, der von der grammatischen Analyse 106 als Objekt identifiziert worden ist. Da die Grammatikbeziehung in der vorbestimmten Liste von Grammatikbeziehungen vorhanden ist, kennzeichnet die Komponente 108 jenem Knoten (und gegebenenfalls alle Ausdrücke, die von jenem Knoten ausgehen) als in der Liste vorbestimmter Grammatikbeziehungen enthalten und als unter der Hierarchieschwelle befindlich. Diese Kennzeichnung ist in Tabelle 1 mit „/Objekt" angegeben. Die Identifizierung der vorbestimmten Grammatikbeziehungen und die Kennzeichnung jener Grammatikbeziehungen ist in 3B durch Blöcke 114 und 116 angedeutet. Auch hier bezeichnet der Ausdruck „Beziehungen" im Sinne der vorliegenden Beschreibung sowohl Grammatikbeziehungen wie auch Kasus.
  • Die gekennzeichnete syntaktische Analyse (oder eine Ausgabe, die Beziehungskennzeichnungen enthält) wird anschließend an die Komponente 104 von 3A weitergeleitet. Bei einem Ausführungsbeispiel, wo beispielsweise das System 100 die Ähnlichkeit zwischen der ersten und der zweiten Texteingabe bestimmt, ist die Komponente 104 in der Lage, eine Anzahl von Operationen an der gekennzeichneten Ausgabe der Komponente 102 vorzunehmen. Wenn beispielsweise empirisch bestimmt worden ist, dass die gekennzeichneten Ausdrücke nicht denjenigen entsprechen, von denen die erste Texteingabe handelt, können alle gekennzeichneten Ausdrücke einfach mittels Straffung aus der gekennzeichneten Ausgabe entfernt werden. Dies ist in 3B durch Block 118 angedeutet.
  • Sobald die gekennzeichneten Ausdrücke mittels Straffung entfernt worden sind und die zweite Texteingabe empfangen worden ist, bestimmt die Komponente 104 einfach die Ähnlichkeit zwischen den in dem gestrafften Text verbliebenen Ausdrücken und den Ausdrücken in der zweiten Texteingabe. Ist beispielsweise die erste Texteingabe ein Dokument und die zweite Texteingabe eine Anfrage, so werden die Inhaltsworte in der zweiten Texteingabe (der Anfrage) mit denjenigen Worten verglichen, die in der gestrafften syntaktischen Analyse entsprechend den Sätzen in dem Dokument verblieben sind, um zu bestimmen, ob irgendwelche Treffer vorhanden sind. Es wird dem Dokument eine Wertung zugewiesen, die auf der Anzahl der auftretenden Treffer basiert und die damit die Ähnlichkeit zwischen der ersten Texteingabe (dem Dokument) und der zweiten Texteingabe (der Anfrage) wiedergibt. Diese Wertung wird für die Ausgabe der Komponente 104 zur Verwendung bei einer weiteren Verarbeitung bereitgestellt. Bei Rückgabe der gestrafften syntaktischen Analyse wird der Empfang der zweiten Texteingabe und die Bestimmung der Beziehung zwischen den ersten und zweiten Texteingaben in 3B durch Blöcke 120, 122 und 124 angedeutet.
  • Wie vorstehend erläutert worden ist, kann die Komponente 104 eine beliebige Anzahl von Operationen an der gekennzeichneten Ausgabe gemäß Bereitstellung durch die Markierungskomponente 102 vornehmen, und zwar auch über das mittels Straffung erfolgende Entfernen gekennzeichneter Ausdrücke hinausgehend. 4 ist ein Flussdiagramm, das eine alternative Operation detaillierter darstellt. Eine Anzahl von Blöcken ähnelt denjenigen von 3B und ist auf ähnliche Weise bezeichnet. Somit empfängt das System 100 die erste Texteingabe und nimmt eine Analyse vor, um Kasusinformation oder Grammatikbeziehungen entsprechend den Konstituenten hiervon (so beispielsweise durch Erzeugung einer syntaktischen Analyse) zu erzeugen, und identifiziert darüber hinaus, ob die Konstituenten damit verbundene Beziehungen aufweisen, die den vorbestimmtem Beziehungen entsprechen (beispielsweise durch Lokalisieren der Beziehungen in der vorbestimmten Liste oder Hierarchie von Beziehungen). Dies ist durch Blöcke 110, 112 und 114 angedeutet.
  • Anstatt nun einfach die identifizierten Konstituenten auf binäre Weise (wie beispielsweise anhand 3B beschrieben worden ist) zu kennzeichnen, nimmt die Komponente 108 bei dem illustrativen Beispiel gemäß 4 die Zuweisung eines Gewichtungswertes für jeden der Konstituenten in Abhängigkeit davon vor, wie nahe jeder Konstituent am „Gehalt" der ersten Texteingabe ist. So kann beispielsweise empirisch festgestellt werden, dass das Subjekt eines Hauptsatzgliedes enger mit dem Gehalt des Dokumentes verwandt ist als das Objekt in einem untergeordneten Satzglied. Alternativ kann einfach davon ausgegangen werden, dass diejenigen Konstituenten mit damit verbundenen Grammatikbeziehungen, die in der vorerläuterten Zugänglichkeitshierarchie höher angesiedelt sind, enger am Gehalt sind als Konstituenten, die eine damit verbundene Grammatikbeziehung aufweisen, die in der Hierarchie niedriger angeordnet ist. Ist dies der Fall, so wird vorzugsweise eine Verbindung zwischen Ausdrücken in der ersten Texteingabe und Ausdrücken hergestellt, die in der Hierarchie höher angesiedelt sind. Ein Weg zur Bewerkstelligung hiervon besteht in der Zuweisung variierender Gewichtungen an die Konstituenten auf Basis der Lokalisierung ihrer entsprechenden Beziehungen in der Hierarchie. Sobald die Beziehungen der Konstituenten während der Analyse der Texteingabe identifiziert worden sind, können Objekte in den untergeordneten Satzgliedern mit einem sehr niedrigen Wert (beispielsweise 0,1 auf einer Skala zwischen 0 und 1) versehen werden, während Objekte der Hauptsatzglieder mit sehr hohen Werten (so beispielsweise 0,9) gewichtet werden können. Der bestimmte jeweils zugewiesene Gewichtungswert kann empirisch oder intuitiv bestimmt werden. Eine ähnliche Gewichtung kann auf Basis der identifizierten Kasusinformationen vorgenommen werden. Mit anderen Worten, den Konstituenten mit den damit verbundenen Beziehungen, die in der vorbestimmten Rangliste von Beziehungen hoch angesiegelt sind, wird ein höheres Gewicht als denjenigen zugeordnet, die in der Rangliste niedriger angeordnet sind (und zwar unter der Annahme, dass diejenige Beziehung, die in der Liste höher angesiedelt ist, enger mit dem Gehalt verwandt ist). Dies ist in 4 durch Block 116 angedeutet.
  • Der gekennzeichnete Text (beispielsweise die syntaktische Analyse) wird anschließend an die Komponente 104 übermittelt, was durch Block 126 angegeben ist. Anschließend wird, wie anhand 3B beschrieben worden ist, die zweite Texteingabe empfangen, wie durch Block 122 angedeutet ist, woraufhin die Beziehung zwischen den ersten und zweiten Texteingaben durch Rückgriff auf den gekennzeichneten (gewichteten) Text, wie in Block 128 angegeben, bestimmt wird.
  • Zusammenfassen und Gruppieren (Clustern)
  • Die Techniken entsprechend der vorliegenden Erfindung können bei einer Vielzahl von Anwendungen zum Einsatz kommen. Ist die Anwendung beispielsweise dafür bestimmt, die Zusammenfassung eines Dokumentes zu erzeugen, so kann die vorliegende Erfindung zur Identifizierung und aus der Zusammenfassung erfolgenden Entnahme von Satzgliedern oder Ausdrücken verwendet werden, die nicht mit dem Gehalt des Dokumentes in Beziehung stehen. In diesem Fall enthält das System 100 keine Beziehungsbestimmungskomponente 104, die zur Bestimmung der Beziehungen zwischen der ersten Texteingabe und der zweiten Texteingabe verwendet würde. Vielmehr wird hierfür eine allgemeine Zusammenfassungserzeugungskomponente eingesetzt, die derart ausgelegt ist, dass sie eine Zusammenfassung auf Basis des gekennzeichneten oder gestrafften Textes (beispielsweise der syntaktischen Analyse) gemäß Ausgabe durch die Komponente 102 erzeugt.
  • Ist die Anwendung eine Dokumentengruppierungsanwendung, so ist das System 100 auf ähnliche Weise derart ausgelegt, dass es sämtliche zu gruppierenden Dokumente empfängt und die gekennzeichneten Texte (so beispielsweise die syntaktischen Analysen) auf Basis der Sätze in jedem der Dokumente erzeugt. Anschließend nimmt die Beziehungsbestimmungskomponente 104 als Eingaben einfach gekennzeichnete Texte aus zwei oder mehr Dokumenten, um die Beziehung zwischen den beiden Dokumenten zu bestimmen. Die Beziehungswertungen werden für sämtliche möglichen Dokumentenpaare berechnet, wobei die mit der höchsten Beziehungswertung zusammengruppiert (geclustert) werden.
  • Informationsabruf vor der Indexierung
  • Während sämtliche vorgenannten Anwendungen mit der Aufgabe (task) des Informationsabrufes in Zusammenhang stehen, kann die vorliegende Erfindung beispielhalber auch direkt in einer Anwendung zum Einsatz kommen, die einen Informationsabruf innerhalb eines Computers vornimmt, und zwar über ein Ortsbereichsnetzwerk oder ein Großbereichsnetzwerk, so beispielsweise ein globales Computernetzwerk. 5A bis 5F zeigen die Verwendung der vorliegenden Erfindung bei Informationsabrufoperationen im Zusammenhang mit einem globalen Computernetzwerk, wobei Techniken entsprechend der vorliegenden Erfindung vor der Indexierung zum Einsatz kommen.
  • 5A ist ein funktionelles Blockdiagramm, das die Konstituentenmarkierungskomponente 102 (die anhand 3A beschrieben worden ist) im Zusammenhang mit einem Internetinformationsabrufsystem 200 darstellt. Das System 200 umfasst eine Netzdurchpflügerkomponente 202 (web crawler), eine Textfilterkomponente 204, eine Konstituentenmarkierungskomponente 102, einen Indexierer 206 und einen Index 208. Das System 200 umfasst darüber hinaus eine Suchmaschine 210. 5B ist ein Flussdiagramm, das den Betrieb des Systems 200 darstellt.
  • Die Netzdurchpflügerkomponente 202 (web crawler) ist eine gängige Komponente, die beispielsweise im Betriebssystem eines Computers integriert ist, periodisch einen Zugriff auf vorbestimmte Seiten des globalen Computernetzwerkes vornimmt und eruiert, ob zu der Seite, auf die zugegriffen wird, Inhalt hinzugefügt worden ist. Ist dies der Fall, so stellt die Netzdurchpflügerkomponente 202 den Inhalt für den Textfilter 204 bereit. Der Textfilter 204 ist ebenfalls eine gängige Komponente, die Ausdrücke, die vom Standpunkt der Indexierung aus unerwünscht sind, entnimmt. So entfernt beispielsweise bei einem illustrativen Ausführungsbeispiel die Textfilterkomponente 204 sämtliche HTML-Tags oder andere Ausdrücke aus der von dem Netzdurchpflüger 202 zur Verfügung gestellten Information. Der Empfang der Netzinhaltsinformation ist in 5B durch Block 212 angedeutet, während das Filtern des Textes in 5B durch Block 214 angedeutet ist. Die gefilterte Information wird anschließend für die Konstituentenmarkierungskomponente 102 bereitgestellt. Die Konstituentenmarkierungskomponente 102 arbeitet auf ähnliche Weise, wie dies im Zusammenhang mit 3A beschrieben worden ist. Mit anderen Worten, die Konstituentenmarkierungskomponente 102 umfasst beispielsweise einen Satztrenner, der den an seinem Eingang bereitgestellten Text an Satzgrenzen zertrennt. Die Komponente 102 umfasst darüber hinaus vorzugsweise eine Kasus- oder Grammatikanalysefunktionalität, die die Sätze parst beziehungsweise zergliedert und eine Ausgabe bereitstellt, die Beziehungen (so beispielsweise Kasusinformation oder Grammatikinformation) bereitstellt, die sie mit der vorbestimmten Rangliste vergleicht oder die sie in der vorbestimmten Hierarchie anordnet. Die Komponente 102 umfasst beispielsweise darüber hinaus einen Konstituentenidentifizierer und Kennzeichner 108, der die von dem Kasus- und Grammatikbeziehungsanalysator bereitgestellte Ausgabe empfängt und die Konstituenten auf Basis ihrer Kasusinformation oder Position in der vorbestimmten Hierarchie kennzeichnet.
  • Die Konstituenten mit den damit verbundenen vorbestimmten Kasusinformationen oder Grammatikbeziehungen, die unterhalb einer vorbestimmten Hierarchieschwelle liegen, können gestrafft werden, oder es können einige oder alle Konstituenten mit einem Gewichtungswert, siehe vorstehende Diskussion, gekennzeichnet werden. Das Identifizieren und Kennzeichnen der Konstituenten wird in 5B durch Block 216 angegeben.
  • Die Ausdrücke in dem gekennzeichneten oder gestrafften Text werden anschließend der Indexiererkomponente 206 zugeleitet. Der Indexierer 206 kann in einer beliebigen Anzahl geeigneter Formen vorliegen. So kann er beispielsweise in der Suchmaschine 210 gemäß nachstehender Beschreibung oder gemäß der detaillierteren Beschreibung anhand 5C bis 5F, siehe unten, eingebaut sein. In diesem Zusammenhang genügt festzustellen, dass der Indexierer 206 einen Index erzeugt, der den Dokumenten entspricht, die von der Netzdurchpflügerkomponente 200 abgerufen worden sind, und diesen Index 208 an seinem Ausgang bereitstellt. Der Index 208 kann ein einfacher statistischer schlüsselwortbasierter Index oder auch ein Index raffinierterer Art sein, was von dem Indexierer 206 abhängt. Die Erzeugung des Indexes ist in 5B durch Block 218 angedeutet.
  • Die Suchmaschine 210 ist derart ausgelegt, dass sie eine Anwendereingabeanfrage empfängt und diese Anfrage bezüglich eines Indexes 208 ausführt. Bei einem illustrativen Ausführungsbeispiel nimmt die Suchmaschine 210 ebenfalls die Indexieroperation vor, die im Zusammenhang mit dem Indexierer 206 beschrieben worden ist. Bei diesem Ausführungsbeispiel ist die Suchmaschine 210 eine Internetsuchmaschine, so beispielsweise Alta Vista (das eine eingetragene Marke der Digital Equipment Corporation aus Maynard, MA ist), und ist mit einem Massendatenvorrat verbunden, der den Index 208 enthält. Die Datenmenge beziehungsweise der Datensatz der Dokumenteinträge wird illustrativ von dem Indexierer 206 indexiert, der in der Suchmaschine enthalten sein kann. Jeder derartige Eintrag in dem Index 208 umfasst typischerweise eine Netzadresse (die üblicherweise als „uniform resource locator" (URL) bezeichnet wird), an der das entsprechende Dokument für einen Zugriff durch einen Browser angeordnet ist; vordefinierte Inhaltswörter, die in jenem Dokument zusammen mit – bei einigen Maschinen – einer Relativadresse eines solchen Wortes relativ zu anderen Inhaltswörtern in jenem Dokument auftreten; eine kurze Zusammenfassung (oftmals nur einige Zeilen) des Do kumentes oder die ersten Zeilen desselben; und gegebenenfalls die Beschreibung des Dokumentes gemäß Bereitstellung im HTML-Beschreibungsfeld.
  • Gibt ein Anwender eine Anfrage beispielsweise über einen Webbrowser ein, so leitet der Browser die Anfrage über eine Internetverbindung an einen Server weiter, der die Suchmaschine 210 enthält. Die Suchmaschine 210 verarbeitet die Anfrage in Bezug auf Dokumenteneinträge, die innerhalb des Indexes 208 abgelegt sind, um eine Menge abgerufener Einträge (für Dokumente) zu erhalten, von denen die Maschine 210 bestimmt, dass diese im Zusammenhang mit der Anfrage von Relevanz sind.
  • Bei einem Ausführungsbeispiel vergleicht die Suchmaschine 210 die Inhaltsworte in der Anfrage mit den Inhaltsworten in den Dokumenteinträgen gemäß Indexierung in dem Index 208. Auf Basis der Anzahl der Treffer wird den Dokumenten eine Wertung zugewiesen, und es erfolgt eine Anordnung nach Rang. Die nach Rang angeordneten Dokumente werden über die Suchmaschine 210 an den Anwender ausgegeben. Der Empfang und die Ausführung der Anfrage sind in 5B durch Blöcke 220 und 222 angedeutet, während die Wiedergabe der Dokumente durch Block 224 angedeutet ist.
  • Es sollte selbstverständlich beachtet werden, dass die Suchmaschine 210 auch eine Suchmaschine von einem etwas komplizierteren Typ sein kann. In diesem Fall kann die Suchmaschine 210 die Verarbeitung natürlicher Sprache in der Anfrage oder in den ausgegebenen Dokumenten oder in beiden vornehmen, bevor die Dokumente für den Anwender bereitgestellt werden. Andere Arten von Suchmaschinen sind ebenfalls mitumfasst.
  • 5C ist ein detaillierteres Blockdiagramm des Indexes 206 entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung. Wie in 15 gezeigt ist, umfasst der Index 206 eine Konstituentenstrafferkomponente 226 und eine Indexerzeugerkomponente 228. In dem Ausführungsbeispiel gemäß Darstellung in 5C ist der zu erzeugende Index 208 einfach ein statistischer Schlüsselwortindex, und der Indexerzeuger 228 ist ein gängiger Indexerzeuger zum Erzeugen eines Indexes auf Basis einer Texteingabe. In diesem Fall wirkt der Konstituentenstraffer 226 derart, dass er mittels Straffung sämtliche gekennzeichneten Konstituenten oder Ausdrücke entfernt oder herausnimmt, die von der Konstituentenmarkierungskomponente 102 bereitgestellt sind (und die die vorbestimmte Kasusinformation enthalten oder unter die Grammatikbeziehungshierarchieschwelle fallen) und die verbleibenden Ausdrücke für den Indexerzeuger 228 bereitstellt. Die Texteingaben werden einfach für die Markierungskomponente 102 und den Straffer 226 bereitgestellt, nachdem sie von der Komponente 204 gefiltert worden sind, und bevor eine Indexierung durch den Indexerzeuger 228 vorgenommen worden ist. Die Komponenten 102 und 226 wirken dahingehend, dass sie Ausdrücke und Satzglieder identifizieren und aus der Indexierung entfernen, die mit dem Gehalt des indexierten Dokumentes wenig oder gar nicht in Beziehung stehen. Dies verringert die Größe des Indexes 208 erheblich, ohne dass die Leistung bezüglich Präzision und Rückruf beeinträchtigt wäre.
  • 5D ist ein Flussdiagramm, das den Betrieb des Indexierers 206 von 5C darstellt. Das Straften der gekennzeichneten Konstituenten ist in 5D durch Block 230 dargestellt, wohingegen das Indexieren der verbleibenden Ausdrücke unter Verwendung gängiger Indexiertechniken in 5D durch Block 232 dargestellt ist.
  • 5E ist ein funktionelles Blockdiagramm, das ein weiteres illustratives Ausführungsbeispiel des Indexierers 206 darstellt, während 5F ein Flussdiagramm ist, das den Betrieb des Indexierers 206, der in 5E gezeigt ist, darstellt. Der Indexierer 206 in 5E umfasst eine Konstituentengewichtungskomponente 234 und einen Indexerzeuger 236. Die Konstituentengewichtungskomponente 234 empfängt die gekennzeichnete Ausgabe von der Komponente 102 und gewichtet die Ausdrücke in der gekennzeichneten Ausgabe oder einige der Ausdrücke in derselben. Die Gewichtung kann unter Verwendung einer Skala vom Binärtyp oder einer kontinuierlichen Skala vorgenommen werden.
  • So kann die Ausdrucksgewichtungskomponente 234 beispielsweise derart ausgelegt sein, dass sie einfach eine vorbestimmte Markierung allen Worten in der gekennzeichneten syntaktischen Analyse hinzufügt. Mit anderen Worten, sämtlichen Worten in der syntaktischen Analyse, die Grammatikbeziehungen aufweisen, die über der Hierarchieschwelle angesiedelt sind, kann das Kürzel „g_" vorangestellt werden, wodurch angegeben ist, dass diese Worte einen guten Treffer darstellen. Auf ähnliche Weise kann allen Worten, die in der syntaktischen Analyse enthalten sind (und die damit Grammatikbeziehungen aufweisen, die unterhalb der Hierarchieschwelle befindlich sind) das Kürzel „b_" vorangestellt werden, wodurch angegeben wird, dass sie einen schlechten Treffer darstellen, oder einen Treffer, der nicht notwendigerweise beinhaltet, dass die beiden Texteingaben ähnlich sind. Ähnliche Markierungen können auf Basis der vorbestimmten Rangliste der Kasusinformation gesetzt werden.
  • Bei einem Beispiel kann davon ausgegangen werden, dass die Grammatikbeziehungshierarchieschwelle derart gesetzt ist, dass sämtliche Ausdrücke in der Hierarchie unterhalb der Subjekte unterhalb der Schwelle angesiedelt sind. Für den Fall, dass „Hund" ein Wort ist, das in der syntaktischen Analyse enthalten ist und das ein Subjekt darstellt, empfängt die Ausdrucksgewichtungskomponente 234 den Ausdruck „Hund" und erzeugt an ihrem Ausgang den indexierten Ausdruck „g_Hund". Ist auf analoge Weise der Ausdruck „Knochen" in der syntaktischen Analyse vorhanden und stellt ein direktes Objekt dar, so empfängt die Gewichtungskomponente 234 den Ausdruck „Knochen" an ihrem Eingang und erzeugt an ihrem Ausgang den Ausdruck „b_Knochen". All diese Ausdrücke werden an den Indexerzeuger 236 weitergeleitet, der bei diesem Ausführungsbeispiel eine Indexierung vom statistischen Schlüsselworttyp unter Verwendung der Worte mit den vorangestellten Ausdrücken erzeugt.
  • Übermittelt anschließend der Anwender der Suchmaschine 210 eine Anfrage, so ist die Suchmaschine 210 derart ausgelegt, dass sie jedem Inhaltswort in der Anfrage den Ausdruck „g_" voranstellt. Die Suchmaschine 210 identifiziert anschließend Treffer nur zwischen Ausdrücken in dem Index und der Anfrage, die einen guten Treffer darstellen. Entsprechend wird ein bevorzugtes Abgleichen nur mit denjenigen Ausdrücken vorgenommen, die Subjekte oder Themenworte in dem Dokument sind.
  • Es sollte erneut beachtet werden, dass der Indexerzeuger 236 in diesem Ausführungsbeispiel als konventioneller Indexerzeuger implementiert sein kann, der einfach einen Index 208 vom Schlüsselworttyp ohne spezielle Modifikation erzeugt. Bei dem vorerläuterten Ausführungsbeispiel erreicht der Index 208 nicht die Vorteile der Speicherplatzverringerung, die unter Einsatz der vorliegenden Erfindung erreichbar wären, aber er erreicht erfindungsgemäß Vorteile betreffend eine größere Genauigkeit.
  • Bei einem alternativen Ausführungsbeispiel gewichtet die Ausdrucksgewichtungskomponente 234 die Ausdrücke in der gekennzeichneten Ausgabe gemäß Empfang von der Komponente 102 mit einem kontinuierlichen oder halbkontinuierlichen Gewichtungsschema. In diesem Fall ist die Ausdrucksgewichtungskomponente 234 derart ausgelegt, dass sie durch jeden gekennzeichneten Konstituenten ein Gewicht platziert, durch das die erwartete Relevanz angegeben wird, die der Konstituent bezüglich des Gehaltes des Dokumentes aufweist, und zwar auf Basis einer empirischen Kasusanalyse oder auf Basis der Position in der vorbestimmten Grammatikbeziehungshierarchie. Zeigen empiri sche Ergebnisse beispielsweise, dass ein bestimmter Konstituent eine damit verbundene Grammatikbeziehung aufweist, die in der vorbestimmten Hierarchie mit dem Gehalt eines Dokumentes eng verknüpft ist, so kann dem Konstituenten ein Gewicht angehängt werden, durch das angegeben wird, dass beispielsweise ein Sicherheitsniveau von 90% dahingehend erreicht ist, dass der Ausdruck relevant ist. Dieses Gewicht wird dem Ausdruck in der gekennzeichneten syntaktischen Analyse seitens der Ausdrucksgewichtungskomponente 234 hinzugefügt.
  • Der Indexerzeuger 236 ist in diesem Ausführungsbeispiel derart ausgelegt, dass er einen Index 208 erzeugt, der nicht nur Ausdrücke gemäß Bereitstellung für den Indexerzeuger 236 umfasst, sondern der auch die Gewichtungswerte gemäß Hinzufügung durch die Ausdrucksgewichtungskomponente 234 beinhaltet. Damit ist die Suchmaschine 210 derart eingerichtet, dass sie nicht nur nach Treffern zwischen den Inhaltsworten in der Anfrage und denjenigen, die in dem Index 208 enthalten sind, sucht, sondern dass sie auch die Wertung bezüglich der Ähnlichkeit zwischen dem Dokument und der Anfrage auf Basis der Anzahl der aufgefundenen Treffer (oder gegebenenfalls weiterer gewünschter Kriterien) und ebenfalls auf Basis des Gewichtes gemäß Zuteilung an die Trefferausdrücke, berechnet.
  • Bei einem weiteren alternativen Ausführungsbeispiel wird eine bestehende Technik des Indexierens verwendet, wobei jedoch ein Aspekt hinzugefügt wird. Bei einer Reihe bestehender Indexiertechniken erfolgt eine Indexierung eines Dokumentes auf Basis eines Wortes, der Position des Wortes innerhalb des Dokumentes und der Großbuchstabenschreibung des Wortes (das heißt, ob das Wort in Großbuchstaben geschrieben ist oder nicht). Diese Art von Indexierschema kann entsprechend der vorliegenden Erfindung unter Einbeziehung der Ausdrucksgewichtungskomponente 234 dadurch verwendet werden, dass einfach ein zusätzlicher Eintrag zu dem Index hinzugefügt wird. Dieser Eintrag entspricht dem Gewichtungswert, der durch die Ausdrucksgewichtungskomponente 234 zugewiesen worden ist. Das Gewicht kann empirisch bestimmt werden, oder es kann unter Verwendung einer herkömmlichen Technik, so beispielsweise der tf*idf-Technik (term frequency-inverse document frequency), bestimmt werden. In jedem Fall stellt die Ausdrucksgewichtungskomponente 234 den Gewichtungswert für den Indexerzeuger 236 bereit, der den Index auf Basis des Ausdrucks, der Position, der Großbuchstabenschreibung und des zugewiesenen Gewichtungswertes oder eines beliebigen anderen gängigen Eintrages, der für das Indexierungsschema verwendet wird, erstellt. Das Gewichten der Ausdrücke oder Konstituenten auf Basis der Kennzeichnung ist in 5F durch Block 238 angegeben, während die Erstellung des Indexes unter Einbeziehung der Gewichtungsinformation durch Block 240 angedeutet ist.
  • Informationsabfrageoperationen, die an in Reaktion auf eine Anfrage ausgegebenen Dokumenten vorgenommen werden
  • Die vorliegende Erfindung kann auch in Nachverarbeitungsoperationen zum Einsatz kommen (so beispielsweise in Operationen, die an einer Dokumentenmenge vorgenommen werden, die von einer herkömmlichen Suchmaschine in Reaktion auf eine Anfrage ausgegeben worden ist). 6A ist ein funktionelles Blockdiagramm zur Erläuterung der Konstituentenmarkierungskomponente 102 in Zusammenhang mit einem Nachverarbeitungsinformationsabrufsystem 300. Das System 300 umfasst eine herkömmliche Informationsabrufmaschine 302, die als einfache Maschine zum Abruf statistischer Informationen implementiert sein kann, oder die als Maschine implementiert sein kann, die kompliziertere Techniken zur Verarbeitung natürlicher Sprache einsetzt. Der Datenvorrat 304 stellt denjenigen Datenvorrat dar, der auf die Anwenderanfrage hin durchsucht wird, die in die Informationsabrufmaschine 302 eingegeben worden ist. Der Datenvorrat 304 kann beispielsweise innerhalb eines Computers, in einem Ortsbereichsnetzwerk oder einem Großbereichsnetzwerk (so beispielsweise einem globalen Computernetzwerk) angeordnet sein. Auf ähnliche Weise kann der Datenvorrat 304 einfach ein Index zu durchsuchender Dokumente sein. Das System 300 enthält darüber hinaus eine Konstituentenstrafferkomponente 306 oder optional eine Konstituentengewichtungskomponente 308. Das System 300 umfasst darüber hinaus eine Abgleichkomponente 310 und eine Rangneuanordnungskomponente 312.
  • 6B ist ein Flussdiagramm, das den Betrieb des Systems 300 darstellt, das in 6A gezeigt ist.
  • Im Betrieb empfängt die Informationsabrufmaschine 302 zunächst eine Anfrage, die von dem Anwender eingegeben worden ist. Dies ist in 6B durch Block 314 angedeutet. Anschließend führt die Informationsabrufmaschine 302 eine Anfrage auf Basis des Datenvorrates 304 auf herkömmliche Weise aus. Dies ist in 6B durch Block 316 angedeutet. Auf ähnliche Weise empfängt die Informationsabrufmaschine 302 auf herkömmliche Art diejenigen Dokumente und gibt sie aus, von der die Maschine 302 glaubt, dass sie in Bezug auf die Anfrage des Anwenders von Relevanz sind. Dies ist durch Block 318 angedeutet.
  • Entsprechend einem Ausführungsbeispiel der vorliegenden Erfindung werden die ausgegebenen Dokumente anschließend an der Konstituentenmarkierungskomponente 102 bereitgestellt, die ähnlich zu derjenigen ist, die im Zusammenhang mit 3A beschrieben worden ist. Die gekennzeichneten Konstituenten werden anschließend bei einem illustrativen Ausführungsbeispiel für den Konstituentenstraffer 306 zur Verfügung gestellt. Der Straffer 306 entnimmt die gekennzeichneten Konstituenten mittels Straffung aus der gekennzeichneten Ausgabe gemäß Bereitstellung durch die Markierungskomponente 102. Die gestraffte Ausgabe wird anschließend für die Abgleichkomponente 310 bereitgestellt. Das Identifizieren und Kennzeichnen der Konstituenten auf Basis des Kasus oder der Lokalisierung der damit verbundenen Grammatikbeziehungen in der vorbestimmten Hierarchie ist in 6B durch Block 320 angedeutet, während das Straften selbiger Konstituenten durch Block 322 angedeutet ist.
  • Die Abgleichkomponente 302 wählt unter den ausgegebenen Dokumenten ein erstes Dokument aus, aus dem die gekennzeichneten Konstituenten entfernt sind. Dies ist durch Block 314 angedeutet. Die Abgleichkomponente 310 bestimmt anschließend, ob ein beliebiger Inhaltsausdruck in der Abfrage gemäß Bereitstellung durch den Anwender immer noch in dem ausgewählten Dokument befindlich ist, nachdem die gekennzeichneten Konstituenten entfernt worden sind. Ist dies nicht der Fall, so sagt dies aus, dass die einzigen Treffer in Bezug auf das ausgewählte Dokument bezüglich derjenigen Konstituenten aufgetreten sind, die die vorbestimmte Kasusinformation enthielten oder die Grammatikbeziehungen aufwiesen, die unterhalb der vorbestimmten Hierarchieschwelle angesiedelt waren (beispielsweise diejenigen, die wenig damit zu tun haben, was das Dokument beschreibt). Dies ist in 6B durch Block 326 angedeutet.
  • Daher wird das Dokument aus der Liste der ausgegebenen Dokumente entfernt, was durch Block 328 angegeben ist. Die Abgleichkomponente 310 bestimmt, ob irgendwelche Dokumente in der Menge ausgegebener Dokumente verbleiben. Dies ist durch Block 330 angedeutet.
  • Werden bei Block 326 einige der Inhaltsausdrücke in der Anfrage immer noch in dem ausgewählten Dokument vorgefunden, nachdem die gekennzeichneten Konstituenten hieraus entfernt worden sind, so gibt dies an, dass Treffer in Bezug auf das Dokument mit Blick auf Ausdrücke vorgefunden worden sind, von denen man glaubt, dass sie bezüglich des Gehaltes des Dokumentes von Relevanz sind. Daher wird das ausgewählte Dokument, wie durch Block 332 angedeutet, beibehalten. Erneut bestimmt die Abgleichkomponente 302 in Block 330, ob ein beliebiges der ausgegebenen Dokumente noch analysiert werden muss. Ist dies der Fall, so kehrt die Verarbeitung zu Block 324 zurück.
  • Nachdem alle der ausgegebenen Dokumente analysiert worden sind, werden die verbleibenden Dokumente (diejenigen, die nicht herausgenommen worden sind) an die Rangneuanordnungskomponente 312 weitergeleitet. Die Rangneuanordnungskomponente 312 bestimmt zunächst, ob die Anzahl der verbleibenden Dokumente derart ausreichend ist, dass man sie dem Anwender vorlegen kann. Dies ist durch Block 334 angedeutet. Mit anderen Worten, es ist möglich, dass die Inhaltsausdrücke der Anfrage Treffer bezüglich der relevanten Ausdrücke nur bei einer sehr kleinen Anzahl der ausgegebenen Dokumente aufweisen. Ist dies der Fall, so kann die Rangneuanordnungskomponente 312 bestimmen, dass die Anzahl der dem Anwender vorgelegten Dokumente unerwünscht klein oder nicht ausreichend ist. Diese Schwelle kann entweder durch den Anwender vorgegeben werden, oder sie kann automatisch auf Basis eines in die Komponente 312 vorab einprogrammierten Schwellenwertes bestimmt werden.
  • In jedem Fall berechnet für den Fall, dass die Anzahl der verbleibenden Dokumente, wie in Block 334 bestimmt, ausreichend ist, die Rangneuanordnungskomponente 312 anschließend eine neue Wertung für die verbliebenen Dokumente. Die neue Wertung kann auf eine beliebige geeignete Weise berechnet werden. So kann die neue Wertung beispielsweise auf der Anzahl der Treffer zwischen den Inhaltsworten in der Anfrage und den in jedem der Dokumente verbleibenden Ausdrücken erfolgen, nachdem die gekennzeichneten Konstituenten entfernt worden sind. Die Berechnung der neuen Wertung ist durch Block 136 angegeben. Auf Basis der neu in Wertung nimmt die Rangneuanordnungskomponente 312 eine Rangneuanordnung der verbliebenen Dokumente in einer Reihenfolge vor, die durch die neue Wertung bestimmt ist. Dies ist durch Block 338 angegeben. Schließlich gibt die Komponente 312 die rangmäßig neuangeordneten Dokumente an den Anwender in neuer Ranganordnung aus. Dies ist durch Block 340 angedeutet.
  • Wird, siehe Block 334, bestimmt, dass eine nichtausreichende Anzahl von Dokumenten zur Vorlage beim Anwender verblieben ist, so geht die Verarbeitung bei Block 342 weiter. Die Rangneuanordnungskomponente 312 ruft sämtliche von der Informationsabrufmaschine 302 ausgegebenen Dokumente in Reaktion auf die von dem Anwender eingegebene Anfrage ab. Anstelle der Entnahme der gekennzeichneten Konstituenten, siehe Block 322, leitet die Rangneuanordnungskomponente 312 die Dokumente an die optionale Konstituentengewichtungskomponente 308 zurück. Die Gewichtungskomponente 308 gewichtet die gekennzeichneten Komponenten, die vorher entfernt worden sind (und kann auch sämtliche anderen Konstituenten gewichten), und zwar auf Basis ihrer Kasus oder Positionen der Grammatikbeziehungen in der vorbestimmten Hierarchie). Die gewichteten Ausgaben werden anschließend wieder der Abgleichkomponente 310 zugeleitet, die erneut die Inhaltsworte in der Abfrage gegen die Ausdrücke in den Dokumenten einschließlich der gekennzeichneten Ausdrücke, die gewichtet worden sind, abgleicht. Dies ist durch Block 344 angegeben. Anschließend wird eine neue Wertung für jedes der ausgegebenen Dokumente auf Basis der Gewichtungen berechnet, und die Dokumente werden anschließend neu rangmäßig angeordnet. Dies wird ist Block 346 angegeben. Die Dokumente werden anschließend, wie durch Block 340 angegeben ist, für den Anwender bereitgestellt.
  • Man beachte ebenfalls, dass in Block 344 anstelle der Gewichtung der gekennzeichneten Konstituenten die Konstituentengewichtungskomponente 308 die Kennzeichnungen, die alle Ausdrücke im Wesentlichen gleich gewichten, entfernen kann. Anschließend nimmt die Abgleichkomponente 310 einfach einen Abgleich gegen selbige Ausdrücke vor, gegen die die Informationsabrufmaschine 302 einen Abgleich vorgenommen hat. Darüber hinaus können anstelle des Herausnehmens der Kennzeichnungen aus allen Dokumenten in Block 344 auch die Kennzeichnungen aus denjenigen Dokumenten entfernt werden, die aus der Suche bei Block 328 entfernt worden sind. Daher werden die Kennzeichnungen einfach aus denjenigen Dokumenten entfernt, von denen die Informationsabrufmaschine 302 bereits bestimmt hat, dass sie ausreichend Relevanz aufweisen, um an den Anwender ausgegeben werden zu können. Diese Dokumente werden anschließend einfach rangmäßig niedriger angeordnet als Dokumente, die sogar bei entfernten gekennzeichneten Konstituenten übriggeblieben sind.
  • Man beachte, dass sich diejenigen Erläuterungen im vorliegenden Text, die den Informationsabruf betreffen, fortwährend des Ausdruckes „Inhaltswort" bedienen. Dieser Ausdruck wird lediglich zu Illustrationszwecken verwendet. Es ist beabsichtigt, dass die jeweils analysierte linguistische Einheit eine beliebige andere Einheit sein kann, so beispielsweise ein Morphem, ein Wort, eine Phrase, ein N-Gramm von Buchstaben und dergleichen mehr, die im vorliegenden Text sämtlich als „Suchausdrücke" beziehungsweise „Suchausdrücke" bezeichnet werden.
  • Testmethodik
  • Ein Ausführungsbeispiel der vorliegenden Erfindung umfasst auch ein System, durch das einschlägige Kasusinformation (oder eine nach Rang angeordnete Liste von Kasusinformation und die entsprechende Schwelle) oder eine Grammatikbeziehungshierarchie oder eine Hierarchieschwelle auf Basis einer beliebigen gegebenen Datenmenge bestimmt werden können, wobei die vorliegende Erfindung zum Einsatz kommt. 7 ist ein Flussdiagramm, das den Betrieb des Computers 20 bei der Implementierung eines derartigen Systems darstellt. Die nachstehend beschriebene Technik kann zur Identifizierung der Kasusinformation und sowohl der zu verwendenden Grammatikbeziehung wie auch der Hierarchieschwelle eingesetzt werden. Gleichwohl behandelt die nachfolgende Diskussion primär den Aspekt des Setzens der Hierarchieschwelle bezüglich der vordefinierten Hierarchie. Es sollte einsichtig sein, dass eine Inhaltsmenge eine beliebige geeignete Sammlung von Dokumenten oder ein beliebiges anderes Textkorpus sein kann, das unter Verwendung von Techniken vom Abruftyp durchsucht werden kann.
  • Zunächst wird eine Grammatikbeziehungshierarchieschwelle ausgewählt. Diese Hierarchie, bezüglich der die Schwelle gesetzt wird, kann eine beliebige geeignete Hierarchie sein, so beispielsweise die vorstehend erläuterte Zugänglichkeitshierarchie oder eine beliebige andere empirisch bestimmte oder intuitiv festgelegte Hierarchie oder eine Hierarchie, die unter Verwendung derselben Technik bestimmt worden ist wie diejenige, die zum Setzen der Schwelle verwendet worden ist. Die Anfangsschwelle kann im Wesentlichen an jeder Position in der Hierarchie gesetzt werden.
  • Man geht davon aus, dass die bestimmte Hierarchie und die Hierarchieschwelle, die sich bei der Durchführung von Techniken entsprechend der vorliegenden Erfindung als hilfreich erweisen, bei unterschiedlichen Inhaltsmengen unterschiedlich sind. Unter der Annahme, dass eine Hierarchie ausgewählt worden ist, um die Hierarchieschwelle zu identifizieren, die entsprechend der vorliegenden Erfindung zu verwenden ist, wie dies bei der vorbestimmten Hierarchieschwelle der Fall ist, wird eine erste zu testende Hierarchieschwelle ausgewählt. Dies ist in 7 durch Block 350 angedeutet.
  • Anschließend wird ein Index aus einem vorbestimmten Textkorpus mit sämtlichen Konstituenten erstellt, die mit Grammatikbeziehungen verbunden sind, die unter die ausgewählte daraus entfernte Hierarchieschwelle fallen. Dies ist durch Block 352 angegeben. Entsprechend einem illustrativen Ausführungsbeispiel der vorliegenden Erfindung enthält das Textkorpus annähernd 20.000 bis 30.000 Dokumente, die die gewünschte Inhaltsmenge betreffen.
  • Anschließend wird ein Informationsabruf an dem Index vorgenommen. Dies ist durch Block 354 angegeben. Bei einem illustrativen Ausführungsbeispiel wird der Abruf unter Verwendung von annähernd 20.000 bis 30.000 vorbestimmten Anfragen vorgenommen.
  • Anschließend werden Konstituenten in der Inhaltsmenge, die eine damit verbundene Grammatikbeziehung aufweisen, die unter die ausgewählte Schwelle fällt, identifiziert, und es wird eine Bestimmung dahingehend vorgenommen, wie nützlich die verbleibenden Konstituenten (die diejenigen sind, die nicht unter die Schwelle fallen) bei der Bestimmung der Bedeutung der Inhaltsmenge sind. Natürlich kann dies auf eine beliebige Anzahl von Weisen erfolgen, so beispielsweise durch Beobachtung der Kenntnisse betreffend die Kontaktmenge, die durch Leser der Konstituenten ermittelt wird, die oberhalb der Schwelle angesiedelt sind.
  • Eine andere Vorgehensweise besteht in der Verwendung eines Informationsabrufes. Die Diskussion geht nun auf ein illustratives Ausführungsbeispiel über, bei dem ein Informationsabruf erfolgt. Bei diesem Ausführungsbeispiel bestimmt der Computer 20, wie viel Einsparung bezüglich des Indexraumes durch Herausnahme der Konstituenten mit Grammatikbeziehungen unterhalb der ausgewählten Schwelle aus dem Dokumentenkorpus verwirklicht worden ist. Dies ist durch Block 356 angedeutet. Der Computer 20 bestimmt anschließend das Leistungsvermögen der Informationsabrufoperationen, die in Bezug auf diesen Index vorgenommen worden sind. Dies ist durch Block 358 angedeutet. Um zu bestimmen, ob das Leistungsvermögen ausreichend ist, wird ein geeignetes Maß, das die Komponenten „Präzision" und „Rückruf" einschließt, verwendet. Ein geeignetes Maß ist das sogenannte „F-Maß" und wird in der Handreichung „Information Retrieval" von C. J. van Rijsbergen aus dem Jahre 1979 beschrieben. Das F-Maß ist folgendermaßen festgelegt. F = ((B2 + 1,0)·P·R)/(BZ·P + R)
  • Hierbei bezeichnen P die Präzision, R den Rückruf und B die relative Wichtigkeit des Rückrufes gegenüber der Präzision. Üblicherweise gilt B = 1.
  • Anschließend bestimmt der Computer 20, ob das Leistungsvermögen eingedenk der Verringerung der Größe des Indexes ausreichend ist. Dies hängt natürlich von der Anwendung ab. Bei Anwendungen, bei denen die Indexgröße von großer Wichtigkeit ist, kann eine größere Verringerung des Informationsabrufleistungsvermögens toleriert werden. Für Zwecke der vorliegenden Diskussion sei eine statistisch merkliche Änderung des F-Maßes durch eine Änderung von 5% oder mehr festgelegt.
  • In jedem Fall wird darüber entschieden, ob das Leistungsvermögen eingedenk der Verringerung der Indexgröße, siehe Block 360, angemessen ist. Ist dies der Fall, so wird die ausgewählte Schwelle eingegeben, und es werden Grammatikbeziehungen, die unter die Schwelle fallen, zu der Liste vorbestimmter Grammatikbeziehungen in Verbindung mit der Inhaltsmenge gemäß Analyse hinzugefügt. Dies ist durch Block 362 angedeutet.
  • Wird demgegenüber bei Block 360 bestimmt, dass das Leistungsvermögen eingedenk der Verringerung der Indexgröße nicht ausreichend ist, so wird eine Fehleranalyse vorgenommen, um zu bestimmen, warum die Dokumente, die eigentlich ausgegeben hätten werden sollen, nicht ausgegeben worden sind, oder warum Dokumente ausgegeben worden sind, die eigentlich nicht ausgegeben hätten werden sollen. Dies ist durch Block 364 angedeutet. Beispielhalber wird dies von einer Gruppe von Sprachwissenschaftlern bestimmt, die die ausgegebenen Dokumente oder Dokumente, die ausgegeben hätten werden sollen, jedoch nicht ausgegeben worden sind, analysieren, wodurch bestimmt wird, was den Dokumenten gemeinsam ist, um so wiederum zu bestimmen, warum die Dokumente nicht ausgegeben oder unrichtigerweise ausgegeben worden sind. Bei der Durchführung dieser Analyse können die Sprachwissenschaftler die Hierarchieschwelle (oder die Hierarchiestruktur) weiter dahingehend verfeinern, dass Konstituenten nur bei bestimmten Bedingungen oder in bestimmten Kontexten entfernt werden, und zwar auch dann, wenn sie damit verbundene Grammatikbeziehungen aufweisen, die unterhalb der Schwelle angesiedelt sind. Auf ähnliche Weise können die Sprachwissenschaftler auf einfache Weise bestimmen, dass die ausgewählte Schwelle (oder Hierarchiestruktur) eingedenk der Inhaltsmenge nicht wünschenswert ist. In jedem Fall bestimmt der Computer 20 anschließend, ob zusätzliche Schwellen (oder Hierarchiestrukturen) getestet werden sollen. Ist dies der Fall, so geht die Verarbeitung zu Block 350 über, wo eine neue Schwelle ausgewählt wird. Ist dies nicht der Fall, so sind alle Schwellen, die getestet werden sollen, getestet, und die vorbestimmte Schwelle ist ausgewählt. Dies ist durch Block 366 angedeutet.
  • Die hierarchische Struktur kann auch entsprechend diesem allgemeinen Prozess bestimmt werden. Konstituenten mit einer ausgewählten Grammatikbeziehung werden aus dem Korpus entfernt, und man ermittelt eine quantitative Angabe der Nützlichkeit der verbleibenden Konstituenten (so beispielsweise durch Vornahme eines Informationsabrufes an dem Index gemäß Bildung auf Basis des gestrafften Korpus). Die Grammatikbeziehung, die die größte Nützlichkeit aufweist (beispielsweise Ergebnisse bezüglich der größten Verringerung des Informationsabrufleistungsvermögens) wird in der Hierarchie am weitesten oben angeordnet. Verbleibende Grammatikbeziehungen werden in absteigender Reihenfolge angeordnet, und zwar auf Basis sich verringernder Nützlichkeit (beispielsweise einer Verringerung ihres Informationsabrufleistungsvermögens).
  • Darüber hinaus kann dieser allgemeine Prozess verwendet werden, um Kasusinformation auszuwählen, die in der vorbestimmten Rangliste verwendet werden soll. So wird beispielsweise bei einem illustrativen Informationsabrufausführungsbeispiel ein bestimmter Kasus ausgewählt, es werden Ausdrücke mit dem ausgewählten Kasus gekennzeichnet und entfernt, und es wird ein Index mit den verbleibenden Ausdrücken erstellt. Der Informationsabruf wird an dem Index vorgenommen, und es wird das Leistungsvermögen analysiert. Auf Basis der Verringerung der Leistung werden die Kasus in einer Rangliste angeordnet. Die Schwelle innerhalb der Rangliste kann auch auf Basis der Verringerung des Informationsabrufleistungsvermögens bestimmt werden. Eine weitere Analyse kann vorgenommen werden, wo das Leistungsvermögen nicht ausreicht. Der Prozess kann für jede beliebige gewünschte Kasusinformation wiederholt werden.
  • Aus alledem ergibt sich, dass die vorliegende Erfindung Beziehungen (Kasusinformation oder eine Grammatikbeziehungshierarchie und eine Hierarchieschwelle) identifiziert. Konstituenten mit der damit verbundenen Kasusinformation oder mit Grammatikbeziehungen, die unterhalb der Hierarchieschwelle angeordnet sind, werden derart identifiziert, dass sie gekennzeichnet, gewichtet oder einfach entfernt werden können, wenn bestimmt wird, wovon das Dokument handelt. Dies kann beispielsweise dann erfolgen, wenn ein Dokument während des Informationsabrufes indexiert wird, wenn ein Dokument zusammengefasst wird, nachdem das Dokument unter Verwendung herkömmlicher Informationsabruftechniken abgerufen worden ist, wenn Dokumente gruppiert (geclustert) werden, oder bei einer impliziten Abfrage, bei der ein Dokument bereitgestellt und ein Computer aufgefordert wird, ähnliche Dokumente zu suchen. Die vorliegende Erfindung kann auch in anderen Zusammenhängen eingesetzt werden. Es wird jedoch davon ausgegangen, dass sie bei der Informationsabrufindexierung von besonderem Nutzen ist, da die vorliegende Erfindung die Indexgröße merklich verringern kann, ohne dass dies merklich zu Lasten des Leistungsvermögens ginge.

Claims (27)

  1. Computerimplementiertes Verfahren zum Bestimmen einer Beziehung zwischen einer ersten und einer zweiten Text-Eingabe, wobei das Verfahren umfasst: Ermitteln (112, 114) eines Satzes von Beziehungen; Identifizieren (114) von Konstituenten in der ersten Text-Eingabe, die die Beziehung aufweisen; und Bestimmen (124) der Beziehung zwischen der ersten und der zweiten Text-Eingabe auf Basis der identifizierten Konstituenten und auf Basis der relativen Wichtigkeit der Konstituenten.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens einschließt: Bestimmen (124) der Beziehung zwischen der ersten und der zweiten Text-Eingabe auf Basis der Beziehungen.
  3. Verfahren nach Anspruch 1, wobei Ermitteln eines Satzes von Beziehungen umfasst: Ermitteln (238) einer Hierarchie grammatischer Beziehungen; und Ermitteln einer Hierarchie-Schwelle (352) auf Basis einer Nützlichkeit grammatischer Beziehungen in der Hierarchie beim Bestimmen der Beziehung zwischen der ersten und der zweiten Text-Eingabe.
  4. Verfahren nach Anspruch 3, wobei der Schritt des Bestimmens umfasst: Bestimmen der Nützlichkeit der identifizierten Konstituenten durch Lokalisieren der mit den identifizierten Konstituenten verbundenen grammatischen Beziehungen in der Hierarchie.
  5. Verfahren nach Anspruch 4, wobei der Schritt des Identifizierens umfasst: Identifizieren niederrangiger Konstituenten mit entsprechenden grammatischen Beziehungen, die in der Hierarchie unterhalb der Hierarchie-Schwelle angeordnet sind.
  6. Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens umfasst: Bestimmen der Beziehung auf Basis anderer Konstituenten in der ersten Text-Eingabe als den niederrangigen Konstituenten.
  7. Verfahren nach Anspruch 5, wobei der Schritt des Identifizierens einschließt: Identifizieren hochrangiger Konstituenten mit einer entsprechenden grammatischen Beziehung, die in der Hierarchie wenigstens so hoch angeordnet sind wie die Hierarchie-Schwelle; und Kennzeichnen der hochrangigen Konstituenten mit einem Gewichtungs-Wert, der die hochrangigen Konstituenten stärker gewichtet als die niederrangigen Konstituenten.
  8. Verfahren nach Anspruch 7, wobei Identifizieren von Konstituenten in der ersten Text-Eingabe umfasst: Kennzeichnen der hochrangigen und der niederrangigen Konstituenten mit Feinwerten auf Basis einer Anordnung grammatischer Beziehungen, die jedem der Konstituenten in der Hierarchie entsprechen, wobei die Feinwerte relative Nützlichkeit der Konstituenten beim Bestimmen der Beziehung anzeigen.
  9. Verfahren nach Anspruch 8, wobei der Schritt des Bestimmens der Beziehung auf Basis der Konstituenten umfasst: Bestimmen der Beziehung auf Basis der Feinwerte, die mit Konstituenten verbunden sind.
  10. Verfahren nach Anspruch 4, wobei der Schritt des Bestimmens umfasst: bevorzugtes Abgleichen von Ausdrücken in der ersten Text-Eingabe mit höheren Konstituenten in der zweiten Text-Eingabe mit entsprechenden grammatischen Beziehungen, die vergleichsweise höher in der Hierarchie angeordnet sind als grammatische Beziehungen, die niedrigeren Konstituenten entsprechen.
  11. Verfahren nach Anspruch 10, wobei die erste Text-Eingabe ein Dokument umfasst die zweite Text-Eingabe eine Informationsabruf-Anfrage umfasst und das bevorzugte Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei die Einträge nur den höheren Konstituenten und nicht den niedrigeren Konstituenten entsprechen; und Abgleichen von Such-Begriffen in der Anfrage mit den Einträgen in dem Index.
  12. Verfahren nach Anspruch 10, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Informationsabrufanfrage umfasst und das bevorzugte Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei mit den Einträgen, die den höheren Konstituenten entsprechen, höhere Gewichtungs-Werte verbunden sind und mit den Einträgen, die den niedrigeren Konstituenten entsprechen, niedrigere Gewichtungs-Werte verbunden sind; und Abgleichen von Such-Begriffen in der Abfrage mit den Einträgen in dem Index auf Basis der höheren und der niedrigeren Gewichtungs-Werte.
  13. Verfahren nach Anspruch 1, wobei Ermitteln von Beziehungen umfasst: Ermitteln einer Hierarchie von Kasus-Informationen; und Ermitteln einer Hierarchie-Schwelle auf Basis der Nützlichkeit einer Konstituenten mit diesem Kasus.
  14. Verfahren nach Anspruch 13, wobei der Schritt des Bestimmens umfasst: Bestimmen der Nützlichkeit der identifizierten Konstituenten durch Lokalisieren der Kasus-Informationen, die mit den identifizierten Konstituenten in der Hierarchie verbunden sind.
  15. Verfahren nach Anspruch 14, wobei der Schritt des Identifizierens umfasst: Identifizieren niederrangiger Konstituenten mit dem Kasus, der durch die Kasus-Informationen angezeigt wird.
  16. Verfahren nach Anspruch 15, wobei Bestimmen der Beziehung zwischen der ersten und der zweiten Text-Eingabe umfasst: Bestimmen der Beziehung auf Basis von anderen Konstituenten in der ersten Text-Eingabe als den niederrangigen Konstituenten.
  17. Verfahren nach Anspruch 15, wobei der Schritt des Identifizierens einschließt: Identifizieren hochrangiger Konstituenten mit entsprechenden Kasus-Informationen, die in der Hierarchie wenigstens so hoch angeordnet sind wie die Hierarchie-Schwelle; und Kennzeichnen der niederrangigeren Konstituenten mit einem Gewichtungs-Wert, der die niederrangigen Konstituenten schwächer gewichtet als die hochrangigen Konstituenten.
  18. Verfahren nach Anspruch 17, wobei Identifizieren von Konstituenten in der ersten Text-Eingabe umfasst: Kennzeichnen der niederrangigen und der hochrangigen Konstituenten mit Feinwerten auf Basis einer Anordnung der Kasus-Informationen, die mit jeder der nie derrangigen und hochrangigen Konstituenten verbunden sind, in der Hierarchie, wobei die Feinwerte relative Nützlichkeit der Konstituenten anzeigen.
  19. Verfahren nach Anspruch 18, wobei der Schritt des Bestimmens der Beziehung auf Basis der Konstituenten umfasst: Bestimmen der Beziehung auf Basis der mit den Konstituenten verbundenen Feinwerte.
  20. Verfahren nach Anspruch 14, wobei der Schritt des Bestimmens umfasst: bevorzugtes Abgleichen von Ausdrücken in der ersten Text-Eingabe mit höherrangigen Konstituenten in der zweiten Text-Eingabe mit entsprechenden grammatischen Beziehungen, die vergleichsweise höher in der Hierarchie angeordnet sind als grammatische Beziehungen, die niedrigeren Konstituenten entsprechen.
  21. Verfahren nach Anspruch 20, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Informationsabrufanfrage umfasst und bevorzugtes Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei die Einträge nur den höherrangigen Konstituenten und nicht den niederrangigeren Konstituenten entsprechen; und Abgleichen der Suchbegriffe in der Anfrage mit den Einträgen in dem Index.
  22. Verfahren nach Anspruch 20, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Informationsabrufanfrage umfasst und wobei bevorzugtes Abgleichen umfasst: Ermitteln eines Index mit Einträgen, die dem Dokument entsprechen, wobei mit den Einträgen, die den höherrangigen Konstituenten entsprechen, höhere Gewichtungs-Werte verbunden sind und mit den Einträgen, die den niederrangigeren Konstituenten entsprechen, niedrigere Gewichtungs-Werte verbunden sind; und Abgleichen der Suchbegriffe in der Anfrage mit den Einträgen in dem Index auf Basis der höheren und niedrigeren Gewichtungs-Werte.
  23. Verfahren nach Anspruch 1, das des Weiteren umfasst: Ermitteln einer Schwellen-Wichtigkeit und wobei Bestimmen der Beziehung Bestimmen der Beziehung auf Basis lediglich der Konstituenten mit einer relativen Wichtigkeit über der Schwellen-Wichtigkeit umfasst.
  24. Verfahren nach Anspruch 1, das des Weiteren umfasst: Zuordnen eines Gewichtungs-Wertes zu jeder Konstituenten auf Basis der relativen Wichtigkeit, die jeder Konstituenten entspricht, und wobei Bestimmen der Beziehung Bestimmen der Beziehung auf Basis der mit den Konstituenten verbundenen Gewichtungs-Werte umfasst.
  25. Verfahren nach Anspruch 1, wobei die erste Text-Eingabe ein Dokument umfasst, die zweite Text-Eingabe eine Anfrage umfasst und Bestimmen der Beziehung zwischen der ersten und der zweiten Text-Eingabe Bestimmen von Ähnlichkeit zwischen dem Dokument und der Anfrage hinsichtlich der Bedeutung umfasst.
  26. Verfahren nach Anspruch 1, wobei die erste und die zweite Text-Eingabe jeweils Dokumente umfassen und Bestimmen der Beziehung Bestimmen einer Ähnlichkeit zwischen den Dokumenten hinsichtlich der Bedeutung umfasst.
  27. Verfahren nach Anspruch 26, wobei Bestimmen der Beziehung des Weiteren umfasst, dass bestimmt wird, ob die erste und die zweite Text-Eingabe in einem logischen Cluster auf Basis der Ähnlichkeit zwischen dem ersten und dem zweiten Dokument hinsichtlich der Bedeutung zu gruppieren sind.
DE60029845T 1999-06-18 2000-06-15 System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung Expired - Lifetime DE60029845T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/336,200 US6901402B1 (en) 1999-06-18 1999-06-18 System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US336200 1999-06-18
PCT/US2000/040198 WO2000079437A2 (en) 1999-06-18 2000-06-15 System for identifying the relations of constituents in information retrieval-type tasks

Publications (2)

Publication Number Publication Date
DE60029845D1 DE60029845D1 (de) 2006-09-14
DE60029845T2 true DE60029845T2 (de) 2006-11-30

Family

ID=23315001

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60029845T Expired - Lifetime DE60029845T2 (de) 1999-06-18 2000-06-15 System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung

Country Status (6)

Country Link
US (7) US6901402B1 (de)
EP (1) EP1393201B1 (de)
AT (1) ATE335242T1 (de)
AU (1) AU6802300A (de)
DE (1) DE60029845T2 (de)
WO (1) WO2000079437A2 (de)

Families Citing this family (169)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950553B1 (en) * 2000-03-23 2005-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7712024B2 (en) * 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) * 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7421645B2 (en) * 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US20040073617A1 (en) * 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US6915294B1 (en) * 2000-08-18 2005-07-05 Firstrain, Inc. Method and apparatus for searching network resources
US8060816B1 (en) * 2000-10-31 2011-11-15 International Business Machines Corporation Methods and apparatus for intelligent crawling on the world wide web
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US8566102B1 (en) * 2002-03-28 2013-10-22 At&T Intellectual Property Ii, L.P. System and method of automating a spoken dialogue service
CN100583086C (zh) * 2002-04-11 2010-01-20 株式会社PtoPA 对话控制系统和对话控制方法
US8126713B2 (en) * 2002-04-11 2012-02-28 Shengyang Huang Conversation control system and conversation control method
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7024404B1 (en) * 2002-05-28 2006-04-04 The State University Rutgers Retrieval and display of data objects using a cross-group ranking metric
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7392479B2 (en) * 2002-06-27 2008-06-24 Microsoft Corporation System and method for providing namespace related information
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
EP1391830A1 (de) * 2002-07-19 2004-02-25 Albert Inc. S.A. System zum Extrahieren von Informationen aus einem natürlichsprachigen Text
DE10248837A1 (de) * 2002-10-19 2004-04-29 Philips Intellectual Property & Standards Gmbh System und Verfahren zur Verarbeitung von elektronischen Dokumenten
US20040167908A1 (en) * 2002-12-06 2004-08-26 Attensity Corporation Integration of structured data with free text for data mining
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US7739588B2 (en) * 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US7343280B2 (en) * 2003-07-01 2008-03-11 Microsoft Corporation Processing noisy data and determining word similarity
US7324648B1 (en) 2003-07-08 2008-01-29 Copyright Clearance Center, Inc. Method and apparatus for secure key delivery for decrypting bulk digital content files at an unsecure site
US8006307B1 (en) * 2003-07-09 2011-08-23 Imophaze Research Co., L.L.C. Method and apparatus for distributing secure digital content that can be indexed by third party search engines
US20050033750A1 (en) * 2003-08-06 2005-02-10 Sbc Knowledge Ventures, L.P. Rhetorical content management system and methods
US7296027B2 (en) 2003-08-06 2007-11-13 Sbc Knowledge Ventures, L.P. Rhetorical content management with tone and audience profiles
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US20050131931A1 (en) * 2003-12-11 2005-06-16 Sanyo Electric Co., Ltd. Abstract generation method and program product
US20060009966A1 (en) * 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
US7593916B2 (en) * 2004-08-19 2009-09-22 Sap Ag Managing data administration
US20060053156A1 (en) * 2004-09-03 2006-03-09 Howard Kaushansky Systems and methods for developing intelligence from information existing on a network
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US7634407B2 (en) * 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US20070005593A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Attribute-based data retrieval and association
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US8370342B1 (en) * 2005-09-27 2013-02-05 Google Inc. Display of relevant results
US8005825B1 (en) 2005-09-27 2011-08-23 Google Inc. Identifying relevant portions of a document
JP4849662B2 (ja) * 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4846336B2 (ja) * 2005-10-21 2011-12-28 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4849663B2 (ja) 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US20070185860A1 (en) * 2006-01-24 2007-08-09 Michael Lissack System for searching
US7966173B2 (en) * 2006-03-22 2011-06-21 Nuance Communications, Inc. System and method for diacritization of text
JP4251652B2 (ja) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索装置、検索プログラムおよび検索方法
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
JP2008083769A (ja) * 2006-09-26 2008-04-10 Just Syst Corp 文書検索装置および文書検索方法
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8131752B2 (en) * 2006-11-15 2012-03-06 Ebay Inc. Breaking documents
US20080120420A1 (en) * 2006-11-17 2008-05-22 Caleb Sima Characterization of web application inputs
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US7945438B2 (en) * 2007-04-02 2011-05-17 International Business Machines Corporation Automated glossary creation
US7668823B2 (en) 2007-04-03 2010-02-23 Google Inc. Identifying inadequate search content
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US7739261B2 (en) * 2007-06-14 2010-06-15 Microsoft Corporation Identification of topics for online discussions based on language patterns
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
RU2488877C2 (ru) 2007-08-31 2013-07-27 Майкрософт Корпорейшн Идентификация семантических взаимоотношений в косвенной речи
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8712758B2 (en) 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8280721B2 (en) 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8209321B2 (en) * 2007-08-31 2012-06-26 Microsoft Corporation Emphasizing search results according to conceptual meaning
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8655868B2 (en) * 2007-09-12 2014-02-18 Ebay Inc. Inference of query relationships based on retrieved attributes
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US7877344B2 (en) * 2007-10-10 2011-01-25 Northern Light Group, Llc Method and apparatus for extracting meaning from documents using a meaning taxonomy comprising syntactic structures
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US20090228427A1 (en) * 2008-03-06 2009-09-10 Microsoft Corporation Managing document work sets
US8061142B2 (en) * 2008-04-11 2011-11-22 General Electric Company Mixer for a combustor
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
CA2638558C (en) * 2008-08-08 2013-03-05 Bloorview Kids Rehab Topic word generation method and system
US20100138402A1 (en) * 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US20100223100A1 (en) * 2009-01-23 2010-09-02 Salesforce.Com, Inc. Methods and Systems for Sales Networking
JP4735726B2 (ja) * 2009-02-18 2011-07-27 ソニー株式会社 情報処理装置および方法、並びにプログラム
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US20110106617A1 (en) * 2009-10-29 2011-05-05 Chacha Search, Inc. Method and system of processing a query using human assistants
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8244706B2 (en) * 2009-12-18 2012-08-14 International Business Machines Corporation Method and apparatus for semantic just-in-time-information-retrieval
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8339094B2 (en) * 2010-03-11 2012-12-25 GM Global Technology Operations LLC Methods, systems and apparatus for overmodulation of a five-phase machine
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US8463790B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event naming
US8725771B2 (en) * 2010-04-30 2014-05-13 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US20120084291A1 (en) * 2010-09-30 2012-04-05 Microsoft Corporation Applying search queries to content sets
US8862458B2 (en) * 2010-11-30 2014-10-14 Sap Ag Natural language interface
US9317595B2 (en) * 2010-12-06 2016-04-19 Yahoo! Inc. Fast title/summary extraction from long descriptions
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
KR101776673B1 (ko) * 2011-01-11 2017-09-11 삼성전자주식회사 자연어 처리용 문법 자동 생성 장치 및 방법
US8386457B2 (en) 2011-06-22 2013-02-26 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8977613B1 (en) 2012-06-12 2015-03-10 Firstrain, Inc. Generation of recurring searches
US10019000B2 (en) 2012-07-17 2018-07-10 Elwha Llc Unmanned device utilization methods and systems
US9798325B2 (en) 2012-07-17 2017-10-24 Elwha Llc Unmanned device interaction methods and systems
EP2915068A4 (de) * 2012-11-02 2016-08-03 Fido Labs Inc System und verfahren zur verarbeitung natürlicher sprache
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US9002837B2 (en) * 2013-03-15 2015-04-07 Ipar, Llc Systems and methods for providing expert thread search results
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9471639B2 (en) * 2013-09-19 2016-10-18 International Business Machines Corporation Managing a grouping window on an operator graph
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9524289B2 (en) * 2014-02-24 2016-12-20 Nuance Communications, Inc. Automated text annotation for construction of natural language understanding grammars
US9575961B2 (en) 2014-08-28 2017-02-21 Northern Light Group, Llc Systems and methods for analyzing document coverage
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US9760564B2 (en) * 2015-07-09 2017-09-12 International Business Machines Corporation Extracting veiled meaning in natural language content
US11886477B2 (en) 2015-09-22 2024-01-30 Northern Light Group, Llc System and method for quote-based search summaries
US11544306B2 (en) 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
US11226946B2 (en) 2016-04-13 2022-01-18 Northern Light Group, Llc Systems and methods for automatically determining a performance index
US11074269B2 (en) 2018-01-10 2021-07-27 Reservoir Labs, Inc. Systems and methods for configuring system memory for extraction of latent information from big data
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4595980A (en) * 1983-07-27 1986-06-17 International Business Machines Corp. Interactive data processing system having concurrent multi-lingual inputs
US4849898A (en) 1988-05-18 1989-07-18 Management Information Technologies, Inc. Method and apparatus to identify the relation of meaning between words in text expressions
CA2089177C (en) 1990-08-09 2002-10-22 Bruce R. Baker Communication system with text message retrieval based on concepts inputted via keyboard icons
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
GB9220404D0 (en) 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
JP2583386B2 (ja) 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
US5331556A (en) 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5946499A (en) * 1996-05-10 1999-08-31 Apple Computer, Inc. Method and apparatus for processing text inputs from multiple input devices in a plurality of applications
US5778362A (en) * 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
WO1998025217A1 (en) 1996-12-04 1998-06-11 Quarterdeck Corporation Method and apparatus for natural language querying and semantic searching of an information database
US5893102A (en) * 1996-12-06 1999-04-06 Unisys Corporation Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US5995822A (en) * 1997-06-02 1999-11-30 Telefonaktiebolaget L M Ericsson Method for handling parallel transactions on telephone pre-paid accounts
US6292771B1 (en) * 1997-09-30 2001-09-18 Ihc Health Services, Inc. Probabilistic method for natural language processing and for encoding free-text data into a medical database by utilizing a Bayesian network to perform spell checking of words
US6629095B1 (en) * 1997-10-14 2003-09-30 International Business Machines Corporation System and method for integrating data mining into a relational database management system
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
GB9726654D0 (en) * 1997-12-17 1998-02-18 British Telecomm Data input and retrieval apparatus
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
EP0962873A1 (de) * 1998-06-02 1999-12-08 International Business Machines Corporation Textinformationsverarbeitung und automatisierte Informationserkennung
US6295529B1 (en) * 1998-12-24 2001-09-25 Microsoft Corporation Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts
US5991754A (en) * 1998-12-28 1999-11-23 Oracle Corporation Rewriting a query in terms of a summary based on aggregate computability and canonical format, and when a dimension table is on the child side of an outer join
US6529895B2 (en) * 1999-04-23 2003-03-04 Microsoft Corporation Determining a distribution of a numeric variable

Also Published As

Publication number Publication date
US7536397B2 (en) 2009-05-19
DE60029845D1 (de) 2006-09-14
US20050125404A1 (en) 2005-06-09
EP1393201A2 (de) 2004-03-03
US20050114294A1 (en) 2005-05-26
US20050060139A1 (en) 2005-03-17
WO2000079437A2 (en) 2000-12-28
US7206787B2 (en) 2007-04-17
US7290005B2 (en) 2007-10-30
US7269594B2 (en) 2007-09-11
AU6802300A (en) 2001-01-09
US7290004B2 (en) 2007-10-30
EP1393201B1 (de) 2006-08-02
US20050043936A1 (en) 2005-02-24
US20050125429A1 (en) 2005-06-09
US7299238B2 (en) 2007-11-20
WO2000079437A3 (en) 2003-12-18
US6901402B1 (en) 2005-05-31
US20050091243A1 (en) 2005-04-28
ATE335242T1 (de) 2006-08-15

Similar Documents

Publication Publication Date Title
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69820343T2 (de) Linguistisches Suchsystem
DE69934371T2 (de) Apparat und Verfahren zum Verarbeiten einer natürlichen Sprache
DE69930690T2 (de) Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
EP1779271B1 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
DE69725883T2 (de) Parser für natürliche sprache mit wörterbuch-basierten teilwahrscheinlichkeiten
DE69725258T2 (de) System und Verfahren zur Wiederauffindung von Dokumenten in mehreren Sprachen
US6295529B1 (en) Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE102005051617B4 (de) Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
EP1386250A1 (de) Höchstintegrierter automatischer kategorisierer für web-inhalt
DE69934195T2 (de) Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind
Smadja From n-grams to collocations: An evaluation of Xtract
DE69933123T2 (de) Zugriff auf eine semi-strukturierte datenbank
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
EP1412875B1 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
DE69830524T2 (de) Verfahren und System zur Eliminierung von Mehrdeutigkeiten bei syntaktischen Wortgruppen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition