DE69931256T2

DE69931256T2 - Verfahren und system zum zurückholen einer elektronischen akte

Info

Publication number: DE69931256T2
Application number: DE69931256T
Authority: DE
Inventors: Reima Terho NIEMI
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1998-06-11
Filing date: 1999-06-08
Publication date: 2006-10-05
Anticipated expiration: 2019-06-09
Also published as: WO1999064965A2; AU4620899A; DE69931256D1; FI981355A; FI981355A0; EP1086433A2; US6415294B1; EP1086433B1; WO1999064965A3

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft ein Verfahren und System zum Auffinden elektronischer Dateien und insbesondere ein Verfahren und System, das es einem Benutzer eines Computersystems ermöglicht, bereits bearbeitete Dateien wieder aufzufinden, die für eine Datei relevant sind, die gegenwärtig von dem Benutzer betrachtet wird.
Allgemeiner Stand der Technik
Vor dem Hintergrund des jüngsten dramatischen Anstiegs an Computerspeicherplatz, der Benutzern von Personal Computern (PCs) zur Verfügung steht, haben die Benutzer nunmehr die Möglichkeit, gewaltige Archive persönlicher Dokumente zu erzeugen. Hinzu kommt die Möglichkeit, Dokumente über das World Wide Web (WWW, Internet) aufzufinden, was eine nahezu unbegrenzte Informationsquelle bereitstellt. Während diese Entwicklungen das einem PC-Benutzer zur Verfügung stehende Wissen enorm vergrößern, ist es oft nicht leicht für den Benutzer, Informationen zu lokalisieren, die für eine gegenwärtige Aufgabe relevant sind.
Es wurden komplizierte Suchmaschinen entwickelt, um es WWW-Benutzern zu ermöglichen, im Internet zu „surfen". Diese Maschinen, beispielsweise Altavista^TM, funktionieren im Allgemeinen so, dass sie in erschöpfendem Umfang Wörter von im Internet veröffentlichten Webseiten extrahieren. Dann werden einer Datenbank neben den entsprechenden Worteinträgen Links auf diese Seiten hinzugefügt. Es wurden auch Suchalgorithmen zum Suchen von Dokumenten entwickelt, die beispielsweise auf der Festplatte eines PCs gespeichert sind. Auch diese neigen dazu, eine erschöpfende Suche der gespeicherten Dokumente nach einem benutzerdefinierten Stichwort durchzuführen.
Dokument EP 810 534 A2 offenbart das Anzeigen eines Dokuments zusammen mit einem Steuerelement, das es dem Benutzer ermöglicht, Zugang zu einem elektronischen Wörterbuch anzufordern. Fordert der Benutzer Zugang zum Wörterbuch an, so wird das elektronische Dokument modifiziert, indem Informationen zu Hypertextlinks bereitgestellt werden, die auf Einträge im elektronischen Wörterbuch verweisen, um Wörter in dem Wörterbuch nachzuschlagen.
Dokument EP 778 534 A1 offenbart ein Kommentierungssystem zum automatischen Hinzufügen von Querverweisen auf andere Dokumente zu angeforderten Dokumenten. Das System umfasst ein Verzeichnis von Querverweisen auf Dokumente, das aufgebaut wird, indem Links zwischen bestimmten Begriffen, die in dem Dokument vorkommen, und querverlinkte Verweise innerhalb dieses Dokuments und/oder allgemein zwischen einer Dokumentenquelle und einer anderen Dokumentenquelle identifiziert werden.
Kurzdarstellung der vorliegenden Erfindung
Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren und System bereitzustellen, das in der Lage ist, elektronische Dokumente oder Dateien zu identifizieren, die für ein anderes Dokument relevant sind, das aus einem Datennetzwerk herunter geladen wird, und direkt oder indirekt Links zu diesen relevanten Dokumenten in das heruntergeladene Dokument einzubauen.
Gemäß einem ersten Aspekt der Erfindung der vorliegenden Erfindung wird ein Verfahren zum Betreiben eines Computersystems bereitgestellt, wobei das Computersystem mit einem Datennetzwerk verbunden ist und ein Display und eine Datenbank, in der eine Gruppe von Dokumenten und/oder Dokumentkennungen gespeichert ist, umfasst, wobei das Verfahren folgende Schritte umfasst:

– das Herunterladen eines elektronischen Dokuments in das Computersystem über das Datennetzwerk, wobei das Dokument in Form eines computerlesbaren Codes vorliegt,
– das Identifizieren von Stichwörtern im heruntergeladenen Dokument,
– das Modifizieren des computerlesbaren Codes solcherart, dass er Hyperlinks enthält, um dem Benutzer den Link zu Dokumenten zu ermöglichen, die in der Datenbank gespeichert oder mit einer Kennung versehen sind und mindestens eines der Stichwörter enthalten, und
– das Anzeigen des heruntergeladenen Dokuments auf dem Display des Computersystems, wo die eingeführten Hyperlinks als vom Benutzer auswählbare Elemente erscheinen, wobei das Verfahren dadurch gekennzeichnet ist, dass
– der Schritt des Identifizierens von Stichwörtern das Erstellen einer globalen Stichwortliste durch das Analysieren der Worthäufigkeitsverteilung über die Dokumente und das Identifizieren derjenigen globalen Stichwörter umfasst, die in dem heruntergeladenen Dokument vorliegen,
– das Bestimmen, welche der gespeicherten und/oder mit einer Kennung versehenen Dokumente das entsprechende Stichwort enthalten,
– das Bestimmen des Ähnlichkeits-/Unähnlichkeitskoeffizienten für mindestens eines der gespeicherten oder mit einer Kennung versehenen Dokumente im Vergleich zum heruntergeladenen Dokument, und
– das Anzeigen einer Liste von mindestens einem gespeicherten und/oder mit einer Kennung versehenen Dokument zusammen mit dem Ähnlichkeits-/Unähnlichkeitskoeffizienten.

Vorzugsweise umfasst der Schritt des Modifizierens des computerlesbaren Codes das Erstellen eines Hyperlinks für jedes identifizierte Stichwort. Insbesondere umfasst das Verfahren ferner nach dem Schritt des Identifizierens der globalen Stichwörter in dem heruntergeladenen Dokument folgenden weiteren Schritt:

– das Aktivieren eines der eingeführten Hyperlinks.

Vorzugsweise umfasst die angezeigte Liste Hyperlinks zu den aufgelisteten Dokumenten.
Vorzugsweise sind die Hyperlinks durch Hervorhebung der in dem heruntergeladenen Dokument identifizierten Stichwörter angezeigt, z.B. durch Verwendung einer anderen Farbe, Unterstreichen oder Kursivschrift. Links können auch als spezielle Druckzeichen angezeigt werden, Z.B. ".", "!", "?".
Vorzugsweise handelt es sich bei dem computerlesbaren Code um Hyper Text Markup Language (HTML), in welchem Fall die Schritte des Herunterladens und Anzeigens von einem Webbrowser durchgeführt werden.
Vorzugsweise ist das Datennetzwerk, über das das elektronische Dokument heruntergeladen wird, das World Wide Web. Der Schritt des Anzeigens des heruntergeladenen Dokuments (mit hinzugefügten Links) kann das Interpretieren des Dokuments mit einem Internetbrowser umfassen.
Die Dokumentkennungen können ein Dokumenttitel, ein Computerlaufwerkpfad oder ein Universal Source Locator (URL) auf eine Internetseite oder eine Kombination aus diesen sein. Bei den Dokumenten, die zum Aufbau der Datenbank benutzt werden, kann es sich um Webseiten, Textverarbeitungsdokumente und elektronische Post handeln.
Gemäß einem zweiten Aspekt der Erfindung wird ein programmiertes Computersystem bereitgestellt, das Folgendes umfasst:

– Kommunikationsmittel, das mit einem Datennetzwerk zum Herunterladen eines elektronischen Dokuments über das Datennetzwerk gekoppelt ist, wobei das Dokument in Form eines computerlesbaren Codes vorliegt,
– eine elektronische Datenbank, die eine Gruppe von Dokument und/oder Dokumentkennungen speichert,
– erste Verarbeitungsmittel, die zum Identifizieren von Stichwörtern in dem heruntergeladenen Dokument angeordnet sind,
– ein zweites Verarbeitungsmittel, das zum Modifizieren des computerlesbaren Codes angeordnet ist, um Hyperlinks darin einzufügen, um es einem Benutzer zu ermöglichen, auf Dokumente, die in der Datenbank gespeichert oder mit einer Kennung versehen sind und mindestens eines der Stichwörter enthalten, zuzugreifen, und
– ein Display des Computersystems und Displaytreibermittel, die angeordnet sind, um das heruntergeladene Dokument in einer Form anzuzeigen, in der die eingefügten Hyperlinks als vom Benutzer auswählbare Elemente erscheinen, wobei das Computersystem dadurch gekennzeichnet ist, dass
– das zweite Verarbeitungsmittel im Gebrauch angeordnet ist, um Stichwörter zu identifizieren, indem es eine globale Stichwortliste durch das Analysieren der Worthäufigkeitsverteilung über die Dokumente erstellt, und um diejenigen globalen Stichwörter, die in dem heruntergeladenen Dokument vorliegen, zu identifizieren,
– das zweite Verarbeitungsmittel angeordnet ist, um zu bestimmen, welche der gespeicherten und/oder mit einer Kennung versehenen Dokumente das entsprechende Stichwort enthalten,
– das zweite Verarbeitungsmittel angeordnet ist, um einen Ähnlichkeits-/Unähnlichkeitskoeffizienten für mindestens eines der gespeicherten oder mit einer Kennung versehenen Dokumente im Vergleich zum heruntergeladenen Dokument zu bestimmen, und
– das Display des Computersystems angeordnet ist, um eine Liste von mindestens einem gespeicherten und/oder mit einer Kennung versehenen Dokument zusammen mit dem Ähnlichkeits-/Unähnlichkeitskoeffizienten anzuzeigen.

In bestimmten Ausführungsformen des zweiten Aspekts der Erfindung ist das Computersystem durch einen in geeigneter Weise programmierten Computer geschaffen, in dem das Kommunikationsmittel ein Datenmodem des Computers und das erste und das zweite Verarbeitungsmittel einen Mikroprozessor oder einen digitalen Signalprozessor umfassen.
In anderen Ausführungsformen der Erfindung umfasst das System einen Personal Computer, der an ein lokales Netzwerk angeschlossen ist, das über einen Router mit dem WWW gekoppelt ist. Die Datenbank und des erste und zweite Verarbeitungsmittel können in dem PC oder in einem zweiten Computer geschaffen sein, der ebenfalls an das lokale Netzwerk angeschlossen und über andere PCs zugänglich ist. Alternativ können die Datenbank und das erste und zweite Verarbeitungsmittel in den PC und in einen oder mehrere andere Computer des lokalen Netzwerks kopiert sein, um eine Hierarchie von „Wissens"-Servern bereitzustellen.
Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Computerprogramm, das in einem computerlesbaren Medium ausgeführt ist, zum Betreiben eines Computersystems bereitgestellt, wobei das Computersystem an ein Netzwerk angeschlossen ist und ein Display, eine Datenbank, in der eine Gruppe von Dokumenten und/oder Dokumentkennungen gespeichert ist, umfasst, wobei das Computerprogramm eingerichtet ist, folgende Schritte durchzuführen, wenn es auf dem Datenverarbeitungsgerät ausgeführt wird:

– das Einrichten einer Datenbank, in der eine Gruppe von Dokumenten und/oder Dokumentkennungen gespeichert ist,
– das Herunterladen eines elektronischen Dokuments in das Computersystem über ein Datennetzwerk, wobei das Dokument in einem computerlesbaren Code vorliegt,
– das Identifizieren von Stichwörtern im heruntergeladenen Dokument,
– das Modifizieren des computerlesbaren Codes solcherart, dass er Hyperlinks enthält, um dem Benutzer den Link zu Dokumenten zu ermöglichen, die in der Datenbank gespeichert oder mit einer Kennung versehen sind und mindestens eines der Stichwörter enthalten, und
– das Anzeigen des heruntergeladenen Dokuments auf dem Display des Computersystems, wo die eingefügten Hyperlinks als vom Benutzer auswählbare Elemente erscheinen, dadurch gekennzeichnet, dass das Computerprogramm ferner eingerichtet ist, die folgenden Schritte durchzuführen, wenn es auf dem Datenverarbeitungsgerät ausgeführt wird:
– das Identifizieren von Stichwörtern, indem durch das Analysieren der Worthäufigkeitsverteilung über die Dokumente eine globale Stichwortliste erstellt wird, und das Identifizieren derjenigen globalen Stichwörter, die in dem heruntergeladenen Dokument vorliegen,
– das Bestimmen, welche der gespeicherten und/oder mit einer Kennung versehenen Dokumente das entsprechende Stichwort enthalten,
– das Bestimmen des Ähnlichkeits-/Unähnlichkeitskoeffizienten für mindestens eines der gespeicherten oder mit einer Kennung versehenen Dokumente im Vergleich zum heruntergeladenen Dokument, und
– das Anzeigen einer Liste von mindestens einem gespeicherten und/oder mit einer Kennung versehenen Dokument zusammen mit dem Ähnlichkeits-/Unähnlichkeitskoeffizienten.

Zum besseren Verständnis der vorliegenden Erfindung und um zu zeigen, wie dieselbe umgesetzt werden kann, wird nunmehr als Beispiel auf die zugehörigen Zeichnungen verwiesen, in denen:
1 schematisch einen Computer zeigt, der mit dem WWW verbunden und so angeordnet ist, dass er eine Wissensdatenbank aufbaut und benutzt; und
2 eine angezeigte Webseite mit während der Übertragung hinzugefügten Hyperlinks zeigt.
Detaillierte Beschreibung bestimmter Ausführungsformen
Mit Bezug auf 1 ist ein Personal Computer (PC) 1 funktional dargestellt und wird allgemein mit dem Bezugszeichen 1 gekennzeichnet. Der PC 1 weist ein Modem 2 auf, das es dem PC 1 ermöglicht, mit einer Telefonleitung 3 und über die Telefonleitung mit dem WWW 4 verbunden zu werden. Es versteht sich, dass diese Verbindung zusätzlich einen Internet-Dienstanbieter (ISP – Internet Service Provider) umfassen kann, obwohl dieser in der Figur nicht dargestellt ist. Es wird auch verstanden werden, dass der PC 1 alternativ über ein lokales Netzwerk (LAN – Local Area Network) mit eigenem Netzwerkzugangsserver (NAS – Network Access Server) mit dem WWW 4 verbunden sein kann.
Durch ein Computerprogramm, das in einem Speicher des PC 1 gespeichert und von einem PRozessor ausgeführt wird, ist der PC 1 mit einem Internetbrowser 5 versehen. Dies kann ein herkömmlicher Browser wie der Microsoft Internet Explorer^TM oder der Netscape Navigator^TM sein, der aber auf jeden Fall in der Lage ist, über das Modem 2 und unter Verwendung von http oder einem anderen geeigneten Internetprotokoll sowie eines Universal Source Locator (URL) oder einer ähnlichen Kennung (z.B. Ressourcename), die die Seite kennzeichnen, im WWW 4 eine Webseite anzufordern und abzufragen.
Wie bereits bekannt ist, benutzt das Internet eine spezielle Programmiersprache bzw. einen Code, die/der als Hyper Text Markup Language (HTML) bekannt ist, um Webseiten zu codieren, und der Internetbrowser ist in der Lage, diesen Code zu interpretieren und eine empfangene Seite auf einem Display 6 einer Benutzerschnittstelle 7 des PCs 1 anzeigen zu lassen. Mit Hilfe von HTML können sogenannte „Hyperlinks" in eine Webseite eingebaut werden. Hyperlinks sind Elemente einer Webseite, z.B. Legenden, Wörter, Bilder usw., die der Benutzer mit Hilfe einer Computermaus auswählen kann. Durch das Auswählen eines Hyperlinks wird normalerweise der Browser 5 dazu veranlasst, eine weitere Webseite aus dem WWW 4 herunterzuladen, wobei diese Seite in dem ursprünglich empfangenen HTML mit einer URL gekennzeichnet ist, die zu diesem konkreten Hyperlink gehört.
1 zeigt ein zusätzliches Software-/Hardware-Modul 8, das funktionell zwischen dem Webbrowser 5 und dem Modem 2 angeordnet ist. Das Modul kann durch geeignete Programmierung der CPU des PC 1 oder mit Hilfe eines DSP oder derartigem installiert werden. Das Modul 8 umfasst einen Server 9, der mit dem Internetbrowser über TCP/IP kommuniziert. In dem Fall, dass der Benutzer durch das Eingeben einer URL das Herunterladen einer Webseite vom WWW 4 anfordert, wird diese Aufforderung durch den Server 9 (der als Proxy-Server dient) zum WWW übertragen. Bei dem Übertragen der Anforderung gibt der Proxy-Server 9 die URL auch an eine Speichersteuerungsfunktion 10 weiter, die die URL in einem dazugehörigen Speicherblock 11 speichert.
Wenn die angeforderte Webseite vom WWW 4 zurückgesendet wird, wird die Seite von dem Modul 8 (auf der Grundlage der gespeicherten URL) abgefangen und durch die Speichersteuerungsfunktion 10 temporär in dem Speicherblock 11 gespeichert. Bevor die Seite zum Internetbrowser 5 weitergeleitet wird, damit dieser sie anzeigt, wird die Seite wie unten beschrieben in dem Speicherblock 11 modifiziert. Zunächst jedoch ist es nötig, die Struktur und Funktion einer Stichwortdatenbank zu erläutern, die in einem Speicherblock gespeichert ist, der in 1 mit Bezugszeichen 12 gekennzeichnet ist.
Die Datenbank 12 enthält eine „Wort"-Tabelle, die in ihrer ersten Spalte jeden Wortstamm speichert, der in mindestens einem der bereits analysierten Dokumente (in diesem Beispiel bereits heruntergeladene Webseiten) erscheinen. Beispielsweise werden die Wörter „produce", „produced", „produces", „producing" usw. in der Tabelle durch einen einzigen Stamm „produc" dargestellt (ein geeigneter Algorithmus zur „Wortstammbildung" ist beschrieben in „Development of a Stemming Algorithm", Julie Beth Lovins, Mechanical Translation and Computational Linguistics, 11, 22–32, 1968). Für jedes Wort (Wortstamm) wird die Anzahl der Dokumente, in denen das Wort 0mal auftritt, in Spalte 2 eingetragen, die Anzahl der Dokumente, in denen das Wort 1mal auftritt, wird in Spalte 3 eingetragen usw. Dies illustriert die Tabelle 1 unten, aus der ersichtlich ist, dass das Wort Nr. 3 in 45 Dokumenten 0mal auftritt, in einem Dokument 1mal usw.
Mit Hilfe der Informationen, die in der oben genannten Tabelle enthalten sind, ist es möglich festzustellen, welches der aufgelisteten Wörter wahrscheinlich ein Stichwort ist. Dieser Vorgang ist in zwei Artikeln beschrieben mit dem Titel „A Probabilistic Approach to Automatic Keyword Indexing", Teil I, Journal of the American Society for Information Science, Juli – August 1975, S. 197–206; Teil II, Journal of the American Society for Information Science, September – Oktober 1975, S. 280–289. Kurz umrissen geht es in diesem Vorgang darum, für jedes aufgelistete Wort die Poisson-Verteilung der Häufigkeit der Nennung zu bestimmen und Die Abweichung zwischen der tatsächlichen Verteilung und der Poisson-Verteilung zu bestimmen. Dann wird eine Konstante festgelegt, und Wörter, bei denen Die Abweichung geringer ist als diese Konstante, werden als Stichwörter identifiziert. Diejenigen aufgelisteten Wörter, die als Stichwörter identifiziert werden, werden in einer zusätzlichen Spalte der oben genannten Tabelle durch eine Stichwortflagge gekennzeichnet, die auf 1 eingestellt ist, wenn das Wort ein Stichwort ist, und auf 0, wenn das Wort kein Stichwort ist. Diese Stichwörter sind global in dem Sinne, dass sie auf der Grundlage aller analysierten Dokumente abgeleitet sind.
Die Datenbank 12 enthält eine zweite Tabelle, die als die „Dokument"-Tabelle bezeichnet wird. Diese Tabelle enthält für jedes untersuchte Dokument die Anzahl des Auftretens jedes Wortes zusammen mit der URL, die das Dokument kennzeichnet. Ein Beispiel einer solchen Tabelle ist unten in Tabelle 2 dargestellt, aus der ersichtlich ist, dass das Dokument 2 ein Wort Nr. 1 1mal enthält, ein Wort Nr. 2 23mal usw.
Es versteht sich, dass, wenn das System zum ersten Mal gestartet wird, die Wort- und die Dokumenttabelle leer sein können. Die Tabellen werden dann aufgebaut, während das System genutzt wird. Es ist natürlich möglich, Tabellen auf der Grundlage einer Anzahl repräsentativer Dokumente vorzuinstallieren.
Zurück zu der heruntergeladenen Webseite, die temporär im Speicherblock 11 gespeichert ist, versteht es sich, dass diese Seite typischerweise in HTML vorliegt und sehr wahrscheinlich mehrere Textpassagen enthält. Dieser Text wird durch die Textanalysefunktion 13 extrahiert, und die in der Datenbank 12 gespeicherte Worttabelle wird auf der Grundlage des extrahierten Textes aktualisiert. Die Dokumenttabelle wird in ähnlicher Weise aktualisiert. Auf der Grundlage der aktualisierten Worttabelle wird die Stichwortliste verfeinert (und die Stichwortflaggen entsprechend eingestellt).
Dann durchsucht die Textanalysefunktion 13 den Text, der in der heruntergeladenen Webseite enthalten ist, um die darin vorliegenden Stichworte zu identifizieren. Wird ein Stichwort identifiziert, modifiziert die Funktion 13 „während der Übertragung" den HTML-Code, der in dem Puffer enthalten ist, so, dass ein dazugehöriger Hyperlink (dessen Funktion nachfolgend erklärt ist) eingefügt wird. Die folgende HTML-Auflistung zeigt eine heruntergeladene Webseite, die die Stichworte „TeamWARE^„ ^TM, „Internet", „desktop" und „agents" enthält und in der hinzugefügte Hyperlinks unterstrichen dargestellt sind (diese Seite enthielt ursprünglich keine Hyperlinks).
Nach Modifizierung des HTML-Codes während der Übertragung wird die Webseite vom Speicherblock 11 über die Speichersteuerungsfunktion 10 und den Server 9 zum Webbrowser 5 zurückgeschickt. 2 zeigt die dem oben stehenden Code entsprechende Webseite, wie sie vom Webbrowser 5 angezeigt wird. Die hinzugefügten Hyperlinks sind nun unterstrichen dargestellt, obschon es sich (aus oben stehendem Code) versteht, dass diese in einer farbigen Darstellung grün erscheinen.
Nun angenommen, der Benutzer möchte Dokumente auffinden, die mit der heruntergeladenen Seite im Zusammenhang stehen, und insbesondere über das Wort „Internet" miteinander im Zusammenhang stehen. Durch Klicken auf einen der „Internet"-Hyperlinks, die der Webseite hinzugefügt sind, veranlasst der Benutzer den Webbrowser 5, von dem Server 9 (der als Webserver wirkt) die Inhalte der URL „http://niemi_terho/page-62/word-29329/default" abzurufen. Die in dieser URL enthaltene Kennung „default" veranlasst den Webserver 9, eine Anwendung 14 zu starten, die als zur Laufzeit linkbare Bibliothek (DLL – Dynamic Linkable Library) bezeichnet wird und die den Webserver 9 mit der Datenbank 12 verlinkt.
Die URL-Wortkennung, in diesem Fall „word-29329" kennzeichnet für die Datenbank 12 das Stichwort „Internet" in der Worttabelle, während die Seitenkennung, „page-62", das Quelldokument, d.h. die heruntergeladene Webseite, in der Dokumenttabelle kennzeichnet. Die Datenbank 12 identifiziert zuerst alle in ihr mit einer Kennung versehenen Dokumente, die das Stichwort „Internet" enthalten. Dann wird für jedes oder für einige der mit einer Kennung versehenen Dokumente ein Unähnlichkeitskoeffizient, bezogen auf das Quelldokument, berechnet wie folgt.
Angenommen, es werden acht Dokumente (1 bis 8) identifiziert, die das Wort „Internet" enthalten, und jedes dieser Dokumente enthält einen oder mehrere komplette Sätze aufgelisteter Stichwörter (I bis P, wobei I das Stichwort „Internet" darstellt). Wenn „Ref" das heruntergeladene Dokument ist (d.h. „page-62"), dann kann diese Information grafisch wie in Tabelle 3 unten dargestellt werden.
Der Unähnlichkeitskoeffizient für ein identifiziertes Dokument wird wie folgt berechnet:
wobei X für den Satz Stichwörter steht, der im Dokument Ref enthalten ist, Y für den Satz Stichwörter steht, der im betreffenden gekennzeichneten Dokument enthalten ist, und XΔY = (XχY) – (X1Y). So ist beispielsweise im Falle des Dokuments 1 der Zähler in der oben stehenden Gleichung gleich 3 (d.h. 6 gemeinsame Stichwörter minus 3 nicht gemeinsame Stickwörter), während der Zähler gleich 9 ist, was einen Unähnlichkeitskoeffizienten von 0,333 oder 33,3 % ergibt.
Die DLL 14 schickt von der Datenbank 12 die URLs der identifizierten Seiten zusammen mit dem entsprechenden Unähnlichkeitskoeffizienten an den Webserver 9 und den Webbrowser 5 zurück. Diese Seiten werden dem Benutzer als eine Liste von Hyperlinks angezeigt. Angenommen, der Benutzer wählt einen solchen Hyperlink aus, so veranlasst der Webbrowser 5, dass die ausgewählte Webseite über das WWW 4 heruntergeladen und auf dem Display 6 angezeigt wird.
Um zu verhindern, dass gewöhnliche Wörter wie „der", „und" als Stichwörter gekennzeichnet werden, kann eine STOP-Liste erstellt werden, die Wörter enthält, die nicht in der Worttabelle enthalten sein können. Um jedoch erhöhte Flexibilität zu schaffen, wird es bevorzugt, wenn die Worttabelle einen „Laufzeit"-Wert für ein Stichwort enthält, der eine Anzahl von Tagen darstellt.
Ist die Laufzeit negativ, kann ein Wort nicht zu einem Stichwort werden, bis der Laufzeitwert 0 erreicht. So kann beispielsweise die Laufzeit des Wortes „und" auf –1.000.000 Tage eingestellt werden, so dass es praktisch nie zu einem Stichwort werden kann. Für ein Wort wie „Computer", das tendenziell ein wenig markanter ist, kann die Laufzeit auf –30 Tage eingestellt werden. Man kann erwarten, dass nach einer Frist von 30 Tagen das System genügend „gelernt" hat, um festzustellen, ob der Begriff „Computer" tatsächlich ein relevantes Stichwort ist oder nicht.
Andererseits kann die Laufzeit positiv sein, so dass ein Benutzer ein Wort zwingend für einen festgelegten Zeitraum auf die Stichwortliste setzt. Wenn sich beispielsweise ein Benutzer gegenwärtig für Themen im Zusammenhang mit dem Internet interessiert, könnte die Laufzeit des Wortes „Internet" als +30 Tage definiert werden. So würde „Internet" 30 Tage lang als Stichwort geführt, wonach seine Beibehaltung von dem oben beschriebenen Stichwortbestimmungsprozess abhängt.
Der oben beschriebene Prozess kann einfach modifiziert werden, um es dem Benutzer zu ermöglichen, Webseiten zu identifizieren, die mit einer heruntergeladenen Webseite durch etwas anderes als herkömmliche Stichwörter in Zusammenhang stehen. Beispielsweise kann der Zusammenhang auf der Basis von Namen, Daten oder Aufgaben hergestellt sein, oder auf der Basis einer Kombination aus diesen.
Der Prozess kann auch ausgeweitet werden, um eine Hierarchie von „Wissensservern" bereitzustellen, die eine Kette zwischen dem WWW 4 und der Endbenutzerschnittstelle 7 bilden, wobei jeder Server mit einem Modul 8 ausgestattet ist. Server, die in der Kette weiter oben stehen, werden tendenziell einer Anzahl verschiedener PCs 1 zuarbeiten. Beispielsweise kann ein Firmenwissensserver und ein Gruppenwissensserver zwischen dem Endbenutzer-PC 1 und dem WWW bereitgestellt sein, in welchem Fall der Firmenserver Stichwörter aus den Webseiten sammelt, die zu allen Benutzern der Firma heruntergeladen werden, während der Gruppenserver Stichwörter aus den Webseiten sammelt, die nur zu Mitgliedern einer bestimmten Gruppe heruntergeladen werden.
Es ist auch möglich, den Prozess so zu erweitern, dass in die Datenbank Details von elektronischen Dateien aufgenommen werden, die keine Webseiten sind. Beispielsweise können Stichwörter in Dateien, die von Textverarbeitungsprogrammen erzeugt wurden, oder in elektronischer Post, die vom PC 1 versendet oder empfangen wird, identifiziert werden. Der Ort (d.h. der Pfad) dieser Dateien könnte dann als Dateilink in der Datenbank 10 gespeichert werden. Im Falle elektronischer Post kann die Funktion des Webbrowsers 5 durch einen E-Mail-„Client" wie etwa Microsoft Outlook Express^TM ersetzt sein. Typischerweise verbindet sich dann der Client über das Modul 8 mit einem Mailserver.
Der Fachmann wird verstehen, dass an den oben beschriebenen Ausführungsformen Modifizierungen vorgenommen werden können, ohne den Geltungsbereich der vorliegenden Erfindung zu verlassen. Insbesondere kann bei der Berechnung des Unähnlichkeitskoeffizienten zwischen einem heruntergeladenen Dokument und einem bereits archivierten Dokument die Anzahl der Nennungen eines Stichwortes in den Dokumenten berücksichtigt werden. Beispielsweise kann die Tabelle 3 so modifiziert werden, dass die
durch die Anzahl der Nennungen eines gegebenen Stichworts in einem gegebenen Dokument ersetzt werden. Die oben beschriebene Gleichung zur Berechnung des Unähnlichkeitskoeffizienten wird durch eine neue Gleichung ersetzt, in der der Zähler für die Summe der absoluten Differenz für jedes Stichwort steht, während der Nenner für die Gesamtanzahl von Stichwörtern in den beiden verglichenen Dokumenten steht.
Betrachtet man beispielsweise Tabelle 3, sei angenommen, die Stichwörter I, J, K und L tauchen 2–, 3–, 1– bzw. 4mal in Dokument 1 auf, während die Stichwörter I, J, L, M und O 1-, 3-, 2-, 4- bzw. 2mal in Dokument Ref erscheinen. Der Zähler des Unähnlichkeitskoeffizienten ist gegeben durch: |2-1| + |3-3| + |1-0| + |4-2| + |0-4| + |0-2| = 10,während der Nenner gegeben ist durch: (2 + 3 + 1 + 4) + (1 + 3 + 2 + 4 + 2) = 22,so dass der Unähnlichkeitskoeffizient 45,5 % beträgt.
Die Berechnung des Unähnlichkeitskoeffizienten kann ferner so modifiziert werden, dass die Dokumentlänge berücksichtigt wird. Beispielsweise kann die Anzahl der Nennungen eines Stichwortes in einem Dokument mit Hilfe eines Vereinheitlichungsfaktors vereinheitlicht werden, der gleich der Länge des Standarddokuments dividiert durch die Länge des betreffenden Dokuments ist.
Anzahl von Nennungen/Dokument
Tabelle 1
Tabelle 2
Tabelle 3

Claims

Verfahren zum Betreiben eines Computersystems (1), wobei das Computersystem an ein Datennetzwerk (4) angeschlossen ist und ein Display (6) und eine Datenbank (12), in der eine Gruppe von Dokumenten und/oder Dokumentkennungen gespeichert ist, umfasst, wobei das Verfahren folgende Schritte umfasst: – das Herunterladen eines elektronischen Dokuments in das Computersystem (1) über das Datennetzwerk (4), wobei das Dokument in Form eines computerlesbaren Codes vorliegt, – das Identifizieren von Stichwörtern im heruntergeladenen Dokument, – das Modifizieren des computerlesbaren Codes solcherart, dass er Hyperlinks enthält, um dem Benutzer den Link zu Dokumenten zu ermöglichen, die in der Datenbank (12) gespeichert oder mit einer Kennung versehen sind und mindestens eines der Stichwörter enthalten, und – das Anzeigen des heruntergeladenen Dokuments auf dem Display (6) des Computersystems, wo die eingefügten Hyperlinks als vom Benutzer auswählbare Elemente erscheinen, dadurch charakterisiert, dass der Schritt des Identifizierens von Stichwörtern das Erstellen einer globalen Stichwortliste durch das Analysieren der Worthäufigkeitsverteilung über die Dokumente und das Identifizieren derjenigen globalen Stichwörter umfasst, die in dem heruntergeladenen Dokument vorliegen, – das Bestimmen, welche der gespeicherten und/oder mit einer Kennung versehenen Dokumente das entsprechende Stichwort enthalten, – das Bestimmen des Ähnlichkeits-/Unähnlichkeitskoeffizienten für mindestens eines der gespeicherten oder mit einer Kennung versehenen Dokumente im Vergleich zum heruntergeladenen Dokument, und – das Anzeigen einer Liste von mindestens einem gespeicherten und/oder mit einer Kennung versehenen Dokument zusammen mit dem Ähnlichkeits-/Unähnlichkeitskoeffizienten.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt des Modifizierens des computerlesbaren Codes das Erstellen eines Hyperlinks für jedes identifizierte Stichwort umfasst.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass nach dem Identifizieren der globalen Stichwörter, die in dem heruntergeladenen Dokument vorliegen, das Verfahren ferner folgenden Schritt umfasst – das Aktivieren eines der eingefügten Hyperlinks.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Verfahren das Anzeigen der Liste als eine Gruppe von Hyperlinks zu den aufgelisteten Dokumenten umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der computerlesbare Code Hyper Text Markup Language (HTML) ist und die Schritte des Herunterladens und Anzeigens von einem Browser durchgeführt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Datennetzwerk, über das das elektronische Dokument heruntergeladen wird, das World Wide Web ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Dokumentkennungen ein Dokumenttitel, ein Computerlaufwerkpfad oder ein Universal Source Locator (URL) auf eine Webseite oder eine Kombination aus diesen sind.
Programmiertes Computersystem, das Folgendes umfasst: – Kommunikationsmittel (5, 2), das mit einem Datennetzwerk (4) zum Herunterladen eines elektronischen Dokuments über das Datennetzwerk (4) gekoppelt ist, wobei das Dokument in Form eines computerlesbaren Codes vorliegt, – eine elektronische Datenbank (12), die eine Gruppe von Dokument und/oder Dokumentkennungen speichert, – erste Verarbeitungsmittel (12, 13), die zum Identifizieren von Stichwörtern in dem heruntergeladenen Dokument angeordnet sind, – ein zweites Verarbeitungsmittel (13), das zum Modifizieren des computerlesbaren Codes angeordnet ist, um Hyperlinks darin einzufügen, um es einem Benutzer zu ermöglichen, auf Dokumente, die in der Datenbank (12) gespeichert oder mit einer Kennung versehen sind und mindestens eines der Stichwörter enthalten, zuzugreifen, und – ein Display (6) des Computersystems und Displaytreibermittel (5, 7), die angeordnet sind, um das heruntergeladene Dokument in einer Form anzuzeigen, in der die eingefügten Hyperlinks als vom Benutzer auswählbare Elemente erscheinen, dadurch gekennzeichnet, dass das zweite Verarbeitungsmittel (13) im Gebrauch angeordnet ist, um Stichwörter zu identifizieren, indem es eine globale Stichwortliste durch das Analysieren der Worthäufigkeitsverteilung über die Dokumente erstellt, und um diejenigen globalen Stichwörter, die in dem heruntergeladenen Dokument vorliegen, zu identifizieren, das zweite Verarbeitungsmittel (13) angeordnet ist, um zu bestimmen, welche der gespeicherten und/oder mit einer Kennung versehenen Dokumente das entsprechende Stichwort enthalten, das zweite Verarbeitungsmittel (13) angeordnet ist, um einen Ähnlichkeits-/Unähnlichkeitskoeffizienten für mindestens eines der gespeicherten oder mit einer Kennung versehenen Dokumente im Vergleich zum heruntergeladenen Dokument zu bestimmen, und das Display (6) des Computersystems angeordnet ist, um eine Liste von mindestens einem gespeicherten und/oder mit einer Kennung versehenen Dokument zusammen mit dem Ähnlichkeits-/Unähnlichkeitskoeffizienten anzuzeigen.
Programmiertes Computersystem nach Anspruch 8, dadurch gekennzeichnet, dass das Computersystem mit einem geeigneten programmierten Computer (1) ausgestattet ist, in dem das Kommunikationsmittel (2, 5) ein Datenmodem des Computers (1) und das erste und das zweite Verarbeitungsmittel (12, 13) einen Mikroprozessor oder einen digitalen Signalprozessor umfassen.
Computerprogramm, das in einem computerlesbaren Medium ausgeführt ist, zum Betreiben eines Computersystems, wobei das Computersystem an ein Netzwerk (4) angeschlossen ist und ein Display (6), eine Datenbank (12), in der eine Gruppe von Dokumenten und/oder Dokumentkennungen gespeichert ist, umfasst, wobei das Computerprogramm eingerichtet ist, folgende Schritte durchzuführen, wenn es auf dem Datenverarbeitungsgerät ausgeführt wird: – das Einrichten einer Datenbank (12), in der eine Gruppe von Dokumenten und/oder Dokumentkennungen gespeichert ist, – das Herunterladen eines elektronischen Dokuments in das Computersystem (1) über ein Datennetzwerk (4), wobei das Dokument in einem computerlesbaren Code vorliegt, – das Identifizieren von Stichwörtern im heruntergeladenen Dokument, – das Modifizieren des computerlesbaren Codes solcherart, dass er Hyperlinks enthält, um dem Benutzer den Link zu Dokumenten zu ermöglichen, die in der Datenbank (12) gespeichert oder mit einer Kennung versehen sind und mindestens eines der Stichwörter enthalten, und – das Anzeigen des heruntergeladenen Dokuments auf dem Display (6) des Computersystems, wo die eingefügten Hyperlinks als vom Benutzer auswählbare Elemente erscheinen, dadurch charakterisiert, dass das Computerprogramm ferner eingerichtet ist, die folgenden Schritte durchzuführen, wenn es auf dem Datenverarbeitungsgerät ausgeführt wird: – das Identifizieren von Stichwörtern, indem durch das Analysieren der Worthäufigkeitsverteilung über die Dokumente eine globale Stichwortliste erstellt wird, und das Identifizieren derjenigen globalen Stichwörter, die in dem heruntergeladenen Dokument vorliegen, – das Bestimmen, welche der gespeicherten und/oder mit einer Kennung versehenen Dokumente das entsprechende Stichwort enthalten, – das Bestimmen des Ähnlichkeits-/Unähnlichkeitskoeffizienten für mindestens eines der gespeicherten oder mit einer Kennung versehenen Dokumente im Vergleich zum heruntergeladenen Dokument, und – das Anzeigen einer Liste von mindestens einem gespeicherten und/oder mit einer Kennung versehenen Dokument zusammen mit dem Ähnlichkeits-/Unähnlichkeitskoeffizienten.