DE69917112T2

DE69917112T2 - Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems

Info

Publication number: DE69917112T2
Application number: DE69917112T
Authority: DE
Inventors: Keith Coral Springs Loring; Paritosh D. Deerfield Beach Patel
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1998-03-27
Filing date: 1999-02-15
Publication date: 2006-03-30
Anticipated expiration: 2019-02-16
Also published as: TW405109B; EP0945851A2; JP3519015B2; JPH11327583A; US6195641B1; EP0945851A3; KR19990077872A; KR100324079B1; EP0945851B1; DE69917112D1

Description

Hintergrund der Erfindung
1. Gegenstand der Erfindung
Diese Erfindung bezieht sich im Allgemeinen auf Spracherkennungsanwendungen und im Besonderen auf ein Verfahren und eine Vorrichtung für die automatische Speicherung, Verfolgung und Verteilung der Aussprache neuer Wörter an die Spracherkennungs-Clients innerhalb eines Netzwerks.
2. Beschreibung der verwandten Fachgebiete
Der Gebrauch gesprochener Sprache mit Computern, wie sie üblicherweise mit der Spracherkennung und Sprachsynthese zusammenhängt, beinhaltet nicht nur das Speichern und Abrufen der Wortschreibweise, sondern auch von anderen, mit Wörtern in Zusammenhang stehenden Daten wie beispielsweise Phoneme, alternative Aussprachemöglichkeiten, Zugehörigkeit zu anderen Wörtern und Sprachbestandteile, z.B. Substantiv, Verb, Adjektiv usw.
Computersysteme wurden zunächst ausschließlich für die Verarbeitung von geschriebener Sprache entwickelt. Geschriebene Sprache kann für viele Dinge nutzbringend eingesetzt werden und lässt sich sehr viel leichter interpretieren, im Rahmen eines Computersystems darstellen und von diesem reproduzieren, als dies bei gesprochener Sprache der Fall ist. Heutzutage erobern Computersysteme auch den Bereich der gesprochenen Sprache, wobei dies in Form zweier Technologien erfolgt: Spracherkennung und Sprachsynthese. Sprachsynthese wird dabei auch als Text-zu-Sprache (Text-to-Speech, TTS) bezeichnet.
Bei der Definition der Schritte, die für eine Unterstützung gesprochener Sprache von Computern durchgeführt werden müssen, ist es hilfreich, die gesprochene mit der geschriebenen Sprache zu vergleichen. Die Schnittmenge dieser beiden Formen der Kommunikation wird von Wörtern gebildet. Außerhalb dieser Schnittmenge werden die Wörter auf andere Art und Weise dargestellt als gesprochene Laute oder als geschriebene Buchstaben. Die geschriebene Sprache wird außerhalb der gemeinsamen Schnittmenge auch durch die Zeichensetzung oder durch unterschiedliche Schriftschnitte, z.B. Fettdruck als Ausdruck der Betonung, ergänzt. Die gesprochene Sprache wird außerhalb der gemeinsamen Schnittmenge auf andere Art und Weise ergänzt, z.B. durch Lautstärke, Tonhöhe, Prosodie (Sprechgeschwindigkeit) und Modulation.
Bei dem Versuch, eine Unterstützung der gesprochenen Sprache durch Computer zu erreichen, wird die gesprochene Sprache typischerweise mittels Spracherkennung in eine Textform umgewandelt und mittels Sprachsynthese wieder in die gesprochene Form gebracht. Dabei macht man sich den erheblich geringeren Bedarf an Systemressourcen für die Speicherung oder Übertragung einer geschriebenen Darstellung im Vergleich zu einer hörbaren Darstellung zunutze. Die Unterschiede zwischen den geschriebenen und gesprochenen Wörtern außerhalb der gemeinsamen Schnittmenge bringen für Spracherkennungsanwendungen jedoch eine Reihe von Problemen mit sich.
Für Endbenutzer ist es äußerst lästig, Wortaussprachen, die nicht im Ausgangswortschatz der erkennbaren Wörter enthalten sind, hinzufügen zu müssen. Systemaufbaubedingt begegnet der Benutzer diesem Problem in Gestalt eines Sonderfalls eines Worts, das nicht korrekt erkannt wurde. Dabei kann die Erkennung als der Versuch der Spracherkennungseinheit betrachtet werden, das vom Benutzer gesprochene Wort möglichst gut zu erraten. Wenn der Benutzer ein Wort ausspricht, das der Spracherkennungseinheit nicht bekannt ist, rät die Einheit schlicht falsch. Daraufhin muss der Benutzer die Korrektur des Worts veranlassen und ein neues Wort aus einer kurzen Liste geeigneter Alternativen auswählen. Wenn das gesprochene Wort nicht als alternative Auswahl aufgeführt ist, muss der Benutzer das Wort üblicherweise eintippen und es eventuell noch einmal aussprechen. Diese Unannehmlichkeit kann Benutzer dazu verführen, dass sie das eigentlich notwendige Korrekturverfahren übergehen und den korrigierten Text einfach selbst eingeben. Obwohl diese Vorgehensweise zunächst schneller ist, ist es leider dennoch wichtig, dass dem Spracherkennungssystem die Korrektur anhand des richtigen Verfahrens mitgeteilt wird, da nur mit diesen Informationen Wörter hinzugefügt und korrigiert werden können und nur auf diese Weise die künftige Spracherkennungsleistung verbessert werden kann.
Spracherkennungseinheiten von Spracherkennungsanwendungen sind ganz einfach nicht genau genug, und auch ihr Durchsatz ist aufgrund von Fehl-Erkennungen und der Zeit, die für die Korrektur von Fehl-Erkennungen notwendig ist, mitunter gering.
Die Korrektur von fehlerhaft erkannten Wörtern ist ein wichtiger Faktor für Messkriterien hinsichtlich der Leistungsfähigkeit von Spracherkennungssoftware, zu denen auch die Anzahl der Wörter pro Minute und die Nutzbarkeit gehören. Mit großen Wortschätzen soll die Anzahl der Korrekturen, die als Folge von nicht im Wortschatz enthaltenen Wörtern notwendig werden, begrenzt werden.
Bei einem eigenständigen System müssen vom Benutzer hinzufügte Wörter gesichert und von System zu System übertragen werden, wenn ein Benutzer nicht immer an ein und demselben Ort arbeitet oder die Systeme wechselt (z.B. bei einem Wechsel zwischen privatem und Bürocomputer und zwischen tragbarem und Tischcomputer) bzw. einen Computer oder eine Spracherkennungsanwendung oder auch beides aufrüstet. Diese Arbeit ist zeitaufwendig, ermüdend, ihr Nutzen ist nicht sofort offensichtlich, und sie wird daher auch nicht immer erledigt.
Üblicherweise wird zusammen mit Spracherkennungs- oder - synthesesoftware ein Ausgangswortschatz mit Wörtern einschließlich Aussprachen auf einem Computer installiert. Die Aussprachen werden in ihren Basisformen gespeichert, wobei es sich um Anweisungen bezüglich der Aussprache der Wörter bzw. bezüglich des Klangs handelt. Um einen idealen Ausgangswortschatz für eine gegebene Anwendung zu erstellen, sind viele Faktoren zu berücksichtigen. Die Anzahl der Wörter in einem Ausgangswortschatz wird in der Regel dadurch bestimmt, indem Überlegungen z.B. zum erforderlichen Speicherplatz, zur Häufigkeit, mit der ein Wort vorkommt, zur Gebräuchlichkeit und zur Erkennungsgenauigkeit angestellt und dabei alle Wörter des Startpakets berücksichtigt werden. Die Entwickler von Spracherkennungssystemen installieren üblicherweise einen umfangreichen Wortschatz mit den für die Erkennung notwendigen Daten zur Wortaussprache. Die Erstellung eines derartigen Wortschatzes ist eine ziemlich ermüdende und langwierige Aufgabe. Der Stand der Technik bei der Spracherkennung durch einen vernetzten Arbeitsplatzrechner kann „Specialized language models for speech recognition", IBM Technical Disclosure Bulletin, IBM Corp. New York, Bd. 38, Nr. 2, Seiten 155 bis 157, entnommen werden.
Zusammenfassung der Erfindung
Ein Universalwortschatz mit gesprochener Sprache für die Verwendung in einem Netzwerk, der gemäß den Anordnungen der Erfindung entwickelt und verwaltet wird, löst sämtliche Probleme, denen sich der Stand der Technik gegenübersieht. Die Anordnungen der Erfindung automatisieren und optimieren die Speicherung, Verfolgung, gemeinsame Nutzung und Bereitstellung von Vokabeldaten gesprochener Sprache. Wortbezogene Daten zu allen bekannten Wörtern können von einem vernetzten Server bereitgestellt werden. Neue Wörter, die von einem beliebigen Client-Benutzer hinzugefügt werden, werden allen Benutzern zur Verfügung gestellt, so dass nachfolgende Benutzer nicht mehr gezwungen sind, die Daten zu eben diesem neuen Wort selbst bereitzustellen.
Indem der einzelne Benutzer weniger häufig Aussprachen von Hand hinzufügen muss, steigt die Wahrscheinlichkeit, dass die Benutzer die Verfahren für die Korrektur von Fehlerkennungen so einhalten, dass die Spracherkennungsanwendung neue Wörter lernt, wodurch sich die künftige Spracherkennungsleistung für alle Benutzer verbessert.
Ein Spracherkennungs- und/oder -synthesesystem bzw. eine entsprechende Anwendung gemäß den Anordnungen der Erfindung macht die Aufnahme eines neuen Wortes durch mehrere Benutzer überflüssig. Nur noch der erste Benutzer eines neuen Worts muss dieses neue Wort hinzufügen. Während des Erkennungsvorgangs bzw. während der Ermittlung von Alternativen kann das System einen Server mit einem Universalwortschatz nach einem neuen Wort abfragen und muss somit den Benutzer nicht zur Bereitstellung der Daten auffordern.
Zu den Vorteilen eines hochgradig optimierten, in einem Cachespeicher zwischengespeicherten Universalwortschatzes gehören eine bessere Genauigkeit und ein höherer Durchsatz bei der Spracherkennung, wobei sich dies einfach darauf zurückführen lässt, dass die gesprochenen Wörter mit einer höheren Trefferwahrscheinlichkeit bekannt sind und präzise erkannt werden.
Die Anforderungen für die Installation und Verwaltung eines umfangreichen Wortschatzes auf jedem einzelnen System wird vorteilhaft verringert. Es ist für den Benutzer nachvollziehbar, dass einige Wörter auf einem Server gespeichert sind, und im Laufe der Systemnutzung erhöht die Ablage im Cachespeicher die Trefferquote, so dass sowohl die Anzahl der auf einem Client gespeicherten Wörter verringert als auch die Verarbeitungsgeschwindigkeit generell erhöht wird.
Die Notwendigkeit, die von einem Benutzer hinzugefügten Wörter zu verwalten und aktualisierte Vokabellisten einzeln zu sichern und zu übertragen, wird durch eine zentral durchgeführte Datensicherung vorteilhaft beseitigt.
Die mühsame Arbeit, den am besten geeigneten Ausgangswortschatz im Vorhinein sorgfältig auszuwählen, entfällt vorteilhafterweise, da Fachwörter wirksam und gemeinsam von den im Netzwerk zusammengeschlossenen Benutzern hinzugefügt werden. Dabei wird der Wortschatz für alle Benutzer bei Bedarf sogar automatisch auf den neuesten Stand gebracht, ohne dass hierfür ein Benutzereingriff notwendig wäre.
Ein Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung gemäß einer Anordnung der Erfindung nach Anspruch 1 umfasst: einen Netzwerkserver und eine Vielzahl von Netzwerk-Clients, die über ein Netzwerk miteinander kommunizieren; in dem Server eine zentrale Vokabelliste für erkennbare Wörter; in jedem der Clients eine Spracherkennungseinheit und ein Cachespeicher für eine lokale Vokabelliste, wobei der Cachespeicher zuvor erkannte Wörter, die von der zentralen Vokabelliste des Servers übertragen wurden, sowie neue Wörter, die von der Spracherkennungseinheit erkannt wurden, enthält, wobei jedes der neuen Wörter von einem beliebigen Client an den Server übertragen und in die zentrale Vokabelliste aufgenommen wird und wobei jedes der neuen Wörter, die in die zentrale Vokabelliste aufgenommen werden, an mindestens einen der Clients übertragen wird, um in den Cachespeicher aufgenommen zu werden.
Die neuen Wörter können automatisch von den Clients an den Server übertragen werden und können ebenfalls automatisch von dem Server an einen oder mehrere Clients übertragen werden.
Der Server kann außerdem eine Benutzerprofil-Datenbank mit Daten für jeden der Benutzer umfassen, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung und/oder die Mitgliedschaft in einer Arbeitsgruppe angeben. Wenn diese Daten zur Verfügung stehen, kann jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen werden. Außerdem kann jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhalten.
Ferner kann jeder der Clients ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher umfassen. Das Hilfsmittel für das Hinzufügen der Wortaussprache kann neue Wörter, die von der Spracherkennungseinheit des Client erkannt und von dem Server übertragen werden, hinzufügen.
Die zentrale Vokabelliste kann eine Vielzahl von Datensätzen für jedes Worts umfassen, wobei die Datensätze die Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und die Arbeitsgruppen angeben, die das Wort benötigen.
Die neuen Wörter können automatisch von und zu dem Server übertragen werden.
Die Benutzerprofil-Datenbank enthält Daten für jeden der Benutzer, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung und/oder die Mitgliedschaft in einer Arbeitsgruppe angeben. Wenn diese Daten zur Verfügung stehen, kann jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen werden. Außerdem kann jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhalten.
Darüber hinaus kann jeder der Clients ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher umfassen. Das Hilfsmittel für das Hinzufügen der Wortaussprache kann neue Wörter, die von der Spracherkennungseinheit des Clients erkannt und von dem Server übertragen werden, hinzufügen.
Die zentrale Vokabelliste kann eine Vielzahl von Datensätzen für jedes Wort umfassen, wobei die Datensätze Folgendes beinhalten: Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und Arbeitsgruppen, die das Wort benötigen.
Kurze Beschreibung der Zeichnungen
Die alleinige Figur ist eine Darstellung eines Netzwerksystems mit Sprachwortschatz für eine Spracherkennungsanwendung gemäß den Anordnungen der Erfindung.
Ausführliche Beschreibung der bevorzugten Ausführungsformen
Die alleinige Figur zeigt ein umfassendes System 10, das alle Aspekte der Vokabelunterstützung für Technologien, die sich mit gesprochener Sprache befassen, wie beispielsweise Spracherkennung und Sprachsynthese, abdeckt. Das System umfasst einen Wortaussprache- oder Vokabelserver 12, der über ein Netzwerk 20 mit einer Vielzahl von Wortschatz-Clients 14, 16 und 18 verbunden ist. Das Netzwerk 20 kann ein lokales Netz (Local Area Network, LAN) oder ein weiträumiges Netz (Wide Area Network, WAN) sein. Gemäß den Anordnungen der Erfindung ist der Wortaussprache- oder Vokabelserver 12 ein universeller Aufbewahrungsort für alle bekannten Wörter und die zugehörigen Attribute der gesprochenen Sprache. Neue Wörter werden nach Bedarf von den Netzwerk-Clients erhalten und an diese verteilt.
Der Wortausspracheserver 12 umfasst ein Universalwortschatz-Serverprogramm 22, eine universelle Vokabelliste oder - datenbank 24 und eine Benutzerprofiltabelle 26. Der Wortausspracheserver 12 ist ein mit einem Netzwerk verbundenes Computersystem, auf dem sich die universelle Vokabeldatenbank und das Universalwortschatz-Serverprogramm 22 befinden, das auf Anfragen von Client-Computersystemen, die Spracherkennungs- oder Sprachsyntheseprogramm ausführen, reagiert.
Die universelle Vokabelliste 24 beinhaltet alle dem System bekannten Wörter einschließlich der Schreibweise und der Daten, die angeben, wie das Wort ausgesprochen wird. Dabei bezieht sich der Begriff „universell" auf das gesamte Netzwerk. Somit kann die universelle Vokabelliste auch als zentrale oder Haupt-Vokabelliste betrachtet werden. Die Datensätze für die einzelnen Worteinträge beinhalten die folgenden Informationen: Schreibweise, Phoneme, d.h. Aussprachedaten, eine Liste der Sprachgebrauchsdomänen, Quelle, d.h., von wem das Wort hinzugefügt wurde, sowie Arbeitsgruppe, d.h., welche Benutzer das Wort voraussichtlich verwenden werden.
Das Benutzervokabelprofil 26 ist eine Datenbank mit Daten, die zur Unterstützung des Universalwortschatz-Clientprogramms benötigt werden. Daten zu den Wortgruppen, die ein bestimmter Benutzer verwendet, und zu den Benutzergruppen, zu denen er gehört, werden auf dem Server verwaltet und an die einzelnen Clients übertragen, wenn diese eine Sitzung mit Spracherkennungs- oder TTS-Software beginnen.
Der Begriff „Client" wird dabei für einen Arbeitsplatzrechner verwendet, für den ein Wortausspracheserver zentrale Funktionen ausübt. Als „Benutzer" werden die Personen bezeichnet, die an den Clients arbeiten. Die Benutzerprofiltabelle oder -datenbank 26 kann mit Benutzern verknüpft werden, die z.B. anhand des Namens oder einer Anmeldekennung identifiziert werden können, so dass jedem Benutzer die geeignete Teilgruppe des Wortschatzes bereitgestellt werden kann, unabhängig davon, welcher Arbeitsplatzrechner oder Client gerade genutzt wird. Wenn der Benutzer eines bestimmten Client oder Arbeitsplatzrechners nicht in der Benutzerprofiltabelle enthalten ist, kann die Benutzerprofiltabelle auch mit der Kennung des Client oder Arbeitsplatzrechners verknüpft werden. Alternativ hierzu kann auch eine standardmäßige Teilgruppe für nichtidentifizierte Benutzer definiert werden. Als weitere und derzeit bevorzugte Alternative kann ein nichtidentifizierter Benutzer aufgefordert werden, ausreichend Informationen bereitzustellen, um in der Benutzerprofiltabelle identifiziert werden zu können und danach eine geeignete Teilgruppe der Vokabelliste und geeignete neue Wörter zu erhalten.
Die geeignete Vokabelliste kann sogar über Modem, Satellitenübertragung oder das Internet an einen entfernten Arbeitsplatzrechner übertragen werden, obwohl sofortige und automatische Aktualisierungen dann nur so lange zur Verfügung stehen, wie die Fernverbindung aufrecht erhalten wird. In diesem Zusammenhang steht das Netzwerk 20 auch für Fernverbindungen.
Jeder der Clients 14, 16 und 18 umfasst einen Universalwortschatz-Client 30, eine Spracherkennungseinheit 32, ein Hilfsmittel 34 für das Hinzufügen der Wortaussprache und einen Cachespeicher 36 für eine lokale Vokabelliste zur Speicherung einer persönlich angepassten Teilgruppe der universellen Vokabelliste 24. Zum Zwecke der Veranschaulichung sind die Clients 14 und 16 Mitglieder einer Arbeitsgruppe, die einem Benutzerprofil mit der Bezeichnung A zugewiesen ist. Client 18 ist Mitglied einer Arbeitsgruppe, die einem Benutzerprofil mit der Bezeichnung B zugewiesen ist.
Das Hilfsmittel 34 für das Hinzufügen der Wortaussprache überträgt den einzelnen Clients neu hinzugefügte Wörter über das Netzwerk 20 an den Wortausspracheserver 12, wo die neuen Wörter in die universelle Vokabelliste 24 aufgenommen werden. Das Hilfsmittel 34 für das Hinzufügen der Wortaussprache empfängt außerdem neue Wörter über das Netzwerk 20 von dem Wortausspracheserver 12 und leitet die neuen Wörter an den Cachespeicher 36 für eine lokale Vokabelliste weiter.
Das Universalwortschatz-Clientprogramm 30 ist eine Anwendung, die auf einem Client-System ausgeführt wird, das die im Cachespeicher 36 lokal zwischengespeicherte Teilgruppe der universellen Vokabelliste 24 verwaltet. Wörter, die vom Benutzer und aus der universellen Vokabelliste kommen, werden in den Cachespeicher aufgenommen, während Wörter, deren zulässige Speicherfrist im Cachespeicher abgelaufen ist, gelöscht werden. Der Cachespeicher 36 stellt einen dynamisch optimierten Ersatz für den herkömmlichen, eigenständigen Ausgangswortschatz dar.
Die Programme zur Verwaltung des Cachespeichers 36 verwenden Algorithmen, die bei der Ermittlung der Cachespeicher-Parameter den Netzverkehr, den verfügbaren lokalen Speicherplatz, die Häufigkeit der Verwendung, die Prozessorgeschwindigkeit, die aktuelle Aufgabe des Endbenutzers und die Endbenutzereinstellungen berücksichtigen. Der Cachespeicher kann als optimaler lokaler Wortschatz betrachtet werden. Er ist optimal, weil Fachwörter, von denen bekannt ist, dass der Benutzer sie verwendet, darin enthalten sind, wodurch die Erkennung verbessert wird, und weil gleichzeitig Wörter, von denen bekannt ist, dass sie vom Benutzer nicht verwendet werden, nicht enthalten sind, wodurch sich die erforderliche Verarbeitungszeit für die Durchsuchung des Cachespeichers nach passenden Wörtern verringert.
Die Client-Anwendung sendet Daten zu neu hinzugefügten Wörtern an das Universalwortschatz-Serverprogramm. Standardmäßig können alle Wörter mit der Kennzeichnung „öffentlich", d.h. als für die gemeinsame Nutzung vorgesehen, hinzugefügt werden, wobei ein Benutzer jedoch auch die Möglichkeit hat, Wörter mit der Kennzeichnung „privat" hinzuzufügen, wenn er das aus irgendeinem Grund wünscht.
Ein einfaches Beispiel ist in der Figur dargestellt. Der Client 14 hat ein neues Wort hinzugefügt. Das neue Wort wird über das Netzwerk 20 vom Hilfsmittel 34 für das Hinzufügen der Wortaussprache an den Wortausspracheserver 24 übertragen, wie durch die gestrichelte Pfeillinie 1 dargestellt. Wenn der Client 16 diktiert oder zu einem späteren Zeitpunkt mit dem Diktat beginnt, ruft das Universalwortschatz-Serverprogramm 22 das Benutzerprofil für den Client 16 aus der Benutzerprofiltabelle 26 ab, wie durch die gestrichelte Pfeillinie 2 dargestellt. Das Profil gibt an, dass der Client 16 zur gleichen Arbeitsgruppe gehört wie der Client 14, deutlich gemacht durch die Verwendung des gleichen Profils A. Wenn der Client 16 bereits diktiert, wird das neue Wort dem Client 16 bereitgestellt und in den lokalen Cachespeicher 36 aufgenommen. Wenn der Client 16 erst mit dem Diktat beginnt, wird ihm eine persönlich angepasste Vokabelliste bereitgestellt und im lokalen Cachespeicher 36 gespeichert. Das zuvor vom Client 14 hinzugefügte neue Wort ist enthalten, da sowohl der Benutzer 14 als auch der Benutzer 16 das Profil A verwenden. Beide Fälle sind durch die gestrichelte Pfeillinie 3 dargestellt.
Gemäß den Anordnungen der Erfindung wird eine umfangreiche Datenbank dynamisch und schrittweise durch die Benutzer erweitert und im Laufe der Zeit optimiert, um so die Gesamtsystemleistung zu steigern und die Ressourcen des Computersystems wie Netzbandbreite sowie Datei- und Datenspeicherung mittels Cachespeicherverfahren stabil zu halten.
Bei der vorliegenden Erfindung kann die zentrale Vokabelliste eine Vielzahl von Datensätzen pro Wort umfassen, wobei die Datensätze Folgendes enthalten: Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und die Arbeitsgruppen, die das Wort benötigen.

Claims

Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung, gekennzeichnet durch einen Netzwerkserver (12) und eine Vielzahl von Netzwerk-Clients (14, 16, 18), die über ein Netzwerk (20) miteinander kommunizieren; in dem Server eine zentrale Vokabelliste (24) für erkennbare Wörter; und in jedem der Clients eine Spracherkennungseinheit (32) und ein Cachespeicher (36) für eine lokale Vokabelliste, wobei der Cachespeicher zuvor erkannte Wörter, die von der zentralen Vokabelliste (24) des Servers (12) übertragen wurden, sowie neue Wörter, die von der Spracherkennungseinheit (32) erkannt wurden, enthält, wobei jedes der neuen Wörter von einem beliebigen Client an den Server übertragen und in die zentrale Vokabelliste aufgenommen wird und wobei jedes der neuen Wörter, die in die zentrale Vokabelliste aufgenommen werden, an mindestens einen der Clients übertragen wird, um in den Cachespeicher aufgenommen zu werden.
System nach Anspruch 1, dadurch gekennzeichnet, dass die neuen Wörter automatisch an den Server zurückübertragen werden.
Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung nach Anspruch 1, dadurch gekennzeichnet, dass der Server (12) auch eine Benutzerprofil-Datenbank (26) aufweist, sowie dadurch, dass jedes der neuen Wörter, die in die zentrale Vokabelliste (24) aufgenommen werden, gemäß den Daten in der Benutzerprofil-Datenbank (26) an einen der anderen Clients übertragen wird.
System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die neuen Wörter automatisch von und zu dem Server übertragen werden.
System nach Anspruch 1 oder 3, gekennzeichnet durch eine Benutzerprofil-Datenbank mit Daten für jeden der Benutzer, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung angeben.
System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die Benutzerprofil-Datenbank für jeden der Benutzer Daten enthält, welche die Mitgliedschaft an einer Arbeitsgruppe angeben.
System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen wird.
System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die Benutzerprofil-Datenbank für jeden der Benutzer Daten enthält, die eine Mitgliedschaft in einer Arbeitsgruppe angibt, wobei jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhält.
System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass jeder der Clients außerdem ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter umfasst, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher.
System nach Anspruch 9, dadurch gekennzeichnet, dass das Hilfsmittel für das Hinzufügen der Wortaussprache neue Wörter, die von der Spracherkennungseinheit des Clients erkannt und von dem Server übertragen werden, hinzufügt.