DE69917112T2 - Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems - Google Patents
Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems Download PDFInfo
- Publication number
- DE69917112T2 DE69917112T2 DE69917112T DE69917112T DE69917112T2 DE 69917112 T2 DE69917112 T2 DE 69917112T2 DE 69917112 T DE69917112 T DE 69917112T DE 69917112 T DE69917112 T DE 69917112T DE 69917112 T2 DE69917112 T2 DE 69917112T2
- Authority
- DE
- Germany
- Prior art keywords
- server
- speech recognition
- words
- vocabulary
- new words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Description
- Hintergrund der Erfindung
- 1. Gegenstand der Erfindung
- Diese Erfindung bezieht sich im Allgemeinen auf Spracherkennungsanwendungen und im Besonderen auf ein Verfahren und eine Vorrichtung für die automatische Speicherung, Verfolgung und Verteilung der Aussprache neuer Wörter an die Spracherkennungs-Clients innerhalb eines Netzwerks.
- 2. Beschreibung der verwandten Fachgebiete
- Der Gebrauch gesprochener Sprache mit Computern, wie sie üblicherweise mit der Spracherkennung und Sprachsynthese zusammenhängt, beinhaltet nicht nur das Speichern und Abrufen der Wortschreibweise, sondern auch von anderen, mit Wörtern in Zusammenhang stehenden Daten wie beispielsweise Phoneme, alternative Aussprachemöglichkeiten, Zugehörigkeit zu anderen Wörtern und Sprachbestandteile, z.B. Substantiv, Verb, Adjektiv usw.
- Computersysteme wurden zunächst ausschließlich für die Verarbeitung von geschriebener Sprache entwickelt. Geschriebene Sprache kann für viele Dinge nutzbringend eingesetzt werden und lässt sich sehr viel leichter interpretieren, im Rahmen eines Computersystems darstellen und von diesem reproduzieren, als dies bei gesprochener Sprache der Fall ist. Heutzutage erobern Computersysteme auch den Bereich der gesprochenen Sprache, wobei dies in Form zweier Technologien erfolgt: Spracherkennung und Sprachsynthese. Sprachsynthese wird dabei auch als Text-zu-Sprache (Text-to-Speech, TTS) bezeichnet.
- Bei der Definition der Schritte, die für eine Unterstützung gesprochener Sprache von Computern durchgeführt werden müssen, ist es hilfreich, die gesprochene mit der geschriebenen Sprache zu vergleichen. Die Schnittmenge dieser beiden Formen der Kommunikation wird von Wörtern gebildet. Außerhalb dieser Schnittmenge werden die Wörter auf andere Art und Weise dargestellt als gesprochene Laute oder als geschriebene Buchstaben. Die geschriebene Sprache wird außerhalb der gemeinsamen Schnittmenge auch durch die Zeichensetzung oder durch unterschiedliche Schriftschnitte, z.B. Fettdruck als Ausdruck der Betonung, ergänzt. Die gesprochene Sprache wird außerhalb der gemeinsamen Schnittmenge auf andere Art und Weise ergänzt, z.B. durch Lautstärke, Tonhöhe, Prosodie (Sprechgeschwindigkeit) und Modulation.
- Bei dem Versuch, eine Unterstützung der gesprochenen Sprache durch Computer zu erreichen, wird die gesprochene Sprache typischerweise mittels Spracherkennung in eine Textform umgewandelt und mittels Sprachsynthese wieder in die gesprochene Form gebracht. Dabei macht man sich den erheblich geringeren Bedarf an Systemressourcen für die Speicherung oder Übertragung einer geschriebenen Darstellung im Vergleich zu einer hörbaren Darstellung zunutze. Die Unterschiede zwischen den geschriebenen und gesprochenen Wörtern außerhalb der gemeinsamen Schnittmenge bringen für Spracherkennungsanwendungen jedoch eine Reihe von Problemen mit sich.
- Für Endbenutzer ist es äußerst lästig, Wortaussprachen, die nicht im Ausgangswortschatz der erkennbaren Wörter enthalten sind, hinzufügen zu müssen. Systemaufbaubedingt begegnet der Benutzer diesem Problem in Gestalt eines Sonderfalls eines Worts, das nicht korrekt erkannt wurde. Dabei kann die Erkennung als der Versuch der Spracherkennungseinheit betrachtet werden, das vom Benutzer gesprochene Wort möglichst gut zu erraten. Wenn der Benutzer ein Wort ausspricht, das der Spracherkennungseinheit nicht bekannt ist, rät die Einheit schlicht falsch. Daraufhin muss der Benutzer die Korrektur des Worts veranlassen und ein neues Wort aus einer kurzen Liste geeigneter Alternativen auswählen. Wenn das gesprochene Wort nicht als alternative Auswahl aufgeführt ist, muss der Benutzer das Wort üblicherweise eintippen und es eventuell noch einmal aussprechen. Diese Unannehmlichkeit kann Benutzer dazu verführen, dass sie das eigentlich notwendige Korrekturverfahren übergehen und den korrigierten Text einfach selbst eingeben. Obwohl diese Vorgehensweise zunächst schneller ist, ist es leider dennoch wichtig, dass dem Spracherkennungssystem die Korrektur anhand des richtigen Verfahrens mitgeteilt wird, da nur mit diesen Informationen Wörter hinzugefügt und korrigiert werden können und nur auf diese Weise die künftige Spracherkennungsleistung verbessert werden kann.
- Spracherkennungseinheiten von Spracherkennungsanwendungen sind ganz einfach nicht genau genug, und auch ihr Durchsatz ist aufgrund von Fehl-Erkennungen und der Zeit, die für die Korrektur von Fehl-Erkennungen notwendig ist, mitunter gering.
- Die Korrektur von fehlerhaft erkannten Wörtern ist ein wichtiger Faktor für Messkriterien hinsichtlich der Leistungsfähigkeit von Spracherkennungssoftware, zu denen auch die Anzahl der Wörter pro Minute und die Nutzbarkeit gehören. Mit großen Wortschätzen soll die Anzahl der Korrekturen, die als Folge von nicht im Wortschatz enthaltenen Wörtern notwendig werden, begrenzt werden.
- Bei einem eigenständigen System müssen vom Benutzer hinzufügte Wörter gesichert und von System zu System übertragen werden, wenn ein Benutzer nicht immer an ein und demselben Ort arbeitet oder die Systeme wechselt (z.B. bei einem Wechsel zwischen privatem und Bürocomputer und zwischen tragbarem und Tischcomputer) bzw. einen Computer oder eine Spracherkennungsanwendung oder auch beides aufrüstet. Diese Arbeit ist zeitaufwendig, ermüdend, ihr Nutzen ist nicht sofort offensichtlich, und sie wird daher auch nicht immer erledigt.
- Üblicherweise wird zusammen mit Spracherkennungs- oder - synthesesoftware ein Ausgangswortschatz mit Wörtern einschließlich Aussprachen auf einem Computer installiert. Die Aussprachen werden in ihren Basisformen gespeichert, wobei es sich um Anweisungen bezüglich der Aussprache der Wörter bzw. bezüglich des Klangs handelt. Um einen idealen Ausgangswortschatz für eine gegebene Anwendung zu erstellen, sind viele Faktoren zu berücksichtigen. Die Anzahl der Wörter in einem Ausgangswortschatz wird in der Regel dadurch bestimmt, indem Überlegungen z.B. zum erforderlichen Speicherplatz, zur Häufigkeit, mit der ein Wort vorkommt, zur Gebräuchlichkeit und zur Erkennungsgenauigkeit angestellt und dabei alle Wörter des Startpakets berücksichtigt werden. Die Entwickler von Spracherkennungssystemen installieren üblicherweise einen umfangreichen Wortschatz mit den für die Erkennung notwendigen Daten zur Wortaussprache. Die Erstellung eines derartigen Wortschatzes ist eine ziemlich ermüdende und langwierige Aufgabe. Der Stand der Technik bei der Spracherkennung durch einen vernetzten Arbeitsplatzrechner kann „Specialized language models for speech recognition", IBM Technical Disclosure Bulletin, IBM Corp. New York, Bd. 38, Nr. 2, Seiten 155 bis 157, entnommen werden.
- Zusammenfassung der Erfindung
- Ein Universalwortschatz mit gesprochener Sprache für die Verwendung in einem Netzwerk, der gemäß den Anordnungen der Erfindung entwickelt und verwaltet wird, löst sämtliche Probleme, denen sich der Stand der Technik gegenübersieht. Die Anordnungen der Erfindung automatisieren und optimieren die Speicherung, Verfolgung, gemeinsame Nutzung und Bereitstellung von Vokabeldaten gesprochener Sprache. Wortbezogene Daten zu allen bekannten Wörtern können von einem vernetzten Server bereitgestellt werden. Neue Wörter, die von einem beliebigen Client-Benutzer hinzugefügt werden, werden allen Benutzern zur Verfügung gestellt, so dass nachfolgende Benutzer nicht mehr gezwungen sind, die Daten zu eben diesem neuen Wort selbst bereitzustellen.
- Indem der einzelne Benutzer weniger häufig Aussprachen von Hand hinzufügen muss, steigt die Wahrscheinlichkeit, dass die Benutzer die Verfahren für die Korrektur von Fehlerkennungen so einhalten, dass die Spracherkennungsanwendung neue Wörter lernt, wodurch sich die künftige Spracherkennungsleistung für alle Benutzer verbessert.
- Ein Spracherkennungs- und/oder -synthesesystem bzw. eine entsprechende Anwendung gemäß den Anordnungen der Erfindung macht die Aufnahme eines neuen Wortes durch mehrere Benutzer überflüssig. Nur noch der erste Benutzer eines neuen Worts muss dieses neue Wort hinzufügen. Während des Erkennungsvorgangs bzw. während der Ermittlung von Alternativen kann das System einen Server mit einem Universalwortschatz nach einem neuen Wort abfragen und muss somit den Benutzer nicht zur Bereitstellung der Daten auffordern.
- Zu den Vorteilen eines hochgradig optimierten, in einem Cachespeicher zwischengespeicherten Universalwortschatzes gehören eine bessere Genauigkeit und ein höherer Durchsatz bei der Spracherkennung, wobei sich dies einfach darauf zurückführen lässt, dass die gesprochenen Wörter mit einer höheren Trefferwahrscheinlichkeit bekannt sind und präzise erkannt werden.
- Die Anforderungen für die Installation und Verwaltung eines umfangreichen Wortschatzes auf jedem einzelnen System wird vorteilhaft verringert. Es ist für den Benutzer nachvollziehbar, dass einige Wörter auf einem Server gespeichert sind, und im Laufe der Systemnutzung erhöht die Ablage im Cachespeicher die Trefferquote, so dass sowohl die Anzahl der auf einem Client gespeicherten Wörter verringert als auch die Verarbeitungsgeschwindigkeit generell erhöht wird.
- Die Notwendigkeit, die von einem Benutzer hinzugefügten Wörter zu verwalten und aktualisierte Vokabellisten einzeln zu sichern und zu übertragen, wird durch eine zentral durchgeführte Datensicherung vorteilhaft beseitigt.
- Die mühsame Arbeit, den am besten geeigneten Ausgangswortschatz im Vorhinein sorgfältig auszuwählen, entfällt vorteilhafterweise, da Fachwörter wirksam und gemeinsam von den im Netzwerk zusammengeschlossenen Benutzern hinzugefügt werden. Dabei wird der Wortschatz für alle Benutzer bei Bedarf sogar automatisch auf den neuesten Stand gebracht, ohne dass hierfür ein Benutzereingriff notwendig wäre.
- Ein Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung gemäß einer Anordnung der Erfindung nach Anspruch 1 umfasst: einen Netzwerkserver und eine Vielzahl von Netzwerk-Clients, die über ein Netzwerk miteinander kommunizieren; in dem Server eine zentrale Vokabelliste für erkennbare Wörter; in jedem der Clients eine Spracherkennungseinheit und ein Cachespeicher für eine lokale Vokabelliste, wobei der Cachespeicher zuvor erkannte Wörter, die von der zentralen Vokabelliste des Servers übertragen wurden, sowie neue Wörter, die von der Spracherkennungseinheit erkannt wurden, enthält, wobei jedes der neuen Wörter von einem beliebigen Client an den Server übertragen und in die zentrale Vokabelliste aufgenommen wird und wobei jedes der neuen Wörter, die in die zentrale Vokabelliste aufgenommen werden, an mindestens einen der Clients übertragen wird, um in den Cachespeicher aufgenommen zu werden.
- Die neuen Wörter können automatisch von den Clients an den Server übertragen werden und können ebenfalls automatisch von dem Server an einen oder mehrere Clients übertragen werden.
- Der Server kann außerdem eine Benutzerprofil-Datenbank mit Daten für jeden der Benutzer umfassen, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung und/oder die Mitgliedschaft in einer Arbeitsgruppe angeben. Wenn diese Daten zur Verfügung stehen, kann jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen werden. Außerdem kann jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhalten.
- Ferner kann jeder der Clients ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher umfassen. Das Hilfsmittel für das Hinzufügen der Wortaussprache kann neue Wörter, die von der Spracherkennungseinheit des Client erkannt und von dem Server übertragen werden, hinzufügen.
- Die zentrale Vokabelliste kann eine Vielzahl von Datensätzen für jedes Worts umfassen, wobei die Datensätze die Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und die Arbeitsgruppen angeben, die das Wort benötigen.
- Die neuen Wörter können automatisch von und zu dem Server übertragen werden.
- Die Benutzerprofil-Datenbank enthält Daten für jeden der Benutzer, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung und/oder die Mitgliedschaft in einer Arbeitsgruppe angeben. Wenn diese Daten zur Verfügung stehen, kann jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen werden. Außerdem kann jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhalten.
- Darüber hinaus kann jeder der Clients ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher umfassen. Das Hilfsmittel für das Hinzufügen der Wortaussprache kann neue Wörter, die von der Spracherkennungseinheit des Clients erkannt und von dem Server übertragen werden, hinzufügen.
- Die zentrale Vokabelliste kann eine Vielzahl von Datensätzen für jedes Wort umfassen, wobei die Datensätze Folgendes beinhalten: Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und Arbeitsgruppen, die das Wort benötigen.
- Kurze Beschreibung der Zeichnungen
- Die alleinige Figur ist eine Darstellung eines Netzwerksystems mit Sprachwortschatz für eine Spracherkennungsanwendung gemäß den Anordnungen der Erfindung.
- Ausführliche Beschreibung der bevorzugten Ausführungsformen
- Die alleinige Figur zeigt ein umfassendes System
10 , das alle Aspekte der Vokabelunterstützung für Technologien, die sich mit gesprochener Sprache befassen, wie beispielsweise Spracherkennung und Sprachsynthese, abdeckt. Das System umfasst einen Wortaussprache- oder Vokabelserver12 , der über ein Netzwerk20 mit einer Vielzahl von Wortschatz-Clients14 ,16 und18 verbunden ist. Das Netzwerk20 kann ein lokales Netz (Local Area Network, LAN) oder ein weiträumiges Netz (Wide Area Network, WAN) sein. Gemäß den Anordnungen der Erfindung ist der Wortaussprache- oder Vokabelserver12 ein universeller Aufbewahrungsort für alle bekannten Wörter und die zugehörigen Attribute der gesprochenen Sprache. Neue Wörter werden nach Bedarf von den Netzwerk-Clients erhalten und an diese verteilt. - Der Wortausspracheserver
12 umfasst ein Universalwortschatz-Serverprogramm22 , eine universelle Vokabelliste oder - datenbank24 und eine Benutzerprofiltabelle26 . Der Wortausspracheserver12 ist ein mit einem Netzwerk verbundenes Computersystem, auf dem sich die universelle Vokabeldatenbank und das Universalwortschatz-Serverprogramm22 befinden, das auf Anfragen von Client-Computersystemen, die Spracherkennungs- oder Sprachsyntheseprogramm ausführen, reagiert. - Die universelle Vokabelliste
24 beinhaltet alle dem System bekannten Wörter einschließlich der Schreibweise und der Daten, die angeben, wie das Wort ausgesprochen wird. Dabei bezieht sich der Begriff „universell" auf das gesamte Netzwerk. Somit kann die universelle Vokabelliste auch als zentrale oder Haupt-Vokabelliste betrachtet werden. Die Datensätze für die einzelnen Worteinträge beinhalten die folgenden Informationen: Schreibweise, Phoneme, d.h. Aussprachedaten, eine Liste der Sprachgebrauchsdomänen, Quelle, d.h., von wem das Wort hinzugefügt wurde, sowie Arbeitsgruppe, d.h., welche Benutzer das Wort voraussichtlich verwenden werden. - Das Benutzervokabelprofil
26 ist eine Datenbank mit Daten, die zur Unterstützung des Universalwortschatz-Clientprogramms benötigt werden. Daten zu den Wortgruppen, die ein bestimmter Benutzer verwendet, und zu den Benutzergruppen, zu denen er gehört, werden auf dem Server verwaltet und an die einzelnen Clients übertragen, wenn diese eine Sitzung mit Spracherkennungs- oder TTS-Software beginnen. - Der Begriff „Client" wird dabei für einen Arbeitsplatzrechner verwendet, für den ein Wortausspracheserver zentrale Funktionen ausübt. Als „Benutzer" werden die Personen bezeichnet, die an den Clients arbeiten. Die Benutzerprofiltabelle oder -datenbank
26 kann mit Benutzern verknüpft werden, die z.B. anhand des Namens oder einer Anmeldekennung identifiziert werden können, so dass jedem Benutzer die geeignete Teilgruppe des Wortschatzes bereitgestellt werden kann, unabhängig davon, welcher Arbeitsplatzrechner oder Client gerade genutzt wird. Wenn der Benutzer eines bestimmten Client oder Arbeitsplatzrechners nicht in der Benutzerprofiltabelle enthalten ist, kann die Benutzerprofiltabelle auch mit der Kennung des Client oder Arbeitsplatzrechners verknüpft werden. Alternativ hierzu kann auch eine standardmäßige Teilgruppe für nichtidentifizierte Benutzer definiert werden. Als weitere und derzeit bevorzugte Alternative kann ein nichtidentifizierter Benutzer aufgefordert werden, ausreichend Informationen bereitzustellen, um in der Benutzerprofiltabelle identifiziert werden zu können und danach eine geeignete Teilgruppe der Vokabelliste und geeignete neue Wörter zu erhalten. - Die geeignete Vokabelliste kann sogar über Modem, Satellitenübertragung oder das Internet an einen entfernten Arbeitsplatzrechner übertragen werden, obwohl sofortige und automatische Aktualisierungen dann nur so lange zur Verfügung stehen, wie die Fernverbindung aufrecht erhalten wird. In diesem Zusammenhang steht das Netzwerk
20 auch für Fernverbindungen. - Jeder der Clients
14 ,16 und18 umfasst einen Universalwortschatz-Client30 , eine Spracherkennungseinheit32 , ein Hilfsmittel34 für das Hinzufügen der Wortaussprache und einen Cachespeicher36 für eine lokale Vokabelliste zur Speicherung einer persönlich angepassten Teilgruppe der universellen Vokabelliste24 . Zum Zwecke der Veranschaulichung sind die Clients14 und16 Mitglieder einer Arbeitsgruppe, die einem Benutzerprofil mit der Bezeichnung A zugewiesen ist. Client18 ist Mitglied einer Arbeitsgruppe, die einem Benutzerprofil mit der Bezeichnung B zugewiesen ist. - Das Hilfsmittel
34 für das Hinzufügen der Wortaussprache überträgt den einzelnen Clients neu hinzugefügte Wörter über das Netzwerk20 an den Wortausspracheserver12 , wo die neuen Wörter in die universelle Vokabelliste24 aufgenommen werden. Das Hilfsmittel34 für das Hinzufügen der Wortaussprache empfängt außerdem neue Wörter über das Netzwerk20 von dem Wortausspracheserver12 und leitet die neuen Wörter an den Cachespeicher36 für eine lokale Vokabelliste weiter. - Das Universalwortschatz-Clientprogramm
30 ist eine Anwendung, die auf einem Client-System ausgeführt wird, das die im Cachespeicher36 lokal zwischengespeicherte Teilgruppe der universellen Vokabelliste24 verwaltet. Wörter, die vom Benutzer und aus der universellen Vokabelliste kommen, werden in den Cachespeicher aufgenommen, während Wörter, deren zulässige Speicherfrist im Cachespeicher abgelaufen ist, gelöscht werden. Der Cachespeicher36 stellt einen dynamisch optimierten Ersatz für den herkömmlichen, eigenständigen Ausgangswortschatz dar. - Die Programme zur Verwaltung des Cachespeichers
36 verwenden Algorithmen, die bei der Ermittlung der Cachespeicher-Parameter den Netzverkehr, den verfügbaren lokalen Speicherplatz, die Häufigkeit der Verwendung, die Prozessorgeschwindigkeit, die aktuelle Aufgabe des Endbenutzers und die Endbenutzereinstellungen berücksichtigen. Der Cachespeicher kann als optimaler lokaler Wortschatz betrachtet werden. Er ist optimal, weil Fachwörter, von denen bekannt ist, dass der Benutzer sie verwendet, darin enthalten sind, wodurch die Erkennung verbessert wird, und weil gleichzeitig Wörter, von denen bekannt ist, dass sie vom Benutzer nicht verwendet werden, nicht enthalten sind, wodurch sich die erforderliche Verarbeitungszeit für die Durchsuchung des Cachespeichers nach passenden Wörtern verringert. - Die Client-Anwendung sendet Daten zu neu hinzugefügten Wörtern an das Universalwortschatz-Serverprogramm. Standardmäßig können alle Wörter mit der Kennzeichnung „öffentlich", d.h. als für die gemeinsame Nutzung vorgesehen, hinzugefügt werden, wobei ein Benutzer jedoch auch die Möglichkeit hat, Wörter mit der Kennzeichnung „privat" hinzuzufügen, wenn er das aus irgendeinem Grund wünscht.
- Ein einfaches Beispiel ist in der Figur dargestellt. Der Client
14 hat ein neues Wort hinzugefügt. Das neue Wort wird über das Netzwerk20 vom Hilfsmittel34 für das Hinzufügen der Wortaussprache an den Wortausspracheserver24 übertragen, wie durch die gestrichelte Pfeillinie1 dargestellt. Wenn der Client16 diktiert oder zu einem späteren Zeitpunkt mit dem Diktat beginnt, ruft das Universalwortschatz-Serverprogramm22 das Benutzerprofil für den Client16 aus der Benutzerprofiltabelle26 ab, wie durch die gestrichelte Pfeillinie2 dargestellt. Das Profil gibt an, dass der Client16 zur gleichen Arbeitsgruppe gehört wie der Client14 , deutlich gemacht durch die Verwendung des gleichen Profils A. Wenn der Client16 bereits diktiert, wird das neue Wort dem Client16 bereitgestellt und in den lokalen Cachespeicher36 aufgenommen. Wenn der Client16 erst mit dem Diktat beginnt, wird ihm eine persönlich angepasste Vokabelliste bereitgestellt und im lokalen Cachespeicher36 gespeichert. Das zuvor vom Client14 hinzugefügte neue Wort ist enthalten, da sowohl der Benutzer14 als auch der Benutzer16 das Profil A verwenden. Beide Fälle sind durch die gestrichelte Pfeillinie3 dargestellt. - Gemäß den Anordnungen der Erfindung wird eine umfangreiche Datenbank dynamisch und schrittweise durch die Benutzer erweitert und im Laufe der Zeit optimiert, um so die Gesamtsystemleistung zu steigern und die Ressourcen des Computersystems wie Netzbandbreite sowie Datei- und Datenspeicherung mittels Cachespeicherverfahren stabil zu halten.
- Bei der vorliegenden Erfindung kann die zentrale Vokabelliste eine Vielzahl von Datensätzen pro Wort umfassen, wobei die Datensätze Folgendes enthalten: Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und die Arbeitsgruppen, die das Wort benötigen.
Claims (10)
- Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung, gekennzeichnet durch einen Netzwerkserver (
12 ) und eine Vielzahl von Netzwerk-Clients (14 ,16 ,18 ), die über ein Netzwerk (20 ) miteinander kommunizieren; in dem Server eine zentrale Vokabelliste (24 ) für erkennbare Wörter; und in jedem der Clients eine Spracherkennungseinheit (32 ) und ein Cachespeicher (36 ) für eine lokale Vokabelliste, wobei der Cachespeicher zuvor erkannte Wörter, die von der zentralen Vokabelliste (24 ) des Servers (12 ) übertragen wurden, sowie neue Wörter, die von der Spracherkennungseinheit (32 ) erkannt wurden, enthält, wobei jedes der neuen Wörter von einem beliebigen Client an den Server übertragen und in die zentrale Vokabelliste aufgenommen wird und wobei jedes der neuen Wörter, die in die zentrale Vokabelliste aufgenommen werden, an mindestens einen der Clients übertragen wird, um in den Cachespeicher aufgenommen zu werden. - System nach Anspruch 1, dadurch gekennzeichnet, dass die neuen Wörter automatisch an den Server zurückübertragen werden.
- Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung nach Anspruch 1, dadurch gekennzeichnet, dass der Server (
12 ) auch eine Benutzerprofil-Datenbank (26 ) aufweist, sowie dadurch, dass jedes der neuen Wörter, die in die zentrale Vokabelliste (24 ) aufgenommen werden, gemäß den Daten in der Benutzerprofil-Datenbank (26 ) an einen der anderen Clients übertragen wird. - System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die neuen Wörter automatisch von und zu dem Server übertragen werden.
- System nach Anspruch 1 oder 3, gekennzeichnet durch eine Benutzerprofil-Datenbank mit Daten für jeden der Benutzer, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung angeben.
- System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die Benutzerprofil-Datenbank für jeden der Benutzer Daten enthält, welche die Mitgliedschaft an einer Arbeitsgruppe angeben.
- System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen wird.
- System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die Benutzerprofil-Datenbank für jeden der Benutzer Daten enthält, die eine Mitgliedschaft in einer Arbeitsgruppe angibt, wobei jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhält.
- System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass jeder der Clients außerdem ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter umfasst, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher.
- System nach Anspruch 9, dadurch gekennzeichnet, dass das Hilfsmittel für das Hinzufügen der Wortaussprache neue Wörter, die von der Spracherkennungseinheit des Clients erkannt und von dem Server übertragen werden, hinzufügt.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US49736 | 1998-03-27 | ||
US09/049,736 US6195641B1 (en) | 1998-03-27 | 1998-03-27 | Network universal spoken language vocabulary |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69917112D1 DE69917112D1 (de) | 2004-06-17 |
DE69917112T2 true DE69917112T2 (de) | 2006-03-30 |
Family
ID=21961423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69917112T Expired - Lifetime DE69917112T2 (de) | 1998-03-27 | 1999-02-15 | Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems |
Country Status (6)
Country | Link |
---|---|
US (1) | US6195641B1 (de) |
EP (1) | EP0945851B1 (de) |
JP (1) | JP3519015B2 (de) |
KR (1) | KR100324079B1 (de) |
DE (1) | DE69917112T2 (de) |
TW (1) | TW405109B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013216427A1 (de) * | 2013-08-20 | 2015-03-12 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
DE102013219649A1 (de) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher |
Families Citing this family (230)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6412011B1 (en) * | 1998-09-14 | 2002-06-25 | At&T Corp. | Method and apparatus to enhance a multicast information stream in a communication network |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US6823307B1 (en) * | 1998-12-21 | 2004-11-23 | Koninklijke Philips Electronics N.V. | Language model based on the speech recognition history |
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
GB2356318A (en) * | 1999-09-04 | 2001-05-16 | Marconi Comm Ltd | Server with voice recognition |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6741963B1 (en) * | 2000-06-21 | 2004-05-25 | International Business Machines Corporation | Method of managing a speech cache |
US7024454B1 (en) * | 2000-08-25 | 2006-04-04 | Practicefirst.Com L.L.C. | Work sharing and communicating in a web site system |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
EP1215661A1 (de) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Sprachgesteuertes tragbares Endgerät |
JP3838029B2 (ja) * | 2000-12-18 | 2006-10-25 | セイコーエプソン株式会社 | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム |
JP4109414B2 (ja) * | 2000-12-18 | 2008-07-02 | セイコーエプソン株式会社 | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
US20020091515A1 (en) * | 2001-01-05 | 2002-07-11 | Harinath Garudadri | System and method for voice recognition in a distributed voice recognition system |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7970648B2 (en) * | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US7698228B2 (en) * | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US20030009334A1 (en) * | 2001-07-03 | 2003-01-09 | International Business Machines Corporation | Speech processing board for high volume speech processing applications |
US7920682B2 (en) * | 2001-08-21 | 2011-04-05 | Byrne William J | Dynamic interactive voice interface |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
US6785654B2 (en) | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
JP4017887B2 (ja) * | 2002-02-28 | 2007-12-05 | 富士通株式会社 | 音声認識システムおよび音声ファイル記録システム |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7236931B2 (en) | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US8959019B2 (en) * | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
JP2004212641A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 音声入力システム及び音声入力システムを備えた端末装置 |
US20050060156A1 (en) * | 2003-09-17 | 2005-03-17 | Corrigan Gerald E. | Speech synthesis |
US8150697B2 (en) * | 2003-09-30 | 2012-04-03 | Nuance Communications, Inc. | Autonomous systems and network management using speech |
US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
EP1600942B1 (de) * | 2004-05-21 | 2009-11-18 | Harman Becker Automotive Systems GmbH | Automatische Erzeugung einer Wortaussprache für die Spracherkennung |
JP4705023B2 (ja) * | 2004-06-10 | 2011-06-22 | パナソニック株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US20060095266A1 (en) * | 2004-11-01 | 2006-05-04 | Mca Nulty Megan | Roaming user profiles for speech recognition |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
KR101221172B1 (ko) * | 2005-02-03 | 2013-01-11 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치 |
EP1859608A1 (de) * | 2005-03-16 | 2007-11-28 | France Telecom S.A. | Verfahren zum automatischen produzieren von sprach-labels in einem adressenbuch |
US7542904B2 (en) | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
US8635073B2 (en) * | 2005-09-14 | 2014-01-21 | At&T Intellectual Property I, L.P. | Wireless multimodal voice browser for wireline-based IPTV services |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
EP1858005A1 (de) * | 2006-05-19 | 2007-11-21 | Texthelp Systems Limited | Servergenerierter Sprachstrom mit synchronisierter Hervorhebung |
US20090204392A1 (en) * | 2006-07-13 | 2009-08-13 | Nec Corporation | Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
JP4715704B2 (ja) * | 2006-09-29 | 2011-07-06 | 富士通株式会社 | 音声認識装置、および音声認識プログラム |
US20080082316A1 (en) * | 2006-09-30 | 2008-04-03 | Ms. Chun Yu Tsui | Method and System for Generating, Rating, and Storing a Pronunciation Corpus |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
WO2008114708A1 (ja) * | 2007-03-14 | 2008-09-25 | Nec Corporation | 音声認識システム、音声認識方法、および音声認識処理プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
TWI336048B (en) * | 2007-05-11 | 2011-01-11 | Delta Electronics Inc | Input system for mobile search and method therefor |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) * | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
JP4962416B2 (ja) * | 2008-06-03 | 2012-06-27 | 日本電気株式会社 | 音声認識システム |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) * | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) * | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
JP5558284B2 (ja) * | 2010-09-15 | 2014-07-23 | 株式会社Nttドコモ | 音声認識システム、音声認識方法、および音声認識プログラム |
US20120078635A1 (en) * | 2010-09-24 | 2012-03-29 | Apple Inc. | Voice control system |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8930194B2 (en) | 2011-01-07 | 2015-01-06 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
EP2678861B1 (de) | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridisierte client-server-spracherkennung |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
CN104769668B (zh) | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
US20140136210A1 (en) * | 2012-11-14 | 2014-05-15 | At&T Intellectual Property I, L.P. | System and method for robust personalization of speech recognition |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN105264524B (zh) | 2013-06-09 | 2019-08-02 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US9218804B2 (en) * | 2013-09-12 | 2015-12-22 | At&T Intellectual Property I, L.P. | System and method for distributed voice models across cloud and device for embedded text-to-speech |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
EP3149728B1 (de) | 2014-05-30 | 2019-01-16 | Apple Inc. | Eingabeverfahren durch einzelne äusserung mit mehreren befehlen |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
KR102325724B1 (ko) * | 2015-02-28 | 2021-11-15 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
DE102015211101A1 (de) * | 2015-06-17 | 2016-12-22 | Volkswagen Aktiengesellschaft | Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server |
GB201511887D0 (en) | 2015-07-07 | 2015-08-19 | Touchtype Ltd | Improved artificial neural network for language modelling and prediction |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10535343B2 (en) | 2016-05-10 | 2020-01-14 | Google Llc | Implementations for voice assistant on devices |
EP3757753A1 (de) | 2016-05-13 | 2020-12-30 | Google LLC | Initierung durch spracheingabe das abspielen von medieninhalten |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11205110B2 (en) | 2016-10-24 | 2021-12-21 | Microsoft Technology Licensing, Llc | Device/server deployment of neural network data entry system |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
JP6833203B2 (ja) * | 2017-02-15 | 2021-02-24 | フォルシアクラリオン・エレクトロニクス株式会社 | 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
JP6883471B2 (ja) * | 2017-05-11 | 2021-06-09 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置 |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10515637B1 (en) * | 2017-09-19 | 2019-12-24 | Amazon Technologies, Inc. | Dynamic speech processing |
US11170762B2 (en) | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
JP2021156907A (ja) * | 2018-06-15 | 2021-10-07 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
US11552966B2 (en) | 2020-09-25 | 2023-01-10 | International Business Machines Corporation | Generating and mutually maturing a knowledge corpus |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8702910D0 (en) * | 1987-02-10 | 1987-03-18 | British Telecomm | Multi-user speech recognition system |
JP2989211B2 (ja) * | 1990-03-26 | 1999-12-13 | 株式会社リコー | 音声認識装置における辞書制御方式 |
US5165095A (en) | 1990-09-28 | 1992-11-17 | Texas Instruments Incorporated | Voice telephone dialing |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
US5774628A (en) * | 1995-04-10 | 1998-06-30 | Texas Instruments Incorporated | Speaker-independent dynamic vocabulary and grammar in speech recognition |
US5765132A (en) * | 1995-10-26 | 1998-06-09 | Dragon Systems, Inc. | Building speech models for new words in a multi-word utterance |
US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
US5819220A (en) * | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
-
1998
- 1998-03-27 US US09/049,736 patent/US6195641B1/en not_active Expired - Lifetime
-
1999
- 1999-02-09 TW TW088101967A patent/TW405109B/zh active
- 1999-02-15 EP EP99301097A patent/EP0945851B1/de not_active Expired - Lifetime
- 1999-02-15 DE DE69917112T patent/DE69917112T2/de not_active Expired - Lifetime
- 1999-03-15 KR KR1019990008566A patent/KR100324079B1/ko not_active IP Right Cessation
- 1999-03-24 JP JP07907299A patent/JP3519015B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013216427A1 (de) * | 2013-08-20 | 2015-03-12 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
DE102013216427B4 (de) | 2013-08-20 | 2023-02-02 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
DE102013219649A1 (de) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher |
Also Published As
Publication number | Publication date |
---|---|
TW405109B (en) | 2000-09-11 |
EP0945851A2 (de) | 1999-09-29 |
JP3519015B2 (ja) | 2004-04-12 |
JPH11327583A (ja) | 1999-11-26 |
US6195641B1 (en) | 2001-02-27 |
EP0945851A3 (de) | 2000-01-12 |
KR19990077872A (ko) | 1999-10-25 |
KR100324079B1 (ko) | 2002-02-16 |
EP0945851B1 (de) | 2004-05-12 |
DE69917112D1 (de) | 2004-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69917112T2 (de) | Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE102016125508B4 (de) | Auffindbarkeitssystem für Sprachaktionen | |
DE69814589T2 (de) | Spracherkennung unter verwendung mehrerer spracherkenner | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
EP0802522B1 (de) | Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE60033733T2 (de) | Datenbankabfragesystem basierend auf Spracherkennung | |
DE60005326T2 (de) | Erkennungseinheiten mit komplementären sprachmodellen | |
DE60032193T2 (de) | Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache | |
DE69737987T2 (de) | Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
DE112014002819B4 (de) | System und Verfahren zur Erkennung von Sprache | |
DE4015905C2 (de) | Sprachanalyseeinrichtung, -verfahren und -programm | |
DE112019001533T5 (de) | Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache | |
EP1071075B1 (de) | Verfahren und Vorrichtung zur Eingabe von Daten | |
DE112015003521T5 (de) | Konversationsagenten | |
DE102016125594A1 (de) | Automatisch augmentierende Nachrichtenaustauschthread basierend auf der Nachrichtenklassifizierung | |
DE102006006069A1 (de) | Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon | |
DE60123153T2 (de) | Sprachgesteuertes Browsersystem | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
DE102015211101A1 (de) | Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server | |
EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
EP1282897A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8332 | No legal effect for de | ||
8370 | Indication of lapse of patent is to be deleted | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN |