DE69917112T2 - Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems - Google Patents

Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems Download PDF

Info

Publication number
DE69917112T2
DE69917112T2 DE69917112T DE69917112T DE69917112T2 DE 69917112 T2 DE69917112 T2 DE 69917112T2 DE 69917112 T DE69917112 T DE 69917112T DE 69917112 T DE69917112 T DE 69917112T DE 69917112 T2 DE69917112 T2 DE 69917112T2
Authority
DE
Germany
Prior art keywords
server
speech recognition
words
vocabulary
new words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69917112T
Other languages
English (en)
Other versions
DE69917112D1 (de
Inventor
Keith Coral Springs Loring
Paritosh D. Deerfield Beach Patel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69917112D1 publication Critical patent/DE69917112D1/de
Publication of DE69917112T2 publication Critical patent/DE69917112T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Description

  • Hintergrund der Erfindung
  • 1. Gegenstand der Erfindung
  • Diese Erfindung bezieht sich im Allgemeinen auf Spracherkennungsanwendungen und im Besonderen auf ein Verfahren und eine Vorrichtung für die automatische Speicherung, Verfolgung und Verteilung der Aussprache neuer Wörter an die Spracherkennungs-Clients innerhalb eines Netzwerks.
  • 2. Beschreibung der verwandten Fachgebiete
  • Der Gebrauch gesprochener Sprache mit Computern, wie sie üblicherweise mit der Spracherkennung und Sprachsynthese zusammenhängt, beinhaltet nicht nur das Speichern und Abrufen der Wortschreibweise, sondern auch von anderen, mit Wörtern in Zusammenhang stehenden Daten wie beispielsweise Phoneme, alternative Aussprachemöglichkeiten, Zugehörigkeit zu anderen Wörtern und Sprachbestandteile, z.B. Substantiv, Verb, Adjektiv usw.
  • Computersysteme wurden zunächst ausschließlich für die Verarbeitung von geschriebener Sprache entwickelt. Geschriebene Sprache kann für viele Dinge nutzbringend eingesetzt werden und lässt sich sehr viel leichter interpretieren, im Rahmen eines Computersystems darstellen und von diesem reproduzieren, als dies bei gesprochener Sprache der Fall ist. Heutzutage erobern Computersysteme auch den Bereich der gesprochenen Sprache, wobei dies in Form zweier Technologien erfolgt: Spracherkennung und Sprachsynthese. Sprachsynthese wird dabei auch als Text-zu-Sprache (Text-to-Speech, TTS) bezeichnet.
  • Bei der Definition der Schritte, die für eine Unterstützung gesprochener Sprache von Computern durchgeführt werden müssen, ist es hilfreich, die gesprochene mit der geschriebenen Sprache zu vergleichen. Die Schnittmenge dieser beiden Formen der Kommunikation wird von Wörtern gebildet. Außerhalb dieser Schnittmenge werden die Wörter auf andere Art und Weise dargestellt als gesprochene Laute oder als geschriebene Buchstaben. Die geschriebene Sprache wird außerhalb der gemeinsamen Schnittmenge auch durch die Zeichensetzung oder durch unterschiedliche Schriftschnitte, z.B. Fettdruck als Ausdruck der Betonung, ergänzt. Die gesprochene Sprache wird außerhalb der gemeinsamen Schnittmenge auf andere Art und Weise ergänzt, z.B. durch Lautstärke, Tonhöhe, Prosodie (Sprechgeschwindigkeit) und Modulation.
  • Bei dem Versuch, eine Unterstützung der gesprochenen Sprache durch Computer zu erreichen, wird die gesprochene Sprache typischerweise mittels Spracherkennung in eine Textform umgewandelt und mittels Sprachsynthese wieder in die gesprochene Form gebracht. Dabei macht man sich den erheblich geringeren Bedarf an Systemressourcen für die Speicherung oder Übertragung einer geschriebenen Darstellung im Vergleich zu einer hörbaren Darstellung zunutze. Die Unterschiede zwischen den geschriebenen und gesprochenen Wörtern außerhalb der gemeinsamen Schnittmenge bringen für Spracherkennungsanwendungen jedoch eine Reihe von Problemen mit sich.
  • Für Endbenutzer ist es äußerst lästig, Wortaussprachen, die nicht im Ausgangswortschatz der erkennbaren Wörter enthalten sind, hinzufügen zu müssen. Systemaufbaubedingt begegnet der Benutzer diesem Problem in Gestalt eines Sonderfalls eines Worts, das nicht korrekt erkannt wurde. Dabei kann die Erkennung als der Versuch der Spracherkennungseinheit betrachtet werden, das vom Benutzer gesprochene Wort möglichst gut zu erraten. Wenn der Benutzer ein Wort ausspricht, das der Spracherkennungseinheit nicht bekannt ist, rät die Einheit schlicht falsch. Daraufhin muss der Benutzer die Korrektur des Worts veranlassen und ein neues Wort aus einer kurzen Liste geeigneter Alternativen auswählen. Wenn das gesprochene Wort nicht als alternative Auswahl aufgeführt ist, muss der Benutzer das Wort üblicherweise eintippen und es eventuell noch einmal aussprechen. Diese Unannehmlichkeit kann Benutzer dazu verführen, dass sie das eigentlich notwendige Korrekturverfahren übergehen und den korrigierten Text einfach selbst eingeben. Obwohl diese Vorgehensweise zunächst schneller ist, ist es leider dennoch wichtig, dass dem Spracherkennungssystem die Korrektur anhand des richtigen Verfahrens mitgeteilt wird, da nur mit diesen Informationen Wörter hinzugefügt und korrigiert werden können und nur auf diese Weise die künftige Spracherkennungsleistung verbessert werden kann.
  • Spracherkennungseinheiten von Spracherkennungsanwendungen sind ganz einfach nicht genau genug, und auch ihr Durchsatz ist aufgrund von Fehl-Erkennungen und der Zeit, die für die Korrektur von Fehl-Erkennungen notwendig ist, mitunter gering.
  • Die Korrektur von fehlerhaft erkannten Wörtern ist ein wichtiger Faktor für Messkriterien hinsichtlich der Leistungsfähigkeit von Spracherkennungssoftware, zu denen auch die Anzahl der Wörter pro Minute und die Nutzbarkeit gehören. Mit großen Wortschätzen soll die Anzahl der Korrekturen, die als Folge von nicht im Wortschatz enthaltenen Wörtern notwendig werden, begrenzt werden.
  • Bei einem eigenständigen System müssen vom Benutzer hinzufügte Wörter gesichert und von System zu System übertragen werden, wenn ein Benutzer nicht immer an ein und demselben Ort arbeitet oder die Systeme wechselt (z.B. bei einem Wechsel zwischen privatem und Bürocomputer und zwischen tragbarem und Tischcomputer) bzw. einen Computer oder eine Spracherkennungsanwendung oder auch beides aufrüstet. Diese Arbeit ist zeitaufwendig, ermüdend, ihr Nutzen ist nicht sofort offensichtlich, und sie wird daher auch nicht immer erledigt.
  • Üblicherweise wird zusammen mit Spracherkennungs- oder - synthesesoftware ein Ausgangswortschatz mit Wörtern einschließlich Aussprachen auf einem Computer installiert. Die Aussprachen werden in ihren Basisformen gespeichert, wobei es sich um Anweisungen bezüglich der Aussprache der Wörter bzw. bezüglich des Klangs handelt. Um einen idealen Ausgangswortschatz für eine gegebene Anwendung zu erstellen, sind viele Faktoren zu berücksichtigen. Die Anzahl der Wörter in einem Ausgangswortschatz wird in der Regel dadurch bestimmt, indem Überlegungen z.B. zum erforderlichen Speicherplatz, zur Häufigkeit, mit der ein Wort vorkommt, zur Gebräuchlichkeit und zur Erkennungsgenauigkeit angestellt und dabei alle Wörter des Startpakets berücksichtigt werden. Die Entwickler von Spracherkennungssystemen installieren üblicherweise einen umfangreichen Wortschatz mit den für die Erkennung notwendigen Daten zur Wortaussprache. Die Erstellung eines derartigen Wortschatzes ist eine ziemlich ermüdende und langwierige Aufgabe. Der Stand der Technik bei der Spracherkennung durch einen vernetzten Arbeitsplatzrechner kann „Specialized language models for speech recognition", IBM Technical Disclosure Bulletin, IBM Corp. New York, Bd. 38, Nr. 2, Seiten 155 bis 157, entnommen werden.
  • Zusammenfassung der Erfindung
  • Ein Universalwortschatz mit gesprochener Sprache für die Verwendung in einem Netzwerk, der gemäß den Anordnungen der Erfindung entwickelt und verwaltet wird, löst sämtliche Probleme, denen sich der Stand der Technik gegenübersieht. Die Anordnungen der Erfindung automatisieren und optimieren die Speicherung, Verfolgung, gemeinsame Nutzung und Bereitstellung von Vokabeldaten gesprochener Sprache. Wortbezogene Daten zu allen bekannten Wörtern können von einem vernetzten Server bereitgestellt werden. Neue Wörter, die von einem beliebigen Client-Benutzer hinzugefügt werden, werden allen Benutzern zur Verfügung gestellt, so dass nachfolgende Benutzer nicht mehr gezwungen sind, die Daten zu eben diesem neuen Wort selbst bereitzustellen.
  • Indem der einzelne Benutzer weniger häufig Aussprachen von Hand hinzufügen muss, steigt die Wahrscheinlichkeit, dass die Benutzer die Verfahren für die Korrektur von Fehlerkennungen so einhalten, dass die Spracherkennungsanwendung neue Wörter lernt, wodurch sich die künftige Spracherkennungsleistung für alle Benutzer verbessert.
  • Ein Spracherkennungs- und/oder -synthesesystem bzw. eine entsprechende Anwendung gemäß den Anordnungen der Erfindung macht die Aufnahme eines neuen Wortes durch mehrere Benutzer überflüssig. Nur noch der erste Benutzer eines neuen Worts muss dieses neue Wort hinzufügen. Während des Erkennungsvorgangs bzw. während der Ermittlung von Alternativen kann das System einen Server mit einem Universalwortschatz nach einem neuen Wort abfragen und muss somit den Benutzer nicht zur Bereitstellung der Daten auffordern.
  • Zu den Vorteilen eines hochgradig optimierten, in einem Cachespeicher zwischengespeicherten Universalwortschatzes gehören eine bessere Genauigkeit und ein höherer Durchsatz bei der Spracherkennung, wobei sich dies einfach darauf zurückführen lässt, dass die gesprochenen Wörter mit einer höheren Trefferwahrscheinlichkeit bekannt sind und präzise erkannt werden.
  • Die Anforderungen für die Installation und Verwaltung eines umfangreichen Wortschatzes auf jedem einzelnen System wird vorteilhaft verringert. Es ist für den Benutzer nachvollziehbar, dass einige Wörter auf einem Server gespeichert sind, und im Laufe der Systemnutzung erhöht die Ablage im Cachespeicher die Trefferquote, so dass sowohl die Anzahl der auf einem Client gespeicherten Wörter verringert als auch die Verarbeitungsgeschwindigkeit generell erhöht wird.
  • Die Notwendigkeit, die von einem Benutzer hinzugefügten Wörter zu verwalten und aktualisierte Vokabellisten einzeln zu sichern und zu übertragen, wird durch eine zentral durchgeführte Datensicherung vorteilhaft beseitigt.
  • Die mühsame Arbeit, den am besten geeigneten Ausgangswortschatz im Vorhinein sorgfältig auszuwählen, entfällt vorteilhafterweise, da Fachwörter wirksam und gemeinsam von den im Netzwerk zusammengeschlossenen Benutzern hinzugefügt werden. Dabei wird der Wortschatz für alle Benutzer bei Bedarf sogar automatisch auf den neuesten Stand gebracht, ohne dass hierfür ein Benutzereingriff notwendig wäre.
  • Ein Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung gemäß einer Anordnung der Erfindung nach Anspruch 1 umfasst: einen Netzwerkserver und eine Vielzahl von Netzwerk-Clients, die über ein Netzwerk miteinander kommunizieren; in dem Server eine zentrale Vokabelliste für erkennbare Wörter; in jedem der Clients eine Spracherkennungseinheit und ein Cachespeicher für eine lokale Vokabelliste, wobei der Cachespeicher zuvor erkannte Wörter, die von der zentralen Vokabelliste des Servers übertragen wurden, sowie neue Wörter, die von der Spracherkennungseinheit erkannt wurden, enthält, wobei jedes der neuen Wörter von einem beliebigen Client an den Server übertragen und in die zentrale Vokabelliste aufgenommen wird und wobei jedes der neuen Wörter, die in die zentrale Vokabelliste aufgenommen werden, an mindestens einen der Clients übertragen wird, um in den Cachespeicher aufgenommen zu werden.
  • Die neuen Wörter können automatisch von den Clients an den Server übertragen werden und können ebenfalls automatisch von dem Server an einen oder mehrere Clients übertragen werden.
  • Der Server kann außerdem eine Benutzerprofil-Datenbank mit Daten für jeden der Benutzer umfassen, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung und/oder die Mitgliedschaft in einer Arbeitsgruppe angeben. Wenn diese Daten zur Verfügung stehen, kann jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen werden. Außerdem kann jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhalten.
  • Ferner kann jeder der Clients ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher umfassen. Das Hilfsmittel für das Hinzufügen der Wortaussprache kann neue Wörter, die von der Spracherkennungseinheit des Client erkannt und von dem Server übertragen werden, hinzufügen.
  • Die zentrale Vokabelliste kann eine Vielzahl von Datensätzen für jedes Worts umfassen, wobei die Datensätze die Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und die Arbeitsgruppen angeben, die das Wort benötigen.
  • Die neuen Wörter können automatisch von und zu dem Server übertragen werden.
  • Die Benutzerprofil-Datenbank enthält Daten für jeden der Benutzer, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung und/oder die Mitgliedschaft in einer Arbeitsgruppe angeben. Wenn diese Daten zur Verfügung stehen, kann jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen werden. Außerdem kann jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhalten.
  • Darüber hinaus kann jeder der Clients ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher umfassen. Das Hilfsmittel für das Hinzufügen der Wortaussprache kann neue Wörter, die von der Spracherkennungseinheit des Clients erkannt und von dem Server übertragen werden, hinzufügen.
  • Die zentrale Vokabelliste kann eine Vielzahl von Datensätzen für jedes Wort umfassen, wobei die Datensätze Folgendes beinhalten: Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und Arbeitsgruppen, die das Wort benötigen.
  • Kurze Beschreibung der Zeichnungen
  • Die alleinige Figur ist eine Darstellung eines Netzwerksystems mit Sprachwortschatz für eine Spracherkennungsanwendung gemäß den Anordnungen der Erfindung.
  • Ausführliche Beschreibung der bevorzugten Ausführungsformen
  • Die alleinige Figur zeigt ein umfassendes System 10, das alle Aspekte der Vokabelunterstützung für Technologien, die sich mit gesprochener Sprache befassen, wie beispielsweise Spracherkennung und Sprachsynthese, abdeckt. Das System umfasst einen Wortaussprache- oder Vokabelserver 12, der über ein Netzwerk 20 mit einer Vielzahl von Wortschatz-Clients 14, 16 und 18 verbunden ist. Das Netzwerk 20 kann ein lokales Netz (Local Area Network, LAN) oder ein weiträumiges Netz (Wide Area Network, WAN) sein. Gemäß den Anordnungen der Erfindung ist der Wortaussprache- oder Vokabelserver 12 ein universeller Aufbewahrungsort für alle bekannten Wörter und die zugehörigen Attribute der gesprochenen Sprache. Neue Wörter werden nach Bedarf von den Netzwerk-Clients erhalten und an diese verteilt.
  • Der Wortausspracheserver 12 umfasst ein Universalwortschatz-Serverprogramm 22, eine universelle Vokabelliste oder - datenbank 24 und eine Benutzerprofiltabelle 26. Der Wortausspracheserver 12 ist ein mit einem Netzwerk verbundenes Computersystem, auf dem sich die universelle Vokabeldatenbank und das Universalwortschatz-Serverprogramm 22 befinden, das auf Anfragen von Client-Computersystemen, die Spracherkennungs- oder Sprachsyntheseprogramm ausführen, reagiert.
  • Die universelle Vokabelliste 24 beinhaltet alle dem System bekannten Wörter einschließlich der Schreibweise und der Daten, die angeben, wie das Wort ausgesprochen wird. Dabei bezieht sich der Begriff „universell" auf das gesamte Netzwerk. Somit kann die universelle Vokabelliste auch als zentrale oder Haupt-Vokabelliste betrachtet werden. Die Datensätze für die einzelnen Worteinträge beinhalten die folgenden Informationen: Schreibweise, Phoneme, d.h. Aussprachedaten, eine Liste der Sprachgebrauchsdomänen, Quelle, d.h., von wem das Wort hinzugefügt wurde, sowie Arbeitsgruppe, d.h., welche Benutzer das Wort voraussichtlich verwenden werden.
  • Das Benutzervokabelprofil 26 ist eine Datenbank mit Daten, die zur Unterstützung des Universalwortschatz-Clientprogramms benötigt werden. Daten zu den Wortgruppen, die ein bestimmter Benutzer verwendet, und zu den Benutzergruppen, zu denen er gehört, werden auf dem Server verwaltet und an die einzelnen Clients übertragen, wenn diese eine Sitzung mit Spracherkennungs- oder TTS-Software beginnen.
  • Der Begriff „Client" wird dabei für einen Arbeitsplatzrechner verwendet, für den ein Wortausspracheserver zentrale Funktionen ausübt. Als „Benutzer" werden die Personen bezeichnet, die an den Clients arbeiten. Die Benutzerprofiltabelle oder -datenbank 26 kann mit Benutzern verknüpft werden, die z.B. anhand des Namens oder einer Anmeldekennung identifiziert werden können, so dass jedem Benutzer die geeignete Teilgruppe des Wortschatzes bereitgestellt werden kann, unabhängig davon, welcher Arbeitsplatzrechner oder Client gerade genutzt wird. Wenn der Benutzer eines bestimmten Client oder Arbeitsplatzrechners nicht in der Benutzerprofiltabelle enthalten ist, kann die Benutzerprofiltabelle auch mit der Kennung des Client oder Arbeitsplatzrechners verknüpft werden. Alternativ hierzu kann auch eine standardmäßige Teilgruppe für nichtidentifizierte Benutzer definiert werden. Als weitere und derzeit bevorzugte Alternative kann ein nichtidentifizierter Benutzer aufgefordert werden, ausreichend Informationen bereitzustellen, um in der Benutzerprofiltabelle identifiziert werden zu können und danach eine geeignete Teilgruppe der Vokabelliste und geeignete neue Wörter zu erhalten.
  • Die geeignete Vokabelliste kann sogar über Modem, Satellitenübertragung oder das Internet an einen entfernten Arbeitsplatzrechner übertragen werden, obwohl sofortige und automatische Aktualisierungen dann nur so lange zur Verfügung stehen, wie die Fernverbindung aufrecht erhalten wird. In diesem Zusammenhang steht das Netzwerk 20 auch für Fernverbindungen.
  • Jeder der Clients 14, 16 und 18 umfasst einen Universalwortschatz-Client 30, eine Spracherkennungseinheit 32, ein Hilfsmittel 34 für das Hinzufügen der Wortaussprache und einen Cachespeicher 36 für eine lokale Vokabelliste zur Speicherung einer persönlich angepassten Teilgruppe der universellen Vokabelliste 24. Zum Zwecke der Veranschaulichung sind die Clients 14 und 16 Mitglieder einer Arbeitsgruppe, die einem Benutzerprofil mit der Bezeichnung A zugewiesen ist. Client 18 ist Mitglied einer Arbeitsgruppe, die einem Benutzerprofil mit der Bezeichnung B zugewiesen ist.
  • Das Hilfsmittel 34 für das Hinzufügen der Wortaussprache überträgt den einzelnen Clients neu hinzugefügte Wörter über das Netzwerk 20 an den Wortausspracheserver 12, wo die neuen Wörter in die universelle Vokabelliste 24 aufgenommen werden. Das Hilfsmittel 34 für das Hinzufügen der Wortaussprache empfängt außerdem neue Wörter über das Netzwerk 20 von dem Wortausspracheserver 12 und leitet die neuen Wörter an den Cachespeicher 36 für eine lokale Vokabelliste weiter.
  • Das Universalwortschatz-Clientprogramm 30 ist eine Anwendung, die auf einem Client-System ausgeführt wird, das die im Cachespeicher 36 lokal zwischengespeicherte Teilgruppe der universellen Vokabelliste 24 verwaltet. Wörter, die vom Benutzer und aus der universellen Vokabelliste kommen, werden in den Cachespeicher aufgenommen, während Wörter, deren zulässige Speicherfrist im Cachespeicher abgelaufen ist, gelöscht werden. Der Cachespeicher 36 stellt einen dynamisch optimierten Ersatz für den herkömmlichen, eigenständigen Ausgangswortschatz dar.
  • Die Programme zur Verwaltung des Cachespeichers 36 verwenden Algorithmen, die bei der Ermittlung der Cachespeicher-Parameter den Netzverkehr, den verfügbaren lokalen Speicherplatz, die Häufigkeit der Verwendung, die Prozessorgeschwindigkeit, die aktuelle Aufgabe des Endbenutzers und die Endbenutzereinstellungen berücksichtigen. Der Cachespeicher kann als optimaler lokaler Wortschatz betrachtet werden. Er ist optimal, weil Fachwörter, von denen bekannt ist, dass der Benutzer sie verwendet, darin enthalten sind, wodurch die Erkennung verbessert wird, und weil gleichzeitig Wörter, von denen bekannt ist, dass sie vom Benutzer nicht verwendet werden, nicht enthalten sind, wodurch sich die erforderliche Verarbeitungszeit für die Durchsuchung des Cachespeichers nach passenden Wörtern verringert.
  • Die Client-Anwendung sendet Daten zu neu hinzugefügten Wörtern an das Universalwortschatz-Serverprogramm. Standardmäßig können alle Wörter mit der Kennzeichnung „öffentlich", d.h. als für die gemeinsame Nutzung vorgesehen, hinzugefügt werden, wobei ein Benutzer jedoch auch die Möglichkeit hat, Wörter mit der Kennzeichnung „privat" hinzuzufügen, wenn er das aus irgendeinem Grund wünscht.
  • Ein einfaches Beispiel ist in der Figur dargestellt. Der Client 14 hat ein neues Wort hinzugefügt. Das neue Wort wird über das Netzwerk 20 vom Hilfsmittel 34 für das Hinzufügen der Wortaussprache an den Wortausspracheserver 24 übertragen, wie durch die gestrichelte Pfeillinie 1 dargestellt. Wenn der Client 16 diktiert oder zu einem späteren Zeitpunkt mit dem Diktat beginnt, ruft das Universalwortschatz-Serverprogramm 22 das Benutzerprofil für den Client 16 aus der Benutzerprofiltabelle 26 ab, wie durch die gestrichelte Pfeillinie 2 dargestellt. Das Profil gibt an, dass der Client 16 zur gleichen Arbeitsgruppe gehört wie der Client 14, deutlich gemacht durch die Verwendung des gleichen Profils A. Wenn der Client 16 bereits diktiert, wird das neue Wort dem Client 16 bereitgestellt und in den lokalen Cachespeicher 36 aufgenommen. Wenn der Client 16 erst mit dem Diktat beginnt, wird ihm eine persönlich angepasste Vokabelliste bereitgestellt und im lokalen Cachespeicher 36 gespeichert. Das zuvor vom Client 14 hinzugefügte neue Wort ist enthalten, da sowohl der Benutzer 14 als auch der Benutzer 16 das Profil A verwenden. Beide Fälle sind durch die gestrichelte Pfeillinie 3 dargestellt.
  • Gemäß den Anordnungen der Erfindung wird eine umfangreiche Datenbank dynamisch und schrittweise durch die Benutzer erweitert und im Laufe der Zeit optimiert, um so die Gesamtsystemleistung zu steigern und die Ressourcen des Computersystems wie Netzbandbreite sowie Datei- und Datenspeicherung mittels Cachespeicherverfahren stabil zu halten.
  • Bei der vorliegenden Erfindung kann die zentrale Vokabelliste eine Vielzahl von Datensätzen pro Wort umfassen, wobei die Datensätze Folgendes enthalten: Schreibweise, Phoneme, Sprachgebrauchsdomänen, Quell-Client und die Arbeitsgruppen, die das Wort benötigen.

Claims (10)

  1. Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung, gekennzeichnet durch einen Netzwerkserver (12) und eine Vielzahl von Netzwerk-Clients (14, 16, 18), die über ein Netzwerk (20) miteinander kommunizieren; in dem Server eine zentrale Vokabelliste (24) für erkennbare Wörter; und in jedem der Clients eine Spracherkennungseinheit (32) und ein Cachespeicher (36) für eine lokale Vokabelliste, wobei der Cachespeicher zuvor erkannte Wörter, die von der zentralen Vokabelliste (24) des Servers (12) übertragen wurden, sowie neue Wörter, die von der Spracherkennungseinheit (32) erkannt wurden, enthält, wobei jedes der neuen Wörter von einem beliebigen Client an den Server übertragen und in die zentrale Vokabelliste aufgenommen wird und wobei jedes der neuen Wörter, die in die zentrale Vokabelliste aufgenommen werden, an mindestens einen der Clients übertragen wird, um in den Cachespeicher aufgenommen zu werden.
  2. System nach Anspruch 1, dadurch gekennzeichnet, dass die neuen Wörter automatisch an den Server zurückübertragen werden.
  3. Netzwerksystem mit Sprachwortschatz für eine Spracherkennungsanwendung nach Anspruch 1, dadurch gekennzeichnet, dass der Server (12) auch eine Benutzerprofil-Datenbank (26) aufweist, sowie dadurch, dass jedes der neuen Wörter, die in die zentrale Vokabelliste (24) aufgenommen werden, gemäß den Daten in der Benutzerprofil-Datenbank (26) an einen der anderen Clients übertragen wird.
  4. System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die neuen Wörter automatisch von und zu dem Server übertragen werden.
  5. System nach Anspruch 1 oder 3, gekennzeichnet durch eine Benutzerprofil-Datenbank mit Daten für jeden der Benutzer, die eine betreffende Teilgruppe der zentralen Vokabelliste zur Verwendung bei der Spracherkennung angeben.
  6. System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die Benutzerprofil-Datenbank für jeden der Benutzer Daten enthält, welche die Mitgliedschaft an einer Arbeitsgruppe angeben.
  7. System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass jedes neue Wort, das von einem beliebigen Benutzer in den Arbeitsgruppen an den Server übertragen wird, automatisch auch an alle übrigen Benutzer innerhalb der Arbeitsgruppe übertragen wird.
  8. System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass die Benutzerprofil-Datenbank für jeden der Benutzer Daten enthält, die eine Mitgliedschaft in einer Arbeitsgruppe angibt, wobei jeder Benutzer innerhalb der Arbeitsgruppe die gleiche Teilgruppe der zentralen Vokabelliste für die Verwendung bei der Spracherkennung erhält.
  9. System nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass jeder der Clients außerdem ein Hilfsmittel für das Hinzufügen der Wortaussprache zur Erkennung neuer Wörter umfasst, die an den Server übertragen werden sollen, sowie für die Aufnahme der neuen Wörter in den Cachespeicher.
  10. System nach Anspruch 9, dadurch gekennzeichnet, dass das Hilfsmittel für das Hinzufügen der Wortaussprache neue Wörter, die von der Spracherkennungseinheit des Clients erkannt und von dem Server übertragen werden, hinzufügt.
DE69917112T 1998-03-27 1999-02-15 Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems Expired - Lifetime DE69917112T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US49736 1998-03-27
US09/049,736 US6195641B1 (en) 1998-03-27 1998-03-27 Network universal spoken language vocabulary

Publications (2)

Publication Number Publication Date
DE69917112D1 DE69917112D1 (de) 2004-06-17
DE69917112T2 true DE69917112T2 (de) 2006-03-30

Family

ID=21961423

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69917112T Expired - Lifetime DE69917112T2 (de) 1998-03-27 1999-02-15 Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems

Country Status (6)

Country Link
US (1) US6195641B1 (de)
EP (1) EP0945851B1 (de)
JP (1) JP3519015B2 (de)
KR (1) KR100324079B1 (de)
DE (1) DE69917112T2 (de)
TW (1) TW405109B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013216427A1 (de) * 2013-08-20 2015-03-12 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher

Families Citing this family (230)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6412011B1 (en) * 1998-09-14 2002-06-25 At&T Corp. Method and apparatus to enhance a multicast information stream in a communication network
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6823307B1 (en) * 1998-12-21 2004-11-23 Koninklijke Philips Electronics N.V. Language model based on the speech recognition history
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
GB2356318A (en) * 1999-09-04 2001-05-16 Marconi Comm Ltd Server with voice recognition
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6741963B1 (en) * 2000-06-21 2004-05-25 International Business Machines Corporation Method of managing a speech cache
US7024454B1 (en) * 2000-08-25 2006-04-04 Practicefirst.Com L.L.C. Work sharing and communicating in a web site system
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
EP1215661A1 (de) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Sprachgesteuertes tragbares Endgerät
JP3838029B2 (ja) * 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP4109414B2 (ja) * 2000-12-18 2008-07-02 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
US20020091515A1 (en) * 2001-01-05 2002-07-11 Harinath Garudadri System and method for voice recognition in a distributed voice recognition system
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US7698228B2 (en) * 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US20030009334A1 (en) * 2001-07-03 2003-01-09 International Business Machines Corporation Speech processing board for high volume speech processing applications
US7920682B2 (en) * 2001-08-21 2011-04-05 Byrne William J Dynamic interactive voice interface
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US6785654B2 (en) 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
JP4017887B2 (ja) * 2002-02-28 2007-12-05 富士通株式会社 音声認識システムおよび音声ファイル記録システム
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US8959019B2 (en) * 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
JP2004212641A (ja) * 2002-12-27 2004-07-29 Toshiba Corp 音声入力システム及び音声入力システムを備えた端末装置
US20050060156A1 (en) * 2003-09-17 2005-03-17 Corrigan Gerald E. Speech synthesis
US8150697B2 (en) * 2003-09-30 2012-04-03 Nuance Communications, Inc. Autonomous systems and network management using speech
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
EP1600942B1 (de) * 2004-05-21 2009-11-18 Harman Becker Automotive Systems GmbH Automatische Erzeugung einer Wortaussprache für die Spracherkennung
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
KR101221172B1 (ko) * 2005-02-03 2013-01-11 뉘앙스 커뮤니케이션즈, 인코포레이티드 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치
EP1859608A1 (de) * 2005-03-16 2007-11-28 France Telecom S.A. Verfahren zum automatischen produzieren von sprach-labels in einem adressenbuch
US7542904B2 (en) 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US8635073B2 (en) * 2005-09-14 2014-01-21 At&T Intellectual Property I, L.P. Wireless multimodal voice browser for wireline-based IPTV services
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
EP1858005A1 (de) * 2006-05-19 2007-11-21 Texthelp Systems Limited Servergenerierter Sprachstrom mit synchronisierter Hervorhebung
US20090204392A1 (en) * 2006-07-13 2009-08-13 Nec Corporation Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
JP4715704B2 (ja) * 2006-09-29 2011-07-06 富士通株式会社 音声認識装置、および音声認識プログラム
US20080082316A1 (en) * 2006-09-30 2008-04-03 Ms. Chun Yu Tsui Method and System for Generating, Rating, and Storing a Pronunciation Corpus
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
WO2008114708A1 (ja) * 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) * 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP4962416B2 (ja) * 2008-06-03 2012-06-27 日本電気株式会社 音声認識システム
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) * 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
JP5558284B2 (ja) * 2010-09-15 2014-07-23 株式会社Nttドコモ 音声認識システム、音声認識方法、および音声認識プログラム
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8930194B2 (en) 2011-01-07 2015-01-06 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
EP2678861B1 (de) 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridisierte client-server-spracherkennung
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US20140136210A1 (en) * 2012-11-14 2014-05-15 At&T Intellectual Property I, L.P. System and method for robust personalization of speech recognition
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9218804B2 (en) * 2013-09-12 2015-12-22 At&T Intellectual Property I, L.P. System and method for distributed voice models across cloud and device for embedded text-to-speech
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
EP3149728B1 (de) 2014-05-30 2019-01-16 Apple Inc. Eingabeverfahren durch einzelne äusserung mit mehreren befehlen
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
GB201511887D0 (en) 2015-07-07 2015-08-19 Touchtype Ltd Improved artificial neural network for language modelling and prediction
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10535343B2 (en) 2016-05-10 2020-01-14 Google Llc Implementations for voice assistant on devices
EP3757753A1 (de) 2016-05-13 2020-12-30 Google LLC Initierung durch spracheingabe das abspielen von medieninhalten
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11205110B2 (en) 2016-10-24 2021-12-21 Microsoft Technology Licensing, Llc Device/server deployment of neural network data entry system
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
JP6833203B2 (ja) * 2017-02-15 2021-02-24 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US11170762B2 (en) 2018-01-04 2021-11-09 Google Llc Learning offline voice commands based on usage of online voice commands
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US11552966B2 (en) 2020-09-25 2023-01-10 International Business Machines Corporation Generating and mutually maturing a knowledge corpus

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8702910D0 (en) * 1987-02-10 1987-03-18 British Telecomm Multi-user speech recognition system
JP2989211B2 (ja) * 1990-03-26 1999-12-13 株式会社リコー 音声認識装置における辞書制御方式
US5165095A (en) 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US5774628A (en) * 1995-04-10 1998-06-30 Texas Instruments Incorporated Speaker-independent dynamic vocabulary and grammar in speech recognition
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US5905773A (en) * 1996-03-28 1999-05-18 Northern Telecom Limited Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013216427A1 (de) * 2013-08-20 2015-03-12 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
DE102013216427B4 (de) 2013-08-20 2023-02-02 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher

Also Published As

Publication number Publication date
TW405109B (en) 2000-09-11
EP0945851A2 (de) 1999-09-29
JP3519015B2 (ja) 2004-04-12
JPH11327583A (ja) 1999-11-26
US6195641B1 (en) 2001-02-27
EP0945851A3 (de) 2000-01-12
KR19990077872A (ko) 1999-10-25
KR100324079B1 (ko) 2002-02-16
EP0945851B1 (de) 2004-05-12
DE69917112D1 (de) 2004-06-17

Similar Documents

Publication Publication Date Title
DE69917112T2 (de) Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE102016125508B4 (de) Auffindbarkeitssystem für Sprachaktionen
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE60033733T2 (de) Datenbankabfragesystem basierend auf Spracherkennung
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE60032193T2 (de) Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE112014002819B4 (de) System und Verfahren zur Erkennung von Sprache
DE4015905C2 (de) Sprachanalyseeinrichtung, -verfahren und -programm
DE112019001533T5 (de) Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache
EP1071075B1 (de) Verfahren und Vorrichtung zur Eingabe von Daten
DE112015003521T5 (de) Konversationsagenten
DE102016125594A1 (de) Automatisch augmentierende Nachrichtenaustauschthread basierend auf der Nachrichtenklassifizierung
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
DE102015211101A1 (de) Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication of lapse of patent is to be deleted
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN