DE10125406A1 - Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser - Google Patents

Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser

Info

Publication number
DE10125406A1
DE10125406A1 DE10125406A DE10125406A DE10125406A1 DE 10125406 A1 DE10125406 A1 DE 10125406A1 DE 10125406 A DE10125406 A DE 10125406A DE 10125406 A DE10125406 A DE 10125406A DE 10125406 A1 DE10125406 A1 DE 10125406A1
Authority
DE
Germany
Prior art keywords
browser
visual
voice
network
formatted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10125406A
Other languages
English (en)
Inventor
Bruce D Lucas
David E Reich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE10125406A1 publication Critical patent/DE10125406A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Abstract

Ein Verfahren und eine Einrichtung zum gleichzeitigen Zugreifen auf netzbasierte elektronische Inhalte in einem Voice Browser und einem Visual Browser kann die Schritte des Abrufens eines netzbasierten Dokumens, das für die Darstelung im Visual Browser formatiert ist, des Identifizierens eines Bezugs auf den Voice Browser in dem abgerufenen Dokument, wobei der Bezug elektronische Inhalte spezifiziert, die für die akustische Darstellung im Voice Browser formatiert sind, und des Übertragens des Bezugs an den Voice Browser umfassen. Der Voice Browser kann die spezifizierten elektronischen Inhalte abrufen und die elektronischen Inhalte akustisch darstellen. Gleichzeitig kann der Visual Browser das netzbasierte Dokument, das für die visuelle Darstellung im Visual Browser formatiert ist, visuell darstellen. Ebenso kann das Verfahren der Erfindung die Schritte des Abrufens eines netzbasierten Dokuments, das für die akustische Darstellung im Voice Browser in dem abgerufenen Dokument, wobei der Bezug die elektronischen Inhalte spezifiziert, die für die visuelle Darstellung im Visual Browser formatiert sind, und des Übertragens des Bezugs an den Visual Browser umfassen. Der Visual Browser kann die spezifizierten elektronischen Inhalte abrufen und die spezifizierten elektronischen Inhalte visuell darstellen. Gleichzeitig kann der Voice Browser das netzbasierte Dokument, das für die akustische Darstellung im Voice Browser formatiert ist, akustisch darstellen.

Description

HINTERGRUND DER ERFINDUNG Technisches Gebiet
Diese Erfindung betrifft das Durchsuchen von netzbasierten elektronischen Inhalten und insbesondere ein Verfahren und eine Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser.
Beschreibung der zugrunde liegenden Technik
Visual Browser sind Anwendungen, die einen visuellen Zugang zu netzbasierten elektronischen Inhalten ermöglichen, die in einem Computerkommunikationsnetz zur Verfügung gestellt werden. Eine Art von Visual Browsern, der Web-Browser, dient zum Auffinden und Darstellen von netzbasierten elektronischen Inhalten, die mit der Formatierungssprache HyperText Markup Language ("HTML") formatiert sind. Zwei weit verbreitete Web-Browser sind Netscape® Navigator® und Microsoft® Internet Explorer®. Der Begriff "Visual Browser" bedeutet insbesondere, dass der Browser Grafiken, Text oder eine Kombination von Grafiken und Texten darstellen kann. Darüber hinaus können die meisten Visual Browser Multimedia- Informationen, einschließlich Klang und Video, darstellen, obwohl einige Visual Browser zur Unterstützung bestimmter Multimedia-Informationsformate Plug-Ins erfordern können.
Im Gegensatz zu typischen Visual Browsern, die in einer Desktop-Umgebung arbeiten, sind Visual Browser mit komprimierter HTML ("compressed HTML, C-HTML") zur Verarbeitung von HTML-formatierten Dokumenten in Umgebungen mit geringer Bandbreite entstanden. Genau gesagt sind C- HTML-formatierte Dokumente HTML-formatierte Dokumente, die vor der Übertragung komprimiert wurden. C-HTML-gemäße Visual Browser können C-HTML-formatierte Dokumente vor deren Darstellung dekomprimieren. Beispielhafte C-HTML-Visual Browser sind für das Betriebssystem QNX® Neutrino® von QNX Software Systems, Ltd. of Kanata, Ontario, implementiert worden.
Anders als ein Visual Browser erlaubt es ein Voice Browser einem Benutzer nicht, mit netzbasierten elektronischen Inhalten visuell zu interagieren. Vielmehr kann ein Voice Browser, der mit einer Spracherkennungseinheit und Sprachsyntheseeinheit zusammen arbeiten kann, dem Benutzer ermöglichen, mit netzbasierten elektronischen Inhalten akustisch zu interagieren. D. h., der Benutzer kann Sprachbefehle eingeben, um von einem netzbasierten elektronischen Dokument zum anderen zu navigieren. Ebenso können dem Benutzer netzbasierte elektronische Inhalte akustisch dargestellt werden, üblicherweise in Form von synthetisierter Sprache. Somit können Voice Browser Spracheingabe und interaktive Sprachausgabe für netzbasierte elektronische Inhalte und Anwendungen zur Verfügung stellen, z. B. per Telefon, PDA (Personal Digital Assistant) oder Desktop-Computer.
Es ist von Bedeutung, dass Voice Browser für die Interaktion mit netzbasierten elektronischen Inhalten, die in VoiceXML kodiert sind, konfiguriert werden können. VoiceXML ist eine Formatierungssprache für verteilte Sprachanwendungen, die auf der erweiterbaren Formatierungssprache ("Extended Markup Language, XML") basiert, ähnlich wie HTML eine Formatierungssprache für verteilte visuelle Anwendungen ist. VoiceXML ist zur Erstellung von Audio-Dialogen konzipiert, die synthetisierte Sprache, digitalisierte Töne, Erkennung von gesprochenen und Zweiton-Multifrequenz Tastatureingaben (Dual Tone Multifrequency, "DTMF"), Aufnahme gesprochener Eingabe, Telefonie und gemischt-initiierte Konversationen aufweisen. Version 1.0 der VoiceXML-Spezifikation wurde vom VoiceXML-Forum im Dokument Voice eXtensible Markup Language (VoiceXML™) version 1.0, (W3C Mai 2000) von Linda Boyer, Peter Danielsen, Jim Ferrans, Gerald Karam, David Ladd, Bruce Lucas und Kenneth Rehor veröffentlicht, das durch die Bezugnahme Bestandteil dieses Patents ist. Darüber hinaus wurde Version 1.0 der VoiceXML-Spezifikation dem World Wide Web Consortium durch das VoiceXML Forum vorgelegt und wurde von diesem als ein vorgeschlagener Industriestandard akzeptiert.
Bemerkenswerterweise wurden die Fähigkeiten von Visual Browsern nicht mit den Fähigkeiten von Voice Browsern kombiniert, damit ein Benutzer von beiden mit netzbasierten elektronischen Inhalten gleichzeitig interagieren kann. D. h., bis jetzt wurde keine Lösung zur Verfügung gestellt, die es einem Benutzer erlaubt, mit netzbasierten elektronischen Inhalten in einem Visual Browser zu interagieren, während er auch mit netzbasierten Audio- Inhalten in einem Voice Browser einen Dialog führt. Gegenwärtige Anstrengungen, einen Browser zur Verfügung zu stellen, der mit netzbasierten visuellen und akustischen Inhalten interagieren kann, sind auf die Kodierung von Sprachsynthese-Funktionalität in existierende Visual Browser beschränkt, um einen sprachsensitiven Visual Browser zu erzeugen. Außerdem wurden neue sprachbezogene Formatierungsbefehle für Visual Browser vorgeschlagen, um für einen Visual Browser Sprachfunktionalität zur Verfügung zu stellen.
Diese Lösungen erfordern immer noch, dass der, der sie implementiert, einen Satz an sprachsensitiven Funktionen zur Behandlung von netzbasierten Sprachinhalten entwickelt und diesen direkt in den Quellcode des Visual Browsers integriert. Folglich ist die Entwicklung sprachbezogener Funktionalität eng mit der Entwicklung der restlichen Funktionalität des Visual Browsers verbunden. Schließlich hindert die enge Integration des Visual Browsers und der sprachsensitiven Funktionalität den Benutzer daran, einen separaten, stabileren und effizienteren Voice Browser zu verwenden, der einen Funktionssatz hat, der für die Interaktion mit netzbasierten Sprachinhalten nützlich ist. Daher wird ein Verfahren und eine Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser benötigt, sodass die Kombination des Visual Browsers und des Voice Browsers netzbasierte elektronische Inhalte gleichzeitig visuell und sprachlich durchsuchen kann.
ÜBERBLICK ÜBER DIE ERFINDUNG
Die vorliegende Erfindung ist ein Verfahren und eine Einrichtung zum gleichzeitigen Zugreifen auf netzbasierte elektronische Inhalte in einem Voice Browser und einem Visual Browser. Das Verfahren kann die Schritte des Abrufens eines netzbasierten Dokuments, das für die Anzeige im Visual Browser formatiert ist, des Identifizierens eines Bezugs auf den Voice Browser in dem abgerufenen Dokument, wobei der Bezug elektronische Inhalte, die für die akustische Darstellung im Voice Browser formatiert sind, spezifiziert, und des Übertragens des Bezugs an den Voice Browser umfassen. Der Voice Browser kann die spezifizierten elektronischen Inhalte abrufen und die elektronischen Inhalte akustisch darstellen. Gleichzeitig kann der Visual Browser das netzbasierte Dokument, das für die visuelle Darstellung im Visual Browser formatiert ist, visuell darstellen.
In einer bevorzugten Ausführungsart der vorliegenden Erfindung kann das netzbasierte Dokument, das für die visuelle Darstellung im Visual Browser formatiert ist, ein HTML-Dokument sein und der Visual Browser kann ein Web- Browser sein. Genauso können die elektronischen Inhalte, die für die akustische Darstellung im Voice Browser formatiert sind, VoiceXML-formatierte elektronische Inhalte sein. In dem Fall, dass das netzbasierte Dokument ein HTML-Dokument ist, kann der Bezug ein Koordinationsformatierungsattribut sein.
Es ist bedeutsam, dass der Bezug ein netzbasiertes Dokument spezifizieren kann, das die elektronischen Inhalte enthält, die für die akustische Darstellung im Voice Browser formatiert sind. Folglich kann der Voice Browser das spezifizierte netzbasierte Dokument über das Computerkommunikationsnetz abrufen und die elektronischen Inhalte, die in dem spezifizierten netzbasierten Dokument enthalten sind, akustisch darstellen, während der Visual Browser das netzbasierte Dokument, das für die visuelle Darstellung formatiert ist, visuell darstellen kann.
In einer alternativen Ausführungsart kann ein Verfahren zum gleichzeitigen Zugreifen auf netzbasierte elektronische Inhalte in einem Voice Browser und einem Visual Browser die Schritte des Abrufens eines netzbasierten Dokuments, das für die akustische Darstellung im Voice Browser formatiert ist, des Identifizierens eines Bezugs auf den Visual Browser, wobei der Bezug die elektronischen Inhalte spezifiziert, die für die visuelle Darstellung im Visual Browser formatiert sind, und des Übertragens des Bezugs an den Visual Browser umfassen. Der Visual Browser kann die spezifizierten elektronischen Inhalte abrufen und die spezifizierten elektronischen Inhalte visuell darstellen. Gleichzeitig kann der Voice Browser das netzbasierte Dokument, das für die akustische Darstellung im Voice Browser formatiert ist, akustisch darstellen.
Genauer gesagt, das netzbasierte Dokument, das für akustische Darstellung im Voice Browser formatiert ist, kann ein VoiceXML-formatiertes Dokument sein. Darüber hinaus können die elektronischen Inhalte, die für die visuelle Darstellung im Visual Browser formatiert sind, HTML­ formatierte elektronische Inhalte sein und der Visual Browser kann ein Web-Browser sein. Bedeutsamerweise kann der Bezug ein netzbasiertes Dokument spezifizieren, das die elektronischen Inhalte enthält, die für die visuelle Darstellung im Visual Browser formatiert sind. In diesem Fall kann der Visual Browser das spezifizierte netzbasierte Dokument über das Computerkommunikationsnetz abrufen und die elektronischen Inhalte, die in dem netzbasierten Dokument enthalten sind, visuell darstellen, während der Voice Browser das netzbasierte Dokument, das für die akustische Darstellung formatiert ist, akustisch darstellen kann.
Ein Multi-Modus-Browser für die Durchführung des Verfahrens der Erfindung kann einen Visual Browser zur visuellen Darstellung der visuellen Inhalte, die von einem Computerkommunikationsnetz abgerufen wurden, einen Voice Browser zur akustischen Darstellung der Sprachinhalte, die von dem Computerkommunikationsnetz abgerufen wurden, und eine Kopplungsschnittstelle zur Synchronisation der visuellen und akustischen Darstellung der visuellen und der Sprachinhalte im Visual bzw. Voice Browser umfassen.
Insbesondere können die visuellen Inhalte HTML-formatierte Inhalte und die Sprachinhalte VoiceXML-formatierte Inhalte sein.
Zusätzlich kann der Multi-Modus-Browser eine Steuerroutine für zeitkritische Ereignisse umfassen. Die Steuerroutine für zeitkritische Ereignisse kann zeitkritische Inhalte empfangen, in zeitkritischen Inhalten einen Inhaltstyp- Indikator identifizieren, die zeitkritischen Inhalte an den Visual Browser weiterleiten, wenn der Inhaltstyp-Indikator visuelle Inhalte anzeigt, und die zeitkritischen Inhalte an den Voice Browser weiterleiten, wenn der Inhaltstyp- Indikator Sprachinhalte anzeigt.
Ein Verfahren zum Ändern eines netzbasierten Dokuments zur Unterstützung des gleichzeitigen Zugriffs auf netzbasierte Sprach- und visuelle Inhalte in einem Voice Browser und einem Visual Browser kann die Schritte des Integrierens von visuellen Inhalten in einem netzbasierten Dokument, des Formatierens des netzbasierten Dokuments für die visuelle Darstellung in einem Visual Browser, und des Einfügens von mindestens einer Formatierungskennung in das netzbasierte Dokument umfassen. Die Formatierungskennung kann ein Koordinationsformatierungsattribut enthalten, das ein netzbasiertes Dokument, das für die akustische Darstellung in einem Voice Browser formatiert ist, spezifiziert. Als Ergebnis kann der Visual Browser bei der Wiedergabe des netzbasierten Dokuments, das für die visuelle Anzeige formatiert ist, das Koordinationsformatierungsattribut in der Formatierungskennung identifizieren und einen Bezug auf das spezifizierte netzbasierte Dokument an den Voice Browser übertragen. Folglich kann der Voice Browser das spezifizierte netzbasierte Dokument abrufen und das spezifizierte netzbasierte Dokument gleichzeitig zur visuellen Darstellung des netzbasierten Dokuments, das für die visuelle Darstellung im Visual Browser formatiert ist, akustisch darstellen. In dem bevorzugten Verfahren kann das netzbasierte Dokument, das für die visuelle Darstellung in einem Visual Browser formatiert ist, ein HTML-Dokument sein und der Visual Browser kann ein Web-Browser sein. Ebenso kann das netzbasierte Dokument, das für akustische Darstellung in einem Voice Browser formatiert ist, ein VoiceXML-formatiertes Dokument sein und der Voice Browser kann ein VoiceXML-Browser sein.
Ein Verfahren zum Ändern eines netzbasierten Dokuments zur Unterstützung des gleichzeitigen Zugriffs auf netzbasierte Sprach- und visuelle Inhalte in einem Voice Browser und einem Visual Browser kann auch die folgenden Schritte umfassen: Integrieren von Sprachinhalten in ein netzbasiertes Dokument; Formatieren des netzbasierten Dokuments für die akustische Darstellung in einem Voice Browser; und Einfügen von mindestens einer Formatierungskennung in das netzbasierte Dokument. Die Formatierungskennung kann ein Koordinationsformatierungs­ attribut enthalten, das ein netzbasiertes Dokument, das für die visuelle Darstellung in einem Visual Browser formatiert ist, spezifiziert. Als solches kann der Voice Browser bei der Wiedergabe des netzbasierten Dokuments, das für die akustische Darstellung formatiert ist, das Koordinationsformatierungsattribut in der Formatierungskennung identifizieren und einen Bezug auf das spezifizierte netzbasierte Dokument an den Visual Browser übertragen. Folglich kann der Visual Browser das spezifizierte netzbasierte Dokument abrufen und das spezifizierte netzbasierte Dokument gleichzeitig zur akustischen Darstellung des netzbasierten Dokuments, das für die akustische Darstellung im Voice Browser formatiert ist, visuell darstellen. In einer bevorzugten Ausführungsart des Verfahrens kann das netzbasierte Dokument, das für die visuelle Darstellung im Visual Browser formatiert ist, ein HTML-formatiertes Dokument sein und der Visual Browser kann ein Web-Browser sein. Ebenso kann das netzbasierte Dokument, das für die akustische Darstellung in einem Voice Browser formatiert ist, ein VoiceXML-formatiertes Dokument sein und der Voice Browser kann ein VoiceXML-Browser sein.
KURZBESCHREIBUNG DER ZEICHNUNGEN
In den Zeichnungen sind Ausführungsarten gezeigt, die gegenwärtig bevorzugt werden, es versteht sich jedoch, dass die Erfindung nicht auf die gezeigten exakten Anordnungen und Mittel beschränkt ist.
Fig. 1 ist eine schematische Darstellung eines Server- Computersystems, das elektronische Inhalte zur Verfügung stellt, die für die visuelle Darstellung in einem Visual Browser auf einem Client-System formatiert sind, und eines Server-Computersystems, das elektronische Inhalte zur Verfügung stellt, die für die akustische Darstellung in einem Voice Browser auf einem Client-System formatiert sind.
Fig. 2 ist eine hierarchische Darstellung einer Architektur, die für die Verwendung im Netz von Fig. 1 geeignet ist, in dem das Client-Computersystem einen Visual Browser und einen Voice Browser koppeln kann, sodass beide gleichzeitig auf netzbasierte elektronische Inhalte im Netz zugreifen können.
Fig. 3 ist eine Multi-Modus-Browser-Architektur zur Implementierung des Verfahrens der Erfindung.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Die vorliegende Erfindung ist ein Verfahren und eine Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser, sodass beide gleichzeitig auf netzbasierte elektronische Inhalte in einem Computerkommunikationsnetz auf koordinierte und sich ergänzende Weise zugreifen können. Das Verfahren und die Einrichtung der Erfindung sorgen für einen multi-modalen Aspekt, in Folge dessen die Funktionen des visuellen und sprachlichen Durchsuchens synchronisiert werden können, ohne dass ein neuer, separater Misch-Browser entwickelt werden muss und ohne dass neue Sprachbehandlungsverfahren direkt in existierende Visual Browser kodiert werden müssen. Vielmehr kann ein unabhängiger Visual Browser durch einen Bezug, der in einem netzbasierten Dokument eingebettet ist, das durch den Visual Browser abrufbar ist, an einen unabhängigen Voice Browser gekoppelt werden. Umgekehrt kann ein unabhängiger Voice Browser durch einen Bezug, der in einem netzbasierten Dokument eingebettet ist, das durch den Voice Browser abrufbar ist, an einen unabhängigen Visual Browser gekoppelt werden. In beiden Fällen werden existierende Kennungen, die durch existierende Formatierungssprachen definiert sind, verwendet, statt dass die Browser-Funktionalität geändert wird, um die Kopplung des Voice Browsers und des Visual Browsers zu ermöglichen.
In der bevorzugten Ausführungsart kann ein netzbasiertes Dokument, das für die Anzeige in einem Visual Browser formatiert ist, von einer Quelle im Computerkommunikationsnetz abgerufen werden. Ein Bezug auf einen Voice Browser kann im abgerufenen Dokument, in dem der Bezug elektronische Inhalte spezifiziert, die für die akustische Darstellung in dem Voice Browser formatiert sind, identifiziert werden. Anschließend kann der Bezug an den Voice Browser übertragen werden. Als Antwort auf den Empfang des übertragenen Bezugs kann der sprachgesteuerte Browser daraus die spezifizierten elektronischen Inhalte extrahieren und die elektronischen Inhalte akustisch darstellen, während der Visual Browser gleichzeitig die elektronischen Inhalte, die in dem netzbasierten Dokument enthalten sind, visuell darstellt.
Fig. 1 zeigt eine Netzumgebung, in der das Verfahren der Erfindung durchgeführt werden kann. Diese Netzumgebung umfasst ein Computerkommunikationsnetz 10, das einen Client- Computer 1 und die Server 20 und 30 verbindet, wobei die Server 20 und 30 mindestens einen Server für Sprachinhalt und mindestens einen Server für visuellen Inhalt umfassen. Bedeutend ist, dass die Erfindung in Hinblick auf die Anzahl der Server-Computer, die zur Versorgung des Client-Computers 1 mit netzbasierten Sprachinhalten und netzbasierten visuellen Inhalten erforderlich ist, nicht beschränkt ist. In einer Ausführungsart der vorliegenden Erfindung kann nämlich ein einzelner Server-Computer dem Client-Computer 1 sowohl Sprach- wie auch visuelle Inhalte liefern. Trotzdem wird zur leichteren Darstellung und Diskussion jeweils ein separater Server-Computer für das Bereitstellen von Sprach- und visuellen Inhalten für die anfordernden Client-Computer gezeigt.
Das Computerkommunikationsnetz 10 kann jedes nicht öffentlich zugängliche Netz wie z. B. ein lokales Netz (local area network, LAN) oder ein Weitverkehrsnetz (wide area network, WAN) oder vorzugsweise das Internet sein. Im Betrieb kann der Client-Computer 1 eine Verbindung mit den Server-Computern 20 und 30 herstellen, um eine Anforderung elektronischer Inhalte, die auf den Server-Computern 20 und 30 gespeichert sind, zu übertragen. Jeder der Server- Computer 20 und 30 kann auf die Anforderung durch das Bereitstellen der angeforderten elektronischen Inhalte für den Client-Computer 1 antworten. Bemerkenswerterweise können die elektronischen Inhalte für die visuelle Darstellung in einem Visual Browser oder für die akustische Darstellung in einem Voice Browser formatiert sein.
In der bevorzugten Ausführungsart sind die elektronischen Inhalte, die für die visuelle Darstellung in einem Visual Browser formatiert sind, HTML-formatierte elektronische Inhalte, die in einem Web-Browser dargestellt werden können. Ebenso sind in der bevorzugten Ausführungsart die elektronischen Inhalte, die für die akustische Darstellung in einem Voice Browser formatiert sind, VoiceXML-formatierte elektronische Inhalte. Die Erfindung ist trotzdem nicht auf ein spezielles Verfahren der Formatierung der elektronischen Inhalte beschränkt. Vielmehr kann jedes geeignete Verfahren zur Formatierung der visuellen elektronischen Inhalte und der akustischen elektronischen Inhalte genügen. Beispiele geeigneter alternativer visueller Formatierungsverfahren können C-HTML, XML, SGML, VRML, usw. umfassen. Ebenso können Beispiele für geeignete alternative akustische Darstellungsverfahren WAV, MPEG, AIFF, etc. umfassen.
In Fig. 1 hat der Client-Computer 1 vorzugsweise eine Zentraleinheit (central processing unit, CPU) 2, eine interne Speichereinheit 3, wie z. B. einen Arbeitsspeicher (random access memory, RAM), und eine feste Speichereinheit 4, wie etwa eine Festplatte (hard disk drive, HDD). Der Client-Computer 1 umfasst auch Netz- Schnittstellenschaltkreise (network interface circuitry, NIC) 5 zur Kommunikationsanbindung des Client-Computers 1 an das Computerkommunikationsnetz 10. Optional kann der Client- Computer 1 des Weiteren eine Tastatur 7 und mindestens eine Benutzerschnittstellen-Anzeigeeinheit 6, wie etwa ein Videoanzeige-Terminal (video display terminal, VDT), umfassen, das daran für den Betrieb zur Interaktion mit dem Client-Computer 1 angeschlossen ist. Zum Zweck der Wiedergabe des Sprachinhalts muss der Client-Computer 1 nicht unbedingt eine Tastatur 7, eine Maus oder eine Anzeigeeinheit 6 besitzen, da diese für die Interaktion mit einem Benutzer über die Sprache nicht notwendig sind. Darüber hinaus kann der Client-Computer 1, der mit dem Benutzer akustisch einen Dialog führt, Audioschaltkreise, einen Lautsprecher und ein Mikrofon umfassen (nicht dargestellt). Des Weiteren muss der Client-Computer 1 kein Personal Computer, wie in Fig. 1 dargestellt, sein. Der Client-Computer 1 kann vielmehr jede Rechenvorrichtung sein, die solche Audioschaltkreise enthält und die in der Lage ist, mit dem Computerkommunikationsnetz 10 zu kommunizieren, um die Verfahren der Erfindung auszuführen.
Wie der Client-Computer 1 haben auch die Server-Computer 20 und 30 vorzugsweise Zentraleinheiten 22 und 32, interne Speichervorrichtungen 23 und 33 und feste Speichereinheiten 24 und 34. Jeder der Server-Computer 20 und 30 umfasst auch Netz-Schnittstellenschaltkreise 25 und 35 zur Kommunikationsanbindung der Server-Computer 20 und 30 an das Computerkommunikationsnetz 10. Anders als der Client- Computer 1 müssen die Server-Computer 20 und 30 keine Tastatur oder Videoanzeigeterminal umfassen, da Benutzer mit den Server-Computern über ein Netz interagieren können. In der bevorzugten Ausführungsart kann der Server-Computer 20 dem Client-Computer 1 visuelle Inhalte für die Anzeige in einem Visual Browser, die auf dem Client-Computer 1 liegen, zur Verfügung stellen. Gleichzeitig kann der Server-Computer 30 dem Client-Computer 1 Sprachinhalte für die akustische Darstellung in einem Voice Browser auf dem Client-Computer 1 zur Verfügung stellen. Die Erfindung ist trotzdem nicht auf eine bestimmte Anzahl an zur Verfügung stehenden Server- Computern beschränkt, um elektronische Inhalte für den Client-Computer 1 bereitzustellen. In einer alternativen Ausführungsart können dem Client-Computer 1 sowohl die visuellen Inhalte als auch die Sprachinhalte durch einen einzelnen Server-Computer zur Verfügung gestellt werden.
In Fig. 2 ist eine hierarchische Darstellung einer Architektur gezeigt, die für die Verwendung im Netz von Fig. 1 geeignet ist, in der der Client-Computer einen Visual Browser 12 und einen Voice Browser 13 koppeln kann, sodass beide gleichzeitig auf netzbasierte elektronische Inhalte auf den Servern 20 und 30 im Computerkommunikationsnetz 10 zugreifen können. Wie in Fig. 2 gezeigt, kann jeder der Server-Computer 20 und 30 ein Betriebssystem (operating system, OS) 21 und 31 umfassen, auf dem die Anwendungen ausgeführt werden können. Wie nach dem Stand der Technik bekannt, kann das Betriebssystem 21 und 31 dazu verwendet werden, für eine darauf laufende Anwendung die Netzkommunikation zur Verfügung zu stellen.
Der Server-Computer 20 kann eine Server-Anwendung umfassen, die auf Anforderungen nach visuell darstellbaren elektronischen Inhalten antwortet. Genauer gesagt, die Server-Anwendung kann als Antwort auf die empfangenen Anforderungen die gewünschten elektronischen Inhalte zur Verfügung stellen. In der bevorzugten Ausführungsart ist die Server-Anwendung ein Web-Server 26, der den anfordernden Computern, die zur Kommunikation mit dem Computerkommunikationsnetz 10 verbunden sind, HTML­ formatierte Inhalte zur Verfügung stellen kann. Genauer gesagt können die HTML-formatierten Inhalte statische HTML- Webseiten sein, die auf dem Server-Computer 20 gespeichert sind, oder dynamisch formatierte HTML-Webseiten, die als Antwort auf empfangene Anforderungen dynamisch erstellt werden. Alternativ dazu können die HTML-formatierten Inhalte ein komprimiertes HTML-Dokument sein.
Ebenso kann der Server-Computer 30 eine Server-Anwendung umfassen, die auf Anforderungen nach akustisch darstellbaren elektronischen Inhalten antwortet. Genauer gesagt kann die Server-Anwendung des Server-Computers 30, wie der Web-Server 26 auf dem Server-Computer 20, als Antwort auf die empfangenen Anforderungen die angeforderten elektronischen Inhalte zur Verfügung stellen. In der bevorzugten Ausführungsart ist die Server-Anwendung ein VoiceXML-Server 36, der anfordernden Computern, die zur Kommunikation mit dem Computerkommunikationsnetz 10 verbunden sind, VoiceXML­ formatierte Inhalte zur Verfügung stellt. Genauer gesagt können die VoiceXML-formatierten Inhalte statische VoiceXML- Dokumente sein, die auf dem Server-Computer 30 gespeichert sind, oder dynamisch formatierte VoiceXML-Dokumente, die als Antwort auf empfangene Anforderungen dynamisch erstellt werden.
In der bevorzugten Ausführungsart kann der Client-Computer 1 ein Betriebssystem (OS) 11 umfassen, z. B. QNX Neutrino, auf dem Anwendungen geladen und ausgeführt werden können. Zwei solche bevorzugte Anwendungen können einen Visual Browser 12 und einen Voice Browser 13 einschließen. Der Visual Browser 12, z. B. ein Web-Browser, kann Benutzeranforderungen von Web-Inhalten auf dem Web-Server 26, der mit dem Computerkommunikationsnetz 10 kommunikativ verbunden ist, annehmen. Als Antwort kann der Visual Browser 12 die Anforderung an den Web-Server 26 unter Verwendung des HyperText Transfer-Protokolls ("HTTP") übertragen. Der Web- Server 26 kann die Anforderung empfangen und kann die angeforderten Web-Inhalte an den Visual Browser 12 übertragen. Ebenso kann der Voice Browser 13 Benutzeranforderungen von VoiceXML-Inhalten auf dem VoiceXML-Server 36, der mit dem Computerkommunikationsnetz 10 kommunikativ verbunden ist, annehmen. Bemerkenswert ist, dass die Benutzeranforderungen von der Spracherkennungseinheit 15 erkannt werden können. Als Antwort kann der Voice Browser 13 ebenfalls unter Verwendung von HTTP die sprachlich erkannte Anforderung an den VoiceXML-Server 36 übertragen. Der VoiceXML-Server 36 kann die Anforderung empfangen und die angeforderten VoiceXML- Inhalte an den Voice Browser 13 übertragen. Folglich können die akustisch darstellbaren elektronischen Inhalte der VoiceXML-Seite mittels der Sprachsyntheseeinheit 14 dem Benutzer akustisch dargestellt werden. Auf diese Weise kann ein Benutzer des Client-Computers 1 sowohl visuelle Inhalte mittels eines Visual Browsers 12 betrachten als auch Sprachinhalte mittels eines Voice Browsers 13 hören.
Wichtig ist, dass ein Benutzer des Client-Computers 1 gleichzeitig sowohl die visuellen als auch die Sprachinhalte, die vom Web-Server 26 bzw. VoiceXML-Server 36 zur Verfügung gestellt werden, durchsuchen kann. D. h., das Durchsuchen der visuellen Inhalte durch den Visual Browser 12 kann mit dem Durchsuchen der Sprachinhalte durch den Voice Browser 13 über eine Kopplung der visuellen Browserfunktionalität des Visual Browsers 12 mit der sprachlichen Browserfunktionalität des Voice Browsers 13 synchronisiert werden. Diese Kopplung kann erreicht werden, ohne dass das Design und die Implementierung eines Browsers für gemischte Inhalte erforderlich sind. Der Visual Browser 12 kann vielmehr an den Voice Browser 13 mittels der in den bereits existierenden Formatierungskennungen als Teil der HTML- und VoiceXML-Spezifikation enthaltenen Koordinationsformatierungsattribute gekoppelt werden.
Insbesondere können in der bevorzugten Ausführungsart HTML­ formatierte Inhalte und VoiceXML-formatierte Inhalte Kennungen des Typs "co-target" umfassen, die zum Verweisen auf andere Browser entworfen wurden. Genauer gesagt, in einem HTML-formatierten Dokument kann eine Anker- Formatierungskennung (anchor) verwendet werden, die ein "href" enthält, um die zu ladenden Ziel-Web-Inhalte zu spezifizieren, wenn ein Benutzer den Anker auswählt. Üblicherweise wird eine URL-Adresse (uniform resource locator, URL) Ziel-Web-Inhalte in "href" spezifizieren. In der bevorzugten Ausführungsart kann ein Co-Ziel, das VoiceXML-Inhalte spezifiziert, bekannt als ein "cohref", in dem Anker zusätzlich zu den Ziel-Web-Inhalten eingebettet sein. Es folgt ein Beispiel eines durch ein "cohref" spezifizierten Co-Ziels:
Wie im obigen Beispiel gezeigt, umfasst der Hyperlink, der durch die Anker-Formatierung spezifiziert ist, einen Verweis sowohl auf eine Ziel-Webseite, die durch "mainmenu.html" spezifiziert ist, als auch auf ein Co-Ziel-VoiceXML- Dokument, das durch "mainmenu.vxml" spezifiziert ist. Wenn der Visual Browser 12 auf diesen Hyperlink stößt, kann der Visual Browser 12 vom Web-Server 26 die Web-Seite "mainmenu.html" anfordern. Darüber hinaus kann der Visual Browser 12 den Co-Ziel-Bezug identifizieren und den Bezug an den Voice Browser 13 übertragen. Der Visual Browser 12 kann den Bezug an den Voice Browser 13 unter Verwendung der Methode visit( ), die in der veröffentlichten Anwendungsprogrammierschnittstelle (applications programming interface, API) des Voice Browsers 13 enthalten ist, übertragen. Als Antwort kann der Voice Browser 13 das VoiceXML-Dokument "mainmenu.vxml". vom VoiceXML-Server 36 anfordern.
Entsprechend kann in einem VoiceXML-formatierten Dokument eine Formatierungskennung Nächste Auswahl ("choice next") verwendet werden, um die zu ladenden Ziel-VoiceXML-Inhalte zu spezifizieren, wenn ein Benutzer sprachlich eine bestimmte Auswahl in dem VoiceXML-Dokument trifft. Üblicherweise werden die Ziel-Web-Inhalte durch eine URL- Adresse ("URL") in der Kennung "choice next" spezifiziert. In der bevorzugten Ausführungsart kann ein Attribut "conext", das Web-Inhalte spezifiziert, in der Kennung "choice next" zusätzlich zu den Ziel-VoiceXML-Inhalten eingebettet sein. Es folgt ein Beispiel einer Kennung "choice next", die ein Attribut "conext" enthält:
Wie im obigen Beispiel gezeigt, umfasst der Hyperlink, der durch die Kennung "next" spezifiziert ist, sowohl einen Verweis auf ein Ziel-VoiceXML-Dokument, das durch "mainmenu.vxml" spezifiziert ist, als auch einen Verweis auf eine Co-Ziel-Webseite, die durch "mainmenu.html" spezifiziert ist. Wenn der Voice Browser 13 auf dieses "next" trifft, kann der Voice Browser 13 das VoiceXML- Dokument "mainmenu.vxml" vom Sprach-Server 36 anfordern. Darüber hinaus kann der Voice Browser 13 den Bezug "conext" identifizieren und den Bezug an den Visual Browser 12 übertragen. Der Voice Browser 13 kann den Bezug an den Visual Browser 12 unter Verwendung eines veröffentlichten API-Funktionsaufrufs des Visual Browsers 12 übertragen, um eine Web-Seite durch die URL der Web-Seite aufzurufen, z. B. die Funktion HTTP "Open". Der Visual Browser 12 kann wiederum die Web-Seite "mainmenu.html" vom Web-Server 26 anfordern.
Bedeutsamerweise ist die vorliegende Erfindung nicht nur auf die Koordinationsformatierungsattribute "href" und "conext" beschränkt. Es stehen vielmehr eine Anzahl an Koordinationsformatierungsattributen für die Verwendung in dem Visual Browser 12 und dem Voice Browser 13 zur Koordinierung der Aktionen des Visual Browsers 12 mit den Aktionen des Voice Browsers 13 zur Verfügung. Genauer gesagt können die Attribute in zwei Kategorien aufgeteilt werden. Erstens können Attribute Aktionen reflektieren, die an der Quelle eines Ereignisses auftreten, wie etwa das Auswählen eines Sprachmenüeintrags, das Vervollständigen eines Sprachformulars oder das Klicken auf einen visuellen Link oder eine Schaltfläche. Zweitens können Attribute Aktionen reflektieren, die am Ziel eines Ereignisses auftreten können, wie etwa das Aufsuchen eines Sprachkörpers, -menüs oder -formulars, oder das Anzeigen eines visuellen Dokuments oder eines Ankers in einem Dokument. Es ist anzumerken, dass Koordinationsformatierungsattribute im Hinblick auf den Visual Browser 12 definiert werden können, die standardmäßig nicht Teil der HTML-Spezifikation sind. Folglich können diese nicht standardmäßigen Attribute in einem anpassbaren Visual Browser, der einen entsprechend erweiterten Kennungsattributsatz besitzt, definiert werden. In der bevorzugten Ausführungsart stellt die folgende Tabelle die bevorzugten Koordinationsformatierungsattribute zur Verwendung in dem Visual Browser 12 und dem Voice Browser 13 der vorliegenden Erfindung dar:
Im Hinblick auf den Voice Browser 13 spezifiziert "conext" die anzuzeigende URL für den Visual Browser 12, wenn ein zugehöriges sprachlich spezifiziertes "goto" oder eine Menüauswahl durch einen Benutzer ausgewählt wird. "Coaction" spezifiziert für den Visual Browser 12 die anzuzeigende URL, wenn ein zugehöriges Sprachformular vervollständigt wurde. Schließlich spezifiziert "covisit" für den Visual Browser 12 die aufzusuchende URL, wenn ein zugehöriges Sprachelement aufgesucht wird. Ebenso wie beim Visual Browser 12 spezifiziert "cohref" für den Voice Browser 13 die aufzusuchende URL, wenn ein zugehöriger visueller Link oder eine Schaltfläche ausgewählt wird. "Coaction" spezifiziert für den Voice Browser 13 die aufzusuchende URL, wenn ein zugehöriges visuelles Formular abgeschickt wurde. Schließlich spezifiziert "covisit" für den Voice Browser 13 die aufzusuchende URL, wenn ein zugehöriges visuelles Dokument geladen wird oder ein visueller Anker dargestellt wird.
Es ist anzumerken, dass sowohl die visuellen als auch die Sprachinhalte in einem einzelnen, zusammengesetzten netzbasierten Dokument enthalten sein können. Im Fall eines zusammengesetzten netzbasierten Dokuments können sowohl der Voice Browser 13 als auch der Visual Browser 12 das zusammengesetzte Dokument syntaktisch analysieren und die darin enthaltenen Inhalte darstellen, die für die Darstellung in dem jeweiligen Browser geeignet sind. Darüber hinaus kann sowohl der Voice Browser 13 als auch der Visual Browser 12 in dem zusammengesetzten Dokument die jeweils durch "cohref" und "conext" spezifizierten elektronischen Inhalte identifizieren. Es folgt ein Beispiel eines zusammengesetzten Dokuments:
Fig. 3 veranschaulicht einen Multi-Modus-Browser 150 zur Implementierung des Verfahrens der Erfindung. Wie aus der Figur ersichtlich ist, kann ein Multi-Modus-Browser 150 gemäß den erfindungsgemäßen Anordnungen drei verschiedene Komponenten umfassen: einen Visual Browser 120, einen Voice Browser 130 und eine Kopplungsschnittstelle 100 zur Kopplung des Voice Browsers 130 mit dem Visual Browser 120 durch Verwalten der Synchronisation zwischen den beiden Browsern. Zusätzlich kann der Multi-Modus-Browser 150 eine Steuerroutine für zeitkritische Ereignisse 140 zur Verarbeitung zeitkritischer Informationen wie etwa Statusinformationen einschließen. Bedeutsamerweise sind die Komponenten Visual Browser 120 und Voice Browser 130 unabhängig. Jede interpretiert ihren eigenen Formatierungssteuerzeichenstrom, um einem Benutzer 160 unabhängige aber zueinander komplementäre Informationen darzustellen. Gemäß dem Verfahren der Erfindung können die Browser miteinander durch die Kopplungsschnittstelle 100 einen Dialog führen.
In der bevorzugten Ausführungsart des Multi-Modus-Browsers 150 ist der Visual Browser 120 ein Java-basierter Mikro- Browser, der für die Ausführung in einer eingebetteten Umgebung entworfen wurde. Der Mikro-Browser kann mit Hilfe von VisualAge® for Embedded Systems® der IBM Corporation of Armonk, New York, implementiert werden. VisualAge for Embedded Systems ergänzt die Java- Benutzerschnittstellenunterstützung mit der Anzeigetechnologie Degas®. Degas ist insbesondere eine Java­ basierte Entwicklungsumgebung, die zum Erstellen GUI­ eingebetteter Anwendungen zur Ausführung auf dem eingebetteten Betriebssystem QNX Neutrino verwendet wird. Degas kann dazu verwendet werden, Bildschirmanzeigen zu erstellen, die einzigartige grafische Ansichten und ein realistisches 3D-Aussehen und -Verhalten besitzen. Genau gesagt kann ein Entwickler, der das Degas-Gerüst verwendet, visuelle Elemente für eine Zieleinheit konstruieren, die Klassen, die solche Elemente implementieren, in Unterklassen unterteilen, und einen GUI-Schnittstellen-Prototyp entwerfen, der solche Elemente verwendet.
Der Mikro-Browser kann die Degas-Klasse Standardapplikationen (DefaultApplication) erweitern und ein HTML-Ansicht-/Controller-Paar als Erweiterung der Degas- Klassen Standardansicht (DefaultView) bzw. Standardcontroller (DefaultController) implementieren. Der HTML-Controller kann Benutzerereignisse von der Anzeige an die Mikro-Browser-Anwendung weitergeben, die wiederum die HTML-Ansicht aktualisieren kann. Eine detailliertere Erörterung des Degas-Gerüsts findet sich in GUI Navigation in Embedded Automotive Systems, von Kern Ann Hamberg und Brian Neal, http:/ / www.tradespeak.com/htmldocs/2030.html (tradespeak 2000), das durch die Bezugnahme Bestandteil dieses Patents ist.
In Fig. 3 ist die Steuerroutine für zeitkritische Ereignisse 140 eine weitere Komponente des Multi-Modus- Browsers 150. Die Steuerroutine für zeitkritische Ereignisse 140 kann auf einem IP-Port Formatierungssteuerzeichen empfangen, die entweder an den Visual Browser 120, den Voice Browser 130 oder an beide über die Kopplungsschnittstelle 100 weitergeleitet werden können. Das Formatierungssteuerzeichen entspricht zeitkritischen Informationen (hier als Statusinformationen bezeichnet), die die aktuelle Anwendung unterbrechen können. Um zu bestimmen, welcher Browser die Statusinformationen anzeigen soll, umfasst das Formatierungssteuerzeichen vorzugsweise einen Inhalts-Typ, oder MIME-Typ, der sich im Kopf des Dokuments, das das mit dem Formatierungssteuerzeichen enthält, befindet. Gemäß der Konvention folgen zwei leere Zeilen auf den Inhalts-Typ, entweder oberhalb der Anfangskennung des HTML- oder oberhalb des VXML-Dokuments. In der bevorzugten Ausführungsart enthält das Formatierungssteuerzeichen, das Statusinformationen enthält, die von dem Multi-Modus-Browser 150 empfangen werden, vorzugsweise einen Inhalts-Typ VXML, CHTML oder EVXML.
Beim Betrieb kann der Benutzer 160, basierend auf einer Benutzerinteraktion mit Sprach- oder visuellen Inhalten, zu einer neuen Adresse navigieren. Beim Übergang eines jeden Browsers von einer URL zu einer anderen kann sich der eine Browser mit dem anderen Browser über die Koordinationsformatierungsattribute, die zu den jeweiligen Formatierungssprachen hinzugefügt sind, beim Durchsuchen koordinieren. Diese Elementattribute können den Browser anweisen, den anderen Browser zu benachrichtigen, wenn eine komplementäre URL ("co-URL") aufgesucht werden soll. Wenn der Benutzer 160 z. B. einen Link im Visual Browser 120 auswählt, sucht der Visual Browser 120 die URL der visuellen Seite auf, die durch den Link spezifiziert wird. Um den Voice Browser 130 anzuweisen, die entsprechende Sprachseite aufzusuchen, kann ein Anwendungsentwickler ein Attribut "covisit" hinzufügen, das die URL der gewünschten Sprachseite zur HTML-Anker oder -Formular-Kennung in der visuellen Seite enthält. Analog sucht der Voice Browser die URL der Sprachseite auf, die durch den Link spezifiziert wird, wenn der Benutzer 160 einen Link im Voice Browser 130 auswählt. Um den Visual Browser 120 anzuweisen, die entsprechende visuelle Seite aufzusuchen, kann der Anwendungsentwickler ein Attribut "comenu", "coform" oder "conext" hinzufügen, das die URL der gewünschten visuellen Seite zur VXML-Kennung in der Sprachseite enthält.
Somit kann jede Browserkomponente (Voice und Visual) ihren Formatierungssteuerzeichenstrom interpretieren und ihren eigenen Übergang von einem Dokument oder Dokumentelement (URL) zu einem anderen Dokument oder Dokumentelement machen. Die Dokumentelemente enthalten Formatierungsattribute, die die Übergänge eines jeden Browsers auf den anderen an Punkten, die durch den Anwendungsentwickler gewählt werden, synchronisieren.
Somit können die Koordinationsformatierungsattribute, z. B. die Kennungen "cohref" und "conext", zur Kopplung eines Visual Browsers an einen Voice Browser verwendet werden, ohne eine umfassende Änderung einer der beiden zu erfordern. Die Inhaltsformatierungssteuerzeichen selbst können vielmehr als Kopplungsagent agieren. Somit kann, wenn z. B. ein Benutzer auf eine visuelle Anzeige einer Abbildung in einem Visual Browser mit der Maus klickt, eine Kennung "co- target", die zur Abbildung gehört, einem Voice Browser anzeigen, dass er die der Abbildung zugeordneten Audioinhalte laden und abspielen soll. Umgekehrt kann ein Voice Browser einen Benutzer auffordern, den Namen eines geografischen Orts auszusprechen, für den der Voice Browser Zusatzinformationen akustisch zur Verfügung stellen kann. Als Antwort auf den Empfang der Spracheingabe, die einen geografischen Ort bezeichnet, kann eine Kennung "co-target", die zur Sprachaufforderung gehört, einem Visual Browser anzeigen, dass er eine Karte des Orts des angegebenen geografischen Orts laden und anzeigen soll.

Claims (27)

1. Verfahren zum gleichzeitigen Zugreifen auf netzbasierte elektronische Inhalte in einem Voice Browser und einem Visual Browser, das folgende Schritte umfasst:
Abrufen eines netzbasierten Dokuments, das für die Anzeige im Visual Browser formatiert ist;
Identifizieren eines Bezugs auf den Voice Browser in dem abgerufenen Dokument, wobei der Bezug elektronische Inhalte, die für die akustische Darstellung im Voice Browser formatiert sind, spezifiziert; und
übermitteln des Bezugs an den Voice Browser;
Abrufen der spezifizierten elektronischen Inhalte durch den Voice Browser und akustische Darstellung der elektronischen Inhalte im Voice Browser;
visuelle Darstellung des netzbasierten Dokuments durch den Visual Browser gleichzeitig mit der akustischen Darstellung.
2. Verfahren gemäß Anspruch 1, bei dem das netzbasierte Dokument, das für die visuelle Darstellung im Visual Browser formatiert ist, ein HTML-formatiertes Dokument ist und der Visual Browser ein Web-Browser ist.
3. Verfahren gemäß Anspruch 1, bei dem die elektronischen Inhalte, die für die akustische Darstellung im Voice Browser formatiert sind, VoiceXML-formatierte elektronische Inhalte sind.
4. Verfahren gemäß Anspruch 2, bei dem der Bezug ein Koordinationsformatierungsattribut ist.
5. Verfahren gemäß Anspruch 1, bei dem der Bezug ein netzbasiertes Dokument spezifiziert, das die elektronischen Inhalte enthält, die für die akustische Darstellung im Voice Browser formatiert sind, wobei der Voice Browser das spezifizierte netzbasierte Dokument über das Computerkommunikationsnetz abrufen und die elektronischen Inhalte, die in dem spezifizierten netzbasierten Dokument enthalten sind, akustisch darstellen kann, während der Visual Browser das netzbasierte Dokument, das für die visuelle Darstellung formatiert ist, visuell darstellen kann.
6. Verfahren zum gleichzeitigen Zugreifen auf netzbasierte elektronische Inhalte in einem Voice Browser und einem Visual Browser, das Folgendes umfasst:
Abrufen eines netzbasierten elektronischen Dokuments, das für akustische Darstellung im Voice Browser formatiert ist;
Identifizieren eines Bezugs auf den Visual Browser in dem abgerufenen Dokument, wobei der Bezug die elektronischen Inhalte, die für die visuelle Darstellung im Visual Browser formatiert sind, spezifiziert; und
Übermitteln des Bezugs an den Visual Browser;
Abrufen der spezifizierten elektronischen Inhalte durch den Visual Browser und visuelle Darstellung der elektronischen Inhalte im Visual Browser;
akustische Darstellung des netzbasierten Dokuments durch den Voice Browser gleichzeitig mit der visuellen Darstellung.
7. Verfahren gemäß Anspruch 6, bei dem das netzbasierte Dokument, das für die akustische Darstellung im Voice Browser formatiert ist, ein VoiceXML-Dokument ist.
8. Verfahren gemäß Anspruch 6, bei dem die elektronischen Inhalte, die für die visuelle Darstellung im Visual Browser formatiert sind, HTML-formatierte elektronische Inhalte sind und der Visual Browser ein Web-Browser ist.
9. Verfahren gemäß Anspruch 6, bei dem der Bezug ein netzbasiertes Dokument spezifiziert, das die elektronischen Inhalte enthält, die für die visuelle Darstellung im Visual Browser formatiert sind, wobei der Visual Browser das spezifizierte netzbasierte Dokument über das Computerkommunikationsnetz abrufen und die elektronischen Inhalte, die in dem netzbasierten Dokument enthalten sind, visuell darstellen kann, während der Voice Browser das netzbasierte Dokument, das für die akustische Darstellung formatiert ist, akustisch darstellen kann.
10. Maschinenlesbarer Speicher, auf dem ein Computerprogramm zum gleichzeitigen Zugreifen auf netzbasierte elektronische Inhalte in einem Visual Browser und einem Voice Browser gespeichert ist, wobei das Computerprogramm eine Vielzahl von Codeabschnitten besitzt, die durch eine Maschine ausführbar sind, um die Maschine zur Durchführung der folgenden Schritte zu veranlassen:
Abrufen eines netzbasierten Dokuments, das für die Anzeige im Visual Browser formatiert ist;
Identifizieren eines Bezugs auf den Voice Browser in dem abgerufenen Dokument, wobei der Bezug elektronische Inhalte, die für die akustische Darstellung im Voice Browser formatiert sind, spezifiziert; und
Übermitteln des Bezugs an den Voice Browser;
Abrufen der spezifizierten elektronischen Inhalte durch den Voice Browser und akustische Darstellung der elektronischen Inhalte im Voice Browser;
visuelle Darstellung des netzbasierten Dokuments durch den Visual Browser gleichzeitig mit der akustischen Darstellung.
11. Maschinenlesbarer Speicher gemäß Anspruch 10, bei dem das netzbasierte Dokument, das für die visuelle Darstellung im Visual Browser formatiert ist, ein HTML- Dokument ist und der Visual Browser ein Web-Browser ist.
12. Maschinenlesbarer Speicher gemäß Anspruch 10, in dem die elektronischen Inhalte, die für die akustische Darstellung im Voice Browser formatiert sind, VoiceXML­ formatierte elektronische Inhalte sind.
13. Maschinenlesbarer Speicher gemäß Anspruch 11, bei dem der Bezug ein Koordinationsformatierungsattribut ist.
14. Maschinenlesbarer Speicher gemäß Anspruch 10, bei dem der Bezug ein netzbasiertes Dokument spezifiziert, das die elektronischen Inhalte enthält, die für die akustische Darstellung im Voice Browser formatiert sind, wobei der Voice Browser das spezifizierte netzbasierte Dokument über das Computerkommunikationsnetz abrufen und die elektronischen Inhalte, die in dem spezifizierten netzbasierten Dokument enthalten sind, akustisch darstellen kann, während der Visual Browser das netzbasierte Dokument, das für die visuelle Darstellung formatiert ist, visuell darstellen kann.
15. Maschinenlesbarer Speicher, auf dem ein Computerprogramm zum gleichzeitigen Zugreifen auf netzbasierte elektronische Inhalte in einem Visual Browser und einem Voice Browser gespeichert ist, wobei das Computerprogramm eine Vielzahl von Codeabschnitten, die durch eine Maschine ausführbar sind, besitzt, um die Maschine zur Durchführung der folgenden Schritte zu veranlassen:
Abrufen eines netzbasierten Dokuments, das für die akustische Darstellung im Voice Browser formatiert ist;
Identifizieren eines Bezugs auf den Visual Browser in dem abgerufenen Dokument, wobei der Bezug die elektronischen Inhalte, die für die visuelle Darstellung im Visual Browser formatiert sind, spezifiziert;
Übermitteln des Bezugs an den Visual Browser;
Abrufen der spezifizierten elektronischen Inhalte durch den Visual Browser und visuelle Darstellung der elektronischen Inhalte im Visual Browser;
akustische Darstellung des netzbasierten Dokuments durch den Voice Browser gleichzeitig mit der visuellen Darstellung.
16. Maschinenlesbarer Speicher gemäß Anspruch 15, bei dem das netzbasierte Dokument, das für die akustische Darstellung im Voice Browser formatiert ist, ein VoiceXML-formatiertes Dokument ist.
17. Maschinenlesbarer Speicher gemäß Anspruch 15, bei dem die elektronischen Inhalte, die für die visuelle Darstellung im Visual Browser formatiert sind, HTML­ formatierte elektronische Inhalte sind und der Visual Browser ein Web-Browser ist.
18. Maschinenlesbarer Speicher gemäß Anspruch 15, bei dem der Bezug ein netzbasiertes Dokument spezifiziert, das die elektronischen Inhalte enthält, die für die visuelle Darstellung im Visual Browser formatiert sind, wodurch der Visual Browser das spezifizierte netzbasierte Dokument über das Computerkommunikationsnetz abrufen und die elektronischen Inhalte, die in dem spezifizierten netzbasierten Dokument enthalten sind, visuell darstellen kann, während der Voice Browser das netzbasierte Dokument, das für die akustische Darstellung formatiert ist, akustisch darstellen kann.
19. Ein Multi-Modus-Browser, der Folgendes umfasst:
einen Visual Browser zur visuellen Darstellung visueller Inhalte, die von einem Computerkommunikationsnetz abgerufen wurden;
einen Voice Browser zur akustischen Darstellung von Sprachinhalten, die von dem Computerkommunikationsnetz abgerufen wurden; und
eine Kopplungsschnittstelle zur Synchronisation der visuellen und akustischen Darstellung der visuellen und der Sprachinhalte in jedem der jeweiligen Visual bzw. Voice Browser.
20. Multi-Modus-Browser gemäß Anspruch 19, bei dem die visuellen Inhalte HTML-formatierte Inhalte und die Sprachinhalte VoiceXML-formatierte Inhalte sind.
21. Multi-Modus-Browser gemäß Anspruch 19, der des Weiteren umfasst:
eine Steuerroutine für zeitkritische Ereignisse,
wobei die Steuerroutine für zeitkritische Ereignisse zeitkritische Inhalte empfängt,
die Steuerroutine für zeitkritische Ereignisse in den zeitkritischen Inhalten einen Inhalts-Typ-Indikator identifiziert,
die Steuerroutine für zeitkritische Ereignisse die zeitkritischen Inhalte an den Visual Browser weiterleitet, wenn der Inhalts-Typ-Indikator visuelle Inhalte anzeigt,
die Steuerroutine für zeitkritische Ereignisse die zeitkritischen Inhalte an den Voice Browser weiterleitet, wenn der Inhalts-Typ-Indikator Sprachinhalte anzeigt.
22. Verfahren zum Ändern eines netzbasierten Dokuments zur Unterstützung des gleichzeitigen Zugriffs auf netzbasierte Sprach- und visuelle Inhalte in einem Voice Browser und einem Visual Browser, das die folgenden Schritte umfasst:
Integrieren von visuellen Inhalten in ein netzbasiertes Dokument;
Formatieren des netzbasierten Dokuments für die visuelle Darstellung in einem Visual Browser; und
Einfügen von mindestens einer Formatierungskennung in das netzbasierte Dokument, wobei die Formatierungskennung ein Koordinationsformatierungsattribut enthält, das ein netzbasiertes Dokument spezifiziert, das für die akustische Darstellung in einem Voice Browser formatiert ist,
wodurch der Visual Browser bei der Wiedergabe des netzbasierten Dokuments, das für die visuelle Darstellung formatiert ist, das Koordinationsformatierungsattribut in der Formatierungskennung identifizieren und einen Bezug auf das spezifizierte netzbasierte Dokument an den Voice Browser übertragen kann, was den Voice Browser veranlasst, das spezifizierte netzbasierte Dokument abzurufen und es gleichzeitig mit der visuellen Darstellung des netzbasierten Dokuments, das für die visuelle Darstellung in dem Visual Browser formatiert ist, akustisch darzustellen.
23. Verfahren gemäß Anspruch 22, bei dem das netzbasierte Dokument, das für die visuelle Darstellung in einem Visual Browser formatiert ist, ein HTML-formatiertes Dokument ist, und der Visual Browser ein Web-Browser ist.
24. Verfahren gemäß Anspruch 22, bei dem das netzbasierte Dokument, das für die akustische Darstellung in einem Voice Browser formatiert ist, ein VoiceXML-formatiertes Dokument ist und der Voice Browser ein VoiceXML-Browser ist.
25. Verfahren zum Andern eines netzbasierten Dokuments zur Unterstützung des gleichzeitigen Zugriffs auf netzbasierte Sprach- und visuelle Inhalte in einem Voice Browser und einem Visual Browser, das die folgenden Schritte umfasst:
Integrieren von Sprachinhalten in ein netzbasiertes Dokument;
Formatieren des netzbasierten Dokuments für die akustische Darstellung in einem Voice Browser;
Einfügen von mindestens einer Formatierungskennung in das netzbasierte Dokument;
wobei die Formatierungskennung ein Koordinationsformatierungsattribut enthält, das das netzbasierte Dokument spezifiziert, das für die visuelle Darstellung in einem Visual Browser formatiert ist,
wodurch der Voice Browser bei der Wiedergabe des netzbasierten Dokuments, das für die akustische Darstellung formatiert ist, das Koordinationsformatierungsattribut in der Formatierungskennung identifizieren und einen Bezug auf das spezifizierte netzbasierte Dokument an den Visual Browser übertragen kann, was den Visual Browser veranlasst, das spezifizierte netzbasierte Dokument abzurufen und das spezifizierte netzbasierte Dokument gleichzeitig mit der akustischen Darstellung des netzbasierten Dokuments, das für die akustische Darstellung in dem Voice Browser formatiert ist, visuell darzustellen.
26. Verfahren gemäß Anspruch 25, bei dem das netzbasierte Dokument, das für die visuelle Darstellung in einem Visual Browser formatiert ist, ein HTML-formatiertes Dokument ist und der Visual Browser ein Web-Browser ist.
27. Verfahren gemäß Anspruch 25, bei dem das netzbasierte Dokument, das für die akustische Darstellung in einem Voice Browser formatiert ist, ein VoiceXML-formatiertes Dokument ist und der Voice Browser ein VoiceXML-Browser ist.
DE10125406A 2000-06-28 2001-05-25 Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser Ceased DE10125406A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/605,612 US7080315B1 (en) 2000-06-28 2000-06-28 Method and apparatus for coupling a visual browser to a voice browser

Publications (1)

Publication Number Publication Date
DE10125406A1 true DE10125406A1 (de) 2002-01-17

Family

ID=24424435

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10125406A Ceased DE10125406A1 (de) 2000-06-28 2001-05-25 Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser

Country Status (4)

Country Link
US (4) US7080315B1 (de)
CA (1) CA2346606C (de)
DE (1) DE10125406A1 (de)
TW (1) TWI233045B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004023788A2 (en) * 2002-09-09 2004-03-18 Kirusa, Inc. System and method for multi-modal browsing with integrated update feature

Families Citing this family (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7406657B1 (en) 2000-09-22 2008-07-29 International Business Machines Corporation Audible presentation and verbal interaction of HTML-like form constructs
US7054939B2 (en) * 2001-06-28 2006-05-30 Bellsouth Intellectual Property Corportion Simultaneous visual and telephonic access to interactive information delivery
US6983307B2 (en) * 2001-07-11 2006-01-03 Kirusa, Inc. Synchronization among plural browsers
US6876727B2 (en) * 2002-07-24 2005-04-05 Sbc Properties, Lp Voice over IP method for developing interactive voice response system
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US7356472B2 (en) 2003-12-11 2008-04-08 International Business Machines Corporation Enabling speech within a multimodal program using markup
KR100561228B1 (ko) * 2003-12-23 2006-03-15 한국전자통신연구원 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
US7912186B2 (en) * 2004-10-20 2011-03-22 Microsoft Corporation Selectable state machine user interface system
US7551727B2 (en) * 2004-10-20 2009-06-23 Microsoft Corporation Unified messaging architecture
US7924985B2 (en) * 2005-04-21 2011-04-12 The Invention Science Fund I, Llc Interaction history applied to structured voice interaction system
US8139725B2 (en) * 2005-04-22 2012-03-20 The Invention Science Fund I, Llc Associated information in structured voice interaction systems
US7813485B2 (en) * 2005-05-26 2010-10-12 International Business Machines Corporation System and method for seamlessly integrating an interactive visual menu with an voice menu provided in an interactive voice response system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20080065715A1 (en) * 2006-08-28 2008-03-13 Ko-Yu Hsu Client-Server-Based Communications System for the Synchronization of Multimodal data channels
US20100174544A1 (en) * 2006-08-28 2010-07-08 Mark Heifets System, method and end-user device for vocal delivery of textual data
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7881932B2 (en) * 2006-10-02 2011-02-01 Nuance Communications, Inc. VoiceXML language extension for natively supporting voice enrolled grammars
US8229080B2 (en) * 2006-11-10 2012-07-24 Verizon Patent And Licensing Inc. Testing and quality assurance of multimodal applications
US8009811B2 (en) 2006-11-10 2011-08-30 Verizon Patent And Licensing Inc. Testing and quality assurance of interactive voice response (IVR) applications
US8880405B2 (en) * 2007-03-07 2014-11-04 Vlingo Corporation Application text entry in a mobile environment using a speech processing facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8054310B2 (en) * 2007-06-18 2011-11-08 International Business Machines Corporation Recasting a legacy web page as a motion picture with audio
US7945847B2 (en) * 2007-06-26 2011-05-17 International Business Machines Corporation Recasting search engine results as a motion picture with audio
US20090006965A1 (en) * 2007-06-26 2009-01-01 Bodin William K Assisting A User In Editing A Motion Picture With Audio Recast Of A Legacy Web Page
US9065911B2 (en) * 2007-09-28 2015-06-23 Nuance Communications, Inc. System, method and architecture for control and multi-modal synchronization of speech browsers
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9811602B2 (en) * 2009-12-30 2017-11-07 International Business Machines Corporation Method and apparatus for defining screen reader functions within online electronic documents
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9594845B2 (en) * 2010-09-24 2017-03-14 International Business Machines Corporation Automating web tasks based on web browsing histories and user actions
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10157612B2 (en) * 2012-08-02 2018-12-18 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292253B2 (en) 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9400633B2 (en) 2012-08-02 2016-07-26 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9781262B2 (en) 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292252B2 (en) 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9600227B2 (en) * 2013-11-21 2017-03-21 Google Technology Holdings LLC System and method for speech-based navigation and interaction with a device's visible screen elements using a corresponding view hierarchy
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3149728B1 (de) 2014-05-30 2019-01-16 Apple Inc. Eingabeverfahren durch einzelne äusserung mit mehreren befehlen
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10291776B2 (en) * 2015-01-06 2019-05-14 Cyara Solutions Pty Ltd Interactive voice response system crawler
US11489962B2 (en) 2015-01-06 2022-11-01 Cyara Solutions Pty Ltd System and methods for automated customer response system mapping and duplication
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
WO2017108139A1 (en) * 2015-12-23 2017-06-29 Intel Corporation Changing information output modalities
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US11062497B2 (en) * 2017-07-17 2021-07-13 At&T Intellectual Property I, L.P. Structuralized creation and transmission of personalized audiovisual data
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10996827B2 (en) 2019-07-10 2021-05-04 Bank Of America Corporation System for rendering applications based on real time accessibility assessment
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11134149B1 (en) * 2020-06-15 2021-09-28 Verizon Patent And Licensing Inc. Systems and methods for providing multi-modal interaction via user equipment

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748186A (en) 1995-10-02 1998-05-05 Digital Equipment Corporation Multimodal information presentation system
US6057856A (en) * 1996-09-30 2000-05-02 Sony Corporation 3D virtual reality multi-user interaction with superimposed positional information display for each user
US6088032A (en) * 1996-10-04 2000-07-11 Xerox Corporation Computer controlled display system for displaying a three-dimensional document workspace having a means for prefetching linked documents
US5983200A (en) * 1996-10-09 1999-11-09 Slotznick; Benjamin Intelligent agent for executing delegated tasks
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6018710A (en) * 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US6006241A (en) * 1997-03-14 1999-12-21 Microsoft Corporation Production of a video stream with synchronized annotations over a computer network
US6449653B2 (en) * 1997-03-25 2002-09-10 Microsoft Corporation Interleaved multiple multimedia stream for synchronized transmission over a computer network
US6125376A (en) * 1997-04-10 2000-09-26 At&T Corp Method and apparatus for voice interaction over a network using parameterized interaction definitions
JPH1125119A (ja) * 1997-06-30 1999-01-29 Canon Inc ハイパーテキスト閲覧システム
US6223292B1 (en) * 1997-07-15 2001-04-24 Microsoft Corporation Authorization systems, methods, and computer program products
US20020002458A1 (en) * 1997-10-22 2002-01-03 David E. Owen System and method for representing complex information auditorially
US6145003A (en) * 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US6654931B1 (en) * 1998-01-27 2003-11-25 At&T Corp. Systems and methods for playing, browsing and interacting with MPEG-4 coded audio-visual objects
SG92628A1 (en) * 1999-02-13 2002-11-19 Newstakes Inc A method and apparatus for converting video to multiple mark-up-language presentations
US6606611B1 (en) * 1999-02-27 2003-08-12 Emdadur Khan System and method for audio-only internet browsing using a standard telephone
US7188353B1 (en) * 1999-04-06 2007-03-06 Sharp Laboratories Of America, Inc. System for presenting synchronized HTML documents in digital television receivers
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
US6922733B1 (en) * 1999-06-30 2005-07-26 International Business Machines Corporation Method for coordinating visual and speech web browsers
US8448059B1 (en) * 1999-09-03 2013-05-21 Cisco Technology, Inc. Apparatus and method for providing browser audio control for voice enabled web applications
US6668273B1 (en) * 1999-11-18 2003-12-23 Raindance Communications, Inc. System and method for application viewing through collaborative web browsing session
US20070005428A1 (en) * 1999-12-08 2007-01-04 Jacobs Paul E Method for distributing advertisements to client devices having e-mail software installed including multiple advertisement operational modes
US6349132B1 (en) * 1999-12-16 2002-02-19 Talk2 Technology, Inc. Voice interface for electronic documents
US7116765B2 (en) * 1999-12-16 2006-10-03 Intellisync Corporation Mapping an internet document to be accessed over a telephone system
WO2001050353A1 (en) * 2000-01-04 2001-07-12 Ma'at System and method for anonymous observation and use of premium content
US6496802B1 (en) * 2000-01-07 2002-12-17 Mp3.Com, Inc. System and method for providing access to electronic works
US6732142B1 (en) * 2000-01-25 2004-05-04 International Business Machines Corporation Method and apparatus for audible presentation of web page content
US6721781B1 (en) * 2000-01-25 2004-04-13 International Business Machines Corporation Method of providing an alternative audio format of a web page in response to a request for audible presentation of the same
US6711714B1 (en) * 2000-02-02 2004-03-23 Siemens Corporate Research, Inc. Linearization of framesets for audibly rendering frames
US20010034746A1 (en) * 2000-02-26 2001-10-25 Alex Tsakiris Methods and systems for creating user-defined personal web cards
US6697564B1 (en) * 2000-03-03 2004-02-24 Siemens Corporate Research, Inc. Method and system for video browsing and editing by employing audio
US7210093B1 (en) * 2000-03-09 2007-04-24 International Business Machines Corporation Method, system, and program for displaying pages downloaded from over a network in an application window
US20050021862A1 (en) * 2000-03-31 2005-01-27 Dickens Coal Llc Automatic selection of content-delivery provider using link mapping database
US7093129B1 (en) * 2000-06-19 2006-08-15 International Business Machines Corporation Secured encrypted communications in a voice browser
US7519902B1 (en) * 2000-06-30 2009-04-14 International Business Machines Corporation System and method for enhanced browser-based web crawling
JP3703080B2 (ja) * 2000-07-27 2005-10-05 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブコンテンツを簡略化するための方法、システムおよび媒体
US6745163B1 (en) * 2000-09-27 2004-06-01 International Business Machines Corporation Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7266767B2 (en) * 2000-11-27 2007-09-04 Parker Philip M Method and apparatus for automated authoring and marketing
GB0029025D0 (en) * 2000-11-29 2001-01-10 Hewlett Packard Co Enhancement of communication capabilities
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US20030164848A1 (en) * 2001-03-01 2003-09-04 International Business Machines Corporation Method and apparatus for summarizing content of a document for a visually impaired user
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
US6983307B2 (en) * 2001-07-11 2006-01-03 Kirusa, Inc. Synchronization among plural browsers
US7032169B2 (en) * 2002-05-22 2006-04-18 International Business Machines Corporation Method and system for distributed coordination of multiple modalities of computer-user interaction
US20050164153A1 (en) * 2004-01-28 2005-07-28 Beatty Alejandra L. Method and apparatus for providing presentation options during an on-line educational exam based upon a user's profile

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004023788A2 (en) * 2002-09-09 2004-03-18 Kirusa, Inc. System and method for multi-modal browsing with integrated update feature
WO2004023788A3 (en) * 2002-09-09 2004-05-06 Kirusa Inc System and method for multi-modal browsing with integrated update feature
US7275217B2 (en) 2002-09-09 2007-09-25 Vijay Anand Saraswat System and method for multi-modal browsing with integrated update feature

Also Published As

Publication number Publication date
US7080315B1 (en) 2006-07-18
US20140089783A1 (en) 2014-03-27
CA2346606A1 (en) 2001-12-28
US7657828B2 (en) 2010-02-02
US20060206591A1 (en) 2006-09-14
TWI233045B (en) 2005-05-21
US20100293446A1 (en) 2010-11-18
US8555151B2 (en) 2013-10-08
CA2346606C (en) 2012-07-10

Similar Documents

Publication Publication Date Title
DE10125406A1 (de) Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser
DE60133529T2 (de) Sprachnavigation in Webanwendungen
DE60108158T2 (de) Onlineentwicklung von applikationen
DE60121987T2 (de) Zugreifen auf Daten, die bei einer Zwischenstation gespeichert sind, von einem Dienst aus
DE69922971T2 (de) Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache
DE19842688B4 (de) Verfahren zum Filtern von Daten, die von einem Datenanbieter stammen
US6725424B1 (en) Electronic document delivery system employing distributed document object model (DOM) based transcoding and providing assistive technology support
US7054952B1 (en) Electronic document delivery system employing distributed document object model (DOM) based transcoding and providing interactive javascript support
DE60028561T2 (de) Bereitstellung von kundendiensten, die daten aus datenquellen abrufen, wobei die datenquellen die vom kunden geforderten formate nicht notwendigerweise unterstützen
WO2003054731A9 (de) Verfahren zur rechnergestützten transformation strukturierter dokumente
DE69829604T2 (de) System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz
DE60225086T2 (de) Webfähige Erkennungsarchitektur
DE19962192A1 (de) Verfahren und System zur Inhaltskonvertierung von elektronischen Daten für drahtlose Vorrichtungen
DE60207217T2 (de) Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite
US20030101413A1 (en) Smart links
EP1369790A2 (de) Verfahren zur dynamischen Generierung strukturierter Dokumente
DE602004008887T2 (de) Verfahren und Server zur Bereitstellung eines multi-modalen Dialogs
GB2364802A (en) Electronic document delivery and transformation
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE60130003T2 (de) Verfahren und system zum automatisieren von internet-interaktionen
DE602004011610T2 (de) Web-anwendungsserver
DE10250836A1 (de) System und Verfahren zum Zugreifen auf entfernte Lesezeichenlisten und Verwenden derselben
DE10352400A1 (de) Netzwerkdienst-Abfangvorrichtung
DE60303578T2 (de) Interaktionserver, Computerprogramm und Verfahren zur Anpassung von Dialogmodalitäten zwischen einem Client und einem Server
DE10045409A1 (de) Modellierung von Verknüpfung und Navigation in einem Hostsystem mit alten Beständen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection