CN1343337A - 数据库注释和获取 - Google Patents

数据库注释和获取 Download PDF

Info

Publication number
CN1343337A
CN1343337A CN00804674A CN00804674A CN1343337A CN 1343337 A CN1343337 A CN 1343337A CN 00804674 A CN00804674 A CN 00804674A CN 00804674 A CN00804674 A CN 00804674A CN 1343337 A CN1343337 A CN 1343337A
Authority
CN
China
Prior art keywords
data
phoneme
word
annotation
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00804674A
Other languages
English (en)
Other versions
CN1343337B (zh
Inventor
贾森·彼德·安德鲁·查里斯沃斯
杰布·雅各布·拉詹
菲利普·内尔·嘎纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9905201.1A external-priority patent/GB9905201D0/en
Priority claimed from GBGB9905160.9A external-priority patent/GB9905160D0/en
Priority claimed from GBGB9905186.4A external-priority patent/GB9905186D0/en
Priority claimed from GBGB9905199.7A external-priority patent/GB9905199D0/en
Priority claimed from GBGB9905187.2A external-priority patent/GB9905187D0/en
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1343337A publication Critical patent/CN1343337A/zh
Application granted granted Critical
Publication of CN1343337B publication Critical patent/CN1343337B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Abstract

为数据库内的数据文档注释提供了一种数据结构。该注释数据包括音素和字格,它使得能够响应于用户的输入询问而对数据库内的数据文档进行迅速而有效的搜索。该注释数据的结构使得该输入询问能够通过语音进行,并可被用于对各种数据文档进行注释,如声频数据文档、视频数据文档、多媒体数据文档等。该注释数据可从数据文档本身产生,或由用户通过语音输入或键入输入而输入。

Description

数据库注释和获取
本发明的领域
本发明涉及对将要存储在数据库中的数据文档的注释以便利随后对这些数据文档的获取。本发明还涉及用于产生被加到数据文档上的注释数据的系统以及用于在数据库中搜索该注释数据以响应于用户输入的询问获取所希望的数据文档的系统。
信息数据库是众所周知的,并存在着如何迅速而有效地定位和从数据库获取所希望的信息的问题。已有的数据库搜索工具使用户能够利用键入的关键字来搜索数据库。虽然这是迅速而有效的,但这种搜索不适合于各种的数据库,诸如视频或声频数据库。
根据一个方面,本发明的目的是提供一种数据结构,它使得能够进行数据库内的数据文档注释,从而能够响应于用户输入的询问而迅速而有效地进行搜索。
根据一个方面,本发明提供了这样的数据,即该数据定义了一种音素和字格(word lattice),该音素和字格被用作一种注释数据以用于注释将要存储在一个数据库中的数据文档。优选地,该数据定义了该字格中的多个节点和连接该字格中的这些节点的多个链接,且进一步的数据把多个音素与相应的多个链接相联系,且进一步的数据把至少一个字与用至少一个所述链接相联系。
根据另一个方面,本发明提供了响应于一个用户的一个输入询问而搜索包括上述注释数据的一个数据库的一种方法。该方法优选地包括以下步骤:产生与用户的输入询问对应的音素数据和字数据;利用与用户的询问相应的字数据对数据库进行搜索;响应于该字搜索的结果而选择数据库中定义音素和字格的数据部分以进行进一步的搜索;利用与用户的输入询问相应的所述音素数据搜索数据库的所述选定部分;以及,输出搜索结果。
根据该方面,本发明还提供了一种设备,用于对采用上述注释的数据库进行搜索以对其中的数据文档进行注释。该设备优选地包括:装置,用于产生与用户的输入询问对应的音素数据和字数据;装置,用于利用与用户的询问相应的字数据对数据库进行搜索,从而识别数据库中的类似的字;装置,用于响应于该字搜索的结果而选择数据库中的数据的一部分以进行进一步的搜索;装置,用于利用与用户的输入询问相应的所述音素数据来搜索所述选定部分;以及,装置,用于输出搜索结果。
用于一种数据文档的该音素和注释数据可以从该数据文档自己产生,或者是从用户键入或讲出的注释输入产生。
现在结合附图描述本发明的示例性的实施例。在附图中:
图1是得到编程以实施本发明的一个实施例的一个计算机的示意图;
图2是框图,显示了用于产生用于附在一个数据文档上的音素和字注释数据的音素和字注释器单元;
图3是框图,显示了该音素和字注释器能够从输入的视频数据文档产生注释数据的一种方式;
图4a是用于来自该输入视频数据文档的一个示例性声频串的一个音素格的一个示意图;
图4b是体现本发明的一个方面的一种字和音素格的示意图,它用于来自输入视频数据文档的一个示例性声频串;
图5是使用户能够通过语音询问而从数据库获取信息的用户终端的示意框图;
图6a是流程图,显示了图5中显示的用户终端的流程控制的一部分;
图6b是流程图,显示了图5显示的用户终端的流程控制的其余部分;
图7是流程图,显示了构成该用户终端的一部分的一个搜索引擎在该数据库内执行一种音素搜索的方式;
图8是示意图,显示了一个音素串和从该音素串产生的四个M-GRAM的形式;
图9是两个矢量和这两个矢量之间的夹角的图示;
图10是诸如来自两个讲话者的声频串的一对字和音素格的一个示意图;
图11是示意框图,显示了一种用户终端,它使得能够用从用户的一个声频信号输入产生的注释数据对一个数据文档进行注释;
图12是音素和字格注释数据的示意图,该音素和字格注释数据是为例如用户的语音输入而产生的,用于对一个数据文档进行注释;
图13是示意框图,显示了一个用户终端,该使得能够用从一个用户的键入的输入产生的注释数据对一个数据文档进行注释;
图14是音素和字格注释数据的一个示意图,该注释数据是为用户的键入输入产生的以对一个数据文档进行注释;
图15是显示一种文件注释系统的形式的示意框图;
图16是一种替换文件注释系统的示意框图;
图17是另一文件注释系统的一个示意框图;
图18是一示意框图,显示了一种用户终端,该用户终端用于响应于用户的一个输入语音经过一个数据网络对位于一个远程服务器上的一个数据库进行访问;
图19是一种用户终端的示意框图,该用户终端使得用户能够响应于用户的输入语音而对位于一个远程服务器上的一个数据库进行访问;
图20是一种用户终端的示意框图,该用户终端使得用户能够通过键入的输入询问而对一个数据库进行访问;
图21是一个示意框图,它显示了其中可从包含在一个视频数据文档中的手稿数据产生一种音素和字格的方式;
本发明的实施例可以用专用的硬件电路实施,但所要描述的实施例是用计算机软件或编码实施的,该软件或编码与诸如个人计算机、工作站、复印机、传真机、PDA(个人数字助手)等的处理硬件相结合而运行。
图1显示了一个个人计算机(PC),它得到编程以运行本发明的一个实施例。一个键盘3、一个指向装置5、一个麦克风7和一个电话线9通过一个接口11而与PC1相连。键盘3和指向装置5使该系统能够受到一个用户的控制。麦克风7把来自该用户的语音信号转换成相应的电信号并把这些电信号提供给PC1以进行处理。一个内部调制解调器和语音接收电路(未显示)与电话线9相连,从而使PC1能够与例如一个远程计算机或一个远程用户进行通信。
使PC1能够按照本发明进行工作的程序指令,可以在例如诸如磁盘13的存储装置上提供,或者是经过内部调制解调器和电话线9而从因特网(未显示)下载该软件,以由已有的PC1进行使用。数据文档注释
图2是框图,显示了在此实施例中由一个音素和字注释单元25产生用于一个输入数据文档23的注释数据21的方式。如所示,所产生的音素和字注释数据21随后在数据结合单元27中被与数据文档23相结合,且从其输出的结合的数据文档被输入到数据库29。在此实施例中,注释数据21包括一个结合的音素(或音素型的)和字格,该音素和字格使得用户能够通过语音询问而从该数据库获取信息。如本领域的技术人员所能够理解的,数据文档23可以是任何种类的数据文档,诸如视频文档、声频文档、多媒体文档等。
已经提出了一种系统,用于通过使来自一个视频数据文档的声频数据通过一个自动语音识别单元而为一个声频流产生作为注释数据的N最佳字清单。然而,这样的基于字的系统有若干个问题。这些问题包括:(i)现有技术的语音识别系统在识别中仍然产生基本的错误;(ii)现有技术的自动语音识别系统采用了也许20000至100000个字的字典且不能产生该词汇之外的字;以及,(iii)N最佳清单的产生随着各级的假说的数目成指数地增大,因而导致对于长的语句注释数据变得不可接受地大。
如果相同的自动语音识别系统被用于产生注释数据和随后获取相应的数据文档,这些问题中的第一个也许不那样严重,因为会发生相同的解码错误。然而,随着自动语音识别系统的逐年发展,在将来也许不会发生相同类型的错误,从而导致不能在将来获取相应的数据文档。至于第二个问题,它在视频数据应用的情况下是特别严重的,因为用户可能使用名称和地点(这些可能不在语音识别字典中)作为输入询问项。在没有这些名称时,自动语音识别系统普通会用词汇表中发音类似的字或词来代替该词汇表中没有的字,从而经常使相邻的解码变得恶化。这还导致了随后的请求时对所需数据文档的获取发生失败。
对比之下,借助所提出的音素和字格注释数据,利用数据库29中的字数据的迅速而有效的搜索能够得到进行,且如果这未能提供所需的数据文档,则可进行利用更为全面的音素数据的搜索。音素和字格是一个非循环地指向的曲线图,它有一个单个的进入点和一个单个的退出点。它代表了数据文档内的声频流的不同的分析。它不只是带有交替的字序列,因为各个字不需要以单个的替换进行代替,一个字可以可以取代两或多个字或音素,且整个结构可以形成对一或多个字或音素的替代。因此,音素和字格内的数据的密度在整个声频数据上基本上是保持线性的,而不是象在上述N最佳技术中那样指数地增大。如本领域的技术人员能够理解的,音素数据的采用是更为全面的,因为音素不依赖于字典并使得系统能够应付词汇表之外的字,诸如名称、地点、外来词等。音素数据的采用还使系统能够应付将来的发展,因为它使得被置于数据库中的数据文档即使在字不被原来的自动语音识别系统所理解的情况下也能够得到获取。
现在结合图3描述为一个视频数据文档产生这种音素和字格注释数据的方式。如所示,视频数据文档31包括定义了形成视频序列的图象序列的视频数据31-1和定义了与该视频序列相联系的声频的声频数据31-2。如众所周知的,声频数据31-2是与视频数据31-1时间同步的,因而在使用中视频和声频数据同时被提供给用户。
如图3中所示,在此实施例中,声频数据31-2被输入到一个自动语音识别单元33,后者用于产生与声频数据31-2的流程相应的音素格。这样的自动语音识别单元33是现有技术中可获得的,因而不再作进一步的详细描述。关于这种语音识别系统的进一步的信息,读者可以参见例如LawrenceRabiner和Biing-HwangJuang所著的书“Fundamentals ofSpeech Recognition”,特别是其42-50页。
图4a显示了语音识别单元33为与短语“...tell me about Jason...”而输入的相应声频而输出的音素格数据的形式。如所示,自动语音识别单元33识别与这种输入声频语音相应的若干不同的可能的音素串。例如,该语音识别系统考虑在该声频串中的第一个音素是“t”或“d”。如语音识别领域中众所周知的,这些不同的可能性可具有它们的权重,这些权重是由语音识别单元33产生的并表示了语音识别单元的输出的信心。例如,音素“t”可以被给予0.9的权,且音素“d”可以被给予0.1的权,表明该语音识别系统比较确信相应的声频部分表示了音素“t”,但它仍然有可能是音素“d”。然而,在此实施例中,不进行音素的这种加权。
如图3所示,由自动语音识别单元33输出的音素格数据35被输入到一个字解码器37,字解码器37用于识别音素格数据35中的可能的字。在此实施例中,字解码器37识别的字被包含在该音素格数据结构中。例如,对于图4a所示的音素格,字解码器37识别出字“tell”、“dell”、“term”、“me”、“a”、“boat”、“about”、“chase”、“sun”。如图4b所示,这些识别的字被加到语音识别单元33输出的音素格数据结构中,以产生形成注释数据31-3的音素和字格数据结构。这种注释数据31-3随后被与视频数据文档31相结合,以产生一种增广的视频数据文档31-它随后被存储在数据库29中。如本领域的技术人员所能够理解的,以其中声频数据31-2与视频数据31-1时间同步的方式类似的一种方式,注释数据31-3也与相应的视频数据31-1和声频数据31-2时间同步和相关,从而能够通过搜索和定位注释数据31-3的相应的部分而获取视频和声频数据的所希望的部分。
在此实施例中,存储在数据库29中的注释数据31-3具有以下的一般形式:
-开始时间
-标记是否字是否音素是否混合
-使存储器内的注释数据的块的位置与给定的时间点相关的时间索引
    -所用的字组(即字典)
    -所用的音素
    -词汇表涉及的语言
块(i)    i=0,1,2,……
    节点Nj j=0,1,2,……
        -节点从块开始的时间偏移
        -音素象(k)k=0,1,2,……
        至节点Nj的偏移=Nk-Nj(Nk是链接K所延伸到的节点)或如果Nk处于块(i+1)中至节点Nj的偏移=Nk+Nb-Nj(其中Nb是块(i)中的节点的数目)
        与链接(k)相关的音素
        -字链接(l)l=0,1,2,……
        至节点Nj的偏移=Ni-Nj(Nj是链接l所延伸至的节点)或者如果Nk处于块(i+1)中至节点Nj的偏移Nj=Nk+Nb-Nj(其中Nb是块(i)中的节点的数目)
        与链接(l)相关的字
该头部中的开始数据的时间能够标明数据的发送时间和日期。例如,如果视频文档是一个新闻广播,则开始时间可包括广播的准确时间和它被广播的日期。
标明注释数据是否字注释数据、音素注释数据或者它是否被混合的标记未被提供,因为不是数据库的所有数据文档都将包括上述的结合的音素和字格注释数据,且在此情况下不同的搜索策略将被用来搜索这种注释数据。
在此实施例中,该注释数据被分成块,以使搜索对于一个给定的声频数据流能够跳到注释数据的中间。因而该头部包括了一个时间索引-它把存储器内的注释数据的块的位置与开始时间与同该块的开始相应的时间之间的一个给定时间偏移相联系。
该头部还包括定义采用的字组(即字典)的数据、所采用的音素组、以及词汇表所涉及的语言。该头部还可包括用于产生该注释数据的自动语音识别系统的细节及在产生注释数据期间采用的其所有适当的设定。
注释数据的块随后按照该头部,并对于块中的各个节点标明从块的开始的节点的时间偏移、通过音素把该节点与其他节点相连接的音素链接和通过字把该节点与其他节点相连接的字链接。各个音素链接和字链接标明了与该链接相关的音素或字。它们还标明了与当前节点的偏移。例如,如果节点NZzz50通过一个音素链接而被链接至节点NZzz55,则至节点NZzz的偏移是5。如本领域的技术人员所能够理解的,利用诸如这样的偏移表示将使得能够把连续注释数据分割成分离的块。
在其中一个自动语音识别单元输出表示对语音识别单元的输出的信心的权的一个实施例中,这些权或信心评分将被包括在该数据结构中。具体地,将为各个节点提供一个信心评分,它表示了到达该节点的信心,且这些音素和字链接每一个都将包括取决于给予相应的音素或字的权的一个瞬态评分。这些权随后将通过放弃具有低的信心评分的那些匹配而被用于控制数据文档的搜索和获取。
数据文档获取
图5是框图,显示了一个用户终端59的形式,它可被用来从数据库29获取注释的数据文档。这种用户终端59可以是例如一个个人计算机、手持装置等。如所示,在此实施例中,用户终端59包括注释数据文档的数据库29、一个自动语音识别单元51、一个搜索引擎58、一个控制单元55和一个显示器57。在操作中,自动语音识别单元51对经过麦克风7和输入线路61接收的来自用户39的一个输入语音询问进行处理,并从其产生相应的音素和字数据。这种数据还可具有音素和字格的形式,但这不是必需的。这种音素和字数据随后被输入到控制单元55,控制单元55利用搜索引擎53启动对数据库29的适当搜索。搜索引擎58产生的搜索结果随后被发送回到控制单元55,而控制单元55对搜索结果进行分析并产生和振动显示器57向用户显示适当的显示数据。
图6a和6b是流程图,显示了在此实施例中用户终端59的操作方式。在步骤s1,用户终端59处于一种闲置状态且等候来自用户39的一个输入询问。在接收到一个输入询问时,用于该输入询问的音素和字数据在步骤s3由自动语音识别单元51产生。在步骤s5,控制单元55命令搜索引擎53利用为该输入询问产生的字数据在数据库29中进行搜索。在此实施例中采用的字搜索与在现有技术中为键入的关键字搜索采用的相同,且将不在此进行详细描述。如果在步骤s7,控制单元55从搜索结果识别出已经找到了对用户的输入询问的匹配,则它经显示器57把搜索结果输出给用户。
在此实施例中,用户终端59随后使用户能够考虑该搜索结果并等候用户对该结果是否对应于用户所需的信息的确认。如果它们是,则处理从步骤s11进行到处理的结束,且用户终端59返回到其闲置状态并等候下一个输入询问。然而,如果用户表明(例如通过输入一个适当的语音命令)该搜索结果不与所希望的信息对应,则处理从步骤s11进行到步骤s13,在那里搜索引擎53进行数据库29的一个音素搜索。然而,在此实施例中,在步骤s13进行的音素搜索不是对整个数据库29的,因为这将需要几个小时-取决于数据库29的大小。
相反地,在步骤s13进行的音素搜索采用了在步骤s5进行的字搜索的结果,以标明数据库内可能与用户的输入询问相应的一或更多部分。在此实施例中在步骤s13进行的音素搜索的方式将在以下得到更详细的描述。在音素搜索已经被进行的情况下,控制单元55在步骤s15标明是否已经找到了一个匹配。如果已经找到了一个匹配,则处理进行到步骤s17,在那里控制单元55使搜索结果在显示器57上被显示给用户。同样地,系统随后等候用户对该搜索结果是否对应于所希望的信息的确认。如果该结果正确,则处理从步骤s19进行到结束,且用户终端59返回到闲置状态并等候下一个输入询问。然而,如果用户表明该搜索结果不对应于所希望的信息,则处理从步骤s19进行到步骤s21,在那里控制单元55经过显示器57询问用户是否在整个数据库29上进行音素搜索。如果用户响应于该询问表示要进行这样的搜索,则处理进行到步骤s23,在那里搜索引擎进行整个数据库29的音素搜索。
在这种搜索完成时,控制单元55在步骤s25标明是否已经找到了与用户的输入询问的匹配。如果找到了匹配,则处理进行到步骤s27,在那里控制单元55使搜索结果在显示器57上被显示给用户。如果该搜索结果正确,则处理从步骤s29进行到处理的结束,且用户终端59返回到其闲置状态并等候下一个输入询问。另一方面,如果用户表明该搜索结果仍然不对应于所希望的信息,则处理进行到步骤s31,在那里控制单元55通过显示器57询问用户是否希望重新定义或修改搜索询问。如果用户希望重新定义或修改搜索询问,则处理返回到步骤s3,在那里用户的随后的输入询问以类似的方式得到处理。如果该搜索不被重新定义或修改,则该搜索结果和用户的初始输入询问被放弃,且用户终端59返回到其闲置状态并等候下一个输入询问。
音素搜索
如上所述,在步骤s13和s23,搜索引擎53把输入询问的音素数据与存储在数据库29中的音素和字格注释数据中的音素数据进行比较。为了进行这种比较,可以采用各种技术,包括诸如动态编程的标准模式匹配技术。在此实施例中,采用了被称为M-GRAMS的一种技术。这种技术是由Ng,K.和Zue,V.W.提出的,并在例如在proceedings ofEurospeech1997中发表的题目为“Subward unit representations forspoken documentretrieval”的论文中得到了讨论。
为各个音素进行搜索的问题,是数据库内的各个音素将会出现多次。因此,各个音素自己并不提供足够的可鉴别性,以使输入询问的音素串能够与数据库内的音素串相匹配。然而,音节大小的单位可能提供更大的可鉴别性,虽然它们不容易识别。
M-GRAM技术在这两种可能性之间提供了一个适当的平衡,并取出音素串的重叠的固定大小的碎块或M-GRAM,来提供一组特征。这在图8中得到了显示,该图显示了具有音素a、b、c、d、e和f的一个输入音素串的部分,这些音素被分到四个M-GRAM(a,b,c)、(b,c,d)、(c,d,e)和(d,e,f)中。在本说明中,四个M-GRAM每一个都包括了三个音素的一个序列,该序列是唯一的并代表了可在该输入音素串中找到的一个唯一的特征(fZzi)。
因此,参见图7,在进行图6中的步骤s13中的音素搜索中的第一个步骤s51,是识别在该输入音素数据中的所有不同的M-GRAM和它们的出现频率。随后,在步骤s53,搜索引擎53确定选定的数据库部分中的识别的M-GRAM(从图6中的步骤s5进行的字搜索识别)的出现频率。为了说明这点,对于数据库的一个给定部分和对于图8所示的示例性M-GRAM,这给出了以下的信息表:
M-GRAM(特征fi)   输入的音素串的出现频率     选定的数据库部分的音素串
    M1M2M3M4     1231     0221
随后,在步骤s55,搜索引擎53计算一个类似度评分,该评分代表了输入询问的音素串与来自数据库的选定部分的音素串之间的类似度。在此实施例中,这种类似评分,利用采用作为矢量的输入询问中识别的M-GRAM的出现频率与在数据库的该选定部分中的出现频率之间的余弦量度,而得到确定。这种技术的原理是,如果输入的音素串与数据库音素串的选定部分类似,则M-GRAM特征的出现频率对于这两种音素串将是类似的。因此,如果M-GRAM的出现频率被认为是矢量(即考虑上述表中的作为矢量的第二和第三列),则如果在输入音素串与数据库的选定部分之间有一种类似度,则这些矢量之间的夹角应该比较小。这在图9中对于两维矢量a和q得到了显示,其中矢量之间的角用θ表示。在图8所示的例子中,矢量a和q将是四维矢量且类似度评分将用下式计算:评分=cosθ=a·q/(|a||q|)    (1)
随后使该评分与数据库的当前选定部分相关并存储该评分至搜索结束。在某些应用中,余弦量度的计算中采用的矢量将是这些出现频率的对数,而不是出现频率本身。
该处理随后进行到步骤s57,在那里搜索引擎53确定是否有来自数据库29的音素串的任何更多的选定部分。如果有,则处理返回到步骤s53,在那里进行一种类似处理以识别对于数据库的该部分的评分。如果没有更多的选定部分,则搜索结束且处理返回到图6所示的步骤s15,在那里控制单元考虑搜索引擎53产生的评分并通过例如把计算出的评分与一个预定阈值进行比较而判定是否有一个匹配。
如本领域的技术人员能够理解的,在图6所示的步骤s23将进行一个类似匹配操作。然而,由于整个数据库都被搜索,这种搜索是通过依次搜索上述块中的每一个而进行的。
替换实施例
如本领域的技术人员能够理解的,数据库的数据文档的这种语音和字注释提供了一种方便而强有力的方式,使用户能够借助语音对数据库进行搜索。在所示的实施例中,一个单个的声频数据流得到了注释并被存储在数据库中以供用户随后进行检索。如本领域的技术人员能够理解的,当输入的数据文档对应于一个视频数据文档时,该数据文档内的声频数据普通包括不同讲话者的声频数据。不是为声频数据产生单个的注释数据流,可以为各个讲话者的声频数据产生单独的音素和字格注释数据。这可通过从音节(pitch)或从语音信号的其他区分特征来识别与各个讲话者对应的声频数据并随后通过对不同的讲话者的声频分别进行注释,而而实现。如果声频数据是以立体声记录的,或者如果在产生该声频数据时采用了麦克风阵列,则这也可得到实现,因为此时可以对该声频数据进行处理以提取各个讲话者的数据。
图10显示了在这样一个实施例中的注释数据的形式,其中一个第一讲话者说出了“……this so”且第二个讲话者回答了“yes”。如所示,用于不同的讲话者的声频数据的注释数据是彼此时间同步的,因而该注释数据对于数据文档内的视频和声频数据仍然是时间同步的。在这样一个实施例中,数据结构中的头部信息优选地应该包括注释数据内的不同的讲话者的一个清单,且对于每一个讲话者,定义讲话者的语言、口音、方言和语音组的数据,以及各个块,应该标明块中活跃的那些讲话者。
在上述实施例中,采用了一种语音识别系统来产生对数据库中的一个数据文档进行注释的注释数据。如本领域的技术人员能够理解的,其他的技术可以被用来产生这种注释数据。例如,一个操作员能够收听声频数据并产生一个语音和字抄本,从而手动地生成该注释数据。
在上述实施例中,注释数据是从存储在数据文档本身的声频产生的。如本领域的技术人员能够理解的,其他的技术可被用来输入该注释数据。
图11显示了使一个用户能够经过麦克风7输入语音注释数据以对将要存储在数据库29中的数据文档91进行注释的用户终端59。在此实施例中,数据文档91包括由例如一个摄象机产生的两维图象。用户终端59使用户39能够用适当的注释对该两维图象进行注释,该注释随后可被用于从数据库29获取该两维图象。在此实施例中,输入的语音注释信号被自动语音识别单元51转换成音素和字格注释数据,该注释数据被传送到控制单元55。响应于用户的输入,控制单元55从数据库29检索适当的两维文档并把音素和字注释数据附在数据文档91上。这种增广的数据文档随后被送回到数据库29。在此注释步骤中,控制单元55用于在显示器57上显示该两维图象,从而使用户能够保证该注释数据与正确的数据文档91相关。
自动语音识别单元51通过(i)为输入的讲话产生一个音素格;(ii)随后识别音素格内的字;以及,(iii)结合这两者,而产生音素和字格注释数据。图12显示了为输入的讲话“picture of theTaj-Mahal”产生的音素和字格注释数据的形式。如所示,该自动语音识别单元识别与该输入讲话对应的若干不同的可能的音素串。如图12所示,自动语音识别单元51在音素格内识别的这些字被包含在音素格数据结构中。如所示,对于该示例性的短语,自动语音识别单元51识别字“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“jam”、“ah”、“hal”、“ha”和“al”。控制单元55随后把这种注释数据加到2D图象数据文档91上,且该数据文档91随后被存储在一个数据库29中。
如本领域的技术人员能够理解的,该实施例可被用于注释任何种类的图象,诸如患者的X光图象、例如NMR扫描的3D图象、超声波扫描图象等。它还可被用于注释一维数据,诸如声频数据或地震数据。
在上述实施例,从一种语音注释对一个数据文档进行了注释。如本领域的技术人员能够理解的,其他的技术可被用来输入该注释。例如,图13显示了一种用户终端59的形式,它使得一个用户能够经过键盘3输入键入的注释数据,以对将要存储在一个数据库29中的数据文档91进行注释。在此实施例中,键入输入通过语音抄本(transcription)单元75而被转换成音素和字格注释数据(利用一个内部语音字典(未显示)),该注释数据被传送到控制单元55。响应于用户的输入,控制单元55从数据库29获取适当的2D文档并把该音素和字注释数据附在数据文档91上。该增广的数据文档随后被送回到数据库29。在此注释步骤期间,控制单元55把该2D图象显示在显示器57上,从而使用户能够保证注释数据与正确的数据文档91相联系。
图14显示了为输入的讲话“picture of theTaj-Mahal”产生的音素和字格注释数据的形式。如图2所示,该音素和字格是一种非循环指向的曲线图,带有单个的进入点和单个的退出点。它代表了用户的输入的不同的分析。如所示,语音抄本单元75识别出了与键入输入对应的若干不同的可能的音素串。
图15是显示一种文件注释系统的的框图。具体地,如图15所示,一个文本文件101被一个文件扫描仪103转换成一个图象数据文档。该图象数据文档随后被传送到一个光学字符识别(OCR)单元105,该单元105把文件101的图象数据转换成电子文本。这种电子文本随后被提供给一个语音抄本单元107,该单元107产生音素和字注释数据109,该注释数据109随后被附在扫描仪103输出的图象数据上以形成一个数据文档111。如所示,数据文档111随后被存储在数据库29中以便随后获取。在此实施例中,注释数据109包括结合的上述音素和字格,它使得用户随后能够通过语音询问而从数据库29获取数据文档111。
图16显示了对图15所示的文件注释系统的一种修正。图16所示的系统与图15所示的系统的不同,在于光学字符识别单元105的输出,而不是扫描仪103输出的图象数据,被用来产生数据文档113。图16所示的系统的其余部分与图15所示的相同且将不作进一步的描述。
图17显示了对图15所示的文件注释系统的一种进一步的修正。在图17所示的实施例中,输入的文件被一个传真单元115而不是一个扫描仪103所示接收。该传真单元所输出的图象数据随后以与图15所示的扫描仪103输出的图象数据相同的方式得到处理,且将不再描述。
在上述实施例中,语音抄本单元107被用于产生注释数据以对图象或文本数据进行注释。如本领域的技术人员能够理解的,其他技术可得到采用。例如,一个操作者能够从文件的图象本身手动地产生这种注释数据。
在上述实施例中,数据库29和自动语音识别单元都位于用户终端59内。如本领域的技术人员能够理解的,这不是必需的。图18显示了一个实施例,其中数据库29和搜索引擎53位于一个远程服务器60上,且其中用户终端59经过网络接口单元67和69以及一个数据网络68(诸如因特网)对数据库29中的数据文档进行访问和控制。在操作中,用户经麦克风7输入一个语音询问,该语音询问被自动语音识别单元51转换成音素和字数据。这种数据随后被传送到控制单元,该控制单元控制这种音素和字数据在数据网络68上至位于远程服务器60中的搜索引擎53的传送。搜索引擎53随后根据接收的音素和字数据进行该搜索,或者根据接收的音素和字数据来控制对该数据文档的操作(例如控制一个视频文档的播放、前送或倒回)。从数据库29获取的数据或与该搜索有关的其他数据随后经数据网络68被传送回到控制单元55,而控制单元55控制适当的数据在显示器57上的显示以被用户39所观看。以此方式,可以获取和控制远程服务器60中的数据文档,而不用使用服务器上的重要的计算机资源(因为是用户终端59把输入的语音转换成了音素和字数据)。
除了定位远程服务器60中的搜索引擎53和数据库29之外,还可以定位远程服务器60中的自动语音识别单元51。图19中显示了这样的一个实施例。如在此实施例中所示,来自用户的输入语音询问经输入线路61被传送到一个语音编码单元73,该编码单元对语音进行编码以通过数据网络68进行充分的传送。编码的数据随后被传送到控制单元55,控制单元55把该数据经网络68发送到远程服务器60,在远程服务器60该数据受到自动语音识别单元51的处理。由语音识别单元51为该输入询问产生的产生的音素和字数据随后被传送到搜索引擎53,以用于搜索和控制数据库29中的数据文档。搜索引擎53获取的适当的数据随后经网络接口69和网络68被传送回到用户终端59。从远程服务器接收回来的这种数据经网络接口单元67被传送到控制单元55,而控制单元55在显示器57上产生并显示适当的数据以被用户所观看。
在上述实施例中,用户通过语音输入他的询问。图20显示了一种替换实施例,其中用户经过键盘3输入询问。如所示,经键盘3的文本输入被传送到语音抄本单元75,该单元75用于从输入的文本产生相应的音素串。这种音素串与经过键盘3输入的字一起随后被传送到控制单元55,而控制单元55利用搜索引擎53起始对数据库的搜索。搜索进行的方式与在第一实施例中的相同,因而不再进行描述。如同上述其他实施例,语音抄本单元75、搜索引擎53和/或数据库29可都位于一个远程服务器中。
在第一实施例中,来自数据文档23的声频数据通过一个自动语音识别单元而得到传送,以产生音素注释数据。在某些情况下,声频数据的一种抄本可出现在该数据文档中。图21中显示了这样的一个实施例。在此实施例中,数据文档81代表具有视频数据81-1、声频数据81-2和定义了录相带中各个演员的行的剧本数据81-3的数字视频文档。如所示,剧本数据81-3通过一个文本被传送到音素转换器83,转换器83利用存储的字典产生音素格数据85,该字典把字翻译成可能的音素序列。这种音素格数据85随后与剧本数据81-3结合,以产生上述的音素和字格注释数据81-4。这种注释数据随后被加到数据文档81上以产生一种增广的数据文档81’,该数据文档81’随后被加到数据库29上。如本领域的技术人员应该理解的,这种实施例便利了为视频数据文档内的不同的讲话者的单独的音素和字格注释数据的产生,因为剧本数据普通包含谁在谈话的的表示。这种音素和字格注释数据与视频和声频数据的同步随后能够通过利用自动语音识别系统(未显示)进行剧本数据与声频数据的强迫时间对准而得到实现。
在上述实施例中,音素(或音素状)和字格被用来对一个数据文档进行注释。语音识别和语音处理领域的技术人员应该理解的,本描述和权利要求书中的“音素”一词不限于其字面含意,而是包括了在标准语音识别系统中使用和识别的各种比字小的单元。

Claims (97)

1.定义一种音素和字格的数据,该数据包括:
用于定义该格内的多个节点和连接该格内的这些节点的多个链接的数据;
把多个音素与相应的多个链接相联系的数据;以及
把至少一个字与至少一个所述链接相联系的数据。
2.根据前述权利要求中的任何一项的数据,定义所述音素和字格的所述数据被设置在节点的块中。
3.根据权利要求1的数据,进一步包括为各个所述节点定义时间标记信息的数据。
4.根据权利要求3的数据,该数据被设置在具有相等的持续时间的块中。
5.根据权利要求2或4的数据进一步包括定义所述数据库内的各个块位置的数据。
6.根据权利要求3或其从属权利要求中的任何一项的数据,其中定义音素和字格的所述数据与定义一个时间序列信号的进一步的数据相联系,且其中所述时间标记信息与所述时间序列信号相同步。
7.根据权利要求6的数据,其中所述进一步的数据定义了一种声频和/或视频信号。
8.根据权利要求7的数据,其中所述进一步的数据至少定义了语音数据且其中定义所述音素和字格的所述数据是从所述进一步的数据导出的。
9.根据权利要求8的数据,其中所述语音数据包括声频且其中所述定义了所述音素和字格的数据是通过使所述声频信号通过一种自动语音识别系统而导出的。
10.根据权利要求8或9的数据,其中所述语音数据定义了多个讲话者的口头言词,且其中所述数据定义了用于各个讲话者的口头言词的单独的音素和字格。
11.根据权利要求前述权利要求中的任何一项的数据,进一步包括为与所述链接相联系音素和/或字定义一个权的数据。
12.根据权利要求前述权利要求中的任何一项的数据,其中至少一个所述节点通过多个链接与多个其他的节点相连。
13.根据权利要求12的数据,其中把所述节点连接到所述多个其他节点的所述多个链接中的至少一个与一个音素相联系,且其中把所述节点连接到所述多个其他节点的所述链接中的至少一个链接与一个字相联系。
14.用于响应于一个输入询问而对包括根据权利要求前述 的任何一项的数据的一个数据库进行搜索的一种方法,该方法包括以下步骤:
产生与该输入询问相应的音素数据和/或字数据;
利用为该输入询问产生的音素和/或字数据搜索该音素和字格进行;
根据所述搜索步骤的结果输出搜索结果。
15.根据权利要求14的方法,其中所述搜索步骤包括以下步骤:
(i)利用为用户的输入询问产生的字数据搜索该音素和字格以识别音素和字格内的类似的字;
(ii)响应于所述字搜索的结果,选择该音素和字格的一或多个部分以进行进一步的搜索;以及
(iii)利用为用户的输入询问产生的音素数据,搜索该音素和字格的所述一或多个选定部分。
16.根据权利要求15的方法,其中在对该数据库的该选定部分进行音素搜索之前,字搜索的结果被输出给用户。
17.根据权利要求16的方法,其中只响应于用户响应于字搜索的结果输出而进行的进一步的输入而进行所述音素搜索。
18.根据权利要求15至17中的任何一项的方法,其中所述音素搜索是通过识别音素序列内的与用户的输入询问相应的若干特征和识别数据库内的定义所述音素格的数据内的类似特征而进行的。
19.根据权利要求18的方法,其中各个所述特征代表了用户的输入询问的音素数据内的一个唯一的音素序列。
20.根据权利要求19的方法,其中所述音素搜索采用了一种余弦量度,以表示与用户的输入询问相应的音素数据和数据库内的音素数据之间的类似程度。
21.根据权利要求14至20中的任何一项的方法,其中所述搜索结果被输出至一个显示器。
22.根据权利要求14至21中的任何一项的方法,其中所述用户的输入询问是通过语音输入的,且其中所述音素数据和字数据产生步骤采用了一种自动语音识别系统。
23.根据权利要求14至21中的任何一项的方法,其中所述输入询问是键入的且其中所述音素数据和字数据产生步骤采用了文本-音素转换器。
24.用于响应于一个输入询问而搜索包括根据权利要求1至13中的任何一项的数据的数据库的设备,该设备包括:
装置,用于产生与输入询问相应的音素数据和/或字数据;
装置,用于利用为该输入询问产生的音素和/或字数据搜索该音素和字格;
装置,用于根据所述搜索装置的输出而输出搜索的结果。
25.根据权利要求24的设备,其中所述搜索装置包括:
(i)装置,用于利用为用户的输入询问产生的字数据搜索音素和字格以标明音素和字格内的类似的字;
(ii)装置,用于响应于所述字搜索的结果而选择该音素和字格的一或多个部分以用于进一步的搜索;以及
(iii)装置,用于利用为用户的输入询问产生的音素数据搜索音素和字格的所述一或多个选定部分。
26.根据权利要求25的设备,其中所述输出装置用于在对数据库的该选定部分进行该音素搜索之前把字搜索的结果输出给用户。
27.根据权利要求26的设备,其中所述音素搜索只响应于用户响应于字搜索的输出结果而进行的进一步的输入而进行。
28.根据权利要求25至27中的任何一项的设备,其中所述音素搜索是通过识别音素序列内与用户的输入询问相应的若干特征和识别数据库内的定义所述音素格的数据内的类似特征而进行的。
29.根据权利要求28的设备,其中各个所述特征代表了用户的输入询问的音素数据内的一个唯一的音素序列。
30.根据权利要求29的设备,其中所述音素搜索采用了一种余弦量度,以表示与用户的输入询问相应的音素数据和数据库内的音素数据之间的类似程度。
31.根据权利要求24至30中的任何一项的设备,其中所述输出装置包括一个显示器。
32.根据权利要求24至31中的任何一项的设备,其中所述用户的输入询问是通过语音输入的,且其中所述用于产生音素数据和字数据的装置包括用于产生所述音素数据的一种自动语音识别系统和用于产生所述字数据的一种字解码器。
33.根据权利要求24至31中的任何一项的方法,其中所述输入询问是键入的且其中所述用于产生音素数据和字数据的步骤包括一个用于产生所述音素数据的文本-音素转换器。
34.用于产生注释数据的设备,该注释数据用于对包括声频数据的数据文档进行注释,该设备包括:
自动语音识别系统,用于为该数据文档中的声频数据产生音素数据;
字解码器,用于识别自动语音识别系统产生的音素数据内的可能的字;以及
发生装置,用于通过结合所产生的音素数据和解码的字产生注释数据。
35.用于产生注释数据的设备,该注释数据用于对包括文本数据的一个数据文档进行注释,该设备包括:
一个文本至音素转换器,用于为该数据文档中的文本数据产生音素数据;以及
发生装置,用于通过结合音素数据和文本数据中的字而产生注释数据。
36.用于产生注释数据的设备,该注释数据用于注释一个数据文档,该设备包括:
输入装置,用于接收一个输入语音信号;
语音识别装置,用于把输入语音信号转换成音素数据和字;以及
发生装置,用于通过结合该音素数据和字而产生注释数据。
37.用于产生注释数据的设备,该注释数据用于注释一个数据文档,该设备包括:
输入装置,用于接收来自用户的键入输入;
转换装置,用于把键入的输入中的字转换成音素数据;以及
发生装置,用于通过结合音素数据和键入输入中的字而产生注释数据。
38.用于产生注释数据的设备,该注释数据用于对一个数据文档进行注释,该设备包括:
装置,用于接收代表文本的图象数据;
字符识别装置,用于把所述图象数据转换成文本数据;
转换装置,用于把文本数据中的字转换成音素数据;以及
发生装置,用于通过结合该音素数据和文本数据中的字而产生注释数据。
39.根据权利要求34和38中的任何一项的设备,其中所述注释数据定义了一种音素和字格且其中所述发生装置包括:
(i)装置,用于产生定义格内的多个节点和连接该格内的这些节点的多个链接的数据;
(ii)装置,用于产生把音素数据的多个音素与相应的多个链接相联系的数据;以及
(iii)装置,用于产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。
40.根据权利要求39的设备,其中所述发生装置用于产生定义在所述节点的块中的所述音素和字格的所述数据的装置。
41.根据权利要求39或40中的任何一项的设备,其中所述发生装置用于产生为各个所述节点定义时间标记信息的数据。
42.根据权利要求41的设备,其中所述发生装置被适当设置以产生具有相等的持续时间的块的形式的所述音素和字格数据。
43.根据权利要求40、41或42的设备,其中所述发生装置用于产生定义数据库内各个块的位置的数据。
44.根据权利要求41或其任何从属权利要求的设备,其中所述数据文档包括一个时间序列信号,且其中所述发生装置用于产生时间标记数据,该时间标记数据与所述时间序列信号相时间同步。
45.根据权利要求44的设备,其中所述时间序列信号是一种声频和/或视频信号。
46.根据权利要求34或其任何从属权利要求的设备,其中所述声频数据包括定义了多个讲话者的口头言词的数据,且其中所述发生装置用于产生为各个讲话者的口头言词定义了单独的音素和字注释数据的数据。
47.根据权利要求35或其任何从属权利要求的设备,其中所述文本数据定义了多个讲话者的口头言词,且其中所述发生装置用于产生为各个讲话者的口头言词定义了单独的音素和字注释数据的数据。
48.根据权利要求34或其任何从属权利要求的设备,其中所述语音识别系统用于产生定义了用于该音素数据中的音素的权的数据。
49.根据权利要求34或其任何从属权利要求的设备,其中所述字解码器用于产生这样的数据,即该数据定义了用于所述音素数据内识别的字的权。
50.根据权利要求39或其任何从属权利要求的设备,其中所述用于产生用于定义多个节点和多个链接的数据的装置用于定义至少一个节点,该至少一个节点通过多个链接而连接到多个其他的节点。
51.根据权利要求50的设备,其中把所述节点连接到所述多个其他节点的所述多个链接中的至少一个与一个音素相联系,且其中把所述节点连接到所述多个其他节点的所述链接中的至少一个与一个字相联系。
52.根据权利要求36或其任何从属权利要求的设备,其中所述语音识别装置用于产生这样的数据,即该数据定义了用于音素数据中的该音素的一个权
53.根据权利要求52的设备,其中所述语音识别装置用于产生这样的数据,即该数据定义了用于该字数据内的字的权。
54.根据权利要求36或37或其任何从属权利要求的设备,进一步包括用于把所述注释数据与所述数据文档相联系的装置。
55.根据权利要求37或其任何从属权利要求的设备,其中所述转换装置包括一个自动语音抄本单元,该单元从键入的输入内的字产生所述音素数据。
56.根据权利要求38或其任何从属权利要求的设备,其中所述转换装置包括一个自动语音抄本单元,该单元从所述字符识别装置输出的文本数据内的字产生所述音素数据。
57.根据权利要求38或其任何从属权利要求的设备,进一步包括用于把所述注释数据与代表所述文本的所述图象数据或所述文本数据相联系的装置。
58.根据权利要求38或其任何从属权利要求的设备,其中所述接收装置包括一个文件扫描仪或一个传真机。
59.用于产生注释数据的一种方法,该注释数据被用于对包括声频数据的一个数据文档进行注释,该方法包括以下步骤:
利用一种自动语音识别系统以为该数据文档中的声频数据产生音素数据;
利用一个字解码器识别自动语音识别系统产生的音素数据内的可能的字;以及
通过结合所产生的音素数据和解码的字而产生注释数据。
60.用于产生注释数据的一种方法,该注释数据用于对包括文本数据的数据文档进行注释,该方法包括以下步骤:
利用一个文本至音素转换器为该数据文档中的文本数据产生音素数据;以及
通过结合该音素数据和文本数据中的字而产生注释数据。
61.用于产生注释数据的一种方法,该注释数据用于对一个数据文档进行注释,该方法包括以下步骤:
接收一个输入语音信号;
利用一个语音识别系统对该输入语音信号进行处理以为该输入语音信号产生音素数据和字数据;以及
通过结合为该输入语音信号产生的字数据和音素数据而产生注释数据。
62.用于产生注释数据的一种方法,该注释数据用于对一个数据文档进行注释,该方法包括以下步骤:
接收一个键入的输入;
把该键入输入中的字转换成音素数据;以及
通过结合该音素数据和键入输入中的字而产生注释数据。
63.用于产生注释数据的一种方法,该注释数据用于对一个数据文档进行注释,该方法包括以下步骤:
接收代表文本的图象数据;
利用一个字符识别单元把所述图象数据转换成文本数据;
把该文本数据中的字转换成音素数据;以及
通过结合该音素数据和文本数据中的字而产生注释数据。
64.根据权利要求59至63中的任何一项的方法,其中所述注释数据定义了一个音素和字格且其中所述发生步骤包括以下步骤:
(i)产生这样的数据,即该数据定义了该格内的多个节点和连接该格内的节点的多个链接;
(ii)产生把音素数据的多个音素与相应多个链接相联系的数据;以及
(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。
65.根据权利要求64的方法,其中所述产生步骤产生定义了所述节点的块中的所述音素和字格的所述数据。
66.根据权利要求64或65的方法,其中所述产生步骤产生这样的数据,即该数据为各个所述节点定义了时间标记信息。
67.根据权利要求66的方法,其中所述产生步骤产生具有相等的持续时间的块中的所述音素和字格数据。
68.根据权利要求65、66或67的方法,其中所述产生步骤产生这样的数据,即该数据定义了一个数据库内各个块的位置。
69.根据权利要求66或其任何从属权利要求的方法,其中所述数据文档包括一个时间序列信号,且其中所述产生步骤产生与所述时间序列信号相时间同步的时间标记数据。
70.根据权利要求69的方法,其中所述时间序列信号是一种声频和/或视频信号。
71.根据权利要求59或其任何从属权利要求的方法,其中所述声频数据包括定义了多个讲话者的口头言词的声频数据,且其中所述产生步骤产生这样的数据-即该数据为各个讲话者的口头言词定义了单独的音素和字注释数据。
72.根据权利要求60或其任何从属权利要求的方法,其中所述文本数据定义了多个讲话者的口头言词,且其中所述产生步骤产生了这样的数据,即该数据用于为各个讲话者的口头言词定义单独的音素和字注释数据。
73.根据权利要求59或其任何从属权利要求的方法,其中所述语音识别系统产生这样的数据,即该数据为与所述链接相联系的音素定义了权。
74.根据权利要求59或其任何从属权利要求的方法,其中所述字解码器产生这样的数据,即该数据为与所述链接相联系的字定义了权。
75.根据权利要求64或其任何从属权利要求的方法,其中所述定义多个节点和多个链接的步骤定义了至少一个节点,该至少一个节点通过多个链接而连接到多个其他的节点。
76.根据权利要求75的方法,其中把所述节点连接到所述多个其他节点的所述多个链接中的至少一个与一个音素相联系,且其中把所述节点连接到所述多个其他节点的所述链接中的至少一个与一个字相联系。
77.根据权利要求61或其任何从属权利要求的方法,其中所述语音识别系统产生这样的数据,即该数据为与所述链接相联系的该音素定义了一个权。
78.根据权利要求61或其任何从属权利要求的方法,其中所述语音识别系统产生电流这样的数据,即该数据为与所述链接相联系的字定义了一个权。
79.根据权利要求61或62或或其任何从属权利要求的方法,进一步包括把所述注释数据与所述数据文档相联系的步骤。
80.根据权利要求62或其任何从属权利要求的方法,其中所述转换步骤采用了一种自动语音抄本单元,该单元为键入的输入内的字产生所述音素数据。
81.根据权利要求63或其任何从属权利要求的方法,其中把字转换成音素的步骤采用了一种自动语音抄本单元,该单元为所述字符识别单元输出的文本数据内的字产生所述音素数据。
82.根据权利要求63或其任何从属权利要求的方法,进一步包括使所述注释数据与所述接收的图象数据或与所述文本数据相联系的步骤。
83.根据权利要求63或其任何从属权利要求的方法,其中所述接收步骤采用了一种文件扫描仪或传真机。
84.用于响应于一个输入询问而对包括注释数据的一个数据文档进行搜索的一种方法,该方法包括以下步骤:
产生与该输入询问相应的音素数据和字数据;
根据该音素数据和/或字数据和该注释数据对该数据文档进行搜索;以及
根据所述搜索步骤的结果输出搜索结果。
85.根据权利要求84的方法,其中所述注释数据定义了一种音素和字格,该音素和字格包括:
(i)用于定义该格内的多个节点和连接格内的这些节点的多个链接的数据;
(ii)用于使音素数据的多个音素与相应的多个链接相联系的数据;
(iii)用于使至少一个字与至少一个所述链接相联系的数据。
86.用于把一个数据文档存储到一个数据库中的一种方法,该方法包括以下步骤:
使该数据文档与对应于该数据文档的注释数据相结合,该注释数据包括音素数据;以及
存储带有该注释数据的该数据文档。
87.用于响应于一个输入询问而搜索包括注释数据的一个数据文档的一种设备,该设备包括:
装置,用于产生与该输入询问相应的字数据和音素数据;
装置,用于根据该音素数据和/或该字数据和该注释数据搜索一个数据文档;以及
装置,用于根据所述搜索装置的结果而输出一个搜索结果。
88.根据权利要求87的设备,其中所述注释数据定义了一个音素和字格,并包括:
(i)用于定义该格内的多个节点和连接格内的这些节点的多个链接的数据;
(ii)用于使音素数据的多个音素与相应的多个链接相联系的数据;
(iii)用于使至少一个字与至少一个所述链接相联系的数据。
89.用于把一个数据文档存储到一个数据库中的一种设备,该设备包括:
装置,用于输入该数据文档和与该数据文档相应的注释数据,该注释数据包括音素数据;以及
装置,用于存储带有该注释数据的数据文档。
90.用于存储一个数据文档的一种介质,该数据文档包括:
一种声频数据;以及
与该声频数据相应的一种注释数据,所述注释数据包括音素数据。
91.用于存储一个数据文档的一种介质,该数据文档包括:
视频数据;
与该视频数据相应的声频数据;以及
与该声频数据相应的注释数据,该注释数据包括音素数据。
92.用于存储一个数据文档的一种介质,该数据文档包括:
文本数据;以及
与该文本数据相应的注释数据,所述注释数据包括音素数据。
93.数据,包括声频数据并进一步包括与该声频数据相应的注释数据,该注释数据包括音素数据。
94.数据,包括视频数据并进一步包括与该视频数据相应的声频数据和与该声频数据相应的注释数据,该注释数据包括音素数据。
95.数据,包括文本数据,该数据进一步包括与该文本数据相应的注释数据,该注释数据包括音素数据。
96.一种数据载体,它承载有根据权利要求1至13中的任何一项的数据或处理器可实施的指令,该指令用于控制一个处理器以实施根据权利要求14至23或59至83或84至86中的任何一项的方法。
97.处理器可实施指令,用于控制一个处理器以实施权利要求14至23或59至83或84至86中的任何一项的方法。
CN008046743A 1999-03-05 2000-03-01 用于产生包括音素数据和解码的字的注释数据的方法和设备 Expired - Fee Related CN1343337B (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
GBGB9905201.1A GB9905201D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905199.7 1999-03-05
GBGB9905160.9A GB9905160D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905187.2 1999-03-05
GB9905201.1 1999-03-05
GB9905186.4 1999-03-05
GBGB9905186.4A GB9905186D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GBGB9905199.7A GB9905199D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GBGB9905187.2A GB9905187D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905160.9 1999-03-05
PCT/GB2000/000718 WO2000054168A2 (en) 1999-03-05 2000-03-01 Database annotation and retrieval

Publications (2)

Publication Number Publication Date
CN1343337A true CN1343337A (zh) 2002-04-03
CN1343337B CN1343337B (zh) 2013-03-20

Family

ID=27517497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN008046743A Expired - Fee Related CN1343337B (zh) 1999-03-05 2000-03-01 用于产生包括音素数据和解码的字的注释数据的方法和设备

Country Status (8)

Country Link
US (2) US6990448B2 (zh)
EP (1) EP1159688A2 (zh)
JP (1) JP2002539528A (zh)
KR (1) KR100828884B1 (zh)
CN (1) CN1343337B (zh)
AU (2) AU777693B2 (zh)
CA (1) CA2366057C (zh)
WO (1) WO2000054168A2 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100419751C (zh) * 2004-03-11 2008-09-17 台达电子工业股份有限公司 使用语音输入查询方式及使用语音输入的行动电子装置
CN100442279C (zh) * 2003-06-20 2008-12-10 国际商业机器公司 注释数字对象
CN101351838B (zh) * 2005-12-30 2011-08-03 坦德伯格电信公司 后处理多媒体流使之可搜索的方法和系统
CN102236697A (zh) * 2010-04-27 2011-11-09 卡西欧计算机株式会社 检索装置以及检索方法
CN102782751A (zh) * 2010-03-05 2012-11-14 国际商业机器公司 社会网络中的数字媒体语音标签
CN102855330A (zh) * 2012-09-19 2013-01-02 东莞宇龙通信科技有限公司 搜索方法和系统、移动终端
WO2015085472A1 (zh) * 2013-12-09 2015-06-18 华为终端有限公司 一种语音通信的信息交互方法和设备
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN105320510A (zh) * 2014-07-29 2016-02-10 上海爱韦讯信息技术有限公司 一种自动追踪数据关系的方法及装置
CN105335466A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 一种音频数据的检索方法与装置

Families Citing this family (259)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1159688A2 (en) 1999-03-05 2001-12-05 Canon Kabushiki Kaisha Database annotation and retrieval
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
AU2000276392A1 (en) * 2000-09-28 2002-04-08 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6774908B2 (en) 2000-10-03 2004-08-10 Creative Frontier Inc. System and method for tracking an object in a video and linking information thereto
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
US7225126B2 (en) 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
GB2388738B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
GB2381688B (en) * 2001-11-03 2004-09-22 Dremedia Ltd Time ordered indexing of audio-visual data
US20030098869A1 (en) * 2001-11-09 2003-05-29 Arnold Glenn Christopher Real time interactive video system
DE10218226A1 (de) * 2002-04-24 2003-11-06 Volkswagen Ag Verfahren und Einrichtung zur sprachgesteuerten Ansteuerung einer Multimediaeinrichtung, insbesondere in Kraftfahrzeugen
US7548863B2 (en) * 2002-08-06 2009-06-16 Apple Inc. Adaptive context sensitive analysis
US7610237B1 (en) 2002-09-30 2009-10-27 Trading Technologies International Inc. System and method for creating trade-related annotations in an electronic trading environment
US7716112B1 (en) 2002-09-30 2010-05-11 Trading Technologies International, Inc. System and method for price-based annotations in an electronic trading environment
GB2394347A (en) * 2002-10-15 2004-04-21 Canon Kk Lattice encoding
US6973654B1 (en) * 2003-05-27 2005-12-06 Microsoft Corporation Systems and methods for the repartitioning of data
US20040266337A1 (en) * 2003-06-25 2004-12-30 Microsoft Corporation Method and apparatus for synchronizing lyrics
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US7912699B1 (en) 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
WO2006026578A2 (en) * 2004-08-27 2006-03-09 Peng Tao Online annotation management system and method
US8108389B2 (en) 2004-11-12 2012-01-31 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US20060161471A1 (en) * 2005-01-19 2006-07-20 Microsoft Corporation System and method for multi-dimensional average-weighted banding status and scoring
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7634407B2 (en) 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7809568B2 (en) 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US7831425B2 (en) 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100719514B1 (ko) * 2005-12-20 2007-05-17 엔에이치엔(주) 파일 정리/검색 방법, 시스템 및 이를 위한 기록매체
US20070156680A1 (en) * 2005-12-21 2007-07-05 Microsoft Corporation Disconnected authoring of business definitions
US20070143175A1 (en) * 2005-12-21 2007-06-21 Microsoft Corporation Centralized model for coordinating update of multiple reports
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US7840896B2 (en) * 2006-03-30 2010-11-23 Microsoft Corporation Definition and instantiation of metric based business logic reports
US7716592B2 (en) * 2006-03-30 2010-05-11 Microsoft Corporation Automated generation of dashboards for scorecard metrics and subordinate reporting
US8261181B2 (en) * 2006-03-30 2012-09-04 Microsoft Corporation Multidimensional metrics-based annotation
US8190992B2 (en) 2006-04-21 2012-05-29 Microsoft Corporation Grouping and display of logically defined reports
US7716571B2 (en) * 2006-04-27 2010-05-11 Microsoft Corporation Multidimensional scorecard header definition
US8126750B2 (en) * 2006-04-27 2012-02-28 Microsoft Corporation Consolidating data source queries for multidimensional scorecards
EP2027546A2 (en) * 2006-05-19 2009-02-25 Sciencemedia Inc. Document annotation
WO2007143109A2 (en) * 2006-06-02 2007-12-13 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
US7698258B2 (en) * 2006-06-02 2010-04-13 Microsoft Corporation Searchable storage system
US7961851B2 (en) * 2006-07-26 2011-06-14 Cisco Technology, Inc. Method and system to select messages using voice commands and a telephone user interface
US7739255B2 (en) 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8341152B1 (en) 2006-09-12 2012-12-25 Creatier Interactive Llc System and method for enabling objects within video to be searched on the internet or intranet
US8694318B2 (en) 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
US7991613B2 (en) * 2006-09-29 2011-08-02 Verint Americas Inc. Analyzing audio components and generating text with integrated additional session information
US9058307B2 (en) 2007-01-26 2015-06-16 Microsoft Technology Licensing, Llc Presentation generation using scorecard elements
US8321805B2 (en) 2007-01-30 2012-11-27 Microsoft Corporation Service architecture based metric views
US8495663B2 (en) 2007-02-02 2013-07-23 Microsoft Corporation Real time collaboration using embedded data visualizations
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
IL182518A0 (en) * 2007-04-12 2007-09-20 Grois Dan Pay per relevance (ppr) advertising method and system
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
AU2008260048B2 (en) * 2007-05-30 2012-09-13 Creatier Interactive, Llc Method and system for enabling advertising and transaction within user generated video content
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
US8060494B2 (en) * 2007-12-07 2011-11-15 Microsoft Corporation Indexing and searching audio using text indexers
US8019604B2 (en) * 2007-12-21 2011-09-13 Motorola Mobility, Inc. Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8099662B2 (en) * 2008-01-17 2012-01-17 Seiko Epson Corporation Efficient image annotation display and transmission
US8015005B2 (en) * 2008-02-15 2011-09-06 Motorola Mobility, Inc. Method and apparatus for voice searching for stored content using uniterm discovery
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8315456B2 (en) * 2008-04-10 2012-11-20 The Nielsen Company Methods and apparatus for auditing signage
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090319883A1 (en) * 2008-06-19 2009-12-24 Microsoft Corporation Automatic Video Annotation through Search and Mining
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8112802B2 (en) * 2008-11-21 2012-02-07 At&T Intellectual Property I, Lp Verification of outsourced data streams
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20100153366A1 (en) * 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
US8737770B2 (en) * 2009-02-16 2014-05-27 Cisco Technology, Inc. Method and apparatus for automatic mash-up generation
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
US8707381B2 (en) * 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR101078862B1 (ko) * 2010-04-01 2011-11-02 서울대학교산학협력단 사용주체의 가중치를 이용한 개념격자 기반 질의용어 매핑지원 시스템 및 방법
US8670983B2 (en) * 2010-09-02 2014-03-11 Nexidia Inc. Speech signal similarity
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9418152B2 (en) * 2011-02-09 2016-08-16 Nice-Systems Ltd. System and method for flexible speech to text search mechanism
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
WO2012177262A1 (en) * 2011-06-24 2012-12-27 Halliburton Energy Services, Inc. Apparatus and methods of analysis of pipe and annulus in a wellbore
US8805869B2 (en) * 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
AU2011226985B2 (en) * 2011-09-30 2014-05-01 Canon Kabushiki Kaisha Image retrieval method
US20140373082A1 (en) * 2012-02-03 2014-12-18 Sharp Kabushiki Kaisha Output system, control method of output system, control program, and recording medium
JP5393816B2 (ja) * 2012-02-08 2014-01-22 株式会社Nttドコモ 情報検索装置および情報検索方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140039871A1 (en) * 2012-08-02 2014-02-06 Richard Henry Dana Crawford Synchronous Texts
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20230137475A (ko) 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9916295B1 (en) * 2013-03-15 2018-03-13 Richard Henry Dana Crawford Synchronous context alignments
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9245523B2 (en) * 2013-07-25 2016-01-26 Nice-Systems Ltd Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
CA2924065C (en) * 2013-09-13 2018-05-15 Arris Enterprises, Inc. Content based video content segmentation
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9196243B2 (en) 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
KR101944834B1 (ko) * 2014-04-27 2019-02-01 엘지전자 주식회사 멀티미디어 수신기 및 멀티미디어 신호 처리 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
CA2958684A1 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9530404B2 (en) 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10332506B2 (en) 2015-09-02 2019-06-25 Oath Inc. Computerized system and method for formatted transcription of multimedia content
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10430407B2 (en) * 2015-12-02 2019-10-01 International Business Machines Corporation Generating structured queries from natural language text
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102468763B1 (ko) * 2016-02-05 2022-11-18 삼성전자 주식회사 영상처리장치 및 그 제어방법
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10860638B2 (en) * 2016-04-07 2020-12-08 Uday Gorrepati System and method for interactive searching of transcripts and associated audio/visual/textual/other data files
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
KR102452644B1 (ko) * 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
US11140450B2 (en) * 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
KR102468214B1 (ko) * 2018-02-19 2022-11-17 삼성전자주식회사 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
EP3841754A4 (en) * 2018-09-13 2022-06-15 iChannel.io Ltd. SYSTEM AND COMPUTERIZED METHOD FOR SUBTITLE SYNCHRONIZATION OF AUDIOVISUAL CONTENT USING HUMAN VOICE DETECTION FOR SYNCHRONIZATION
US10856041B2 (en) * 2019-03-18 2020-12-01 Disney Enterprises, Inc. Content promotion using a conversational agent
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
KR20210100368A (ko) * 2020-02-06 2021-08-17 삼성전자주식회사 전자장치 및 그 제어방법
US11032620B1 (en) * 2020-02-14 2021-06-08 Sling Media Pvt Ltd Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text
US11683558B2 (en) * 2021-06-29 2023-06-20 The Nielsen Company (Us), Llc Methods and apparatus to determine the speed-up of media programs using speech recognition
US11736773B2 (en) * 2021-10-15 2023-08-22 Rovi Guides, Inc. Interactive pronunciation learning system
US11902690B2 (en) * 2021-10-27 2024-02-13 Microsoft Technology Licensing, Llc Machine learning driven teleprompter
US11785278B1 (en) * 2022-03-18 2023-10-10 Comcast Cable Communications, Llc Methods and systems for synchronization of closed captions with content output

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
JPH0233200A (ja) * 1988-07-22 1990-02-02 Mitsubishi Electric Corp データベース検索方式
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) * 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5205952A (en) * 1991-02-22 1993-04-27 Nl Industries, Inc. Methods for controlling airborne dissemination of lead and lead-contaminated fines during the storage and processing of lead-contaminated materials
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
ATE260486T1 (de) 1992-07-31 2004-03-15 Ibm Auffindung von zeichenketten in einer datenbank von zeichenketten
EP0597798A1 (en) * 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
JPH10507536A (ja) 1994-11-01 1998-07-21 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語認識
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
WO1996027872A1 (en) 1995-03-07 1996-09-12 British Telecommunications Public Limited Company Speech recognition
CA2170669A1 (en) * 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
EP0769184B1 (en) 1995-05-03 2000-04-26 Koninklijke Philips Electronics N.V. Speech recognition methods and apparatus on the basis of the modelling of new words
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) * 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
WO1997009683A1 (fr) * 1995-09-01 1997-03-13 Hitachi, Ltd. Systeme de mediatisation d'informations multimedia contenant des informations audio
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
KR980011719A (ko) * 1996-07-31 1998-04-30 구자홍 문장 텍스트 데이터 베이스 발생방법
GB2302199B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
JPH10177469A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
EP1018109B1 (en) 1997-09-24 2003-03-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
WO2000031723A1 (en) 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
EP1159688A2 (en) 1999-03-05 2001-12-05 Canon Kabushiki Kaisha Database annotation and retrieval
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US20020026253A1 (en) 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100442279C (zh) * 2003-06-20 2008-12-10 国际商业机器公司 注释数字对象
CN100419751C (zh) * 2004-03-11 2008-09-17 台达电子工业股份有限公司 使用语音输入查询方式及使用语音输入的行动电子装置
CN101351838B (zh) * 2005-12-30 2011-08-03 坦德伯格电信公司 后处理多媒体流使之可搜索的方法和系统
CN102782751B (zh) * 2010-03-05 2015-02-11 国际商业机器公司 社会网络中的数字媒体语音标签
CN102782751A (zh) * 2010-03-05 2012-11-14 国际商业机器公司 社会网络中的数字媒体语音标签
CN102236697B (zh) * 2010-04-27 2014-02-19 卡西欧计算机株式会社 检索装置以及检索方法
CN102236697A (zh) * 2010-04-27 2011-11-09 卡西欧计算机株式会社 检索装置以及检索方法
CN102855330A (zh) * 2012-09-19 2013-01-02 东莞宇龙通信科技有限公司 搜索方法和系统、移动终端
WO2015085472A1 (zh) * 2013-12-09 2015-06-18 华为终端有限公司 一种语音通信的信息交互方法和设备
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN105320510A (zh) * 2014-07-29 2016-02-10 上海爱韦讯信息技术有限公司 一种自动追踪数据关系的方法及装置
CN105320510B (zh) * 2014-07-29 2018-10-26 上海爱韦讯信息技术股份有限公司 一种自动追踪数据关系的方法及装置
CN105335466A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 一种音频数据的检索方法与装置

Also Published As

Publication number Publication date
AU777693B2 (en) 2004-10-28
AU2817700A (en) 2000-09-28
KR100828884B1 (ko) 2008-05-09
EP1159688A2 (en) 2001-12-05
CA2366057C (en) 2009-03-24
US6990448B2 (en) 2006-01-24
WO2000054168A2 (en) 2000-09-14
US20060015339A1 (en) 2006-01-19
CN1343337B (zh) 2013-03-20
AU2005200340B2 (en) 2007-12-06
US20020052740A1 (en) 2002-05-02
US7257533B2 (en) 2007-08-14
JP2002539528A (ja) 2002-11-19
WO2000054168A3 (en) 2000-12-14
AU2005200340A1 (en) 2005-02-24
CA2366057A1 (en) 2000-09-14
KR20010108308A (ko) 2001-12-07

Similar Documents

Publication Publication Date Title
CN1343337A (zh) 数据库注释和获取
CN1249667C (zh) 声控服务
CN1324517C (zh) 采用视频-语音匹配进行人员认证的方法和系统
CN1121108C (zh) 手持蜂窝电话
US7240003B2 (en) Database annotation and retrieval
US7590605B2 (en) Lattice matching
US20060264209A1 (en) Storing and retrieving multimedia data and associated annotation data in mobile telephone system
EP1158430A2 (en) Database annotation and retrieval
US20020052870A1 (en) Indexing method and apparatus
CN1741132A (zh) 口头发音检索所用的基于格点搜索的系统和方法
CN1297561A (zh) 语音合成系统与语音合成方法
CN1711586A (zh) 声音识别用辞典编制装置和声音识别装置
CN1889170A (zh) 基于录制的语音模板生成合成语音的方法和系统
CN1622196A (zh) 语音识别系统和方法
CN1533163A (zh) 电子节目指南数据的自由文本和属性搜索
CN1886768A (zh) 基于使用问答功能的语料检索系统的语言教育系统、方法和程序记录介质
US7477728B2 (en) Fast voice dialing apparatus and method
CN1198219C (zh) 接口系统、接口方法及信息终端
Shahraray et al. Multimedia Processing for Advanced Communications Services
CN1628338A (zh) 处理语音信息的方法和装置
Sherry Photo annotation and retrieval through speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20020403

CI01 Publication of corrected invention patent application

Correction item: Rejection of patent application

Correct: Dismiss

False: Reject

Number: 31

Volume: 26

ERR Gazette correction

Free format text: CORRECT: PATENT APPLICATION REJECTION AFTER PUBLICATION; FROM: REJECTION TO: REJECTION OF REVOCATION

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130320

Termination date: 20150301

EXPY Termination of patent right or utility model