CN101002198B - 用于非罗马字符和字的拼写校正系统和方法 - Google Patents

用于非罗马字符和字的拼写校正系统和方法 Download PDF

Info

Publication number
CN101002198B
CN101002198B CN2005800263504A CN200580026350A CN101002198B CN 101002198 B CN101002198 B CN 101002198B CN 2005800263504 A CN2005800263504 A CN 2005800263504A CN 200580026350 A CN200580026350 A CN 200580026350A CN 101002198 B CN101002198 B CN 101002198B
Authority
CN
China
Prior art keywords
subclauses
clauses
input
character representation
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800263504A
Other languages
English (en)
Other versions
CN101002198A (zh
Inventor
吴军
朱鸿隽
朱会灿
黄炜华
陈钊琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101002198A publication Critical patent/CN101002198A/zh
Application granted granted Critical
Publication of CN101002198B publication Critical patent/CN101002198B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Abstract

本发明披露了一种使用基于规则的分类器和隐马尔可夫模型来处理和校正诸如汉语、日语、和韩语的基于非罗马字体的字的拼写错误的系统和方法。该方法一般地包括将诸如汉语的第一语言的输入条目转换为不同于第一语言的诸如拼音的中间表示的至少一个中间条目,将中间条目转换为第一语言的输入的至少一个可能的可选拼写或形式,并且当输入条目和输入条目的所有可能可选拼写之间的匹配项分别被定位或没有定位时,确定输入条目是正确或可疑的输入条目。可以基于由变换规则发生器生成的变换规则,使用例如基于变换规则的分类器对可疑输入条目进行分类。

Description

用于非罗马字符和字的拼写校正系统和方法
技术领域
本发明一般地涉及处理基于非罗马字体的语言。更具体地,涉及用于使用基于规则的分类器和隐马尔可夫(Markov)模型处理和校正诸如汉语、日语、和韩语的基于非罗马字体的字的拼写错误的系统和方法。 
背景技术
拼写校正通常包括检测错字并且为错字确定适当的替换。在依字母顺序的即诸如英语的基于罗马字体的语言中,大部分拼写错误是词表外的词,例如,“thna”而不是“than”,或有效的字不适当地用在其上下文中,例如“stranger then”而不是“stranger than”。检测和校正基于罗马字体的语言中的词表外拼写错误的拼写检验器是众所周知的。 
然而,诸如汉语、日语、和韩语(CJK)的基于非罗马字体的语言在任何计算机字符集(例如,UTF-8字符集)中都没有编码的有效字符,使得大部分拼写错误是不适当地用在上下文中的有效字符,而不是词汇拼写错误。在汉语中,字的正确使用通常只能在上下文中确定。因此,用于基于非罗马字体的语言的有效拼写检验器应该使用上下文信息来确定上下文中哪个字符和/或字是不合适的。 
对于诸如CJK语言的非罗马字体语言的拼写校正也是复杂的和具有挑战性的,由于这种语言没有标准词典,因为CJK字的定义 不清楚。例如,某些可能将汉语中的“Beijing city”看作一个词,而其他的可能将它们看作两个词。与此相反,在英文拼写校正中,英文词典/单词表查找是关键特征,因此,英文拼写校正方法不能很容易适用于CJK语言。另外,与英文的26个字母不相同,有几千个常用的汉字,从而使得由所有选择替换非法汉字中不正确的字符,然后确定新创建的词是否是适当的很不实际。而且,汉语具有大量同形词和同音字以及引起多义性的不可见的(或隐藏的)字边界,这也使得高效和有效的汉语拼写校正很复杂并且难于执行。很明显,由于汉语和英语之间的这种差别,英文拼写校正可用的许多有效技术不适于汉语拼写校正。 
从而需要一种用于有效、高效和准确的检测以及校正诸如汉语、日语和韩语的非罗马字体语言中的拼写错误的计算机系统和方法。 
发明内容
本发明披露了一种使用基于规则的分类器和隐马尔可夫模型处理和校正诸如汉语、日语、和韩语的基于非罗马字体的字中的拼写错误的系统和方法。特别地,该系统和方法使用变换规则、隐马尔可夫模型以及易混淆字符的相似性矩阵。在汉语拼写检查应用中,如果简体汉字或繁体汉字中的字符具有相同的发音和/或共享一些输入按键,则在一对易混淆字符之间的相似性(similarity)可为正数。否则,该值为零。在一个实施例中,相似性可具有布尔值,例如,1用于一对易混淆字符,0用于一对非易混淆字符。该系统和方法特别可应用于基于网络的搜索引擎和在客户端站点(site)可下载的应用程序,例如,在工具栏或桌面任务栏中执行,但是可应用于各种其他的应用。应该理解,可以通过许多方式实施本发明,包括诸如过程、设备、系统、装置、方法或诸如计算机可读存储介质或计算机网络的计算机可读介质,其中,程序指令通过光或电子 通信线路被发送。术语“计算机”通常指的是诸如个人数字助理(PDA)、移动电话、和网络交换机的具有计算能力的任何装置。下面描述本发明的几个独创性实施例。 
本方法一般地包括将诸如汉语的第一语言的输入条目(entry)转换为不同于第一语言(诸如拼音)的中间表示的至少一个中间条目,将中间条目转换为第一语言的输入的至少一种可能选择拼写,并且当分别定位或没有定位出输入条目和输入条目的所有可能选择拼写之间的匹配项时,确定输入条目是正确的或可疑的输入条目。如此处所使用的,“pinyin”指的是所有简体或繁体汉字的拼音符号,包括注音符号(Bopomofo,汉语拼音字母),即,“带注释的语音的符号”。可以根据中间表示中的公共标记限定成对的第一语言的易混淆字符之间的相似性。可以基于由变换规则发生器生成的变换规则,使用例如基于变换规则的分类器来分类可疑输入条目。可以类似地采用诸如决策树和神经网络分类器的各种其他分类器。 
转换可包括转换多个输入条目,例如查询日志中的用户查询。该方法还可以包括,:基于诸如拼写校正变换规则的一组规则,例如通过基于变换规则的分类器,将可疑条目分类为正确拼写或不正确拼写的条目。用户的表决(vote),例如,查询日志和/或网页,被优选地应用以生成变换规则。该方法还可以包括利用可疑输入条目和可能的选择拼写使用变换规则发生器来生成和训练拼写校正变换规则。该方法还包括接收第一语言的用户输入,确定是否有任何规则应用于用户输入,当确定至少一个规则应用于用户输入时,生成对应于用户输入的第一语言的至少一个候选拼写,比较用户输入的相似性与用户输入的至少一个候选拼写的相似性,并且使用用户输入(具有比用户输入更高的相似性)的至少一个候选拼写给出拼写校正建议和/或进行拼写校正。 
系统通常包括:第一转换器,用于将第一语言的输入转换为输入条目的至少一个中间表示,中间表示不同于第一语言;第二转换器,用于将中间表示转换为第一语言的输入的至少一个可能的选择拼写,通过将可能的选择拼写与输入条目相比较来定位匹配项,并且如果没有从所有可能的选择拼写中定位出匹配项,则确定输入条目是可疑的输入条目,如果定位出匹配项,则输入条目是正确的输入条目。 
一种计算机程序产品,用于结合计算机系统使用,计算机程序产品具有其上存储有计算机处理器可执行的指令的计算机可读存储介质,指令通常包括:接收第一语言的输入条目,将输入条目转换为输入条目的至少一个中间表示,中间表示不同于第一语言,将中间表示转换为第一语言的至少一种可能的选择拼写,通过将输入条目的至少一个可能的选择拼写与输入条目进行比较来定位匹配项,并且如果没有从所有可能的选择拼写中定位出匹配项,则确定输入条目是可疑的输入条目,如果定位出了匹配项,则输入条目是正确的输入条目。 
执行本系统和方法的应用程序可以在服务器站点上(例如在搜索引擎上)执行或在诸如用户计算机的客户端站点上执行(例如,下载的),以提供对输入到文档中的文本的拼写校正,或与诸如搜索引擎的远程服务器进行交互。客户端站点应用程序可选地包括停止规则模式的用户可编辑表,其允许用户通过指定某些拼写校正是被禁止的(例如,决不替换X和Y,除非X在Z前或跟在Z之后)来定制应用程序。 
本发明的这些以及其他的特征和优点将在下列具体描述和通过实例示出了本发明的原理的附图中更详细地展示。 
附图说明
通过下列结合附图的详细描述,将很容易地理解本发明,其中附图中相同的参考标号表示相同的结构元件。 
图1是用于执行正向转换到基于非罗马字体语言的中间形式和从基于非罗马字体语言的中间形式反向转换,以确定可疑的原始输入的可能候选拼写的说明性的系统和方法的框图。 
图2是用于从条目集合生成拼写校正变换规则的说明性的系统和方法的框图。 
图3是示出用于自动生成拼写校正变换规则的过程的流程图。 
图4是示出利用用于处理条目以确定拼写校正建议(如果有的话)的变换规则的过程的流程图。 
具体实施方式
本发明披露了使用基于规则的分类器和隐马尔可夫模型处理和校正基于非罗马字体的字(例如汉语、日语、韩语)的系统和方法。应该注意,只是为了清楚起见,此处展示的实例可应用于汉语拼写错误检测和校正,更具体地是简体汉字拼写错误检测和校正。然而,用于拼写错误检测和校正的系统和方法可类似地应用于其他基于非罗马字体的语言(例如繁体汉语、日语、韩语、泰国语等)。提出下列描述以使得本领域任何技术人员都能够实现和使用本发明。提供具体实施例的描述和应用只是作为实例,对于本领域技术人员来说,各种修改将是显而易见的。在不脱离本发明的精神和范围的情况下,此处限定的一般原理可应用到其他实施例和应用。因此,本发明将被给予包括大量选择、修改以及与此处披露的原理和 特征一致的等同物的最宽的保护范围。为了清楚起见,没有详细描述关于在涉及本发明的技术领域中已知的技术材料,以免不必要地模糊本发明。 
此处描述的系统和方法一般地涉及使用由输入条目生成的拼写校正变换规则来处理和校正非罗马字体语言中的拼写错误的系统和方法。如此处所使用的,术语“拼写”指的是词表外的字符或字以及在上下文中不适当使用的有效字符或字。另外,术语输入的候选拼写或候选形式用在此处指的是不同于输入但是与输入相同语言的字符和/或字的集合,无论输入是单字符或字、字符和/或字的系列或集合、短语、句子等。从输入条目中识别可疑输入条目,并且由图1中示出的可疑输入条目检测器生成可能的候选拼写。使用可疑输入条目和由可疑输入条目检测器生成的可能的候选拼写作为输入,然后生成和训练拼写校正变换规则并且通过如图2中所示的变换规则生成器和分类器将可疑条目分类为正确的或不正确的。本系统和方法使用变换规则、隐马尔可夫模型和易混淆字符的相似性矩阵。在汉语应用中,如果在简体汉字或繁体汉字(traditionalChinese)中字符具有相同的发音和/或共享一些输入按键,则一对易混淆字符之间的相似性可为正数。否则,值为零。在一个实施例中,相似性可具有布尔值,例如,1用于一对易混淆字符,0用于一对非易混淆字符。图4的流程图中示出了使用拼写校正变换规则的训练集合来识别拼写错误和生成建议的拼写校正的过程。这样,通过使用输入集合来训练变换规则,最普通的拼写错误和校正可以被确定和处理以增强拼写检查和校正系统的效率和有效性。 
图1是用于执行正向转换到简体汉字的中间形式(例如,拼音)和从简体汉字的中间形式反向转换,以识别可疑原始输入并确定可疑原始输入的可能的候选拼写的示意性可疑输入条目检测器100的框图。图1中示出的可疑输入条目检测器100利用拼音是用于简体 汉字的普遍使用的输入方法这个方便的事实。然而,可以实现和使用基于罗马字体或基于非罗马字体的任何其他中间形式。类似地,可疑输入条目检测器100适于使用各种其他基于非罗马字体的语言。 
如图1所示,字-拼音转换器104将每个汉字的原始条目102转换为一个或多个对应于原始条目102的发音或拼音106。然后,拼音-字转换器108将拼音106转换为可能的拼写110。可以采用用于将第一语言的文本转换为中间表示,然后转换回第一语言的其他的合适转换器104、106。拼音仅是汉字或简体汉字的方便的中间表示。比较器112将都为第一语言的原始条目102和可能拼写110进行比较,以确定是否存在匹配项。如果原始条目102与由拼音-字转换器108输出的可能拼写110中的一个相匹配,则原始条目102匹配,假定被正确地拼写114。然而,如果原始条目102不与由拼音-字转换器108输出的可能拼写110中的任何一个相匹配,则原始条目102是可疑条目116,即,它可能是不正确的。 
拼音是主要用于输入简体汉字的语音输入方法。如此处所指出的,拼音通常指的是汉字的语音表达(phonetic representation),具有或没有与汉字相关的音调的表示。特别地,“拼音”指的是简体或繁体汉语的所有语音符号,包括注音符号(Bopomofo,汉语拼音字母),即,“带注释的语音的符号”。 
拼音使用罗马字体字符并且具有以多音节字形式列出的词汇。因为汉语具有大量同形字和同音字,所以每个原始条目102可以通过字-拼音转换器104转换为多个拼音106,并且类似地,每个拼音106通过拼音-字转换器108可以被转换为汉字110的多个可能拼写。特别地,由于只有大约1300个具有音调的不同语音音节(这可以由拼音表示),以及大约400个没有表示好几万汉字(Hanzi)的语音音调的语音音节,一个语音音节(具有或没有音调)可对应于许 多不同汉字。例如,普通话中“yi”的发音可对应于超过100个汉字。因此,考虑到为同形字和/或同音字的汉字的巨大比例,由字-拼音转换器104和拼音-字转换器108执行的将每个原始条目102转换为拼音106然后转换回汉字110的过程可能并不是很平常的。 
此处描述的系统和方法使用变换规则、隐马尔可夫模型和易混淆字符的相似性矩阵。中文应用中,如果字符具有相似的发音、共享相似的输入按键、和/或拼写相似(即,视觉上相似),则一对易混淆字符之间的相似性可为正数。否则,值为零。在一个实施例中,相似性可具有布尔值,例如,1用于一对易混淆字,0用于一对非易混淆字。在第一语言的一对易混淆字符之间的相似性可根据中间表示中的公共标记而被限定。 
可以实施用于将汉字转换为拼音和用于将拼音转换为汉字的各种机制。例如,各种译码器可适于将拼音转换为汉字(中文字符)。在一个实施例中,可以实施使用隐马尔可夫模型的Viterbi译码器。例如,可以通过收集经验计数或通过计算期望值并且执行迭代最大化处理,来实现隐马尔可夫模型。Viterbi算法是根据马尔可夫通信信道的输出观察来译码源输入的有用、高效的算法。Viterbi算法已经成功地在用于自然语言处理(例如语音识别、光学字符识别、机器翻译、语音标记(tagging)、解析和拼写检查)的各种应用中实施。然而,应该理解,代替马尔可夫假设,在执行译码算法中可以做出其他各种适当的假设。另外,Viterbi算法只是一种可以由译码器执行的适当译码算法,并且也可以执行各种其他适当的译码算法,例如有限状态机、Bayesian网络、决策平面算法(高维Viterbi算法)或Bahl-Cocke-Jelinek-Raviv(BCJR)算法(两通道正向/反向Viterbi算法)。 
由可疑输入条目检测器100检测到的可疑条目通常基本包括所有拼写错误。然而,可疑条目也通常包括较高的假报警/假的正比率, 即,被标记为不正确的正确查询数量与不正确查询的数量的比率。这将在下面进行更详细地描述,然后,由可疑条目检测器100确定的可疑查询116可被分类为正确的或不正确的。分类器可为基于变换规则的分类器,这是优选的,或者可以为决策树分类器、神经网络分类器等。对于分类为正确的条目,不给出建议。对于分离为不正确的条目,可根据每个可能的选择拼写的相似性给出拼写校正建议。 
图2是用于从由可疑条目检测器100处理的原始条目集合102生成拼写校正变换规则的示意性系统和方法120的框图。特别地,原始条目集合102可包括诸如网络搜索引擎的查询日志的用户输入条目和/或例如从诸如那些互联网上可用的文档导出的条目。在用户输入条目的情况下,原始输入集合102可包括例如来自过去三周或两个月的用户查询集合。文档实例可包括诸如报纸、书籍、杂志、网页等的网络内容和各种出版物。原始输入集合102可从文档(例如,以互联网上可用的简体和/或繁体汉字写的文档)的组、集合或储存库导出。应该指出,此处所述的示意性系统和方法特别可应用于网络搜索引擎的上下文中,并且可应用于包括有组织的数据的数据库的搜索引擎中。然而,应该理解本系统和方法可以被修改和用于拼写错误检测和校正的各种其他应用,特别用于在非罗马字体语言中的条目。例如,本系统和方法适于CJK文本输入应用,例如,检测和校正拼写错误的字处理应用。 
变换规则发生器和分类器120由Eric Brill引入的基于变换的学习算法(learning algorithm),该算法在训练过程中,根据来自训练数据(例如,人注释的不正确拼写)的置信度测量结果自动提取(学习)和排列变换规则。这些变换规则由注释器/表决器124使用。注意,变换规则不同于语言学中使用的语法规则,因为变换规则是基于统计学而不是语言学知识。因此,例如,如果大部分条目以相同 的错误方式错误地拼写某些字,则错误的拼写将被分类为正确的。关于基于变换规则的方法的其他信息出现在2004年1月27日公布的Eric Brill的第6684201号,题为“Linguistic Disambiguation Systemand Method Using String-Based Pattern Training to Learn to ResolveAmbiguity sites”的美国专利,其全部内容结合与此作为参考。因此,变换规则发生器120通过利用用户的表决自动地(即,无人监控地)生成规则。换言之,字符模式的正确性是根据数据库中表决的多数来确定的,例如,查询日志,而不是人注释的数据。 
每个变换规则均与置信度测量结果相关联,使得具有较高置信度测量结果的规则被应用在具有较低置信度测量结果的规则之后。例如,如果B在X之前,则第一变换规则可以指定用Y替换X。如果E在Y之后,则具有较高置信度测量结果的第二变换规则可指定用用X替换Y。因此,第一变换规则将首先被应用到条目BXE以生成BYE。然后,第二变换规则将被应用到所得到的条目BYE以将该条目转换回BXE。这是很明显的,变换规则被应用的顺序会影响结果。还应该注意,被替换的字符和替换字符可以为条目的任何成分,而不必是字。类似地,条件可以基于任何上下文,词性(part-of-speech)标记或语法非末端标签(例如,NP用于名词短语)。还要注意,虽然基于变换规则的分类器是优选的,然而,可以类似地实施简单Bayesian分类器、决策树分类器、神经网络分类器、或任何多种其他合适的分类器,以分类可疑条目116。 
回到图2,如所示,由可疑条目检测器100输出的每个可疑条目116和其相应的可能的候选拼写110通过拼写校正变换规则发生器120的注释器(annotator)124接收。注释器124最初基于初始变换规则126并且最终基于提取的和排列的变换规则130来分类条目128。 
学习阶段可被监督(即,由人)和/或无人监督。在一个实施例中,少数普通人工创建的变换规则的初始集合被用于自动地注释可疑条目的小集合,一些人监控或通过利用用户的表决而没有人监控。在初始学习阶段之后,生成其他变换规则,优选地还有一些人监控,并且其他可疑条目被注释。所得到的规则(其例如使用较少的规则管理相当数量的用户通信量)可被看作非常可靠的,并且因此对应于高置信度测量结果。注意,由于具有较高置信度的规则通常比具有较低置信度的那些规则具有较小的覆盖率,所以具有高置信度的规则和具有较低置信度的规则都被使用。 
为了成本效率,可自动地生成较大数量的剩余可疑条目(例如占用户通信量的较小比例),无须人监督。一种用于自动生成这种规则的示意性过程150如图3的流程图所示。特别地,对于在循环152中的每个可疑查询Q以及对于在循环154中的每个相应候选拼写Q’,在框156处,将Q和候选拼写Q’进行比较,以确定Q中的字符可能是不适当以及它们的替代C’。在框158处,具有C的前N个字符以及后N个字符的宽度为2N+1的窗口被打开。注意,可以实施任何合适的上下文的长度,例如2N+1,并且在有疑问的字符之前或之后的上下文的长度可以但不需要相等。所有C_{-N},...C,...,C_{N}的子序列(pre-C,C,post-C)的频率F(pre-C,C,post-C)均被计数以确定规则是有效的(significant),即,规则是否能够覆盖可疑条目中拼写错误的合理大比例。如果1≤s1<s2...<sj<k,则字符串S=xs1,xs2,...,xsj是字符串X=x1,x2,...xk的子序列。 
接下来,在框160处,通过替换C和C’,确定相应的频率。然后决策框162通过使用查询日志和网页,即,用户表决,来确定规则是否是可靠的。如果确定规则是可靠的,则提取变换规则(即, 用C’替换给定pre-C和post-C的C)。特别地,如果满足下列条件则认为变换规则是可靠的: 
F(pre-C,C,post-C)>T1以及 
F(pre-C,C,post-C)/F(pre-C,C,post-C)>T2, 
其中,T1是最小有效阈值,T2是最小置信阈值。如上所述,通过利用用户表决使得根据数据库(即,查询日志)中的表决的多数而不是人注释的数据确定字符模式的正确性,由变换规则发生器执行的过程150自动(即,无人监督地)生成规则。 
因为最常见的变换规则将支配错误模式的非常大的一部分,规则集合的大小优选地不随可疑条目的数量迅速增加。也可设置每个规则的最小具体值(minimum occurrence)以限制变换规则集合的大小。 
实施此处描述的系统和方法的应用程序可以在诸如搜索引擎的服务器站点上执行,或可以在诸如终端用户的计算机的客户端站点(例如,下载的)上执行,以对输入到字处理文档中的文本提供拼写校正,或与诸如搜索引擎的远程服务器相互作用。客户端站点应用程序可以在例如工具栏内执行,并且可以可选地包括停止规则模式的用户可编辑表,该表允许用户通过指定某些拼写校正是被禁止的(例如,决不替换X和Y,除非当X在Z之前或Z之后)来定制应用程序。例如,一些汉字,例如“买”和“卖”,在该语言中具有相同的发音“mai”(但是音调不同)并且具有几乎相同的语法角色,然而具有完全不同的意义。许多自动拼写规则生成程序倾向于将“买”改为“卖”,反之亦然。终端用户可以在停止规则模式表中指定停止规则“(X,Y)”,以防止拼写校正应用程序用Y替换X。 
图4是示出利用用于处理条目的变换规则以确定拼写校正建议(如果有的话)的过程200的流程图。决策框202确定是否有任何拼写校正规则适用于用户输入。为了执行决策框202,可以检查拼写校正变换规则的哈希表,以确定是否有任何变换规则适用于用户输入。例如,对于给定汉语用户输入ABCDE,如果变换规则指示如果C前面的字符是AB,则用C’替换字符C,然后该特定规则可应用于用户输入。如果没有规则可应用于用户输入,不为用户输入做出拼写校正建议。可选地,在框204处,对于每个可应用于用户输入的拼写校正变换规则,生成对应于可应用的拼写变换规则的候选拼写。在上述实例中,为对应于可应用的拼写校正变换规则的用户输入ABCDE生成候选拼写ABC’DE。 
在决策框206处,确定每个候选拼写的相似性,并且与用户输入的相似性进行比较。在一个实施例中,决策框206可利用隐马尔可夫模型和Viterbi译码器以计算相似性。在当前实例中,ABCED和ABC’DE的相对输出概率被确定和比较。如果下式成立,则候选拼写具有比用户输入更高的相似性,因此被看作有效校正: 
P(ABC’DE)×P(变换规则)>P(ABCDE), 
其中,P(变换规则)可被限定为成功校正数量和校正总数量的比率。注意,P(ABCDE)应该考虑分割的多义性。例如,如果ABCDE有两个可能的分割AB-CDE和ABC-DE,则概率是Bayesian概率乘积的和: 
P(ABCDE)=P(输入-结束/CDE)×P(CDE/AB)×P(AB/输入-开始)+P(输入-结束/DE)×P(DE/ABC)×P(ABC/输入-开始) 
注意,上面的方程是通过应用马尔可夫假设(其通过前面的字而不是通过整个历史来确定当前字)由原始Bayesian概率导出的Bayesian概率。可以类似地确定P(ABC’DE)。 
如果给定的候选拼写不比在决策框206处所确定的用户输入更合适,则不给出特定拼写校正建议。然而,如果给定的候选拼写比在在决策框206处所确定的用户输入更合适,则在框208处建议和/或自动生成用户输入的相应候选拼写。 
此处描述的用于拼写校正的系统和方法特别适合用于基于非罗马字体的语言,并且在检测拼写错误和生成候选拼写建议或校正方面非常有效。另外,用于拼写校正的系统和方法还特别可应用在网络搜索引擎环境中以及应用到包括有组织的数据的数据库的搜索引擎中,执行各种用户输入或查询的拼写校正。 
虽然此处示出和描述了本发明的代表性实施例,然而应该理解它们只是说明性的,并且在不脱离本发明的精神和范围的情况下,可以对这些实施例进行修改。因此,本发明的范围将只由下列可以被修改的权利要求的术语所限定,其中每个权利要求均被特意地结合到该具体实施方式部分作为本发明的实施例。 

Claims (19)

1.一种用于字的拼写校正方法,包括:
接收与第一语言相关的第一字符表示的多个输入条目;
确定一个或多个可疑条目,包括,对于每个输入条目:
生成一个或多个与所述第一语言相关的第二字符表示的中间条目,每个中间条目为所述输入条目的一个表示,其中,所述第二字符表示不同于所述第一字符表示;
从所述一个或多个中间条目生成所述输入条目的一个或多个可能的候选形式,其中,所述输入条目的所述一个或多个可能的候选形式为与所述第一语言相关的所述第一字符表示;
将所述输入条目与所述输入条目的所述一个或多个可能的候选形式中的每一个进行比较以定位匹配项;以及
当未从所述一个或多个可能的候选形式中定位到匹配项时,确定所述输入条目是可疑条目;
使用所确定的可疑条目和相应的一个或多个候选形式来生成和训练一组拼写校正变换规则,其中,每个拼写校正变换规则均与置信度测量结果相关联,使得具有较高置信度测量结果的拼写校正变换规则被应用在具有较低置信度测量结果的规则之后。
2.根据权利要求1所述的方法,其中,所述第一字符表示是基于非罗马的字符表示。
3.根据权利要求1所述的方法,其中,所述第一字符表示是汉字并且所述第二字符表示是拼音。
4.根据权利要求1所述的方法,其中,每个输入条目是查询日志中的用户查询。
5.根据权利要求1所述的方法,还包括:
基于所述一组拼写校正变换规则将每个可疑条目分类为正确拼写的条目或不正确拼写的条目。
6.根据权利要求5所述的方法,其中,所述分类由基于变换规则的分类器执行。
7.根据权利要求5所述的方法,还包括:
使用利用所述可疑条目和所述相应的一个或多个候选形式的变换规则发生器,生成和训练所述拼写校正变换规则。
8.根据权利要求7所述的方法,其中,使用可疑条目的数据库自动执行所述生成和训练所述拼写校正变换规则。
9.根据权利要求5所述的方法,其中,以自动或人工监控来执行所述分类。
10.根据权利要求5所述的方法,还包括:
维持停止规则模式的用户可编辑表,所述停止规则模式禁止对用户输入和候选拼写的特定结合提供拼写校正建议或拼写校正。
11.一种用于字的拼写校正系统,包括:
第一转换器,用于接收与第一语言相关的第一字符表示的输入条目以生成一个或多个与所述第一语言相关的第二字符表示的中间条目,每个中间条目为输入条目的表示,其中,所述第二字符表示不同于所述第一字符表示;
第二转换器,用于从所述一个或多个中间条目生成所述输入条目的一个或多个可能的候选形式,其中,所述输入条目的所述一个或多个可能的候选形式为与所述第一语言相关的所述第一字符表示;
第一比较器,用于将所述输入条目与所述输入条目的所述一个或多个可能的候选形式中的每个可能的候选形式进行比较以定位匹配项,所述比较器还被用于当未从所述一个或多个可能的候选形式定位到匹配项时确定所述输入条目是可疑输入条目;以及
变换规则生成器,用于使用所述可疑输入条目和相应的一个或多个候选形式以生成和训练拼写校正变换规则,其中,每个拼写校正变换规则均与置信度测量结果相关联,使得具有较高置信度测量结果的拼写校正变换规则被应用在具有较低置信度测量结果的规则之后。
12.根据权利要求11所述的系统,其中,所述第一字符表示是基于非罗马的字符表示。
13.根据权利要求11所述的系统,其中,所述第一字符表示是汉字并且所述第二字符表示是拼音。
14.根据权利要求11所述的系统,其中,由第一转换器接收的输入条目是查询日志中的用户查询。
15.根据权利要求11所述的系统,其中:
分类器,包括所述变换规则生成器,用于基于所述拼写校正变换规则将所述可疑输入条目分类为正确拼写的条目或不正确拼写的条目。
16.根据权利要求15所述的系统,其中,所述分类器是基于变换规则的分类器。
17.根据权利要求15所述的系统,其中,包括所述变换规则生成器的所述分类器,用于使用所述可疑输入条目和所述相应的一个或多个候选形式来生成和训练所述拼写校正变换规则。
18.根据权利要求17所述的系统,其中,所述变换规则生成器使用可疑输入条目的数据库自动生成所述变换规则。
19.根据权利要求15所述的系统,其中,所述分类器以自动或人工监控来执行分类。
CN2005800263504A 2004-06-23 2005-06-21 用于非罗马字符和字的拼写校正系统和方法 Expired - Fee Related CN101002198B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/875,449 US20050289463A1 (en) 2004-06-23 2004-06-23 Systems and methods for spell correction of non-roman characters and words
US10/875,449 2004-06-23
PCT/US2005/022027 WO2006002219A2 (en) 2004-06-23 2005-06-21 Systems and methods for spell correction of non-roman characters and words

Publications (2)

Publication Number Publication Date
CN101002198A CN101002198A (zh) 2007-07-18
CN101002198B true CN101002198B (zh) 2013-10-23

Family

ID=35427493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800263504A Expired - Fee Related CN101002198B (zh) 2004-06-23 2005-06-21 用于非罗马字符和字的拼写校正系统和方法

Country Status (5)

Country Link
US (1) US20050289463A1 (zh)
JP (2) JP2008504605A (zh)
KR (1) KR101146539B1 (zh)
CN (1) CN101002198B (zh)
WO (1) WO2006002219A2 (zh)

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8650187B2 (en) * 2003-07-25 2014-02-11 Palo Alto Research Center Incorporated Systems and methods for linked event detection
US8190419B1 (en) 2006-09-11 2012-05-29 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US7260780B2 (en) * 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7321892B2 (en) * 2005-08-11 2008-01-22 Amazon Technologies, Inc. Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7895223B2 (en) * 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US8006180B2 (en) * 2006-01-10 2011-08-23 Mircrosoft Corporation Spell checking in network browser based applications
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US8732314B2 (en) * 2006-08-21 2014-05-20 Cisco Technology, Inc. Generation of contact information based on associating browsed content to user actions
US9552349B2 (en) * 2006-08-31 2017-01-24 International Business Machines Corporation Methods and apparatus for performing spelling corrections using one or more variant hash tables
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
KR101465770B1 (ko) * 2007-06-25 2014-11-27 구글 인코포레이티드 단어 확률 결정
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8589149B2 (en) 2008-08-05 2013-11-19 Nuance Communications, Inc. Probability-based approach to recognition of user-entered data
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
WO2010105428A1 (en) * 2009-03-19 2010-09-23 Google Inc. Input method editor
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US9183834B2 (en) * 2009-07-22 2015-11-10 Cisco Technology, Inc. Speech recognition tuning tool
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102541837A (zh) * 2010-12-22 2012-07-04 张家港市赫图阿拉信息技术有限公司 一种校正输入中文拼写的方法
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8712931B1 (en) * 2011-06-29 2014-04-29 Amazon Technologies, Inc. Adaptive input interface
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8976118B2 (en) 2012-01-20 2015-03-10 International Business Machines Corporation Method for character correction
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
TW201403354A (zh) * 2012-07-03 2014-01-16 Univ Nat Taiwan Normal 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
KR102069697B1 (ko) * 2013-07-29 2020-02-24 한국전자통신연구원 자동 통역 장치 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
WO2015109468A1 (en) * 2014-01-23 2015-07-30 Microsoft Corporation Functionality to reduce the amount of time it takes a device to receive and process input
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9377871B2 (en) 2014-08-01 2016-06-28 Nuance Communications, Inc. System and methods for determining keyboard input in the presence of multiple contact points
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US9753915B2 (en) 2015-08-06 2017-09-05 Disney Enterprises, Inc. Linguistic analysis and correction
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10970473B2 (en) * 2015-12-29 2021-04-06 Microsoft Technology Licensing, Llc Formatting document objects by visual suggestions
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10180930B2 (en) 2016-05-10 2019-01-15 Go Daddy Operating Company, Inc. Auto completing domain names comprising multiple languages
US10430485B2 (en) 2016-05-10 2019-10-01 Go Daddy Operating Company, LLC Verifying character sets in domain name requests
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
TWI614618B (zh) * 2016-06-17 2018-02-11 National Central University 字詞校正方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10269352B2 (en) * 2016-12-23 2019-04-23 Nice Ltd. System and method for detecting phonetically similar imposter phrases
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
WO2019000170A1 (en) * 2017-06-26 2019-01-03 Microsoft Technology Licensing, Llc GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION
CN112445953A (zh) * 2019-08-14 2021-03-05 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
US11443734B2 (en) 2019-08-26 2022-09-13 Nice Ltd. System and method for combining phonetic and automatic speech recognition search
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1143769A (zh) * 1995-08-16 1997-02-26 国际商业机器公司 处理中文文本的系统和方法
CN1223733A (zh) * 1996-06-28 1999-07-21 微软公司 利用计算机系统的日文文本字的识别
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files
CN1311881A (zh) * 1998-06-04 2001-09-05 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
US5706502A (en) * 1996-03-25 1998-01-06 Sun Microsystems, Inc. Internet-enabled portfolio manager system and method
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
JPH10269204A (ja) * 1997-03-28 1998-10-09 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及びその装置
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6649222B1 (en) * 1998-09-07 2003-11-18 The Procter & Gamble Company Modulated plasma glow discharge treatments for making superhydrophobic substrates
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US6684201B1 (en) * 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1143769A (zh) * 1995-08-16 1997-02-26 国际商业机器公司 处理中文文本的系统和方法
CN1223733A (zh) * 1996-06-28 1999-07-21 微软公司 利用计算机系统的日文文本字的识别
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files
CN1311881A (zh) * 1998-06-04 2001-09-05 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text

Also Published As

Publication number Publication date
CN101002198A (zh) 2007-07-18
JP2008504605A (ja) 2008-02-14
WO2006002219A3 (en) 2006-08-03
WO2006002219A2 (en) 2006-01-05
JP5444308B2 (ja) 2014-03-19
US20050289463A1 (en) 2005-12-29
KR20070027726A (ko) 2007-03-09
JP2012069142A (ja) 2012-04-05
KR101146539B1 (ko) 2012-05-25

Similar Documents

Publication Publication Date Title
CN101002198B (zh) 用于非罗马字符和字的拼写校正系统和方法
Oh et al. Why-question answering using intra-and inter-sentential causal relations
Kumar et al. Part of speech taggers for morphologically rich indian languages: a survey
Kumar et al. A study of spell checking techniques for indian languages
Masmoudi et al. Transliteration of Arabizi into Arabic script for Tunisian dialect
Tufiş et al. DIAC+: A professional diacritics recovering system
Ekbal et al. Web-based Bengali news corpus for lexicon development and POS tagging
Comas et al. Sibyl, a factoid question-answering system for spoken documents
Jain et al. Detection and correction of non word spelling errors in Hindi language
Kaur et al. Spell checker for Punjabi language using deep neural network
Tukur et al. Tagging part of speech in hausa sentences
Kapočiūtė-Dzikienė et al. Character-based machine learning vs. language modeling for diacritics restoration
Pal et al. Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
Hasan et al. SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm
Tüselmann et al. Named entity linking on handwritten document images
Nejja et al. Context's impact on the automatic spelling correction
Sonnadara et al. Sinhala spell correction: A novel benchmark with neural spell correction
Eutamene et al. Ontologies and Bigram-based Approach for Isolated Non-word Errors Correction in OCR System.
Hemmer et al. Estimating Post-OCR Denoising Complexity on Numerical Texts
Toska A Rule-Based Normalization System for Greek Noisy User-Generated Text
Sudesh et al. Erroff: A Tool to Identify and Correct Real-word Errors in Sinhala Documents
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
Xie et al. ABC-Fusion: Adapter-based BERT-level confusion set fusion approach for Chinese spelling correction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131023

Termination date: 20170621