CN1143769A - 处理中文文本的系统和方法 - Google Patents

处理中文文本的系统和方法 Download PDF

Info

Publication number
CN1143769A
CN1143769A CN96105876A CN96105876A CN1143769A CN 1143769 A CN1143769 A CN 1143769A CN 96105876 A CN96105876 A CN 96105876A CN 96105876 A CN96105876 A CN 96105876A CN 1143769 A CN1143769 A CN 1143769A
Authority
CN
China
Prior art keywords
syllable
speech
chinese
tone
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN96105876A
Other languages
English (en)
Other versions
CN1191514C (zh
Inventor
辰君·朱利安·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1143769A publication Critical patent/CN1143769A/zh
Application granted granted Critical
Publication of CN1191514C publication Critical patent/CN1191514C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

将语音中文(拼音和BPMF)输入到计算机系统里并准确地转换为汉字形式。该系统具有带着发音符号键(以及对应的ASCII编码)的新颖键盘,从而允许用户利用指示音节声调的发音符号注释各个所输入的语音文本音节。系统上所执行的一个进程确定音节是否在键击一个发音符号(或定界符)时已经输入。然后把已输入的语音音节和可接受的语音音节及缩写表进行比较。所输入的音节在该表中存储和显示正确拼写及重读的音节。

Description

处理中文文本的系统和方法
本发明涉及利用计算机处理中文文本的改进型系统和方法,尤其涉及利用计算机处理语音中文文本和汉字的改进型系统和方法。
在计算机上录入(输入)和处理中文文本是一个非常困难的问题。中文字符的庞大数量是该困难的一个实例。在中文的方块字(汉字)书写系统中,存在3000至6000个常用的中文字符(汉字)。如果包括相对不常用的字符,存在1万以上的汉字。在该困难之外在中文中还存在文本标准化、多同音异义字以及麻烦定义的词的边界等问题,从而妨碍了利用计算机有效地处理汉字文本。尽管经过几十年的深入并且已有数百种不同的方法,汉字的计算机输入及处理是妨碍在中国使用计算机尤其在文本处理上的主要障碍。
目前可以得到的中文文本输入及处理的计算机系统可以分成三类。
第一类系统基于把方块字分解成简单的图形成分。键盘上的不同键分配为代表汉字的不同的简单图形成分。这样,通过几次击键可以键入作为这些简单图形成分的组合的各个字符。这种方法的例子包括台湾的Changji法和中国大陆的五笔字型法。这种方法的主要缺点是对汉字成分的键位分配是人为的。在Changji法和五笔字型法中,对代码的分配必须机械地记忆。记住代表各成分的各键是困难和费时的。此外,在许多情况下把汉字分解成简单成分不是唯一的。尽管这些方法由专业的录入员所采用,并且得到很好训练的打字员表现出高速度,但计算机专家和其它的专业人员不大使用这些方法,更不用说一般的人们了。从而,这些方法趋于限制讲中文的一般人员使用计算机。
第二类和第三类系统遇到中文处理中的“同音异义字问题”。
第二类系统是语音输入(即中国大陆的拼音和台湾的“语音符号”或BPMF),这是除专业打字员外各个人最常采用的方法。中文的汉字书写系统是对该方法概念上的和实践上的壁垒。
因为和几万个字符相比只有大约1300个不同的语音音节,一个语音音节可能对应着许多不同的汉字。例如,普遍话中“yi”的发音可以对应100多个汉字。当把语音音节转换为汉字时这将产生不定性。
为了解决“同音异义问题”,大部分语音输入系统采用多种选择法。例子请见83年5月5日授权的J.Heinzl等人的德国专利3,142,138;91年9月10日授权的K.C.Hsieh的美国专利5,047,932以及91年3月8日授权的Tan Shanguang的中国专利1,064,957。在键入一个语音音节之后,计算机显示具有相同发音的所有可能的汉字。在某些情况下,在屏幕上不可能有显示具有相同发音的所有可能字符的足够空间。这些情况要求上下滚动。因此,这些基于各个音节的语音方法是很慢的。
现有技术中已公开根据推演相邻汉字的概率来对多种选择方法进行改进。例子见92年4月1日授权的R.W.Sproat的英国专利2,248,328。概率方法可以进一步和语法限制结合起来。例子见Computer Processing of Chinese and OrientalLanguages,Vol.6,Num 1,Page 85,June 1992中K.T.Lua等人的论文。但是,这些方法的变换准确性(语音到汉字)典型地限于80%左右。
第三类系统把语音-字符输入方法和外加的非语音符号结合起来。把非语音的符号加到语音符号上以人为地区别发音相同的字符。例子包括带有字根标志的语音拼写(85年11月20日授权的C.C.Chen的英国专利2,158,776)和带有笔划数的语音拼写(92年11月25日授权的G.Xie的中国专利1,066,518)。这些方法要求记住人为的规则或者要求计算笔划数,后者明显的降低了输入速度。
除了“同音异义问题之外”,在处理中文时存在着“词边界问题”。
尽管现代汉语中多于80%的词具有多音节(即两个或更多的汉字),但在书写系统中各词是不分开的(与所有的欧语甚至与朝鲜语相反)。此外,语音中文的输入通常是在不考虑词的边界而一个音节接着一个音节地执行的。
尽管广泛地承认多音节词并且缺乏标准的方式在词的边界界定词,在中文中词的定义甚至词的实体是有争论的。另外,因为传统上中文书写成不带词间间隔的连续汉字串,普通的中国人不具有一个“词”意味着什么的清楚概念。在许多情况中不清楚什么地方应该放上词的边界或者定界符如空格。争论可用下述情况举例说明。
1.复合名词。在英文中,二个独立的实词可以相结合以形成一个复合名词,例如,blackoard,rattlesnake。在英文中存在着是否应该把这些复合字符串对待为一个词或两个词的争论。在中国因为没有广泛接受的先例,关于复合名词的争论要剧烈得多。例如,当在中文拼音词典中例举词“nanguangboyuan”(男广播员)时,不同的人可能把它考虑成二个词(nan guangboyuan)甚至三个词(nan guangbo yuan)。
2.词缀。所有的中文动词可以带有“词缀单元”-le(了)、-guo(过)或者-zhe(着),这些词缀单元使动词成为过去、完成或进行时态。所有的形容词可以附加-de(的)。但是这些句法单元也当作称之为助词的独立词出现。不同的语言学校对待这些句法单元是不同的。一些学校把这些句法单元处理为“专有的”词缀,即是其所附加的词中的一部分。另外一些学校把它们处理为独立的助词,即分开的词。
一个词缀是词的一部分而一个助词是一个独立的词。例如,尽管大部分语言学家把名词词尾-hua、-jia、-yuan、-xing和zhuyi考虑为单个词中的词缀,一些语言学家认为它们是单独的助词(分开的词)。另一方面,诸如-z,-r和-tou的词尾总是被处理为名词的词缀,而不是单独的助词。
3.复合动词。中文中有一族和德语中的可分割的动词(diezerbrechbar Zeiwort)如aufzichen、heraufziehen等。非常类似的动词。这些“可分割的”动词可以采用中缀-zu-和-ge-变成不定式或过去分词。
在中文中,类似的复合动词可以具有中缀-de-或者-bu-,以表示“能力”或否定。例子是taiqilai(抬起来),它具有taideqilai(抬得起来)及taibuqilai(抬不起来)的变体,和上面的德文动词非常相似。另外,词组“taiqi tou lai”、“taideqi tou lai”和“taibuqi tou lai”是使用复合动词的类似句子结构(如“zie hendein Kapf auf”。从这个观点上,“taiqilai”应该是一个词。但是,许多语言学家认为这些音节是单独的词(tai、qi、lai)并且分开写它们。
如上面举例说明的那样,在中文中经常不清楚词的边界应该在何处。
虽然存在争论,许多多音节词被普通地承认为是最小的语言单元或词素,例如:(1)名词“gada”、“putao”、“feiji”等;(2)动词“zhuanyou”、“xing wu”等,以及(3)形容词“heised”“pangdad”等。同时普遍认可由多个词组成的许多短语。例如,尽管有时可以把“dianzigongye”当作一个词,没有人会把短语“fazhan dianzi gongye”认为是一个单个的词。存在着普遍认为是一个词的通俗4音节成语,尽管在不同的拼音书写格式中可能要用或者不用连字符。对于这些种类的词,普遍承认唯一的词的边界。
如上面所述,由于中文中缺少普遍认可的正字法规则以及缺少词分隔习惯,使得开发易于在中文文本的计算机输入和处理中使用的一种标准成为非常困难-各个语言学校不会普遍地遵循。即使遵守狭窄的对词的定义(即把许多复合词处理为短语并把许多词缀处理为助词),仍然存在着某些不定性。通过对词进行广义地定义(即把许多复合词对待为单个单元并把许多词缀认可为词的一部分),识别的准确性将得到提高,但是需要存储到计算机的存储器的词汇量将会太大,以至于不能包括各个单元词以及各个带有所有词缀组合的词。
为非中国人提供的中文会话教科书是用一种称为拼音的拼音格式书写的,其中把多音节词看作为基本单元。拼音采用罗马字母并且具有以多音节词为形式列举的词汇表。中文拼音词典是在1964年出版的。其修改版于1989年在中国北京由语言出版社出版,其含有约60000个词条。在1984年颁布了定义词的边界的按拼音格式书写的中文的正字法规则。
本发明的一个目的是提供一种改进型的计算机系统,用于在计算机上输入和处理语音中文和汉字。
本发明的另一个目的是提供一种准确的计算机系统,其具有相对少的词汇量(存储器)要求,并且提供一种把输入的中文语音(拼音或BPMF)转换成书写字符(汉字)的进程,该进程同时能适应中文中分隔词的各种不同的语法理论和/或各种不同的个人习惯。
本发明的另一个目的是对计算机键盘提供方便及有效的设计以便利中文文本的输入和处理。
本发明的另一个目的是提供一种扩充ASCII代码的设计,以在不抵触GB2312-80格式(中文字符通信的中国政府标准)的英文和方块字符(汉字)流的前提下方便以中文语音为基础的信息流的存储、打印及传送。
本发明的另一个目的提供一种具有自动错误检测及修正功能的语音中文的计算机处理系统。
本发明的另一个目的是提供一种允许对中文及非中文(如英文)的混合文本进行处理的语音中文计算机处理系统。
本发明是一种用于准确地和有效地把语音中文(拼音和BPMF)输入到计算机系统里的和用于准确地把语音输入转换成汉字形式的系统和方法。本系统具有一个带着若干发音符号(并且与ASCII编码相应)键的新颖键盘,它允许用户借助一个表示音节声调的发音符号来注释各个输入的语音文本音节。在键击一个发音符号(或定界符)键时系统上所执行的一个进程判定已输入一个音节。然后把输入的语音音节和一个可接受的语音音节及缩语表进行比较。如果输入的音节在表上,则把正确拼写和正确声调的这个音节存储在存储器里并且显示在图形显示器的语音部分上。该进程连续处理相继的音节直到输入一个定界符为止。
一旦遇到定界符,词串(定义为两个定界符之间的字符串)得到处理以确定代表词串中的词的适当的汉字字符。该词串(或该词串中的各个词)与语音词的词典相比较。如果该词串具有唯一的汉字转换(译文),把汉字转换存储在存储器里并且显示在图形接口的汉字部分上。如果该词串不和该字典相匹配,则进行词法分析,即从词串移去任何标准的词缀(如从词缀表中进行识别)。剩下的词串(根)被重新分析。如果词根仍旧不和该字典相匹配,把词根(剩下的词串)分解成组元成分/词。如果组元成分和词典唯一性地匹配,则把这些唯一性的组元成分/词的汉字转换存储在存储器里并且显示在图形接口的汉字部分上。
如果输入的词或者组元成分/词具有不明确的转换(在词典中非唯一地匹配),则进行句法分析。词串里的名词被分类为功能词(功能词/词缀表上的并且不带有声调音节的词)或表意词(具有至少一个声调音节的词)中的一种(注意对本发明来说,以相同的方式使用和处理功能词、助词和词缀)。功能词被清楚地翻译并且同时用来确定输入的剩余词串(根)的结构。接着借助已翻译过的功能词在表意词的基础上减小或去掉任何表意词的不明确性。通过一种统计模型消除表意词的任何剩余不明确性。
可以用不同于键盘的设备如经过网络、磁介质或声学系统把语音文本输入到系统中。通过利用专门的字符如空格来定界非中文的词,可以处理包括中文及非中文词的混合文本。
图1是本发明的一种最佳实施方式的方块图。
图2A表示本发明中所使用的键盘的一种最佳实施方式。
图2B表示带有声调键的键盘的一部分的备择实施方式。
图2C和2D表示本系统中所使用的键盘的备择最佳实施方式,其中各个键盘有从空格键上分隔出来的用作为声调键的部分。
图3是一种ASCII代码数据结构的最佳实施方式,它包括在较低7位里的声调发音符号和包括在较高7位中带有声调发音符号的所有可用的元音。
图4是一个流程图,表示用于键盘输入的最佳处理,其把拼音词记录到存储器里。
图5是一个流程图,表示用于以拼音格式书写的中文词的词法分析及分解的进程。
图6是一个流程图,表示处理带有不明确词串的拼音输入的最佳句法方法。
图7是一个表,该表带有对每个音节各具有一个代码格式的中文音节的最佳列表。
图8是一个表,其带有把中文功能词、助词和词缀处理为功能词的最佳列表。
图1表示本系统1000的一种最佳实施方式的方块图。系统1000包括能够显示中文字符和英文文本的图形接口1020、CPU1010、主存储器1100和存储设备1200。键盘简要表1070存储在主存储器1100和/或存储设备1200里。系统1000具有一个如鼠标器的指点器1031,该系统可和网络1090连接。一台IBMRS/6000是CPU1010、存储器(1100、1200)和图形接口1020的一种实施方式。
图中还显示了新颖的键盘1030。该键盘包括声调发音符号键1050和标准罗马字符的音节输入键1040。备择的各声调键1060A、B也是可能的。各声调键1060A可以放在分隔开的空格键上。各声调键1060N可以加在标准的各箭头键上。在对图2A-2D的说明中将讨论这种新颖键盘的备择最佳实施方式。
在存储设备1200和/或主存储器1100里包括用于把对键盘1030的键击转换为编码后(如ASCII)的字符及发音符号的新颖数据结构,编码后的字符及发音符号存储在(即记录在)存储器(1100、1200)里。在存储器1200里还存储着数据结构700、800和950。它们包括中文音节表700、功能词/词缀表800和中文词典或词汇表950。
在存储器(1100、1200)里包括新颖的的进程400、500和600。进程400是一种把语音中文输入到系统1000里并且有选择地规定词的边界的方法(请注意在本公开中在不丢失广义性的前提下将把语音中文看作是拼音)。进程500是一种方法,用于对拼音文本/词群串进行词法分析以确定唯一性的汉字转换。进程600是由进程500使用的一种句法分析方法,用于解决模棱两可的串/词,即那些具有多于一种汉字转换的串/词。在图3、7和8中分别说明数据结构300、700和800。进程400、500和600分别在图4、5主6中说明。
典型地,用户使用键盘1030把带有适当发音符号(见下文)的拼音文本输入录入到系统1000里。利用数据结构300和进程400,系统1000把拼音字符1022(罗马字母、发音符号、标点符号等)显示在图形接口1020上分隔开的屏幕上的第一部分1021中。利用进程500和600,系统1000分析拼音输入、把拼音转换成汉字并且在图形接口1020的第二部分1024上显示汉字字符1025。请注意通过利用进程500和600以及其它的语言翻译设备1034,系统1000可以把已录入的编码后或带有发音符号的拼音1022翻译成其它语言,如英文。
系统1000还可以包括不同于键盘1030的其它允许输入文本的部件,例如可以通过网络1090传送字符串。其它的输入设备包括用于音频文本输入的部件1033。这些部件应该带有适当的驱动程序以和系统1000连接。请见1995年3月15日Chen等提出的名称为“Statistical Acoustic Processing Method And ApparatusFor Speech Recognition Using A Toned Phoneme System”的美国专利申请号08/404,786,该申请全面地作为本文的参考文献。还可以用其它熟知的方法,包括磁媒体1032如软盘,把编码的拼音串或带有适当发音符号的拼音串输入到系统1000里。
在输入文本时,发音符号用于划分中文拼音表示中的重读音节(及某些实施方式中的非重读音节)和声调等级(见进程400)。发音符号是表示音节的声调的一种符号。在本发明中,带有声调的词的音节是用一个指明该音节具有声调的发音符号注释的。并且,该发音符号还指示声调的类型。在普通话(标准中文)中有四种类型的声调。它们是:阳平、上声、阴平和去声。一些语言学家包括称为“无声调”的第五声(发音符号)。
在把文本400输入到系统1000期间,把声调发音符号加到重读音节上。借助这种编码或划分,在对该文本的进一步处理(500,600)中表意词和功能词、助词及词缀之间的差别立即变得清楚了。(带有重读音节的词是表意词,而功能词、助词及词缀全都列举在800中。)
在一种备择的实施方式中,在每个不重读(无声调)的中文音节(包括功能词、助词及词缀)的后面加上一个“无声调”发音符号。在输入“混合的语言/文本”时,即在输入的中文文本中包括英文或其他非中文文本时,这种实施方式是有用的。因为非中文的文本是不利用发音符号编码(划分)的,可以把中文词/音节(用包括无声调发音符号在内的发音符号标志)和未标志的非中文文本区别开来。非中文的文本还用专门的定界符,例如用词之间的空格,受到定界。
在进一步的语言处理期间,即翻译、分析和/或打印期间,本发明利用在音节串中划分重读音节的以及指示各个重读音节的声调类型的发音符号把中文的语音表达(拼音)从语法上分析成词和句子(见进程500和600)。通过在存在着功能词、助词和/或词缀的上划分开中文句子的语音表达,利用各种规则对语音表达进行语法分析。因为在各种中文方言中只存在相当小数量(即100之内)的已知的确定的功能词(以及助词/词缀),系统1000有效地进行这项工作。这样,存储所有有用的功能词及助词/词缀800所需的计算机存储器量是相对少的。
系统1000准确地确定词义和句子结构(见进程500和600)。首先翻译在意义、用法和声调(无声调)上具有唯一的和明确的译文的功能词(以及助词/词缀)。功能词(以及助词/词缀)还用于定义句子结构。利用对功能词(以及助词/词缀)的翻译和所确定的句子结构,可以确定句中其它(表意)词的意义。
而且,对本发明来说,是以相同的方式使用和处理功能词、助词和词缀的。这是因为在中文书写中由于不存在明显的词边界通常是不作区别的。功能词、助词和词缀还具有类似的声调结构。功能词、助词和词缀的最佳列表存储在系统的存储器(1100、1200)里并示于下面的图8。
本发明的一个新颖特点是一种新型的键盘,这种键盘是特地为拼音中文输入和/或为混合文本处理(拼音中文和非中文语言如英文的混合文本)设计的。这种键盘提供一种输入带有发音符号的拼音音节的途径。图2A-2D是专门设计用于拼音输入的键盘1030的备择最佳实施方式的几个例子。这些键盘1030可使方便及快速地把拼音输入到系统1000里。标准的美国英文键盘对拼音输入是不方便的并且也不提供输入声调/发音符号的能力。
图2A是一种新颖键盘(1030、2000)的图,这种键盘是对美国英文键盘的一种新颖修改。在该特别的最佳实施方式里,一些键用作为声调(发音符号)键1050,而其它的键1040以传统的方式用作为输入拼音字符以及其它语言(英语)字符的音节键1040。在一种最佳实施方式中,一些很少使用的标点符号键被分配为声调键1050。作为一种不受限制的例子:“〔,{”键分配为阳平(发音符号)键2040;“〕,}”键分配为上声(发音符号)键2050;“\,|”键分配为阴平(发音符号)键2060;“″,′”键分配为去声(发音符号)键2070。对处理纯粹的拼音文本,这四种发音符号键(2040-2070)是足够的,因为能用不带发音符号来编码或标志无声调的拼音音节和功能词(以及助词和词缀)。但是,在用来处理和非中文(英文)文本相结合的拼音文本的实施方式(以及其它最佳实施方式)中,添加了另一个发音符号键即无声调(发音符号)键2010。例如,可以把“alt键”2010中的一个用于这种作用。因为在处理混合文本(中文和非中文在一起)的过程中将频繁地使用无声调键,可以在标准英文键盘的第二个“alt键”的位置上增加第二个无声调键,以使可用别的指头接触。在该实施方式中,“alt键”应该重新分配到双“控制键”2030中的一个上。可以容易地修改英文键盘以对键进行等效的备择分配来提供发音符号输入1050。
图2B是修改后的英文键盘1030的一种备择最佳实施方式2100,它具有在拼音文本处理中用于输入各发音符号的各发音符号键1060B。在该实施方式2100中,对英文键盘1050的标准“箭头键”上增加了各发音符号键1060。同样,应该增加的发音符号键包括阳平(发音符号)键2120、上声(发音符号)键2130、阴平(发音符号)键2140以及去声(发音符号)键2150。对于混合文本(或其它)处理应该增加可选的无声调(发音符号)键2110。
图2C是键盘1030的另一种备择的最佳实施方式2200的图。该实施方式2200具有分隔开的空格杠2270,这样允许美国英文键盘布局1040上的所有键(或者一、二个键之外的所有键)保持完整不变。在一种最佳实施方式里,空格杠2270分隔成四部分(2230、2240、2250、2260)。空格杠的最左部分2230分配给上声(发音符号)2230。靠着最左部分2230的大的部分2260用作为空格杠2260。右手侧的两个较小部分(2240,2250)分别分配给“下声”2250和“阴平”2240(发音部分)。阳平(发音符号)2220分配在“alt键”中的一个上。
这种排列是基于人机工程学的。在弹钢琴时大姆指是最重要的指头,但在打字中则用得少得多。该中文键盘的设计将在声调输入中更加有效地使用姆指。新的空格杠2260安排在键盘的中央,也就是在“F”和“J”键之间。可以用两个姆指方便地触压它。这样,空格杠的尺寸上完全不会在混合文本的处理中影响英文的打字。通过向掌心弯曲拇指,可以容易地接触四个声调键(2220、2230、2240、2250)。
对于纯粹的拼音输入,不需要无声调键2210。在该实施方式中,“空格杠”键2260用作为仅输入拼音情况下的“无声调”键。在图2C中,去声2250和阴平2240的位置相对于一般的语言次序(第三声和第四声)是颠倒的,这是因为去声使用频度大的是阴平的两倍。这种颠倒将减少疲劳并且提高效率。
对于混合文本处理(中文和非中文一起)以及某些纯中文文本处理的最佳实施方式,增加了无声调键2210。在本最佳实施方式里,把无声调键(发音符号)2210指定在另一个“alt键”上。控制键2280中的一个指定为“alt键”。
图2D表示键盘1030的另一种最佳实施方式2300。这种实施方式采用如键盘2200中那样布置的带有上声2330、去声2350和阴平2340的分隔开的空格杠2370。但是,在这种键盘2300里,空格杠2370的最大的中央部分2310指定为无声调(发音符号)2310。在一个“alt键”的位置上设定空格作用2360。当键盘2300用于输入混合文本时,这种键盘是特别有用的。另一个“alt键”分配为阳平(发音符号)2320。同样“控制键”中的一个分配为一个“alt键”2380。这种实施方式把无声调键2310定位在可由两个姆指接触的非常方便的位置上。当系统1000处理混合文本时由于将频繁地使用无声调键2310,这是很有帮助的。
通过在几个键上增添附加的标志可以增强键盘2300。例如,在中文中,左引号标记2338和右引号标记2339是不同的并各赋予了一个键。和着重号2344、撇号2345和小数点号2337一起还增加了左标题号2341和右标题号2342。当输入混合文本时同样也使用这些标志。在中文中用作为一种定界符的分号2336也具有一个键位置。
利用熟知的方法进行键的分配及再分配。例如,键盘1030的简要表是系统1000的存储器(1100,1200)中的一个定义各键作用的文件1070。在RS/6000中它称为“键盘翻译表1070”。该表1070把一个字符,典型地以ASCII代码,或一个控制指定给键盘1030上的每个键。通过改变该表1070里所分配的键代码,可改变键盘1030上各键的作用。
用户通过使用键盘1030录入(输入)拼音或混合文本。在用户输入一个中文(拼音)音节之后,用户输入和该音节有关的适当发音符号。当输入纯拼音时,对于非重读音节(以及功能词)不输入发音符号(或备择的空格)。当输入混合文本时(或在用于输入拼音的备择最佳实施方式中),用户在每个非重读音节(以及功能词)之后输入一个无声调发音符号。在非中文的词的后面输入空格(或等效的词边界定界符)。空格把拼音(中文)词和普遍接受的词边界划分开来提高了系统1000的准确性。但是,为使本发明工作,不必要求对中文词进行定界。见进程400。
拼音(或混合文本)输入存储在系统1000的存储器(1100,1200)里。在一种最佳实施方式里,输入以ACCII格式编码。对具有英文字符代码和/或GB2312-80汉字代码的标准ASCII代码表进行修改以包括发音符号。在一种最佳实施方式中,对每个普遍的重读元音的大写和小写编码了阳平、上声、阴平和去声发音符号,从而在被显示/被打开的拼音音节里的元音上可以显示/打开适当的发音符号。
图3是用于拼音或混合输入的ASCII编码的数据结构300的一种最佳实施方式。存储块300里具有256个单元。这些单元从0至255计数。该数字也是指定给每个ASCII代码的单元的ASCII代码。
ASCII代码是由单个信息字节、低7位区(代表单元0-127)和高7位区(代表单元128-255)构成的。每个字符、标点符号或控制功能分配到一个存储单元上。例如,大写罗马字母“B”分配在位置66,“换码”功能分配到位置27,而“!”分配到位置33。
尽管罗马字母、标点符号和数字的编码是很好定义的,在ASCII代码中存在许多可选的空位。在这些可选的空位上各个国家可以指定特殊的符号。
每个发音符号是由一个声调代码或标志表示的。在一种最佳实施方式里,五个(或四个)声调代码(标志)的每一个是用数字(ASCII代码)分配到所有ASCII代码数据结构300的下半部(从0到127的七位)里的存储位置上。这些存储位置是用于通信的。从而,通过把0到127之间的数字分配给发音符号ASCII代码,可以在网络1090上传输各声调代码。在图3中所示的这种不受限制的例子里,分别把无声调代码(标志)301、阳平代码302、上声代码303、阴平代码304和去声代码305分配到带有ASCII代码2、3、4、5和6的位置上。在美国ASCII编码中这些单元是扑克的位置。
在该最佳实施方式里,对每个元音(大定及小写)可以具有的每个发音符号(阳平、上声、阴平和去声)也分配了一个单元和一个ASCII代码。无声调情况可以使用定位在ASCII代码的低7位区的英文元音。另外,略去带有发音符号的大写“I”和大写“U”,因为语音音节不从这些元音开始。从而存在要分配ASCII代码的发音符号的32个元音符号。这些带有发音符号的元音在数据结构300的上半区印在数字128-255之间被分配了ASCII代码(128-159)。
在给定带有发音符号的元音之后,当在图形接口1020上显示拼音音节和打印拼音音节时,唯一性的ASCII代码是有帮助的。系统1000利用其后面跟着发音符号的所输入拼音音节,借助把发音符号适当地放在该音节的元音之上来显示/打印正确拼写的音节。从而,通过使用带有在数据结构300的位置128-159中分配的发音符号的元音,系统1000能够用传统的方式-发音符号在元音的上方-来打印/显示拼音音节。例如,通过键击Pin’输入的拼音音节将显示/打印为Pi′n  。
把带有发音符号的元音排列在数据结构300的上半区并具有ASCII代码128至159的优点是中国国家标准(GB)代码只使用从160至255的ASCII代码数据结构300的上半区。这样,带着发音符号的拼音元音可以和GB(国标)代码(以及ASCII代码的低7位)一起存储和发送。
图4表示一种把拼音音节输入到诸如计算机存储器1100,1200(或显示器1020)的确实介质上的新颖进程400。在最佳实施方式中,进程400带有拼写检查器和自动错误检测及修正进程,后者用于检测经击键(或其它方法)输入到系统1000里的音节。进程400还允许在最少的工作下输入、处理及存储中文和非中文(如英文)的混合文本。由系统1000执行的输入进程400是一个输入单元。
在步骤401中,用户通过键击键盘1030输入一个音节(中文和非中文)。如果音节是中文,在该音节的后面输入一个表示音节音调的发音符号。(这里在文本输入时使用无声调发音符号。)在非中文如英文的词的后面不输入发音符号。并且在步骤402可以识别非中文的词,因为它们是由特定的定界符如空格界定的。
在纯中文文本的情况下,在某些实施方式中不必在无声调音节或功能词的后面输入发音符号。尽管在纯中文文本输入中不是必须的,但在周知的常规区分词的地方通过在中文词之间输入表示词边界的定界符可改善系统1000的准确性。这可以通过在词边界输入像空格或其它代码(例如双发音符号,“esc”)的定界符来实现。在这种情况中,在步骤403中可以参考一个具有良好设定的词区分的中文词列表,以把这些中文词和非中文的音节/词区分开来。
当到达一个音节(或非中文的词)的结尾时,系统1000读一个发音符号,例如按下的声调键1060(或空格)。在某些备择的实施方式里在处理纯中文文本时,可以略去无声调发音符号。在这些情况中,某些无声调(以及无标志)的音节将附加到另一个音节上。为了语法发析这些字节404,把该串和音节字典700进行比较。首先把词典700里的最长音节和输入的串行进行比较。如果己输入串的一部分和最长串相匹配,该相匹配的串用作为一个输入的音节并且从输入的串中检测出来,对输入串的剩余部分重复这个进程。如果没有找到和音节字典700里的最长串的匹配,则和音节字典700里的次长音节串进行比较。反复这个进展直至该输入串的所有音节都得到匹配。这种进程称为“最长串匹配”算法并且它的例子是周知的。请见1993年10月第44卷第9期的Journal of the American Society for Information Science的第532至542页上Z.Wu和G.Tseng的“Chinese text segmentation fortext retrieval:achievements and problems”,该文章全文作为本文的参考文献。
在一些输入纯中文文本的最佳实施方式里和混合文本的处理里,无声调键用于标记中文里的非重读音节。在这些实施方式里,对所有的中文音节编码(标志)并且由一个发音符号明确地界定。从而,中文音节的边界被明确地标志。这种实施方式允许采用中文音节缩写,因为这些缩写也是明确地界定的,并且通过增添到音节列表700中得到唯一的标识。采用音节缩写大大地减少输入语音中文文本所需的键击次数。
在混合文本处理中所采用的步骤402里,系统1000确定该音节是否是一个中文音节。如果在音节之后有一个发音符号(包括无声调发音符号),该音节是中文(步骤404)。如果没有发音符号,该音节(词)不是中文,例如是英文(步骤403)。还可以通过非中文词的定界符来标识非中文词(步骤403)。通过处理这些语言的已知系统,非中文词可以得到进一步的处理,例如拼写检查。
在按过一个声调键(四个声调键中的一个或“无声调”键)之后,计算机辨识出前面的字母代表拼音音节404并且该音节是拼写检查过的音节405、检查出为一种缩写的音节或者是一种替代的拼写407、或者是经过错误检查的音节408。这些步骤(405、407和408)利用图7中所示的中文音节列表数据结构700。
图7中的中文音节表700是用于普通话中文的一种最佳音节表。因为在普通话里总共仅有略超过1300个的音节(包括不同的声调),用二字节代码空间(65536个位子)的一小部分对这些音节编码是方便的。向每一个音节指定唯一的二字节代码或“短整数”。具体地,在中文音节表700中向代表各个音节的ASCII代码串指定了一个二字节代码。例如,对普通话拼音音节Pi’n分配了三字节代码“814”。每个音节对应一种标准的拼音格式,其声调发音符号包括在适当元音的上方。为了将缩写添加到列表700中,该缩写被赋予和其所缩写音节相同的二字节代码。例如,缩写“d”应该指定为212,即“d”代表的所缩写的音节“de”在音节表700中的代码。音节表700在存储器(1100,1200)的空间中占据相对小的空间。
在遇到中文音节404之后,系统1000搜索中文音节表700以寻找匹配。如果发现匹配,利用标准拼写405即中文音节表700中的拼写录入该音节404,并且用中文音节表700上所匹配词的二音节代码代替所键入的字符串。例如,如果输入中文字节Pin’,系统1000用ASCII代码串{80,105,110,6}代表这些击键。见图3。当检验中文音节表700寻找匹配404时,该系统发现该字符串对应于由二字节代码814代表的Pi’n。见图7。从而二位字节代码814在存储器里代替该音节的ASCII代码串。这样,如果检测出标准的拼写405,该完整的音节按1300个中文音节中的一个(通过一个二字节代码)存储412在存储器1010/1020里并且显示在监视器上411,显示时声调发音符号正确地位于元音的上方。该拼音显示411表示在图形接口1020显示拼音的区域1021上。
以类似的方式,如果用户输入中文音节的缩写或者速记拼写,把代表速记拼写的ASCII码在步骤406和中文音节表700里的表目进行比较。如果存在匹配,在步骤407通过用对应于适当非缩写拼音音节的二字节代码来代替该速记拼写的所输入的ASCII代码,把速记(缩写)音节转换成适当的非缩写拼音音节。此外,在中文音节表700中添加了带有代码的缩写,这样将打印被缩写的完整音节。
下面是中文音节的一些缩写或者速记拼写的例子。例如,在没有任何混乱的前提下,“zi”、“si”、“ci”、“ji”、“qi”和“xi”可以拼写为“z”、“s”、“c”、“j”、“q”和“x”。类似地,在不造成混乱的前提下,“yi”、“wu”、“yu”可以拼写为“i”、“u”“v”。在不混淆的前提下,可以把“shg”、“xg”、“qag”和“jo”等分识别为“sheng”、“xing”、“qiang”和“jiao”等。
在带有音节分隔标记的音节中,音节分隔标记,例如“xi’an”中的分隔标记,在打字中是完全可避免的,尽管在显示时它是应该出现的。利用本系统1000和进程400,上述速记打字的例子是如此方便的以至于无须学习它。在很少的学习下速写音节的数量可以得到扩大(增添到中文音节表700上)。
如果在步骤408检测出错误的拼写,即存在与表700的不匹配,在步骤409显示最有可能的音节。这是通过出现一个可能选择的菜单,即从中文音节表700中选择的各种最佳匹配1023,来实现的。在步骤409用户通过使用选择设备如鼠标器1031或键盘从该菜单中选择适当的音节。如上面一样,计算机把该所选的音节编码成二字节值并且在步骤412把它存储到存储器里。
如果在步骤413没有遇到定界符,如空格杠、回车或标点符号键,在步骤415进程400对下一个音节进行重复。如果遇到一个定界符,在步骤414把该完整的串作为一个词串存储起来。在监视器上,在图形接口1020的拼音部分1021中显示该词串的正确拼音拼写。请注意在输入定界符的情况下定界符之间的词串414被对待为单个词(按照普遍接受的惯例)并且该词将具有由这些定界符编码的或标志的唯一词边界。但是,如果未曾把定界符放置在各个组成词的边界上,例如不存在划分组合各词的普遍接受的词边界时,词串414可以包括二个或更多的词(组元)和/或词缀。
在步骤414,以拼音格式编码的文本也可以利用具有专门只读存储器ROM1081的打印机1080打印成拼音音节,该打印机把表700的二字节代码转换成具有声调符号的罗马字母串,这些声调符号位于所需音节的适当元音上。这样该文本变成拼音格式下的连续和可读的打印结果,与所有的非中国人使用的会话中文教科书上的格式一样。
图5和图6对例如通过进程400输入到系统1000里的拼音文本的处理方法的流程图。在一种最佳实施方式里,拼音文本1022是通过对该系统的键盘1030的键击输入的,并且如上面所讨论的那样拼音文本1022显示在图形接口1020的拼音区1021中。同时,通过进程500把上面步骤414中按词的形式存储的拼音输入转化成汉字形式并且显示1025在图形接口1020的汉字部分1024中。这样,经过键盘1030输入拼音文本和发音符号的用户在图形接口1020的拼音部分1021上看见拼音文本1022(通过进程400该拼音文本带有置放在适当元音上的发音符号)并且通过进程500看见显示在图形接口的汉字部分1024上的输入拼音的正确汉字译文1025。在备择的实施方式里,可以通过不同于键盘1030的其它方式如经过网络1090、音频系统1033或象软盘的磁媒体1032把带有发音符号的拼音文本输入到系统1000里。
进程500把拼音输入翻译成汉字。系统1000可以按其它的方式处理拼音和汉字。例如,拼音文本1022和/或汉字文本1025可以被打印。备择地,拼音文本1022和/或汉字文本1025可以输入到已知的语言翻译器1034中并且翻译成为象英文的其它语言。
进程500和600充分地利用词边界以及重读音节上的发音符号编码(标记)。这两个进程一起处理各种各样不同风格的拼音书写理论和习惯,并且达到高转换准确性。例如,如果中文词是在很好确定的边界上划定的,该输入的词501将识别成唯一的词511。如果该词不是和/或不能和其它的“词”区分开,则在系统1000上执行进程500的词法单元,以在词法上分析和或分解该词串。从而本发明能够确定该词串中的组元词。这是通过利用词汇表950和利用上面说明过的“最长串匹配”算法来实现的。
本发明还能够从下述两种习惯的一种中把拼音准确地处理成汉字:1.词缀包括在词的一部分中或者2.词缀作为与词分离的助词。在一种最佳实施方式中,第二种类型的词缀(助词)被处理为功能词。对于习惯1,进程500执行词法分析,即去掉未识别词中包括的标准词缀(习惯1)并且对不带有该词缀的剩余词串(根)进行分析。在以后的处理中该去掉的词缀被对待为一个功能词。
进程500利用词法处理输入的词串。词法是一种语言中对词的结构的研究。在这里词的结构尤其涉及词缀以及词的意义是怎样受到词缀的影响的。在大多数的欧洲语言如英文、德文、西班牙文、芬兰文和匈牙利文的缀字法中,词意的改变取决于词缀是如何利用的。例如,在英文表达方式“Calvin and Dorothy’sDepartment Store”中,其中的“s”属于“Calvin and Dorothy”但是只附在“Dorothy”之后。
进程500首先分析输入的如来自步骤414的词或词串的词法。在步骤510该算法把输入的词(串)501和已知的词汇表950进行比较。词汇表950是一个带有相关汉字译文的语音中文词和/或缩写拼音(拼音和/或BPMF)的表。也可以使用中文词词典950。这样的词典950是周知的。例如,请见“语文出版社”1989年出版的“汉语拼音词汇”。通过和其它已知的词典相结合和/或增添来自其它来源的带有相应汉字转换的中文词可以改进上述这样的词典。
如果输入的词501(词或词串)和词汇表510的一个或多个词匹配,在步骤511进行唯一性检验。如果不存在混淆,即只和词汇表510里的单个词匹配,该词转化成汉字格式并且在步骤550显示在汉字部分1024中。如果是不明确的(也就是说,对应于输入词的拼音501在词汇表(510,950)中存在多于一个的汉字形式),则把不同的词存储起来以做进一步的考虑(步骤540)。
如果输入的词501不在词汇表中,对输入的词(串)501进行词法分析。在步骤522,对输入词的一部分与功能词素或词缀表进行比较。在图8中提供了最佳词缀表800。如果找到一个标准的词缀,即该词缀在词缀表800上,在步骤524去掉所发现的词缀并且对所输入词的剩余部分(根)再次与词典950进行比较。如果这个词的根在词汇表中,则执行步骤511。如果该根不在词汇表上(步骤510)但是在根中存在更多的词缀(步骤522),对根中所含有的任何其它的标准词根重复步骤524。
如果步骤522未识别出标准词缀,即输入词501中的串都不在词缀表800上,在步骤530分解词串/根。在一种最佳实施方式里,通过把根和词汇表950进行比较利用上述的“最长匹配法”对根进行分解。
如果词串包括多于一个的组元,对每个组元进行唯一性搜索(步骤531)。如果一个组元是唯一的(步骤531),该词被认为是一个复合词,并且在步骤550显示和记录对应的汉字串。如果该词是不明确的(步骤531),例如输入词501的一个或多个组元具有多于一个的汉字转换和/或存在着多于一种的分解该词串的方式,这些不同的选择被存储起来以在步骤540进行进一步的考虑。
在步骤540,整个短语(或从句、或句子),即输入的词串501,被确定为是由短语定界符如标点符号、回车或用户指定的其它短语定界符分界的字符串。对整个短语进行分析以确定不明确词(多个词)的意义。见下面图6中的进程600。在步骤540之后,在步骤550显示汉字形式的整个句子(从句、短语)。如果存在着错误(步骤560),在步骤561用户人工地改正图形接口1024上所显示(560)的文本中的短语、句子或从句。
为了帮助对下面所给出的本发明所采用的句法分析(进程600)的说明,现在对讲话的声学(声调和重音)、功能词、助词、词缀以及表意词的语音特性上的发现作出讨论。
在口语中文中存在着经常被忽视的重要的语音现象。在中文中,和世界上所有的口语语言一样,除了由各个音节构成的串提供信息之外还在存在着由讲话的声学所提供的大量信息。在中文中,每个词具有一种重读结构,形成该词的讲话声学,在理解词义上它常常是关键性的。音节如何组合在一起构成一个词可以影响重读结构、讲话声学以及对词的理解。
而且,词的分隔(音节组合)和词的相称的重读结构(讲话声学)是口语语言中所传递的信息的一部分。对于中文,作为讲话声学中的一部分的声调同样是重要的。在中文中,音节的声调仅在重读音节中才是重要的。对于不具有重音的音节,声调或者明显减弱或者完全丧失。
进而请注意大多数语言包括中文存在功能词和表意词。表意词包括一种语言中的所有名词、所有助词、所有形容词和大部分副词。例如,“man、run、fast、quickly”是表意词。功能词包括冠词、介词和一些连接词。例如,“a、the、to、from、and、but等”是功能词。表示为单独的不定词的词缀具有功能词的特性。
中文中的功能词是不重读的词,它们主要表达语法关系和/或其它词的功能而不表达词汇意义。功能词包括介词、助动词、连接词、副词、感叹词、冠词和一些代词。在中文中,功能词(冠词、前置词、后置词等)、以助词为形式的词缀以及多音节词中的任一词缀总是不重读的。功能词(以及助词形式里的词缀和多音节词里的词缀)不具有声调或者具有明显减弱的声调。
表意词是具有完整词汇意义的词。在中文中,表意词包括所有的名词、所有主要动词、所有形容词以及大部分副词。表意词包括中文中所有不是功能词的词。表意词的重读结构取决于方言。
迄今为止,还没有判明一个正在听一种语言的人为了理解该语言的词是如何直觉地辨别表意词和功能词的。在中文语言中这一点尤其是正确的。因为在中文中功能词及词缀的声调是非常弱的或者完全消失的并且由于在中文语言中存在有限数量的已知的和确定的功能词,正在听口语中文的人们直觉地利用功能词来理解正在说什么。
为了进一步阐述功能词、表意词和声调在理解中文语言上的重要性,现在确定表意词的重读结构和功能词(词缀)的使用。
上海方言代表着表意词的重读结构以及功能词使用的最清晰例子。每一个表意词是从一个具有显著声调的重读音节开始的。该词中的所有其它音节完全不具有重音,从而第一个音节之后的其它音节的声调是减弱的。例如,在上海话中,名词“wenti”(问题)和“dianhua”(电话)总是在第一个音节上重读。
上海方言里的功能词没有重音。当一个功能词跟在一个表意词的后面时,有时可以把这个功能词解释为是这个表意词的一个后缀(即一个词缀)而不是一个助词。但是,该发现的一部分在于从人类听众的观点出发,这两种解释(功能词是一个助词或是一个后缀)在本质上是没有不同的。
在北京方言和普通话中重音结构略为不同。
在北京方言的大部分情况中,表意词的重音在第一个音节上。但是,存在着许多重音位于最后的音节而不是在第一个音节上的情况。
普通话是标准的中国话。在普通话中,一个词的重音通常在第一音节上。在某些带有多于3个音节的词里,可观察到“框架式”重音结构。也就是说,第一个和最后一个音节是重读的,它们之间的所有其它音节没有重音而且具有很弱的(或者没有)声调。普通话中的多音节表意词具有至少一个重音,通常在第一音节上。例如,在音节串“taiqilai”(抬起来)中,只有第一个音节“tai”(抬)具有重音。对于剩下的两个音节,不仅声量大大减小而且声调明显地减弱或者完全消失。在短语“taibuqi toulai”中,只有两个音节“tai”和“tou”具有重音。剩下的音节“bu”、“qi”和“lai”是弱的,并且是无重音的或几乎无重音的(无重音意味着没有音调)。请注意“lai”是一个词缀并没有声调,并且在惯例中它书写成一个单独的助词。
在北京方言和普通话中,作为一种规律,功能词不具有重音并且功能词的声调是弱的或消失的(退化)。
该发现表明中文口语的听众直觉地利用表意词的重音结构(带有声调的音节和不带声调的音节)以及无声调的功能词(以及词缀)来标志词的边界、对词分类并且确定词的意义。这种自然语音现象是和中文语言学原理里的不同观点是无关的,和/或一个人如何用中文书写词或短语也是无关的。本发明根据这种现象推导出规律并且应用这些规律,并且借助适当的处理来实现这些规律以便提高处理(输入、分析、翻译及书写)语音中文的准确性。
在完成迄今为止现有技术中尚未认识到的对语音关系的发现的上述讨论之后,下面的讨论将说明这些关系是怎样用于用由进程600完成的句法分析中的。
一种新颖的句法分析方法在图6中表示为进程600。该进程利用上面所发现的和所公开的原理分析整个短语(或从句、或句子)。
词串(从句或句子)501由象标点符号、回车或用户指定的任何输入的短语定界符划分。在一种最佳实施方式里,这些定界符或短语分界符包括空格(键2360)、顿号(键2336)、中文句号2335、左引号(键2338)、右引号(键2339)、左标题号(键2341)、右标题号(键2342)、惊叹号(键2311)、逗号(键2312)、斜道(键2313)、左圆括号(键2314)、右圆括号(右键2315上)、冒号(在键2316上)、分号(键2316)、着重号(键2344)以及问号(键2317)。对任何声调键(2310、2320、2330、2340以及2350)的二次键击也可以是短语定界符(这里括号中所表示的键指明键盘实施方式2300中输入该短语定界符的键。)。这些短语定界符明确地定义词边界,即一个短语501的结束和另一个短语501的开始。
如步骤511和531里规定的具有一个或多个模棱两可词的短语在步骤601输入到进程600中。句法单元是在系统1000上执行的进程600。
首先,通过任何声调发音符号的存在对短语601的词组元进行分类。带有至少一个发音符号的词610是表意词620。但是,不带发音符号的词611可能是:不经心地略去其发音符号的表意词、非中文词、功能词、词缀或书写成为独立助词的词缀。在所输入的混合文本中,非中文词是通过空格(或者其它等效的字符如“Esc”)划分的,从而得以识别。
为了确定不带发音符号的词611是否是功能词,把词611和功能词表800进行比较。功能词的数量是有限的,根据大多数语言学家的观点在100个之内。如果词611在功能词表800上,它是一个功能词。各个功能词的意义是唯一性地定义的。在图8中提供了一种最佳功能词表800。
以类似的方式,不带发音符号的词611与词缀表(同样包括在表800中)进行比较以确定它们是否是词缀和/或书写成为独立助词的词缀。这些独立助词的意义是唯一定义的,助词/词缀的最佳列表同样是相对短的,具有20个之内的条目。带有它们的汉字转换(译文)的助词/词缀包含在图8的功能词表上。
列举功能词、助词和词缀的数据结构800占据计算机存储器(1100,1200)中相对很少的空间。
一旦识别了并且从而唯一性地确定了所有的功能词(和/或助词及词缀),在步骤630中分析短语/句子结构。因为功能词(助词/词缀)的意义和功能是已知的,在任一特定功能词(词缀)之前和之后的词的类型是受限制的。这样,在步骤640通过利用模棱两可的表意词与一个或多个功能词(助词/词缀)的关系,可以进一步减少或去掉表意词的意义不明确性。例如,如果在进程500的步骤540中对一个模棱两可的表意词存在五种可能被识别的词,通过弄清该模棱两可词前面或后面的功能词(词缀)可能可去掉这些可能的词中的一部分或者除了一个之外的全部。
例如,在图8中列举了看作是功能词的介词810。介词后面必须跟着名词或者名词短语。如果在这些介词后面的表意词具有一种非名词或非名词短语的译文,去掉这种模棱两可的译文。
时态助词820(le、zhe、guo)通常在动词之后。因此,在其后面带着这些助词的任何模棱两可的表意词翻译为动词。如果该表意词的某些备择的译文不是动词,删除它们。
关系助词830(de、zhi)通常跟着名词或形容词。因此后面带着这些助词的任何模棱两可的表意词翻译为名词或形容词。其它备择的不明确译文可被删除。
连接词(he、ji和gen)840是功能词并且通常处在名词之间。从而,这些连接词两侧的任何模棱两可的表意词翻译成名词,去掉其它备择的不明确译文。
连接词850是通常处在短语之间的功能词。这些连接词850两侧的表意词看作是短语的一部分。
名词词尾860通常是名词一部分的词缀。在这些词尾860之前的表意词翻译成名词,去掉其它备择的不明确译文。
存在着前面必须加上形容词或副词的形容词及副词词870。尾去掉这些词尾(助词)之前的其译文不是形容词或副词的任何表意词。
还存在形容词及副词前缀870,包括hen-、zui-、bu-和geng-。这些助词/词缀必须跟着形容词或副词。如果任何在这些前缀(助词)后面的表意词具有不是形容词或副词的译文,去掉这些模棱两可的译文。
这些规律可能产生错误翻译从而需要人工修正的例外情况是很少的。
请注意表800不包括功能词、助词和词缀的缩写。在备择的实施方式中可包括缩写。
如果在640中仍然存在模棱两可,即仍存在多于一个可能的表意词,在步骤641中应用短语中有关词出现的统计表来预言剩余的表意候选词中的最可能的词。这样的统计模型641在语音识虽技术上是周知的。例如见1993年出版的Rabiner和Juang所著的Fundamentals of Speech Recognition中的447-450页,该书是本文的参考资料。
在一种最佳实施方式中,在步骤560中结果显示在图形接口1020的汉字部分1024中。如果存在不能明确地判定的词,在图形接口1020上向用户显示剩余的候选词以通过指点器1031进行选择。此外,在步骤650所显示的结果1025受到用户的人工修改650。在备择的实施方式里,最后的显示可在打印机上打印或者在网络连接1090上发送。步骤650中的显示结果还可以是其它计算机系统的汉字输入,例如把汉字文本翻译成其它语言的翻译机1034。
通过运用进程500和600,即使名词没有按照普遍接收的惯例分开或者没有在边界处划分,系统1000可以确定输入的词501中的各组元词的意义以及对应的汉字译文。
给出本公开之后熟练的技术人员可以在本发明的意图之内建立替代的等效实施方式。例如,象图2D中的键盘可以设计为包括BPMF拼音字母表中的37个字符。该拼音字母表的各键(位置)的分配取决于用户/厂家的选择。37个字符的ASCII代码分配可以在图3的上半7位区中完成。在键盘上和在ASCII代码表中也可以提供BPMF的发音符号。但是,某些修改可能是必须的。例如,可能要设置阳平声调的发音符号。用于BPMF的音节表700和功能词、助词和词缀表800与拼音情况具有一对一的对应。图4、5和7中所示的各进程仍然适用。

Claims (37)

1.一种用于把中文文本输入到计算机系统里的键盘,该键盘包括:
一组音节输入键,各个音节输入键代表一个或多个字符;以及
一组声调键,各个声调键代表一个或多个声调。
2.如权利要求1的键盘,其中存在由该组声调键代表的四种声调,这四种发音符号包括阳平声调、上声声调、阴平声调和去声声调。
3.如权利要求1的键盘,其中存在由该组声调键代表的五种声调,这五种发音符号包括无声调、阳平声调、上声声调、阴平声调和去声声调。
4.如权利要求1的键盘,其中该键盘是美国英文键盘并且该组声调键替代美国英文键盘上的一个或多个标点符号键。
5.如权利要求1的键盘,其中该键盘是带有该组声调键的美国英文键盘,该组声调键用该键盘上的“箭头”键组组合。
6.如权利要求1的键盘,其中该键盘的空格杠分隔成二个或更多的部分并且一个或更多的部分是代表一个或多个声调的声调键。
7.如权利要求6的键盘,其中空格杠的各部分包括一个或多个左部分、一个或多个右部分以及在左右各部分之间的中间部分。
8.如权利要求7的键盘,其中该中间部分是空格键并且一个或多个左、右部分是代表一个或多个声调的声调键。
9.如权利要求7的键盘,其中该中间部分代表无声调发音符号并且一个或多个左、右部分代表一个或多个声调。
10.如权利要求9的键盘,其中左部分中的一个代表上声声调,第一右部分代表去声音调,而第二右部分代表阴平声调。
11.一种用于处理中文文本的计算机系统,包括:
一个计算机存储器;
一个输入装置,用于把多个中文语音音节输入到该系统中,各个音节具有一个或多个字符,该输入装置用发音符号标记一个或多个重读音节,该发音符号指示该重读音节的声调;
一个输入单元,其为该输入装置输入的各个字符和各个发音符号分别提供字符代码和声调代码,该输入单元把音节识别成用声调代码标志的字符代码串;
一个音节表,其具有多个各与一个或多个音节串代码关联的音节串,该输入单元把由发音符号代码标志的字符代码串和一个音节串代码进行匹配,并且把和由该声调代码标志的该字符代码串匹配的该音节串代码所关联的用于该音节串的音节表示存储到该计算机存储器里。
12.如权利要求11的系统,其中中文文本是拼音。
13.如权利要求11的系统,其中中文文本是BPMF。
14.如权利要求11的系统,其中该输入装置是一个带有一个或多个用于发音符号的键的键盘。
15.如权利要求11的系统,其中该输入装置是一个用来输入口语中文的声学设备。
16.如权利要求11的系统,其中该系统进一步包括一个打印机,并且存储在计算机存储器里的音节表示变换成在该打印机上打印的打印音节。
17.如权利要求11的系统,其中该系统进一步包括一个图形用户接口,并且音节表示转换成在该图形用户接口上显示的音节文本。
18.如权利要求11的系统,其中一个或多个音节串代码表示有关音节串的缩写。
19.如权利要求11的系统,其中若没有和由声调代码标志的字符代码串相匹配的音节串代码时该输入单元在图形接口上向用户提供一个最佳匹配表。
20.如权利要求11的系统,其中在字符代码串未由声调代码标志的情况下该输入单元把字符代码串识别成非中文音节。
21.一种用于处理中文文本的计算机系统,包括:
一个输入装置,用于输入语音中文短语,该短语具有一个或更多的词,每个词具有一个或更多的音节,每个音节具有一个或更多的字符,该短语是在第一和第二短语定界符之间的一个字符串;
一个词缀表,其具有多个语音中文词缀条目;
一个中文词汇表,该词汇表是一个带有汉字译文的多个语音中文词的列表,以及
一个词法单元,其从短语中去掉一个或多个词缀以建立一个词根,所去掉的词缀是该词缀列表中的一个词缀,该语法单元把词根和词汇表中的一个或多个词进行比较以寻找匹配,并且把和该词根匹配的该词汇表中该词的汉字译文存储到计算机存储器里。
22.如权利要求21的系统,进一步包括一个句法单元,该句法单元把词根分析为重读词和非重读词,重读词由发音符号标志而非重读词不由发音符号标志。
23.如权利要求22的系统,其中各表目包括词缀、功能词和助词,各个表目具有汉字译文,该句法单元把非重读词和一个或多个表目相匹配,与非重读词匹配的表目是一个相匹配的表目,并且该句法单元把相匹配的表目的汉字译文用作为该短语中非重读词的汉字译文。
24.如权利要求23的系统,其中该句法单元进一步把一个或多个重读词解释为一个模棱两可的表意词,由于在该词汇表中对该模棱两可的表意词存在多于一种的汉字译文,该模棱两可的表意词具有不明确性,而该句法单元通过利用该模棱两可的表意词与该短语中的一个或多个非重读词的关系去掉这种不明确性。
25.如权利要求22的系统,其中第一和第二短语定界符为下述中的任一种:回车、空格、顿号、中文句号、左引号、右引号、左标题号、右标题号、惊叹号、逗号、斜号、左括号、右括号、冒号、分号、着重号、问号以及对一个声调键的二次或更多次的键击。
26.如权利要求22的系统,其中如果词不和词汇表中的一个词匹配该词法单元把该词分解为组元词,并且句法单元对各组元词进行分析。
27.一种把中文文本输入到计算机系统里的装置,该装置包括:
一组音节输入键装置,每个音节输入键装置代表一个或多个字符;以及
一组声调键装置,每个声调键装置代表一种或多种声调值。
28.一种处理中文文本的计算机系统,包括:
一个计算机存储装置;
一个输入装置,用于把多个中文拼音音节输入到该系统里,每个音节具有一个或多个字符,该输入装置用发音符号标志一个或多个重读音节,发音符号指示该重读音节的声调类型;
一个输入处理装置,其向该输入装置输入的各个字符提供字符代码及向各个发音符号提供声调代码,该输入处理装置把音节识别成由声调代码标志的字符代码串;
一个音节表装置,其具有多个各和一个或多个音节串代码关联的音节串,该输入处理装置把由声调代码标志的字符代码串与一个音节串代码相匹配,并且把与由该声调代码标志的该字符代码串相匹配的该音节串代码所关联的用于该音节串的音节表示存储到该计算机存储器装置里。
29.一种把语音中文的音节和词存储到计算机系统的计算机存储器里的方法,其包括步骤:
a.利用一个输入装置把一个或多个字符输入到该计算机系统里,一个音节具有一个或多个字符,一个词具有一个或多个音节,而一个短语具有一个或多个词,短语的各词位于两个短语定界符之间,各音节是用代表该音节的声调的发音符号标记的并且各音节处于两个发音符号之间,该输入是对各个输入字符的字符代码的存储并且是对标志一个音节的各个发音符号的声调代码的存储;
b.把一个或多个音节识别成中文音节,中文音节是一个或多个字符代码与一个声调代码的串;
c.把中文串和音节表进行匹配,该音节表具有多个各和一个或多个音节串代码关联的音节串;以及
d.把相匹配的音节串存储到该计算机存储器里,该相匹配的音节串是与该串匹配的音节串代码关联的音节串。
30.如权利要求29的方法,其中重复步骤a-d直至输入一个短语定界符,在该计算机存储器里存储的一个或多个相匹配的音节串是一个词串。
31.一种利用词法处理对词串进行处理的方法,其包括步骤:
从该词串去掉一个或多个词缀以构成一个词根,所去掉的词缀是一个词缀表上的词缀之一;
把该词根和一个词汇表上的一个或多个词进行比较以寻找匹配,该词汇表具有多个词,每个词带有一个或多个汉字译文,与该词根匹配的该词汇表上的该词为词根匹配;并且
在计算机存储器里存储该词根匹配的汉字译文。
32.如权利要求31的方法,其中一个或多个词根是不匹配的词根,该不匹配的词根不在该词汇表上具有匹配,并且把该不匹配的词根分解成组元词。
33.一种句法上分析中文语音音节短语的方法,其包括步骤:
把该中文短语分析成重读词和非重读词,重读词带有用指示该音节的声调的发音符号标志的一个或多个音节,非重读词不带有用发音符号标志的音节;
把非重读词和一个或多个条目进行匹配,这些条目可以是词缀表上的零个或多个词缀、功能词和助词,每个条目具有汉字译文;
利用各个汉字译文把非重读词翻译成汉字。
34.如权利要求33的方法,进而包括步骤:
把一个或多个重读词解释为表意词,零个或多个表意词可以是模棱两可的表意词,模棱两可的表意词在词汇表上具有多于一个的汉字译文。
35.如权利要求34的方法,其中删除掉一个或多个译文,因为所删除的译文不和非重读词中的一个有关系。
36.一种通过字母数字键盘输入语音中文串的方法,其包括步骤:
把中文的语音表示输入到一个计算机系统的一个输入设备上,该语音表示具有一个或多个各由一个或多个语音音节构成的词,这些音节中的一个或多个是重读音节并且这些音节中的一个或多个是非重读音节;以及
用一个指示该重读音节的声调类型的发音符号标记重读音节。
37.一种计算机可读的程序存储设备,其具体包括由该计算机执行的指令程序以完成把语音中文的音节和词存储到该计算机的计算机存储器里的一种方法的各个步骤,该方法包括步骤:
a.利用一个输入装置把一个或多个字符输入到该计算机系统里,一个音节具有一个或多个字符,一个词具有一个或多个音节,而一个短语具有一个或多个词,短语的多个词位于两个短语定界符之间,各音节是用代表该音节的声调的发音符号标记的并且各音节处于两个发音符号之间,该输入是对各个输入字符的字符代码的存储以及对各个标志一个音节的发音符号的声调代码的存储。
b.把一个或多个音节识别成中文音节,中文音节是一个或多个字符代码与一个声调代码的串;
c.把该中文串和音节表进行匹配,该音节表具有多个各和一个或多个音节串代码关联的音节串;以及
d.把相匹配的音节串存储到该计算机存储器里,该相匹配的音节串是与该串的音节串代码关联的音节串。
CNB961058765A 1995-08-16 1996-05-10 处理中文文本的系统和方法 Expired - Lifetime CN1191514C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US515547 1995-08-16
US08/515,547 US5893133A (en) 1995-08-16 1995-08-16 Keyboard for a system and method for processing Chinese language text

Publications (2)

Publication Number Publication Date
CN1143769A true CN1143769A (zh) 1997-02-26
CN1191514C CN1191514C (zh) 2005-03-02

Family

ID=24051782

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB961058765A Expired - Lifetime CN1191514C (zh) 1995-08-16 1996-05-10 处理中文文本的系统和方法

Country Status (6)

Country Link
US (2) US5893133A (zh)
JP (1) JP3277123B2 (zh)
KR (1) KR100259407B1 (zh)
CN (1) CN1191514C (zh)
SG (2) SG55208A1 (zh)
TW (1) TW411421B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737535A (zh) * 2011-03-31 2012-10-17 赵文志 一种快速学习语言的工具设置
CN101002198B (zh) * 2004-06-23 2013-10-23 Google公司 用于非罗马字符和字的拼写校正系统和方法
CN108536656A (zh) * 2018-03-09 2018-09-14 北京云知声信息技术有限公司 基于wfst的文本正则化方法及系统

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044205A (en) * 1996-02-29 2000-03-28 Intermind Corporation Communications system for transferring information between memories according to processes transferred with the information
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
US6032164A (en) * 1997-07-23 2000-02-29 Inventec Corporation Method of phonetic spelling check with rules of English pronunciation
JPH1186434A (ja) * 1997-09-11 1999-03-30 Sony Corp 記録装置、記録方法、及びダビング装置
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
JP2000122768A (ja) * 1998-10-14 2000-04-28 Microsoft Corp 文字入力装置、方法および記録媒体
JP2000235567A (ja) * 1999-02-17 2000-08-29 Matsushita Electric Ind Co Ltd 声調符号無入力式中国語文字変換装置
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
JP2000298667A (ja) * 1999-04-15 2000-10-24 Matsushita Electric Ind Co Ltd 構文情報による漢字変換装置
US6453462B1 (en) * 1999-06-29 2002-09-17 International Business Machines Corporation Mock translation system, method, and program using multi-byte placeholder characters to test translatability of software that will display multi-byte languages
US6562078B1 (en) * 1999-06-29 2003-05-13 Microsoft Corporation Arrangement and method for inputting non-alphabetic language
US6507812B1 (en) 1999-06-29 2003-01-14 International Business Machines Corporation Mock translation method, system, and program to test software translatability
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US7047493B1 (en) 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6809725B1 (en) * 2000-05-25 2004-10-26 Jishan Zhang On screen chinese keyboard
CN1171137C (zh) * 2000-06-23 2004-10-13 谭伟雄 改进的hlv汉字拼音输入方法
US6920247B1 (en) * 2000-06-27 2005-07-19 Cardiff Software, Inc. Method for optical recognition of a multi-language set of letters with diacritics
US6692170B2 (en) 2001-02-21 2004-02-17 Eli Abir Method and apparatus for text input
US6982658B2 (en) * 2001-03-22 2006-01-03 Motorola, Inc. Keypad layout for alphabetic symbol input
US7319950B2 (en) * 2001-04-10 2008-01-15 Chang Po Liu Automated word processor for chinese-style languages
US6993474B2 (en) * 2001-05-17 2006-01-31 Curry David G Interactive conversational speech communicator method and system
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system
US20030110036A1 (en) * 2001-12-10 2003-06-12 Sayling Wen Chinese input method for providing auxiliary writing model
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
CA2413055C (en) * 2002-07-03 2006-08-22 2012244 Ontario Inc. Method and system of creating and using chinese language data and user-corrected data
JP2005531858A (ja) * 2002-07-03 2005-10-20 2012244 オンタリオ インコーポレイテッド 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
EP1691298B1 (en) * 2002-07-03 2007-09-19 2012244 Ontario Inc. Method and system of creating and using Chinese language data and user-corrected data
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US7315982B2 (en) 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
KR100566204B1 (ko) * 2003-04-22 2006-03-29 삼성전자주식회사 성조가 표기된 한어 병음 입력 방법 및 장치
US7884804B2 (en) * 2003-04-30 2011-02-08 Microsoft Corporation Keyboard with input-sensitive display device
US20050010392A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Traditional Chinese / simplified Chinese character translator
US20050010391A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Chinese character / Pin Yin / English translator
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US8137105B2 (en) * 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
US20050027547A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Chinese / Pin Yin / english dictionary
WO2005043370A1 (en) * 2003-10-17 2005-05-12 King Abdulaziz & His Companion Foundation For The Gifted Method for operating an output device
JP4213570B2 (ja) * 2003-11-20 2009-01-21 シャープ株式会社 文字入力方法、文字入力装置およびプログラム
JP2007518164A (ja) * 2004-01-06 2007-07-05 イン−ソプ リ 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
CA2496872C (en) * 2004-03-17 2010-06-08 America Online, Inc. Phonetic and stroke input methods of chinese characters and phrases
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
US20060020567A1 (en) * 2004-07-26 2006-01-26 Li Li Method for message browsing
US7595742B2 (en) * 2004-10-29 2009-09-29 Lenovo (Singapore) Pte. Ltd. System and method for generating language specific diacritics for different languages using a single keyboard layout
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
US7676357B2 (en) * 2005-02-17 2010-03-09 International Business Machines Corporation Enhanced Chinese character/Pin Yin/English translator
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US7516062B2 (en) * 2005-04-19 2009-04-07 International Business Machines Corporation Language converter with enhanced search capability
US7366984B2 (en) * 2005-07-29 2008-04-29 Microsoft Corporation Phonetic searching using multiple readings
US7538692B2 (en) * 2006-01-13 2009-05-26 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and for prioritizing compound language solutions according to quantity of text components
CA2624549A1 (en) * 2006-02-10 2007-08-16 Zi Corporation Of Canada, Inc. Method and system of identifying an ideographic character
US20070250307A1 (en) * 2006-03-03 2007-10-25 Iq Technology Inc. System, method, and computer readable medium thereof for language learning and displaying possible terms
WO2007124109A2 (en) * 2006-04-21 2007-11-01 Scomm, Inc. Interactive conversational speech communicator method and system
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US8395586B2 (en) 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
US7565624B2 (en) 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US20080131031A1 (en) * 2006-12-05 2008-06-05 Sherryl Lee Lorraine Scott Handheld electronic device with diacritical selection and text disambiguation
US8135590B2 (en) 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US8316295B2 (en) * 2007-03-01 2012-11-20 Microsoft Corporation Shared language model
US20080211777A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Stroke number input
US8677237B2 (en) * 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CN101286094A (zh) * 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
CN105204617B (zh) * 2007-04-11 2018-12-14 谷歌有限责任公司 用于输入法编辑器集成的方法和系统
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
CN101815996A (zh) * 2007-06-01 2010-08-25 谷歌股份有限公司 检测名称实体和新词
CN102124459B (zh) * 2007-06-14 2013-06-12 谷歌股份有限公司 词典词和短语确定
WO2008151466A1 (en) 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US8463597B2 (en) * 2008-05-11 2013-06-11 Research In Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US9009591B2 (en) * 2008-12-11 2015-04-14 Microsoft Corporation User-specified phrase input learning
US20100149190A1 (en) * 2008-12-11 2010-06-17 Nokia Corporation Method, apparatus and computer program product for providing an input order independent character input mechanism
US8296680B2 (en) * 2009-01-15 2012-10-23 Research In Motion Limited Method and handheld electronic device for displaying and selecting diacritics
US20110171617A1 (en) * 2010-01-11 2011-07-14 Ideographix, Inc. System and method for teaching pictographic languages
US8381119B2 (en) * 2010-01-11 2013-02-19 Ideographix, Inc. Input device for pictographic languages
US8947076B2 (en) 2010-01-18 2015-02-03 Bourns, Inc. High resolution non-contacting multi-turn position sensor
US8280954B2 (en) 2010-03-25 2012-10-02 Scomm, Inc. Method and system for providing live real-time communication via text between mobile user devices
JP4940325B2 (ja) * 2010-03-29 2012-05-30 株式会社東芝 文書校正支援装置、方法およびプログラム
US10380241B2 (en) * 2010-05-26 2019-08-13 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
US8473277B2 (en) * 2010-08-05 2013-06-25 David Lynton Jephcott Translation station
JP5809290B2 (ja) * 2011-01-05 2015-11-10 グーグル・インコーポレーテッド テキスト入力を容易にするための方法およびシステム
US9864782B2 (en) * 2013-08-28 2018-01-09 AV Music Group, LLC Systems and methods for identifying word phrases based on stress patterns
CN104699000A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 非特定人外语语音遥控的机器人系统
KR101449376B1 (ko) * 2014-03-31 2014-10-10 정창수 컴퓨터의 한자입력 장치 및 한자입력 방법
US10261674B2 (en) * 2014-09-05 2019-04-16 Microsoft Technology Licensing, Llc Display-efficient text entry and editing
JP6753401B2 (ja) * 2015-07-24 2020-09-09 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
CN105242932B (zh) * 2015-10-21 2018-08-31 宁波三星医疗电气股份有限公司 一种基于delphi工具开发的软件的自动翻译方法
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN107066104B (zh) * 2016-11-14 2020-12-11 高商展 电脑汉英互读互译键盘最佳键位
KR101880868B1 (ko) * 2017-12-29 2018-07-20 영 황보 한자입력장치
US10885286B2 (en) * 2018-10-12 2021-01-05 Microsoft Technology Licensing, Llc Simultaneous and real time translation and language switching across a set of features
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59864B2 (ja) * 1979-03-30 1984-01-09 シャープ株式会社 電子辞書
DE3142138C2 (de) * 1981-10-23 1985-06-27 Siemens AG, 1000 Berlin und 8000 München Verfahren zur Eingabe chinesischer Zeichen sowie Vorrichtung zur Durchführung des Verfahrens
US5212638A (en) * 1983-11-14 1993-05-18 Colman Bernath Alphabetic keyboard arrangement for typing Mandarin Chinese phonetic data
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
GB2158776A (en) * 1984-02-24 1985-11-20 Chang Chi Chen Method of computerised input of Chinese words in keyboards
US4565459A (en) * 1984-06-04 1986-01-21 Dilucia Gilbert Phonetic Chinese printing apparatus
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPS6352143A (ja) * 1987-08-12 1988-03-05 Matsushita Electric Ind Co Ltd コ−ド印刷物の作成方法
US5109352A (en) * 1988-08-09 1992-04-28 Dell Robert B O System for encoding a collection of ideographic characters
US5047932A (en) * 1988-12-29 1991-09-10 Talent Laboratory, Inc. Method for coding the input of Chinese characters from a keyboard according to the first phonetic symbols and tones thereof
US4949260A (en) * 1989-01-03 1990-08-14 Hsu Su Hsia Method for inputting chinese information through hieroglyphic approach and keyboard arrangement therefor
LU87713A1 (de) * 1989-08-31 1990-07-24 Siemens Ag Kreuzschaltungsverfahren(cross-connect)fuer stm-1-signale der synchron-digital-multiplexhierarchie
JPH03101492A (ja) * 1989-09-14 1991-04-26 Hitachi Ltd 高密度画面変換処理方式
JPH03144846A (ja) * 1989-10-31 1991-06-20 Yokogawa Hewlett Packard Ltd アプリケーション・入力サーバ連携方法
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JPH04109365A (ja) * 1990-06-19 1992-04-10 Ricoh Co Ltd キヤビネツト間の文書コピー機能を有する画像文書フアイリング装置
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
US5255355A (en) * 1990-10-10 1993-10-19 Fuji Xerox Co., Ltd. Document processor
TW268115B (zh) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US5255189A (en) * 1992-06-09 1993-10-19 Woo Edward P H Method and system for retrieving ideographic characters and the associated dictionary entries
US5331557A (en) * 1993-01-14 1994-07-19 Liu Zhong Yi Audio-video coding system for Chinese characters
US5378068A (en) * 1993-10-12 1995-01-03 Hua; Teyh-Fwu Word processor for generating Chinese characters
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101002198B (zh) * 2004-06-23 2013-10-23 Google公司 用于非罗马字符和字的拼写校正系统和方法
CN102737535A (zh) * 2011-03-31 2012-10-17 赵文志 一种快速学习语言的工具设置
CN108536656A (zh) * 2018-03-09 2018-09-14 北京云知声信息技术有限公司 基于wfst的文本正则化方法及系统
CN108536656B (zh) * 2018-03-09 2021-08-24 云知声智能科技股份有限公司 基于wfst的文本正则化方法及系统

Also Published As

Publication number Publication date
SG55208A1 (en) 1998-12-21
US5893133A (en) 1999-04-06
US6073146A (en) 2000-06-06
SG87039A1 (en) 2002-03-19
KR970012111A (ko) 1997-03-29
KR100259407B1 (ko) 2000-06-15
JPH09128383A (ja) 1997-05-16
CN1191514C (zh) 2005-03-02
TW411421B (en) 2000-11-11
JP3277123B2 (ja) 2002-04-22

Similar Documents

Publication Publication Date Title
CN1191514C (zh) 处理中文文本的系统和方法
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
Kobus et al. Normalizing SMS: are two metaphors better than one?
US7636083B2 (en) Method and apparatus for text input in various languages
US7395203B2 (en) System and method for disambiguating phonetic input
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
US8977535B2 (en) Transliterating methods between character-based and phonetic symbol-based writing systems
US20050027534A1 (en) Phonetic and stroke input methods of Chinese characters and phrases
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
CN1384940A (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
Maamouri et al. Diacritization: A challenge to Arabic treebank annotation and parsing
CA2496872C (en) Phonetic and stroke input methods of chinese characters and phrases
CN1591414A (zh) 一种汉语到盲文的自动翻译转换方法
Jiang et al. Braille to print translations for Chinese
Liang et al. A Taiwanese text-to-speech system with applications to language learning
CN103853705A (zh) 计算机汉语语音与外语语音实时语音字幕翻译方法
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
Dembitz et al. An economic approach to big data in a minority language
Cheng et al. MAG-Tagalog: A rule-based Tagalog morphological analyzer and generator
CN107066104B (zh) 电脑汉英互读互译键盘最佳键位
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
CN1109283C (zh) 利用计算机键盘的拼音汉词编码输入法
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20050302

EXPY Termination of patent right or utility model