CN1618064A - 翻译方法、已翻译句子的输入方法、记录介质、程序与计算机设备 - Google Patents

翻译方法、已翻译句子的输入方法、记录介质、程序与计算机设备 Download PDF

Info

Publication number
CN1618064A
CN1618064A CNA02827654XA CN02827654A CN1618064A CN 1618064 A CN1618064 A CN 1618064A CN A02827654X A CNA02827654X A CN A02827654XA CN 02827654 A CN02827654 A CN 02827654A CN 1618064 A CN1618064 A CN 1618064A
Authority
CN
China
Prior art keywords
speech
translation
target language
computing machine
unregistered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA02827654XA
Other languages
English (en)
Other versions
CN1618064B (zh
Inventor
官平知博
神山淑朗
羽鸟洋美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1618064A publication Critical patent/CN1618064A/zh
Application granted granted Critical
Publication of CN1618064B publication Critical patent/CN1618064B/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Abstract

一种翻译方法,用来正确识别并自动翻译包含具有两个或更多个连续相同字符的强调词的句子。首先,在词典中查找待翻译的源文本(步骤S201),以确定该文本是否包含未登记词(步骤S203)。然后,确定未登记词是否包含连续相同字符(步骤S205)。如果其包含连续相同字符,则减少该字符的数目(步骤S207),并确定如此获得的修改词是否包含在词典中(步骤S209)。如果确定该修改词包含在词典中,则将该未登记词判定为修改词(步骤S215),确定修改词的词类与属性(步骤S217),并且用修改词替换未登记词以进行翻译。

Description

翻译方法、已翻译句子的输入方法、 记录介质、程序与计算机设备
技术领域
本发明涉及一种用来识别句子中的强调词以自动翻译该句子的方法与其他手段。
背景技术
在诸如个人计算机等信息处理设备上已经使用了机器翻译程序。机器翻译程序可以自动翻译显示在屏幕上的句子。这些程序可以用来翻译(例如)因特网上的网页与电子邮件消息中的文本。
最近几年,使用因特网的人数已经增加,并且随着人数的增加,个人所发送的信息量也在增加。通过(例如)个人用户所设置的网页以及在线聊天站点,个人所写的消息照原样提供,在这些网页上,与消息板一样,个人用户可以张贴消息,而在线聊天站点可以用来进行各个用户之间的交互式对话。机器翻译程序也可以用来翻译由个人用户提供的此类信息。
由于在信息中所包含的口语词与短语,翻译程序有时翻译得不准确或者不能翻译个人所提供的信息。口语包括许多未包含在翻译程序所参照的词典中的词。因为任何未包含在词典中的词,即使是动词与形容词,都都当作名词处理,所以翻译程序不能翻译句子。
未包含在词典中的词的例子包括那些包含被有意地连续重复的字符以在句子中强调它们的词(此后称为强调词)。举几个英文的例子,这些词包括,对于“cool”的“coool”,包含了额外的“o”,对于“work”的“worrk”,包含了额外的“r”。当翻译包含诸如“coool”或“worrk”等强调词的句子时,形容词“coool”或动词“worrk”被当作名词,从而导致失败。
如果“cool”的强调形式总是通过包含三个“o”来表示,诸如在“coool”中,在只要将“coool”添加到词典中将可以获得正确的翻译。然而,词中连续重复的字符数目不固定。可以包含三个、四个或五个“o”,等等。因此,可能的强调词的数目几乎是无限的。因此,实际上不可能将所有强调词包含在词典中。
如上所述,口语词经常用于个人所写的文本中,尤其在聊天中,其中通过交换所写的消息来进行对话,这经常导致翻译失败。
其中连续使用相同字符的强调词经常用于口语文本的非正式表达方式中。在翻译此类文本中,可能应当使用非正式的、较随意的表达方式,而不是正式的表达方式。通过选择非正式词以及强调与源文本中所强调的词等同的翻译文本中的词,也许能够更好地在翻译中保持此类文本的感觉。
本发明就是处理以上技术问题的,本发明的一个方面就是提供一种能够恰当翻译句子的方法与其他手段,即使这些句子包含诸如强调词等未登记的词。
发明内容
为达到此目的,本发明提供了一种翻译方法,用来将输入到计算机的给定源语言的源文本翻译为目标语言的文本,包括以下步骤:抽取在所述计算机可查阅的数据库中没有登记的未登记词;如果所述被抽取的词包含两个或更多个连续相同字符,则通过减少所述连续相同字符的数目,从所述未登记词生成修改词;以及用所述修改词替换所述源文本中的未登记词并查阅所述数据库,从而翻译所述源文本。该翻译方法通过如果如在口语中那样未登记词包含连续相同字符就使用修改词替换未登记词,从而使得可能翻译由于在源文本中包含的未登记词而无法以其他方法翻译的源文本。
未登记词中的连续重复字符的数目不固定,并且未登记词中哪个字符被重复也不固定。基于以上事实,可以在生成修改词的步骤中减少连续相同词的数目。例如,可以将连续相同词的数目从三个或更多个减少到二,或者将从两个或更多个减少到一。
另外,该翻译方法可以包括以下步骤:以如下方式输出翻译,使得所述翻译中等同于所述未登记词的目标语言词是基于所述修改词翻译的变得明显。
在所述翻译步骤,可以从所述数据库中抽取对于等同于所述修改词的目标语言词修改词的目标语言词,以翻译源句子。
本发明还可以被构成为一种输出方法,用来从计算机输出所述计算机进行的翻译,包括以下步骤:在输入到所述计算机中的源文本中,识别拼写不同于标准拼写方法的新创词;以及输出从包含所述新创词的所述源文本得到的翻译;其中所述输出翻译的步骤包括:向等同于在所述识别步骤中识别的所述新创词的目标语言词施加强调表示方法,并输出所述翻译。
在所述输出翻译的步骤中,通过提供预定的外观给所述目标语言词或改变所述目标语言词的字体,高亮所述目标语言词。例如,可以在为等同于“cool”,的目标语言词的词“く一一ル”之前与之后附加星号,以提供“*く一一ル*”,或者可以不同的字体或颜色表示。
另外,本发明还可以被构成为一种存储介质,在其上以计算机可读形式存储了由所述计算机执行的程序。该存储在存储介质上的程序使所述计算机执行:词素分析,用来从可由所述计算机查阅的数据库中抽取构成输入所述计算机的源文本的词的词类与属性;句法分析,用来根据所述词素分析的结果,生成对于源文本的具有树结构的句法树数据;句法生成过程,用来根据所述句法分析的结果,生成对于目标语言句子的句法树数据;以及翻译生成过程,用来从所述数据库中获得等同于构成所述源文本的词的目标语言词,并根据所述对于目标句子的句法树数据,将所述目标语言词链接在一起,以生成翻译;其中,如果所述源文本包含没有在所述数据库中登记的未登记词,并且所述未登记词包含两个或更多个连续相同字符,则将所述连续相同字符的数目减少到一或两个,以生成修改词,并且从所述数据库中抽取出所述修改词而不是在所述词素分析中的所述未登记词的词类与属性。
在所述翻译生成过程中,如果替换所述未登记词的所述修改词具有强调属性,则从所述数据库中获得与所述强调属性相关联的强调目标语言词,作为所述目标语言词,以生成包含所述强调目标语言词的翻译,或者可以向等同于所述修改词的目标语言词添加数据,以表示所述目标语言词是从所述修改词翻译来的。例如,根据此数据,可以呈现等同于修改词的目标语言词使其可以从翻译的其他部分中区分出来。
另外,本发明还可以构成为一种程序,用来使计算机进行翻译。该程序是计算机执行以下步骤:从输入到所述计算机的源句子中抽取在所述计算机可查阅的数据库中没有登记的未登记词;改变所述未登记词中重复字符的数目,并且如果该改变后的未登记词匹配在所述数据库中登记的已登记词,则使用所述已登记词而不是所述未登记词来翻译所述源文本;以及以如下方式显示翻译,使得所述已登记词替换所述未登记词使用的部分可以被从所述翻译的其他部分中区分出来。
例如,在该程序中显示所述翻译的步骤包括以下步骤:使所述计算机对于所述已登记词替换所述未登记词使用的部分进行以下之中的至少一个:向其添加预定强调数据(例如,星号(*)),改变其字体(包括字型、风格以及颜色)以及改变其颜色,使得该部分可以从其他部分中区分出来。
在另一方面,本发明可以构成为一种计算机。该计算机包括:包含有关多个词的数据的数据库;用来输入有关源文本的数据的输入模块;用来参照所述数据库翻译所述输入的源文本的翻译模块;以及用来输入有关所述源文本的翻译的数据的输出模块;其中所述翻译模块减少包含在强调词中的连续相同字符的数目,以生成修改词,并从所述数据库获得等同于所述修改词的目标语言词。
在所述数据库中与所述修改词相关联并一起登记的有用做标识所述目标语言词属性的强调属性数据以及与所述强调属性数据相关联的强调目标语言词;以及如果所述强调属性数据与所述修改词相关联并且在所述数据库中发现,则所述输出模块输出有关翻译的数据,其中与所述强调属性数据相关联的所述强调目标语言词被用做所述目标语言词。
所述输出模块与所述有关翻译的数据一起输出表示在所述有关翻译的数据中的所述目标语言词是基于所述修改词翻译来的数据。可以提供显示器,用来显示翻译,在该翻译中,根据从所述输出模块中提供的所述翻译数据,强调所述目标语言词。
附图说明
图1显示根据本发明的计算机的一般结构;
图2显示翻译块的结构;
图3显示一在词典数据存储器中存储的数据的例子;
图4显示翻译的特定例子,其中(a)表示源文本,(b)表示在翻译之后所呈现的目标句子;
图5显示在翻译块中所进行的翻译过程的流程;
图6显示在图5中所示的词素分析的详细过程流程;
图7显示在图5中所示的等同目标语言词生成的详细过程流程;
图8A、8B和8C显示目标句子中强调词的可替换的表示方式的例子。
具体实施方式
以下将就附图中所示的实施方式详细地描述本发明。
图1示意性地显示了该实施方式中计算机的配置。
如图1所示,计算机1包括包含CPU、主存储器、硬盘驱动器的控制单元2,具有CRT或LCD面板的显示器(显示单元3),以及诸如键盘与鼠标之类的输入设备4,键盘用来输入文本与其他信息,以在显示器3的显示面板上显示,鼠标用来操纵指针。
控制单元2具有如下功能:显示控制块5,用来根据来自CPU的绘图命令提供在显示器3的屏幕上的显示;输入设备控制块6,用来控制由用户输入的数据;以及翻译块7,用来进行翻译。
显示控制块5由未显示的视频驱动器、视频芯片以及其他组件来实现,并且使显示器3提供基于从主存储器与其他来源传送来的图像数据的显示。
输入设备控制块6由用户接口驱动器实现,用来处理由操纵诸如定位设备与键盘等输入设备4的用户所造成的事件。具体地讲,输入设备控制器6进行处理,使显示器3显示通过用户对输入设备4的操纵所输入的数据。
翻译块7由根据存储在硬盘驱动器中的程序与主存储器协调进行处理的CPU来实现。以下将详细描述翻译块7。
图2显示翻译块7的功能结构。
翻译块7包括:输入模块10,用来获得待翻译的源文本;翻译模块20,用来翻译所获得的源文本;输出模块30,用来输出数据以使显示器3显示从所进行的翻译中产生的目标文本;以及词典数据存储器50,用来存储翻译中所使用的词典数据。词典数据存储器50包含基本词典51和用户词典52,以及在此之外的专门词典53,诸如运动、计算机、艺术、娱乐、外交与经济、科学以及日常生活词典。
图3显示在词典数据存储器50中存储的数据的例子。词典数据存储器50包含(例如)如图3中所示的数据。包含在词典数据存储器50中的有词类、语义属性、强调属性、每个源词的日语对等词以及日语对等词的属性。作为例子提供的词“cool”的词类被标识为形容词,并且对于这个词登记了两个日语对等词“冷静(reisei)”与“く一一ル(kuuuru)”。词“Japanese”标识为名词与形容词。对于名词登记了日语等同词“日本人(nihon-jin)”与“日本語(nihon-go)”,对于形容词登记了日语等同词“日本(nihon)”。如果同一词类的词具有多个等同词,诸如对于“cool”的“冷静(reisei)”与“く一一ル(kuuuru)”,对于“Japanese”的“日本人(nihon-jin)”与“日本語(nihon-go)”,则根据源词的语义属性与强调属性以及日语等同词的属性同时考虑构成源文本的词之间的关系来确定应该使用哪个等同词。强调属性表示对于所强调的源词存在或不存在等同词。如果词的强调属性为“YES”,在意味着该词为强调表达方式。
当进行翻译时,具有以上结构的翻译块7根据通过输入模块10所获得的源文本(句子或词)来查阅词典数据存储器50。翻译模块20进行翻译,以生成翻译,其通过输入模块30输出。在翻译过程中,咨询包含语法规则与词数据的词典数据存储器50以进行各种处理,这些过程包括词素分析、语义分析、句法生成以及目标语言词生成,并且在翻译模块20中依次进行。即使源文本中包含强调词,翻译模块20也能够通过这些翻译处理提供正确的翻译,其中与强调词等同的目标语言词被强调。例如,图4a所示英文源文本中为“cool”加上额外的“o”的强调词“coool”被翻译为图4b所示的日文翻译文本中的“*く一一ル(kuuuru)*”。
以下将针对图4a所示的源句子翻译为图4b所示的日语句子的例子,具体地描述由翻译块7进行的、用来以强调方式正确翻译强调词的处理。该翻译处理与现有技术大致相同。因此,将省略翻译处理中公知部分的详细描述。所使用的翻译算法与下面所提供的结果翻译文本的输入形式不是限制性的。
图5显示在翻译块7中所进行的翻译处理的概括流程。
首先,翻译块7对通过输入模块10获得源文本进行词素分析(步骤S101)。在词素分析中,源文本句子被分离为词,并且参照存储在词典数据存储器50中的数据来确定它们的词类与属性。
图6具体显示了步骤S101上的词素分析的流程。
如图6所示,翻译模块20首先在词典数据存储器50(步骤S201)中查找源句子中的每个已分离词。包含在词典数据存储器50中的数据包括词类、语义属性、强调属性、源词的日语等同词以及日语等同词的属性,如图3所示。在该词典查找中,词典数据存储器50中匹配该词的每一个词抽取出来。在本实施例中,在词典数据存储器50中查找图4a中所示的、源句子中已分离的词“It”、“is”、“very”以及“coool”,并且抽取匹配的词。
然后,根据步骤201的词典查找的结果,翻译模块20确定该句子是否包含未包含在词典数据存储器50中的词(此后称为未登记词)(步骤S203)。如果确定该句子不包含未登记词,即构成源句子的所有词都包含在词典数据存储器50中,则进行到步骤S217,在那里将确定词的词类与属性,以下将详细描述。
图4a所示的源句子包含未登记词“coool”,其未包含在词典数据存储器50中。因此,翻译模块20在步骤S203确定源句子包含未登记词,并且确定该未登记词是否包含两个或更多个连续的相同字符(此后称为连续字符)(步骤S205)。如果在步骤S205翻译模块20确定该未登记词不包含连续的相同字符,则确定是否应该将该未登记词当作未知词处理(步骤S206)。
在另一方面,如果在步骤S205翻译模块20确定该未登记词包含连续的相同字符,如“coool”中的“ooo”,则通过用两个相同字符替换三个连续相同字符来修改该词,以生成词(此后称为修改词),并在词典数据存储器50中查找修改词(步骤S207)。即,将词“coool”修改为“cool”,并对“cool”查词典。然后,根据词典查询的结果,翻译模块20确定修改词是否在词典数据存储器50中(步骤S209)。在图4a所示的例子中,在步骤S207所修改的词匹配存储在图4所示的词典数据存储器50中的词“cool”。相应地,翻译模块20确定在词典数据存储器50中登记有该修改词。
在另一方面,如果在步骤S209翻译模块20确定从将三个连续相同字符修改为两个相同字符中产生的修改词没有在词典数据存储器50中登记,或者如果因为该未登记词不包含多于两个的连续相同字符而没有创建修改词(例如如果其包含两个连续相同字符),则翻译模块20将未登记词中的这两个或更多个字符替换为一个字符,以生成新的修改词,并在词典数据存储器50中查找该修改词(步骤S211)。然后,根据词典查询的结果,翻译模块20确定该新修改词是否登记在词典数据存储器50中(步骤S213)。
在步骤S207与S211的生成修改词并查找词典的过程中,可能会遇到包含多组连续相同字符的词,诸如“pleeeaaase”。在这种情况下,需要将每一组中的连续字符的数目(在这个例子中为e序列与a序列)降低为一或二,将结果组合成修改词,然后,在词典中查找该修改词。这样一个过程,虽然没有显示,但本领域技术人员可以容易地从上述针对本实施方式所描述的过程中引申而来。
如果在步骤S209翻译模块20确定在词典数据存储器50中登记了将未登记词中的三个或更多个连续字符减少到两个相同连续字符所得到的修改词,或者如果在步骤S213中确定在词典数据存储器50中登记了将未登记词中的两个或更多个连续字符减少到一个相同连续字符所得到的修改词,则翻译模块20确定应当将该未登记词当作修改词处理(步骤S215)。在此时,向该修改词赋予标志,以表示该词是通过修改未登记词而生成的。
通过这种方法,如果源句子包含未登记词,则翻译模块20在步骤S215判定该词为修改词或者在步骤S206判定该词为未知词。然后,翻译模块20确定构成源句子的每个词的词类与属性(步骤S217),由此结束在步骤S101的操作。在某些情况下,步骤S101的词素分析不能唯一地确定词的词类或者属性。在这种情况下,可以将多个词类或属性做为侯选保存。
在完成了图5中的步骤S101后,翻译块7进行句法分析(步骤S103)。在句法分析中,参照存储在词典数据存储器50的基本词典51中的语法规则,分析被分离为词的源句子,以生成称为句法树数据的树数据。句法树数据为表示源句子的哪一部分为主语、哪为谓语或者(例如)谓语为包含动词与宾语的动词短语、并且宾语为包含冠词与名词的名词短语的树数据。除语法属性之外,在用于句法分析的语法规则中可以指明语义属性。
然后,根据在步骤S103的操作的结果,翻译块7进行句法生成(步骤S105)。在句法生成中,参照在步骤S103通过句法分析所获得的源语言(在英日翻译中为英语)的句法树数据(在英日翻译中为日语),生成目标语言(在英日翻译中为日语)的句法树数据。
然后,根据在步骤S105所获得的句法树数据,翻译块7生成等同目标语言词(步骤S107)。如果在句法树数据中没有确定源词的等同目标语言词的词(如果词具有同词类的多个等同目标语言词或者具有多于一个侯选等同词),则参照词典数据存贮50在目标等同词生成中确定该词的目标语言等同词。然后,将最终所获得的等同目标语言词链接为一个句子。
图7显示生成等同目标语言词的步骤S107的操作的详细流程。
如图7所示,翻译模块20参照词典数据存贮50在词典中查找构成源句子的每个已分离词(步骤S301)。在根据图1所示的步骤105中获得的句法树数据确定了待在词典中查找的词的词类之后,进行该词典查询,以确定最终的等同目标语言词。
然后,翻译模块20确定在词典中所查找的词是否具有多于一个的同词类的等同目标语言词(步骤S303)。按此类登记源词的等同目标语言词的词典数据存储器50可能包含一个词的同词类的多于一个的等同目标语言词。例如,对于源词“Japanese”,登记了等同目标语言名词“日本人(nihon-jin:人)”与“日本語(nihon-go:语言)”,如图3所示。如果在步骤S303翻译模块20确定对于源词只登记了一个等同目标语言词,则进行到步骤S309,这将在以后描述。
在另一方面,如果在步骤S303翻译模块20确定对于源词登记了多于一个的等同目标语言词,则在步骤S305确定该词是否为在步骤S101(步骤S207或S211)生成的修改词。对于该词是否为修改词,翻译模块20根据该词是否具有在步骤S215赋予它的标志来进行判定,所述标志表示该词为修改的未登记词。如果在步骤S305翻译模块20确定该词为修改词,则确定对于该修改词是否登记了具有强调属性的等同目标语言词(步骤S307)。例如,图4a所示的“cooo1”在步骤S101被修改为“cool”。如图3所示,对于“cool”,登记了设置了强调属性=YES的等同目标语言词“く一一ル(kuuru)”。象这样,如果确定源词具有含强调属性的等同目标语言词,则确定是否应该在目标句子中使用该等同目标语言词(步骤S309)。
在另一方面,如果在步骤S305翻译模块20确定该词不是修改词,或者如果在步骤S307确定对于该修改词没有登记等同目标语言词,则翻译模块20对于该词进行对于语法树数据中所要求的另一语义属性的匹配,诸如语义属性(步骤S308)。然后,翻译模块20抽取具有最匹配该属性的属性的等同目标语言词,并判定该词用于目标句子(步骤S309)。如果不能确定最佳匹配的属性,则可以选择第一个等同目标语言词(在常使用的等同目标语言词)。
然后,翻译模块20确定为其确定该词的等同目标语言词是否为修改词(步骤S311)。如果翻译模块20确定该词不是修改词,则将该等同目标语言词原样提供给输出模块30,然后终止该处理。
在另一方面,如果翻译模块20确定为其确定该词的等同目标语言词是修改词,则翻译模块20强调该等同目标语言词,并通过输出模块30输入该强调词(步骤S313),然后终止该处理。在该强调步骤,在目标语言词之前与之后附加诸如星号(*)等符号,以表示其源词在源句子中被强调。
通过这种方式,通过图7所示的处理确定各个目标语言词的目标语言词,并且将它们链接在一起成为最终的目标句子,以通过输出模块30输出它。通过在计算机1的翻译块7与显示控制块5中所进行的处理,所输出的目标句子在显示器3上显示。例如,图4a所示的源句子在显示器3上显示为图4b所示的目标句子。在图4a与4b所示的例子中,强调词“coool”被翻译为目标语言词“く一一ル”,有强调属性的符号“*”围绕该词,导致了“*く一一ル*”的表示。
通过这种方式,在根据本发明的计算机1中翻译口语文本时,包含在强调词中的连续相同字符的数目被减少,以生成匹配在词典数据存储器50中登记的词。由此,在计算机1中可以正确地识别强调词的词类。因此,可以防止错误翻译的发生,另外,根据本实施方式,可以翻译根据现有技术不能翻译的源文本。
当翻译强调词时,使用对应于该强调词的等同词,并且在该等同词之前与之后附加符号,以表示它是从源文本中的强调词翻译来的。因此,用户可以更准确地理解源句子的意图。
另外,通过选择对于被强调的源词的典型的等同目标语言词,就可能在翻译中更好地保持包含强调词的源句子的感觉。
用来强调经对被强调的源词的翻译而输出的词的技术并不限于图4b所示的在该词添加符号。图8A、8B和8C显示目标语言中强调词的表达方式的例子。
图8A所示的源句子(a)包含“Oooooooops”,为通过连续o强调的“Oops”。在翻译文本(b)中其等同词为“しまったあ~”并且在其前后附加了符号“***”以突出它。象这样,用做强调数据的符号是无限的。它们可以采用任何形式。另外,它们可以放在任何位置。它们可以被插如强调词,“*し*ま*っ*た*あ*~*”。
如果(如在HTML格式中)当在显示器3上呈现目标文本时可以设置字型数据或颜色,则可以使用不同的字体、风格或大小或不同的颜色来表示强调词。
在图8B中显示的例子中,源文本(a)包含“soooooo”,为通过连续o强调的“so”。该强调词被翻译为“とても(totemo)”,该词为非强调词(该词的强调属性没有设置为YES),因为它不具有强调属性设置为YES的目标语言词。所以,词“とても”涂阴影,以表示其被强调。
在图8C中显示了另一个例子,其中源文本(a)包含词“Pleeeaaase”,表示用连续e与a强调的“Please“。其目标文本中的等同目标词为“おねが~い(onegaai)”,该词为强调词。通过使用突出它的更大的点尺寸进一步强调了该词。
强调目标语言词的方法并不限于特定的方法。可以使用改变字体(诸如风格与大小)以及颜色的方法来强调词。如果使用了具有强调属性的目标语言词或者如果偏好简单文本显示,也可以不使用这些强调方法。
虽然本实施方式中翻译处理被应用到从英文的源文本向日文目标文本的翻译,但是本发明并不限于此。本发明可以用于从任何源语言到任何目标语言的翻译,诸如(例如)从英文到德文。
另外,除了膝上型与桌面上PC,根据本实施方式中翻译过程也可以在诸如PDA与手机等便携式计算机上进行。其可以在因特网上的网页或聊天站点上进行。
虽然在计算机1中提供了本发明翻译处理中所使用的词典数据存储器50,但计算机1在翻译过程中所查阅的词典数据可以从计算机1外部提供。例如,计算机1可以通过网络获得词典数据。
可以用存储介质来实现使计算机进行上述处理的程序。
该存储介质可以是诸如CD-ROM、DVD、存储器或硬盘等其上以计算机可读格式存储使计算机进行上述处理的程序。
在不脱离本发明的精神与范围的前提下可以针对本实施方式描述的结构进行各种修改与替换。
根据本发明,可以将用连续相同字符强调的源词翻译为上述的目标语言词。

Claims (16)

1.一种翻译方法,用来将输入到计算机的给定源语言的源文本翻译为目标语言的文本,包括以下步骤:
抽取在所述计算机可查阅的数据库中没有登记的未登记词;
如果所述被抽取的未登记词包含两个或更多个连续相同字符,则通过减少所述连续相同字符的数目,从所述未登记词生成修改词;以及
参照利用用所述修改词替换了所述源文本中的未登记词的所述数据库,翻译所述源文本。
2.根据权利要求1的翻译方法,其中所述生成修改词的步骤将连续相同词的数目从三个或更多个减少到二,或者将连续相同词的数目从两个或更多个减少到一。
3.根据权利要求1的翻译方法,还包括以下步骤:以如下方式输出翻译,使得所述翻译中等同于所述未登记词的目标语言词是基于所述修改词翻译的变得显然。
4.根据权利要求1的翻译方法,其中所述翻译源文本的步骤从所述数据库中抽取对于等同于所述修改词的目标语言修改词的目标语言词。
5.一种输出方法,用来通过计算机输出由所述计算机所产生的翻译,包括以下步骤:
在输入到所述计算机中的源文本中,识别拼写不同于标准拼写方法的新创词;以及
输出从包含所述新创词的所述源文本产生的翻译,其中
所述输出翻译的步骤向等同于在所述识别步骤中识别的所述新创词的目标语言词施加强调表示,并输出所述翻译。
6.根据权利要求5的输出方法,其中所述输出翻译的步骤通过提供预定的外观给所述目标语言词或改变所述目标语言词的字体,来高亮所述目标语言词。
7.一种存储介质,在其上以计算机可读形式存储了由所述计算机执行的程序,其中所述程序使所述计算机执行:
词素分析,用来从可由所述计算机可查阅的数据库中抽取构成输入所述计算机的源文本的词的词类与属性;
句法分析,用来根据所述词素分析的结果,生成对于源文本的具有树结构的句法树数据;
句法生成过程,用来根据所述句法分析的结果,生成对于目标语言句子的句法树数据;以及
翻译生成过程,用来从所述数据库中获得等同于构成所述源文本的词的目标语言词,并根据所述对于目标句子的句法树数据,将所述目标语言词链接在一起,以生成翻译;
其中,如果所述源文本包含没有在所述数据库中登记的未登记词,并且所述未登记词包含两个或更多个连续相同字符,则将所述连续相同字符的数目减少到一或两个,以生成修改词,并且从所述数据库中抽取出所述修改词而不是在所述词素分析中的所述未登记词的词类与属性。
8.根据权利要求7的存储介质,其中,在所述翻译生成过程中,如果替换所述未登记词的所述修改词具有强调属性,则使所述计算机从所述数据库中获得与所述强调属性相关联的强调目标语言词,作为所述目标语言词,并生成包含所述强调目标语言词的翻译。
9.根据权利要求7的存储介质,其中,在所述翻译生成过程中,使所述计算机添加数据到等同于所述修改词的所述目标语言词,以表示所述目标语言词是从所述修改词翻译来的。
10.一种程序,用来使计算机进行翻译,包括以下步骤:
从输入到所述计算机的源句子中抽取在所述计算机可查阅的数据库中没有登记的未登记词;
改变所述未登记词中重复字符的数目,并且如果该改变后的未登记词匹配在所述数据库中登记的已登记词,则使用所述已登记词而不是所述未登记词来翻译所述源文本;以及
以如下方式显示翻译,使得所述已登记词替换所述未登记词使用的部分可以被从所述翻译的其他部分中区分出来。
11.根据权利要求10的程序,其中所述显示所述翻译的步骤包括以下步骤:使所述计算机对于所述已登记词替换所述未登记词使用的部分进行以下操作中至少一个:向其添加预定强调数据、改变其字体以及改变其颜色,使得该部分可以从其他部分中区分出来。
12.根据权利要求11的程序,其中所述显示所述翻译的步骤包括以下步骤:使所述计算机使用已登记的强调目标语言词,作为等同于所述已登记词替换所述未登记词使用的部分的目标语言词。
13.一种计算机,包括:
包含有关多个词的数据的数据库;
用来输入有关源文本的数据的输入模块;
用来参照所述数据库翻译所述输入的源文本的翻译模块;以及
用来输出有关所述源文本的翻译的数据的输出模块,
其中所述翻译模块减少包含在强调词中的连续相同字符的数目,以生成修改词,并获得等同于所述修改词的目标语言词。
14.根据权利要求13的计算机,其中在所述数据库中与所述修改词相关联并一起登记的有用做标识所述目标语言词属性的强调属性数据以及与所述强调属性数据相关联的强调目标语言词;以及
如果所述强调属性数据与所述修改词相关联并且在所述数据库中发现,则所述输出模块输出有关翻译的数据,其中与所述强调属性数据相关联的所述强调目标语言词被用做所述目标语言词。
15.根据权利要求13的计算机,其中所述输出模块与所述有关翻译的数据一起输出表示在所述有关翻译的数据中的所述目标语言词是基于所述修改词翻译来的数据。
16.根据权利要求15的计算机,进一步包括显示器,用来显示翻译,在该翻译中,根据从所述输出模块中提供的所述有关翻译的数据,强调了所述目标语言词。
CN02827654XA 2002-01-29 2002-12-19 翻译方法与计算机设备 Expired - Lifetime CN1618064B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP20676/2002 2002-01-29
JP2002020676 2002-01-29
PCT/JP2002/013329 WO2003065245A1 (fr) 2002-01-29 2002-12-19 Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur

Publications (2)

Publication Number Publication Date
CN1618064A true CN1618064A (zh) 2005-05-18
CN1618064B CN1618064B (zh) 2010-05-05

Family

ID=27654365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02827654XA Expired - Lifetime CN1618064B (zh) 2002-01-29 2002-12-19 翻译方法与计算机设备

Country Status (8)

Country Link
US (2) US7529656B2 (zh)
EP (1) EP1482414B1 (zh)
JP (1) JPWO2003065245A1 (zh)
KR (1) KR20040070168A (zh)
CN (1) CN1618064B (zh)
AT (1) ATE484029T1 (zh)
DE (1) DE60237922D1 (zh)
WO (1) WO2003065245A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424166A (zh) * 2013-08-22 2015-03-18 株式会社理光 文本处理装置和文本显示系统
CN106445925A (zh) * 2013-10-23 2017-02-22 日耀有限公司 翻译辅助系统控制方法
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065245A1 (fr) * 2002-01-29 2003-08-07 International Business Machines Corporation Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
US7290207B2 (en) * 2002-07-03 2007-10-30 Bbn Technologies Corp. Systems and methods for providing multimedia information management
US20040004599A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for facilitating playback of media
US7536293B2 (en) * 2003-02-24 2009-05-19 Microsoft Corporation Methods and systems for language translation
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
WO2005088471A2 (de) * 2004-03-16 2005-09-22 Star Ag Computergestütztes hilfsmittel für ein verfahren zur erstellung von fremdsprachigen dokumenten
JP2006155433A (ja) * 2004-12-01 2006-06-15 Nec Corp 文字入力言語変換表示システム及びその方法並びにそれを用いた通信端末及びプログラム
US7849144B2 (en) * 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US20080140519A1 (en) * 2006-12-08 2008-06-12 Microsoft Corporation Advertising based on simplified input expansion
US8144990B2 (en) 2007-03-22 2012-03-27 Sony Ericsson Mobile Communications Ab Translation and display of text in picture
DE102007043803A1 (de) * 2007-09-13 2009-04-09 Vistec Semiconductor Systems Gmbh Einrichtung und Verfahren zur Bestimmung der räumlichen Lage bewegter Elemente einer Koordinaten-Messmaschine
CN101388011B (zh) * 2007-09-13 2011-07-20 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US8296125B2 (en) * 2008-10-17 2012-10-23 International Business Machines Corporation Translating source locale input string to target locale output string
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
CN101739395A (zh) * 2009-12-31 2010-06-16 程光远 机器翻译方法和系统
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
US8554558B2 (en) 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US20130326347A1 (en) * 2012-05-31 2013-12-05 Microsoft Corporation Application language libraries for managing computing environment languages
US9639676B2 (en) 2012-05-31 2017-05-02 Microsoft Technology Licensing, Llc Login interface selection for computing environment user login
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
US10740573B2 (en) 2015-12-23 2020-08-11 Oath Inc. Method and system for automatic formality classification
US10346546B2 (en) * 2015-12-23 2019-07-09 Oath Inc. Method and system for automatic formality transformation
US20170185587A1 (en) * 2015-12-25 2017-06-29 Panasonic Intellectual Property Management Co., Ltd. Machine translation method and machine translation system
CN107291700A (zh) * 2017-07-17 2017-10-24 广州特道信息科技有限公司 实体词识别方法及装置
CN109522563B (zh) * 2018-10-15 2023-05-23 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
CA3045132C (en) * 2019-06-03 2023-07-25 Eidos Interactive Corp. Communication with augmented reality virtual agents
JP7287412B2 (ja) * 2021-03-24 2023-06-06 カシオ計算機株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4730269A (en) * 1983-02-18 1988-03-08 Houghton Mifflin Company Method and apparatus for generating word skeletons utilizing alpha set replacement and omission
JP2815714B2 (ja) 1991-01-11 1998-10-27 シャープ株式会社 翻訳装置
US5678051A (en) 1992-12-24 1997-10-14 Matsushita Electric Industrial C., Ltd. Translating apparatus with special display mode for supplemented words
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
JP3161942B2 (ja) * 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
CN1266235A (zh) * 1999-03-04 2000-09-13 英业达股份有限公司 自动拾取英文原形单词的方法
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
US6708166B1 (en) * 1999-05-11 2004-03-16 Norbert Technologies, Llc Method and apparatus for storing data as objects, constructing customized data retrieval and data processing requests, and performing householding queries
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US7225199B1 (en) * 2000-06-26 2007-05-29 Silver Creek Systems, Inc. Normalizing and classifying locale-specific information
JP3589972B2 (ja) 2000-10-12 2004-11-17 沖電気工業株式会社 音声合成装置
IT1315160B1 (it) * 2000-12-28 2003-02-03 Agostini Organizzazione Srl D Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori.
US6983238B2 (en) * 2001-02-07 2006-01-03 American International Group, Inc. Methods and apparatus for globalizing software
WO2003065245A1 (fr) * 2002-01-29 2003-08-07 International Business Machines Corporation Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424166A (zh) * 2013-08-22 2015-03-18 株式会社理光 文本处理装置和文本显示系统
CN104424166B (zh) * 2013-08-22 2017-05-24 株式会社理光 文本处理装置和文本显示系统
CN106445925A (zh) * 2013-10-23 2017-02-22 日耀有限公司 翻译辅助系统控制方法
CN109375787A (zh) * 2013-10-23 2019-02-22 日耀有限公司 服务器
CN106445925B (zh) * 2013-10-23 2019-09-17 日耀有限公司 翻译辅助系统控制方法
CN109375787B (zh) * 2013-10-23 2022-05-17 日耀有限公司 服务器
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统

Also Published As

Publication number Publication date
WO2003065245A1 (fr) 2003-08-07
US20060167675A1 (en) 2006-07-27
US7529656B2 (en) 2009-05-05
EP1482414A1 (en) 2004-12-01
US20090254334A1 (en) 2009-10-08
JPWO2003065245A1 (ja) 2005-05-26
ATE484029T1 (de) 2010-10-15
CN1618064B (zh) 2010-05-05
DE60237922D1 (de) 2010-11-18
US8005662B2 (en) 2011-08-23
EP1482414B1 (en) 2010-10-06
KR20040070168A (ko) 2004-08-06
EP1482414A4 (en) 2008-11-12

Similar Documents

Publication Publication Date Title
CN1618064B (zh) 翻译方法与计算机设备
US6760695B1 (en) Automated natural language processing
TWI536181B (zh) 在多語文本中的語言識別
Gómez-Adorno et al. Improving feature representation based on a neural network for author profiling in social media texts
RU2592395C2 (ru) Разрешение семантической неоднозначности при помощи статистического анализа
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
CN1102271C (zh) 具有习惯用语处理功能的电子词典
CN1426561A (zh) 带有跨语言阅读向导的计算机辅助阅读系统和方法
CN1197962A (zh) 语言识别装置、方法及存储语言识别装置程序的记录媒体
CN1542649A (zh) 自然语言生成系统中用于句子实现中排序的成分结构的语言信息统计模型
RU2579873C2 (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
Singh et al. Part of speech tagging of Marathi text using trigram method
WO2002039318A1 (en) User alterable weighting of translations
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
Contractor et al. Handling noisy queries in cross language faq retrieval
CN113360751A (zh) 意图识别方法、装置、设备和介质
Nithya et al. A hybrid approach to English to Malayalam machine translation
WO1997040452A1 (en) Automated natural language translation
Sharma et al. Word prediction system for text entry in Hindi
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
Kaur et al. Toward normalizing romanized gurumukhi text from social media
Mohamed et al. ADPBC: Arabic dependency parsing based corpora for information extraction
De Pauw et al. African language technology: The data-driven perspective
CN1257445C (zh) 音义码汉字输入方法
Malik et al. A Hierarchical Part of Speech Tag set for Saraiki Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20100505

CX01 Expiry of patent term