CN1254891A - 从连续的中文文本中分离出中文词的方法 - Google Patents

从连续的中文文本中分离出中文词的方法 Download PDF

Info

Publication number
CN1254891A
CN1254891A CN99123110A CN99123110A CN1254891A CN 1254891 A CN1254891 A CN 1254891A CN 99123110 A CN99123110 A CN 99123110A CN 99123110 A CN99123110 A CN 99123110A CN 1254891 A CN1254891 A CN 1254891A
Authority
CN
China
Prior art keywords
speech
text
chinese
character
data structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99123110A
Other languages
English (en)
Other versions
CN1168029C (zh
Inventor
安东尼奥·扎莫拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1254891A publication Critical patent/CN1254891A/zh
Application granted granted Critical
Publication of CN1168029C publication Critical patent/CN1168029C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

本发明一个处理过程,该过程用于机器分析连续的中文文本并分离出组成文本的词。该处理过程使用一个词典、一些处理标点符号的直接规则、识别一串中文文本中全部词和通过依次更严格的过滤机制消除不合逻辑段从而将输入文本中的重叠词分解成一组相邻词的方法,以及解除多义性的方法。

Description

从连续的中文文本中分离出 中文词的方法
本发明广义而言与数据处理系统有关,更具体地说,是涉及从连续的中文文本(text)中分离出中文词的语言学方法。
中文是写成“词符(logographs)”的,每个词符代表一个音节,而且通常是一个概念或有意义的单元。中文的传统写法是在这些词符之间没有间隔。一个中文“词(word)”可能由一个或多个这种词符组成,因此一个中文读者必须辨认出这些词的分界以便理解文本的意思。
电子形式的中文文件也是书写成不带间隔的,这使计算机应用(例如信息存贮和检索IS/R)中难于识别机器可读索引中使用的项。当然,对于IS/R遇到的问题可以用蛮力(brute force)办法来解决,即把文本的每个字(character)编成索引从而能查寻这些字的每种组合,但这是效率很低的,因为它使用太大的索引空间并检索出大量无关的结果(即不准确)。
尽管IS/R应用能够解决而不必识别中文文本中的词,但有其他应用(如计算机辅助翻译)需要对词准确识别以便能给出有意义的翻译结果。本发明的目的就是要定义一个识别出中文文本字串(string)中全部词的处理过程,通过依次更严格的过滤机制排除掉不合逻辑的段,从而将重叠的词分解成一组相邻的词,并借助频率判据和语法约束来解除多义性。
所以,本发明的一个目的是提供一种从连续的中文文中分离出中文词的方法。
本发明实现这些和其他目的、特点和优点。所描述的处理过程用于机器分析连续的中文文本并分离出组成文本的词。该处理过程使用一个词典、一些处理标点符号(punctuation)的直接规则、识别一串中文文本中全部词和通过依次更严格的过滤机制消除不合逻辑段从而将输入文本中的重叠词分解成一组相邻词的方法、以及解除多义性的方法。
对于这些及其他目的、特别和优点,将结合所附图予以更充分的评述。
图1描绘出经过一次字典查寻处理过程之后的数据结构。
图2描绘出经过第一次相邻性(adjacency)处理过程之后的数据结构。
图3描绘出第二次相邻性处理过程之后的数据结构。
图4描绘出第二次相邻性处理过程之后的未删除词。
图5描绘出实现本发明方法的操作步骤序列的流程图。
图6给出要被处理的字串的第一个实例。
图7给出要被处理的字串的第二个实例。
图8给出要被处理的字串的第三个实例。
从文本中分离出词的处理过程所要求的数据结构要能识别出由相邻字组成的文本的子串(substring)。这些子串可以代表彼此重叠或彼此相邻的中文词。再有,该数据结构应能包容伴随每个词的数据,如词类或频率。
作为本发明实施例的举例说明,其数据结构由一个至少有三个字段(field)的数组(array)来表示,这三个字段是:位置、长度和标记(flag)。“位置”指出一个字段的第一个字的位置,“长度”确定这个字串有多长。“标记”用于标明词条(work entry)是“被删除的”的,并提供一种恢复被删除词的机制。对于该数据结构可以增加附加字段以容纳频率信息或词类以解除各种多义性。
图1给出字串“softwaredevelopment(软件开发)”在使用字典查寻识别出所有词之后的数据结构的内容。尽管这个例子是英文的,类似的处理过程适用于中文文本字串。对该数据结构中各词的检验揭示出不能由人立即发现却被计算机成功发现的那些词,此时对文本的所有可能的子串都对照词典进行了检验。标记值为零表明该词未被删除。请注意字的位置从零开始而不从1开始计算。
词典查寻处理过程包括识别文本的全部子串和与词典匹配。然而,为了使处理的效率更高和防止词典复盖失效,使用了下列判据:1)不产生含有标点符号的子串,2)当文本的一个字符不被词典中发现的任何词所包含时,对这单个字符构成一个数据结构条目。邻近性限制的应用
第一邻近性处理将一个词的标记置成非零值以删除不与另一词相邻或不与字串开头或末尾相邻的词。图2显示出标记1来标志其末端不与另一词开头相邻的词,用标记2标志其开头不与另一词相邻的词。这样,词“50”被标志为删除,因为没有以“ft…”开头的词跟在它后面,而词“oft”被删除是因为它前面的“s”不是一个有效的词。请注意,第一邻近性处理从清单中列出的19个词中删出了8个。重叠字串和邻近性限制存在的问题
尽管第一邻近性处理显著减少了词的数量,但它有一个缺陷得由第一恢复处理来校正。例如,考虑字串“thexresult”。在识别出词“the”,“hex”,“re”,以“result”之后,第一邻近性处理删除了词“the”,因为它的末端不与另一个词的开头相邻,“hex”被删除是因为它的开头不与另一个词的末尾相邻。词“re”也被删除了,因为它的末端不与另一个词的开头相邻。只有词“result”保留下来,因为它在词“hex”的末端与字串的末尾之间。这就造成了文本串被数据结构复盖的缺口。进入字符“thex”的所有词条目都被第一邻近性处理给删除了,因为字串“the”和“hex”重叠。从重叠字串中造成相邻字串的处理过程
第一恢复处理通过拷贝文本串和擦掉被引用的全部字符来识别出数据结构复盖文本串时出现的缺口。任何剩余字符都是由于各文本串重叠造成的。第一恢复处理选出第一个未被引用字符,并将标记置回到零来恢复那个包含这一字符作为词的第一字符的最长的词。如果该字符没有作为任何被删除字的第一字符出现,则对该单个字符造成一个新的数据条目。在被恢复词或新条目中出现的字符从文本字串的拷贝中抹去,然后再重复这一寻找未引用字符的处理过程,直至所有字符都被引用了为止。
在第一恢复处理过程结束时,数据结构中包含了一组展布在整个文本字串上的不重叠条目。这样,字串“thexresult”被恢复成“the”,“x”和“result”。这一处理过程可能会用来优先产生另一组条目“t”、“hex”和“result”作为最后串。附加邻近性限制
在应用了第一邻近性处理和第一恢复处理之后,有可能借助第二邻近性处理从数据结构中删出多余的条目。第二邻近性处理删除不与另一个未被删字相邻或不与字串开头或结尾相邻的词。图3显示出用标记3标志其末尾不与另一未被删除词开头相邻的词,用标记4标志其开头不与前面的未被删除词相邻的词。
第一邻近处理有助于建立词的边界,而第二邻近处理实施一次更严格的逻辑一致性检验。数字串处理
在中文文本中包含各种数字串需要作为一个单元处理,而它们不能期望出现在词典中,因为对能遇到的数字组合的数目是无限制的。数字处理过程识别出只含有数字词符的所有字串并建立包含任何相邻数字串的单一数据结构条目。消除多义性
图4显示出在第二邻近性处理之后仍保留了某些多义性。应该是“soft”(软)和“ware”(器件)还是应该为“software”(软件)?在这里正可以使用附加词典数据来解决这一问题。可以使用频率信息来判定它是两个词而不是一个词的可能性。对于某些应用,如IR/S,甚至可能希望对全部这三个词检索。数据结构使得有可能保留或消除这种多义性。
下面是图5的流程图中进行的步骤,这是用于实现本发明的方法的一系列步骤:
步骤1.从输入设备输入一个字符串并存贮于计算机内部存贮器。
步骤2.逐个字符地扫描内存贮器中存贮的字符串。造成一个数据结构,它包含能在词典中找到的每个子字符号的位置和长度。在数据结构中的每个这样的条目叫做“词”,并伴有一个状态指示,使得可能逻辑删除该词或恢复一个被删除词。
步骤3.第一邻近性处理删除任何前面没有词或后面没有词的那些词。就是说,如果一个词不在字串开头或者前面没有一个未被删除词,而且它不在该字符串未尾或者没有跟随一个未被删除词,那么这个词便被删除。重复这一处理过程直至再没有可被删除词为止。
步骤4.恢复处理识别出在输入字符串中没有被数据结构中删除词复盖的部分。实现这种识别的作法是造成一个输入字符串拷贝并从这一拷贝中去掉属于数据结构中未删除词的那些字符。然后恢复处理完成恢复字符串拷贝中任何乘余字符构成的被删除词。当字符串拷贝中的字符不能由恢复被删除词来复盖时,对该单个字符建立新的数据结构条目。当恢复一个词或建立一个新的数据结构条目时,便去掉字符串拷贝中的相应字符。重复这一处理过程直至字符串拷贝中的所有字符都被去掉为止。到这时,输入字符串中的所有字符被至少一个数据结构条目所复盖。
步骤5.数字处理将相邻的数值字符集合成单一数据结构条目。数据结构被扫描以找出只包含数值字符的数据结构条目。当发现几个这种相邻条目时,则将它们全部删除而恢复其中第一个条目,但其长度包括了所有这些相邻字符。
步骤6.这一个邻近性处理等效于步骤3。它保证在做成数据结构后没有任何词前面没有词或后面没有词。
步骤7.输出处理是选择数据结构条目供输出到打印设备、检索处理、或数据库处理。输出处理可以在选择数据结构条目时使用统计信息。例如,由于二字符中文词出现频率高于单字符词或有更多字符的词,因此当需要在数据结构中进行选择时输出处理将会给二字符词以优先。对于打印信息可能希望有这种选择。然而,对于数据库中检索信息,可能对数据结构中的全部词建立索引更有利于最大限度地检索数据。
图6的部分A和部分B给出被处理的两个字符串实例。图7的部分A和部分B给出被处理的另外两个实例。图8中的部分A和部分B又给出两个被处理的字符串实例。图6、7、8给出本发明的操作和实现的结果。所实现的发明提供了从连续中文文本中分离出中文词的一种改进的方法。
虽然已披露了本发明的一个具体实施例,但精通本门技艺的人们将会理解,对这一具体实施例可进行许多改变而不偏离本发明的精神和范围。

Claims (1)

1.一种在数据处理系统中从连续文本中分离出词的方法,其特征在于包括以下步骤:
将输入文本字符串读入一个数据处理系统中;
在上述系统中识别出输入字符串中的所有词;
在上述系统中执行第一邻近性处理,删除不与另一词相邻的词;
在上述系统中执行恢复处理,从而恢复出包含着被上述的第一邻近性处理所删除的未被引用字符的一个最长的词,形成一系形分离出来的词;以及输出带有指定的分隔符的经分离的词系列。
CNB991231104A 1993-03-03 1994-02-18 从连续的中文文本中分离出中文词的方法 Expired - Fee Related CN1168029C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/025,464 1993-03-03
US08/025,464 US5448474A (en) 1993-03-03 1993-03-03 Method for isolation of Chinese words from connected Chinese text

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN94101382A Division CN1095576C (zh) 1993-03-03 1994-02-18 使用数据结构从输入文本识别出词的方法

Publications (2)

Publication Number Publication Date
CN1254891A true CN1254891A (zh) 2000-05-31
CN1168029C CN1168029C (zh) 2004-09-22

Family

ID=21826213

Family Applications (2)

Application Number Title Priority Date Filing Date
CN94101382A Expired - Fee Related CN1095576C (zh) 1993-03-03 1994-02-18 使用数据结构从输入文本识别出词的方法
CNB991231104A Expired - Fee Related CN1168029C (zh) 1993-03-03 1994-02-18 从连续的中文文本中分离出中文词的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN94101382A Expired - Fee Related CN1095576C (zh) 1993-03-03 1994-02-18 使用数据结构从输入文本识别出词的方法

Country Status (5)

Country Link
US (1) US5448474A (zh)
JP (1) JP2741835B2 (zh)
KR (1) KR0122518B1 (zh)
CN (2) CN1095576C (zh)
TW (1) TW261677B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105282554A (zh) * 2014-07-07 2016-01-27 富士通株式会社 解码方法及解码装置

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760695B1 (en) 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
US6278967B1 (en) 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
WO1997040452A1 (en) * 1996-04-23 1997-10-30 Language Engineering Corporation Automated natural language translation
JPH07182465A (ja) * 1993-12-22 1995-07-21 Hitachi Ltd 文字認識方法
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US6470306B1 (en) 1996-04-23 2002-10-22 Logovista Corporation Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
WO1999041680A2 (en) * 1998-02-13 1999-08-19 Microsoft Corporation Segmentation of chinese text into words
US6640006B2 (en) * 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6175834B1 (en) 1998-06-24 2001-01-16 Microsoft Corporation Consistency checker for documents containing japanese text
US6694055B2 (en) 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
JP2000132560A (ja) 1998-10-23 2000-05-12 Matsushita Electric Ind Co Ltd 中国語テレテキスト処理方法及び装置
JP4302326B2 (ja) 1998-11-30 2009-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストの自動区分
US6496844B1 (en) 1998-12-15 2002-12-17 International Business Machines Corporation Method, system and computer program product for providing a user interface with alternative display language choices
US6460015B1 (en) 1998-12-15 2002-10-01 International Business Machines Corporation Method, system and computer program product for automatic character transliteration in a text string object
US7099876B1 (en) 1998-12-15 2006-08-29 International Business Machines Corporation Method, system and computer program product for storing transliteration and/or phonetic spelling information in a text string class
US6389386B1 (en) 1998-12-15 2002-05-14 International Business Machines Corporation Method, system and computer program product for sorting text strings
US6185524B1 (en) 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
US6731802B1 (en) 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
US6968308B1 (en) 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
US6513003B1 (en) 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
US7475009B2 (en) * 2001-06-11 2009-01-06 Hiroshi Ishikura Text input support system and method
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
US20070214189A1 (en) * 2006-03-10 2007-09-13 Motorola, Inc. System and method for consistency checking in documents
US8539349B1 (en) 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
US8428932B2 (en) * 2006-12-13 2013-04-23 Nathan S. Ross Connected text data stream comprising coordinate logic to identify and validate segmented words in the connected text
KR101638442B1 (ko) * 2009-11-24 2016-07-12 한국전자통신연구원 중국어 구문 분절 방법 및 장치
WO2011146934A2 (en) 2010-05-21 2011-11-24 Western Standard Publishing Company, Inc. Apparatus, system, and method for computer aided translation
JP5372110B2 (ja) * 2011-10-28 2013-12-18 シャープ株式会社 情報出力装置、情報出力方法、及びコンピュータプログラム
IL224482B (en) * 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
CN103679165B (zh) * 2013-12-31 2017-02-08 北京百度网讯科技有限公司 Ocr字符识别方法及系统
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
CN107168952B (zh) * 2017-05-15 2021-06-04 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4327421A (en) * 1976-05-13 1982-04-27 Transtech International Corporation Chinese printing system
US4679951A (en) * 1979-11-06 1987-07-14 Cornell Research Foundation, Inc. Electronic keyboard system and method for reproducing selected symbolic language characters
US4365235A (en) * 1980-12-31 1982-12-21 International Business Machines Corporation Chinese/Kanji on-line recognition system
US4484305A (en) * 1981-12-14 1984-11-20 Paul Ho Phonetic multilingual word processor
JPH0724055B2 (ja) * 1984-07-31 1995-03-15 株式会社日立製作所 単語分割処理方法
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US4742516A (en) * 1985-01-14 1988-05-03 Sumitomo Electric Industries, Ltd. Method for transmitting voice information
KR880001588Y1 (ko) * 1985-02-18 1988-05-04 최영수 단어 암기 용구
JPS61255468A (ja) * 1985-05-08 1986-11-13 Toshiba Corp 機械翻訳処理装置
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
US4669901A (en) * 1985-09-03 1987-06-02 Feng I Ming Keyboard device for inputting oriental characters by touch
GB8629908D0 (en) * 1986-12-15 1987-01-28 Kemano Ltd Words & characters computer input device
JPS63284676A (ja) * 1987-05-16 1988-11-21 Ricoh Co Ltd 文字列処理装置
US5079702A (en) * 1990-03-15 1992-01-07 Paul Ho Phonetic multi-lingual word processor
JPH04299767A (ja) * 1991-03-28 1992-10-22 Ricoh Co Ltd 形態素解析装置
US5161245A (en) * 1991-05-01 1992-11-03 Apple Computer, Inc. Pattern recognition system having inter-pattern spacing correction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105282554A (zh) * 2014-07-07 2016-01-27 富士通株式会社 解码方法及解码装置

Also Published As

Publication number Publication date
CN1168029C (zh) 2004-09-22
US5448474A (en) 1995-09-05
JP2741835B2 (ja) 1998-04-22
KR0122518B1 (ko) 1997-11-20
KR940022314A (ko) 1994-10-20
CN1100542A (zh) 1995-03-22
TW261677B (zh) 1995-11-01
JPH06325076A (ja) 1994-11-25
CN1095576C (zh) 2002-12-04

Similar Documents

Publication Publication Date Title
CN1168029C (zh) 从连续的中文文本中分离出中文词的方法
NL194809C (nl) Werkwijze voor het identificeren, terugvinden en sorteren van documenten.
JP2726568B2 (ja) 文字認識方法及び装置
Angell et al. Automatic spelling correction using a trigram similarity measure
US6917709B2 (en) Automated search on cursive records not having an ASCII index
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US5752051A (en) Language-independent method of generating index terms
US7424421B2 (en) Word collection method and system for use in word-breaking
US8170867B2 (en) System for extracting information from a natural language text
US20070203885A1 (en) Document Classification Method, and Computer Readable Record Medium Having Program for Executing Document Classification Method By Computer
US20030083862A1 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
US20080267503A1 (en) Increasing Retrieval Performance of Images by Providing Relevance Feedback on Word Images Contained in the Images
Kim et al. Automated labeling in document images
CN1106620C (zh) 信息处理方法和设备
Rowe et al. Automatic caption localization for photographs on World Wide Web pages
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
Hayes Bit lit
CN1464430A (zh) 区分亚洲语言写入系统中组织名称的系统
Doermann The retrieval of document images: a brief survey
Ringlstetter et al. Adaptive text correction with Web-crawled domain-dependent dictionaries
Alwakid et al. Towards improved saudi dialectal Arabic stemming
CN1280757C (zh) 自动搜寻文件中关键词的方法与系统
Marukawa et al. A High Speed Word Matching Algorithm for Handwritten Chinese Character Recognition.
Boucham et al. A language independent approach to multilingual document representation including Arabic
Kelledy et al. TREC-5 Experiments at Dublin City University: Query Space Reduction, Spanish Stemming and Character Shape Coding

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040922