CN1340804A

CN1340804A - 自动新词提取方法和系统

Info

Publication number: CN1340804A
Application number: CN00126471A
Authority: CN
Inventors: 沈丽琴; 施勤; 柴海新
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-08-30
Filing date: 2000-08-30
Publication date: 2002-03-20
Anticipated expiration: 2020-08-30
Also published as: US20020077816A1; US7478036B2; TW490654B; MY133948A; CN1226717C

Abstract

一种自动提取新词的方法和系统,包括步骤:对原始语料库进行分段,成为分段的语料库;将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计;过滤掉假词,输出新词。该方法可以高效的从大量语料中自动提取新词。

Description

自动新词提取方法和系统

本发明涉及语言处理技术领域，尤其涉及从语料库中提取新词的方法。

在很多语言处理技术中，词是最基本的。例如，具有不同属性的词汇表是自然语言理解、机器翻译、自动撰写摘要等的基础。为了检索信息，总是用词作为搜索单位来减少检索结果的冗余。在语音识别中，也通常把词作为最低层次的语言信息，并基于词建立语言模型，以解决单字层次上的声觉不确定性。然而，在有些语言例如中文、日文的书面文字中，在词之间不会留有空格，并且对词的构成也没有明确的定义。例如，有些人可能认为“吃东西”是一个词，而另一些人则认为它由两个词“吃”和“东西”组成。一般说来，中文词由一个中文字或多个中文字组成，他们是具有特定意义的基本单位。已经有很多人工收集的词汇表，它们覆盖了不同领域的不同范围。然而要收集这样的词汇表是不容易的。而且，语言在不断地发展，新词也在不断地出现。例如，“互联网”在若干年以前不是一个词，但现在它却作为一个词在广泛地使用。因此，人们迫切需要一种从给定的大量语料中自动提取新词的方法。本发明的目的就是提供一种能够自动从语料库中提取新词的方法。

为了实现以上目的，本发明提供了一种自动提取新词的方法，包括步骤：对原始语料库进行分段，成为分段的语料库；将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计；过滤掉假词，输出新词。

为了实现以上目的，本发明还提供了一种自动提取新词的系统，用于将原始语料库分成分段的语料库的装置；用于将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计的装置；以及用于过滤掉假词，输出新词的装置。

图1是本发明的自动新词提取系统的基本原理图。如图1所示，本发明的系统包括一个分段模块1，采用广泛使用的最大匹配方法或统计分段方法或下面将要描述的本发明的分段方法将原始语料库分成单位序列形成分段语料库；一个GAST模块2，利用上面的分段语料库构建一个GAST并将各子串在原始语料库中出现的次数进行统计；一个新词提取模块3，根据滤波统计和滤波规则滤除子串中的伪词，从而最后输出新词。各模块的详细操作将在下面分别详细描述。

下面描述如何根据本发明构建通用原子后缀树(GAST)。

首先定义字符串S＝u1，u2…uN，其中u1是S的单位串。定义suffix_i＝u_i，u_i+1…u_N(1＜＝i＜＝N)为S的后缀串。一个字符串S的原子前缀树(AST)是带边和叶子的树，其中每个叶子都与对应suffix_i的下标i(1＜＝i＜＝N)相关联。每条边上都标有字符，从而每条边上只有一个单位串并且这些被标记的边沿从根到下标为i的叶子的路径串接起来形成suffixi。图2中示出了串ababc的AST的例子。关于AST的构建在由LucasChi Kwong Hui发表在1992年的Proceedings of the 2^nd Symposium onCombinatorial Pattern Marching第230到243页的论文Color SetSize Problem with Application to String Matching中有详细描叙，这里就不再详述。从AST的结构中，我们可以得到AST的每个节点的信息，包括：

当前节点(例如：节点6)

{

路径(将所有被标志的边沿从根到节点i的路径串接起来)；(节点6的路径是“ab”)

路径计数(路径在串中出现的次数)；(“ab”在串ababc中出现两次)

子节点节点i，…，节点j；(节点8和节点9)

父节点节点f；(节点3)

}

串S(S的长度＝N)的AST可以在一个0(N²)的空间中建立。对那些计数为n的节点，意味着在建立AST时一共被使用了n次。如果忽略因节点重复使用而节省下的空间，AST的大小是：N(N＋1)/2。实际上，这是所有节点的计数和。

AST的原理可以被扩展到去存储多于一个的输入串。该扩展被称为通用原子后缀树(GAST)。如果有M个长度为N1的串(1＜＝l＜＝M)，则GAST的节点数目(所需的空间)为：

Σ_{l = 1}^{M} \frac{N_{1} (N_{1} + 1)}{2}

图3示出了包括串“abca”“bcab”“acbb”的GAST的例子。从GAST的树形结构中，我们很容易得到所有子串的列表以及它们在语料库中的出现次数。

下面描述分段边界(SB)模板、新词模板和GAST所需空间的压缩。

虽然GAST是是一种能够简洁地表示串的很好的数据结构，将它实际应用于新词提取时还是有一些问题。对于一个很大的语料库，建立相应的GAST结构所需空间太大，效率不高甚至于不可行的。

通常我们需要处理几百万到几十亿个字的语料库，从中提取某一新领域中的新词。如果将它们作为一个串输入到AST，由于需要的空间太大，要构建这样的一个AST是不实际的。

通过定义SB模板和新词模板，我们能够将很长的输入串分成较小的部分，从而能够显著地降低空间需求以构建GAST和实际实现自动新词提取。

如上所述，对于长度为N的串S的AST的大小为

。如果将串分成k个相等的部分，对于具有k个输入串的GAST，其所需的空间为

。节省下来的空间为

。例如，如果一个10个符号长的串被分成两个相等的部分，节省下来的GAST节点有25个。如果一个20个字符长的串被分成了4个相等的部分，则节省下来的节点有150个。

由于目标新词不可能很长，因此正确定义SB来将过长串分成短串而又不丢失很有可能的新词是很关键的。

下面是一些SB模板(SBP)的定义：

SBP A：标点符号自然是SB；

SBP B：在语料库中的阿拉伯数字和字母是另一类SB。

对于另外的SBP，我们考虑两种情况：

1、以基本的公共词汇表为基础，定义新词模板对子串进行限制。

尽管有很多领域并且每个领域都有自己的专门词汇表，也不管语言的发展有多么迅速，都有一些基本词汇是在各个领域中一直都使用着，例如“因为”，“生活”等。我们可以首先利用公共词汇的词汇表来将语料库分段。分段的语料库将由单字词和多字词组成，例如，

代表着未来生活方式的互联网技术将不再会将弱视和失明者

拒之门外。 (1)其分段结果为

代表着未来生活方式的互联网技术将不再会

将弱视和失明者拒之门外。 (2)以w表示多字词，以c表示单字词，上述句子可以表示为，

w₁c₁w₂w₃w₄c₂c₃c₄c₅w₅c₆w₆c₇c₈w₇c₉w₈c₁₀c₁₁c₁₂w₉其中，w₃表示“生活”，c₄表示“联”，以此类推。定义新词模板(NWP)如下：

NWP A：c_ic_i＋1…c_j，表示所有由单字词组成的串。例如上面句子中的“互联网”。

NWP B：w_ic_k或者c_iw_k或者w_ic_kw_i＋1或者c_iw_kc_i＋1等等，表示由单字和多字词组合而成的串例如，上面句子中的“失明者”。

对于模板w_iw_i＋1，表示多字词＋多字词，他们通常称为复合词，一般来讲不会是要找的新词。因此，在多字词之间，我们可以设定SB。我们称这样的模板为SBP C。

根据上面的原理分析上面的句子。因为“未来”、“生活”和“方式”都属于已知的多字词，所以“未来”和“生活”的组合是多字词＋多字词，同样，“生活”和“方式”的组合也是多字词＋多字词，所以可以在“未来”和“生活”及“生活”和“方式”之间设定SBP C。又因为“生活”是已知的公共词汇，所以可以忽略“生活”这个词并将两个SBP C合并。

我们定义“|”来表示SB，分析后的句子(1)看起来是：

代表着未来|方式的互联网技术将不再将弱视和失明者拒之门外|

这表示有两个串：

(1) 代表着未来

(2) 方式的互联网技术将不再将弱视和失明者拒之门外而不是整个句子(1)将会被输入来构建GAST。

依据同样的准则，可以对这类模板的各种形式根据需要进行进一步细化，以减少GAST所需的空间。其中SBP和NWP的具体定义可以根据不同的需要随时增加或者修改。例如，在其它实施方式中，可以认为只有两个字的多字词加只有两个字的多字词不属于复合词，有可能是新词。根据词的构成分析，本领域的普通技术人员显然可以设计出各种另外的新词模板。这种用SBP将原始语料中的句子分割成短串的方法也可以用于其他语言处理的领域。

如果我们使用30,000个词作为基本词汇表，当我们分析有3497个词的信息技术的特定领域词汇时，我们得到了990个NWP A词和2507个NWP B词。

利用上面定义的SBP，我们对信息技术领域的一百万大小的语料库进行了统计，其结果如表1所示。

从表1可以看出，利用SBP A，B和C，GAST节点的数目，即构建GAST所需空间的大小显著减小。

2、不用公共词汇表。直接从单字词开始新词提取。

这种情况可以看成是1的特例，其中的公共词汇表仅由单字词组成。在这种情况下，SBP A和B可以被用来分割语料库。

我们可以根据所需词长的上限来进一步削减GAST。通常一个长词可以被分割成几个短词，并且对于词汇，词长有一个上限Nup，例如Nup＝5或7。因此，对于那些路径长度大于Nup的节点，在构建AST时可以把它们剪除。从而对于串长度为N的AST的大小将从1＋2＋3＋…＋N减少到

利用该方法，对于1M大小的IT语料库，其所需的空间如表1的行5所示。

与行2相比，节省的空间是110，162个节点。

0.基本词汇(词)	SBP	SB的数目	串的平均长度	GAST节点的数目
0.基本词汇(词)	SBP	SB的数目	串的平均长度	GAST节点的数目	1.所有中国字	A	297,68	12.46	2,496,219
2.所有中国字	A＋B	38,063	8.22	1,442,366	1.所有中国字	A	297,68	12.46	2,496,219
2.所有中国字	A＋B	38,063	8.22	1,442,366	3.60K	A＋B＋C	31,921	4.52	398,220
4.30K	A＋B＋C	31,515	4.61	407,522	3.60K	A＋B＋C	31,921	4.52	398,220
4.30K	A＋B＋C	31,515	4.61	407,522	5.所有中国字	A＋B&Nup＝7	38,063	8.22	1,332,204

表1 IT领域中1M大小的语料库的统计分析

利用上面的机制，为自动新词提取而构建GAST所需的空间是可以实现/控制的。

构建好GAST后，就可以如下所述进行新词的提取了。

词的基本定义是那些经常在一起使用的子串。因此，每个节点路径的计数是判定该路径是否是一个新词的基本测量。如果我们将“新词”定义为一个在语料库中至少出现过K次的连续字符串，其中具体的K值可以根据选择新词的需要自行设定，例如设定K＝5，则自动新词提取的基本原理是用上面描述的方法构建一个相应的GAST，并对其原始路径计数进行修正，然后对于该树内的每一个节点，如果其修正过的节点计数大于等于K，则其对应的相应子串是一个所定义的新词。本领域的技术人员将知道如何根据特定的领域，特定的原始语料库的大小等具体因素通过试验或分析来设定合适的阈值。

因为GAST的构建方式和特性并不能保证所有获得的新词都是真正合理有用的，所以在本发明的实施方式中还可以采用其它技术来对新词列表进行修剪。这些技术如下所述。

A.限制功能词

在中文或日文中，有一些词是经常使用的，如“的”，“也”或“了”。这些辅助词通常不能成为一个新词的结尾或者开头部分，不管它们的访问计数有多大。

B.选取较长的词

在GAST中，如果一个节点的计数等于其所有子节点的计数和，同时其所有子节点都已输出，则意味着该节点所对应的相应子串在给定的语料库中几乎从不单独出现，该子串即使其计数大于等于K也不认为是一个新词。因为有些词可能单独出现，也可能与别的更长的词一起出现。所以在具体算法中可以每当输出一个较长的词时，将该较长的词所对应的串的子串所对应的所有节点的计数值减去该较长词节点所对应的计数值。若这些子串所对应的节点计数最后还大于阈值，则这些子串除了与较长的子串所对应的词出现外，本身还可能作为一个词出现。

方法A和方法B可以有效地保证删除的词不是本发明感兴趣的新词。

C.还可以根据先验概率来建立过滤规则。例如，如果有一个从标准语料库导出的先验统计语言模型，从中我们得到了Ps(w1…wn)，它是新提取的词NW＝w1…wn出现的概率，我们可以很容易从当前语料库中计算出Pc(w1…wn)。如果Pc(w1…wn)/Ps(w1…wn)的值较大，则意味着NW在当前语料库中出现的概率比在标准语料库中出现的概率相对较高，它是一个该领域内的真正新词。否则，意味着NW的组合在标准领域中已经很普通，所以不是一个新词。

图4示出了根据本发明的新词提取方法的一种实现方式。如图4所示，流程从方框401开始，构建好GAST，并对GAST按宽度优先遍历的节点序列排序N1，N2，…Nm。例如，如图3所示，排序方式为节点N1为1/5，N2为2/4，N3为3/3，…N17为17/1。接着到达方框402，设定一个控制变量s＝m，在图3的情况下m＝17，所以s＝17。接着到达方框403，看节点Ns的计数值是否大于等于阈值k。在图3的例子中，计数值等于1，小于阈值(假设阈值大于1，这是通常的)。所以流程到达方框410，将控制变量s的值减1，即打算对下一个节点进行处理。接着到达方框411，判断s是否大于0，即判断是否还有节点待处理。若判断结果为否，则流程到达方框412结束。若方框411的判断为是，则流程又到达方框403进行处理，判断该节点的计数值是否大于阈值。假设这次计数值大于阈值，则流程到达方框404，判断该节点是否是一个功能词。若判断结果为是，则流程到达方框410进行上面已经描述的处理。若方框404的判断为否，则到达方框407，取出该节点对应的路径并作为新词输出。输出新词后，流程到达方框408，对该新词中的任何一个子串所对应的节点的计数值减去该新词所对应的节点的计数值并写回原处，如方框409所示。例如，如果在方框407所输出的新词为“日新月异”，则对“日”，“日新”，“日新月”，“新”，“新月”，“新月异”，“月”，“月异”所对应的节点的计数值都减去节点“日新月异”所对应的计数值并写回原处。在方框405判断是否所有的子串已经处理完毕，若所有的子串处理完毕则到达方框410接着上面描述的处理。

经过以上的处理，我们可以得到一个新词列表。显然上面的流程在具体实现中可以有各种变形。例如，本实施例中是把一个单字也当成可能的新词。在其它的实施例中，如果总是不把单字当成一个新词，则处理流程可以简化。删除单字功能词的步骤也可以不要。

本领域的技术人员将会明白，可以对上述的实施方式进行各种改进而不会偏离本发明的范围。例如，如果当前面所述的功能词刚好出现在标点符号的前面或后面时，因为功能词一般不会是词头或词尾，所以可以与标点符号一起当成分段符。利用公共词汇表进行分割可以与限定子串长度进行分割结合使用。

Claims

1、一种自动提取新词的方法，包括步骤：

对原始语料库进行分段，成为分段的语料库；

将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计；

过滤掉假词，输出新词。

2、如权利要求1的方法，其特征在于：

对原始语料库进行分段的步骤包括利用标点符号或阿拉伯数字及字母字符串或新词模板进行分段的步骤。

3、如权利要求1或2的方法，其特征在于：对原始语料库进行分段的步骤还包括利用公共词汇表进行分割的步骤。

4、如权利要求1或2的方法，其特征在于：

对分段的语料库进行分割及统计的步骤包括通过构建GAST结构进行分割及统计的步骤。

5、如权利要求4的方法，其特征在于：构建GAST结构的步骤还包括限定子串的长度的步骤。

6、如权利要求1，2，4或5的方法，其特征在于：滤除假词的步骤包括：

滤除功能词；

滤除那些几乎总是与更长的子串一起出现的子串；以及

滤除其出现次数少于预定阈值的子串。

7、如权利要求1，2，4或5的方法，其特征在于：对原始语料库进行分段的步骤还包括将预先识别出的功能词作为分段符进行处理的步骤。

8、如权利要求3的方法，其特征在于：对原始语料库进行分段的步骤还包括将预先识别出的功能词作为分段符进行处理的步骤。

9、如权利要求3的方法，其特征在于：滤除假词的步骤包括：

滤除功能词；

滤除那些几乎总是与更长的子串一起出现的子串；以及

滤除其出现次数少于预定阈值的子串。

10、一种自动提取新词的系统，包括：

用于将原始语料库分成分段的语料库的装置；

用于将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计的装置；以及

用于过滤掉假词，输出新词的装置。

11、如权利要求10的系统，其特征在于：

用于对原始语料库进行分段的装置包括利用标点符号或阿拉伯数字及字母字符串或新词模板进行分段的装置。

12、如权利要求10或11的系统，其特征在于：对原始语料库进行分段的装置还包括利用公共词汇表进行分割的装置。

13、如权利要求10或11的系统，其特征在于：

对分段的语料库进行分割及统计的装置包括通过构建GAST结构进行分割及统计的装置。

14、如权利要求13的系统，其特征在于：构建GAST结构的装置还包括用于限定子串的长度的装置。

15、如权利要求10，11，13，14的系统，其特征在于：滤除假词的装置包括：

滤除功能词的装置；

滤除那些几乎总是与更长的子串一起出现的子串的装置；以及

滤除其出现次数少于预定阈值的子串的装置。

16、如权利要求10，11，13或14的系统，其特征在于：对原始语料库进行分段的装置还包括将预先识别出的功能词作为分段符进行处理的装置。

17、如权利要求12的系统，其特征在于：对原始语料库进行分段的装置还包括将预先识别出的功能词作为分段符进行处理的装置。

18、如权利要求12的系统，其特征在于：滤除假词的装置包括：

滤除功能词的装置；

滤除那些几乎总是与更长的子串一起出现的子串装置；以及

滤除其出现次数少于预定阈值的子串装置。