CN1340804A - 自动新词提取方法和系统 - Google Patents

自动新词提取方法和系统 Download PDF

Info

Publication number
CN1340804A
CN1340804A CN00126471A CN00126471A CN1340804A CN 1340804 A CN1340804 A CN 1340804A CN 00126471 A CN00126471 A CN 00126471A CN 00126471 A CN00126471 A CN 00126471A CN 1340804 A CN1340804 A CN 1340804A
Authority
CN
China
Prior art keywords
corpus
segmentation
substring
filtering
neologisms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00126471A
Other languages
English (en)
Other versions
CN1226717C (zh
Inventor
沈丽琴
施勤
柴海新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB001264710A priority Critical patent/CN1226717C/zh
Priority to TW089120663A priority patent/TW490654B/zh
Priority to MYPI20013742 priority patent/MY133948A/en
Priority to US09/944,332 priority patent/US7478036B2/en
Publication of CN1340804A publication Critical patent/CN1340804A/zh
Application granted granted Critical
Publication of CN1226717C publication Critical patent/CN1226717C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

一种自动提取新词的方法和系统,包括步骤:对原始语料库进行分段,成为分段的语料库;将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计;过滤掉假词,输出新词。该方法可以高效的从大量语料中自动提取新词。

Description

自动新词提取方法和系统
本发明涉及语言处理技术领域,尤其涉及从语料库中提取新词的方法。
在很多语言处理技术中,词是最基本的。例如,具有不同属性的词汇表是自然语言理解、机器翻译、自动撰写摘要等的基础。为了检索信息,总是用词作为搜索单位来减少检索结果的冗余。在语音识别中,也通常把词作为最低层次的语言信息,并基于词建立语言模型,以解决单字层次上的声觉不确定性。然而,在有些语言例如中文、日文的书面文字中,在词之间不会留有空格,并且对词的构成也没有明确的定义。例如,有些人可能认为“吃东西”是一个词,而另一些人则认为它由两个词“吃”和“东西”组成。一般说来,中文词由一个中文字或多个中文字组成,他们是具有特定意义的基本单位。已经有很多人工收集的词汇表,它们覆盖了不同领域的不同范围。然而要收集这样的词汇表是不容易的。而且,语言在不断地发展,新词也在不断地出现。例如,“互联网”在若干年以前不是一个词,但现在它却作为一个词在广泛地使用。因此,人们迫切需要一种从给定的大量语料中自动提取新词的方法。本发明的目的就是提供一种能够自动从语料库中提取新词的方法。
为了实现以上目的,本发明提供了一种自动提取新词的方法,包括步骤:对原始语料库进行分段,成为分段的语料库;将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计;过滤掉假词,输出新词。
为了实现以上目的,本发明还提供了一种自动提取新词的系统,用于将原始语料库分成分段的语料库的装置;用于将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计的装置;以及用于过滤掉假词,输出新词的装置。
图1是本发明的自动新词提取系统的基本原理图。如图1所示,本发明的系统包括一个分段模块1,采用广泛使用的最大匹配方法或统计分段方法或下面将要描述的本发明的分段方法将原始语料库分成单位序列形成分段语料库;一个GAST模块2,利用上面的分段语料库构建一个GAST并将各子串在原始语料库中出现的次数进行统计;一个新词提取模块3,根据滤波统计和滤波规则滤除子串中的伪词,从而最后输出新词。各模块的详细操作将在下面分别详细描述。
下面描述如何根据本发明构建通用原子后缀树(GAST)。
首先定义字符串S=u1,u2…uN,其中u1是S的单位串。定义suffixi=ui,ui+1…uN(1<=i<=N)为S的后缀串。一个字符串S的原子前缀树(AST)是带边和叶子的树,其中每个叶子都与对应suffixi的下标i(1<=i<=N)相关联。每条边上都标有字符,从而每条边上只有一个单位串并且这些被标记的边沿从根到下标为i的叶子的路径串接起来形成suffixi。图2中示出了串ababc的AST的例子。关于AST的构建在由LucasChi Kwong Hui发表在1992年的Proceedings of the 2nd Symposium onCombinatorial Pattern Marching第230到243页的论文Color SetSize Problem with Application to String Matching中有详细描叙,这里就不再详述。从AST的结构中,我们可以得到AST的每个节点的信息,包括:
当前节点(例如:节点6)
{
路径(将所有被标志的边沿从根到节点i的路径串接起来);(节点6的路径是“ab”)
路径计数(路径在串中出现的次数);(“ab”在串ababc中出现两次)
子节点  节点i,…,节点j;(节点8和节点9)
父节点  节点f;(节点3)
}
串S(S的长度=N)的AST可以在一个0(N2)的空间中建立。对那些计数为n的节点,意味着在建立AST时一共被使用了n次。如果忽略因节点重复使用而节省下的空间,AST的大小是:N(N+1)/2。实际上,这是所有节点的计数和。
AST的原理可以被扩展到去存储多于一个的输入串。该扩展被称为通用原子后缀树(GAST)。如果有M个长度为N1的串(1<=l<=M),则GAST的节点数目(所需的空间)为: Σ l = 1 M N 1 ( N 1 + 1 ) 2
图3示出了包括串“abca”“bcab”“acbb”的GAST的例子。从GAST的树形结构中,我们很容易得到所有子串的列表以及它们在语料库中的出现次数。
下面描述分段边界(SB)模板、新词模板和GAST所需空间的压缩。
虽然GAST是是一种能够简洁地表示串的很好的数据结构,将它实际应用于新词提取时还是有一些问题。对于一个很大的语料库,建立相应的GAST结构所需空间太大,效率不高甚至于不可行的。
通常我们需要处理几百万到几十亿个字的语料库,从中提取某一新领域中的新词。如果将它们作为一个串输入到AST,由于需要的空间太大,要构建这样的一个AST是不实际的。
通过定义SB模板和新词模板,我们能够将很长的输入串分成较小的部分,从而能够显著地降低空间需求以构建GAST和实际实现自动新词提取。
如上所述,对于长度为N的串S的AST的大小为
Figure A0012647100072
。如果将串分成k个相等的部分,对于具有k个输入串的GAST,其所需的空间为
Figure A0012647100073
。节省下来的空间为
Figure A0012647100074
。例如,如果一个10个符号长的串被分成两个相等的部分,节省下来的GAST节点有25个。如果一个20个字符长的串被分成了4个相等的部分,则节省下来的节点有150个。
由于目标新词不可能很长,因此正确定义SB来将过长串分成短串而又不丢失很有可能的新词是很关键的。
下面是一些SB模板(SBP)的定义:
SBP A:标点符号自然是SB;
SBP B:在语料库中的阿拉伯数字和字母是另一类SB。
对于另外的SBP,我们考虑两种情况:
1、以基本的公共词汇表为基础,定义新词模板对子串进行限制。
尽管有很多领域并且每个领域都有自己的专门词汇表,也不管语言的发展有多么迅速,都有一些基本词汇是在各个领域中一直都使用着,例如“因为”,“生活”等。我们可以首先利用公共词汇的词汇表来将语料库分段。分段的语料库将由单字词和多字词组成,例如,
代表着未来生活方式的互联网技术将不再会将弱视和失明者
拒之门外。    (1)其分段结果为
代表着未来生活方式的互联网技术将不再会
将弱视和失明者拒之门外。    (2)以w表示多字词,以c表示单字词,上述句子可以表示为,
w1c1w2w3w4c2c3c4c5w5c6w6c7c8w7c9w8c10c11c12w9其中,w3表示“生活”,c4表示“联”,以此类推。定义新词模板(NWP)如下:
NWP A:cici+1…cj,表示所有由单字词组成的串。例如上面句子中的“互联网”。
NWP B:wick或者ciwk或者wickwi+1或者ciwkci+1等等,表示由单字和多字词组合而成的串例如,上面句子中的“失明者”。
对于模板wiwi+1,表示多字词+多字词,他们通常称为复合词,一般来讲不会是要找的新词。因此,在多字词之间,我们可以设定SB。我们称这样的模板为SBP C。
根据上面的原理分析上面的句子。因为“未来”、“生活”和“方式”都属于已知的多字词,所以“未来”和“生活”的组合是多字词+多字词,同样,“生活”和“方式”的组合也是多字词+多字词,所以可以在“未来”和“生活”及“生活”和“方式”之间设定SBP C。又因为“生活”是已知的公共词汇,所以可以忽略“生活”这个词并将两个SBP C合并。
我们定义“|”来表示SB,分析后的句子(1)看起来是:
代表着未来|方式的互联网技术将不再将弱视和失明者拒之门外|
这表示有两个串:
(1)  代表着未来
(2)  方式的互联网技术将不再将弱视和失明者拒之门外而不是整个句子(1)将会被输入来构建GAST。
依据同样的准则,可以对这类模板的各种形式根据需要进行进一步细化,以减少GAST所需的空间。其中SBP和NWP的具体定义可以根据不同的需要随时增加或者修改。例如,在其它实施方式中,可以认为只有两个字的多字词加只有两个字的多字词不属于复合词,有可能是新词。根据词的构成分析,本领域的普通技术人员显然可以设计出各种另外的新词模板。这种用SBP将原始语料中的句子分割成短串的方法也可以用于其他语言处理的领域。
如果我们使用30,000个词作为基本词汇表,当我们分析有3497个词的信息技术的特定领域词汇时,我们得到了990个NWP A词和2507个NWP B词。
利用上面定义的SBP,我们对信息技术领域的一百万大小的语料库进行了统计,其结果如表1所示。
从表1可以看出,利用SBP A,B和C,GAST节点的数目,即构建GAST所需空间的大小显著减小。
2、不用公共词汇表。直接从单字词开始新词提取。
这种情况可以看成是1的特例,其中的公共词汇表仅由单字词组成。在这种情况下,SBP A和B可以被用来分割语料库。
我们可以根据所需词长的上限来进一步削减GAST。通常一个长词可以被分割成几个短词,并且对于词汇,词长有一个上限Nup,例如Nup=5或7。因此,对于那些路径长度大于Nup的节点,在构建AST时可以把它们剪除。从而对于串长度为N的AST的大小将从1+2+3+…+N减少到
Figure A0012647100101
利用该方法,对于1M大小的IT语料库,其所需的空间如表1的行5所示。
与行2相比,节省的空间是110,162个节点。
0.基本词汇(词) SBP  SB的数目 串的平均长度 GAST节点的数目
1.所有中国字 A  297,68  12.46  2,496,219
2.所有中国字 A+B  38,063  8.22  1,442,366
3.60K A+B+C  31,921  4.52  398,220
4.30K A+B+C  31,515  4.61  407,522
5.所有中国字 A+B&Nup=7  38,063  8.22  1,332,204
表1    IT领域中1M大小的语料库的统计分析
利用上面的机制,为自动新词提取而构建GAST所需的空间是可以实现/控制的。
构建好GAST后,就可以如下所述进行新词的提取了。
词的基本定义是那些经常在一起使用的子串。因此,每个节点路径的计数是判定该路径是否是一个新词的基本测量。如果我们将“新词”定义为一个在语料库中至少出现过K次的连续字符串,其中具体的K值可以根据选择新词的需要自行设定,例如设定K=5,则自动新词提取的基本原理是用上面描述的方法构建一个相应的GAST,并对其原始路径计数进行修正,然后对于该树内的每一个节点,如果其修正过的节点计数大于等于K,则其对应的相应子串是一个所定义的新词。本领域的技术人员将知道如何根据特定的领域,特定的原始语料库的大小等具体因素通过试验或分析来设定合适的阈值。
因为GAST的构建方式和特性并不能保证所有获得的新词都是真正合理有用的,所以在本发明的实施方式中还可以采用其它技术来对新词列表进行修剪。这些技术如下所述。
A.限制功能词
在中文或日文中,有一些词是经常使用的,如“的”,“也”或“了”。这些辅助词通常不能成为一个新词的结尾或者开头部分,不管它们的访问计数有多大。
B.选取较长的词
在GAST中,如果一个节点的计数等于其所有子节点的计数和,同时其所有子节点都已输出,则意味着该节点所对应的相应子串在给定的语料库中几乎从不单独出现,该子串即使其计数大于等于K也不认为是一个新词。因为有些词可能单独出现,也可能与别的更长的词一起出现。所以在具体算法中可以每当输出一个较长的词时,将该较长的词所对应的串的子串所对应的所有节点的计数值减去该较长词节点所对应的计数值。若这些子串所对应的节点计数最后还大于阈值,则这些子串除了与较长的子串所对应的词出现外,本身还可能作为一个词出现。
方法A和方法B可以有效地保证删除的词不是本发明感兴趣的新词。
C.还可以根据先验概率来建立过滤规则。例如,如果有一个从标准语料库导出的先验统计语言模型,从中我们得到了Ps(w1…wn),它是新提取的词NW=w1…wn出现的概率,我们可以很容易从当前语料库中计算出Pc(w1…wn)。如果Pc(w1…wn)/Ps(w1…wn)的值较大,则意味着NW在当前语料库中出现的概率比在标准语料库中出现的概率相对较高,它是一个该领域内的真正新词。否则,意味着NW的组合在标准领域中已经很普通,所以不是一个新词。
图4示出了根据本发明的新词提取方法的一种实现方式。如图4所示,流程从方框401开始,构建好GAST,并对GAST按宽度优先遍历的节点序列排序N1,N2,…Nm。例如,如图3所示,排序方式为节点N1为1/5,N2为2/4,N3为3/3,…N17为17/1。接着到达方框402,设定一个控制变量s=m,在图3的情况下m=17,所以s=17。接着到达方框403,看节点Ns的计数值是否大于等于阈值k。在图3的例子中,计数值等于1,小于阈值(假设阈值大于1,这是通常的)。所以流程到达方框410,将控制变量s的值减1,即打算对下一个节点进行处理。接着到达方框411,判断s是否大于0,即判断是否还有节点待处理。若判断结果为否,则流程到达方框412结束。若方框411的判断为是,则流程又到达方框403进行处理,判断该节点的计数值是否大于阈值。假设这次计数值大于阈值,则流程到达方框404,判断该节点是否是一个功能词。若判断结果为是,则流程到达方框410进行上面已经描述的处理。若方框404的判断为否,则到达方框407,取出该节点对应的路径并作为新词输出。输出新词后,流程到达方框408,对该新词中的任何一个子串所对应的节点的计数值减去该新词所对应的节点的计数值并写回原处,如方框409所示。例如,如果在方框407所输出的新词为“日新月异”,则对“日”,“日新”,“日新月”,“新”,“新月”,“新月异”,“月”,“月异”所对应的节点的计数值都减去节点“日新月异”所对应的计数值并写回原处。在方框405判断是否所有的子串已经处理完毕,若所有的子串处理完毕则到达方框410接着上面描述的处理。
经过以上的处理,我们可以得到一个新词列表。显然上面的流程在具体实现中可以有各种变形。例如,本实施例中是把一个单字也当成可能的新词。在其它的实施例中,如果总是不把单字当成一个新词,则处理流程可以简化。删除单字功能词的步骤也可以不要。
本领域的技术人员将会明白,可以对上述的实施方式进行各种改进而不会偏离本发明的范围。例如,如果当前面所述的功能词刚好出现在标点符号的前面或后面时,因为功能词一般不会是词头或词尾,所以可以与标点符号一起当成分段符。利用公共词汇表进行分割可以与限定子串长度进行分割结合使用。

Claims (18)

1、一种自动提取新词的方法,包括步骤:
对原始语料库进行分段,成为分段的语料库;
将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计;
过滤掉假词,输出新词。
2、如权利要求1的方法,其特征在于:
对原始语料库进行分段的步骤包括利用标点符号或阿拉伯数字及字母字符串或新词模板进行分段的步骤。
3、如权利要求1或2的方法,其特征在于:对原始语料库进行分段的步骤还包括利用公共词汇表进行分割的步骤。
4、如权利要求1或2的方法,其特征在于:
对分段的语料库进行分割及统计的步骤包括通过构建GAST结构进行分割及统计的步骤。
5、如权利要求4的方法,其特征在于:构建GAST结构的步骤还包括限定子串的长度的步骤。
6、如权利要求1,2,4或5的方法,其特征在于:滤除假词的步骤包括:
滤除功能词;
滤除那些几乎总是与更长的子串一起出现的子串;以及
滤除其出现次数少于预定阈值的子串。
7、如权利要求1,2,4或5的方法,其特征在于:对原始语料库进行分段的步骤还包括将预先识别出的功能词作为分段符进行处理的步骤。
8、如权利要求3的方法,其特征在于:对原始语料库进行分段的步骤还包括将预先识别出的功能词作为分段符进行处理的步骤。
9、如权利要求3的方法,其特征在于:滤除假词的步骤包括:
滤除功能词;
滤除那些几乎总是与更长的子串一起出现的子串;以及
滤除其出现次数少于预定阈值的子串。
10、一种自动提取新词的系统,包括:
用于将原始语料库分成分段的语料库的装置;
用于将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计的装置;以及
用于过滤掉假词,输出新词的装置。
11、如权利要求10的系统,其特征在于:
用于对原始语料库进行分段的装置包括利用标点符号或阿拉伯数字及字母字符串或新词模板进行分段的装置。
12、如权利要求10或11的系统,其特征在于:对原始语料库进行分段的装置还包括利用公共词汇表进行分割的装置。
13、如权利要求10或11的系统,其特征在于:
对分段的语料库进行分割及统计的装置包括通过构建GAST结构进行分割及统计的装置。
14、如权利要求13的系统,其特征在于:构建GAST结构的装置还包括用于限定子串的长度的装置。
15、如权利要求10,11,13,14的系统,其特征在于:滤除假词的装置包括:
滤除功能词的装置;
滤除那些几乎总是与更长的子串一起出现的子串的装置;以及
滤除其出现次数少于预定阈值的子串的装置。
16、如权利要求10,11,13或14的系统,其特征在于:对原始语料库进行分段的装置还包括将预先识别出的功能词作为分段符进行处理的装置。
17、如权利要求12的系统,其特征在于:对原始语料库进行分段的装置还包括将预先识别出的功能词作为分段符进行处理的装置。
18、如权利要求12的系统,其特征在于:滤除假词的装置包括:
滤除功能词的装置;
滤除那些几乎总是与更长的子串一起出现的子串装置;以及
滤除其出现次数少于预定阈值的子串装置。
CNB001264710A 2000-08-30 2000-08-30 自动新词提取方法和系统 Expired - Lifetime CN1226717C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB001264710A CN1226717C (zh) 2000-08-30 2000-08-30 自动新词提取方法和系统
TW089120663A TW490654B (en) 2000-08-30 2000-10-04 Method and system of automatically extracting new word
MYPI20013742 MY133948A (en) 2000-08-30 2001-08-09 A method and system for automatically extracting new word
US09/944,332 US7478036B2 (en) 2000-08-30 2001-08-30 Method and system for automatically extracting new word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB001264710A CN1226717C (zh) 2000-08-30 2000-08-30 自动新词提取方法和系统

Publications (2)

Publication Number Publication Date
CN1340804A true CN1340804A (zh) 2002-03-20
CN1226717C CN1226717C (zh) 2005-11-09

Family

ID=4591828

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001264710A Expired - Lifetime CN1226717C (zh) 2000-08-30 2000-08-30 自动新词提取方法和系统

Country Status (4)

Country Link
US (1) US7478036B2 (zh)
CN (1) CN1226717C (zh)
MY (1) MY133948A (zh)
TW (1) TW490654B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143914A1 (fr) * 2006-06-02 2007-12-21 Beijing Sogou Technology Development Co., Ltd. Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CN100397392C (zh) * 2003-12-17 2008-06-25 北京大学 处理中文新词的方法与装置
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和系统
WO2008098507A1 (fr) * 2007-02-13 2008-08-21 Beijing Sogou Technology Development Co., Ltd. Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
CN100478961C (zh) * 2007-09-17 2009-04-15 中国科学院计算技术研究所 一种短文本的新词发现方法和系统
CN100489863C (zh) * 2007-09-27 2009-05-20 中国科学院计算技术研究所 一种新词发现方法和系统
CN102075611A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 通话记录方法及手持式通信装置
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN103544165A (zh) * 2012-07-12 2014-01-29 腾讯科技(深圳)有限公司 新词挖掘方法和系统
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法
CN111209748A (zh) * 2019-12-16 2020-05-29 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
CN101815996A (zh) * 2007-06-01 2010-08-25 谷歌股份有限公司 检测名称实体和新词
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN102930055B (zh) * 2012-11-18 2015-11-04 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103870449B (zh) * 2012-12-10 2018-06-12 百度国际科技(深圳)有限公司 在线自动挖掘新词的方法及电子装置
US9355084B2 (en) * 2013-11-14 2016-05-31 Elsevier B.V. Systems, computer-program products and methods for annotating documents by expanding abbreviated text
US9460091B2 (en) 2013-11-14 2016-10-04 Elsevier B.V. Computer-program products and methods for annotating ambiguous terms of electronic text documents
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
EP3193328B1 (en) 2015-01-16 2022-11-23 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
CN105512109B (zh) * 2015-12-11 2019-04-16 北京锐安科技有限公司 新词汇的发现方法及装置
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
CN108073566B (zh) * 2016-11-16 2022-01-18 北京搜狗科技发展有限公司 分词方法和装置、用于分词的装置
CN112668331A (zh) * 2021-03-18 2021-04-16 北京沃丰时代数据科技有限公司 一种专有词挖掘方法、装置、电子设备及存储介质
CN114091433B (zh) * 2021-12-22 2022-08-09 沃太能源股份有限公司 用于分布式储能领域的挖掘新词的方法及其装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667290A (en) * 1984-09-10 1987-05-19 501 Philon, Inc. Compilers using a universal intermediate language
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US6636162B1 (en) * 1998-12-04 2003-10-21 America Online, Incorporated Reduced keyboard text input system for the Japanese language
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100397392C (zh) * 2003-12-17 2008-06-25 北京大学 处理中文新词的方法与装置
WO2007143914A1 (fr) * 2006-06-02 2007-12-21 Beijing Sogou Technology Development Co., Ltd. Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和系统
WO2008098507A1 (fr) * 2007-02-13 2008-08-21 Beijing Sogou Technology Development Co., Ltd. Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
CN100458795C (zh) * 2007-02-13 2009-02-04 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN100478961C (zh) * 2007-09-17 2009-04-15 中国科学院计算技术研究所 一种短文本的新词发现方法和系统
CN100489863C (zh) * 2007-09-27 2009-05-20 中国科学院计算技术研究所 一种新词发现方法和系统
CN102075611A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 通话记录方法及手持式通信装置
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN103544165A (zh) * 2012-07-12 2014-01-29 腾讯科技(深圳)有限公司 新词挖掘方法和系统
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法
CN105488098B (zh) * 2015-10-28 2019-02-05 北京理工大学 一种基于领域差异性的新词提取方法
CN111209748A (zh) * 2019-12-16 2020-05-29 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN111209748B (zh) * 2019-12-16 2023-10-24 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质

Also Published As

Publication number Publication date
US20020077816A1 (en) 2002-06-20
US7478036B2 (en) 2009-01-13
TW490654B (en) 2002-06-11
MY133948A (en) 2007-11-30
CN1226717C (zh) 2005-11-09

Similar Documents

Publication Publication Date Title
CN1226717C (zh) 自动新词提取方法和系统
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
CN100476800C (zh) 一种切分索引分词的方法及系统
CN100595760C (zh) 一种获取口语词条的方法、装置以及一种输入法系统
CN101079031A (zh) 一种网页主题提取系统和方法
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN1702651A (zh) 特定类型信息文件的识别方法和装置
CN101079024A (zh) 一种专业词表动态生成系统和方法
CN103309852A (zh) 一种基于统计和规则的特定领域的合成词发现方法
CN103235774A (zh) 一种科技项目申请书特征词提取方法
EP3483747A1 (en) Preserving and processing ambiguity in natural language
CN102103416A (zh) 一种汉字输入方法和装置
CN101046809A (zh) 基于关联规则模式的新词识别方法
CN103207921A (zh) 一种从中文电子文档中自动提取词语的方法
CN1102779C (zh) 中文简繁体字文件转换装置
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN104699669A (zh) 一种文本字数统计的方法及装置
CN1604075A (zh) 一种对报纸版面进行文字阅读顺序恢复的方法
CN101436194B (zh) 一种基于数据挖掘技术的文本多精度表示方法
CN115617981A (zh) 一种面向社交网络短文本的信息层次摘要提取方法
CN114036907A (zh) 一种基于领域特征的文本数据扩增方法
CN1253814C (zh) 数字文件关键特征的自动撷取方法
CN106484768B (zh) 文本内容显著性区域的局部特征抽取方法及系统
CN110969009B (zh) 一种汉语自然语言文本的词语切分方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20051109