CN1151456C

CN1151456C - 特征文字序列抽取及相似文书检索方法和装置

Info

Publication number: CN1151456C
Application number: CNB991070895A
Authority: CN
Inventors: �˱�Т; 松林忠孝; 多田胜巳; 冈本卓哉; 菅谷奈津子; 川下靖司
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-05-29
Filing date: 1999-05-27
Publication date: 2004-05-26
Anticipated expiration: 2019-05-27
Also published as: CN1237738A; KR100309062B1; KR19990088678A; US6473754B1; JPH11338883A; JP3622503B2

Abstract

本发明提供抽取文书中记述内容的特征的方法以及相似文书检索系统。具有把文本数据库中的文本中存在的文字序列在文本的单词边界所出现的概率存储为出现概率文件的步骤，把文本中文字序列的出现次数存储为出现次数文件的步骤，使用出现概率文件从用户指定的文件抽取特征文字序列的步骤，计数指定文本中的特征文字序列的出现次数的步骤，并且使用出现次数文件和用户指定的文本中的出现次数计数相对于用户指定的文本的相似度。

Description

特征文字序列抽取及相似文书检索方法和装置

本发明涉及抽取表示文书中记述内容的特征的文字序列的方法和装置以及存储了文字序列抽取程序的存储媒体，使用该方法和装置从文书数据库中检索包含与用户指定的文书中记述内容相类似内容的文书的方法和装置以及存储了检索程序的存储媒体。

近年来，伴随着个人计算机和因特网等的普及，电子文书爆炸式地增长，预想今后也将更快速地增长。这种状况下，希望高速而且有效地检索包含用户所希望信息的文书的要求日益高涨。

作为适应这种需要的技术有全文检索。在全文检索中，把检索对象文书作为文本登录在计算机系统中进行数据库化，从数据库中检索包含用户指定的检索文字序列(以下，称为检索项)的文书。这样的全文检索中，由于把文书中的文字序列本身作为对象进行检索，因此与预先提供关键词，以该关键词作为线索进行检索的以往的关键词检索系统不同，具有在任何语言中都能够检索的特点。

然而，为了可靠地检索包含用户所希望的信息的文书，需要作成并输入正确地表示用户的检索意图的复杂的检索条件式。这一点对于非信息检索专家的一般用户来讲是不容易的。

为了消除这种麻烦，例示包含用户自己所希望内容的文书(以下，称为种文书)，检索与该文书相似的文书的相似文书检索技术正在引起人们的注意。

作为相似文书检索方法，例如在“特开平8-335222号公报”中，揭示了通过词素分析抽取包含在种文书中的单词，使用该单词检索相似文书的技术(以下，称为现有技术1)。

在现有技术1中，通过词素分析抽取包含在种文书中的单词，把包含该单词的文书检索为相似文书。例如，把文书1“…。携带電話の使用時のマナ一が問题になる。…”作为种文书的情况下，通过词素分析参考单词辞典，抽取出“携带電話”“問题”等的单词。其结果，可以把包含“携带電話”的文书2“…。電車内での携带電話の使用は禁止されている…。”检索为相似文书。

然而，在现有技术1中，由于在单词抽取中使用单词辞典，因此存在以下2个问题。

首先，在单词词典中没有记载的单词表示文书的本质内容(以下，称为中心概念)的情况下，由于作为从种文书检索用的单词没有抽取出该单词，因此即使由其它的单词进行相似检索，恐怕也不能够正确地检索文书的中心概念。即，用新词表示用户所希望的信息的情况下，存在着如果该单词没有被包括在单词词典中，则将检索出偏离作为目的的中心概念的文书。

其次，即使表示用户所希望信息的单词记载在单词词典中的情况下，也存在由于单词抽取的方法作为检索对象的中心概念发生偏离的问题。例如，从上述的文书1“…。携带電話の使用時のマナ一が問题になる。…”的种文书抽取“携带電話”“マナ一”“問题”等单词。然而，由于没有抽取出“電話”这样的单词，因此有可能计算出文书3“…。電話での話し方について注意された…。”这样的文书相似度很低。

这些都起因于全部使用了单词辞典抽取检索用的单词的方法。

以上是现有技术1的问题点。

为解决这个问题，在“特愿平9-309078号”中，提出了不使用单词辞典，而按照汉字和片假名等文字种类机械地抽取汉字和片假名等的文字种类中连续的n个文字的文字序列(以下，称为n元字符(n-gram))，使用该序列检索相似文书的技术(以下，称为现有技术2)。

在现有技术2中，在按照文字种类改变抽取方法，抽取具有总体意义的(以下，称为特征文字序列)n元字符。例如，从用汉字构成的文字序列(以下，称为汉字文字序列)机械地抽出二元字符(2-gram)，从用片假名构成的文字序列(以下，称为片假名文字序列)抽取出用片假名构成的最长的文字序列(以下，称为片假名最长文字序列)，即片假名文字序列自身。这种情况下，从上述文书1“…。携带電話の使用時のマナ一が問题になる。…”这样的种文书中抽取出“携带”等特征文字序列。即，由于“電話”这样的文字序列也没有遗漏地被抽取出来，因此对于在现有技术1中计算出低相似度的文书3“…。電話での話し方について注意された…。”也能够正确地计算出相似度。

然而，在现有技术2中，有可能从具有可能构成复合语的汉字文字序列等中抽取出遍及单词间的n元字符。因此，如果将它们用于检索，则即使对于内容不相似的文书也计算出相似度，其结果将产生把没有关连的文书检索为相似文书的问题。例如，根据从上述文书1“…。携带電話の使用時のマナ一が問题になる。…”这样的文书所抽出的“带電”这样的特征文字序列计算出相似度，存在将文书4“…。電荷の带電を防ぐたあに、接地しなくてはならない。…”这样的文书错误地检索为相似文书的问题。

作为用于解决该问题的技术，在“情報処理学会論文誌pp.2286～2297，Vol.38，No.11，Nov.1997”中提出了使用一元字符(1-gram)的统计信息抽取特征文字序列的技术(以下，称为现有技术3)。

在现有技术3中，对于文书登录时出现在登录文书中的各个一元字符，计算出作为单词起始的概率(以下，称为起始概率)和作为末尾的概率(以下，称为末尾概率)。这里，用汉字和片假名等文字种类边界分割单词，作为单一文字种类构成的文字序列(以下，称为单一文字种类文字序列)，把位于文字种类边界紧后面的一元字符作为位于单词起始的一元字符，把位于文字种类边界紧前面的一元字符作为位于单词末尾的一元字符。

例如，从上述文书1“…。携带電話の使用時のマナ一が問题になる。…”在文字种类边界抽取出的“使用”汉字文字序列中，

“使”是位于单词起始的一元字符，“用”是位于单词末尾的一元字符。

在相似文书检索时，首先从被指定的种文书中抽取出单一文字种类文字序列。其次，从单一文字种类序列内连续的2个一元字符中的前一个一元字符的末尾概率和后一个一元字符的起始概率，计算出在这些一元字符之间单一文字种类文字序列分割的概率(以下，称为分割概率)，在该值超过预定值(以下，称为分割阈值)的情况下，在该处进行把单一文字种类文字序列进行分割的处理。

以下，以分割阈值为0.050，说明现有技术3的具体的处理方法。

首先，对于在文书登录时出现在整个登录文书中的各一元字符，记述出现次数，出现在单词起始的次数(以下，称为起始次数)以及出现在末尾的次数(以下，称为末尾次数)，存储到出现信息文件中。例如，在上述文书1中，可以得到“携”的出现次数是1次，起始次数是1次以及末尾次数是0次这样的出现信息。图2示出出现信息文件的例子。

然后，参照上述出现信息文件，对1个一元字符，分别计算起始概率和末尾概率，存储到出现概率文件中。例如，一元字符“携”的出现概率是768/4740＝0.16，末尾概率成为492/4740＝0.10。图3中示出出现概率文件的例子。

其次，以单一文字种类文字序列“携带電話”为例，说明现有技术3的文书检索方法。

首先，作为从单一文字种类文字序列“携带電話”中抽取出一元字符的2个组，抽取出(“携”、“带”)，(“带”、“電”)以及(“電”、“話”)3个。其次，在各一元字符的组中，从登录时生成的出现概率文件获取前方的一元字符的末尾概率和后方的一元字符的起始概率，计算出分割概率。

图4中示出从“携带電話”抽取的3个一元字符的组中的分割概率的计算过程。本例中，作为(“携”、“带”)，“(“带”、“電”)以及(“電”、“話”)的分割概率，分别计算出0.011，0.054以及0.005，这些分割概率中，由于(“带”，“電”)的0.054大于分割阈值0.050，因此在“带”与“電”之间进行分割。另一方面，(“携”，“带”)以及(“電”，“話”)的分割概率分别是0.011以及0.005，由于这些值小于分割阈值0.050，因此在这些一元字符之间不进行分割。其结果，在“带”与“電”之间分割“携带電話”，成为抽取出“携带”和“電話”2个特征文字序列。

以上是以上技术3的具体处理方法。这样在现有技术3中，通过使用一元字符的统计信息抽取特征文字序列，使得不抽取遍及单词间的不适宜特征文字序列，使得不检索内容不相似的文书。

然而，在现有技术3中，由于用分割概率的绝对值判断能否进行分割，因此存在作为单词的特征文字序列的抽取精度低的问题。例如，对于单一文字种类文字序列“带電”，抽取出一元字符的组(“带”、“電”)，作为该一元字符间的分割概率计算出为0.054。

由于该值大于分割阈值0.050，因此错误地把“带電”分割为“带”和“電”(以下，称为误分割)，抽取出不适宜的2个特征文字序列。其结果存在着与“带(なび)”系的文书等也被检索为相似文书，混入检索干扰，把偏离作为目的的中心概念的文书检索为相似文书的问题。

如以上所述，在如现有技术1那样使用单词辞典抽取单词的方法中，在单词辞典中未登载的单词表示种文书的中心概念的情况下，存在检索出从中心概念偏离的文书这样的问题。

另外，如现有技术2那样，从单一文字种类文字序列按照文字种类单纯地抽取n元字符的方法中，从具有可能构成复合语的汉字文字序列抽取出遍及单词间的n元字符，因而存在不相关的文书被检索为相似文书的问题。

进而，如现有技术3那样，在使用一元字符的统计信息计算分割概率，用该值的绝对值判断能否进行分割的方法中，由于作为单词的特征文字序列的抽取精度低，因此存在混入检索干扰，偏离作

对于这样现有技术的问题，本发明的目的在于提供抽取特征文字序列的方法以及装置使得减少误分割。

另外，本发明的目的还在于提供通过抽取特征文字序列减少误分割，由此减少检索干扰从而可以进行降低了中心概念偏离的相似文书检索的方法以及装置。

为解决上述问题，在本发明的特征文字序列抽取方法中，通过以下所示的步骤构成的处理，从种文书进行特征文字序列的抽取。

即，在本发明的特征文字序列抽取方法中，作为文书的登录处理，具有

(步骤1)读入登录对象文书的文书读入步骤；

(步骤2)用汉字和片假名等文字种类边界分割在上述文书读入步骤中读入的登录对象文书中的文字序列，抽取出作为单一文字种类文字序列的单一文字种类文字序列抽取步骤；

(步骤3)对于在上述单一文字种类文字序列抽取步骤中抽取出的单一文字种类文字序列，判定其文字种类，如果是汉字和片假名则对于预先确定了长度的n元字符，计数在登录文书中的出现次数，出现在单词起始的次数(以下，称为起始次数)和出现在末尾的次数(以下，称为末尾次数)，以及n元字符自身作为单词出现的次数(以下，称为单独次数)的出现信息计数步骤；

(步骤4)通过把在上述出现信息计数步骤中计数了的n元字符的出现信息加入到与已经登录在数据库中的文书相关的该n元字符的出现信息上，计算数据库总体的出现信息，并且存储到该出现信息文件中的出现信息文件生成登录步骤；

(步骤5)对于在上述出现信息计数步骤中计数了的n元字符的出现信息，从该出现信息文件获取数据库总体中的出现信息，计算作为单词起始的概率(以下，称为起始概率)和作为末尾的概率(以下，称为末尾概率)以及n元字符自身作为单词出现的概率(以下，称为单独概率)，并且存储到该出现概率文件中的出现概率文件生成登录步骤；率文件生成登录步骤；

(步骤6)从在上述单一文字种类文字序列抽取步骤中抽取出的单一文字种类文字序列，抽取出预先确定了长度的n元字符，计数登录对象文书中的出现次数的出现次数计数步骤；

(步骤7)把在上述出现次数计数步骤中被计数的出现次数存储到该出现次数文件中的出现次数文件生成登录步骤，

作为从种文书抽取特征文字序列的处理，具有

(步骤8)读入种文书的种文书读入步骤；

(步骤9)用文字种类边界把在上述种文书读入步骤中读入的种文书中的文字序列进行分割，抽取出作为单一文字种类文字序列的检索用单一文字种类文字序列抽取步骤；

(步骤10)对于在上述检索用单一文字种类文字序列抽取步骤中抽取出的单一文字种类文字序列，判定其文字种类，

如果是汉字和片假名，则读入上述出现概率文件，获取从单一文字种类文字序列的起始至第i个文字的文字序列的单独概率，至第(i+1)个文字的文字序列的单独概率，至第(i+1)个文字的文字的起始概率以及至第(i+2)个文字的文字的起始概率，

把至第i个文字的文字序列的单独概率和至第(i+1)个文字的文字的起始概率的积计算为在第i个文字分割单一文字种类文字序列的概率(以下，称为分割概率)，

把至第(i+1)个文字的文字序列的单独概率和至第(i+2)个文字的文字的起始概率的积计算为在第(i+1)个文字的分割概率，

把这些第i个文字和第(i+1)个文字的分割概率进行比较，把值大的一方作为分割单一文字种类文字序列的点(以下，称为分割点)，把从起始到分割点的文字序列抽取为特征文字序列，

如果是汉字和片假名以外的文字，则把单一文字种类文字序列自身抽取为特征文字序列，

对于被抽取出的特征文字序列以外的剩余的文字序列，通过重复相同的处理抽取特征文字序列的特征文字序列抽取步骤。

另外，为解决上述的问题，在本发明的相似文书检索方法中，通过由上述步骤构成的处理，抽取用于检索与种文书相似文书的特征文字序列，用该序列进行相似文书检索。

即，在本发明的相似文书检索方法中，作为文书的登录处理，具有

(步骤1)读入登录对象文书的文书读入步骤；

(步骤3)对于在上述单一文字种类文字序列抽取步骤中抽取出的单一文字种类文字序列，判定其文字种类，如果是汉字和片假名则对于预先确定了长度的n元字符，计数登录文字中的出现次数，出现在单词起始的次数(以下，称为起始次数)和出现在末尾的次数(以下，称为末尾次数)，以及n元字符自身作为单词出现的次数(以下，称为单独次数)的出现信息计数步骤；

(步骤5)对于在上述出现信息计数步骤中计数的出现信息，从该出现信息文件获取数据库总体中的出现信息，计算作为单词起始的概率(以下，称为起始概率)和作为末尾的概率(以下，称为末尾概率)以及n元字符自身作为单词出现的概率(以下，称为单独概率)，并且存储到该出现概率文件中的出现概率文件生成登录步骤；

作为与种文书相似文书的检索处理，具有

(步骤8)读入种文书的种文书读入步骤；

(步骤9)用文字种类边界把在上述种文书读入步骤中读入的种文书中的文字序列进行分割，抽取为单一文字种类文字序列的检索用单一文字种类文字序列抽取步骤；

(步骤11)对于在上述特征文字序列抽取步骤中被抽取出的所有的特征文字序列，计数在种文书内的出现次数的种文书内出现次数计数步骤；

(步骤12)对于在上述特征文字序列抽取步骤中被抽取出的所有的特征文字序列，读入上述出现次数文件，获取数据库内各文书中该特征文字序列的出现次数的数据库内出现次数获取步骤；

(步骤13)对于在上述特征文字序列抽取步骤中被抽取出的特征文字序列，使用在上述种文书内出现次数计数步骤中计数的种文书内出现次数和在上述数据库内出现次数获取步骤中获取的数据内各文书中的出现次数，根据预先确定的计算式计算种文书与数据库内的各文书的相似度的相似度计算步骤；

(步骤14)根据在上述相似度计算步骤中计算出的相似度，输出检索结果的检索结果输出步骤。

以下说明使用了上述文书检索方法的本发明的原理。

本发明中，在登录文书时，执行(步骤1)～(步骤7)。

首先，在文书读入步骤(步骤1)中读入成为登录对象的文书。

其次，在单一文字种类文字序列抽取步骤(步骤2)中，用汉字和片假名等的文字种类边界把在上述文书读入步骤(步骤1)中读入的登录对象文书中的文字序列进行分割，抽取出由单一文字种类构成的文字序列。例如，从上述文书2“…。電車内での携带電話の使用は禁止されている…。”这样的文书中，抽取出“電車内”“での”“携带電話”“の”“使用”“は”“禁止”“されている”等的单一文字种类文字序列。

其次，在出现信息计数步骤(步骤3)中，对于在单一文字种类文字序列抽取步骤(步骤2)中抽取出的上述各单一文字种类文字序列，判定其文字种类，如果是汉字和片假名，则计数预先确定了长度n的n元字符在登录对象文书中的出现次数，起始次数，末尾次数以及单独次数。例如，在确定为从汉字文字序列和片假名文字序列计数的一元字符以及二元字符的出现次数，起始次数以及末尾次数的情况下，对于在上述单一文字种类文字序列抽取步骤(步骤2)抽取出的单一文字种类文字序列，“携”的出现次数是1次，其中起始次数是1次，末尾次数是0次，单独次数是0次，“携带”的出现次数是1次，其中起始次数是1次，末尾次数是0次，单独次数是0次。

接着，在出现信息文件生成登录步骤(步骤4)中，把前面在出现信息计数步骤(步骤3)中抽取出的n元字符的出现信息加入到与已经登录在数据库中的文书相关连的出现信息上，把作为累加信息的出现信息存储到出现信息文件中。图5中示出出现信息文件的例子。本图中示出的出现信息文件是存储了在上述出现信息计数步骤(步骤3)中抽取出的出现信息时的例子。本图中示出的出现信息文件表示对于上述的一元字符“携”，存储出现次数4740次，起始次数768次，末尾次数492次以及单独次数42次这样的信息，对于二元字符“携带”，存储出现次数462次，起始次数419次，末尾次数52次以及单独次数48次这样的信息。

其次，在出现概率文件生成登录步骤(步骤5)中，对于在出现信息文件生成登录步骤(步骤4)中存储了的出现信息的n元字符，分别计算出现概率，存储到该出现概率文件中。例如，如图5所示，关于一元字符“携”，由于是出现次数4740次，起始次数768次，末尾次数492次以及单独次数42次，因此计算为起始概率是768/4740＝0.16，末尾概率是492/4740＝0.10，单独概率是42/4740＝0.01。图6中示出出现概率文件的例子。本图所示的出现概率文件是存储了在上述出现信息计数步骤(步骤3)中抽取出的出现概率时的例子，表示对于上述的一元字符“携”，存储起始概率0.16，末尾概率0.10以及单独概率0.01这样的信息，对于二元字符“携带”，存储起始概率0.90，末尾概率0.11以及单独概率0.10这样的信息。

接着，在出现次数计数步骤(步骤6)中，从在单一文字种类文字序列抽取步骤(步骤2)中抽取出的所有的单一文字种类文字序列中，抽取出预先确定了长度的n元字符，计数登录对象文书中的出现次数。而且，在出现次数文件生成登录步骤(步骤7)中，把在上述出现次数计数步骤(步骤6)中抽取出的各n元字符的出现次数存储到该出现次数文件中。

图24中以上述文书2“…。電車内での携带電話の使用は禁止されている…。”为例示出出现次数文件生成处理的顺序。

首先，在单一文字种类文字序列抽取步骤(步骤2)中从作为登录对象文书的文书2抽取出所有的单一文字种类文字序列。

接着，在出现次数计数步骤(步骤6)中，从在上述单一文字种类文字序列抽取步骤(步骤2)抽取出的所有的单一文字种类文字序列抽取出预先确定了长度的n元字符，计数登录对象文书内的出现次数。在本图所示的例中，作为从单一文字种类文字序列抽取出至长度为3的n元字符序列，从包含在单一文字种类文字序列2404中的“電車内”，抽取出长度为1的“電”，“車”，“内”，长度为2的“電車”，“車内”以及长度为3的“電車内”，计数文书2中的出现次数。其结果，“電”在文书2中出现2次，“車内”在文书2中出现1次。

接着，在出现次数文件生成登录步骤(步骤7)中，把在出现次数计数步骤(步骤6)中抽取出的各n元字符的出现次数存储到该出现次数文件中。其结果，从文书2中，如一元字符“電”(2、2)，“車”(2、1)，“内”(2、1)，二元字符“電車”(2、1)，“車内”(2、1)，三元字符“電車内”(2、1)那样，组合并存储各n元字符的登录对象文书的识别编号和出现次数。这里，“電車”(2、1)表示“電車”在文书编号2的文书中出现1次。

检索时，执行(步骤8)～(步骤14)。

首先，在种文书读入步骤(步骤8)中，作为种文书读入文书1。接着，在检索用单一文字种类文字序列抽取步骤(步骤9)中，用文字种类边界把在上述种文书读入步骤(步骤8)中读入的种文书(文书1)中的文字序列进行分割，抽取出单一文字种类文字序列。

接着，在特征文字序列抽取步骤(步骤10)中，对于在上述检索用单一文字种类文字序列抽取步骤(步骤9)中抽取出的单一文字种类文字序列，判定其文字种类。

如果该文字种类是汉字和片假名，则读入上述的出现概率文件，获取从单一文字种类文字序列的起始至第i个文字的文字序列的单独概率，至第(i+1)个文字的文字序列的单独概率，第(i+1)个文字的起始概率以及第(i+2)个文字的文字的起始概率。而且，把第i个文字中的分割概率计算为至第i个文字的文字序列的单独概率与第(i+1)个文字的文字的起始概率的积，把第(i+1)个文字的分割概率计算为至第(i+1)个文字的文字序列的单独概率与第(i+2)个文字的文字的起始概率的积。而且，把这些第i个文字与第(i+1)个文字的分割概率进行比较，把值大的一方作为分割点，把从起始到该分割点的文字序列抽取为特征文字序列。

另外，如果不是汉字和片假名，则把单一文字种类文字序列自身抽取为特征文字序列，以下，通过重复相同的处理，抽取特征文字序列。

图8中示出从由文书1抽取出的单一文字种类文字序列“携带電話”抽取特征文字序列的例子。首先，在“携带電話”中的第1个文字的分割概率，以“携”的单独概率0.01和“带”的起始概率0.11计算为0.001，第2个文字的分割概率，以“携带”的单独概率0.10和“電”起始概率0.36计算为0.036。接着，把这些分割概率进行比较，以值大的一方分割单一文字种类文字序列。该情况下，由于第2个文字的分割概率0.036大，因此单一文字种类文字序列“携带電話”被分割为“携带”和“電話”。

另外，图9中对于在现有技术3中未被适宜地进行分割的单一文字种类文字序列“带電”的例子，示出本发明的分割处理。首先，“带電”中的第1个文字中的分割概率，作为“带”的单独概率0.01与“電”的单独概率0.01的积计算为0.0001。另外，第2个文字中的分割概率，即“带電”作为单一文字种类文字序列其自身出现的概率，计算为“带電”的单独概率0.10。把这些值进行比较，用值大的一方分割单一文字种类文字序列。其结果，由于“带電”的单独概率0.10大，因此用2个文字分割“带電”，其结果单一文字种类文字序列“带電”不被分割，抽取为一块文字序列。

通过这样把分割概率进行比较分割单一文字种类文字序列，由于能够进行正确地反应了数据库中的实际出现状况的单词分割，因此与用分割概率的绝对值进行分割的上述现有技术3相比，能够大幅度地削减不适当的分割。

其次，在种文书内出现次数计数步骤(步骤11)中，计数在上述特征文字序列抽取骤(步骤10)中抽取出的特征文字序列的种文书内的出现次数。

接着，在数据库内出现次数获取步骤(步骤12)中，对于在上述特征文字序列抽取步骤(步骤10)中抽取出的特征文字序列，参照上述的出现次数文件，获得数据库内各文书中的出现次数。

接着，在相似度计算步骤(步骤13)中，对于在上述特征文字序列抽取步骤((步骤10)中抽取出的特征文字序列，根据在上述种文书内出现次数计数步骤(步骤11)和数据库内出现次数获取步骤(步骤12)中计数的种文书内的出现次数和数据库内的各文书的出现次数，计算相似度。为了计算相似度，例如，可以使用在“特开平6-110948号公报”中公开的相似度计算公式(1)。

文书i的相似度S(i)用下式表示

S (i) = \frac{Σ_{j = 1}^{n} (U (j) \times R (j))}{\sqrt{Σ_{j = 1}^{n} U {(j)}^{2} \times Σ_{j = 1}^{n} {R (j)}^{2}}} - - - - (1)

这里，U(j)表示种文书中的第j个n元字符的归一化权值，从各n元字符的种文书内出现次数进行计算。R(j)示出数据库中文书的第j个n元字符的归一化权值，从各n元字符的数据库内的各文书中的出现次数计数进行计算。所谓归一化权值，表示数据库中的n元字符的出现偏重，该值大则意味着越偏重于出现n元字符这样的某个特定文书。关于该归一化权值的计算方法由于在“特开平6-110948号公报”中进行了说明，因此在这里省略说明。另外，n表示数据库中的所有文书数。

使用该相似度计算公式(1)，如果计算把文书1指定为种文书情况下的文书i的相似度S(i)，则成为如下所示。

S(1)＝1.0

S(2)＝0.262

S(3)＝0.048

S(4)＝0.0

其结果，如果在检索结果输出程序步骤(步骤14)中，把文书按照相似度的降序排列，则表示为文书1，文书2以及文书3的顺序。相似度为0的文书4不作为检索结果输出。

如以上所说明的那样，如果依据使用了本发明的特征文字序列抽取方法的相似文书检索方法，则由于能够不像现有技术1那样使用单词辞典而从单一文字种类文字序列机械地抽取文字序列，因此任何一个单词都能够无遗漏地提供给检索，能够正确地检索种文书表示的概念。

另外，不是像现有技术2那样从单一文字种类文字序列按照文字种类单纯地抽取n元字符，而是使用统计信息抽取汇集了意义的n元字符，由此能够更正确地检索种文书表示的概念。

进而，不是像现有技术3那样用分割概率的绝对值进行分割，而是把分割概率进行比较，用值大的一方进行分割，能够进行正确地反映了数据库中的实际的出现状况的单词分割，能够大幅度地削减不适宜的单词分割。因此，与现有技术3相比由于不适宜的特征文字序列不提供进行检索，因此能够适宜地检索种文书表示的概念，同时能够快速地检索相似文书。

图1示出本发明的相似文书检索系统的第一实施例的总体结构。

图2示出现有技术3中的出现信息文件的例子。

图3示出现有技术3中的出现概率文件的例子。

图4示出现有技术3中的特征文字序列抽取方法的例子。

图5示出本发明的出现信息文件的例子。

图6示出本发明的出现概率文件的例子。

图7示出本发明第三实施例中的n元字符索引的例子。

图8示出把本发明第一实施例中的分割概率比较特征文字序列抽取程序适用在汉字文字序列时的处理例。

图9示出本发明的特征文字序列的抽取方法的例子。

图10是示出本发明第一实施例中的系统控制程序110的处理顺序的PAD图。

图11是示出本发明第一实施例中的文书登录控制程序111的处理顺序的PAD图。

图12是示出本发明第一实施例中的出现信息文件生成登录程序121的处理顺序的PAD图。

图13是示出本发明第一实施例中的检索控制程序112的处理顺序的PAD图。

图14是示出本发明第一实施例中的相似文书检索程序131的处理顺序的PAD图。

图15示出本发明第三实施例中的出现次数获取的例子。

图16是示出本发明第一实施例中的出现概率文件生成登录程序124的处理顺序的PAD图。

图17是示出本发明第一实施例中的特征文字序列抽取程序141的处理顺序的PAD图。

图18是示出本发明第一实施例中的分割概率比较特征文字序列抽取程序142的处理顺序的PAD图。

图19是示出本发明第一实施例中的分割概率计算程序143的处理顺序的PAD图。

图20示出把本发明第一实施例中的分割概率比较特征文字序列抽取程序142应用在片假名文字序列中时的处理例。

图21是示出本发明第二实施例中的分割概率比较特征文字序列抽取程序142a的处理顺序的PAD图。

图22示出本发明第一实施例中的分割概率比较特征文字序列抽取程序142的处理例。

图23示出本发明第二实施例中的分割概率比较特征文字序列抽取程序142a的处理例。

图24示出本发明的出现次数文件生成处理的顺序。

图25是示出本发明第一实施例中的出现次数文件生成登录程序127的处理顺序的PAD图。

图26是示出本发明第一实施例中的出现次数获取程序146的处理顺序的PAD图。

图27示出本发明第一实施例中的特征文字序列抽取程序141的处理例。

图28示出本发明第一实施例中的分割概率计算的处理例。

图29示出本发明第三实施例中的相似文书检索程序131的结构。

图30示出本发明第三实施例中的出现次数获取程序146a的处理顺序。

图31示出本发明第四实施例中的特征文字序列抽获取程序141a的结构。

图32是示出本发明第四实施例中的特征文字序列抽取程序141a的处理顺序的PAD图。

图33示出本发明第四实施例中的特征文字序列抽取程序141a的处理例。

实施例

使用图1说明本发明的第一实施例。

适用于本发明相似文书检索系统的第一实施例由显示器100，键盘101，中央处理器(CPU)102，磁盘装置105，软盘驱动器(FDD)103，主存储器106以及把它们连接起来的总线107构成。

在磁盘装置105中存储着文本150，出现信息文件151，出现概率文件152以及出现次数文件153。通过FDD103存储到软盘104中的登录文书和种文书等的信息读入到确保在主存储器106内的工作区170或者磁盘装置105中。

主存储器106中存储着系统控制程序110，文书登录控制程序111，共用库160，文本登录程序120，出现信息文件生成登录程序121，出现概率文件生成登录程序124，出现次数文件生成登录程序127，检索控制程序112，检索条件式分析程序130，相似文书检索程序131以及检索结果输出程序132，同时确保工作区170。

这些程序存储到软盘104和CD-ROM(图1未示出)等可移动存储媒体中，从这些存储媒体中读出并装载到磁盘装置150。这些程序在本相似文书检索系统起动时，由系统控制程序110从磁盘装置150读出，存储到主存储器106中。

共用库160由单一文字种类文字序列抽取程序161构成。

出现信息文件生成登录程序121由出现信息计数程序122和出现信息文件生成程序123构成。如后所述，采取从共用库160中调用单一文字种类文字序列抽取程序161的结构。

出现概率文件生成登录程序124由出现概率计算程序125和出现概率文件生成程序126构成

出现次数文件生成登录程序127由出现次数计数程序128和出现次数文件生成程序129构成。

相似文书检索程序131由种文书读入程序140，特征文字序列抽取程序141，种文书内出现次数计数程序145，出现次数获取程序146以及相似度计算程序148构成，同时如后所述采取从共用库160调用单一文字种类文字序列抽取程序161的结构。

特征文字序列抽取程序141采取调用分割概率比较特征文字序列抽取程序142的结构。分割概率比较特征文字序列抽取程序142采取调用分割概率计算程序143的结构。分割概率计算程序143采取调用出现概率文件读入程序144的结构。

出现次数获取程序146采取调用出现次数文件读入程序147的结构。

根据由用户操作的来自键盘101的指令通过系统控制程序110起动文书登录控制程序111以及检索控制程序112，分别进行文本登录程序120，出现文件信息生成登录程序121，出现概率文件生成登录程序124以及出现次数文件生成登录程序127的控制，及检索条件式分析程序130，相似文书检索程序131以及检索结果输出程序132的控制。

以下，说明本实施例中的相似文书检索系统的处理顺序。

首先，使用图10的PAD(Problem Analysis Diagram)图说明系统控制程序110的处理顺序。

在系统控制程序110中，首先在步骤1000中，分析从键盘101输入的指令。

接着，在步骤1001中，该分析的结果判定为是执行登录的指令的情况下，在步骤1002中起动文书登录控制程序111，进行文书的登录。

另外，在步骤1003中，判定为是进行检索的指令的情况下，在步骤1004中起动检索控制程序112，进行相似文书的检索。

以上是系统控制程序110的处理顺序。

其次，使用图11的PAD图说明在图10所示的步骤1002中由系统控制程序110起动的文书登录控制程序111的处理顺序。

在文书登录控制程序111中，首先在步骤1100中起动文本登录程序120，从插入到FDD103中的软盘104把要登录的文书的文本数据读入到工作区170中，把这些数据作为文本150存储到磁盘装置105中。文本数据不限于仅使用软盘104进行输入，也可以采取使用通信线路(图1中未示出)和CD-ROM装置(图1中未示出)等其它装置进行输入的结构。

接着，在步骤1101中起动出现信息文件生成登录程序121，读出存储到工作区170中的文本150，生成对于其中各n元字符的出现信息文件151，存储到磁盘装置105中。

接着，在步骤1102中起动出现概率文件生成登录程序124，计算对于存储到工作区170的文本150中的各n元字符的出现概率，作为该出现概率文件152，存储到磁盘装置105中。

接着，在步骤1003中起动出现次数文件生成登录程序127，读出存储到工作区170中的文本150，计数对于其中各文书中的所有的n元字符的出现次数，作为该出现次数文件153，存储到磁盘装置105中。

以上是文书登录控制程序111的处理顺序。

其次，使用图12的PAD图说明在图11所示的步骤1101中由文书登录控制程序111起动的出现信息文件生成登录程序121的处理顺序。

在出现信息文件生成登录程序121中，首先在步骤1200中起动单一文字种类文字序列抽取程序161，通过用文字种类边界把文本150的文字序列进行分割抽取单一文字种类文字序列，存储到工作区170中。

接着，在步骤1201中，起动出现信息计数程序122，计数文本150中预先确定了长度的n元字符的出现次数，存储到工作区170中的单一文字种类文字序列的起始次数，末尾次数以及单独次数，同样地存储到工作区170中。

接着，在步骤1202中，起动出现信息文件生成程序123，把存储到工作区170中的文本150中的n元字符的出现次数，起始次数，末尾次数以及单独次数分别加入到存储到出现信息文件151中的该n元字符的出现次数，起始次数，末尾次数以及单独次数上，存储到工作区170中的同时还作为出现信息文件150存储到磁盘装置105中。

以上是出现信息文件生成登录程序121的处理顺序。

其次，使用图16的PAD图说明在图11所示的步骤1102中由文书登录控制程序111起动的出现概率文件生成登录程序124的处理顺序。

在出现概率文件生成登录程序124中，首先在步骤1600中起动出现概率计算程序125，从存储到工作区170中的各n元字符的出现信息，计算各n元字符的单独概率，起始概率以及末尾概率，存储到工作区170中。

接着，在步骤1601中，起动出现概率文件生成程序126，把存储到工作区170中的单独概率，起始概率以及末尾概率作为出现概率文件152存储到磁盘装置105中。

以上是出现概率文件生成登录程序124的处理顺序。

其次，使用图25所示的PAD图，说明在图11所示的步骤1103中由文书登录控制程序111起动的出现次数文件生成登录程序127的处理顺序。

在出现次数文件生成登录程序127中，首先在步骤2500中起动出现次数计数程序128，在图12的步骤1200中从存储到工作区170中的所有的单一文字种类文字序列，抽取长度从1到单一文字种类文字序列自身长度m的n元字符，计数它们在登录对象文书中的的出现次数，存储到工作区170中。

接着，在步骤2501中，起动出现次数文件生成程序129，把在步骤2500中计数的各n元字符的出现次数与登录对象文书的识别编号(以下，称为文书编号)一起作为出现次数文件153存储到磁盘装置105中。

其次，使用图13的PAD图说明在图10所示的步骤1004中由系统控制程序110起动的检索控制程序112进行的相似文书检索的处理顺序。

在检索控制程序112中，首先在步骤1300中起动检索条件式分析程序130，分析从键盘101输入的检索条件式，抽取作为检索条件式的参数所指定的种文书的文书编号。

接着，在步骤1301中起动相似文书检索程序131，对于由上述检索条件式分析程序130抽取出的文书编号的种文书，计算存储到磁盘装置105中的文本150中的各种文书的相似度。

最后，在步骤1302中，起动检索结果输出程序132，根据在上述相似文书检索程序131中计算出的各文书的相似度，输出检索结果。

以上是由检索控制程序112进行的文书检索的处理顺序。

其次，使用图14的PAD图说明在图13所示的步骤1401中由检索控制程序112起动的相似文书检索程序131的处理顺序。

在相似文书检索程序131中，首先在步骤1400中起动种文书读入程序140，把由检索条件式分析程序130从检索条件式抽取出的文书编号的种文书从磁盘装置105中的文本150读入到工作区170中。

这里，种文书不仅读入存储到文本150中的文书，也能够采取从键盘101直接输入，还能够使用软盘104，CD-ROM装置(图1中未示出)和通信线路(图1中未示出)等，从其它装置输入的结构，另外，还能够采取从基于全文检索系统等的检索结果进行输入的结构，进而，还能够采取从检索结果输出程序132的输出选择种文书的结构。

接着，在步骤1401中，起动共用库160的单一文字种类文字序列抽取程序161，用文字种类边界分割在上述种文书读入程序140中读入的种文书的文本，获取单一文字种类文字序列，存储到工作区170中。

而且，在步骤1402中，起动后述的特征文字序列抽取程序141，从在上述单一文字种类文字序列抽取程序161中获取的单一文字种类文字序列，抽取特征文字序列。

接着，在步骤1403中，起动种文书内出现次数计数程序145，计数在上述特征文字序列抽取程序141中获取的特征文字序列的种文书内的出现次数。

接着，在步骤1404中，起动出现次数获取程序146，获取在上述特征文字序列抽取程序141中获取的特征文字序列的文本150中的各文书内的出现次数。

最后，在步骤1405中，起动相似度计算程序148，对于在上述特征文字序列抽取程序141中获取的各特征文字序列，从上述种文书内出现次数获取程序145中获取的种文书内出现次数和在上述出现次数获取程序146中获取的文本150中的各文书内的出现次数，计算种文书与文本150内的各文书的相似度。

本实施例中，相似度的计算方面虽然使用上述的相似度计算公式(1)，然而也可以使用其它的方法。如果使用该相似度计算公式(1)，计算把上述的文书1“…。携带電話の使用時のマナ一が問题になる。…”指定为种文书时的文书i的相似度S(i)，则成为如下所示。

S(1)＝1.0

S(2)＝0.262

S(3)＝0.048

S(4)＝0.0

以上是相似文书检索程序131的处理顺序。

其次，使用图17的PAD图说明在图14所示的步骤1402中由相似文书检索程序131起动的特征文字序列抽取程序141的处理顺序。

在特征文字序列抽取程序141中，在步骤1700中，由图14所示的步骤1401中的单一文字种类文字序列抽取程序161，获取存储到工作区170中的所有的单一文字种类文字序列。

接着，在步骤1701中，对于在上述步骤1700中获取的所有的单一文字种类文字序列，反复执行以下的步骤1702～1704。

即，在步骤1702中，判定在步骤1700中获取的单一文字种类文字序列的文字种类，在该文字种类是汉字和片假名的情况下，执行步骤1703，在汉字和片假名以外的情况下，执行步骤1704。

在步骤1703中，起动后述的分割概率比较特征文字序列抽取程序142，从汉字和片假名的单一文字种类文字序列抽取出特征文字序列。

在步骤1704中，把汉字和片假名以外的单一文字种类文字序列自身抽取为特征文字序列。

而且，最后在步骤1705中，把在上述步骤1702和步骤1703中抽取出的特征文字序列存储在工作区170中。

以上是特征文字序列抽取程序141的处理顺序。

以下，使用具体例说明图14所示的特征文字序列抽取程序141的处理顺序。

图27中示出从上述的文书1“…。携带電話の使用時のマナ一が問题になる。…”中抽取文字序列的例子。

首先，从文书1抽取出单一文字种类文字序列“…”“。”“携带電話”“の”“使用時”“の”“マナ一”“が”“問题”“になる”“。”“…”。

接着，判定这些单一文字种类文字序列的文字种类，对于汉字文字序列“携带電話”“携带電話”“問题”和片假名文字序列“マナ一”由分割概率比较特征文字序列抽取程序142抽取特征文字序列，从汉字文字序列和片假名文字序列以外的文字序列“の”“の”“が”“になる”“。”把单一文字序列自身抽取为特征文字序列。

以上是特征文字序列抽取程序141的具体处理例。

其次，使用图26的PAD图说明在图14所示的步骤1404中由相似文书检索程序131起动的出现次数获取程序146的处理顺序。

在出现次数获取程序146中，获取在图14所示的步骤1402中存储到工作区170中的特征文字序列(步骤2600)。

而且，对于存储到工作区170中的所有的特征文字序列，执行步骤2602(步骤2601)。

在步骤2602中，起动出现次数文件读入程序147，获取文本150内的各文书中的特征文字序列的出现次数，存储到工作区170中。

以上是出现次数获取程序146的处理顺序。

其次，使用图18的PAD图说明在图17所示的步骤1703中由特征文字序列抽取程序141起动的分割概率比较特征文字序列抽取程序142的处理顺序。

分割概率比较特征文字序列抽取程序142在步骤1800中，把最后抽取出的特征文字序列的末尾的文字位置(以下，称为最新分割点)LS的初始值设定为0。

而且，在图17所示的步骤1703中，在被输入的单一文字种类文字序列的文字序列长度大于预先确定的长度时，反复执行以下的步骤1802～1809(步骤1801)。

在步骤1802中，起动后述的分割概率计算程序143，计算从单一文字种类文字序列的起始至第i个文字的分割概率P(i)和至第(i+1)个文字的分割概率P(i+1)。

接着，在步骤1803中，把在上述分割概率计算程序143中计算出的P(i)与P(i+1)的值进行比较，在P(i)大于P(i+1)时执行步骤1804，在P(i)小于P(i+1)时执行步骤1806，在P(i)与P(i+1)相等时执行步骤1808。

在步骤1804中，把从单一文字种类文字序列的起始至第i个文字的文字序列抽取为特征文字序列。而且，在步骤1805中，把最新分割点LS设定为i，把i的值进行加1运算。

在步骤1806中，把从单一文字种类文字序列的起始至第(i+1)个文字的文字序列抽取为特征文字序列。而且，在步骤1807中，把最新分割点LS设定为(i+1)，把i的值进行加2运算。

在步骤1808中，分别把从单一文字种类文字序列的起始至第i个文字的文字序列和至第(i+1)个文字的文字序列抽取为特征文字序列。而且，在步骤1809中，把最新分割点LS设定为(i+1)，把i的值进行加2运算。

以上是分割概率比较特征文字序列抽取程序142的处理顺序。

以下，使用具体例说明图18所示的分割概率比较特征文字序列抽取程序142的处理顺序。

图8中示出从上述的文书1“…。携带電話の使用時のマナ一が問题になる。…”中抽取出的单一文字种类文字序列“携带電話”抽取特征文字序列的例子。

首先，“携带電話”中第1个文字的分割概率P(1)作为“携”的单独概率0.01与“带”的起始概率0.11的积计算为0.001，第2个文字的分割概率P(2)作为“携带”的单独概率0.10与“電”的起始概率0.36的积计算为0.36。其次，把这些分割概率进行比较，用值大的一方分割单一文字种类文字序列“携带電話”。这种情况下，由于第2个文字的分割概率P(2)(＝0.036)比第1个文字的分割概率P(1)(＝0.001)大，因此单一文字种类文字序列“携带電話”被分割为“携带”和“電話”。

另外，图20中示出从上述文书1抽取出的单一文字种类文字序列“マナ一”抽取特征文字序列的例子。首先，“マナ一”中第2个文字的分割概率P(2)作为“マナ”的单独概率0.00与“一”的单独概率0.00的积计算为0.00。其次，第3个文字的分割概率P(3)即单一文字种类文字序列“マナ一”自身的出现概率作为末尾概率0.79与1.0的积计算为0.79。把这些值进行比较，用值大的一方分割单一文字种类文字序列。这种情况下，由于第3个文字的分割概率P(3)(＝0.79)比“マナ一”的第2个文字的分割概率P(2)(＝0.00)大，因此成为用第3个文字进行分割，结果成为不分割单一文字种类文字序列“マナ一”。

以上是分割概率比较特征文字序列抽取程序142的具体的处理顺序。

其次，使用图19的PAD图说明在图18所示的步骤1801中由分割概率比较特征文字序列抽取程序142起动的分割概率计算程序143的处理顺序。

分割概率计算程序143在步骤1900中，获取在图18所示的步骤1801中指定的分割概率的计算位置i以及最新分割点LS。

其次，为了计算出计算位置i中的分割概率P(i)，执行步骤1901～1906，获取各出现概率。

首先，在步骤1901中，把在图12所示的步骤1201中抽取出的n元字符的长度n与分割概率的计算位置i进行比较，在(i-LS)小于n时，执行步骤1902，在(i-LS)大于n时，执行步骤1903。

在步骤1902中，起动出现概率文件读入程序144，获取从最新分割点LS到i个文字的文字序列的单独概率，作为分割概率计算位置i的前方的文字序列的出现概率Pre(i)。

在步骤1903中，起动出现概率文件读入程序144，获取从最新分割点LS到i个文字的文字序列后方的n元字符的末尾概率，作为分割概率计算位置i的前方文字序列的出现概率Pre(i)。

接着，在步骤1904中，把单一文字种类文字序列的文字序列长Ln与分割概率计算位置i进行比较，在Ln大于(i+1)时执行步骤1905，在Ln与(i+1)相等时，执行步骤1906。

在步骤1905中，起动出现概率文件读入程序144，获取第(i+1)个文字的一元字符的起始概率，作为分割概率计算位置i的后方文字序列的出现概率Post(i)。

在步骤1906中，起动出现概率文件读入程序144，获取第(i+1)个文字的一元字符的单独概率，作为分割概率计算位置i的后方文字序列的出现概率Post(i)。

接着，为了计算出计算位置(i+1)中的分割概率P(i+1)，执行步骤1907～1913，获取各出现概率。

首先，在步骤1907中，把在图12所示的步骤1201中抽取出的n元字符的长度n与分割概率的计算位置i进行比较，((i+1)-LS)小于n时，执行步骤1908，((i+1)-LS)大于n时，执行步骤1909。

在步骤1908中，起动出现概率文件读入程序144，获取从最新分割点LS至第(i+1)个文字的文字序列的单独概率，作为分割概率计算位置(i+1)的前方文字序列的出现概率Pre(i+1)。

在步骤1909中，起动出现概率文件读入程序144，获取从最新分割点LS至第(i+1)个文字的文字序列的后方的n元字符的末尾概率，作为分割概率计算位置(i+1)的后方文字序列的出现概率Pre(i+1)。

接着，在步骤1910中，把单一文字种类文字序列的文字序列长Ln与分割概率计算位置i进行比较，在Ln大于(i+2)时执行步骤1911，在Ln等于(i+2)时执行步骤1912，在Ln等于(i+1)时执行步骤1913。

在步骤1911中，起动出现概率文件读入程序144，获取第(i+2)个文字的一元字符的起始概率，作为分割概率计算位置(i+1)的后方文字序列的出现概率Post(i+1)。

在步骤1912中，起动出现概率文件读入程序144，获取第(i+2)个文字的一元字符的单独概率，作为分割概率计算位置(i+1)的后方文字序列的出现概率Post(i+1)。

在步骤1913中，把分割概率计算位置(i+1)的后方文字序列的出现概率取为Post(i+1)＝1。

接着，在步骤1914中，把在上述步骤1901～1913中获得的Pre(i)与在上述步骤1904～1906中获得的Post(i)的积作为计算位置i中的分割概率P(i)，把在上述步骤1907～1909中获得的Pre(i+1)与在上述步骤1910～1913中获得的Post(i+1)的积作为计算位置(i+1)中的分割概率P(i+1)，分别存储到工作区170中。

以上是分割概率计算程序143的处理顺序。

以下，使用具体例说明图19所示的分割概率计算程序143的处理顺序。

图28中示出计算从上述的文书1“…。携带電話の使用時のマナ一が問题になる。…”中抽取出的单一文字种类文字序列“携带電話”的分割概率的例子。另外，本图所示的例中，把存储到出现概率文件152中的n元字符的长度取为2，把计算分割概率的第i个文字取为第1个文字。即，对计算第1个文字的分割概率P(1)以及第2个文字的分割概率P(2)，进行以下的说明。

首先，为了确认至作为分割概率的计算位置的第1个文字的文字序列的单独概率是否存储到出现概率文件600中，把存储到出现概率文件600中的n元字符长度2与分割概率计算位置1进行比较。其结果，由于存储的n元字符长度大，因此从出现概率文件600获取至第1个文字的文字序列“携”的单独概率0.01。

其次，为了确认在计算分割概率的位置的后方存在着什么文字，把单一文字种类文字序列“携带電話”的文字序列长度4与分割概率计算位置1进行比较。其结果，由于存在2个文字以上的文字序列“带電話”，因此从出现概率文件600获取“带”的起始概率0.11。而且，计算“携”的单独概率0.01与“带”的起始概率0.11的积，获得第1个文字的分割概率P(1)＝0.001。

同样，为了确认至作为分割概率的计算位置的第2个汉字的文字序列的单独概率是否存储到出现概率文件600中，把存储到出现概率文件600中的n元字符长度2与分割概率计算位置2进行比较。其结果，由于存储的n元字符长度与计算位置相等，因此从出现概率文件600获取至第2个文字的文字序列“携带”的单独概率0.10。

接着，为了确认在分割概率的计算位置的后方存在什么文字，把单一文字种类文字序列“携带電話”的文字序列长度4与分割概率计算位置2进行比较。其结果，由于存在着2个文字以上的文字序列“電話”，因此从出现概率文件600获取“電”的起始概率0.36。而且，计算“携带”的单独概率0.10与“带”的起始概率0.36的积，得到至2个文字的分割概率P(2)＝0.036。

以上是分割概率计算程序143的具体的处理顺序。

以上是本发明的第一实施例。

本实施例中，作为存储到出现信息文件151和出现概率文件152中存储的n元字符长度使用了值2，说明了特征文字序列抽取程序143的处理顺序，然而该长度也可以使用1和3等固定值，还可以根据数据库中的出现次数等的信息取为可变长度，还可以取为单一文字种类文字序列自身的长度m，进而，还已明确即使是它们的组合，同样也能够进行特征文字序列抽取的处理。

另外，本实施例中，作为检索与种文书的内容相似文书的处理，说明了特征文字序列抽取程序143的处理顺序，而代替该种文书，即使指定了文章也同样能够抽取特征文字序列，能够进行相似文书的检索。

另外，本实施例中，使用通过从单一文字种类文字序列的起始把至第n个文字的分割概率与至第(n+1)个文字的分割概率进行比较抽取特征文字序列的例子，说明了分割概率比较特征文字序列抽取程序142的处理顺序，然而即使从单一文字种类文字序列的末尾，把分别至第n个文字的分割概率与至第(n+1)个文字的分割概率进行比较，进而把单一文字种类文字序列中的m个文字(m是大于1的整数)与n个文字的分割概率进行比较，同样也能够进行表示文书特征的文字序列的抽取。

另外，本实施例中，以包含对于汉字和片假名的单一文字种类文字序列的分割概率比较特征文字序列抽取程序142的结构进行了说明，而在以不包括汉字和片假名的数据库为对象的情况下，可以采用不包括相对应的分割概率比较特征文字序列抽取程序142的结构，也可以采用包括对应于汉字和片假名以外的分割概率比较特征文字序列抽取程序142的结构，还可以采用如现有技术2所示那样包括对应于各种文字种类的特征文字序列抽取程序的结构。

另外，本实施例中，采用了从单一文字种类文字序列抽取出特征文字序列的结构，而通过以特定的文字种类作为边界从跨在边界前后的部分文字序列抽取出特征文字序列，例如，能够把“F1”和“ビタミン C”，“W杯”，“ケイ素”字序列用于检索，进而也能够实现高精度的相似文书检索。

另外，在本实施例中出现信息文件生成登录程序121中，把文字种类边界作为单词的分割点，计数各n元字符的起始次数，末尾次数以及单独次数，然而也可以把附属语，即助词和助动词等作为单词分割点的候补，计算各n元字符的起始次数，末尾次数以及单独次数。

进而，在本实施例中，采用了以图5所示的表形式生成出现信息文件151的方法，然而在该方法中，伴随着成为对象的n元字符长度增大，n元字符种类增加，因此在分割概率文件生成登录程序124的处理中需要很长时间。该问题通过对于特征文字序列添加检索用的索引可以解决。由此，即使n元字符的种类增加，也能够高速地实现登录处理。作为对于该特征文字序列检索用索引，可以使用全文检索用索引153，也可以使用如在“特开平8-329112号公报”等中公开的单词索引方式。该问题虽然在出现概率文件152以及出现次数文件153中也发生，但通过同样地添加检索用的索引能够解决。

进而，本实施例中，采取了在文书登录时起动出现概率文件生成登录程序124，生成出现概率文件152的结构，而在执行相似文书检索程序的分割概率比较特征文字序列抽取程序142时，通过从存储到出现信息文件151中的各n元字符的出现信息计算该出现概率，也能够削减存储到磁盘105中的文件。

另外，本实施例中，说明了使用由特征文字序列抽取程序141抽取的特征文字序列的相似文书检索系统，而也能够用作为从种文书抽取特征文字序列的特征文字序列抽取系统，还能够用于“特开平8-153121号公报”中所示的通过词素分析抽取包含在文书中的单词，使用该单词把文书自动地分类的系统中。

但是，第一实施例中的分割概率比较特征文字抽取程序142由于把第i个文字的分割概率P(i)与第(i+1)个文字的分割概率P(i+1)进行比较，用值大的一方进行分割，因此存在着从所有的单一文字种类文字序列抽取出小于(i+1)个文字的特征文字序列，而错误地把比(i+1)个文字长的单词进行分割的问题。

以下，使用图22所示的具体例说明第一实施例中产生错误地把比(i+1)个文字长的单词进行分割的问题的例子。另外，本图中，把用汉字构成的单一文字种类文字序列“北海道”作为对象，把分割概率计算位置i的初始值取为1。

在分割概率比较特征文字序列抽取程序142中，首先，在步骤2200中，起动上述的分割概率计算程序143，计算第1个文字的分割概率P(1)和第2个文字的分割概率P(2)。本图所示的例中，在单一文字种类文字序列“北海道”的第1个文字分割为“北”和“海道”的概率，以一元字符“北”的单独概率0.03与二元字符“海道”的单独概率0.00的积计算为P(1)＝0.000。同样，在第2个文字分割为“北海”和“道”的概率，作为二元字符“北海”的单独概率0.03与一元字符“道”的单独概率0.12的积计算为P(2)＝0.004。

接着，在步骤2201中，把在上述步骤2200中计算出的P(1)与P(2)中值大的一方作为分割点，把从单一文字种类文字序列的起始到分割点的文字序列抽取为特征文字序列。本图所示的例中，由于P(2)大于P(1)，因此在第2个文字分割单一文字种类文字序列“北海道”，把至第2个文字的文字序列“北海”抽取为特征文字序列。

接着，在步骤2202中，把最后抽取了特征文字序列的末尾的文字位置(以下，称为最新分割点)LS设定为2，以最新分割点以后的单一文字种类文字序列“道”作为对象继续进行特征文字序列抽取处理。

接着，在步骤2203中，由于单一文字种类文字序列“道”的文字序列长度1小于预先确定的长度2，因此文字序列“道”被抽取为特征文字序列。其结果，“…。道の駅と呼はれるサ一ビスエリアが国道

いに建設されることになつた。…”等的文书作为相似文书被错误地检索出来。

以上是第一实施例中的分割概率比较特征文字序列抽取程序142的处理例。本图所示的例中，把第1个文字和第2个文字的分割概率P(1)与P(2)进行比较，把值大的一方作为分割点，因此从单一文字种类文字序列“北海道”把“北海”和“道”抽取为特征文字序列，把与种文书的中心概念偏离的文书检索为相似文书。

因此，在适用了本发明的相似文书检索系统的第二实施例中，仅在从单一文字种类文字序列抽取特征文字序列时所计算的分割概率高于预定值(以下，称为分割概率阈值)时，进行比较处理，由此能够抽取比(i+1)个文字长的特征文字序列。

本实施例采取与第一实施例(图1)几乎相同的结构，然而分割概率比较特征文字序列抽取程序142的处理顺序不同，如图21的PAD图所示，添加了步骤2100～2104。

以下，使用图21的PAD图说明第2实施例中的分割概率比较特征文字序列抽取程序142a的处理顺序。

在分割概率比较特征文字序列抽取程序142a中，在步骤1800中，把最新分割点LS的初始值设定为0。

而且，在成为特征文字序列的抽取对象的单一文字种类文字序列的文字序列长度大于预先确定的长度时，反复执行以下的步骤1802～1807，步骤2101～2103(步骤2100)。

在步骤1802中，起动分割概率计算程序143，计算从单一文字种类文字序列的起始至第i个文字的分割概率P(i)和至第(i+1)个文字的分割概率P(i+1)。

接着，在步骤2100中，把在上述分割概率计算程序143中计算出的分割概率P(i)，P(i+1)的值与预先确定的分割阈值Th的值进行比较，抽取出最大的值。其结果，如果抽取出分割概率P(i)则执行步骤1804，在抽取出分割概率P(i+1)时执行步骤1806，抽取出分割阈值Th时执行步骤2101。

在步骤2101中，把分割概率的计算位置i与单一文字种类文字序列的文字序列长度Ln进行比较，在(i+1)小于文字序列长度Ln时，执行步骤2102，在(i+1)大于文字序列长度Ln时，执行步骤2103。

在步骤2102中，把分割概率的计算位置i的值进行加1运算。

在步骤2103中，把单一文字种类文字序列自身抽取为特征文字序列。而且，在步骤2104中，把最新分割点LS设定为文字序列长度Ln，把i的值进行加1运算。

以上是分割概率比较特征文字序列抽取程序142a的处理顺序。

以下，使用图23所示的具体例分别说明第2实施例中的分割概率比较特征文字序列抽取程序142a的处理顺序。另外，本图中，以用汉字构成的单一文字种类文字序列“北海道”作为对象，把分割阈值Th取为0.050，把分割概率计算位置i的初始值取为1，说明分割概率比较特征文字序列抽取程序142a的处理顺序。

在分割概率比较特征文字序列抽取程序142a中，首先，在步骤2200中，起动上述的分割概率计算程序143，计算第1个文字的分割概率P(1)和第2个文字的分割概率P(2)，得到P(1)＝0.000以及P(2)＝0.004。

其次，在步骤2301中，抽取出在上述步骤2200中计算出的分割概率P(1)，P(2)以及分割阈值Th中最大的值。其结果，由于分割阈值Th最大，因此在步骤2302中，把分割概率的计算位置i(＝1)与单一文字种类文字序列“北海道”的文字序列长度Ln(＝3)进行比较。其结果，由于分割概率的计算位置i小，因此把i的值进行加1运算。

而且，在步骤2304中，计算第2个文字的分割概率P(2)和第3个文字的分割概率P(3)。该例中，在第2个文字被分割为“北海”和“道”的概率作为二元字符“北海”的单独概率0.03与一元字符“道”的单独概率0.12的积计算为P(2)＝0.004，作为至第3个文字的“北海道”的出现概率，计算为二元字符“北海”的起始概率和二元字符“海道”的末尾概率的积P(3)＝0.465。

接着，在步骤2305中，抽取在上述步骤2304中计算出的分割概率P(2)，P(3)以及分割阈值T h中最大的值。其结果，由于P(3)最大，因此把至第3个文字“北海道”抽取为特征文字序列。

如以上所说明的那样，如果依据本发明，通过仅在分割概率大于分割阈值时进行比较处理，能够减少本来不应该进行分割位置处的分割。由此，能够大幅度地减少在第一实施例中抽取出的不适当的特征文字序列。因而，在能够适宜地检索表示种文书的概念的同时，能够高速地检索相似文书。

其次，使用图29说明本发明的第三实施例。

在第一实施例以及第二实施例中，由于需要把有可能作为特征文字序列抽取出的所有的文字序列存储到出现次数文件153中，因此伴随着文字序列种类的增加，在获取数据库内各文书中的出现次数时需要很长时间，同时增加了所需要的磁盘容量。

适用于本发明的相似文书检索系统的第三实施例是在获取对于从种文书抽取出的特征文字序列的数据库内各文书中的出现次数时，不使用出现次数文件153，通过使用全文检索用索引减少上述所需要的磁带容量的方式。

即，如果依据本实施例，则在获取上述第一实施例中数据库内各文书中的出现次数时通过利用全文检索系统，对于文字序列种类多的数据库也能够实现高速的相似文书检索。进而，由于用全文检索用索引代替出现次数文件153，因此在把本相似文书检索系统与全文检索系统组合实现的情况下，与第一实施例相比能够减少所需要的磁盘容量。

本实施例中采取与第一实施例(图1)几乎相同的结构，然而构成相似文书检索程序131中的出现次数获取程序146的出现次数文件读入程序147不同。代替该程序，如图29所示使用全文检索程序2902。

以下，使用图30说明本实施例的处理顺序中与第一实施例不同的出现次数获取程序146a的处理顺序。

这里，与第一实施例中的出现次数获取程序146(图2)的不同之点仅是出现次数获取步骤3000。其它的处理步骤的处理顺序与在第一实施例中说明过的相同。

在出现次数获取步骤3000中，通过用全文检索程序2902检索使用特征文字序列抽取程序141存储到工作区170中的特征文字序列，获取文本150内各文书中的该特征文字序列的出现次数。

作为本实施例的出现次数获取步骤3000中使用的全文检索程序2902，可以适用任何的方式。例如，可以使用“特开昭64-35627号公报”(以下，称为现有技术4)中公开的检索方式。

在基于该现有技术4的n元字符索引方式中，如图29所示，在文书登录时，从向数据库登录的文书的文本数据抽取n元字符和该n元字符在文本中的出现位置，作为全文检索用索引2901预先存储到磁盘装置2900中。检索时抽取在指定的检索项中出现的n元字符，从上述磁盘装置2900中的全文检索用索引2901读入与其相对应的索引，把索引中的n元字符的出现位置进行比较，通过判定从检索项中抽取出的n元字符的位置关系与索引中的n元字符的位置关系是否相等，高速地检索出现指定了检索项的文书。

使用该方法，通过把特征文字序列作为检索项输入到全文检索程序2902中，获取该特征文字序列的出现文书和其位置信息，能够获取该特征文字序列在各文书的出现次数。

以下，使用图7和图15具体地说明使用了现有技术4的出现次数获取方法。另外，本图中，把n元字符的n值取为1。

首先，使用图7具体地说明文书登录时的处理顺序。在n元字符索引生成登录步骤702中读入登录在数据库中的文本701，生成n元字符索引700。在该n元字符索引700中，存储文本701中出现的所有的一元字符和文本701中一元字符的出现位置。

本图所示的文本701中，“携”的一元字符由于出现在文本701内的文书编号2的第26个文字处，因此在n元字符索引700中以一元字符“携”和与其相对应的形式，存储出现位置(2，26)。这里，例如，(2，26)示出在文书编号2的第26个文字处出现。

其次，使用图15具体地说明检索时的处理顺序。本图中，示出从上述的n元字符索引700获取从上述文书1“…。携带電話の使用時のマナ一が問题になる。…”抽取出的特征文字序列“電話”的出现次数的例子。

首先，成为检索对象的特征文字序列输入到n元字符抽取单元1500中，抽取特征文字序列中出现的所有的n元字符和该n元字符在特征文字序列中的出现位置。其次，被抽取出的n元字符和与之相对应的n元字符的特征文字序列中的出现位置被输入到索引检索单元1501中。在索引检索单元1501中，从n元字符索引700读入与从特征文字序列抽取出的n元字符相对应的索引，从这些索引中抽取出文书编号一致而且具有与特征文字序列中的位置关系相同的位置关系的索引，作为检索结果进行输出。

作为特征序列，输入了“電話”的本图的情况下，首先，在n元字符抽取单元1500中，抽取(一元字符“電”，一元字符位置“1”)和(一元字符“話”，一元字符位置“2”)。这里，n元字符位置“1”表示检索项的起始，位置“2”表示其下一个文字位置。

接着，在索引检索单元1501中，从n元字符索引700读入与一元字符“電”和“話”相对应的索引。抽取出与这些索引中的出现文书编号相同，而且出现位置如n元字符位置“1”和n元字符位置“2”那样连续的索引，即相邻的索引，作为检索结果进行输出。

本图中，由于一元字符“電”的(2，28)和一元字符“話”的出现位置(2，29)文书编号相同，位置以“28”和“29”相邻接，因此可知n元字符“電話”作为文字序列存在，检测出在文书2中出现的检索项“電話”。然而，由于一元字符“電”的(3，11)和一元字符“話”的(3，15)不邻接，由此知道在该位置不出现特征文字序列“電話”。

而且，通过计数从上述索引检索单元1501作为检索结果输出的出现位置，得到该特征文字序列的出现次数。

如以上所说明的那样，如果依据本实施例，则通过使用全文检索用索引代替出现次数文件的特征文字序列检索用索引和出现次数文件，能够不增加多余的文件而高速地实现相似文书检索。

其次，使用图31说明本发明的第四实施例。

在第一，第二以及第三实施例中，采取通过从由种文书抽取出的单一文字种类文字序列的起始至第n个文字的分割概率和至第(n+1)个文字的分割概率，抽取特征文字序列的方式，然而由于需要保持出现信息文件151和出现概率文件152，因此伴随着文字序列种类的增加，将增加所需要的磁盘容量。

适用于本发明的相似文书检索系统的第四实施例是不使用出现信息文件151和出现概率文件152，而通过利用出现次数文件153，减少上述所需要的磁盘容量的方式。

适用于本发明的第四实施例采取与第一实施例(图1)几乎相同的结构，然而构成相似文书检索程序131的特征文字序列抽取程序141不同，由抽取程序3100和上述的出现次数获取程序146构成。

以下，使用图32说明本实施例的处理顺序中与第一实施例不同的特征文字序列抽取程序141a的处理顺序。

特征文字序列抽取程序141a，首先在步骤3200中，使用上述的单一文字种类文字序列抽取程序161，获取存储到工作区170中的所有的单一文字种类文字序列。

接着，在步骤3201中，对于在上述步骤3200获取的所有的单一文字种类文字序列，反复执行以下的步骤3202～3205。

即，在步骤3202中，起动n元字符抽取程序3100，从在步骤3200中获取的单一文字种类文字序列，从起始开始把预先确定了长度n(n大于1的整数)的n元字符分别移动1个文字，抽取出所有的n元字符。

而且，在步骤3203中，对于由上述n元字符抽取程序3100抽取出的所有的n元字符，反复执行以下的步骤3204。即，在步骤3204中，起动出现次数获取程序146，获取由上述n元字符抽取程序3100抽取出的n元字符的出现次数。

接着，在步骤3205中，按照在上述步骤3204中获取的各n元字符的出现次数的降序分类，从高位开始把预先确定了个数的n元字符抽取为特征文字序列。

以上是特征文字序列抽取程序141a的处理顺序。

以下使用具体例说明图32所示的特征文字序列抽取程序141a的处理顺序。

图33中示出从上述的文书1“…。携带電話の使用時のマナ一が問题になる。…”抽取特征文字序列的例子。本图所示的例中把n元字符的n的值取为2，从各个单一文字种类文字序列把2个的二元字符抽取为特征n元字符的。

首先，从文书1抽取单一文字种类文字序列“…”“。”“携带電話”“の”“使用時”“の”“マナ一”“が”“問题”“になる”“。”“…”。

其次，从这些单一文字种类文字序列的起始各移动1个文字的同时抽取所有的二元字符，按照各二元字符的出现次数的降序分类。例如，从单一文字种类文字序列抽取“携带”，“带電”，“電話”3个二元字符，分别获取数据库内的出现次数。其结果，(電話，5283)，(携带，462)，(带電，269)。这里，(電話，5283)表示二元字符“電話”在数据库内的出现次数是5283次。

接着，在各单一文字种类文字序列中，把高位的2个二元字符抽取为特征n元字符。其结果，在单一文字种类文字序列“携带電話”中，由于(電話，5283)，(携带，462)是高位的2个序列，因此“電話”以及“携带”被抽取为特征文字序列。

以上是特征文字序列抽取程序141a的具体处理例。

如以上所说明的那样，如果依据本实施例，则不使用出现信息文件151和出现概率文件152，而能够通过利用出现次数文件153，抽取出正确地反映了数据库中的实际的出现状况的特征文字序列。

另外，本实施例中，以从单一文字种类文字序列的起始移动1个文字的同时抽取所有的预先确定了长度n的n元字符为例，说明了n元字符抽取程序3100的处理顺序，然而也可以抽取单一文字种类文字序列中任意的n元字符，进而，还可以抽取单一文字种类文字序列中的m元字符(m-gram)(m是大于1的整数)和n元字符。另外，虽然取预先确定抽取的n元字符的长度n的例子，但也可以根据单一文字种类文字序列的长度变更抽取的n的值，还可以根据单一文字种类文字序列的文字种类进行变更。另外，本发明的n元字符抽取方法由于能够抽取表示文书特征的n元字符，因此能够适用于表示使用了n元字符的文书特征的矢量的计算和使用了n元字符的文书的分类。

依据本发明，能够抽取特征文字序列使得误分割减少。由此，即使在不参照单词辞典进行相似文书检索的情况下，由于也能够使用汇总了意义的文字序列进行检索，因此能够实现减少了偏离中心概念的相似文书检索。

Claims

1.一种单词抽取方法，用于从用户指定的文书数据中抽取包含在该文书数据中的单词，其特征在于具有：

分割概率计算步骤，从所述文书数据抽取部分文字序列，对于将该部分文字序列从一个文字位置进行分割得到的第1部分文字序列和第2部分文字序列，通过计算该第1部分文字序列的末尾成为单词的末尾的概率与该第2部分文字序列的起始成为单词的末尾的概率的积，来计算所述被抽取出的部分文字序列被在第1部分文字序列和第2部分文字序列之间分割的分割概率；

单词分割点判定步骤，通过把在所述分割概率计算步骤中计算出的至少2个位置以上的文字位置处的分割概率进行比较，决定指定文本中的单词的分割点。

2.权利要求1所述的单词抽取方法，其特征在于：

所述单词分割点判定步骤，通过把在所述分割概率计算步骤中计算出的至少2个位置以上的文字位置处的分割概率与预定的阈值进行比较，决定指定文本中的单词分割点。

3.权利要求1或2所述的单词抽取方法，其特征在于：

所述分割概率计算步骤，进一步通过使用所述第1部分文字序列或第2部分文字序列的起始或者末尾连接文字种类的边界的概率，计算该文字位置处的分割概率。

4.一种相似文书检索方法，具有如下步骤：

以把文字信息存储为代码数据的文本数据库作为对象，从用户指定的汇总文书的指定文本抽取单词的单词抽取步骤，

对于在所述单词抽取步骤中抽取出的一个以上的单词，计数该指定文本中的出现次数的指定文本内出现次数计数步骤，

对于在所述单词抽取步骤中抽取出的一个以上的单词，获取存储到该文本数据库中的文书的登录文本中出现次数的登录文本内出现次数获取步骤，

使用在所述指定文本内出现次数计数步骤中计数的指定文本内出现次数和在所述登录文本内出现次数获取步骤中获取的登录文本内出现次数，用预定的计算公式计算出相对于该指定文本的各登录文本的相似度的相似度计算步骤，

把在所述相似度计算步骤中计算出的相对于该指定文本的各登录文本的相似度作为检索结果输出的检索结果输出步骤，

所述单词抽取步骤具有

单词分割点判定步骤，把在所述分割概率计算步骤中计算出的至少2个位置以上的文字位置处的分割概率进行比较，决定指定文本中的单词的分割点。

5.权利要求4所述的相似文书检索方法，其特征在于：

所述单词分割点判定步骤，把在所述分割概率计算步骤中计算出的至少2个位置以上的文字位置处的分割概率与预定的阈值进行比较，决定指定文本中的单词分割点。

6.权利要求4或5所述的相似文书检索方法，其特征在于：

所述的分割概率计算步骤，通过使用所述第1部分文字序列或第2部分文字序列的起始或者末尾连接文字种类的边界的概率，计算该文字位置处的分割概率。

7.权利要求6所述的相似文书检索方法，其特征在于：

作为向文本数据库进行的文书登录处理，具有文字种类边界概率文件生成步骤，把登录文本中的各预定文字种类的改变作为边界抽取文字序列，对于该抽取出的文字序列中包含的部分文字序列，计数在所述登录文本中出现的出现次数、在单词的起始出现的起始次数、在单词的末尾出现的末尾次数以及该部分文字序列作为单词出现的单独次数，从该被计数的出现次数、起始次数及末尾次数，计算所述部分文字序列成为单词的起始的概率及成为单词的末尾的概率，将所述计算出的概率存储到文字种类边界概率文件中，

作为所述分割概率计算步骤具有通过参照所述文字种类边界概率文件，获取在该文字位置连接预定文字种类的边界的概率的文字种类边界概率获取步骤。

8.一种单词抽取装置，用于从用户指定的文书数据中抽取包含在该文书数据中的单词，其特征在于具有：

分割概率计算装置，从所述文书数据抽取部分文字序列，对于将该部分文字序列从一个文字位置进行分割得到的第1部分文字序列和第2部分文字序列，通过计算该第1部分文字序列的末尾成为单词的末尾的概率与该第2部分文字序列的起始成为单词的末尾的概率的积，来计算所述被抽取出的部分文字序列被在第1部分文字序列和第2部分文字序列之间分割的分割概率；

单词分割点判定装置，通过把在所述分割概率计算装置中计算出的至少2个位置以上的文字位置处的分割概率进行比较，决定指定文本中的单词的分割点。

9.权利要求8所述的单词抽取装置，其特征在于：

所述单词分割点判定装置，通过把在所述分割概率计算装置中计算出的至少2个位置以上的文字位置处的分割概率与预定的阈值进行比较，决定指定文本中的单词分割点。

10.权利要求8或9所述的单词抽取装置，其特征在于：

所述分割概率计算装置，通过使用所述第1部分文字序列或第2部分文字序列的起始或者末尾连接文字种类的边界的概率，计算该文字位置处的分割概率。

11.一种相似文书检索装置，具有

以把文字信息存储为代码数据的文本数据库作为对象，从用户指定的汇总文书的指定文本抽取单词的单词抽取装置，

对于在所述单词抽取装置中抽取出的一个以上的单词，计数该指定文本中的出现次数的指定文本内出现次数计数装置，

对于在所述单词抽取装置中抽取出的一个以上的单词，获取存储到该文本数据库中的文书的登录文本中出现次数的登录文本内出现次数获取装置，

使用在所述指定文本内出现次数计数装置中计数的指定文本内出现次数和在所述登录文本内出现次数获取装置中获取的登录文本内出现次数，用预定的计算公式计算出相对于该指定文本的各登录文本的相似度的相似度计算装置，

把在所述相似度计算装置中计算出的相对于该指定文本的各登录文本的相似度作为检索结果输出的检索结果输出装置，

所述单词抽取装置具有

分割概率计算装置，从所述文书数据抽取部分文字序列，对于将该部分文字序列从一个文字位置进行分割得到的第1部分文字序列和第2部分文字序列，通过计算该第1部分文字序列的末尾成为单词的末尾的概率与该第2部分文字序列的起始成为单词的末尾的概率的积，来计算所述被抽取出的部分文字序列被第1部分文字序列和第2部分文字序列之间分割的分割概率；

单词分割点判定装置，把在所述分割概率计算装置中计算出的至少2个位置以上的文字位置处的分割概率进行比较，决定指定文本中的单词的分割点。

12.权利要求11所述的相似文书检索装置，其特征在于：

所述单词分割点判定装置，把在所述分割概率计算装置中计算出的至少2个位置以上的文字位置处的分割概率与预定的阈值进行比较，决定指定文本中的单词分割点。

13.权利要求11或12所述的相似文书检索装置，其特征在于：

所述的分割概率计算装置，进一步通过使用所述第1部分文字序列或第2部分文字序列的起始或者末尾连接文字种类的边界的概率，计算该文字位置处的分割概率。

14.权利要求13所述的相似文书检索装置，其特征在于：

具有文字种类边界概率文件生成装置，把登录文本中的各预定文字种类的改变作为边界抽取文字序列，对于该抽取出的文字序列中包含的部分文字序列，计数在所述登录文本中出现的出现次数、在单词的起始出现的起始次数、在单词的末尾出现的末尾次数以及该部分文字序列作为单词出现的单独次数，从该被计数的出现次数、起始次数及末尾次数，计算所述部分文字序列成为单词的起始的概率及成为单词的末尾的概率，将所述计算出的概率在座到文字种类边界概率文件中，

作为所述分割概率计算装置具有通过参照所述文字种类边界概率文件，获取在该文字位置连接预定文字种类的边界的概率的文字种类边界概率获取装置。