CN1198225C

CN1198225C - 关键字提取系统及采用该系统的文本检索系统

Info

Publication number: CN1198225C
Application number: CNB981159095A
Authority: CN
Inventors: 佐藤光弘; 野口直彦; 菅野祏司; 野本昌子; 稻叶光昭; 福重贵雄
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 1997-07-02
Filing date: 1998-07-02
Publication date: 2005-04-20
Anticipated expiration: 2018-07-02
Also published as: CN1206158A; JP3607462B2; EP0889419B1; EP0889419A2; DE69833238T2; US6212517B1; EP0889419A3; DE69833238D1; JPH1125108A; KR19990013736A; KR100304335B1

Abstract

便于文本检索系统中进行搜索的系统。系统为构成文本库的每个文本生成文本中所用每个单字的单字ID以及相应单字的单字出现计数。系统为构成文本库的任一文本中所用的每个单字生成总的单字出现计数和包含文本计数，它表示包含该单字的文本数。对于所选文本中所含的每个单字，利用该单字出现计数、总的单字出现计数和包含文本计数计算重要度。按照重要度顺序对所选文本中所含的单字排序。至少有一部分排序单字作为所选关键字显示。

Description

关键字提取系统及采用该系统的文本检索系统

技术领域

本发明涉及文档检索系统，尤其涉及一种文档检索系统的子系统，它用以接收从文本库中选出的一批文档(或文本)的目录，并提供按所选一组文本的重要度排列的关键字目录。

背景技术

为了检索最好在常规文本检索系统内包含所需信息的一个或多个文本，用户必须利用能最佳体现所需文本的关键字输入合适的查询请求。然而，对用户而言这些关键字几乎不可能想到。尤其是对所需文本的领域并不熟悉的人而言更是如此。为此，迄今已采取了各种措施，通过一种含有由用户输入关键字的词典(例如辞典、同义字词典等)显示有关的相关字，帮助用户作进一步的检索。然而，由于所获得的相关字取决于事先制作的字典，故获得与所需文本特征对应的的相关字是很难的。再者，利用所获得的相关字进行查询请求不会始终能成功地检索至少一个所需文本。

发明内容

因此，本发明的目的在于提供一种用于文档检索系统的相关关键字发生系统，用以接收从文本库中选出的一批文档(或文本)，并提供一种按所选一组文本的重要度排序的关键字目录，以便于有效和迅速的文档检索。

上述目的是利用一种帮助用户在文本检索系统检索文本库的方法和系统实现的，该文本检索系统具有接收查询请求并返回已检索文本的文本ID目录的功能。该方法包括如下步骤：

为构成文本库的每个文本管理与用于每个所述文本的单字、组合单字和句子(以下统称为“单字”)有关的局部统计信息；

管理与构成文本库的任何文本中所用单字有关的总统计信息；

用户从文本库中选择至少一个文本；

利用对所选文本的局部统计信息和总统计信息，为所选文本中包含的每个单字计算重要度；

按照重要度顺序对所选文本中包含的单字排序；

显示预定数量的已排序的单字作为相关关键字；以及

利用相关关键字帮助用户进入查询请求。

附图说明

从以下结合附图对本发明的较佳实施例的描述中，本发明的目的和优点将更加清楚。其中

图1是示意性方框图，表示用以实施本发明的一台计算机的典型设置；

图2是一个示意图，表示文档检索系统2的一种典型的软件设置，其中根据本发明加入了相关的关键字提取系统100；

图3是一个示意图，表示文本属性表每条记录的典型结构；

图4是一个示意图，表示由图2所示统计信息处理器200所生成和保留的词典和表；

图5是一个流程图，表示处理器200的第一程序的操作，当一个新文档文本加到DDB70时，调用该程序以维护词典210和表格220和230；

图6是一个流程图，表示处理器200的第二程序的操作，当将文档文本Ti从DDB70中删除时，调用该程序以维护表格220和230；

图7是一个流程图，表示与用户交互工作的文档检索系统2的操作流程；

图8是一个示意图，表示图7所示步骤320和330中所执行的一例处理；

图9是一个示意图，表示用于第一种实施例修改中的另一种总的统计表230a的一种典型结构；

图10是一个示意图，表示用于为文本Ti计算第一和第二种权重的一种单字位置表270的结构；

图11是一个流程图，表示根据本发明的一个实施例用以计算权重PWr(Wj)的子程序400的一种典型操作；

图12是一个示意图，表示在计算权重LWr(Wj)时用以代替步骤408的一个步骤；

图13是一个流程图的一部分，表示通过修改图7所示实施例的某些部分所获得的一个较佳实施例，其中将步骤314a连接到图7所示步骤312和350，将步骤332连接到图7所示步骤340形成一个完整的流程图；

图14是一个示意图，表示一个典型的网络，根据本发明的原理可以在该网络上实施相关关键字提取系统和文档检索系统。

附图中，凡出现在一张图以上的相同元件用相同的参照号表示。

具体实施方式

图1是一个示意性方框图，表示根据本发明的相关关键字提取系统或文档检索系统的一种典型的硬件设置。图1中，硬件1可以是任何合适的计算机系统，它较佳地包括中央处理单元(CPU)10；主存储器20；一个或多个大容量存储器30，存储根据本发明的相关关键字提取系统或文档检索系统的软件；人机接口40，分别提供至/自显示器50和输入装置60的接口。计算机系统1进一步包括互连部件10至40的地址和数据总线15。大容量存储器30至少包括硬盘32以及可选择地包括光盘(例如CD-ROM)装置34。输入装置60可以包括键盘、鼠标等等。

图2是一个示意图，表示根据本发明的结合了相关关键字提取系统100的一个文档检索系统2的典型软件配置图。图2中，文档检索系统2包括：文档数据库(DDB)70，后者包括多个文档文本；数据库管理系统(DBMS)80，它至少包括检索功能或程序82；以及相关关键字提取系统100。软件部分70、80和100较佳地存储在大容量存储器30的硬盘32内。注意，文档数据库70可以存储在光盘34内，这样，该文档数据库就便于与另一文档数据库交换。

文档数据库(DDB)70中，上述文档文本与各个文本ID T1，T2，…，TM有关，其中M是记录在DDB70内的文本数。以下将与文本ID为Ti(i为1至M的一个数)有关的文本称为“文本Ti”。而且，DDB70较佳地包括一个文本属性表，它包含用于每个文本T1至TM的记录710，如图3所示。文本属性表的每条记录710包括文本ID字段711和其它字段712，其他字段712包括了关于由文本ID字段内的文本ID标识的文本的各种属性数据。该属性数据例如包括文本的题目、作者、分类号等等。另外，替代让DDB包括文本属性表，每个文本的属性数据可分别作为字段包括在一条记录中或作为文件题头的一部分包括在包含该文本的一个文件中。

DBMS80和/或检索程序82分别可以是适合文档数据库70的数据库管理系统和/或检索系统的任一种。检索程序82的所需功能包括以下3种搜索功能：(a)通过指定所需文本的文本ID的搜索(直接搜索)，(b)通过指定上述文本属性的一个或多个数值的搜索，以及(c)通过指定关键字或关键字与一个或多个文本属性值的组合的布尔表达式进行搜索。这样，DBMS80和/或检索程序82或者是限定所有权的一种，或者是商业上可供的一种，只要其具有上述所需功能。

相关关键字提取系统100包括3部分，即统计信息处理器200、相关关键字发生器300以及用户界面400，它在显示器50屏幕(未图示)上显示各种信息(例如检索结果、相关关键字等等)，并允许用户通过输入装置60输入指令和数据(例如查询请求)。

图4是一个示意图，表示由统计信息处理器200生成和维护的词典和表格。统计信息处理器70生成和维护词典210，后者包含用于DDB70中文本T1至TM的任一个的单字(即，如英文中的名词、动词、形容词和副词)。除了单字，词典210可以包含复合词和短语。词典210的每条记录包括由Wj(j＝1，2，…，N)表示的单字ID和相应单字，其中N为词典210内包含的单字、复合词和短语的总数。

处理器200还为DDB70的每个文本Ti生成一个参照词典210的局部统计表220。用于文本Ti的局部统计表220的每条记录包括至少曾经出现在文本Ti的一个单字的单字ID(表示为Wj)的字段，以及表示文本Ti内单字Wj出现次数的单字Wj的单字出现(WO)计数，它表示为“WOi(Wj)”。

处理器200进一步生成和维护参照局部统计表220的总统计表230。总统计表230的每条记录包括出现在DDB70的文本T1至TM中任一文本的一个单字的单字ID(表示为Wj)字段，表示整个文本T1至TM中单字Wj的出现次数并表示为“TO(Wj)的单字Wj的总的单字出现(WO)计数，以及表示含有单字Wj的文本数的包含文本计数CT(Wj)。

图5是一个流程图，它表示处理器200的第一程序202的操作，当有一个新的文档文本加到DDB70时即调用它维护字典210和表格220和230。当新文本T_M+1加到DDB70时，图1所示的CPU10按步骤260启动图5所示的第一程序202。步骤260，CPU10为文本T_M+1生成一个局部统计表220(以下称为“表T_M+1220”)，它实际上可以是一个文件。在以下步骤中，第一程序202扫描新文本T_M+1内的每个单字，仅仅处理能够用作关键字诸如上述名词、动词、形容词、副词、复合词和短语之类的单字。然而，为了简化的缘故，我们将采用“单字”表示能够用作关键字的这种单字。然后，步骤262，CPU10读得文本T_M+1中的第一个单字并进入判断步骤264。

步骤264，CPU10进行测试，检查在词典210内是否发现读得的单字。如是，CPU10进入步骤266，在生成表T_M+1220内记录该单字例如Wj。特别是，若单字Wj出现在表T_M+1中，CPU10增加单字Wj在表T_M+1内的单字出现计数WO_M+1(Wj)。否则，CPU10为单字Wj增加一条记录到表T_M+1220，并将WO计数WO_M+1(Wj)设为1。如果步骤264的测试结果为非，CPU10进入步骤268，其中，CPU10为单字增加一条记录至词典210，将单字ID设置为W_N+1。然后，CPU10为单字W_N+1增加一条记录至表T_M+1220，并在步骤270将WO计数WO_M+1(W_N+1)设置成1。完成步骤266或270后，CPU10进入判断步骤272，其中CPU10进行测试以检查文本T_M+1中的所有单字是否已被处理。如否，步骤274，CPU10读得文本T_M+1中的下一单字并返回步骤264。这样，CPU10重复由步骤274和264至272组成的循环，直至文本T_M+1的末尾。

如果步骤272的测试结果为是，步骤276，CPU10根据表T_M+1220更新总统计表230，使表T_M+1的内容加到表230。尤其是，由CPU10识别总统计表230的一条记录，该表具有与局部统计表T_M+1220所含每个单字ID(即Wj)相同的单字ID。在表230的经识别的记录(对Wj)中，CPU10更新总出现计数字段和包含文本的计数字段的数值如下：

TO(Wj)<＝TO(Wj)-Woi(Wj)和

CT(Wj)<＝CT(Wj)-1

然后，CPU10删除局部统计表Ti。在完成步骤282后，CPU10结束第二程序204。

这样，就由统计信息处理器200维护词典210、局部和总统计表220和230。总统计表230使之能立即获得DDB70中所有文本内的单字，诸如“internet”的出现总数以及包含该单字的文本数。而且，用于文本ID例如为0010之文本的局部统计表220使之能立即获得第0010号文本中一单字如“WWW”的出现次数。由相关关键字发生器300使用局部统计表220和总统计表230。

图7是一个流程图，它表示与用户交互工作的文档检索系统2的操作流程。当启动文档检索系统2时，在步骤310，CPU10首先提示用户输入查询请求。步骤312，用户按众所周知的方式输入查询请求，例如，指定所需文本的文本ID，指定上述文本属性的一个或多个数值、或者利用关键字或组合关键字和一个或多个文本属性数值而指定布尔表达式。步骤314，检索程序82根据查询请求搜索DDB70，并在显示器50上按众所周知的方式显示已发现文本上的各种信息。同时，CPU10按约定的方式提供找到文本的文本ID的所选文本目录。步骤318，CPU10提示用户从已发现的文本(或搜索报告目录)中选择至少一个所需文本(或最好包含其所需信息的文本)，以获得包含所选文本之文本ID的所选文本目录。

步骤320，根据该所选文本目录，相关关键字发生器300利用所列文本的总表230和局部表220，为所选文本目录中列出的文本目录中所包含的每个单字(Wj)计算所检索的含有Wj的文本计数RCT(Wj)以及重要度I(Wj)，如图8所示。假设所选文本目录中的文本ID表示为RTr(r＝1，2，…，R，其中R为所检索的文本数)，则单字Wj的重要度，即I(Wj)定义为

I (Wj) = C \times Σ_{r = 1}^{R} {WOr (Wj) \times IDF (Wj)} \times RCT (Wj) - - - - (1)

其中，C为常数，WOr(Wj)为检索文本RTr中单字Wj的出现次数，RCT(Wj)为含有单字Wj的所检索的文本数(以下称为“所检索的含Wj的文本计数”)IDF(Wj)为众所周知的索引，称为“反文本频率(inverse document frequency)”，并定义为：

IDF(Wj)＝1-log(CT(Wj)/M) (2)

以下称为“单字Wj的IDF值”，其中，CT(Wj)为含有单字Wj的DDB70的文本数，M为与图4有关的上述DDB70的文本数。

如果单字Wj出现在更多的文本中，此意味着单字Wj更为常用，于是Wj的IDF值变得更小。为此，IDF(Wj)在相当广的范围内有助于抑制文本中常用单字的重要度。由于I(Wj)包括因子RCT(Wj)，出现在多个检索文本中的单字重要度，即单字Wj的I(Wj)变高。换句话说，所检索文本的有更多特征的单字被赋予更高的重要度。注意，等式(1)中的单字出现计数WOr(Wj)可以用含有单字Wj的文本RTr的某种大小来归一化，例如用文本RTr中的字母数、单字种数以及所有单字的出现总数等任一数字归一化。

现在回到图7，步骤330，相关关键字发生器300按重要度以降序对表250的记录排序，产生排序表260。同时，发生器300显示一个预定数，即具有最高重要度的10条记录。除了重要度外，发生器300可以显示用于计算重要度的各种统计信息。还注意，所获得的关键字和相应的重要度可以存储起来作为用户的历史资料。此举使用户的兴趣和倾向范围能表示为由关键字和相应重要度定义的矢量。这些矢量可以用于各种应用，例如对文档数据库的搜索。

为了更好地理解相关关键字发生器300的操作，假设所选文本目录包含了3个文本ID，例如0010、0341和1734。图8是一个示意图，它表示相关关键字发生器300是如何产生相关关键字的。注意，为了便于理解尽管在图8中将实际单字用作单字ID字段的值，最好实际将单字ID数据用作单字ID字段的值。而且，假设等式(1)中的常数C为1，DDB70中的文本数M为10,000。

然后，发生器300利用用于文本0010、0341和1734的局部统计表220和总统计表230，为检索文本0010、0341和1734中所含每个单字(Wj)计算上述检索到的含有Wj的文本计数RCT(Wj)以及重要度I(Wj)。例如，取单字“applet”，发生器300为单字“applet”搜索局部统计表0010、0341和1734，以发现有两张局部表含有“applet”，即，RCT(applet)＝2。由于“applet”的IDF值是由等式(2)计算得到：

IDF(applet)＝1-log(CT(applet)10,000)

＝1-log(86/10,000)

＝5.756

故从等式(1)计算得到“applet”的重要度：

I(applet)＝(2×5.756+6×5.756)×2

＝92.096

对于其它每个单字(Wj)，按相同的方式计算RCT(Wj)和I(Wj)。按重要度的降序对表250排序形成表260。

回到图7，步骤340，CPU10提示用户或者输入进一步的查询请求，或者结束搜索。如果用户希望继续搜索，用户界面400较佳地允许用户或者单击预定的图标，以执行自动搜索，或者通过选择一个或多个所显示的相关关键字形成查询请求。步骤340，如果用户选择自动搜索，则在步骤350，用户界面400利用具有最高重要度的预定量，如3个相关关键字产生查询请求。步骤340，如果用户选择一个或多个所显示的相关关键字，则用户界面400立即产生查询请求。步骤350后，CPU10返回步骤314。

注意，步骤352可以省略。即，CPU10可以在结束过程前自动存储关键字。再者，步骤354可以插入在步骤330与340之间或步骤340与350之间，而不是位于图7所示的位置。

如果用户决定结束搜索，则步骤352，用户界面询问用户是否希望存储该相关关键字。如是，在步骤354，用户界面400存储表260用作今后使用，且用户界面400结束其操作。否则，用户界面400将简单地结束其操作。

这样，文档检索系统2和相关关键字提取系统100使高精度文档检索成为可能，同时确保对至少一个文档的检索。迄今，我们已经讨论了本发明的基本实施例。故，以下我们将讨论对上述实施例的各种修改。由于以下的变换基本上与上述实施例相似，故下面的讨论仅仅集中于其中的不同方面。

修改1

图9是一个示意图，它表示用于第一种修改实施例的另一种总统计表230的一个典型结构。图9中除了表230a配备了两个附加的字段用以包括包含Wj的文本相对DDB70所有文本的比例，即CT(Wj)/M，以及例外标记表示是否应当把单字Wj排除在相关关键字外，即排除在重要度计算外，表230a与图4所示的表230相同。如果用于单字Wj的例外标记例如为1，则对单字Wj省略了图7所示步骤320的过程。由此可以防止具有例外标记的单字对重要度计算有不利的影响，并提高处理速度。

有许多方法确定将例外标记设置成1的标准。一种方法就是在比例CT(Wj)/M等于或大于0.5时将标记设置成1。另一种方法就是在CT(Wj)＝1时将标记设置成1，此意味着单字Wj仅出现在一个文本中。

而且，根据单字的数量特征，例如单字的长度，可以设置一个以上的阈值。尤其是，对于多于4个字符的单字，如CT(Wj)/M≥0.5；或者对于4个字符及其以下的单字，如CT(Wj)/M≥0.3，例外标记可以设置成1。

根据该修改，只能获得高度利用的关键字。而且，系统操作也加速。

修改2

在第二种修改中，重要度I(Wj)用与步骤318中所选文本的每个(RTr)相关的权重(Wr)加权。尤其是，根据以下等式计算I(Wj)：

I (Wj) = C \times Σ_{r = 1}^{R} {Wr \times WOr (Wj) \times IDF (Wj)} \times RCT (Wj) - - - - (3)

为了实现这一点，相关关键字发生器300必须接收权重W1，W2，…，WR以及所选文本目录(RT1，RT2，…，RTR)。为此，检索程序82必须具有按等级形式提供搜索结果的功能。如果按一致程度的顺序提供所检索的文本ID，则可以将第一等级文本的权重(W1)设置为10，将第二等级文本的权重(W2)设置为9，等等。

另外，在利用多个文本ID进行直接搜索的情况下，用户界面400可以让用户输入一个值(例如可5级变化)，表示对每个文本(RTr)以及文本ID的估计。在此情况下，可能有5级用作文本的权重，或者可以与5个预定的权重值有关。

注意，权重值可以为-1。例如，在直接搜索的情况下，允许用户为高度相关的文本将权重设置为2，为无关的文本将权重设置为-1。这样可以减少包含在相关文本和无关文本中但不是共用的单字的重要度。

修改3

第三种修改适用于利用第二查询条件集合来执行两个搜索的情况，该第二查询条件集合比第一查询条件集合更为精确，即它适用于第一所选文本目录(或文本集合A)比第二所选文本目录(或文本集合B)含有更多文本ID的情况。这样，就有文本集合B文本集合A DDB70的关系。在此情况下，我们引入了由下式定义的单字Wj，DI(A，B，Wj)的分配指数。

DI(A，B，Wj)＝{(MA/CTA(Wj))×(CTB(Wj)/MB)} (4)

其中，MA和MB分别是文本集合A和B中的文本数，CTA(Wj)和CTB(Wj)分别是文本集合A和B中含有单字Wj的文本数。

第三种修改中的重要度12(Wj)定义为：

I2(Wj)＝DI(A，B，Wj)×I(Wj) (5)

如果单字Wj大多分布于集合A，极少分布于集合B，则指数DI(A，B，Wj)变大。这种大大提高分配指数值的单字有助于集合B的选择性。在此情况下，此种单字可被视为更多的具有集合B的特征的关键字。

现在回到图8，假设所选文本目录219为文本集合B，文本集合A包括由100个文本组成的集合B，以下每个单字出现在文本集合A的相应数量的文本中，

CTA(applet)＝10

CTA(internet)＝28

CTA(CGI)＝9

CTA(WWW)＝14

CTA(JAVA)＝20

CTA(SUN)＝5

CTA(script)＝10

根据等式(5)，按如下计算第三种修改中的重要度。

S2(applet)＝92.096*{(100/10)*(2/3)}

＝613.973

S2(internet)＝57.258*{(100/28)*(3/3)}

＝204.493

用同样方法我们获得：

S2(CGI)＝85.274

S2(WWW)＝45.107

S2(JAVA)＝923.220

S2(SUN)＝266.200

S2(script)＝58.500

按降序对上述重要度排序产生：

S2(JAVA)＝923.220

S2(applet)＝613.973

S2(SUN)＝266.200

S2(internet)＝204.493

S2(CGI)＝85.274

S2(script)＝58.500

S2(WWW)＝45.107

此例中，如果将最重要的3个单字取作相关关键字，则将取出单字“JAVA”、“applet”和“SUN”。

注意，尽管由等式(4)提供了分配指数，但也可以由任何合适的表达式提供分配指数，诸如当单字Wj分布于集合B中的多个文本和集合A中的极少文本中时取较大值。

修改4-重要度加权

本修改中，用各种权重αW(Wj)对重要度I(Wj)(或I2(Wj))加权，其中，α为表示权重种类的参数。

用于单字Wj的第一和第二种权重取决于所选文本目录219中列出的每个文本(RTr)中出现的Wj的位置。为此，为每个文本RTr计算第一和第二种权重，并表示为αWr(Wj)。因此，利用权重αWr(Wj)计算重要度如下：

I (Wj) = C \times Σ_{r = 1}^{R} {αWr (Wj) \times WOr (Wj) \times IDF (Wj)} \times RCT (Wj) - - - - (6)

图10是一个示意图，它表示用以为文本Ti计算第一和第二种权重的单字位置表270的一种结构。用上述局部统计表220生成和更新表270。单字位置表270的每条记录包括：EXISTING WORD字段，它为每个出现的单字包含现有单字(较佳地为单字ID)；EXISTING LOCATION字段，它包含了现有单字的位置，其从文本开头起以单字数(或单字计数)计量；EXISTNG PART字段，它包含一个数值表示现有单字位于题目、子题目和文本Ti主体的哪一部分。单字位置表270的各个记录已经较佳地按现有位置字段值的降序排序。

利用与单字Wj所出现的文本RTr部分有关的权重因子计算第一种权重。该文本部分存储在EXISTING PART字段中。此种权重表示为PWr(Wj)(因为权重实际上是为检索的文本计算的，PW后的后缀改变为r，它提供给检索的文本)。如果DDB70中的每个文本包括题目、子题目和正文，则对于文本RTr，用于计算单字Wj的重要度的权重因子F1、F2和F3例如分别设置为：

如单字Wj出现于题目中时为3，

如单字Wj出现于子题目中时为2，

如单字Wj出现于正文中时为1。

图11是一个流程图，它表示根据本发明所示实施例用以计算权重PWr(Wj)的一个子程序的典型操作。在图7所示步骤320中，子程序400被调用用于每个r值。当调用子程序400时，步骤402，CPU10将PWr(Wj)的值设置为0。步骤404中，CPU10从开头为Wj搜索单字位置表RTr270的现有部分字段。如果步骤406在记录中发现单字Wj，CPU10为PWr(Wj)的值增加一个与步骤408中记录的现有部分字段的值有关的权重因子Fw(本例中w＝1，2或3)。然后，步骤410，CPU10恢复对Wj的搜索并返回步骤406。如果步骤406中未发现单字Wj，则CPU10结束操作并返回。在此为文本RTr确定PWr(Wj)的值。

利用同Wj出现位置与先前(或开头)文本搜索中已用作查询请求关键字的单字出现位置之间距离(按单字计数)有关的权重因子计算第二种权重。该单字出现位置存储在EXISTING LOCATION字段中。此权重表示为LWr(Wj)。在此情况下，例如将用以计算单字Wj重要度的权重因子F1、F2和F3设置为：

如距离为两个单字以内为3，

如距离为3个单字至10个单字范围内为2，

如距离为10个单字以上为1。

在此权重方案中，除了步骤408，基本上根据图11所示的流程图计算每个r值的权重LWr(Wj)。

尤其是，如果K个关键字用于先前搜索中的查询请求，则CPU10为K个关键字的每一个计算一个距离，并将对应于所计算距离的K个权重因子的总和加到LWr(Wj)如图12中的步骤418所示。

第三种权重可以采用AW(Wj)。单字Wj的权重AW(Wj)取决于单字Wj的属性。例如，将权重AW(Wj)设置为：

如单字Wj为专用名词时为5，

如单字Wj为普通名词时为4，

如单字Wj为形容词时为2，

如单字Wj或为动词或为副词时为1，

其它情况时为0。

由于权重AW(Wj)与文档文本无关，故通过简单地将(Wj)乘以AW(Wj)用该权重为重要度加权。

以下将参照图13描述其它一些修改。

修改5-为搜索结果分等级

图13的步骤314中，CPU10(该步骤中在检索程序82的控制下)用一种预定方式简单地输出所选文本目录219，不在显示器50的屏幕上显示该搜索结果。步骤315，CPU10以一致性程度为序对所选文本目录219进行排序。尤其是，CPU10为目录219中所包含的每个文本(RTr)计算一致性程度(用DCr表示)。一致性程度DCr给出如下：

DCr = Σ_{r = 1}^{R} {WOr (Wj) \times IDF (Wj)}

其中，W1，W2，…，WM为包括在步骤312查询请求中的单字。

步骤317中，CPU10在显示器50的屏幕上显示已排序的目录。在此情况下，CPU10可以仅显示已排序目录的一部分。步骤318中，CPU10提示用户从显示的排序目录中选择所选文本，以获得包含所选文本之文本ID的所选文本目录。

如以上结合图7所述，用户可以重新使用适合于DDB70的关键字执行进一步的搜索。由于确定此关键字包含在DDB70中，故按照该实施例的搜索导致对至少一个文本的检索。

修改6

参见图13，步骤332，CPU10对置于包含关系的已排序的关键字表260的关键字进行过滤。尤其是判断，或者在表260所取出的单字中间，或者在表260所取出的任一单字与预定一组中任一单字之间是否存在任何包含关系。如果存在任何此种关系，前一情况下包括在包含关系中的所取出单字之一，以及后一情况下包括在包含关系中的所取出单字均不显示。例如，预定一组单字可以是先前搜索中已经在查询请求中用作关键字的单字。

如果有以下任何一种情况，则判断单字A包含在单字B中。

(a)单字A与B开头相互一致且单字A比单字B短。

(b)单字A与B结尾相互一致且单字A比单字B短。

(c)单字A是单字B的一部分且单字A和B无论开头和结尾均不相互一致。

(d)单字(或短语)A和B满足以上(a)至(c)的任一条件且单字A是短语B的一个组成部分。

例如，根据标准(a)，判断“东京”是“东京都”的一个构词成分。同样，根据标准(b)，“发壳”是“新发壳”的一个构词成分，根据标准(c)，“感谢”是“大感谢祭”的一个构词成分。注意，对于判断英语中的构词成分，标准(d)是必需的。根据标准(d)，判断单字“artificial”和“intelligence”是单字“artificial intelligence”的构词成分，但单字“art”和“tell”不是。

如果根据上述标准判断任何两个单字或短语置于包含关系，则采取以下的措施：

(a)将较长的单字(或短语)选作关键字。

(b)将较短的单字(或短语)选作关键字。

(c)将更重要的单字(或短语)选作关键字。

(d)将较短的(按单字计数)短语以及较长的(按单字计数)短语与较短的短语之间的差别用作关键字(或关键短语)。

如果发现“artificial”与“artificial intelligence”之间的包含关系，则按照标准(d)将“artificial”和“intelligence”用作关键字。在提取的关键字之间有包含关系的情况下，可以采用上述任何一种措施。然而，对于在预定词组中包含任何单字的包含关系只有措施(c)才可行。

根据此修改，从关键字词组中排除意义上或用法上相同的单字，允许降低相关关键字的冗余度。

修改7

通过属性或统计信息对提取的关键字分类。可以将部分语言用作属性。例如，专用名词与其它单字分别显示。另外，按照同义字辞典分类可以将提取的关键字分类显示。

当按统计信息分类时，可以根据每个所提取的关键字的出现数对提取的关键字分类。例如，如果通过判断该单字是否在整个文本库中出现80％对提取的关键字进行分类，则允许用户确定事先利用该单字作进一步搜索的效果。

而且，在利用同义字辞典而不是所示词组进行分类的情况下，位于辞典中较高结节的单字可以作为代表性单字显示。同样，在提取的关键字由统计信息分组的情况下，更广泛分布于每个词组中的单字可以作为代表性单字而不是词组显示。

还可以有其它的修改。例如，在上述实施例中是利用单一计算机实施文档检索系统的。然而，文档检索系统也可以在网络系统上实施，如图14所示。在此系统中，将用户界面存储在每台客户计算机或终端70上，文档检索系统的其余部分则存储在服务器1a上。

Claims

1.一种在文本检索系统中帮助用户搜索文本库的方法，所述文本检索系统的功能包括接收查询请求和返回所检索文本的文本ID目录；其特征在于所述方法包括：

为构成文本库的每个文本生成与用于每个所述文本的单字有关的局部统计信息；

生成与构成文本库的任何文本中所用单字有关的总统计信息；

用户从文本库中选择至少一个文本，以提供具有所选文本之文本ID的所选文本目录，所述选择是通过下述步骤实现的：

使用用户确定的检索条件来发出查询请求，以获得检索出的文本的目录，以及

从所述检索出的文本中选择至少一个文本；

利用对所选文本的局部统计信息和所述总统计信息，为所选文本中包含的每个单字计算重要度；

按照重要度顺序对所选文本中包含的单字排序；

显示预定数量的已排序的单字作为相关关键字；以及

利用相关关键字提示用户输入进一步的查询请求。

2.如权利要求1所述的方法，其特征在于，所述生成局部统计信息的步骤包括以下步骤，即，把每个所述文本中所用的每个单字的单字ID以及与所述单字ID有关的单字出现计数包括在所述局部统计信息中，所述单字出现计数表示每个所述文本中所用的每个所述单字在该文本中的出现数；

所述生成总统计信息的步骤包括以下步骤，即，把在构成所述文本库的任一所述文本中所用的每个单字的单字ID、总的单字出现计数、以及与任何所述文本中所用的每个单字的单字ID有关的包含文本计数包括在所述总统计信息中，所述总的单字出现计数表示在构成所述文本库的所有文本中出现的总数，所述包含文本计数表示含有任何所述文本中所用的每个所述单字的文本数，以及

所述方法进一步包括这样的步骤，即限定所述重要度，使所述重要度与为所述检索出的文本所取的所述单字出现计数的总数、所检索出的文本数、以及为所检索出的文本中包含的每个所述单字限定的一个量成正比，当各所述单字出现在构成所述文本库的越多个文本中时，所述量变得越小。

3.如权利要求2所述的方法，其特征在于所述限定所述重要度的步骤包括用下式表示所述重要度的步骤：

I (Wj) = C \times Σ_{r = 1}^{R} {WOr (Wj) \times IDF (Wj)} \times RCT (Wj)

其中，Wj为所述检索出的文本中所含每个所述单字的单字ID，C为常数，WOr(Wj)为每个所述检索出的文本RTr中的每个所述单字Wj的单字出现计数，RCT(Wj)为包含各所述单字Wj的所检索出的文本数，IDF(Wj)为所述量，RTr为每个所检索出的文本的文本ID，其中r＝1，2，…，R，其中R是所检索出的文本数。

4.如权利要求1所述的方法，其特征在于所述用户选择至少一个文本的步骤包括如下步骤：

所述用户利用其慎重考虑后产生的检索条件提供查询请求，以获得所检索文本的目录；以及

所述用户从所述检索文本中选择所述至少一个文本。

5.如权利要求1所述的方法，其特征在于包括如下步骤：

所述用户提出进一步的查询请求以获得较小目录作为所述目录的子集；

利用与所述目录中列出的检索文本中所用单字有关的统计信息以及与所述较小目录中列出的文本中所含单字有关的统计信息，为所述检索文本中所含每个单字计算分配指数，所述分配指数如此定义，如果所选文本中所含每个单字分配于所述较小目录中列出的较多文本中而分配于较少所选文本中，则所述指数变得较大；以及

用所述分配指数对所述重要度加权。

6.如权利要求5所述的方法，其特征在于所述分配指数表示为{(MA/CTA(Wj))×(CTB(Wj)/MB)}，其中，MA和MB分别为所述目录和所述较小目录中列出的文本数，CTA(Wj)和CTB(Wj)分别为所述目录和所述较小目录中列出的文本数，它含有所选文本中所含每个单字Wj。

7.如权利要求2所述的方法，其特征在于所述目录按所选文本的一致性程度排序，其中所述方法进一步包括接收所述已排序的目录并向所述已排序目录的所述检索文本分配预定权重的步骤，所述表示重要度的步骤包括用所述预定权重为所述单字出现计数WOr(Wj)加权的步骤。

8.如权利要求2所述的方法，其特征在于进一步包括如下步骤：

向每个所选文本分配一个权重，其中，所述计算重要度的步骤包括用分配给每个所选文本的权重为用于每个所选文本的所述单字出现计数加权的步骤。

9.如权利要求1所述的方法，其特征在于进一步包括如下步骤：

对包含在所选文本内的每个所述单字进行测试，观察包含该单字的文本数是否位于预定范围；以及

如果所述单字未通过所述测试，将所述单字排除在所述候选的相关关键字外。

10.如权利要求9所述的方法，其特征在于进一步包括将与所述单字的数量特征有关的数值用作所述预定范围的步骤。

11.如权利要求10所述的方法，其特征在于所述数量特征为所述单字的长度。

12.如权利要求9所述的方法，其特征在于进一步包括使所述单字的每个第二预定范围的数量特征与含有该单字的所述文本数的不同的预定范围相联系的步骤，其中，所述进行测试的步骤包括将与所述单字的数量特征所落入的第二预定范围有关的所述不同的预定范围之一用作所述预定范围的步骤。

13.如权利要求2所述的方法，其特征在于进一步包括如下步骤：

为构成所述文本库的每个文本记录构成所述文本库的每个文本中的每个单字的每次出现，以及所述每次出现的每个文本的一部分；

为每个所述文本的每个可能部分分配预定的权重因子；以及

为每个所述文本累积与每个所述单字每次出现的部分有关的所述预定的权重因子，对每个所述单字产生按文本的权重，其中，所述定义重要度的步骤包括用所述按文本的权重为所述单字出现计数加权的步骤。

14.如权利要求1所述的方法，其特征在于进一步包括如下步骤：

为构成所述文本库的每个文本记录构成所述文本库的每个文本中的每个单字的每次出现，以及每个文本中所述每次出现的位置；

为每个文本中每个所述单字的每次出现，计算所述位置与所述查询请求中所用每个关键字位置之间的距离；

为每个预定的距离范围分配预定的权重因子，以及

为构成所述文本库的每个文本累积与每个所述单字的每次出现的每个关键字的所述距离有关的所述预定权重因子，对每个所述单字产生按文本的权重，其中，所述定义重要度的步骤包括用所述按文本的权重对每个单字出现计数加权的步骤。

15.如权利要求1所述的方法，其特征在于进一步包括用与所选文本中每个所述单字的属性有关的权重对所述重要度加权的步骤。

16.如权利要求1所述的方法，其特征在于进一步包括如下步骤：

如果在任何两个已排序的单字中或者在任何已排序的单字与所述查询请求中所用任何关键字之间发现任何包含关系，则根据预定标准选择两个单字之一。

17.如权利要求16所述的方法，其特征在于进一步包括指定所述预定标准比较所述包含关系中包含的所述两个单字之间的长度的步骤。

18.如权利要求16所述的方法，其特征在于进一步包括指定所述预定标准比较所述包含关系中包含的所述两个单字之间重要度的步骤。

19.如权利要求16所述的方法，其特征在于，所述选择两个单字之一的步骤包括在所述两个单字之间选择较短的单字和/或差异的步骤。

20.如权利要求3所述的方法，其特征在于进一步包括如下步骤：

根据所述查询请求和所述目录中的关键字，按所选文本的一致程度为所述目录排序；以及

为所述已排序目录中的每个所选文本分配一个预定权重，其中，所述表示重要度的步骤包括用与每个所述文本RTr有关的预定权重之一为所述单字出现计数WOr(Wj)加权的步骤。

21.如权利要求1所述的方法，其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括按所述排序单字属性将所述已排序的单字分类为相同关键字组进行显示的步骤。

22.如权利要求1所述的方法，其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括通过对所述已排序单字的统计数据将所述已排序单字分类为相同关键字组进行显示的步骤。

23.如权利要求1所述的方法，其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括通过辞典将所述已排序单字分类为相同关键字组进行显示的步骤。

24.如权利要求21至23任一项所述的方法，其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括显示典型关键字代替所述关键字组的步骤。

25.如权利要求1所述的方法，其特征在于所述帮助用户的步骤包括根据来自用户的预定输入，利用至少一部分预定量的所述相关单字，自动产生所述查询请求的步骤。

26.如权利要求1所述的方法，其特征在于进一步包括存储所述预定量的相关单字，以及根据来自所述用户的预定输入显示所存储的预定量的所述相关单字的步骤。

27.一种在文本检索系统中帮助用户搜索文本库的系统，所述文本检索系统的功能包括接收查询请求和返回所检索文本的文本ID目录；其特征在于所述系统包括：

统计信息处理器(200)，用于为构成文本库的每个文本生成与用于每个所述文本的单字有关的局部统计信息，并生成与构成文本库的任何文本中所用单字有关的总统计信息；

输入装置(60)，允许用户从文本库中选择至少一个文本，以提供具有所选文本之文本ID的所选文本目录，所述用户通过使用相关关键字来输入查询请求；

中央处理单元(10)，利用对所选文本的局部统计信息和所述总统计信息，为所选文本中包含的每个单字计算重要度，并按照重要度顺序对所选文本中包含的单字排序；以及

显示器(50)，用于显示具有最高重要度的预定数量的已排序的单字作为所述相关关键字。

28.如权利要求27所述的系统，其特征在于，所述统计信息处理器(200)还用于把每个所述文本中所用的每个单字的单字ID以及与所述单字ID有关的单字出现计数包括在所述局部统计信息中，所述单字出现计数表示每个所述文本中所用每个所述单字的出现数；

所述统计信息处理器(200)还用于把在构成所述文本库的任一所述文本中所用的每个单字的单字ID、总的单字出现计数、以及与任何所述文本中所用的每个单字的单字ID有关的包含文本计数包括在所述总统计信息中，所述总的单字出现计数表示在构成所述文本库的所有文本中出现的总数，所述包含文本计数表示含有任何所述文本中所用的每个所述单字的文本数，以及

所述中央处理单元(10)进一步用于限定所述重要度，使所述重要度与为所检索出的文本所取的所述单字出现计数的总数、所检索出的文本数、以及为所检索出的文本中包含的每个所述单字限定的一个量成正比，当每个所述单字出现在构成所述文本库的越多个文本中时，所述量变得越小。

29.如权利要求28所述的系统，其特征在于所述中央处理单元(10)用下式表示所述重要度：

I (Wj) = C \times Σ_{r = 1}^{R} {WOr (Wj) \times IDF (Wj)} \times RCT (Wj)

30.如权利要求27所述的系统，其特征在于所述输入装置(60)允许所述用户利用其慎重考虑后产生的检索条件提供查询请求，以获得所检索文本的目录；以及允许所述用户从所述检索文本中选择所述至少一个文本。

31.如权利要求27所述的系统，其特征在于，

所述中央处理单元(10)根据判断所述用户提出的进一步的查询请求已经引起所述功能返回较小目录作为所述目录的子集，利用与所述目录中列出的检索文本中所用单字有关的统计信息以及与所述较小目录中列出的文本中所含单字有关的统计信息，为所述检索文本中所含每个单字计算分配指数，所述分配指数定义成如果所选文本中所含每个单字分配于所述较小目录中列出的较多文本中而分配于较少所选文本中，则所述指数变得较大；并且

所述中央处理单元(10)用所述分配指数对所述重要度加权。

32.如权利要求31所述的系统，其特征在于所述分配指数表示为{(MA/CTA(Wj))×(CTB(Wj)/MB)}，其中，MA和MB分别为所述目录和所述较小目录中列出的文本数，CTA(Wj)和CTB(Wj)分别为所述目录和所述较小目录中列出的文本数，它含有所选文本中所含每个单字Wj。

33.如权利要求28所述的系统，其特征在于所述目录按所选文本的一致性程度排序，其中所述中央处理单元(10)接收所述已排序的目录并向所述已排序目录的所选文本分配预定权重，并用所述预定权重为所述单字出现计数WOr(Wj)加权。

34.如权利要求28所述的系统，其特征在于所述中央处理单元(10)允许用户向每个所选文本分配一个权重，并用分配给每个所选文本的权重为用于每个所选文本的所述单字出现计数加权。

35.如权利要求27所述的系统，其特征在于，

所述中央处理单元(10)对包含在所选文本内的每个所述单字进行测试，观察包含该单字的文本数是否位于预定范围；以及根据判断所述单字未通过所述测试，将所述单字排除在候选的相关关键字外。

36.如权利要求35所述的系统，其特征在于，所述中央处理单元(10)将与所述单字的数量特征有关的数值用作所述预定范围。

37.如权利要求36所述的系统，其特征在于所述数量特征为所述单字的长度。

38.如权利要求35所述的系统，其特征在于，所述中央处理单元(10)使所述单字的每个第二预定范围的数量特征与含有该单字的所述文本数的不同的预定范围相联系，并将与所述单字的数量特征所落入的第二预定范围有关的所述不同的预定范围之一用作所述预定范围。

39.如权利要求28所述的系统，其特征在于，

所述中央处理单元(10)为构成所述文本库的每个文本记录构成所述文本库的每个文本中的每个单字的每次出现，以及所述每次出现的每个文本的一部分；为每个所述文本的每个可能部分分配预定的权重因子；为每个所述文本累积与每个所述单字每次出现的部分有关的所述预定的权重因子以对每个所述单字产生按文本的权重；以及用所述按文本的权重为所述单字出现计数加权。

40.如权利要求27所述的系统，其特征在于，

所述中央处理单元(10)为构成所述文本库的每个文本记录在构成所述文本库的每个文本中每个单字的每次出现，以及每个文本中所述每次出现的位置；为每个文本中每个所述单字的每次出现，计算所述位置与所述查询请求中所用每个关键字位置之间的距离；为每个预定的距离范围分配预定的权重因子的装置；为构成所述文本库的每个文本累积与每个所述单字的每次出现的每个关键字的所述距离有关的所述预定权重因子以对每个所述单字产生按文本的权重；以及用所述按文本的权重对每个单字出现计数加权。

41.如权利要求27所述的系统，其特征在于所述中央处理单元(10)用与所选文本中每个所述单字的属性有关的权重对所述重要度加权。

42.如权利要求27所述的系统，其特征在于所述中央处理单元(10)根据判断在任何两个已排序的单字中或者在任何已排序的单字与所述查询请求中所用任何关键字之间发现任何包含关系，则根据预定标准选择所述包含关系中所含两个单字之一。

43.如权利要求42所述的系统，其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间的长度。

44.如权利要求42所述的系统，其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间重要度。

45.如权利要求42所述的系统，其特征在于，所述中央处理单元(10)在所述两个单字之间选择较短的单字和/或差异。

46.如权利要求29所述的系统，其特征在于，

所述中央处理单元(10)根据所述查询请求和所述目录中的关键字，按所选文本的一致程度为所述目录排序；为所述已排序目录中的每个所选文本分配一个预定权重；以及用与每个所检索文本RTr有关的预定权重之一为所述单字出现计数WOr(Wj)加权。

47.如权利要求27所述的系统，其特征在于所述中央处理单元(10)按所述排序单字属性将所述已排序的单字分类为相同关键字组进行显示。

48.如权利要求27所述的系统，其特征在于所述中央处理单元(10)通过对所述已排序单字的统计数据将所述已排序单字分类为相同关键字组进行显示。

49.如权利要求27所述的系统，其特征在于所述中央处理单元(10)通过辞典将所述已排序单字分类为相同关键字组进行显示。

50.如权利要求47至49任一项所述的系统，其特征在于所述显示器(50)显示典型关键字代替所述关键字组。

51.如权利要求27所述的系统，其特征在于所述中央处理单元(10)根据判断来自用户的预定输入，利用至少一部分预定量的所述相关单字，自动产生所述查询请求。

52.如权利要求27所述的系统，其特征在于进一步包括存储所述预定量的相关单字的主存储器(20)；

所述显示器(50)根据来自所述用户的预定输入显示所存储的预定量的所述相关单字。

53.一种根据至少一个先前搜索提供关键字，能帮助用户搜索文本库的文本检索系统，其特征在于所述文本检索系统包括：

构成所述文本库的多个文本；

统计信息处理器(200)，用于为构成所述文本库的每个文本生成与每个所述文本中所用单字有关的局部统计信息，以及生成与构成所述文本库的任一所述文本中所用单字有关的总统计信息；

输入装置(60)，允许所述用户提出查询请求，所述用户通过使用相关关键字来输入查询请求；

中央处理单元(10)，根据所述查询请求提供具有所选文本的文本ID的目录，利用所述检索文本的局部统计信息和总统计信息为所选文本目录中列出的所选文本中包含的每个单字计算重要度，按所述重要度为所选文本中包含的所述单字排序，以及管理与构成所述文本库的所述文本有关的属性信息；

显示器(50)，用于显示具有最高重要度的预定量的所述已排序的单字作为所述相关关键字。

54.如权利要求53所述的系统，其特征在于，所述统计信息处理器(200)包含多个局部统计表，每个表与构成所述文本库的所述文本之一有关，局部统计表与包含每个所述文本中所用每个单字的单字ID的每个所述文本有关，以及单字出现计数与所述单字ID有关，所述单字出现计数表示每个所述文本中每个所述文本中所用每个所述单字的出现数，

并且，所述统计信息处理器(200)包含总统计表，以存储构成所述文本库的任一所述文本中所用每个单字的单字ID，总的单字出现计数以及与任一所述文本中所用每个所述单字的单字ID有关的包含文本计数，所述总的单字出现计数表示构成所述文本库的所有文本中的总的出现数，所述包含文本计数表示包含任一所述文本中所用每个单字的文本数，其中

所述重要度与为所选文本所取的所述单字出现计数总数以及为所选文本中所含每个单字定义的一个量成正比，当每个所述单字出现在构成所述文本库的越多个所述文本中时，所述量变得越小。

55.如权利要求54所述的系统，其特征在于所述重要度I(Wj)定义为：

I (Wj) = C \times Σ_{r = 1}^{R} {WOr (Wj) \times IDF (Wj)} \times RCT (Wj)

其中，Wj为所述检索出的文本中所含每个单字的单字ID，C为常数，WOr(Wj)为每个所检索出的文本RTr中的每个单字Wj的单字出现计数，RCT(Wj)为包含各所述单字Wj的所检索出的文本数，IDF(Wj)为所述量，RTr为每个检索出的文本的文本ID，其中r＝1，2，…，R，其中R是所检索出的文本数。

56.如权利要求55所述的系统，其特征在于所述输入装置允许所述用户利用其慎重考虑后产生的检索条件提供查询请求，以获得所检索文本的目录；以及允许所述用户从所述检索文本中选择所述至少一个文本。

57.如权利要求53所述的系统，其特征在于所述中央处理单元(10)根据判断在所述第一查询请求已经产生具有第一所选文本之第一文本ID的第一目录，以及具有第二所选文本之第二文本ID的第二目录后所提出的第一查询请求和第二查询请求，使所述第二目录为所述第一目录的子集，利用与所述第一所选文本中所用单字有关的统计信息以及与所述第二所选文本中所用单字有关的统计信息，计算所述第一所选文本中所含每个所述单字的分配指数，所述分配指数定义成如每个单字分配于所述第二目录列出的多个文本并分配于少量的所述定义所选文本时，所述单字的分配指数变得较大；并且

所述中央处理单元(10)用所述分配指数对所述重要度加权。

58.如权利要求57所述的系统，其特征在于所述分配指数表示为{(MA/CTA(Wj))×(CTB(Wj)/MB)}，其中，MA和MB分别为所述目录和所述较小目录中列出的文本数，CTA(Wj)和CTB(Wj)分别为所述目录和所述较小目录中列出的文本数，它含有所选文本中所含每个单字Wj。

59.如权利要求54所述的系统，其特征在于所述目录按所选文本的一致性程度排序，其中所述中央处理单元(10)接收所述已排序的目录并向所述已排序目录的所选文本分配预定权重，用所述预定权重为所述单字出现计数加权。

60.如权利要求53所述的系统，其特征在于所述中央处理单元(10)对包含在所选文本内的每个所述单字进行测试，观察包含该单字的文本数是否位于预定范围，以及根据判断所述单字未通过所述测试，将所述单字排除在候选的相关关键字外。

61.如权利要求54所述的系统，其特征在于所述中央处理单元(10)为构成所述文本库的每个文本管理构成所述文本库的每个文本中的每个单字的每次出现，以及所述每次出现的每个文本的一部分；为每个所述文本的每个可能部分分配预定权重因子；为每个所述文本累积与每个所述单字每次出现的部分有关的预定权重因子以对每个所述单字产生按文本的权重；以及用所述按文本的权重为所述单字出现计数加权。

62.如权利要求53所述的系统，其特征在于所述中央处理单元(10)为构成所述文本库的每个文本管理在构成所述文本库的每个文本中每个单字的每次出现，以及每个文本中所述每次出现的位置；为每个文本中每个所述单字的每次出现，计算所述位置与所述查询请求中所用每个关键字位置之间的距离；为每个预定的距离范围分配预定的权重因子；为构成所述文本库的每个文本累积与每个所述单字的每次出现的每个关键字的所述距离有关的所述预定权重因子以对每个所述单字产生按文本的权重；以及用所述按文本的权重对每个单字出现计数加权。

63.如权利要求53所述的系统，其特征在于所述中央处理单元(10)用与所选文本中每个所述单字的属性有关的权重对所述重要度加权。

64.如权利要求53所述的系统，其特征在于所述中央处理单元(10)根据判断在任何两个已排序的单字中或者在任何已排序的单字与所述查询请求中所用任何关键字之间发现任何包含关系，则根据预定标准选择所述包含关系中包含的两个单字之一。

65.如权利要求63所述的系统，其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间的长度。

66.如权利要求63所述的系统，其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间重要度。

67.如权利要求63所述的系统，其特征在于，所述中央处理单元(10)在所述两个单字之间选择较短的单字和/或差异。

68.如权利要求55所述的系统，其特征在于所述中央处理单元(10)根据所述查询请求和所述目录中的关键字，按所选文本的一致程度为所述目录排序；为所述已排序目录中的每个所选文本分配一个预定权重；以及用与每个所检索文本RTr有关的预定权重之一为所述单字出现计数WOr(Wj)加权。

69.如权利要求53所述的系统，其特征在于所述中央处理单元(10)按所述排序单字属性将所述已排序的单字分类为相同关键字组进行显示。

70.如权利要求69所述的系统，其特征在于所述显示器(50)显示典型关键字代替所述关键字组。

71.如权利要求53所述的系统，其特征在于所述中央处理单元(10)根据判断来自用户的预定输入，利用至少一部分预定量的所述相关单字，自动产生所述查询请求。

72.如权利要求53所述的系统，其特征在于进一步包括存储所述预定量的相关单字的主存储器(20)；

73.如权利要求53所述的系统，其特征在于进一步包括适合于可分离大容量存储介质的存储介质驱动器，其中，所述构成文本库的多个文本被存储在所述可分离大容量存储器之一内。

74.如权利要求53所述的系统，其特征在于进一步包括两路通信装置，所述系统分配于服务器和客户系统上。