CN1495644A

CN1495644A - 评估文件的特殊性

Info

Publication number: CN1495644A
Application number: CNA031546242A
Authority: CN
Inventors: T; T·卡瓦塔尼
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2002-07-04
Filing date: 2003-07-04
Publication date: 2004-05-12
Anticipated expiration: 2023-07-04
Also published as: EP1378838A3; EP1378838A2; EP1378838B1; US7200802B2; JP2004038606A; JP4452012B2; US20040006736A1; CN1495644B; DE60316227T2; DE60316227D1

Abstract

在自然语言处理中比较两个文件组，并通过以下手段估算一个文件组的每一个组成元素(例如一个句子，项或短语)的特殊性：将目标文件和对比文件分为文件段，构造每一个文件段的句子矢量，其分量是在文件段中出现的项的出现频率，在一个投影轴上投影两个文件的所有句子矢量以发现一个投影轴，该投影坐标轴使等于(起源于目标文件的投影值的平方和)/(起源于对比文件的投影值的平方和)的比率最大化。通过在投影轴上投影句子矢量来获取投影值，并在投影值的基础上计算目标文件的单独句子的特殊性等级。

Description

评估文件的特殊性

技术领域

本发明涉及包括文件概要的自然语言处理。尤其是，本发明涉及从数量上评估经过比较的两个文件或文件组中的一个文件的一个组元(例如一个句子、项或短语)的特殊性等级，从而提高自然语言处理的性能。

背景技术

在多文件概要中，比较两个文件或文件组以在它们之间提取不同部分的一个处理是重要的。关于下列讨论，从文件提取的不同部分被称为“目标文件”，和目标文件相比较的其它文件被称为“对比文件”。此前的一个惯例是将目标文件和对比文件分成小的元素，比较生成的元素并且确定出不一致的元素作为不同部分。所述元素可以是一个句子、一个段落和每一个独立的范围，在这种情况时文件在自动提取的主题的变更点上被划分。在这种情况下，矢量空间模型常被用于元素的比较。在每一个元素被一个矢量空间模型所代表的情况中，矢量的分量对应在文件中出现的单个项，并且给出了元素中的相对应项的频率或是与其相关的数量作为每一个矢量分量的值。

所述矢量之间的余弦相似性可被用于判断所述元素之间的一致性是好还是差。当所述余弦相似性高于一个预定的阈值时，判断所述元素以使彼此一致。相应的，与所述对比文件的所有元素的相似性低于所述阈值的目标文件的一个元素被认为是不同的部分。另一个公知的方法是，在两个文件都被图表表示后，建立图表元素的对应关系以便从不相对应的图表元素中获得不同的部分。

这里是两种用于提取不同部分的技术：

(A)提取其中表达信息不同的任一部分。

(B)提取反映通过两个文件表达于文件中的概念的差别的任一部分。

许多文件概要的现有技术的方法基于技术(A)。提取两个文件中的不同部分，目标文件中的每一不同部分的重要性未被估算。因此，仅仅由于与对比文件不同，作为信息不是非常重要的一个部分可作为不同部分而被提取。在技术(B)中，本发明使满足以下条件的任一不同部分的提取成为可能：

从目标文件中提取的不同部分也是目标文件中的一个重要部分。即，差异性和重要性平衡。满足条件的不同部分更适于在目标文件中被表示为“特殊部分”，而不仅仅是不同部分。因此，满足该条件的一个不同部分将在下文中被称为“特殊部分”。

可为目标文件的每一个句子计算一个估算值作为特殊性的范围。

可为被提取的特殊部分计算一个估算值作为项或项系列的特殊性等级，以确定什么项或项系列形成主要因子。

发明内容

一种估算一个满足上述条件的目标文件的特殊性等级的方法如下。根据本发明的一个实施例是一种从目标文件中提取具有高等级的特殊性的文件段的方法。首先，目标文件和对比文件都被分为文件段，并获得每一个文件段的一个矢量，该矢量的分量是在文件段中出现的项的频率。由于大多数自然文件段是一个句子，下文中假设文件段为一个句子。因此，两个文件被表示为一组句子矢量。随后，当两个文件的所有句子矢量被投影在一个特定的投影坐标轴上时，建立一个最大化一个比率的投影坐标轴(起源于目标文件的投影值的平方和)/(起源于对比文件的投影值的平方和)。关于这样的一个投影坐标轴，目标文件的句子矢量的投影值的平方和变大而对比文件的句子矢量的投影值的平方和变小。因此，反映出信息很大程度存在于目标文件中且在对比文件中几乎不存在。结果，当句子矢量被投影在投影坐标轴上时，对于在内容上不同于对比文件的句子，目标文件中的投影值的绝对值变大，且它们可作为目标文件的单独句子的特殊性等级的计算基础而被采用。

根据本发明的另一个实施例是具有一个高等级特殊性的项的选择方法。关于这个项，计算在单独句子中的一个目标项的频率和相应句子的特殊性等级之间的相关性，并选择具有一个高度相关值的任一项。由于这样的一个项将只能出现在具有一个特殊性高等级的句子中，这样的一个项可被视为一个特殊项。因此，基于相关值而计算项的特殊性等级。

诸如出现在目标文件中的短语或模式等项系列的特殊性等级可通过与用于句子或项的方法类似的方法被估算。例如，为每一个项系列获得一个矢量，其中对应于包含在一个目标项系列中的项的分量采用一个值“1”，而其它分量采用一个值“0”，可通过用于计算句子的特殊性等级的方法来计算每一个项系列的特殊性等级。另外，当单独句子中的每一个项系列的频率被预先计算时，在用于计算项的特殊性等级的方法中，可通过以每一项系列的频率替代每一项的频率来估算项系列的特殊性等级。

此外，根据本发明的另一个实施例的用于估算一个目标文件的特殊性等级的方法如下所述。一个句子被假设为一个文件段。处理步骤到文件段矢量的获取与上述实施例相同。随后，为目标文件的每一个句子计算与整个目标文件的相似性和与整个对比文件的相似性。目标文件中的任何重要句子都与整个目标文件有高度的相似性，且任何具有不同于对比文件内容的句子都与整个对比文件有低的相似性。因此，可通过使用一个比率(与整个目标文件的相似性)/(与整个对比文件的相似性)来定义其差异性和重要性被较好地平衡的特殊性的等级。此外，可通过计算单独句子的特殊性等级和在相应的句子中的项的频率之间的相关性来计算一个项的特殊性等级。并且，与上述实施例一样，也可通过从项系列获取一个矢量并计算该矢量与整个目标文件及与整个对比文件的相似性来计算每一个项系列的特殊性等级。另外，可从单独句子中的项系列的频率和相应句子的特殊性等级之间的相关性中计算每一个项系列的特殊性等级。

根据本发明，当比较两个文件时，可为构造两个文件之一的一个目标文件的单独句子、短语或单词计算特殊性等级。例如，一个对比文件是另一个文件，且对比文件和目标文件都是诸如叙述一个相同情况的新闻报导，具有特殊性高等级的句子从目标文件中被选择，相应的，可识别叙述主题不同于那些对比文件的句子。例如，关于某场交通事故，在对比文件中叙述“事故概况”和“肇事者和受害者”，而除了“事故概况”之外，在目标文件中也叙述“警察观察”等，关于“警察观察”的句子的特殊性等级在目标文件中为高等级，且与“警察观察”相关的一个部分可被识别。如果一位用户已经查阅过对比文件，他/她被允许识别和仅仅阅读不为其所知的“警察观察”部分。因此，可提高获取信息的效率。在一个调查中，当目标文件和对比文件分别是从某个群体和另一个群体所获得的一组答复时，可通过应用本发明的一个实施例的方法来掌握目标文件的群体中的特殊答复趋向。依照这种方式，由于本发明的应用，可轻易确定和分析来自目标文件的信息。

附图说明

附图1是一个包含有本发明特征的计算机的框图。

附图2是一个在相关的附图1中描述的计算机响应于按照本发明的第一个实施例的计算机存储的程序而执行操作的流程图；该流程图包括从计算机读出文件到计算机确定一个文件段的特殊性等级的步骤。

附图3是按照本发明的计算机操作的第二个实施例的流程图，该流程图包括从计算机读出文件到计算机确定一项的特殊性等级的步骤。

附图4是按照本发明的计算机操作的第三个实施例的流程图；流程图包括从计算机读出文件到计算机确定一个文件段和一项的相应的特殊性等级的步骤。

附图5A至5D是对描述附图1中的计算机如何编程来处理一目标文件和一对比文件的句子矢量有帮助的示意图。

具体实施方式

附图1是一个包括用于阅读对比文件和目标文件的文件阅读器110的计算机的方框图。一个数据处理器120从文件阅读器110接收一个输出并且执行输入文件等的项检测，形态分析(morphological ananlysis)，文件分割等。处理器120将经检测、分析和分割的文件提供给一个选择引擎130的选择数据处理块，它从目标文件中选择一个具有高等级特殊性的文件段或一个具有高等级特殊性的项。引擎130为装置140答复选择的文件段，例如，一个计算机显示器或打印机，它们能输出所选择的特殊文件段或特殊项。附图1中的计算机可以是一个通用的计算机或一个用于执行在相关的附图2-5中描述的操作的专用计算机。

下面将描述一种附图1中的计算机执行响应于一个计算机存储的程序以从一个目标文件中提取具有高等级特殊性的任何文件段的方法。附图2是附图1中的计算机按顺序执行估测一个文件段的特殊性的等级的操作流程图。这个方法可以用如下步骤实现，具有这里引入的一个实施例的程序在一个通用计算机上运行来实现。参照附图2，数字11表示由文件阅读器110执行的比较/目标文件输入步骤，数字12表示由数据处理器120执行的项检测步骤，数字13表示一个形态分析步骤，和数字14表示一个同样由数据处理器120执行的文件分割步骤。此外，数字15表示一个文件段矢量构造步骤，数字16表示一个主体差异因子分析步骤，数字17表示一个文件段矢量投影步骤，数字18表示对于主体差异因子的每一阶(order)进行文件段特殊性的计算步骤，数字19表示总的文件段特殊性等级的计算步骤，和数字20表示一个特殊的文件段选择步骤。选择引擎130执行15-20的每一个步骤。对附图1中的计算机如何操作来执行附图2的各步骤的如下描述是使用英语语言文件作为例子的。

首先，在比较/目标文件输入步骤11中输入一个目标文件和一个比较文件。在项检测步骤12中，处理器120从两个文件中检测单词，公式，一系列符号等。在下文中，所有的单词，一系列符号等通常都指的是“项”。在英语语言书写的情况下，在其中项被隔开的记号方法已经建立，因此检测该项是很容易的。接着，对比文件和目标文件两个文件都在形态分析步骤13进行形态分析，例如，将一个指示词类(part-of-speech)的标记添加到每一个项中。在文件分割步骤14中，两个文件都被分成文件段。文件段最基本的单位是一个句子。以英语书写为例，一个句子可以很容易地被提取，因为一个句子以句点结尾，其后紧跟一个空格。其它的文件分割方法包括(1)将一个复杂的句子分成一个主句和一个从句，(2)集中将多个句子分成文件段以致于具有大体上相等数目的项，和(3)从头开始，将文件分成具有相同数目项的段，而不考虑句子等等。

在文件段矢量构造步骤15中，选择引擎130确定(1)根据在整个文档中出现的项来构造矢量的维数以及(2)相应的维和单独项之间的对应性。矢量的分量不需要对应于出现项的所有类型，而是仅仅根据选择的项来构造矢量，例如，名词和动词，通过利用步骤13的语音部分标记结果。在步骤15中，选择引擎130通过获得在每一个文件段中出现的项的类型和它的频率来构造文件段矢量，并且通过频率乘以加权来确定相应的矢量分量的值。加权可以用已知的

现有技术进行选择。

在主体差异因子分析步骤16中，选择引擎130通过用全部的文件段矢量的投射值的平方和得出使对比文件和目标文件的比率最大的投影轴。在下文中，一句子被假定为文件段。考虑文件D和T，对该文件的一组出现项由{W1，..，WJ}给出，并且该文件分别由M和N个句子组成。文件T是对比文件时，而文件D是目标文件。由一组句子矢量代表相应的文件，并且相应文件的第K个句子的句子矢量由d_k＝(d_k1，..，d_kj)^T和t_k＝(t_k1，..，t_kj)^T来表示，其中上标T表示该矢量的转置。附图5A-5D显示了当文件段是一个句子时的概念图。目标文件D由M个句子组成(附图5A)，并且句子矢量d_k根据第K个句子而构造(附图5B)。对应于项W_j的矢量分量d_k表示为d_kj。因为分量d_kj表示项w_j在第K个句子中的频率，因此它获得了每一个示范值。附图5C和5D指的是对比文件。符号α表示一建立的投影轴。假定||α||＝1，其中||α||表示α的范数。P_D和P_t表示当文件D和T在轴α上相应投影的所有句子矢量时投影值的平方和，建立的投影轴被赋值为最大化比率或判别式J(α)＝P_D/P_T的值α。P_D和P_T的平方和表示如下：

P_{D} = Σ_{k = 1}^{M} {({d_{k}}^{T} α)}^{2} = α^{T} S_{D} α,

公式1

S_{D} = Σ_{k = 1}^{M} d_{k} {d_{k}}^{T} x,

公式2

P_{T} = Σ_{k = 1}^{N} {({t_{k}}^{T} α)}^{2} = α^{T} S_{T} α,

公式3

S_{T} = Σ_{k = 1}^{N} t_{k} {t_{k}}^{T} .

公式4

因此，判别式J(α)也可以写为：

J (α) = \frac{P_{D}}{P_{T}} = \frac{α^{T} S_{D} α}{α^{T} S_{T} α} .

公式5

可获得由公式5给定的最大化判别式J(α)的轴α，以使通过相对于α差分J(a)而获得的一个值等于0(零)。这个轴指定为通过以下指出的一广义特征值问题的特征向量：

S_Dα＝λS_Tα. 公式6

这些操作对应于获得的投影轴，当两个文件的所有句子矢量被投影到某个投影轴上时该投影轴使比率(源于目标文件的投影值的平方和)/(源于对比文件的投影值的平方和)最大。关于这样的投影轴，目标文件的句子矢量的投影值的平方和变大，而对比文件的句子矢量的投影值的平方和却变小。因此，反映出在目标文件中是普遍的和在对比文件中不是普遍的这样一个信息。通常，多个值可以作为公式6的每一特征值和特征向量来被计算。第i阶的特征值和特征向量分别由λ_i和α_i表示。第i阶的特征向量可以被认为是表示第i个因子，其反映出存在于目标文件D和不存在于比较目标T中的信息。所以，第i阶的特征向量α_i可以称作目标文件D的″第i阶主题差异因子矢量″。选择引擎130在步骤16(主体差异因子分析)中计算这些主体差异因子矢量。因为λ_i＝α_i ^TS_Dα_i/α_i ^TS_Tα_i，λ_i是使用α_i时的判别式的值。

所以，在两个文件之间的差异程度在反映在相应阶的主体差异因子矢量上时彼此不相同。因此，相应阶的主体差异因子矢量按照差异程度优选被加权。加权通过确定第i阶的特征向量α_i的范数来执行以致于成为：

α_i ^TS_Tα_i＝1 公式7

那么，

α_i ^TS_Dα_i＝λ_i 公式8

在目标文件D的相应的句子矢量和特征向量α_i之间的内积的平方和等于λ_i。就公式6来说，为了计算特征向量矩阵S_T必须是正则矩阵。但是，现实情况是，当对比文件中的句子的数目小于项的数目时或其中指定的项总是成对共同存在，则该矩阵S_T不能作为一个正则矩阵获得。在这种情况下，特征向量可以通过调整该矩阵S_T使其和下列公式相一致来计算：

{\hat{S}}_{T} = S_{T} + β^{2} I

公式9

其中β²表示一参数，并且I表示单位矩阵。

就公式7来说，判别式J(α)是如下相等地减少：

J(α)＝P_D/(P_T+β²). 公式10

在步骤17中，在选择引擎130确定文件段矢量投影期间，目标文件的每一个句子矢量被投影在每一阶的主体差异因子矢量上以便计算一个相应的投影值。在第i阶的主体差异因子矢量α_i上的目标文件的句子k的句子矢量d_k的投影值由y_ki表示，并且由引擎130用下列公式计算：

y_ki＝α_i ^Td_k. 公式11

但是，因为这样定义的投影值对一个长句趋向于变得很大，根据||d_k||可以实行对投影值归一化来使得投影值独立于该句子的长度。在这种情况下，投影值y_ki是这样给出的：

y_{ki} = {α_{i}}^{T} d_{k} / | | d_{k} | | .

公式12

在步骤18中，引擎130为主体差异因子的每一阶计算文件段的特殊性，句子矢量d_k的第i阶的特殊性的等级distinc(d_k，i)基于投影值y_ki来计算。通常，投影值y_ki取一正的或负的值。当句子k的内容更接近于目标文件D的内容并且更加不同于对比文件T的内容时，投影值y_ki的绝对值会增大。因此，特殊性等级distinc(d_k，i)可以被定义为：

distinc(d_k，i)＝y_ki ² 公式13

distinc(d_k，i)＝|y_ki|. 公式14

引擎130仅仅用第i个因子来计算第i阶的特殊性等级，由公式13表示。引擎130根据多个因子计算特殊性的等级来精确地表达句子k的特殊性。为了这个目的，在步骤19中，引擎130按照如下公式计算句子k的总的文件段特殊性的等级：

distinc (d_{k}) = Σ_{i = 1}^{L} distinc (d_{k}, i) .

公式15

变量L表示用于计算句子特殊性的主体差异因子矢量的数目，并且一适当的值必须用实验方法确定。L的最大值是特征值的值等于或大于1的特征值的数目。

在特殊文件段选择的步骤20中，引擎130在目标文件中根据相应阶特殊性的等级和以前计算的总的特殊性的等级选择任何特殊句子。选择以如下描述的方式进行。在最简单的方法中，引擎130选择具有总的特殊性等级等于或大于预定值的任何一个句子。

一较复杂的方法使用一指定阶的主体差异因子矢量。引擎130首先将单独句子分类成目录组和第二组，在目录组中位于主体差异因子矢量上的相应句子矢量的投影值变成正的，在第二组中的相应的投影值变成负的。其次，从相应的组中选择每一阶的特殊性的等级等于或大于预定值的任何句子。这些操作为全部的主体差异因子矢量执行直到预定的阶L，而完全相同的句子被排除，由此特殊句子被选中。引擎130可以通过单一的或复杂的方法选择特殊句子。

而且，按照附图2的程序，不但文件段的特殊性的等级，而且那些项组合的特殊性的等级，例如短语，有从属关系的项组，或项系列模式，都以如下所述来估算。例如，“game of soccer played at Yokohama”这个表达式词中，“ofsoccer”修饰名词“game”，因此“game of soccer”成为了一个名词短语，还有“played at Yokohama”修饰名词短语“game of soccer”，因此上述的表达式就变成了一个完整的名词短语。更详细的，“at Yokohama”修饰动词“played”，因此“played at Yokohama”变成了一个在从属关系下的项组，除此之外，在“game of soccer played at xx”的表达作为包括xx的不同地点名字重复出现的情况下，“game of soccer played at”变成了一个项系列模式。

在步骤13中，除了执行形态分析，处理器120还提取了要被估算的项的组合。短语或者在从属关系下的项组都通过执行的一个语法分析而被提取。为提取经常出现的项系列模式，已经设计了多种方法，它们能够毫无问题的被使用。在步骤15中，除了用在步骤16中的文件段矢量以外，还构造矢量p＝(p₁，..，p_j)^T用于每一个将被估算的项的组合。矢量p是这样一个矢量，其中对应于包含在项组合中的项的分量取值“1”，而它的其它的分量取值“0”。一个矢量p的实际例子在下面进行解释。就表达式“game of soccer played at Yokohama”来说，矢量p变为这样一个矢量，其中的仅对应于项“Yokohama”，“played”，“soccer”和“game”的分量取值“1”，而其它的分量取值“0”。使用这样的一个矢量p而不是步骤17、18和19中的句子矢量d_k，引擎130计算将被估算的项组合的特殊性的等级。所以在步骤20中，在特殊句子中，特殊项组合同样选择引擎130。

在第二个实施例中，将要描述一个从目标文件中选择任何具有高等级特殊性的项的方法。关于项，对在单个句子中的目标项的频率和相应句子的特殊性等级之间的相关性进行计算，并且任何具有高相关值的项被选中。根据相关值对项的特殊性等级进行计算。附图3是根据本发明用于估算一项的特殊性等级的第二个实施例的流程图。这个方法可以用这样一种方式实现：在一个通用计算机上运行具有其中包含本发明实施例的程序。参照附图3的流程图，数字11表示对比/目标文件输入步骤，数字12表示项检测步骤，数字13表示形态分析步骤，和数字14表示文件分割步骤。此外，数字15表示文件段矢量构造步骤，和数字16表示主体差异因子分析步骤。除此之外，数字27表示文件段矢量投影步骤，数字28表示对主体差异因子的每一阶计算项特殊性等级的步骤，数字29表示总的项特殊性等级计算步骤，和数字30表示特殊项选择步骤。在上述步骤之中，部分11-16和在附图2中说明的是相同的。

将一文件段假定为一个句子的例子以附图2的情况进行描述。在文件段矢量投影步骤27中，除了在附图2的步骤17中的目标文件D的句子矢量的投影，对比文件T的全部的句子矢量还被投影。由z_ki表示的在第i阶的主体差异因子矢量α_i上的对比文件T的句子矢量t_k的投影值通过下述公式计算：

z_ki＝α_i ^Tt_k 公式16

或

z_{ki} = {α_{i}}^{T} t_{k} / | | t_{k} | | .

公式17

在对每一阶的主体差异因子的项特殊性等级的计算的步骤28中，首先计算单个句子的投影值和在相应句子中的项频率之间的相关性。这里，correl(w_j，i)表示在对应于第j项w_j的目标文件和对比文件中的句子矢量的那些分量值和相应句子矢量在第i阶的主体差异因子矢量d_i上的投影值之间的相关系数。句子矢量d_k和t_k的第j个分量是d_kj和t_kj，并且在矢量α_i上的投影值分别是y_ki和z_ki，因此该相关系数可以由下列公式计算：

correl (w_{j}, i) = \frac{(Σ_{k = 1}^{M} y_{ki} d_{kj} + Σ_{k = 1}^{N} z_{ki} t_{kj})}{(\sqrt{Σ_{k = 1}^{M} {y_{ki}}^{2} + Σ_{k = 1}^{N} {z_{ki}}^{2}} \sqrt{Σ_{k = 1}^{M} {d_{kj}}^{2} + Σ_{k = 1}^{N} {t_{kj}}^{2}}} .

公式18

当在对应于句子矢量d_k或t_k中的项W_j的分量值和句子矢量在主体差异因子矢量α_i上的投影值之间保持比例关系时，对于项w_j的相关系数增大。也就是说，第i阶的句子的特殊性等级在项W_j出现时变大和在项w_j没有出现时变小，这时相关系数增大。在这种情况下，项w_j可以被认为是控制每一个句子的第i阶的特殊性等级的特殊项；所以，由distinc(w_j，i)表示的第i阶的项的特殊性等级可以在步骤28中由以下公式计算：

distinc(w_j，i)＝correl(w_j，i)² 公式19

或

distinc(w_j，i)＝|correl(w_j，i)|. 公式20

在总的项特殊性等级计算步骤29中，如在附图2的情况中那样，对每一个项的总的特殊性等级由结合多个因子来计算。由distinc(w_j)表示的项w_j的总的特殊性等级在步骤29中由下列公式计算：

distinc (w_{j}) = Σ_{i = 1}^{L} distinc (w_{j}, i) .

公式21

在特殊项选择步骤30中，在目标文件中的任何特殊项根据已经计算的相应阶的特殊性等级和总的特殊性等级被选择。选择可以按照以下的叙述进行。最简单的方法是一种选中任何具有总的特殊性等级等于或大于一预定值的项的方法。同样，接下来的方法也是可行的。首先，关于指定阶的主体差异因子矢量，单独的项被分成一个组，其中在相应的句子矢量在主体差异因子矢量上的投影值和相应的项的频率之间的相关系数变成正的，和一个组，其中它们变成负的。其次，从相应的组中选择每一阶的特殊性等级等于或大于预定值的项。对所有的主体差异因子矢量执行这些操作直到预定的阶L，并且完全相同的项被排除，由此特殊项被选中。特殊项可以通过这任何一个方法进行选择。

此外，按照对应于本发明的第二个实施例，不仅项的特殊性等级，而且那些项组合的特殊性等级，例如短语，有从属关系的项组，或项系列模式，可以按照以下的叙述估算。当在第一个实施例中，在步骤13，除执行形态分析之外，还对将被估算的项的组合进行提取。短语，或有从属关系的项组可以通过执行语法分析而被提取。对于提取经常出现的项系列模式的各种方法已经被提出，并且它们可以毫无问题的被使用。在步骤15，除构造用于步骤16的文件段矢量外，还对每一个将被估算项的组合出现在相应的文件段中的频率进行计算。这里，P_Dk表示在目标文件D的句子k中的频率，并且p_Tk表示在对比文件T的句子k中的频率。在步骤28和29中，可通过用p_Dk替换d_Kj和用p_Tk替换t_Ki来计算将被估算的项的组合的特殊性等级，而不是项W_j的特殊性等级。因此，在步骤30中，可以像对特殊项一样选择特殊项组合。

其次，为了估算一目标文件的特殊性，按照本发明的第三实施例按如下操作。从第三个实施例的对比/目标文件输入步骤11到文件段矢量构造步骤15为第一个和第二个实施例所共有。其后，为目标文件的每一个句子对整个目标文件的相似性和整个对比文件的相似性进行计算。附图4是一显示本发明的第三个实施例用于估算一文件段和一项的特殊性等级的流程图，这个方法可以以这样一种方式实现：在一通用计算机上运行具有其中包含该实施例的程序。

参照附图4的流程图，数字11表示对比/目标文件输入步骤，数字12表示项检测步骤，数字13表示形态分析步骤，和数字14表示文件分割步骤。此外，数字15表示文件段矢量构造步骤，数字36表示相似性计算步骤，数字37表示文件段的特殊性等级计算步骤和数字38表示项的特殊性等级等级化步骤。除此之外，数字39表示特殊文件段选择步骤，和数字40表示特殊项选择步骤。步骤11-15和在附图2中所说明的相同。

在相似性计算步骤36，引擎130计算在目标/对比文件的单独句子的矢量和整个目标/对比文件之间的相似性。设定sim(D，d_k)表示目标文件的句子矢量d_k对整个目标文件的相似性，和sim(T，d_k)表示其对整个对比文件的相似性，sim(D，d_k)和sim(T，d_k)可以根据在句子矢量d_k和目标文件与对比文件所有的句子矢量之间内积的平方和分别进行计算，如下述：

sim (D, d_{k}) = {(\frac{Σ_{m = 1}^{M} {({d_{k}}^{T} d_{m})}^{2}}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{M} {({d_{m}}^{T} d_{n})}^{2} {| | d_{k} | |}^{2}}})}^{1 / 2}

公式22

sim (T, d_{k}) = {(\frac{Σ_{m = 1}^{N} {({d_{k}}^{T} t_{m})}^{2}}{\sqrt{Σ_{m = 1}^{N} Σ_{n = 1}^{N} {({t_{m}}^{T} t_{n})}^{2} {| | d_{k} | |}^{2}}})}^{1 / 2} .

公式23

另外，设定 d和 t表示目标文件与对比文件的平均句子矢量，上述相似性可以以下列公式分别计算：

sim (D, d_{k}) = \frac{{d_{k}}^{T} \overset{&OverBar;}{d}}{\sqrt{({\overset{&OverBar;}{d}}^{T} \overset{&OverBar;}{d}) ({d_{k}}^{T} d_{k})}},

公式24

sim (T, d_{k}) = \frac{{d_{k}}^{T} \overset{&OverBar;}{t}}{\sqrt{({\overset{&OverBar;}{t}}^{T} \overset{&OverBar;}{t}) ({d_{k}}^{T} d_{k})}} .

公式25

顺便提及，在相似性计算步骤36，为项特殊性等级计算步骤38作准备，为对比文件的全部的句子矢量同样计算相对于整个目标文件和整个对比文件的相似性。在文件段的特殊性等级计算步骤37中，引擎130对目标文件的所有句子矢量计算特殊性等级。任何在目标文件中重要的句子对于整个目标文件有高的相似性，并且任何具有不同于对比文件的内容的句子对于整个对比文件有低的相似性。因此，其中的差异性和重要性被很好平衡的特殊性等级可以通过使用比率(对整个目标文件的相似性)/(对整个对比文件的相似性)来定义。因此，引擎130在步骤37中用如下公式计算目标文件D的句子k的特殊性等级distinc(d_k)：

distinc(d_k)＝sim(D，d_k)/sim(T，d_k). 公式26

这样计算的句子k的特殊性等级在句子k对目标文件有高的相似性和对对比文件有低的相似性这种情况下变大。顺便提及，在文件段的特殊性等级计算步骤37中，对对比文件T的句子特殊性等级也进行计算，为下一步骤38的项特殊性计算作准备。对比文件T的句子k的特殊性等级应该由distinc(t_k)表示。

在步骤38，引擎130根据在单独句子的特殊性等级和在相应的句子中的项频率之间的相关系数执行项的特殊性等级计算。在步骤38，引擎130按照如下公式计算由distinc(W_j)表示的一项W_j的特殊性等级：

distinc (w_{j}) = \frac{(Σ_{k = 1}^{M} d_{kj} distinc (d_{k}) + Σ_{k = 1}^{N} t_{kj} distinc (t_{k}))}{\sqrt{Σ_{k = 1}^{M} {d_{kj}}^{2} + Σ_{k = 1}^{N} {t_{kj}}^{2}} \sqrt{Σ_{k = 1}^{M} distinc {(d_{k})}^{2} + Σ_{k = 1}^{N} distinc {(t_{k})}^{2}}} .

公式27

当在对应于句子矢量d_k或t_k中的项w_j的分量值和该句子的特殊性等级之间保持比例关系时，对项w_j的相关系数变高。也就是说，当项w_j出现时句子的特殊性等级变大和当项W_j未出现时句子的特殊性等级变小，这时相关系数会增大。在这种情况下，项w_j可以被认为是控制每一个句子的特殊性等级的特殊项。

在步骤39和40，引擎130分别选择特殊文件段和特殊项，这样任何句子特殊性等级等于或大于预定值的句子，和任何项特殊性等级等于或大于预定值的项被选中。从而，可以获得特殊句子和项。

按照附图4，除了项的组合，例如短语、有从属关系的项组、或项系列模式的特殊性等级以外，还有项和文件段的特殊性等级可以用以下的叙述估算。在步骤13，除执行形态分析之外，还对将被估算的项的组合进行提取。短语，或有从属关系的项组可以通过执行语法分析来提取。已经设计出用于提取经常出现的项系列模式出现频率的各种方法，并且它们可以毫无问题的被使用。在步骤15中，除用于步骤16中的文件段矢量之外，还构造矢量p＝(p₁，..，p_j)^T用于每一个将被估算的项的组合。矢量p是一个具有如下分量的矢量：对应于包含在将被估算的项组合中的项的分量取值″1″，而其他分量取值″0″。其次，在步骤36和37，在这样的一个矢量p和目标文件D之间的相似性sim(D，p)和在矢量p和对比文件T之间的相似性sim(T，p)通过用矢量p替换句子矢量d_k来计算。就象公式20和21，这些相似性可以如下定义：

sim (D, p) = {(\frac{Σ_{m = 1}^{M} {(p^{T} d_{m})}^{2}}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{M} {({d_{m}}^{T} d_{n})}^{2}} {| | p | |}^{2}})}^{1 / 2},

公式28

sim (T, p) = {(\frac{Σ_{m = 1}^{N} {(p^{T} t_{m})}^{2}}{\sqrt{Σ_{m = 1}^{N} Σ_{n = 1}^{N} {({t_{m}}^{T} t_{n})}^{2}} {| | p | |}^{2}})}^{1 / 2} .

公式29

另外地，就象公式22和23，相似性可以如下公式很好的定义：

sim (D, p) = \frac{p^{T} \overset{&OverBar;}{d}}{\sqrt{({\overset{&OverBar;}{d}}^{T} \overset{&OverBar;}{d}) (p^{T} p)}},

公式30

sim (T, p) = \frac{p^{T} \overset{&OverBar;}{t}}{\sqrt{({\overset{&OverBar;}{t}}^{T} \overset{&OverBar;}{t}) (p^{T} p)}} .

公式31

使用该相似性，将被估算的项的组合的特殊性等级可以被如下计算：

distinc(p)＝sim(D，p)/sim(T，p). 公式32

在步骤40，那些它的特殊性等级等于或大于预定值的项组合被选择作为特殊项的组合。

此外，在这些实施例中，短语、有从属关系的项组、或每一个由多个的项组成的项系列模式的特殊性等级可以按照以下的叙述进行计算。在步骤15，除用于步骤16中的文件段矢量的构造之外，还对在相应的文件段中出现的每一个将被估算的项的组合的频率进行计算。这里，p_Dk表示在目标文件D的句子k中的频率，和p_Tk表示在对比文件T的句子k中的频率。在步骤38中，可通过用p_Dk替换d_Kj和用p_Tk替换t_Ki来计算将被估算的项的组合的特殊性等级，而不是项W_j的特殊性等级。在步骤39，那些特殊性等级等于或大于预定值的项组合被选择作为特殊项的组合。

为提出本发明的某些特征而利用公式13的实验结果如下。作为用于实验的数据，二个文件在适当长度的判别式和高相似性的条件下从一文本分类全集″Reuters-21578″的第一类别″acq″中被选择。这些文件的″id″是1836和2375。文件之间的余弦相似性是0.955。文件1836由43个句子组成，而文件2375由32个句子组成。该文件是同一天的新闻条目。认为已经晚送的文件2375被设置为目标文件D，文件1836作为对比文件T，以便从目标文件D中提取特殊句子等等。文件的内容涉及通过一美国航空公司″TWA″兼并一美国航空公司″USAir″。句子D-1到D-4概述新闻，句子D-5到D-24叙述兼并事件的细节，和句子D-25及以下等等叙述对公司″TWA″的分析。许多不存在于文件T中的信息条目被包含在句子D-1到D-4和D-5到D-24，和句子D-25及以下等等的一些句子中。该文件的整个文本将在这些说明书的末端作为″实验文件数据″被指出。

实验按照本发明的第一个实施例执行。因此，八个句子D-1，D-8，D-11，D-24，D-25，D-27，D-28和D-30被选为高等级的特殊性的句子。并且在一个人阅读对比试验中，这些句子被认为是与对比文件有微弱关系的和在目标文件中是特殊句子。

通过按照公式19选择有高等级特殊性的词所获得的结果如下列出。对于具有高等级特殊性的十个字的每一个，指出了词的特殊性等级，该词在目标文件D中的出现频率，和该词在对比文件T中的出现频率。选择的字特殊性等级在目标文件D中的出现频率在对比文件T中的出现频率

succeed 85.7 3 0

work 85.3 2 0

cost 85.2 2 0

surviving 81.6 2 0

clear 80.4 3 0

company 71.0 5 1

fall 67.3 2 0

arbitrager 67.0 5 1

bid 62.4 5 1

merge 61.9 3 1

根据这些结果，出现频率在比较文件T中很低并且在目标文件D中很高的字将被选中。

作为这样一个实验的应用，考虑接下来的例子。当某些新闻条目较早就被阅读以掌握新闻内容时，任何其内容没有在该较早的新闻条目中叙述的关键词可能从迟到的新闻项中被提取。因此，能够作出关于后来的新闻条目是否需要详细阅读的决定。甚至能够对两个项获得不同的特殊性等级，例如如上所述的字″succeed″和″clear″，它们在目标文件和对比文件中有完全相同的频率，而作为本发明的优点可以判定哪个更加特殊。

实验文件数据

下面叙述在本发明中使用的文件

对比文件T(Reuter-id 1836)

Trans World Airlines Inc complicated the bidding for Piedmont Aviation Inc byoffering either to buy Piedmont suitor USAir Group or，alternatively，to merge with Piedmontand USAir.Piedmont′s board was meeting today，and Wall Street speculated the board wasdiscussing opposing bids from Norfolk Southern Corp and USAir.The TWA offer wasannounced shortly after the Piedmont board meeting was scheduled to begin.TWA offered tobuy USAir for 52 dlrs cash per share.It also said it was the largest shareholder of USAir andthreatened to go directly to USAir shareholders with an offer for 51 pct of the stock at a lowerprice.TWA also said it believed its offer was a better deal for USAir shareholders than anacquisition of Piedmont，but it said it alternatively would discuss a three way combination ofthe airlines.Market sources and analysts speculated that TWA chairman Carl Icahn made theoffer in order to put his own airline into the takeover arena.We′re just wondering if he′s notjust trying to get TWA into play.

There′s speculation on the street he just wants to move onto something else，said onearbitrager.We think TWA might just be putting up a trial balloon.Analysts said the offer mustbe taken seriously by USAir，but that the airline will probably reject it because the price isrelatively low compared to other airline deals.They also said Icahn must prove his offercredible by revealing financing arrangements.They need to show their commitment and theirability to finance.I think it′s a credible offer，said Timothy Pettee，a Bear Stearns analyst.Ithink it′s certainly on the low end of relative values of airline deals，said Pettee.Petteeestimated 58 dlrs would be in a more reasonable range based on other airline mergers.USAirstock soared after TWA made public its offer.

A spokesman for USAir declined comment，and said USAir had not changed its offerfor Piedmont.USAir offered of buy 50 pet of that airline′s stock for 71 dlrs cash per share andthe balance for 73 dlrs per share in USAir stock.USAir closed up 5-3/8 at 49-1/8 on volume of1.9 min shares.Piedmont，which slipped 1/2 to close at 69-5/8，also remained silent on theTWA action.Piedmont has an outstanding 65 dlr cash per share offer from Norfolk SouthernCorp.Norfolk Southern declined comment，but said it stuck with its offer for Piedmont.Norfolk owns about 20 pct of Piedmont and opened the bidding when it said it would proposea takeover of Piedmont.Some analysts said Icahn may be trying to acquire USAir to make hisown airline a more attractive takeover target.Icahn I think had wanted to sell his airline andthere were no takers.I think the strategy might have called for making his investment moreattractive.

One way to accomplish that specific objective is to go out and acquire other airlines，said Andrew Kim of Eberstadt Fleming.I don′t know whose going to buy them，but at leastthis way it becomes a much more viable package，said Kim.But Icahn′s financing ability forsuch a transaction remains in doubt，in part because of TWA′s heavy debt load. Wall streetsources said TWA has some cash with which to do the offer.The sources said Icahn has notlined up outside financial advisers and plans to make his own arrangements.Icahn earlier thisyear abandoned plans to buy USX Corp<X>and still retains 11 pet ofthat company′s stock.Some Wall street sources said the financier′s USX plan was impacted by the cloud hangingover his adviser，Drexel Burnham Lambert Inc，because of Wall Street′s insider trading scandal.Industry sources also predicted USAir might reject the TWA offer on price and financingconcerns.It′s littered with contingencies and it doesn′t even have a financing arrangement，said one executive at another major airline.But the executive conceded a merged TWA USAirwould be a strong contender with USAir′s east coast route system and planned west coastpresence from PSA. USAir could feed the intenrational flights of TWA，which has a midwestpresence in its St.Louis hub.Adding Piedmont，dominant in the southeast，to the mix woulddevelop an even stronger force.The combined entity would also have TWA′s pars reservationsystem.Such a merger would be complex and analysts said it would result in an airline iwth an18 pct market share.

目标文件D(Reuter-id2375)

D-1 Carl Icahn′s bold takeover bid for USAir Group<U>has clouded the fate ofPiedmont Aviation Inc，which was being courted by USAir.

D-2 Yesterday，Icahn′s Transworld Airlines Inc<TWA>made a 1.4 billion dlr offerfor USAir Group.

D-3 The move complicated a USAir takeover offer for Piedmont，which was believedto be close to accepting the bid.

D-4 Today，USAir rejected Icahn′s 52 dlr per share offer and said the bid was a lastminute effort to interfere in its takeover of Piedmont.

D-5 Icahn was unavailable for comment.

D-6 Piedmont fell one to 68-5/8 on volume of 963,000.

D-7 TWA was off3/8 to 31-1/2.

D-8 USAir fell 1-3/8 to 47-3/4 as doubt spread it would be taken over.

D-9 Analysts and market sources view the TWA bid as an attempt to either trigger acounter offer from USAir or to attract a suitor who might want both airlines once they merged.

D-10 The next move is either Icahn starts a tender offer or Piedmont and USAirannounce a deal，speculated one arbitrager.

D-11 Some arbitragers said there is now some risk in the current price of Piedmontsince it is not clear that USAir′s bid will succeed.

D-12 Piedmont′s largest shareholder and other suitor，Norfolk Southern Corp<NSC>has offered 65 dlrs per share for the company.

D-13 USAir offered 71 dlrs cash per share for half of Piedmont stock，and 73 dlrs pershare in stock for the balance.

D-14 Some arbitragers，however，believe the depressed price of Piedmont offers abuying opportunity since the airline is destined to be acquired by someone.

D-15 USAir，they said，is the least likely to be bought.

D-16 Icahn，who has long talked about further consolidation in the airline industry，also offered USAir the alternative of a three way airline combination，including TWA andPiedmont.

D-17 But Wall Street has given little credibility to Icahn′s offer，which lackedfinancing and was riddled with contingencies.

D-18 Still，he has succeeded in holding up a merger of two airlines both of whichanalysts said would fit well with TWA.

D-19 You can′t discount him，said one arbitrager.

D-20 Analysts，however，said Icahn would have to prove he is serious by followingthrough with his threats or making a new offer.

D-21 In making the offer for USAir，Icahn threatened to go directly to shareholders for51 pct of the stock at a lower price if USAir rejected his offer.

D-22 It′s clear Icahn wants to sell and he′s bluffing，said one arbitrager.

D-23 Analysts said the 52 dlr per share offer was underpriced by about six dlrs pershare.

D-24 Some analysts believe Icahn′s proposed three way airline combination mightface insurmountable regulatory hurdles，but others believe it could be cleared if the companiesare acquired separately.

D-25 TWA would have to be the surviving company for the deal to work，said oneanalyst.

D-26 Analysts said such a merger would be costly and complicated.

D-27 TWA has the best cost structure，since Icahn succeeded in winning concessionsfrom its unions.

D-28 In order for the other carriers to come down to TWA′s wage scale in a merger，TWA would have to be the surviving entity，analysts said.

D-29 Such a move does not necessarily free Icahn of TWA，they said.

D-30 They said he showed skill in reducing Ozark Airlines′costs when he merged itinto TWA last year，and he might be a necessary ingredient for a merger to work.

D-31 However，other analysts speculated the managements of Piedmont and USAirwould not tolerate Icahn as head of a new company.

D-32 They said a USAir acquisition of TWA might be a way for him to exit thecompany if USAir′s airline is then merged into TWA.

Claims

1.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个文件段的特殊性等级并且识别特殊文件段的方法，该方法包括：

(a)为包含在对比文件和目标文件中的每一个文件段确定相应的文件段矢量，每一个文件段矢量具有与在它相应的文件段中出现的项的的出现频率相关的分量值；

(b)根据上述文件段矢量，计算分别对应于对比文件和目标文件的平方和矩阵；

(c)根据上述对应于对比文件和目标文件的平方和矩阵，计算目标文件的主体差异因子矢量的预定的阶号；

(d)根据上述对应的文件段矢量和上述相应阶的主体差异因子矢量，计算上述相应阶的相应特殊性等级和对于目标文件的每一个文件段的总的特殊性等级；和

(e)基于上述相应的阶的特殊性等级或根据目标文件的总的特殊性等级，在目标文件中识别一个特殊文件段。

2.如权利要求1所述的方法，进一步包括：

通过定义J作为一个出现在目标文件和对比文件中的项的类型的数目较大的一个，且定义M作为在目标文件中的文件段的数目，和定义第k个文件段矢量为d_k＝(d_k1，..d_kj)^T(k＝1，..，M)来计算目标文件的平方和矩阵，其中T表示矢量的转置，而d_kj表示与第j个项出现在上述文件段中的出现频率相关的值，并且按照下列公式计算目标文件的平方和矩阵：

S_{D} = Σ_{k = 1}^{M} d_{k} {d_{k}}^{T},

和

通过定义N作为在对比文件中的文件段的数目，且定义第n个文件段矢量为t_k＝(t_k1，..t_kJ)^T(k＝1，..，N)来计算对比文件的平方和矩阵，其中T表示矢量的转置，t_kj表示与第j个项存在于上述文件段中的出现频率相关的值，并且按照下列公式计算对比文件的平方和矩阵：

S_{T} = Σ_{k = 1}^{N} t_{k} {t_{k}}^{T} .

3.如权利要求2所述的方法，进一步包括根据广义特征值问题的第i阶的特征向量α_i按照下列公式计算目标文件的第i阶的主体差异因子矢量：

S_Dα＝λS_Tα。

4.如权利要求1的方法，进一步包括通过在所述相应的文件段矢量和每一阶的主体差异因子矢量之间内积的平方值或绝对值之一，或者通过用所述文件段矢量的一个范数来为每一个文件段归一化每一阶的所述特殊性等级，为所述目标文件的每一个文件段计算每阶的特殊性等级，且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。

5.如权利要求2的方法，进一步包括通过在所述相应的文件段矢量和每一阶的主体差异因子矢量之间内积的平方值或绝对值之一，或者通过用所述文件段矢量的一个范数来为每一个文件段归一化每一阶的所述特殊性等级，为所述目标文件的每一个文件段计算每阶的特殊性等级，且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。

6.如权利要求3的方法，进一步包括通过在所述相应的文件段矢量和每一阶的主体差异因子矢量之间内积的平方值或绝对值之一，或者通过用所述文件段矢量的一个范数来为每一个文件段归一化每一阶的所述特殊性等级，为所述目标文件的每一个文件段计算每阶的特殊性等级，且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。

7.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法，该方法包括：

(a)为包含在对比文件和目标文件中的每一个文件段识别相应的文件段矢量，每一个文件段矢量具有与在它相应的文件段中出现的项的出现频率相关的分量值；

(d)在所述目标文件中为每一个项组合计算项组合矢量，每一个项组合矢量具有对应于包括在项组合中的项的被给出一个由所述项在所述项组合中出现的数目所确定的值的分量，并具有等于“0”的其它分量；

(e)根据所述对应的项组合矢量和所述相应阶的主体差异因子矢量，为所述目标文件的每一个项组合计算所述相应阶的特殊性等级和总的特殊性等级；

(f)根据上述相应阶的所述特殊性等级或所述目标文件的总的特殊性等级，将所述目标文件中的项组合识别为特殊的。

8.如权利要求7所述的方法，进一步包括通过在所述对应的项组合矢量和每阶的所述主体差异因子矢量之间内积的平方值或绝对值的一个，或者是通过用所述项组合矢量的范数来为每一个项组合规一化每一阶的所述特殊性等级，为所述目标文件的每一个项组合计算每一阶的特殊性等级，和通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。

9.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项的特殊性等级并且识别特殊项的方法，该方法包括：

(c)根据上述分别对应于对比文件和目标文件的平方和矩阵，计算目标文件的主体差异因子矢量的预定的阶号；

(d)为目标文件和对比文件的所述文件段的每一个计算内积的值，在所述对应的文件段矢量和所述相应阶的所述主体差异因子矢量之间计算所述内积值；

(e)根据所述相应文件段的每一个项的频率和所述内积值之间的相关系数，为包含在所述目标文件中的每一项计算所述相应阶的特殊性等级和总的特殊性等级；

(f)根据上述相应阶的所述特殊性等级或所述目标文件的总的特殊性等级，识别所述目标文件中的特殊项组合。

10.如权利要求9所述的方法，进一步包括：

S_{D} = Σ_{k = 1}^{M} d_{k} {d_{k}}^{T},

和

通过定义N作为在对比文件中的文件段的数目，且定义第n个文件段矢量为t_k＝(t_k1，..t_kJ)^T(k＝1，..，N)来计算对比文件的平方和矩阵，其中T表示矢量的转置，t_kj表示与第j个项出现于上述文件段中的出现频率相关的值，并且按照下列公式计算对比文件的平方和矩阵：

S_{T} = Σ_{k = 1}^{N} t_{k} {t_{k}}^{T} .

11.如权利要求9所述的方法，进一步包括根据广义特征值的第i阶的特征向量α_i按照下列公式计算目标文件的第i阶的主体差异因子矢量：

S_Dα＝λS_Tα。

12.如权利要求9所述的方法，进一步包括通过在所述相应的文件段中每项的频率和对应的文件段矢量与相应阶的所述主体差异因子矢量内积之间的相关系数的平方值或绝对值之一，为包含在所述目标文件的每一项计算每阶的特殊性等级，且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。

13.如权利要求10所述的方法，进一步包括通过在所述相应的文件段中每项的频率和对应的文件段矢量与相应阶的所述主体差异因子矢量内积之间的相关系数的平方值或绝对值之一，为包含在所述目标文件的每一项计算每阶的特殊性等级，且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。

14.如权利要求11所述的方法，如权利要求10所述的方法，进一步包括通过在所述相应的文件段中每项的频率和对应的文件段矢量与相应阶的所述主体差异因子矢量内积之间的相关系数的平方值或绝对值之一，为包含在所述目标文件的每一项计算每阶的特殊性等级，且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。

15.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法，该方法包括：

(a)为包含在对比文件和目标文件中的每一个文件段识别相应的文件段矢量，每一个文件段具有与相应的文件段中出现的项的出现频率相关的分量值；

(e)根据所述相应文件段的每一个项组合的频率和所述内积值之间的相关系数，为包含在所述目标文件中的每一项组合计算所述相应阶的特殊性等级和总的特殊性等级；

16.如权利要求15所述的方法，进一步包括：

通过定义J作为一个出现在目标文件和对比文件中的项的类型的的数目较大的一个，且定义M作为在目标文件中的文件段的数目，和定义第k个文件段矢量为d_k＝(d_k1，..d_kj)^T(k＝1，..，M)来计算目标文件的平方和矩阵，其中T表示矢量的转置，而d_kj表示与第j个项出现在上述文件段中的出现频率相关的值，并且按照下列公式计算目标文件的平方和矩阵：

S_{D} = Σ_{k = 1}^{M} d_{k} {d_{k}}^{T},

以及

S_{T} = Σ_{k = 1}^{N} t_{k} {t_{k}}^{T} .

17.如权利要求16所述的方法，进一步包括根据广义特征值的第i阶的特征向量α_i按照下列公式计算目标文件的第i阶的主体差异因子矢量：

S_Dα＝λS_Tα。

18.如权利要求15所述的方法，进一步包括通过在所述相应的文件段中每个项组合的频率和所述的内积值之间的所述相关系数的平方值或绝对值之一，为包含在所述目标文件的每一项组合计算每阶的特殊性等级，且通过增加所述相应阶的特殊性等级的一个预定数来计算所述总的特殊性等级。

19.如权利要求16所述的方法，进一步包括通过所述相应的文件段中的每个项组合的频率和所述内积值之间的所述相关系数平方值或绝对值之一来为包含在所述目标文件中的每一个项组合计算每一阶的特殊性等级，并通过增加所述相应阶的特殊性等级的一个预定数目来计算所述总的特殊性等级。

20.如权利要求17所述的方法，进一步包括通过在所述相应的文件段中每个项组合的频率和所述的内积值之间的所述相关系数的平方值或绝对值之一，为包含在所述目标文件的每一项组合计算每阶的特殊性等级，且通过增加所述相应阶的特殊性等级的一个预定数来计算所述总的特殊性等级。

21.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个文件段的特殊性等级并且识别特殊文件段的方法，该方法包括：

(b)为所述目标文件的每一个文件段计算所述文件段矢量的相似性，所述文件段矢量的相似性对应于所述目标文件和所述对比文件；

(c)通过使用与所述目标文件和所述对比文件的相似性，为所述目标文件的每一个文件段计算一个总的特殊性等级；以及

(d)根据所述目标文件的总的特殊性等级，在所述目标文件中识别特殊文件段。

22.如权利要求21所述的方法，进一步包括根据所述文件段矢量和所述目标文件的相应的段矢量之间的一个内积的平方和，计算所述文件段矢量和所述目标文件之间的相似性，并且根据所述文件段矢量和所述对比文件的相应的段矢量之间的一个内积的平方和，计算所述文件段矢量和所述对比文件之间的相似性。

23.如权利要求21所述的方法，进一步包括：根据所述文件段矢量和所述目标文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述目标文件之间的相似性，并且根据所述文件段矢量和所述对比文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述对比文件之间的相似性。

24.如权利要求21所述的方法，进一步包括：通过与所述目标文件的相似性和与所述对比文件的相似性之间的一个比率来计算所述文件段的总的特殊性等级。

25.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一项的特殊性等级并且识别特殊项的方法，该方法包括：

(a)为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量，所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值；

(b)为所述目标文件的每一个文件段计算相应的文件段矢量的相似性，所述对应的文件段矢量的相似性对应于所述目标文件和对比文件；

(c)通过使用与所述目标文件和所述对比文件的相似性来为所述目标文件的每一个文件段计算一个总的特殊性等级；

(d)通过使用与所述目标文件和所述对比文件的相似性来为所述对比文件的每一个文件段计算一个总的特殊性等级；

(e)根据在所述目标文件和所述对比文件的相应文件段中的每一项的频率和所述相应文件段矢量的总的特殊性等级的值之间的相关系数来为包含在所述目标文件中的每一项计算一个总的特殊性等级；

(f)根据所述目标文件的总的特殊性等级，识别所述目标文件中的特殊项。

26.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法，该方法包括：

(b)为所述目标文件的每一个文件段计算相应的文件段矢量的相似性，所述相应的文件段矢量的相似性相对应于所述目标文件和对比文件；

(c)通过使用与所述目标文件和所述对比文件的相似性而为所述目标文件的每一个文件段计算总的特殊性等级；

(d)根据所述相应文件段中的每一个项组合的频率和所述相应文件段的总的特殊性等级的值之间的相关系数来为包含在所述目标文件中的每一个项组合计算特殊性等级。

(e)根据所述目标文件的总的特殊性等级来确定所述目标文件中的特殊项组合。

27.如权利要求26所述的方法，进一步包括：根据所述文件段矢量和所述目标文件的所述相应段矢量之间的内积的一个平方和来计算所述文件段矢量和所述目标文件之间的相似性，并且根据所述文件段矢量和所述对比文件的所述相应段矢量之间的内积的一个平方和来计算所述文件段矢量和所述对比文件之间的相似性。

28.如权利要求26所述的方法，进一步包括：根据所述文件段矢量和所述目标文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述目标文件之间的相似性，并根据所述文件段矢量和所述对比文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述对比文件之间的相似性。

29.如权利要求26所述的方法，进一步包括：根据与所述目标文件的相似性和与所述对比文件的相似性的比率来计算所述文件段的总的特殊性等级。

30.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法，该方法包括：

(a)为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量，每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值；

(b)在所述目标文件中为每一个项组合而计算一个项组合矢量，所述项组合矢量具有对应于包括在项组合中的项的由在所述项组合中出现的所述项的数目所确定给定值的分量，并具有等于“0”的其它分量；

(c)为所述目标文件的每一个项组合计算项的对应的组合矢量的相似性，所述对应的组合矢量的相似性对应于所述目标文件和对比文件；

(d)通过使用与所述目标文件和所述对比文件的相似性，为所述目标文件的每一个项组合计算一个总的特殊性等级；

(e)根据所述目标文件的总的特殊性等级，在所述目标文件中确定一个特殊项组合。

31.如权利要求30所述的方法，进一步包括基于所述项组合矢量和所述目标文件的相应的段矢量之间的一个内积的平方和来计算所述项组合矢量和所述目标文件之间的相似性，并基于所述项组合矢量和所述对比文件的相应的段矢量之间的一个内积的平方和来计算所述项组合矢量和所述对比文件之间的相似性。

32.如权利要求30所述的方法，进一步包括：基于所述项组合矢量和所述目标文件的一个平均段矢量之间的内积来计算所述项组合矢量和所述目标文件之间的相似性，并基于所述项组合矢量和所述对比文件的一个平均段矢量之间的内积来计算所述项组合矢量和所述对比文件之间的相似性。

33.如权利要求30所述的方法，进一步包括：通过与所述目标文件的相似性和与所述对比文件的相似性之间的一个比率来计算所述项组合的总的特殊性等级。

34.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一文件段的特殊性等级的方法，该方法包括：

(a)为包含在所述对比文件和目标文件中的每一个文件段识别相应的文件段矢量，每一个文件段矢量具有与出现在所述相应文件段中的项的出现频率相关的分量值；

(b)根据所述文件段矢量，计算分别相对应于所述对比文件和所述目标文件的平方和矩阵；

(c)根据与所述对文件和所述目标文件对应的平方和矩阵，计算所述目标文件的主体差异因子矢量的一个预定的阶数；

(d)根据所述对应的文件段矢量和所述相应阶的主体差异因子矢量，为所述目标文件的每一个文件段计算所述相应阶的特殊性等级和总的特殊性等级。

35.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法，该方法包括：

(a)为包含在所述对比文件和目标文件中的每一个文件段识别相应的文件段矢量，每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值；

(b)根据所述文件段矢量，计算分别与所述对比文件和所述目标文件相对应的平方和矩阵。

(c)根据对应于所述对比文件和所述目标文件的所述平方和矩阵，计算所述目标文件的主体差异因子矢量的一个预定阶数；

(d)在所述目标文件中为每一个项组合计算项组合矢量，每个项组合矢量具有对应于包括在项组合中的项的由在所述项组合中出现的所述项的数目所确定给定值的分量，并具有等于“0”的其它分量；以及(e)根据所述对应的项组合矢量和所述相应阶的主体差异因子矢量，为所述目标文件的每一个项组合计算所述相应阶的特殊性等级和总的特殊性等级。

36.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一项的特殊性等级并且识别特殊项的方法，该方法包括：

(c)根据分别对应于所述对比文件和所述目标文件的所述平方和矩阵，计算所述目标文件的主体差异因子矢量的一个预定阶数；

(d)为所述目标文件和所述对比文件的每一个所述的文件段计算内积值，在所述相应的文件段矢量和所述相应阶的所述主体差异因子矢量之间计算所述内积值；

(e)基于所述相应文件段中的每一项的频率和所述内积值之间的相关系数，为包含在所述目标文件中的每一项计算所述相应阶的特殊性等级和一个总的特殊性等级。

37.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级的方法，该方法包括：

(e)基于所述相应文件段中的每一个项组合的频率和所述内积值之间的相关系数，为包含在所述目标文件中的每一个项组合计算所述相应阶的特殊性等级和总的特殊性等级。

38.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一文件段的特殊性等级的方法，该方法包括：

(a)为所述对比文件和目标文件的每一个段识别相应的文件段矢量，每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值；

(b)为所述目标文件的每一个文件段计算所述文件段的相似性，所述文件段矢量的所述相似性相对应于所述目标文件和所述对比文件；

(c)通过使用与所述目标文件和所述对比文件的相似性，为所述目标文件的每一个文件段计算一个总的特殊性等级。

39.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一项的特殊性等级的方法，该方法包括：为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量，所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值；

(a)为所述目标文件的每一个文件段计算对应的文件段矢量的相似性，所述相应的文件段矢量的相似性对应于所述目标文件和对比文件；

(b)通过使用与所述目标文件和所述对比文件的相似性为所述目标文件的每一个文件段计算一个总的特殊性等级；

(c)通过使用与所述目标文件和所述对比文件的相似性为所述对比文件的每一个文件段计算一个总的特殊性等级；

(d)根据在所述目标文件和所述对比文件的相应文件段中的每一项的频率和所述相应文件段矢量的总的特殊性等级值之间的相关系数，为包含在所述目标文件中的每一项计算一个总的特殊性等级。

40.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级的方法，该方法包括：

(a)为所述对比文件和目标文件的每一个文件段确定相应的文件段矢量，所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值；

(b)为所述目标文件的每一个文件段计算对应的文件段矢量的相似性，所述相应的文件段矢量的相似性相对应于所述目标文件和对比文件；

(c)通过使用与所述目标文件和所述对比文件的相似性为所述目标文件的每一个文件段计算一个总的特殊性等级；

(d)根据所述相应文件段中的每一个项组合的频率和所述相应文件段的总的特殊性等级的值之间的相关系数，为包含在所述目标文件中的每一个项组合计算一个特殊性等级。

41.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级的方法，该方法包括：

(b)在所述目标文件中为每一个项组合计算一个项组合矢量，所述项组合矢量具有对应于包括在项组合中的项的由在所述项组合中出现的所述项的数目所确定给定值的分量，并具有等于“0”的其它分量；

(c)为所述目标文件中的每一个项组合计算对应的项的组合矢量的相似性，所述对应的组合矢量的相似性相对应于所述目标文件和对比文件；

(d)通过使用与所述目标文件和所述对比文件的相似性，为所述目标文件的每一个项组合计算一个总的特殊性等级。