CN1741036A

CN1741036A - 构造分类属于不同状态的生物样本的模型的方法

Info

Publication number: CN1741036A
Application number: CNA2005100893182A
Authority: CN
Inventors: 本·希特
Original assignee: Correlogic Systems Inc
Current assignee: Correlogic Systems Inc
Priority date: 2000-06-19
Filing date: 2001-06-19
Publication date: 2006-03-01
Also published as: WO2001099043A1; MXPA02012167A; KR101047575B1; US20070185824A1; CN1249620C; NZ522859A; KR20030051435A; AU2001269877A1; EA200300035A1; EP1292912B1; US20020046198A1; SG143055A1; CA2411906A1; JP2003536179A; ZA200209845B; US7096206B2; KR20090019019A; ATE406627T1; HK1059494A1; EP1292912A1

Abstract

本发明涉及分类对象的模型的计算机实现方法，包括使用遗传算法提取与每个对象相关联的数据流，以及使用模式识别算法分类对象和衡量遗传算法的染色体的适应性。本发明可用在分类文本和医学样本，预测基于价格随其它因素而改变的金融市场的行为，并监视复杂处理设施的状态，以便检测即将发生的故障的领域中。

Description

构造分类属于不同状态的生物样本的模型的方法

本申请是2001年6月19日提交的、中国申请号No.01813720.2、题为“分类试探方法”的PCT发明申请的分案申请。

技术领域

本发明涉及分类对象的方法的计算机实现方法，其中，所述对象可以被表示成像文档那样的字符串或像股票市场价格的变化、表示通过对基因片(gene chip)进行mRNA(信使核糖核酸)杂化检测到的组织的细胞中的不同基因的级别或通过质谱分析检测到的样本中不同蛋白质的数量那样的数字数据的串或表。更具体地说，本发明涉及构造配置成分类属于至少第一状态或与该第一状态不同的第二状态之一的生物样本的模型的计算机实现方法。

背景技术

在文档的情况中，通过阅读，在市场数据的情况中，通过历史经验，或在生物数据的情况，通过病理检查，已经对预分类样本进行了分类。然后，分类算法可以用于分类以前未分类的样本。这样的算法通常被称为数据开采(mining)技术。最常用的数据开采技术，譬如，多元线性回归(multivariatelinear regression)和非线性前馈神经网络(nonlinear feed-forward neuralnetworks)的固有缺陷在于，一旦被开发出来，它们是静态的，不能识别数据流中的新事件。最终结果是，那些新事件往往被分类错了。本发明涉及通过可以识别数据流中的新事件的自适应机制克服这个缺陷的解决方案。

本发明使用了遗传算法和自组织自适应模式识别算法。遗传算法最初是由John.H.Holland教授加以描述的(J.H.Holland，Adaptation in Natural andArtificial Systems，MIT Press 1992，see also U.S.patent No.4,697,242 andNo.4,881,178)。颁发给Koza的美国专利第5,136,686号描述了把遗传算法用于模式识别(参见第87栏)。

自组织模式识别已经由Kohonen作了描述(T.Kohonen，Self Organizingand Associative Memory，8 Series in Information Sciences，Springer Verlag，1984；Kohonen，T，Self-organizing Maps，Springer Verlag，Heidelberg 1997)。把自组织映射应用在自适应模式识别中由麻省理工学院(Massachusetts Institute ofTechnology)的Richard Lippman先生作了描述。

发明内容

本发明包括两种相关试探算法，即，用于实现分类方法和学习方法的分类算法和学习算法。分类算法的参数通过把学习算法应用在训练或学习数据组中来确定。训练数据组是每个项目已经被分类的数据组。尽管描述如下的方法没有涉及数字计算机，但是，本领域的普通技术人员应该明白，本发明是通过像计算机软件那样的工具实现的。任何通用计算机都可以使用；基于本方法的计算不是过分地大。虽然含有并行处理设施的计算机可以用于本发明，但是，这样的处理能力并不是实现使用本发明的学习算法所必需的。分类算法只需要最低程度的计算量。

本发明的分类方法根据与对象相联系的数据流分类对象。本发明中每个对象的特征在于，大量的，至少约100个数据点，可以是10,000或甚至更多个数据点的数据流。数据流以使同一类型对象的不同样本的数据流中的各个数据相互关联的方式生成。

对象的样本包括文本、在预测金融市场的方向或复杂处理设施的行为的情况下的时间点和用于医疗诊断的生物样本。这些对象的相关数据流是文本中三字母组的分布、公开交易的股票或商品的价格的逐日变化、压力和温度的瞬时读数和诸如炼油厂之类的处理设施中的流动读数和在样本中找到的某个蛋白质分组的质谱或对一列不同试验多核苷酸进行mRNA杂分的强度。

因此，一般说来，无论什么时候想要把对象分类到例如通常是两个或三个类目的几个类目之一中，都可以应用本发明，并且，这些对象与大量数据例如通常数千个数据点相联系。术语“对象(Object)”在这里用大写字母开头，以表示对象在这里具有特殊含义，它的特殊含义在于，它用来统指有形对象例如特定样本、无形对象例如作品或文本和完全抽象的对象例如在复杂处理设施中出现不幸事件之前的时刻，或外币价格的变动。

分类方法的第一步是计算对象矢量，即，从与要分类的对象相联系的数据流中取出的小量数据点或标量(在4到100之间，更通常地，在5到30之间)的有序组。把数据流转换成对象矢量称为“提取(abstraction)”。最简单的提取处理是选择数据流的若干个点。但是，原则上，可以对数据流的任何函数进行提取处理。在如上所述的实施例中，通过从数据流中选择少数几个特定强度进行提取。

在一个实施例中，分类方法的第二步是，如果存在的话，确定矢量处在哪个数据簇中。数据簇是作为矢量空间中固定规模的不重叠“超球面”的多维等效物的数据结构。每个数据簇的位置和相关分类或“状态”通过学习算法从训练数据组中确定。每个数据簇的范围或规模和矢量空间的维数被设置成在运行学习算法操作之前，由操作人员完成的常规实验。如果矢量位于已知的数据簇之内，则对对象进行与那个簇相关的分类。在最简单实施例中，矢量空间的维数等于在提取处理中选择的数据点的个数。但是，可替换地，对象矢量的每个标题可以利用数据流的多个数据点来计算。如果对象矢量位于任何已知簇之外，可以对异型物或异型样本进行分类。

在一个可替代实施例中，放弃把每个数据簇定义成超球面，和第二步通过计算数据参数ρ＝∑min(|I_i|，|W_i|)/∑|W_i|)来完成，其中，I_i是对象矢量的标量，和W_i是预先形成分类矢量的质心的标量。匹配参数ρ也被称为归一化“模糊(Fuzzy)”AND(“与”)。然后，通过这个尺度，根据与之最相似的预先形成矢量的分类，分类对象。当对象矢量和预先形成矢量相同时，匹配参数是1，在所有其它情况下，匹配参数都小于1。

学习算法确定利用已知数学技术和两个预置参数的组合，确定提取处理的细节和数据簇的特性(identity)两者。用户预置矢量空间的维数和数据簇的规模，或者，可替换地，“模糊AND”匹配参数ρ的最小可接受量级。正如这里所使用的那样，术语“数据簇”指的是利用欧几里得尺度(Euclidean metric)的超球面和利用“模糊AND”尺度的预先形成分类矢量两者。

通常，数据簇所处的矢量空间是归一化矢量空间，使得在每一维中强度的差异是不变的。通过这样的表示方式，利用欧几里得尺度的数据簇的规模可以表示为位于簇内的矢量之间的最小相似度(百分比)。

在一个实施例中，学习算法可以通过把两种不同类型的可公开买到的普通软件组合在一起来实现，这两种软件是由别人开发的，并且是本领域的普通技术人员所熟知的，它们是：(1)遗传算法(J.H.Holland，Adaptation inNatural and Artificial Systems，MIT Press 1992)，用于处理一组逻辑染色体(logical chromosome)¹，以识别控制数据流的提取的最佳逻辑染色体；和(2)可从Group One Software，Greenbelt，MD购买到的自适应自组织模式识别系统(参见T.Kohonen，Self Organizing and Associative Memory，8 Series inInformation Sciences，Springer Verlag，1984；Kohonen，T，Self-organizing Maps，Springer Verlag，Heidelberg 1997)，用于根据通过逻辑染色体生成的任何一组矢量，识别一组数据簇。具体地说，自适应模式识别软件使位于同质(homogeneous)数据簇，即，包含只含有一种分类类型的学习数据组的矢量的数据簇中的矢量个数达到最大。

为了使用遗传算法，必须把“适应性(fitness)”指定给每个逻辑染色体。每个逻辑染色体的适应性是通过位于与那个染色体有关的一组最佳数据簇的同质簇中的、在训练数据组中的矢量的个数来确定的。因此，本发明的学习算法把识别最佳逻辑染色体的遗传算法、生成一组最佳数据簇的自适应模式识别算法和基于位于同质簇中的样本矢量的个数的适应性计算组合在一起。在它的最概括实施例中，本发明的学习算法包括遗传算法、模式识别算法和衡量模式识别算法的输出的同质性(homogeneity)，以控制遗传算法的适应性函数的使用的组合。

为了避免混乱，应该注意到，数据簇的个数比类目的个数要大得多。下面举例的分类算法把对象分类成两个类目例如把文档分类成感兴趣的那些文档和不感兴趣的那些文档，或者，把临床样本分类成良性的或恶性的。但是，这些分类算法利用了许多个数据簇来进行分类。当对象是时间点时，分类算法可以使用多于两个的类目。例如，当本发明用作外币汇率的预测器时，与上升、下跌和前景难测相对应的三部分(tripartite)方案是合适的。此外，可以预计，这样的三部分分类算法存在个数比三大得多的数据簇。

在一个实施例中，提供一种构造配置成分类属于至少第一状态或与该第一状态不同的第二状态之一的生物样本的模型的计算机实现方法，包括：提供多个数据串，每个数据串是从已知为第一状态或第二状态的生物样本导出

1把术语“逻辑染色体”与遗传学习算法联系在一起使用是因为，算法的逻辑运算与复制、选择、重组和变异类似。当然，在DNA等中还没有逻辑染色体的生物实施例。本发明的遗传学习算法纯粹是一种计算手段，不应与用于基于生物的信息处理的方案相混淆。的；使用遗传算法来选取标识多个数据串的每一个中的数据的第一组变量；使用第一组变量为该组数据串的每一个成员计算样本矢量；在最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇的第一矢量空间中找出一位置；确定关于最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率；确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内；如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内，则提供在最适合使用第一组变量计算出的样本矢量的至少两个数据簇的第一矢量空间的所述位置；以及如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率不在可接受的容限内，则使用遗传算法来选取与第一组变量不同的第二组变量；使用第二组变量为该组数据串的每一个成员计算样本矢量；在最适合使用第二组变量计算出的样本矢量的至少两个数据簇中的每一簇的第二矢量空间中找出一位置；确定关于最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率；确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内，以及如果确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内，则提供在最适合使用第二组变量计算出的样本矢量的至少两个数据簇的第二矢量空间的所述位置。

具体实施方式

为了实际应用本发明，常规专业人员必须通过应用学习算法，开发分类算法。对于任何试探法，需要一些常规实验。为了应用学习算法，常规专业人员利用训练数据组，并且必须通过实验优化两个参数，维数和数据簇规模。

尽管对矢量的维数没有绝对的或固有的限制，但是，在每次实施时，学习算法本身固有地限制维数。如果维数太低或簇的规模太大，学习算法就不能生成正确分类具有可接受水平的同质性的所有样本的任何逻辑染色体。相反，维数可能太大。在这种情况下，学习算法在学习处理过程的早期生成可能适应性最大的许多逻辑染色体。因此，存在着结果却中途夭折的选择。类似地，当数据簇的规模太小时，将发现簇的个数与训练数据组中样本的个数接近，此外，常规专业人员将发现，大量逻辑染色体将形成一组完全同质的数据簇。

尽管上文提供了为分类算法选择维数和数据簇规模的一般性指导，但是，应该明白，分类算法的值的真假检验是其正确分类与训练数据组中的数据流无关的数据流的能力。因此，常规专业人员应该明白，必须保留学习数据组的一部分，以便核实分类算法随对于指定目的可接受的出错率而变化的情况。下面更详细地描述本发明的具体部分。

A.数据流和对象的类型

对象的分类和相关数据流的生成取决于要解决的问题的性质。这些原则通过如下的实例加以说明。

文档：在一个实施例中，本发明提供了用于计算机化分类文档的方法。例如，你可能想要从由多得难以一个一个单独查看的大量文档组成的数据库中提取感兴趣的文档。对于这些情况，本发明提供了一种计算机化算法，以识别最有可能包含感兴趣文档的一个数据库分组。每个文档是一个对象，每个文档的数据流由直方图组成，直方图表示在去掉空格和标点符号之后，在文档中找到的17576(26³)种三字母组合(三字母组(trigrams))每一个出现的频率。可替换地，在从文档中进一步去掉元音之后，可以制作辅音的9261种三字母组的直方图。根据用户的需要，训练数据组由已经被分类成“感兴趣”或“不感兴趣”的适当文档的样本组成。

金融市场：不言而喻，金融市场会对外部事件作出反应，并且，以协调的方式相互联系；例如，外汇汇率受投资机会的吸引力的影响。但是，对单独事件作出反应的方向和程度却难以预测。在一个实施例中，本发明提供了在一个基于价格随其它因素而变动的市场中价格的计算机化预测算法。每个时间点是一个对象例如以小时计的间隔，一个小时的数据流由相关国家的主要股票市场例如对英镑和美元的汇率感兴趣的纽约和伦敦股票交易所中公开交易证券的价格变化的直方图组成。训练数据组由已经被分类成在美元-英镑汇率的上升或下降之前的价格变化的历史记录组成。

处理设施：在复杂的处理设施，譬如，炼油厂、油田或石化厂中，不断监视和记录许多阀门和其它控制器的压力、温度、流动和状态(统称为“状态值”)。需要在不幸事件变成灾难性故障之前，检测出即将来临的不幸事件。本发明提供了把每个时间点分类成高风险时间点或一般风险时间点的计算机化算法。数据流由每个时间点的状态值组成。训练数据组由分类成在不幸事件之前或在一般操作之前的状态值的历史记录组成。

医疗诊断：本发明可以用在为医疗诊断分析组织样本中例如用于分析血清或血浆。数据流可以是得出2,000或更多个可以被量化成至少千分之一(三位有效数字)的测量结果的组织样本的任何可再现物理分析。蛋白质的飞行时间质谱尤其适合于本发明的实际应用。更具体地说，就是基体促进型激光器退吸电离飞行时间(matrix assisted laser desorption ionization time of flight，MALDI-TOF)和表面增强型激光器退吸电离飞行时间(surface enhanced laserdesorption ionization time of flight，SELDI-TOF)谱测量。有关内容请参阅WO00/49410。

数据流还可以包括不是固有地通过诸如分子重量之类的单个有序参数组织的，而是具有任意次序的测量结果。因此，当组织样本是活体解剖标本时，同时衡量2,000或更多个基因的表示级的DNA微阵列数据可以用作数据流，对各个基因的次序是数据流的认识是任意的。

对于早期诊断很重要，但是由于症状不明而造成技术上的困难，和由于病理组织的代谢活动，可以预计疾病在血清中产生可检测出来的变异的特定疾病，本发明特别有用。恶性肿瘤(癌症)的早期诊断是本发明应用的基本焦点。工作样本显示了前列腺癌的诊断，还为卵巢症的诊断进行了相似测试。

应该注意到，利用本发明的方法，可以对来自一个患者样本的单个数据流进行分析，供多种诊断使用。由于专用于每种诊断的步骤仅仅由计算机来完成，因此，这种多种诊断的附加成本是微不足道的。

B.提取处理和逻辑染色体

在本发明的分类处理中第一步骤是把数据流转换成特征矢量或从数据流中提取特征矢量。在提取之前，通过把总峰值指定成独立值1和把所有其它点变成相应分数值，可以方便地归一化数据。数据流的最简单提取包括选择少数几个数据点。本领域的普通技术人员应该认识到，可以构造出多个点的更复杂函数，譬如，在某个区间上的平均值函数或在相对于所选原始数据点预定距离的数据点之间的更复杂和或差函数。也可以使用数据流的强度值的函数，并且，可以预测，这样的函数起与在工作样本中所示的简单提取等效的作用。

本领域的普通技术人员还应该懂得，常规实验可以确定在任意点上求出瞬时斜率的提取在本发明中是否也有效。因此，所示工作样本这种可通过常规方法获得的变型在本发明的范围之内。

本发明的特征是把遗传算法用于确定用于计算特征矢量的数据点。为了与现有技术的名称保持一致，要选择的特定点的列表被称为逻辑染色体。逻辑染色体包含与特征矢量的维数一样多的“基因”。只要假设不能复制染色体的基因，任何适当个数据点的组都可以是逻辑染色体。基因的次序对本发明来说并不重要。

本领域的普通技术人员应该懂得，遗传算法可以应用在两个条件得到满足的时候。对于这个问题的具体解决方案必须能够通过一组或一串固定长度离散元素来表示，这些单元可以是数字或字符，和可以重组这些串，进一步形成解决方案。你还必须能够计数每种解决方案的优缺点的数值，即它的适应性。在这些情况下，遗传算法的细节与寻求解决的问题无关。因此，对于本发明，可以应用遗传算法软件。可从阿贡国家实验室(Argonne NationalLaboratory)购买到的PGAPack程序库中的算法是适用的。下面讨论具体逻辑染色体的适应性的计算。

第一个示范性实例涉及到100个文档的文集，把这100文档随机分成46个文档的训练组和54个文档的测试组。该文档包括国会(State of the Union)演说、书籍《(战争艺术》(The Art of War)的选段和来自《金融时报》(theFinancial Time)的文章。对每个文档计算三字母组的分布。选择25维的矢量空间和在每维中是那个维中的值域的0.35倍数据簇规模。遗传算法用大约1,500个随机选择的逻辑染色体初始化。随着算法进行下去，复制出更合适的逻辑染色体，终止掉不那么合适的逻辑染色体。在染色体与通过随机取代染色体的元素发生的变异之间存在重组。最初随机选择的逻辑染色体的集合不是本发明的基本特征。对数据流的所有组进行某种预先筛分，以便识别出那些具有最高可变性的数据点也许是有用的，尽管这样的技术也有可能引入不希望有的初始偏差。本领域的普通技术人员应该懂得，遗传算法的初始染色体组、变异率和其它边界条件对于它的函数来说不是关键性的。

C.模式识别处理和适应性分数生成

计算通过遗传算法生成的逻辑染色体每一个的适应性分数(score)。适应性分数的计算需要为测试的每一个逻辑染色体生成一组最佳数据簇。数据簇只不过是训练数据组的对象矢量所在的矢量空间中的体积。生成一组最佳数据簇的方法对于本发明来说不是关键性的，下面将对此加以研究。但是，无论什么方法用于生成数据簇映像，该映像都受如下规则约束：每个数据簇都应该位于处在数据簇内的数据点的质心上，两个数据簇不可以重叠，和在生成映像之前，归一化矢量空间中每个簇的维数是固定的。

数据簇的规模由用户在训练期间设置。把规模设置得太大会导致难以找到可以成功分类整个训练组的任何染色体，相反，把规模设置得小一点会导致簇的个数接近训练组中数据点的个数的一组最佳数据簇。更重要的是，数据簇的规模被设置得太小会导致如下所述的“过分适应(overfiting)”。

用于定义数据簇的规模的方法是本发明的一部分。簇规模可以通过数据簇的任何两个成员之间的欧几里得距离(平方和的根)的等效物的最大值来定义。当数据流通过SELDI-TOF质谱测量数据生成时，与90％相似性的要求相对应的数据簇规模适合于本发明。对于文本的分类，发现稍微大一点的数据簇更有用。从数学上，90％相似性通过要求簇的任何两个成员之间的距离小于归一化矢量空间中两个点之间的最大距离的0.1来定义。对于这样的计算，归一化矢量空间，以便训练数据组内矢量的每个标量的范围在0.0和1.0之间。然后，矢量空间中任何两个矢量之间如此归一化的、最大可能距离是

其中，N是维数。然后，每个簇的欧几里得距离是

矢量空间的具体归一化不是本发明的关键性特征。前述方法是为了易于计算而选择的。可替换的归一化可以通过不是把每一维定标成一定范围，而是使每一维具有相等的变异性来实现。可以使用诸如矢积尺度之类的非欧几里得尺度。

本领域的普通技术人员还应该认识到，数据流内值的分布是对数正态分布，而不是一般分布，那么，可以把数据流转换成对数形式。

一旦已经生成逻辑染色体的一组最佳数据簇，就可以计算那个染色体的适应性分数。对于本发明，染色体的适应性分数大体上对应于位于同质的簇，即，包含来自具有单一分类的样本的特征矢量的簇中的训练数据组的矢量数。更明确地说，适应性分数通过把同质性分数指定给每个簇来计算，同质性分数从对于同质簇为0.0变化到对于包含相等个数的恶性和良性样本矢量的簇为0.5。染色体的适应性分数是数据簇的平均适应性分数。因此，0.0的适应性分数是最合适的。存在有助于生成更多数据簇的逻辑染色体的偏差，这时因为，当在指定数据的过程中，两个逻辑染色体存在相同个数的错误时，生成更多个数的簇的逻辑染色体将具有更低的平均同质性分数，因此，具有更好的适应性分数。

可公开买到的利用自组织映射生成的软件有好几个，其中之一是“LeadCluster Map”，可以通过作为Model 1从Group One Software(Green-belt，MD)获得的通用软件来实现。

本发明的可替换实施例利用非欧几里得尺度来建立数据簇的边界。尺度指的是在矢量空间中测量距离的方法。本发明的可替换尺度可以基于如上面所定义的归一化“模糊AND”。根据“模糊AND”实现自适应模式识别算法的软件可从波士顿大学(Boston University)获得，这个软件名叫Fuzzy ARTMAP。

D.特定实施例的描述和核实

本领域的普通技术人员应该明白，整个训练数据组到同质数据簇的指定本身不是分类算法以可接受水平的精度有效运行的证据。因此，通过学习算法生成的分类算法的值必须通过它分类除了训练数据组之外的其它一组数据的能力来测试。当学习算法生成成功指定训练数据组，但是仅仅很差地指定测试数据组的分类算法时，就认为这个训练数据被学习算法过分适应了。当维数太大和/或数据簇的规模太小时会导致过分适应。

文档簇：文档(文本)是各行各业都感兴趣的。这些行业包括法律、医疗和情报团体。当面对文本性材料的流水作业量的精确性时，已经证明基于布尔(Boolean)的搜索和检索方法是不合适的。并且，布尔搜索不能捕获到概念性信息。

对这个问题的建议方法是设法以服从数值分析的方式提取概念性信息。一种这样的方法是把文档编制成三字母组的集合和记录它们出现的频率。三字母组是任何三个字符的集合，譬如，AFV、KLF、OID等。因此，有26³种三字母组。空格和标点称号不包括在内。然后，可以通过把文档分段成从源自那个文档的文本的开头开始的三字母组的特定集合来表示这个文档。从那个文档得出的三字母组集合和它们的频率是特征量。如果在一个集合中的文档具有相似的三字母组集合和频率，那么，它们很可能涉及相同主题。如果只检查和计数三字母组的特定子集，这就特别正确。问题是，三字母组的哪个子集描述了任何概念。基于本发明的学习算法可以回答这个问题。

把来自《金融时报》、《战争艺术》和总统国会演说的100个英文文档汇编成一个文集。把分类随机地划分成训练和测试文集。把0或1的某个值指定给所有文档，其中，0表示令人讨厌的，1表示赏心悦目的。学习算法对整个三字母组集合进行搜索，并且识别将文档分成两类的三字母组集合。最后的模型处在25维空间中，以及判别边界被设置在该空间中允许的最大距离的0.35倍上。分类算法只利用了17,576种可能三字母组中的25种。一旦进行测试，就会获得下表的结果。

	实际分类0	1	总数
	实际分类0	1	总数	指定分类0	22	2	24
1	6	24	30	指定分类0	22	2	24
1	6	24	30	总数	28	26	54

表A：从垂直方向读出含混矩阵(confusion matrix)实际值，和从水平方向读出根据本发明的算法的结果。

结果表明，算法正确地识别出26个感兴趣文档中的24个，和正确地筛出或舍弃了26个不感兴趣文档中的22个。

生物状态的评估：把上述学习算法用于开展利用55个患者血清样本的SELDI-TOF质谱(MS)对前列腺癌逐步进行分类，在这55个患者血清样本中，30个通过活体解剖被诊断为前列腺癌和前列腺血清抗原(PSA)水平大于4.0ng/ml，和25个正常体PSA水平低于1ng/ml。MA数据是通过选择7个分子量值提取的。

生成把训练数据组中的每个矢量指定给同质数据簇的簇映像。簇映像包含34个簇，其中，17个是良性的，和17个是恶性的。表1显示了映像的每个数据簇的位置和指定给每个簇的训练组的样本数。

分类算法是利用把训练数据组排除在外的231个样本进行测试的。使用了来自经历过各种临床和病理诊断的患者的6组样本。临床和病理描述和算法结果如下：1)24个患者PSA＞4ng/ml，和通过活体解剖证明得了癌症，其中，22个被映射到有病数据簇，2个被映射到无病数据簇；2)6个正常，均被映射到健康数据簇；3)39个得了前列腺肥大(BPH)或前列腺炎，和PSA＜4ng/ml，其中，7个被映射到有病数据簇，0个被映射到健康数据簇，和32个被映射到无病数据族；4)139个得了BPH或前列腺炎，并且，4ng/ml＜PSA＜10ng/ml，其中，42个被映射到有病数据簇，2个被映射到健康数据簇，和95个被映射到无病数据族；5)19个得了BPH或前列腺炎，并且，PSA＞10ng/ml，其中，9个被映射到有病数据簇，0个被映射到健康数据簇，和10个被映射到无病数据族。第6组数据是从通过活体解剖证明得了恶性肿瘤和PSA＞10ng/ml的患者身上取出前列腺切除之前和之后的样本得到的。正如所期望的那样，7个手术前样本的每一个都被指定到有病数据组。但是，在做完手术6个星期之后，PSA水平已经降到1ng/ml以下，那时取出的样本没有一个不可以被指定到任何数据组。

当评估前述测试的结果时，应当回想到，在PSA为2-4ng/ml和通过活体解剖诊断为良性的患者中隐藏着恶性肿瘤的比率为约30％。因此，虽然对癌症没有进行组织诊断，但发现18％和47％之间的患者PSA高，这与正确预测恶性肿瘤的存在是一致的。

Claims

1.一种构造配置成分类属于至少第一状态或与该第一状态不同的第二状态之一的生物样本的模型的计算机实现方法，包括：

提供多个数据串，每个数据串是从已知为第一状态或第二状态的生物样本导出的；

使用遗传算法来选取标识多个数据串的每一个中的数据的第一组变量；

使用第一组变量为该组数据串的每一个成员计算样本矢量；

在最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇的第一矢量空间中找出一位置；

确定关于最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率；

确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内；

如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内，则提供在最适合使用第一组变量计算出的样本矢量的至少两个数据簇的第一矢量空间的所述位置；以及

如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率不在可接受的容限内，则

使用遗传算法来选取与第一组变量不同的第二组变量；

使用第二组变量为该组数据串的每一个成员计算样本矢量；

在最适合使用第二组变量计算出的样本矢量的至少两个数据簇中的每一簇的第二矢量空间中找出一位置；

确定关于最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率；

确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内，以及

如果确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内，则提供在最适合使用第二组变量计算出的样本矢量的至少两个数据簇的第二矢量空间的所述位置。

2.根据权利要求1所述的计算机实现方法，其中，最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率是最适合使用第一组变量计算出的样本矢量的至少两个数据簇的差异。

3.根据权利要求1所述的计算机实现方法，其中，如果确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率不在可接受的容限内，则选取与第一组变量和第二组变量都不同的第三组变量。

4.根据权利要求1所述的计算机实现方法，其中，每一个数据串都是经由生物测定技术从生物样本导出的。

5.根据权利要求1所述的计算机实现方法，其中，可接受的容限使用户输入的。

6.根据权利要求1所述的计算机实现方法，其中，在最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇的第一矢量空间中找出一位置包括为每个样本矢量确定关于第一矢量空间中的先前存在的质心的样本矢量的一个邻域。

7.根据权利要求6所述的计算机实现方法，还包括：

确定每个样本矢量与最接近的、先前存在的质心的距离是否在以预定门限值之内；

如果该距离超过该门限值，则基于第一矢量空间中的样本矢量的所述位置定义新的质心；而

如果该距离小于该门限值，则分配该样本矢量到与先前存在的质心相关联的簇。

8.根据权利要求7所述的计算机实现方法，其中，分配所述样本矢量包括调整先前存在的质心的位置以更接近所述样本矢量的所述位置。

9.根据权利要求1所述的计算机实现方法，其中，最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇包括一个质心和一个决策超半径。

10.一种利用根据权利要求1的方法构造的、配置成分类生物样本的模型。