CN1741036A - 构造分类属于不同状态的生物样本的模型的方法 - Google Patents

构造分类属于不同状态的生物样本的模型的方法 Download PDF

Info

Publication number
CN1741036A
CN1741036A CNA2005100893182A CN200510089318A CN1741036A CN 1741036 A CN1741036 A CN 1741036A CN A2005100893182 A CNA2005100893182 A CN A2005100893182A CN 200510089318 A CN200510089318 A CN 200510089318A CN 1741036 A CN1741036 A CN 1741036A
Authority
CN
China
Prior art keywords
data
group
sample vector
aggregates
variograph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005100893182A
Other languages
English (en)
Inventor
本·希特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Correlogic Systems Inc
Original Assignee
Correlogic Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Correlogic Systems Inc filed Critical Correlogic Systems Inc
Publication of CN1741036A publication Critical patent/CN1741036A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/90Fuzzy logic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/902Application using ai with detail of the ai system
    • Y10S706/932Mathematics, science, or engineering

Abstract

本发明涉及分类对象的模型的计算机实现方法,包括使用遗传算法提取与每个对象相关联的数据流,以及使用模式识别算法分类对象和衡量遗传算法的染色体的适应性。本发明可用在分类文本和医学样本,预测基于价格随其它因素而改变的金融市场的行为,并监视复杂处理设施的状态,以便检测即将发生的故障的领域中。

Description

构造分类属于不同状态的生物样本的模型的方法
本申请是2001年6月19日提交的、中国申请号No.01813720.2、题为“分类试探方法”的PCT发明申请的分案申请。
技术领域
本发明涉及分类对象的方法的计算机实现方法,其中,所述对象可以被表示成像文档那样的字符串或像股票市场价格的变化、表示通过对基因片(gene chip)进行mRNA(信使核糖核酸)杂化检测到的组织的细胞中的不同基因的级别或通过质谱分析检测到的样本中不同蛋白质的数量那样的数字数据的串或表。更具体地说,本发明涉及构造配置成分类属于至少第一状态或与该第一状态不同的第二状态之一的生物样本的模型的计算机实现方法。
背景技术
在文档的情况中,通过阅读,在市场数据的情况中,通过历史经验,或在生物数据的情况,通过病理检查,已经对预分类样本进行了分类。然后,分类算法可以用于分类以前未分类的样本。这样的算法通常被称为数据开采(mining)技术。最常用的数据开采技术,譬如,多元线性回归(multivariatelinear regression)和非线性前馈神经网络(nonlinear feed-forward neuralnetworks)的固有缺陷在于,一旦被开发出来,它们是静态的,不能识别数据流中的新事件。最终结果是,那些新事件往往被分类错了。本发明涉及通过可以识别数据流中的新事件的自适应机制克服这个缺陷的解决方案。
本发明使用了遗传算法和自组织自适应模式识别算法。遗传算法最初是由John.H.Holland教授加以描述的(J.H.Holland,Adaptation in Natural andArtificial Systems,MIT Press 1992,see also U.S.patent No.4,697,242 andNo.4,881,178)。颁发给Koza的美国专利第5,136,686号描述了把遗传算法用于模式识别(参见第87栏)。
自组织模式识别已经由Kohonen作了描述(T.Kohonen,Self Organizingand Associative Memory,8 Series in Information Sciences,Springer Verlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997)。把自组织映射应用在自适应模式识别中由麻省理工学院(Massachusetts Institute ofTechnology)的Richard Lippman先生作了描述。
发明内容
本发明包括两种相关试探算法,即,用于实现分类方法和学习方法的分类算法和学习算法。分类算法的参数通过把学习算法应用在训练或学习数据组中来确定。训练数据组是每个项目已经被分类的数据组。尽管描述如下的方法没有涉及数字计算机,但是,本领域的普通技术人员应该明白,本发明是通过像计算机软件那样的工具实现的。任何通用计算机都可以使用;基于本方法的计算不是过分地大。虽然含有并行处理设施的计算机可以用于本发明,但是,这样的处理能力并不是实现使用本发明的学习算法所必需的。分类算法只需要最低程度的计算量。
本发明的分类方法根据与对象相联系的数据流分类对象。本发明中每个对象的特征在于,大量的,至少约100个数据点,可以是10,000或甚至更多个数据点的数据流。数据流以使同一类型对象的不同样本的数据流中的各个数据相互关联的方式生成。
对象的样本包括文本、在预测金融市场的方向或复杂处理设施的行为的情况下的时间点和用于医疗诊断的生物样本。这些对象的相关数据流是文本中三字母组的分布、公开交易的股票或商品的价格的逐日变化、压力和温度的瞬时读数和诸如炼油厂之类的处理设施中的流动读数和在样本中找到的某个蛋白质分组的质谱或对一列不同试验多核苷酸进行mRNA杂分的强度。
因此,一般说来,无论什么时候想要把对象分类到例如通常是两个或三个类目的几个类目之一中,都可以应用本发明,并且,这些对象与大量数据例如通常数千个数据点相联系。术语“对象(Object)”在这里用大写字母开头,以表示对象在这里具有特殊含义,它的特殊含义在于,它用来统指有形对象例如特定样本、无形对象例如作品或文本和完全抽象的对象例如在复杂处理设施中出现不幸事件之前的时刻,或外币价格的变动。
分类方法的第一步是计算对象矢量,即,从与要分类的对象相联系的数据流中取出的小量数据点或标量(在4到100之间,更通常地,在5到30之间)的有序组。把数据流转换成对象矢量称为“提取(abstraction)”。最简单的提取处理是选择数据流的若干个点。但是,原则上,可以对数据流的任何函数进行提取处理。在如上所述的实施例中,通过从数据流中选择少数几个特定强度进行提取。
在一个实施例中,分类方法的第二步是,如果存在的话,确定矢量处在哪个数据簇中。数据簇是作为矢量空间中固定规模的不重叠“超球面”的多维等效物的数据结构。每个数据簇的位置和相关分类或“状态”通过学习算法从训练数据组中确定。每个数据簇的范围或规模和矢量空间的维数被设置成在运行学习算法操作之前,由操作人员完成的常规实验。如果矢量位于已知的数据簇之内,则对对象进行与那个簇相关的分类。在最简单实施例中,矢量空间的维数等于在提取处理中选择的数据点的个数。但是,可替换地,对象矢量的每个标题可以利用数据流的多个数据点来计算。如果对象矢量位于任何已知簇之外,可以对异型物或异型样本进行分类。
在一个可替代实施例中,放弃把每个数据簇定义成超球面,和第二步通过计算数据参数ρ=∑min(|Ii|,|Wi|)/∑|Wi|)来完成,其中,Ii是对象矢量的标量,和Wi是预先形成分类矢量的质心的标量。匹配参数ρ也被称为归一化“模糊(Fuzzy)”AND(“与”)。然后,通过这个尺度,根据与之最相似的预先形成矢量的分类,分类对象。当对象矢量和预先形成矢量相同时,匹配参数是1,在所有其它情况下,匹配参数都小于1。
学习算法确定利用已知数学技术和两个预置参数的组合,确定提取处理的细节和数据簇的特性(identity)两者。用户预置矢量空间的维数和数据簇的规模,或者,可替换地,“模糊AND”匹配参数ρ的最小可接受量级。正如这里所使用的那样,术语“数据簇”指的是利用欧几里得尺度(Euclidean metric)的超球面和利用“模糊AND”尺度的预先形成分类矢量两者。
通常,数据簇所处的矢量空间是归一化矢量空间,使得在每一维中强度的差异是不变的。通过这样的表示方式,利用欧几里得尺度的数据簇的规模可以表示为位于簇内的矢量之间的最小相似度(百分比)。
在一个实施例中,学习算法可以通过把两种不同类型的可公开买到的普通软件组合在一起来实现,这两种软件是由别人开发的,并且是本领域的普通技术人员所熟知的,它们是:(1)遗传算法(J.H.Holland,Adaptation inNatural and Artificial Systems,MIT Press 1992),用于处理一组逻辑染色体(logical chromosome)1,以识别控制数据流的提取的最佳逻辑染色体;和(2)可从Group One Software,Greenbelt,MD购买到的自适应自组织模式识别系统(参见T.Kohonen,Self Organizing and Associative Memory,8 Series inInformation Sciences,Springer Verlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997),用于根据通过逻辑染色体生成的任何一组矢量,识别一组数据簇。具体地说,自适应模式识别软件使位于同质(homogeneous)数据簇,即,包含只含有一种分类类型的学习数据组的矢量的数据簇中的矢量个数达到最大。
为了使用遗传算法,必须把“适应性(fitness)”指定给每个逻辑染色体。每个逻辑染色体的适应性是通过位于与那个染色体有关的一组最佳数据簇的同质簇中的、在训练数据组中的矢量的个数来确定的。因此,本发明的学习算法把识别最佳逻辑染色体的遗传算法、生成一组最佳数据簇的自适应模式识别算法和基于位于同质簇中的样本矢量的个数的适应性计算组合在一起。在它的最概括实施例中,本发明的学习算法包括遗传算法、模式识别算法和衡量模式识别算法的输出的同质性(homogeneity),以控制遗传算法的适应性函数的使用的组合。
为了避免混乱,应该注意到,数据簇的个数比类目的个数要大得多。下面举例的分类算法把对象分类成两个类目例如把文档分类成感兴趣的那些文档和不感兴趣的那些文档,或者,把临床样本分类成良性的或恶性的。但是,这些分类算法利用了许多个数据簇来进行分类。当对象是时间点时,分类算法可以使用多于两个的类目。例如,当本发明用作外币汇率的预测器时,与上升、下跌和前景难测相对应的三部分(tripartite)方案是合适的。此外,可以预计,这样的三部分分类算法存在个数比三大得多的数据簇。
在一个实施例中,提供一种构造配置成分类属于至少第一状态或与该第一状态不同的第二状态之一的生物样本的模型的计算机实现方法,包括:提供多个数据串,每个数据串是从已知为第一状态或第二状态的生物样本导出
1把术语“逻辑染色体”与遗传学习算法联系在一起使用是因为,算法的逻辑运算与复制、选择、重组和变异类似。当然,在DNA等中还没有逻辑染色体的生物实施例。本发明的遗传学习算法纯粹是一种计算手段,不应与用于基于生物的信息处理的方案相混淆。的;使用遗传算法来选取标识多个数据串的每一个中的数据的第一组变量;使用第一组变量为该组数据串的每一个成员计算样本矢量;在最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇的第一矢量空间中找出一位置;确定关于最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率;确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内;如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内,则提供在最适合使用第一组变量计算出的样本矢量的至少两个数据簇的第一矢量空间的所述位置;以及如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率不在可接受的容限内,则使用遗传算法来选取与第一组变量不同的第二组变量;使用第二组变量为该组数据串的每一个成员计算样本矢量;在最适合使用第二组变量计算出的样本矢量的至少两个数据簇中的每一簇的第二矢量空间中找出一位置;确定关于最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率;确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内,以及如果确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内,则提供在最适合使用第二组变量计算出的样本矢量的至少两个数据簇的第二矢量空间的所述位置。
具体实施方式
为了实际应用本发明,常规专业人员必须通过应用学习算法,开发分类算法。对于任何试探法,需要一些常规实验。为了应用学习算法,常规专业人员利用训练数据组,并且必须通过实验优化两个参数,维数和数据簇规模。
尽管对矢量的维数没有绝对的或固有的限制,但是,在每次实施时,学习算法本身固有地限制维数。如果维数太低或簇的规模太大,学习算法就不能生成正确分类具有可接受水平的同质性的所有样本的任何逻辑染色体。相反,维数可能太大。在这种情况下,学习算法在学习处理过程的早期生成可能适应性最大的许多逻辑染色体。因此,存在着结果却中途夭折的选择。类似地,当数据簇的规模太小时,将发现簇的个数与训练数据组中样本的个数接近,此外,常规专业人员将发现,大量逻辑染色体将形成一组完全同质的数据簇。
尽管上文提供了为分类算法选择维数和数据簇规模的一般性指导,但是,应该明白,分类算法的值的真假检验是其正确分类与训练数据组中的数据流无关的数据流的能力。因此,常规专业人员应该明白,必须保留学习数据组的一部分,以便核实分类算法随对于指定目的可接受的出错率而变化的情况。下面更详细地描述本发明的具体部分。
A.数据流和对象的类型
对象的分类和相关数据流的生成取决于要解决的问题的性质。这些原则通过如下的实例加以说明。
文档:在一个实施例中,本发明提供了用于计算机化分类文档的方法。例如,你可能想要从由多得难以一个一个单独查看的大量文档组成的数据库中提取感兴趣的文档。对于这些情况,本发明提供了一种计算机化算法,以识别最有可能包含感兴趣文档的一个数据库分组。每个文档是一个对象,每个文档的数据流由直方图组成,直方图表示在去掉空格和标点符号之后,在文档中找到的17576(263)种三字母组合(三字母组(trigrams))每一个出现的频率。可替换地,在从文档中进一步去掉元音之后,可以制作辅音的9261种三字母组的直方图。根据用户的需要,训练数据组由已经被分类成“感兴趣”或“不感兴趣”的适当文档的样本组成。
金融市场:不言而喻,金融市场会对外部事件作出反应,并且,以协调的方式相互联系;例如,外汇汇率受投资机会的吸引力的影响。但是,对单独事件作出反应的方向和程度却难以预测。在一个实施例中,本发明提供了在一个基于价格随其它因素而变动的市场中价格的计算机化预测算法。每个时间点是一个对象例如以小时计的间隔,一个小时的数据流由相关国家的主要股票市场例如对英镑和美元的汇率感兴趣的纽约和伦敦股票交易所中公开交易证券的价格变化的直方图组成。训练数据组由已经被分类成在美元-英镑汇率的上升或下降之前的价格变化的历史记录组成。
处理设施:在复杂的处理设施,譬如,炼油厂、油田或石化厂中,不断监视和记录许多阀门和其它控制器的压力、温度、流动和状态(统称为“状态值”)。需要在不幸事件变成灾难性故障之前,检测出即将来临的不幸事件。本发明提供了把每个时间点分类成高风险时间点或一般风险时间点的计算机化算法。数据流由每个时间点的状态值组成。训练数据组由分类成在不幸事件之前或在一般操作之前的状态值的历史记录组成。
医疗诊断:本发明可以用在为医疗诊断分析组织样本中例如用于分析血清或血浆。数据流可以是得出2,000或更多个可以被量化成至少千分之一(三位有效数字)的测量结果的组织样本的任何可再现物理分析。蛋白质的飞行时间质谱尤其适合于本发明的实际应用。更具体地说,就是基体促进型激光器退吸电离飞行时间(matrix assisted laser desorption ionization time of flight,MALDI-TOF)和表面增强型激光器退吸电离飞行时间(surface enhanced laserdesorption ionization time of flight,SELDI-TOF)谱测量。有关内容请参阅WO00/49410。
数据流还可以包括不是固有地通过诸如分子重量之类的单个有序参数组织的,而是具有任意次序的测量结果。因此,当组织样本是活体解剖标本时,同时衡量2,000或更多个基因的表示级的DNA微阵列数据可以用作数据流,对各个基因的次序是数据流的认识是任意的。
对于早期诊断很重要,但是由于症状不明而造成技术上的困难,和由于病理组织的代谢活动,可以预计疾病在血清中产生可检测出来的变异的特定疾病,本发明特别有用。恶性肿瘤(癌症)的早期诊断是本发明应用的基本焦点。工作样本显示了前列腺癌的诊断,还为卵巢症的诊断进行了相似测试。
应该注意到,利用本发明的方法,可以对来自一个患者样本的单个数据流进行分析,供多种诊断使用。由于专用于每种诊断的步骤仅仅由计算机来完成,因此,这种多种诊断的附加成本是微不足道的。
B.提取处理和逻辑染色体
在本发明的分类处理中第一步骤是把数据流转换成特征矢量或从数据流中提取特征矢量。在提取之前,通过把总峰值指定成独立值1和把所有其它点变成相应分数值,可以方便地归一化数据。数据流的最简单提取包括选择少数几个数据点。本领域的普通技术人员应该认识到,可以构造出多个点的更复杂函数,譬如,在某个区间上的平均值函数或在相对于所选原始数据点预定距离的数据点之间的更复杂和或差函数。也可以使用数据流的强度值的函数,并且,可以预测,这样的函数起与在工作样本中所示的简单提取等效的作用。
本领域的普通技术人员还应该懂得,常规实验可以确定在任意点上求出瞬时斜率的提取在本发明中是否也有效。因此,所示工作样本这种可通过常规方法获得的变型在本发明的范围之内。
本发明的特征是把遗传算法用于确定用于计算特征矢量的数据点。为了与现有技术的名称保持一致,要选择的特定点的列表被称为逻辑染色体。逻辑染色体包含与特征矢量的维数一样多的“基因”。只要假设不能复制染色体的基因,任何适当个数据点的组都可以是逻辑染色体。基因的次序对本发明来说并不重要。
本领域的普通技术人员应该懂得,遗传算法可以应用在两个条件得到满足的时候。对于这个问题的具体解决方案必须能够通过一组或一串固定长度离散元素来表示,这些单元可以是数字或字符,和可以重组这些串,进一步形成解决方案。你还必须能够计数每种解决方案的优缺点的数值,即它的适应性。在这些情况下,遗传算法的细节与寻求解决的问题无关。因此,对于本发明,可以应用遗传算法软件。可从阿贡国家实验室(Argonne NationalLaboratory)购买到的PGAPack程序库中的算法是适用的。下面讨论具体逻辑染色体的适应性的计算。
第一个示范性实例涉及到100个文档的文集,把这100文档随机分成46个文档的训练组和54个文档的测试组。该文档包括国会(State of the Union)演说、书籍《(战争艺术》(The Art of War)的选段和来自《金融时报》(theFinancial Time)的文章。对每个文档计算三字母组的分布。选择25维的矢量空间和在每维中是那个维中的值域的0.35倍数据簇规模。遗传算法用大约1,500个随机选择的逻辑染色体初始化。随着算法进行下去,复制出更合适的逻辑染色体,终止掉不那么合适的逻辑染色体。在染色体与通过随机取代染色体的元素发生的变异之间存在重组。最初随机选择的逻辑染色体的集合不是本发明的基本特征。对数据流的所有组进行某种预先筛分,以便识别出那些具有最高可变性的数据点也许是有用的,尽管这样的技术也有可能引入不希望有的初始偏差。本领域的普通技术人员应该懂得,遗传算法的初始染色体组、变异率和其它边界条件对于它的函数来说不是关键性的。
C.模式识别处理和适应性分数生成
计算通过遗传算法生成的逻辑染色体每一个的适应性分数(score)。适应性分数的计算需要为测试的每一个逻辑染色体生成一组最佳数据簇。数据簇只不过是训练数据组的对象矢量所在的矢量空间中的体积。生成一组最佳数据簇的方法对于本发明来说不是关键性的,下面将对此加以研究。但是,无论什么方法用于生成数据簇映像,该映像都受如下规则约束:每个数据簇都应该位于处在数据簇内的数据点的质心上,两个数据簇不可以重叠,和在生成映像之前,归一化矢量空间中每个簇的维数是固定的。
数据簇的规模由用户在训练期间设置。把规模设置得太大会导致难以找到可以成功分类整个训练组的任何染色体,相反,把规模设置得小一点会导致簇的个数接近训练组中数据点的个数的一组最佳数据簇。更重要的是,数据簇的规模被设置得太小会导致如下所述的“过分适应(overfiting)”。
用于定义数据簇的规模的方法是本发明的一部分。簇规模可以通过数据簇的任何两个成员之间的欧几里得距离(平方和的根)的等效物的最大值来定义。当数据流通过SELDI-TOF质谱测量数据生成时,与90%相似性的要求相对应的数据簇规模适合于本发明。对于文本的分类,发现稍微大一点的数据簇更有用。从数学上,90%相似性通过要求簇的任何两个成员之间的距离小于归一化矢量空间中两个点之间的最大距离的0.1来定义。对于这样的计算,归一化矢量空间,以便训练数据组内矢量的每个标量的范围在0.0和1.0之间。然后,矢量空间中任何两个矢量之间如此归一化的、最大可能距离是
Figure A20051008931800121
其中,N是维数。然后,每个簇的欧几里得距离是
矢量空间的具体归一化不是本发明的关键性特征。前述方法是为了易于计算而选择的。可替换的归一化可以通过不是把每一维定标成一定范围,而是使每一维具有相等的变异性来实现。可以使用诸如矢积尺度之类的非欧几里得尺度。
本领域的普通技术人员还应该认识到,数据流内值的分布是对数正态分布,而不是一般分布,那么,可以把数据流转换成对数形式。
一旦已经生成逻辑染色体的一组最佳数据簇,就可以计算那个染色体的适应性分数。对于本发明,染色体的适应性分数大体上对应于位于同质的簇,即,包含来自具有单一分类的样本的特征矢量的簇中的训练数据组的矢量数。更明确地说,适应性分数通过把同质性分数指定给每个簇来计算,同质性分数从对于同质簇为0.0变化到对于包含相等个数的恶性和良性样本矢量的簇为0.5。染色体的适应性分数是数据簇的平均适应性分数。因此,0.0的适应性分数是最合适的。存在有助于生成更多数据簇的逻辑染色体的偏差,这时因为,当在指定数据的过程中,两个逻辑染色体存在相同个数的错误时,生成更多个数的簇的逻辑染色体将具有更低的平均同质性分数,因此,具有更好的适应性分数。
可公开买到的利用自组织映射生成的软件有好几个,其中之一是“LeadCluster Map”,可以通过作为Model 1从Group One Software(Green-belt,MD)获得的通用软件来实现。
本发明的可替换实施例利用非欧几里得尺度来建立数据簇的边界。尺度指的是在矢量空间中测量距离的方法。本发明的可替换尺度可以基于如上面所定义的归一化“模糊AND”。根据“模糊AND”实现自适应模式识别算法的软件可从波士顿大学(Boston University)获得,这个软件名叫Fuzzy ARTMAP。
D.特定实施例的描述和核实
本领域的普通技术人员应该明白,整个训练数据组到同质数据簇的指定本身不是分类算法以可接受水平的精度有效运行的证据。因此,通过学习算法生成的分类算法的值必须通过它分类除了训练数据组之外的其它一组数据的能力来测试。当学习算法生成成功指定训练数据组,但是仅仅很差地指定测试数据组的分类算法时,就认为这个训练数据被学习算法过分适应了。当维数太大和/或数据簇的规模太小时会导致过分适应。
文档簇:文档(文本)是各行各业都感兴趣的。这些行业包括法律、医疗和情报团体。当面对文本性材料的流水作业量的精确性时,已经证明基于布尔(Boolean)的搜索和检索方法是不合适的。并且,布尔搜索不能捕获到概念性信息。
对这个问题的建议方法是设法以服从数值分析的方式提取概念性信息。一种这样的方法是把文档编制成三字母组的集合和记录它们出现的频率。三字母组是任何三个字符的集合,譬如,AFV、KLF、OID等。因此,有263种三字母组。空格和标点称号不包括在内。然后,可以通过把文档分段成从源自那个文档的文本的开头开始的三字母组的特定集合来表示这个文档。从那个文档得出的三字母组集合和它们的频率是特征量。如果在一个集合中的文档具有相似的三字母组集合和频率,那么,它们很可能涉及相同主题。如果只检查和计数三字母组的特定子集,这就特别正确。问题是,三字母组的哪个子集描述了任何概念。基于本发明的学习算法可以回答这个问题。
把来自《金融时报》、《战争艺术》和总统国会演说的100个英文文档汇编成一个文集。把分类随机地划分成训练和测试文集。把0或1的某个值指定给所有文档,其中,0表示令人讨厌的,1表示赏心悦目的。学习算法对整个三字母组集合进行搜索,并且识别将文档分成两类的三字母组集合。最后的模型处在25维空间中,以及判别边界被设置在该空间中允许的最大距离的0.35倍上。分类算法只利用了17,576种可能三字母组中的25种。一旦进行测试,就会获得下表的结果。
 实际分类0   1   总数
 指定分类0   22   2   24
 1   6   24   30
 总数   28   26   54
表A:从垂直方向读出含混矩阵(confusion matrix)实际值,和从水平方向读出根据本发明的算法的结果。
结果表明,算法正确地识别出26个感兴趣文档中的24个,和正确地筛出或舍弃了26个不感兴趣文档中的22个。
生物状态的评估:把上述学习算法用于开展利用55个患者血清样本的SELDI-TOF质谱(MS)对前列腺癌逐步进行分类,在这55个患者血清样本中,30个通过活体解剖被诊断为前列腺癌和前列腺血清抗原(PSA)水平大于4.0ng/ml,和25个正常体PSA水平低于1ng/ml。MA数据是通过选择7个分子量值提取的。
生成把训练数据组中的每个矢量指定给同质数据簇的簇映像。簇映像包含34个簇,其中,17个是良性的,和17个是恶性的。表1显示了映像的每个数据簇的位置和指定给每个簇的训练组的样本数。
分类算法是利用把训练数据组排除在外的231个样本进行测试的。使用了来自经历过各种临床和病理诊断的患者的6组样本。临床和病理描述和算法结果如下:1)24个患者PSA>4ng/ml,和通过活体解剖证明得了癌症,其中,22个被映射到有病数据簇,2个被映射到无病数据簇;2)6个正常,均被映射到健康数据簇;3)39个得了前列腺肥大(BPH)或前列腺炎,和PSA<4ng/ml,其中,7个被映射到有病数据簇,0个被映射到健康数据簇,和32个被映射到无病数据族;4)139个得了BPH或前列腺炎,并且,4ng/ml<PSA<10ng/ml,其中,42个被映射到有病数据簇,2个被映射到健康数据簇,和95个被映射到无病数据族;5)19个得了BPH或前列腺炎,并且,PSA>10ng/ml,其中,9个被映射到有病数据簇,0个被映射到健康数据簇,和10个被映射到无病数据族。第6组数据是从通过活体解剖证明得了恶性肿瘤和PSA>10ng/ml的患者身上取出前列腺切除之前和之后的样本得到的。正如所期望的那样,7个手术前样本的每一个都被指定到有病数据组。但是,在做完手术6个星期之后,PSA水平已经降到1ng/ml以下,那时取出的样本没有一个不可以被指定到任何数据组。
当评估前述测试的结果时,应当回想到,在PSA为2-4ng/ml和通过活体解剖诊断为良性的患者中隐藏着恶性肿瘤的比率为约30%。因此,虽然对癌症没有进行组织诊断,但发现18%和47%之间的患者PSA高,这与正确预测恶性肿瘤的存在是一致的。

Claims (10)

1.一种构造配置成分类属于至少第一状态或与该第一状态不同的第二状态之一的生物样本的模型的计算机实现方法,包括:
提供多个数据串,每个数据串是从已知为第一状态或第二状态的生物样本导出的;
使用遗传算法来选取标识多个数据串的每一个中的数据的第一组变量;
使用第一组变量为该组数据串的每一个成员计算样本矢量;
在最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇的第一矢量空间中找出一位置;
确定关于最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率;
确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内;
如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内,则提供在最适合使用第一组变量计算出的样本矢量的至少两个数据簇的第一矢量空间的所述位置;以及
如果确定最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率不在可接受的容限内,则
使用遗传算法来选取与第一组变量不同的第二组变量;
使用第二组变量为该组数据串的每一个成员计算样本矢量;
在最适合使用第二组变量计算出的样本矢量的至少两个数据簇中的每一簇的第二矢量空间中找出一位置;
确定关于最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率;
确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率是否在可接受的容限内,以及
如果确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率在可接受的容限内,则提供在最适合使用第二组变量计算出的样本矢量的至少两个数据簇的第二矢量空间的所述位置。
2.根据权利要求1所述的计算机实现方法,其中,最适合使用第一组变量计算出的样本矢量的至少两个数据簇的变异率是最适合使用第一组变量计算出的样本矢量的至少两个数据簇的差异。
3.根据权利要求1所述的计算机实现方法,其中,如果确定最适合使用第二组变量计算出的样本矢量的至少两个数据簇的变异率不在可接受的容限内,则选取与第一组变量和第二组变量都不同的第三组变量。
4.根据权利要求1所述的计算机实现方法,其中,每一个数据串都是经由生物测定技术从生物样本导出的。
5.根据权利要求1所述的计算机实现方法,其中,可接受的容限使用户输入的。
6.根据权利要求1所述的计算机实现方法,其中,在最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇的第一矢量空间中找出一位置包括为每个样本矢量确定关于第一矢量空间中的先前存在的质心的样本矢量的一个邻域。
7.根据权利要求6所述的计算机实现方法,还包括:
确定每个样本矢量与最接近的、先前存在的质心的距离是否在以预定门限值之内;
如果该距离超过该门限值,则基于第一矢量空间中的样本矢量的所述位置定义新的质心;而
如果该距离小于该门限值,则分配该样本矢量到与先前存在的质心相关联的簇。
8.根据权利要求7所述的计算机实现方法,其中,分配所述样本矢量包括调整先前存在的质心的位置以更接近所述样本矢量的所述位置。
9.根据权利要求1所述的计算机实现方法,其中,最适合使用第一组变量计算出的样本矢量的至少两个数据簇中的每一簇包括一个质心和一个决策超半径。
10.一种利用根据权利要求1的方法构造的、配置成分类生物样本的模型。
CNA2005100893182A 2000-06-19 2001-06-19 构造分类属于不同状态的生物样本的模型的方法 Pending CN1741036A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US21240400P 2000-06-19 2000-06-19
US60/212,404 2000-06-19

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB018137202A Division CN1249620C (zh) 2000-06-19 2001-06-19 分类试探方法

Publications (1)

Publication Number Publication Date
CN1741036A true CN1741036A (zh) 2006-03-01

Family

ID=22790864

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB018137202A Expired - Fee Related CN1249620C (zh) 2000-06-19 2001-06-19 分类试探方法
CNA2005100893182A Pending CN1741036A (zh) 2000-06-19 2001-06-19 构造分类属于不同状态的生物样本的模型的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB018137202A Expired - Fee Related CN1249620C (zh) 2000-06-19 2001-06-19 分类试探方法

Country Status (19)

Country Link
US (3) US7096206B2 (zh)
EP (1) EP1292912B1 (zh)
JP (1) JP2003536179A (zh)
KR (2) KR20030051435A (zh)
CN (2) CN1249620C (zh)
AT (1) ATE406627T1 (zh)
AU (1) AU2001269877A1 (zh)
BR (1) BR0111742A (zh)
CA (1) CA2411906A1 (zh)
DE (1) DE60135549D1 (zh)
EA (1) EA006272B1 (zh)
HK (1) HK1059494A1 (zh)
IL (1) IL153189A0 (zh)
MX (1) MXPA02012167A (zh)
NO (1) NO20026087L (zh)
NZ (1) NZ522859A (zh)
SG (1) SG143055A1 (zh)
WO (1) WO2001099043A1 (zh)
ZA (1) ZA200209845B (zh)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993186B1 (en) * 1997-12-29 2006-01-31 Glickman Jeff B Energy minimization for classification, pattern recognition, sensor fusion, data compression, network reconstruction and signal processing
AU2001266650A1 (en) * 2000-06-02 2001-12-17 Large Scale Proteomics Corp Protein markers for pharmaceuticals and related toxicity
KR20030051435A (ko) 2000-06-19 2003-06-25 코렐로직 시스템즈, 인크. 분류화의 발견적 방법
MXPA03000506A (es) * 2000-07-18 2004-09-10 Correlogic Systems Inc Proceso para discriminiar entre estados biologicos basados en patrones escondidos de datos biologicos.
US6539102B1 (en) * 2000-09-01 2003-03-25 Large Scale Proteomics Reference database
US6980674B2 (en) * 2000-09-01 2005-12-27 Large Scale Proteomics Corp. Reference database
EP1355727A4 (en) * 2000-11-16 2007-04-11 Ciphergen Biosystems Inc METHOD OF ANALYSIS OF MASS SPECTRUM
US20030009293A1 (en) * 2001-01-09 2003-01-09 Anderson Norman G. Reference database
JP2005521138A (ja) * 2002-03-15 2005-07-14 パシフィック エッジ バイオテクノロジー リミティド 遺伝子発現データを使用する適応学習システムの医療適用
US7756804B2 (en) * 2002-05-10 2010-07-13 Oracle International Corporation Automated model building and evaluation for data mining system
US7395160B2 (en) * 2002-07-29 2008-07-01 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
US7337154B2 (en) * 2003-05-19 2008-02-26 Raytheon Company Method for solving the binary minimization problem and a variant thereof
US7321364B2 (en) * 2003-05-19 2008-01-22 Raytheon Company Automated translation of high order complex geometry from a CAD model into a surface based combinatorial geometry format
MXPA06001170A (es) * 2003-08-01 2006-05-15 Correlogic Systems Inc Caracteristicas proteomicas de suero de alta resolucion multiples para deteccion de cancer de ovarios.
EP1709442A4 (en) * 2003-12-11 2010-01-20 Correlogic Systems Inc METHOD FOR DIAGNOSING BIOLOGICAL CONDITIONS BY USING A CENTRALIZED ADAPTIVE MODEL AND SAMPLE PREPARATION
JP5180478B2 (ja) * 2004-02-10 2013-04-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ゲノムベースの医療診断テストを最適化する遺伝アルゴリズム
TW200532523A (en) * 2004-02-27 2005-10-01 Aureon Biosciences Corp Methods and systems for predicting occurrence of an event
US20050209785A1 (en) * 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
EP1745424A1 (en) * 2004-03-02 2007-01-24 Cloudmark, Inc. Method and apparatus to use a genetic algorithm to generate an improved statistical model
US7733339B2 (en) * 2004-05-04 2010-06-08 Raytheon Company System and method for partitioning CAD models of parts into simpler sub-parts for analysis of physical characteristics of the parts
US8527442B2 (en) * 2004-05-14 2013-09-03 Lawrence Fu Method for predicting citation counts
US8275772B2 (en) * 2004-05-14 2012-09-25 Yin Aphinyanaphongs Content and quality assessment method and apparatus for quality searching
US7379939B2 (en) * 2004-06-30 2008-05-27 International Business Machines Corporation Methods for dynamic classification of data in evolving data stream
US20060036566A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US7545986B2 (en) * 2004-09-16 2009-06-09 The United States Of America As Represented By The Secretary Of The Navy Adaptive resampling classifier method and apparatus
US20070003996A1 (en) * 2005-02-09 2007-01-04 Hitt Ben A Identification of bacteria and spores
US7370039B2 (en) * 2005-04-05 2008-05-06 International Business Machines Corporation Method and system for optimizing configuration classification of software
US20080312514A1 (en) * 2005-05-12 2008-12-18 Mansfield Brian C Serum Patterns Predictive of Breast Cancer
CN101223540A (zh) * 2005-07-21 2008-07-16 皇家飞利浦电子股份有限公司 用于进行最优选的子集选择的方法和装置
CN101238467A (zh) 2005-08-05 2008-08-06 皇家飞利浦电子股份有限公司 具有动态基因分布的搜索空间遍历
AU2006279437A1 (en) * 2005-08-15 2007-02-22 University Of Southern California Method and system for integrated asset management utilizing multi-level modeling of oil field assets
GB2430772A (en) * 2005-10-01 2007-04-04 Knowledge Support Systems Ltd User interface method and apparatus
US7539653B2 (en) * 2005-10-07 2009-05-26 Xerox Corporation Document clustering
US7853869B2 (en) * 2005-12-14 2010-12-14 Microsoft Corporation Creation of semantic objects for providing logical structure to markup language representations of documents
US7736905B2 (en) * 2006-03-31 2010-06-15 Biodesix, Inc. Method and system for determining whether a drug will be effective on a patient with a disease
US7478075B2 (en) * 2006-04-11 2009-01-13 Sun Microsystems, Inc. Reducing the size of a training set for classification
US20070260568A1 (en) * 2006-04-21 2007-11-08 International Business Machines Corporation System and method of mining time-changing data streams using a dynamic rule classifier having low granularity
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
EP2094719A4 (en) * 2006-12-19 2010-01-06 Genego Inc NEW PROCEDURES FOR THE FUNCTIONAL ANALYSIS OF EXPERIMENTAL HIGH-PERFORMANCE DATA AND IDENTIFIED GENDER GROUPS THEREOF
US20080201095A1 (en) * 2007-02-12 2008-08-21 Yip Ping F Method for Calibrating an Analytical Instrument
US20080208646A1 (en) * 2007-02-28 2008-08-28 Thompson Ralph E Method for increasing productivity and safety in the mining and heavy construction industries
CN101680872B (zh) * 2007-04-13 2015-05-13 塞昆纳姆股份有限公司 序列比较分析方法和系统
MY150234A (en) 2007-06-29 2013-12-31 Ahn Gook Pharmaceutical Company Ltd Predictive markers for ovarian cancer
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
US8185298B2 (en) * 2007-10-17 2012-05-22 Lockheed Martin Corporation Hybrid heuristic national airspace flight path optimization
US20090112645A1 (en) * 2007-10-25 2009-04-30 Lockheed Martin Corporation Multi objective national airspace collaborative optimization
US8311960B1 (en) * 2009-03-31 2012-11-13 Emc Corporation Interactive semi-supervised machine learning for classification
US10475529B2 (en) 2011-07-19 2019-11-12 Optiscan Biomedical Corporation Method and apparatus for analyte measurements using calibration sets
US8583571B2 (en) * 2009-07-30 2013-11-12 Marchex, Inc. Facility for reconciliation of business records using genetic algorithms
US8139822B2 (en) * 2009-08-28 2012-03-20 Allen Joseph Selner Designation of a characteristic of a physical capability by motion analysis, systems and methods
US8370386B1 (en) 2009-11-03 2013-02-05 The Boeing Company Methods and systems for template driven data mining task editing
US9009156B1 (en) * 2009-11-10 2015-04-14 Hrl Laboratories, Llc System for automatic data clustering utilizing bio-inspired computing models
KR101139913B1 (ko) * 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법
US20110208433A1 (en) * 2010-02-24 2011-08-25 Biodesix, Inc. Cancer patient selection for administration of therapeutic agents using mass spectral analysis of blood-based samples
JP5165021B2 (ja) * 2010-05-11 2013-03-21 ヤフー株式会社 カテゴリ処理装置及び方法
CN102184193A (zh) * 2011-04-19 2011-09-14 无锡永中软件有限公司 与通用公办软件兼容的快速文档处理方法
JP5821767B2 (ja) * 2012-04-20 2015-11-24 株式会社島津製作所 クロマトグラフタンデム四重極型質量分析装置
US9798918B2 (en) * 2012-10-05 2017-10-24 Cireca Theranostics, Llc Method and system for analyzing biological specimens by spectral imaging
RU2653108C2 (ru) * 2012-11-20 2018-05-07 Конинклейке Филипс Н.В. Интегрированное фенотипирование с использованием признаков текстуры изображения
US8855968B1 (en) * 2012-12-10 2014-10-07 Timothy Lynn Gillis Analytical evaluation tool for continuous process plants
US8467988B1 (en) * 2013-01-02 2013-06-18 Biodesix, Inc. Method and system for validation of mass spectrometer machine performance
US9471662B2 (en) 2013-06-24 2016-10-18 Sap Se Homogeneity evaluation of datasets
CN103632164B (zh) * 2013-11-25 2017-03-01 西北工业大学 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法
CN105654100A (zh) * 2014-10-30 2016-06-08 诺基亚技术有限公司 利用计算装置识别对象的方法、装置以及电子设备
US11657447B1 (en) * 2015-02-27 2023-05-23 Intuit Inc. Transaction-based verification of income and employment
CN105373832B (zh) * 2015-10-14 2018-10-30 江苏师范大学 基于并行遗传算法的交易规则参数优化方法
CA3028728A1 (en) * 2016-06-23 2017-12-28 Capital One Services, Llc Neural network systems and methods for generating distributed representations of electronic transaction information
CN106404441B (zh) * 2016-09-22 2018-11-06 宁波大学 一种基于非线性相似度指标的故障分类诊断方法
EP3575813B1 (en) * 2018-05-30 2022-06-29 Siemens Healthcare GmbH Quantitative mapping of a magnetic resonance imaging parameter by data-driven signal-model learning
CN108877947B (zh) * 2018-06-01 2021-10-15 重庆大学 基于迭代均值聚类的深度样本学习方法
EP4047519A1 (en) 2021-02-22 2022-08-24 Carl Zeiss Vision International GmbH Devices and methods for processing eyeglass prescriptions
EP4101367A1 (en) 2021-06-09 2022-12-14 Carl Zeiss Vision International GmbH Method and device for determining a visual performance
TW202338854A (zh) * 2021-12-29 2023-10-01 美商愛昂科股份有限公司 基於基因資訊分析綜合判定癌症存在及類型之多層分類方案及其實施系統
CN114623693B (zh) * 2022-04-13 2024-01-30 深圳市佳运通电子有限公司 用于油田上下游站加热炉智能外输温度的控制方法
CN116304114B (zh) * 2023-05-11 2023-08-04 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN117688354A (zh) * 2024-02-01 2024-03-12 中国标准化研究院 一种基于进化算法的文本特征选择方法及系统

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3935562A (en) 1974-02-22 1976-01-27 Stephens Richard G Pattern recognition method and apparatus
US4075475A (en) * 1976-05-03 1978-02-21 Chemetron Corporation Programmed thermal degradation-mass spectrometry analysis method facilitating identification of a biological specimen
US4122518A (en) * 1976-05-17 1978-10-24 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Automated clinical system for chromosome analysis
US4697242A (en) 1984-06-11 1987-09-29 Holland John H Adaptive computing system capable of learning and discovery
GB2187035A (en) 1986-01-27 1987-08-26 Eric James Sjoberg Pyrolysis mass spectrometer disease diagnosis aid
US4881178A (en) 1987-05-07 1989-11-14 The Regents Of The University Of Michigan Method of controlling a classifier system
US5697369A (en) * 1988-12-22 1997-12-16 Biofield Corp. Method and apparatus for disease, injury and bodily condition screening or sensing
WO1991014990A1 (en) 1990-03-28 1991-10-03 Koza John R Non-linear genetic algorithms for solving problems by finding a fit composition of functions
US5210412A (en) 1991-01-31 1993-05-11 Wayne State University Method for analyzing an organic sample
US5784162A (en) 1993-08-18 1998-07-21 Applied Spectral Imaging Ltd. Spectral bio-imaging methods for biological research, medical diagnostics and therapy
DE69218912T2 (de) 1991-08-28 1997-10-09 Becton Dickinson Co Schwerkraftsattraktionsmaschine zur anpassungsfähigen autoclusterbildung n-dimensionaler datenströme
US5632957A (en) 1993-11-01 1997-05-27 Nanogen Molecular biological diagnostic systems including electrodes
RU2038598C1 (ru) 1992-07-06 1995-06-27 Шапиро Светлана Борисовна Способ уринодиагностики заболеваний почек
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
EP1139289B1 (en) 1992-09-01 2011-03-09 Apple Inc. Improved vector quantization
US5790761A (en) * 1992-12-11 1998-08-04 Heseltine; Gary L. Method and apparatus for the diagnosis of colorectal cancer
ES2201077T3 (es) 1993-05-28 2004-03-16 Baylor College Of Medicine Metodo y espectrometro de masas para la desorcion e ionizacion de analitos.
US5995645A (en) 1993-08-18 1999-11-30 Applied Spectral Imaging Ltd. Method of cancer cell detection
US5352613A (en) 1993-10-07 1994-10-04 Tafas Triantafillos P Cytological screening method
US5553616A (en) * 1993-11-30 1996-09-10 Florida Institute Of Technology Determination of concentrations of biological substances using raman spectroscopy and artificial neural network discriminator
US6025128A (en) * 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
WO1996012187A1 (en) 1994-10-13 1996-04-25 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
US5848177A (en) 1994-12-29 1998-12-08 Board Of Trustees Operating Michigan State University Method and system for detection of biological materials using fractal dimensions
GB2301897B (en) * 1995-06-08 1999-05-26 Univ Wales Aberystwyth The Composition analysis
KR100197580B1 (ko) 1995-09-13 1999-06-15 이민화 무선 통신망을 이용한 실시간 생체신호모니터링시스템
US5716825A (en) * 1995-11-01 1998-02-10 Hewlett Packard Company Integrated nucleic acid analysis system for MALDI-TOF MS
US5687716A (en) * 1995-11-15 1997-11-18 Kaufmann; Peter Selective differentiating diagnostic process based on broad data bases
DE19543020A1 (de) 1995-11-18 1997-05-22 Boehringer Mannheim Gmbh Verfahren und Vorrichtung zur Bestimmung von analytischen Daten über das Innere einer streuenden Matrix
SE9602545L (sv) 1996-06-25 1997-12-26 Michael Mecklenburg Metod för att diskriminera komplexa biologiska prover
US5839438A (en) * 1996-09-10 1998-11-24 Neuralmed, Inc. Computer-based neural network system and method for medical diagnosis and interpretation
WO1998020459A1 (en) 1996-11-04 1998-05-14 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for the visualization and interactive processing and analysis of chemical data
US6571227B1 (en) 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
EP0954612A2 (en) 1996-11-06 1999-11-10 Sequenom, Inc. Dna diagnostics based on mass spectrometry
US6157921A (en) * 1998-05-01 2000-12-05 Barnhill Technologies, Llc Enhancing knowledge discovery using support vector machines in a distributed network environment
JP2001519070A (ja) * 1997-03-24 2001-10-16 クイーンズ ユニバーシティー アット キングストン 一致検出の方法、製品および装置
US5905258A (en) * 1997-06-02 1999-05-18 Advanced Research & Techology Institute Hybrid ion mobility and mass spectrometer
NZ516848A (en) 1997-06-20 2004-03-26 Ciphergen Biosystems Inc Retentate chromatography apparatus with applications in biology and medicine
US6081797A (en) 1997-07-09 2000-06-27 American Heuristics Corporation Adaptive temporal correlation network
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
JP2002503813A (ja) 1998-02-13 2002-02-05 オックスフォード グリコサイエンセス(ユーケー) リミテッド ヘパトームの診断のための方法および組成
GB9805477D0 (en) 1998-03-13 1998-05-13 Oxford Glycosciences Limited Methods and compositions for diagnosis of rheumatoid arthritis
US6723564B2 (en) * 1998-05-07 2004-04-20 Sequenom, Inc. IR MALDI mass spectrometry of nucleic acids using liquid matrices
CA2331508A1 (en) 1998-05-09 1999-11-18 Ikonisys, Inc. Method and apparatus for computer controlled rare cell, including fetal cell, based diagnosis
WO2000025192A2 (en) 1998-10-26 2000-05-04 Visionary Medical, Inc. Prescription-controlled data collection system and method
US5989824A (en) 1998-11-04 1999-11-23 Mesosystems Technology, Inc. Apparatus and method for lysing bacterial spores to facilitate their identification
AU772680B2 (en) 1999-02-16 2004-05-06 Government of The United States of America, as represented by The Secretary Department of Health & Human Services, The National Institutes of Health, The LCM (Laser capture microdissection) for cellular protein analysis
GB9905817D0 (en) 1999-03-12 1999-05-05 Oxford Glycosciences Uk Ltd Methods
US6631333B1 (en) * 1999-05-10 2003-10-07 California Institute Of Technology Methods for remote characterization of an odor
US6329652B1 (en) * 1999-07-28 2001-12-11 Eastman Kodak Company Method for comparison of similar samples in liquid chromatography/mass spectrometry
US6615199B1 (en) * 1999-08-31 2003-09-02 Accenture, Llp Abstraction factory in a base services pattern environment
WO2001020043A1 (en) 1999-09-17 2001-03-22 Affymetrix, Inc. Method of cluster analysis of gene expression profiles
AU1350501A (en) 1999-10-27 2001-05-08 Barnhill Technologies, Llc Methods and devices for identifying patterns in biological systems and methods for uses thereof
AU779635B2 (en) 1999-10-27 2005-02-03 Health Discovery Corporation Methods and devices for identifying patterns in biological systems and methods for uses thereof
DE10021737C2 (de) 2000-05-04 2002-10-17 Hermann Haller Verfahren und Vorrichtung zur qualitativen und/oder quantitativen Bestimmung eines Protein- und/oder Peptidmusters einer Flüssigkeitsprobe, die dem menschlichen oder tierischen Körper entnommen wird
KR20030051435A (ko) 2000-06-19 2003-06-25 코렐로직 시스템즈, 인크. 분류화의 발견적 방법
US6680203B2 (en) 2000-07-10 2004-01-20 Esperion Therapeutics, Inc. Fourier transform mass spectrometry of complex biological samples
AU2001273486A1 (en) 2000-07-17 2002-01-30 Labnetics, Inc. Method and apparatus for the processing of remotely collected electronic information characterizing properties of biological entities
MXPA03000506A (es) 2000-07-18 2004-09-10 Correlogic Systems Inc Proceso para discriminiar entre estados biologicos basados en patrones escondidos de datos biologicos.
EP1355727A4 (en) 2000-11-16 2007-04-11 Ciphergen Biosystems Inc METHOD OF ANALYSIS OF MASS SPECTRUM
CA2435254C (en) 2001-01-24 2012-05-15 Biowulf Technologies, Llc Methods of identifying patterns in biological systems and uses thereof
CA2436503A1 (en) 2001-02-01 2002-08-08 Huw A. Davies Improved methods for protein identification, characterization and sequencing by tandem mass spectrometry
CN1636068A (zh) * 2001-02-16 2005-07-06 赛弗根生物系统股份有限公司 将基因表达谱与蛋白质表达谱相关联的方法
US20030077616A1 (en) * 2001-04-19 2003-04-24 Ciphergen Biosystems, Inc. Biomolecule characterization using mass spectrometry and affinity tags
US20020160420A1 (en) 2001-04-30 2002-10-31 George Jackowski Process for diagnosis of physiological conditions by characterization of proteomic materials
WO2003014735A1 (en) 2001-08-03 2003-02-20 General Hospital Corporation System, process and diagnostic arrangement establishing and monitoring medication doses for patients
US8068987B2 (en) 2001-08-13 2011-11-29 Bg Medicine, Inc. Method and system for profiling biological systems
US20020193950A1 (en) * 2002-02-25 2002-12-19 Gavin Edward J. Method for analyzing mass spectra
US7395160B2 (en) 2002-07-29 2008-07-01 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
JP4585167B2 (ja) 2002-11-29 2010-11-24 東芝医用システムエンジニアリング株式会社 X線コンピュータ断層撮影システム
US7311665B2 (en) 2003-05-19 2007-12-25 Alcohol Monitoring Systems, Inc. Bio-information sensor monitoring system and method
MXPA06001170A (es) 2003-08-01 2006-05-15 Correlogic Systems Inc Caracteristicas proteomicas de suero de alta resolucion multiples para deteccion de cancer de ovarios.
EP1709442A4 (en) 2003-12-11 2010-01-20 Correlogic Systems Inc METHOD FOR DIAGNOSING BIOLOGICAL CONDITIONS BY USING A CENTRALIZED ADAPTIVE MODEL AND SAMPLE PREPARATION
IL163061A (en) 2004-07-15 2007-07-24 Meddynamics Ltd System and method for administration of on-line healthcare
US20070003996A1 (en) 2005-02-09 2007-01-04 Hitt Ben A Identification of bacteria and spores

Also Published As

Publication number Publication date
WO2001099043A1 (en) 2001-12-27
MXPA02012167A (es) 2004-08-19
KR101047575B1 (ko) 2011-07-13
US20070185824A1 (en) 2007-08-09
CN1249620C (zh) 2006-04-05
NZ522859A (en) 2005-08-26
KR20030051435A (ko) 2003-06-25
AU2001269877A1 (en) 2002-01-02
EA200300035A1 (ru) 2003-10-30
EP1292912B1 (en) 2008-08-27
US20020046198A1 (en) 2002-04-18
SG143055A1 (en) 2008-06-27
CA2411906A1 (en) 2001-12-27
JP2003536179A (ja) 2003-12-02
ZA200209845B (en) 2003-10-21
US7096206B2 (en) 2006-08-22
KR20090019019A (ko) 2009-02-24
ATE406627T1 (de) 2008-09-15
HK1059494A1 (en) 2004-07-02
EP1292912A1 (en) 2003-03-19
US7499891B2 (en) 2009-03-03
DE60135549D1 (de) 2008-10-09
NO20026087D0 (no) 2002-12-18
NO20026087L (no) 2003-02-13
US7240038B2 (en) 2007-07-03
BR0111742A (pt) 2004-02-03
IL153189A0 (en) 2003-06-24
EA006272B1 (ru) 2005-10-27
US20060112041A1 (en) 2006-05-25
CN1446344A (zh) 2003-10-01

Similar Documents

Publication Publication Date Title
CN1249620C (zh) 分类试探方法
Liao Clustering of time series data—a survey
Uzma et al. Gene encoder: a feature selection technique through unsupervised deep learning-based clustering for large gene expression data
Kim et al. Effect of data normalization on fuzzy clustering of DNA microarray data
Magidson et al. An extension of the CHAID tree-based segmentation algorithm to multiple dependent variables
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Pedreira et al. From big flow cytometry datasets to smart diagnostic strategies: The EuroFlow approach
CN103258147A (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
Shim et al. A comparison study of cluster validity indices using a nonhierarchical clustering algorithm
US20230197203A1 (en) Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius
Livieris et al. Identification of blood cell subtypes from images using an improved SSL algorithm
Sheikhi et al. Financial distress prediction using distress score as a predictor
Fung et al. Classification of heterogeneous gene expression data
CN1403984A (zh) 用于帮助赢利组织评估和改善来自客户的利润的方法和系统
AlSaif Large scale data mining for banking credit risk prediction
Gomes et al. Clustering Strategies for Defining Archetypes to Support Integrated Simulations of Environmental Impacts
Masmoudi et al. A binarization strategy for modelling mixed data in multigroup classification
Fan et al. Distinguishing between normal and cancer cells using autoencoder node saliency
Xia et al. OTU Methods in Numerical Taxonomy
Huiqing Effective use of data mining technologies on biological and clinical data
Vargo Applications of Machine Learning: From Single Cell Biology to Algorithmic Fairness
Minhas et al. Identification of Voting Patterns using Clustering Methodology
Pati et al. Optimal samples selection from gene expression microarray data using relational algebra and clustering technique
NZ539429A (en) Heuristic method of classification
Wahyudi et al. The Implementation of the K-Medoid Clustering for Grouping Hearing Loss Function on Excessive Smartphone Use

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060301