CN1774511B - 用于序列变异检测和发现的基于断裂的方法和系统 - Google Patents

用于序列变异检测和发现的基于断裂的方法和系统 Download PDF

Info

Publication number
CN1774511B
CN1774511B CN2003801092195A CN200380109219A CN1774511B CN 1774511 B CN1774511 B CN 1774511B CN 2003801092195 A CN2003801092195 A CN 2003801092195A CN 200380109219 A CN200380109219 A CN 200380109219A CN 1774511 B CN1774511 B CN 1774511B
Authority
CN
China
Prior art keywords
nucleic acid
sequence
fragment
substrate composition
target nucleic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2003801092195A
Other languages
English (en)
Other versions
CN1774511A (zh
Inventor
迪尔克·范登博姆
塞巴斯蒂安·伯克尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sequenom Inc
Original Assignee
Sequenom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequenom Inc filed Critical Sequenom Inc
Publication of CN1774511A publication Critical patent/CN1774511A/zh
Application granted granted Critical
Publication of CN1774511B publication Critical patent/CN1774511B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6872Methods for sequencing involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

本发明提供了基于断裂的方法和系统,尤其是质谱法和系统,用于分析序列变异。

Description

用于序列变异检测和发现的基于断裂的方法和系统
相关申请
本发明要求于2002年11月27日提交的美国临时申请第60/429,895号、题为“Fragmentation-based Methods and Systems forSequence Variation detection and Discocery”的优选权的好处。
与本申请有关还有2003年4月25日提交的美国临时申请第60/466,006号,题目为“Fragmentation-based Methods and Systems forde novo Sequencing”,以及2003年11月26日提交的美国申请,题目为“Fragmentation-based Methods and Systems for SequenceVariation Detection and Discovery”,备案号(attorney docket)24736-2073。
在允许的情况下,上述各个申请和临时申请的内容以引用方式结合于本文。
背景技术
所有生物机体(例如,动物、植物、以及微生物)的遗传信息都编码在脱氧核糖核酸(DNA)中。在人体中,完整的基因组包括约100,000个位于24条染色体上的基因(The Human Genome,T.Strachan,BIOS Scientific Publishers,1992)。针对特定蛋白质的各个基因密码在经过转录和翻译进行表达以后,在活细胞内实现特定的生化功能。
遗传密码的变化或变异可导致mRNA的序列或表达水平的变化,并潜在地导致由mRNA编码的蛋白质的变化。这些变化,称为多态性或突变,可能对mRNA或蛋白质的生物活性具有显著的有害效应,从而导致疾病。突变包括核苷酸缺失、插入、取代、或其他变更(即,点突变)。
已知有许多种由遗传多态性引起的疾病,包括血友病、地中海贫血症、迪谢内肌营养不良(DMD)、亨廷顿病(HD)、阿尔茨海默病、以及囊性纤维化(CF)(Human Genome Mutations,D.N.Cooper and M.Krawczak,BIOS Publishers,1993)。诸如这些的遗传疾病可起因于在形成特定基因的脱氧核糖核酸(DNA)中单核苷酸的单个添加、取代、或缺失。除导致遗传疾病的突变基因以外,某些先天缺陷是染色体异常的结果,如21三体综合征(唐氏综合征)、13三体综合征(帕陶综合征)、18三体综合征(爱德华兹综合征)、单体性X综合征(特纳综合征),以及其他性染色体非整倍性的结果,如克兰费尔特综合征(XXY)。另外,不断有证据表明,某些DNA序列可以使个体易患若干疾病中的任何疾病,如糖尿病、动脉硬化、肥胖症、各种自身免疫病、以及癌症(例如,结直肠癌、乳腺癌、卵巢癌、肺癌)。
在相同物种(例如,人类)的一个以上个体的基因组之间的单核苷酸的改变,是个体之间产生可遗传变异的原因,被称为“单核苷酸多态性”或“SNP”。并不是所有SNP都会导致疾病。根据SNP发生的位置和频率,其效应可以在无害与致死之间变化。某些多态性被认为使某些个体易患疾病,或与某些疾病的发病水平有关。动脉粥样硬化、肥胖症、糖尿病、自身免疫病、以及癌症是几种被认为与多态性有关的疾病。除与疾病有关以外,多态性还被认为在患者对治疗疾病的治疗药剂的反应中起作用。例如,多态性被认为在患者对药物、放射治疗、以及其他形式的治疗的反应能力中起作用。
鉴定多态性可更好地了解特定的疾病,并有可能更有效地治疗这类疾病。实际上,基于对患者鉴定出来的多态性而制定的个体化治疗方案可产生挽救性命的药物干涉。一旦鉴定并分离了多态性,则可以发现与特定多态性的产物相互作用的新型药物或化合物。基于多态性也可以实现传染性生物的鉴定,包括病毒、细菌、朊病毒、以及真菌,并且可以向被感染宿主实施适当的治疗反应。
因为约16个核苷酸的序列在统计基础上即使对于人体基因组的大小来说也是特定的,所以相对较短的核酸序列可以用来检测高等生物的正常和缺陷型基因,以及检测传染性微生物(例如,细菌、真菌、原生生物、以及酵母菌)和病毒。DNA序列甚至可以用作指纹图谱来检测相同物种内的不同个体(参见,Thompson,J.S.andM.W.Thompson,eds.,Genetics in Medicine,W.B.Saunders Co.,Philadelphia,PA(1991))。
使用了多种检测DNA的方法。例如,通过以下方法来鉴定核酸序列:通过凝胶电泳,或通过和与待鉴定的序列互补的探针杂交,将扩增核酸分子的迁移率与已知标准进行比较。然而,只有当核酸分子被标记具有敏感报道功能时(例如,放射性的(32P、35S)、荧光的、或化学发光的)才能完成鉴定。放射性标记可能是危险的,并且它们产生的信号随时间衰减。当使用高强度激光时,非同位素标记(例如,荧光的)缺乏敏感性,并且信号会衰减。另外,进行标记、电泳、以及其后的检测是费力、费时、以及易错的操作。电泳尤其容易出错,这是因为核酸分子的大小或分子量无法与在凝胶基质中的迁移率直接相关。已经知道,序列的特异性效应、二级结构、以及与凝胶基质的相互作用会产生人工产物。此外,通过凝胶电泳获得的分子量信息是相关参数(如在凝胶基质中的迁移率)间接测量的结果。
质谱测定法在生物科学中的应用已有报道(参见Meth. Enzymol.,Vol.193,Mass Spectrometry(McCloskey,ed.;AcademicPress,NY 1990);McLaffery et al.,Acc.Chem.Res.27:297-386(1994);Chait and Kent,Science 257:1885-1894(1992);Siuzdak,Proc. Natl.Acad.Sci.,USA 91:11290-11297(1994)),包括生物聚合物的质谱分析法(参见Hillenkamp et al.(1991)Anal.Chem.63:1193A-1202A)以及制备和分析生物聚合物梯的方法(参见Intemational Publ.WO 96/36732;美国专利第5,792,664号)。
MALDI-MS要求将待分析的大分子结合在基质中,并且已经对多肽和混合在固态(即,晶态)基质中的核酸进行了MALDI-MS。在这些方法中,使用激光撞击在探针端部结晶的生物聚合物/基质混合物,从而实现生物聚合物的解吸和电离。此外,已经利用结晶水(即冰)或甘油作为基质对多肽进行了MALDI-MS。当结晶水被用作基质时,在进行MALDI-MS之前必须首先冻干或风干蛋白质(Berkenkamp et al.(1996)Proc. Natl.Acad.Sci.USA 93:7003-7007)。此方法的质量上限据报道是30kDa,并具有有限的敏感性(即,至少需要10pmol蛋白质)。
MALDI-TOF质谱测定法已和传统桑格测序或类似基于引物-扩展的方法一起采用以获得序列信息,包括检测SNP(参见,例如,美国专利第5,547,835、6,194,144、6,225,450、5,691,141、以及6,238,871号;H.Koster et al.,Nature Biotechnol.,14:1123-1128,1996;WO 96/29431;WO 98/20166;WO 98/12355;美国专利第5,869,242号;WO 97/33000;WO 98/54571;A.Braun et al.,Genomics,46:18,1997;D.P.Little et al.,Nat.Med.,3:1413,1997;L.Haff et al.,GenomeRes.,7:378,1997;P.Ross et al.,Nat.Biotechnol.,16:1347,1998;K.Tang et al.,Proc.Natl.Acad.Sci.USA,96:10016,1999)。因为DNA中的四种天然存在的核苷酸碱基dC、dT、dA、以及dG(本文也称为C、T、A、以及G)中的每一种具有不同的分子量:MC=289.2;MT=304.2;MA=313.2;MG=329.2;其中MC、MT、MA、MG分别是核苷酸碱基脱氧胞苷、胸苷、脱氧腺苷、以及脱氧鸟苷的平均分子量(在自然同位素分布下),单位是道尔顿,所以可以在同一质谱中解读出整个序列。如果单个质谱用来分析传统桑格测序反应(其中,通过结合双脱氧核苷酸在每个碱基位置实现链终止)的产物,那么碱基序列可以通过计算相邻峰之间的质量差异加以确定。为了检测SNP、等位基因、或其他序列变异(例如,插入、缺失),在靶核酸分子中紧靠多态SNP或序列变异位点进行变异体特异性引物扩展。扩展产物的质量以及已扩展和未扩展产物之间的质量差可以表示出等位基因、SNP、或其他序列变异的类型。
美国专利第5,622,824号描述了基于质谱检测进行DNA测序的方法。为达到此目的,借助于保护、酶活性的特异性、或固定化,经过外切核酸酶消化作用以逐段方式对DNA进行单侧降解,并通过质谱测定法检测核苷酸或衍生物。在酶降解之前,可以产生几组跨越克隆DNA序列的有序缺失。以这种方式,可以利用外切核酸酶和DNA/RNA聚合酶的组合来结合质量改变的核苷酸。这使得能够进行多重质谱检测、或调节外切核酸酶的活性,从而使降解过程同步。
美国专利第5,605,798和5,547,835号提供了检测生物样品中特定核酸序列的方法。取决于要检测的序列,这些过程可以用于,例如,诊断方法。
已开发了一些技术以在工业规模上将MALDI-TOF质谱测定法应用于分析基因变异,例如微卫星、插入和/或缺失突变、以及单核苷酸多态性(SNP)。这些技术可以应用于大量的个体样品、或混合样品,以研究个体群、或异质肿瘤样品中的等位基因频率或SNP的频率。这些分析可以在基于芯片的形式上进行,在这种形式中,靶核酸或引物被连接到固体载体(如硅或涂硅基质)上,优选以阵列的形式(参见,例如,K.Tang et al.,Proc.Natl.Acad.Sci.USA,96:10016,1999)。一般说来,当利用质谱测定法、尤其是MALDI进行分析时,将少量的毫微升容积的样品加载到基质上,使生成的斑点大约等于、或小于激光斑点的大小。已发现,当达到此目标时,质谱分析所得的结果是定量的。在生成的质谱中位于信号以下的面积与浓度成正比(当对背景进行归一化并校正时)。制备和使用这类芯片的方法描述于美国专利第6,024,925号、未审查的美国申请第08/786,988、09/364,774、09/371,150、以及09/297,575号;还可参见美国申请第PCT/US97/20195号,其公开为WO 98/20020。用于进行这些分析的芯片和试剂盒可商业上获自SEQUENOM公司,商标为MassARRAYTM。MassARRAYTM依靠与小型化阵列和MALDI-TOF(基体辅助激光解吸电离-飞行时间)质谱测定法结合的质谱分析,以迅速地传送结果。它可以准确地识别出在DNA片段的大小中与基因变异体有关的单碱基变化,而不需要标记。
虽然如上所述为获得核酸序列信息、尤其是从DNA片段中获得核酸序列信息,使用MLDI会提供高通量的优点,这是由于从固体表面高速获取信号和自动化分析的结果,但其应用仍有限制。当SNP或突变或其他序列变异未知时,对不包括序列变异的参比序列的每种可能的序列变化都必须模拟变异体质谱或其他的质量指标,如在凝胶电泳情况下的迁移率。然后对应于特定的一个或一组序列变异的每一个模拟的变异体质谱都必须对比实际的变异体质谱,以确定产生变异体质谱的最可能的一个或多个序列改变。这样纯粹基于模拟的方法非常费时。例如,假定在具有1000个碱基的参比序列的条件下,大约存在9000种潜在的单碱基序列变异。对于每个这样的潜在序列变异,都必须模拟出预期的质谱,并与实验测量的质谱进行对比。当存在多个碱基变异或多个序列变异而不仅是单个碱基变异或序列变异时,问题将进一步复杂化。
因此,需要改善检测和发现SNP、突变、以及其他序列变异的准确性。因而,本文的一个目的是提高SNP、突变、以及其他序列变异检测和发现的准确性。本文的另一个目的是增加SNP、突变、以及序列变异检测和发现的速度。
发明内容
本文提供高度准确的SNP、突变、以及其他序列变异检测和发现的方法和系统。本文的这些方法和系统允许迅速和准确地检测和发现SNP、突变、以及序列变异。
本文提供用于利用基于分子质量的技术(如质谱测定法和凝胶电泳)来检测或发现序列变异(包括核酸多态性和突变)的方法和系统。这些方法和系统提供了基于核酸序列变异的各种信息。例如,这样的信息包括但不限于:鉴定遗传疾病或染色体异常;鉴定易患包括但不限于肥胖症、动脉粥样硬化、或癌症等的疾病的素质;鉴定由感染剂引起的感染;提供与同一性、遗传性、或组织相容性有关的信息;鉴定病原体(例如,细菌、病毒、以及真菌);提供抗生素或其他耐药性分析(profiling);确定单体型;分析微卫星序列和STR(短串联重复序列)的基因座;确定等位基因变异和/或频率;分析细胞甲基化模式(methylation pattern,或叫甲基化图谱);基因型变异的流行病分析;以及进化中的基因变异。
本文提供用于在对遗传疾病、易患某些疾病、癌症、以及感染的素质的诊断中检测或发现核酸序列变异的方法。
本文提供通过特异性裂解来检测已知的突变、SNP、或其他种类的序列变异(例如,插入、缺失、序列测定差错)或发现新的突变、SNP、或序列变异的方法。在这些方法中,从靶生物分子产生片段,这些片段是基于以下方面在靶生物分子序列的特定位置上裂解得到的:(i)裂解试剂的序列特异性(例如,对于核酸,例如单碱基A、G、C、T或U的碱基特异性,或对修饰单碱基或核苷酸的识别,或对短(约两个至约二十个碱基之间)非简并以及简并寡核苷酸序列的识别);或(ii)靶生物分子的结构;或(iii)物理方法,如在质谱测定法期间通过碰致解离的电离;或(iv)以上的组合。对片段而不是全长生物分子的分析把待确定的离子的质量移动到较低的质量范围,这个范围一般来说更适合于质谱检测。例如,移动到较小的质量会增加质量分辨率、质量准确性、尤其是检测的敏感性。由质谱测定法确定的靶生物分子的片段的实际分子量提供了序列信息(例如,突变的存在和/或识别)。本文提供的方法可用来检测靶生物分子中的多个序列变异。
将片段的分子量图,即,产生自靶生物分子的片段的质量信号,与参比序列在相同裂解条件下产生的片段的实际或模拟图进行比较。参比序列通常对应于靶序列,不同之处在于,靶序列中待鉴定的序列变异(突变、多态性)在参比序列中不存在。例如,如果生物分子是核酸,那么参比核酸序列可衍生自野生型等位基因,而靶核酸序列可衍生自突变等位基因。在另一个实例中,参比核酸序列可以是来自人体基因组的序列,而靶核酸序列可以是来自传染性生物(如病原体)的序列。然后分析靶序列和参比序列之间的质量信号差异,以确定在靶生物分子序列中最可能存在的序列变异。靶序列和参比序列之间的质量信号差异可以是绝对的(即,在一个序列的断裂质谱中存在、但在其他断裂质谱中不存在的质量信号),或它可以是相对的,例如但不限于信号的峰强度(高度、面积、信噪比、或其结合)差异。
本文提供的方法可用来筛选等于和大于2000个碱基的核酸序列,以确定相对于参比序列是否存在序列变异。另外,由于降低了碱基命名(base-calling)差错的发生,因而可更准确地检测序列变异,这证明尤其适用于检测“真”SNP,如在导致氨基酸变化的基因的编码区中的SNP,其通常具有小于5%的等位基因频率(参见,例如,L.Kruglyak et al.,Nat.Genet.,27:234,2001)。
通过本文提供的方法,可鉴定出通过特异性裂解靶核酸序列获得的片段和那些在相同条件下通过实际或模拟特异性裂解参比核酸序列获得的片段之间的质量信号差异(靶核酸片段质谱中“附加的”或“失去的”质量信号),然后确定相应于这些差异的片段的质量。除了靶断裂图中的“失去的”或“附加的”信号以外,这些差异还可以包括具有靶序列和参比序列之间不同的强度和信躁比的信号。一旦确定了对应于靶序列和参比序列之间的差异的片段(“不同”片段)的质量,就可以鉴定出一种或多种核酸碱基的组成(基底成分),其质量与每个不同片段的实际测得质量相差一数值,该数值小于或等于足够小的质量差。这些基底成分称为参考基底成分。这种等于足够小的质量差的数值由一些参数确定,例如但不限于不同片段的质量、片段(其质量在类型或长度上相差单个核苷酸)之间的峰间隔、以及质谱仪的绝对分辨率。对于四种核酸碱基(对于RNA而言是A、G、C、T或U,或其修饰)的一种或多种特异的裂解反应可用来产生数据集,这些数据集包括每个特定裂解片段的可能的参考基底成分,其接近或等于每个不同片段的测得质量,所相差的数值小于或等于足够小的质量差。
然后,针对每个不同片段产生的参考基底成分可以用来确定SNP或其他序列变异(例如,插入、缺失、取代)在靶核酸序列中的存在。
可以人工分析对应于不同片段的可能的参考基底成分,以获得对应于基底成分的序列变异。另一方面,提供数学算法以根据不同片段的可能参考基底成分重建靶序列变异。第一步,鉴定所有可能的基底成分,其质量与在靶核酸裂解反应或在相同的裂解条件下的参比核酸裂解反应中产生的各个不同片段的实际质量相差小于或等于足够小的质量差异的数值。这些基底成分是“基底成分参考”。然后,该算法确定将导致所鉴定出的基底成分参考的所有序列变异。该算法构造出靶序列相对于参比序列的那些序列变异,其最多含有k种突变、多态性、或其他包括但不限于生物之间的序列变异、插入、缺失、以及取代的序列变异。k值,即序列变异的级数,依赖于若干参数,这些参数包括但不限于参比序列和靶序列之间的序列变异的预期类型和数目,例如,序列变异是单碱基还是多碱基,或者序列变异相对于参比序列来说是存在于靶序列上的一个位置上还是存在于一个以上的位置。例如,为了检测SNP,k值通常(但不一定)是1或2。为了突变检测以及在重新测序中,k值通常(但不一定)是3或更高。表示包含在靶序列中相对于参比序列的可能序列变异的序列被称为序列变异候选(也叫“候选变异序列”)。在靶序列中检测到的可能的序列变异通常是所有序列变异的总和,其中,特异性裂解针对序列变异产生了对应于每一个序列变异的参考基底成分。
第二种算法用来为每个计算输出的序列变异候选产生模拟质谱。利用第三(评分)算法,相对于靶核酸序列的实际质谱,对每个序列变异候选的模拟质谱进行评分。然后得分值(得分越高,匹配越好,其中得分最高的通常是最可能存在的序列变异)可用来确定对应于实际靶核酸序列的序列变异候选。序列变异候选的输出将包括靶序列相对于参比序列的所有序列变异(其在特异性裂解反应中产生不同的片段)。对于靶序列中彼此并不相互作用的序列变异,即,沿着靶序列在序列变异之间的间隔(距离)足以满足每个序列变异在特异性裂解反应中产生(靶序列相对于参比序列的)明显不同的片段,靶序列的断裂图相对于参比序列的差异表示靶序列中相对于参比序列的所有序列变异的总和。
当相对于相同的参比序列分析多个靶序列时,该算法可以结合那些对应于相同序列变异候选的靶序列的得分。因此,可以确定表示实际序列变异的序列变异候选的总得分。此具体实施例例如在SNP发现中特别有用。
序列变异候选输出可以进一步用于迭代过程,以检测靶序列中附加的序列变异。例如,在检测靶序列中一个以上序列变异的迭代过程中,具有最高得分的序列变异被认为是实际的序列变异,而将对应于此序列变异的信号或峰加入参比片段质谱中,以产生经过更新的参比片段质谱。然后相对于此经过更新的参比片段质谱对所有剩余的序列变异候选进行评分,以输出具有次最高得分的序列变异候选。此第二序列变异候选也可以表示靶序列中第二个实际序列变异。因此,可以将对应于第二序列变异的峰加入参比片段质谱,以产生第二更新的参比质谱,相对于该第二次更新的参比质谱,按照其得分即可以检测出第三序列变异。可以重复此迭代过程直到在靶序列中鉴定不到更多的表示实际序列变异的序列变异候选。
在一个具体实施例中,本文提供了一种方法,用于:通过利用一种或多种特异性裂解试剂,将包含野生型和突变型等位基因的混合物的样品中的靶核酸分子的混合物裂解成片段,来确定样品中的等位基因频率;利用相同的一种或多种裂解试剂把含有野生型等位基因的核酸分子裂解或模拟裂解成片段;确定片段的质量;鉴定靶核酸分子和野生型核酸分子之间片段的差异,该差异表示靶核酸分子的混合物中相对于野生型核酸分子的序列变异;确定是基底成分参考的不同片段;确定与每个基底成分参考相对应的具有序列变异级k的一组有界限基底成分;确定作为每个有界限基底成分的候选等位基因的等位基因变异体;对候选等位基因进行评分;以及确定样品中突变等位基因的等位基因频率。
在其他具体实施例中,本文提供的方法可用于检测生物样品中的核酸混合物中的靶核酸的序列变异。生物样品包括但不限于来自以下所述的DNA:一组个体、或衍生自单个组织或细胞类型的均质肿瘤样品、或含有一种以上组织类型或细胞类型的异质肿瘤样品、或衍生自原发性肿瘤的细胞系。还可以设想一些方法,如单体型方法,其中检测相同基因中的两种突变。
在其他具体实施例中,通过使用一种或多种裂解试剂断裂各个靶核酸,以及在相同的裂解反应中断裂一个或多个参比核酸,一次反应测量就可以多重化多个靶核酸。当利用一种或多种特异性裂解试剂同时分析一种或多种靶核酸相对于一种或多种参比核酸之间的断裂图的差异时,这些方法特别有用。
在一个具体实施例中,对按照本文提供的方法产生的片段进行分析,以确定相对于参比序列是否存在序列变异,并且对分析的片段序列进行整理以提供较大靶核酸的序列。利用单个特异性裂解反应或互补特异性裂解反应,可以通过部分或完全裂解产生片段,从而可以获得相同靶生物分子序列的交替片段。只要可以鉴定出裂解位点,裂解方式可以是酶方式、化学方式、物理方式、或其组合。
靶核酸可以选自单链DNA、双链DNA、cDNA、单链RNA、双链RNA、DNA/RNA杂种、PNA(肽核酸)、以及DNA/RNA镶嵌核酸。靶核酸可以直接分离自生物样品,或可以通过扩增或克隆核酸序列从生物样品衍生得到。可以通过以下方式完成扩增:聚合酶链反应(PCR)、反转录作用继之以聚合酶链反应(RT-PCR)、链取代扩增(SDA)、滚环扩增、以及基于转录的方法。
在断裂之前可以对靶生物分子(如核酸、蛋白质、以及肽)进行处理,以改变裂解特异性。
在一个具体实施例中,利用修饰核苷三磷酸对靶核酸进行扩增。修饰给与或改变裂解试剂对靶核酸序列的裂解特异性,并通过增加质量信号间隔改善断裂质谱的分辨率。修饰核苷三磷酸可以选自同位素富集(13C/15N,例如)或同位素贫化的核苷酸、质量修饰的脱氧核苷三磷酸、质量修饰的双脱氧核苷三磷酸、以及质量修饰的核糖核苷三磷酸。质量修饰的三磷酸可以在碱基、糖、和/或磷酸部分加以修饰,并通过酶步骤、化学方法、或两者的结合引入。一方面,修饰可以包括除了羟基的2′取代基。另一方面,可以修饰核苷内键,例如,硫代磷酸酯键或进一步与烷化剂起反应的硫代磷酸酯键。在又一个方面,可以用甲基基团(例如,5-甲基胞嘧啶或5-甲基尿苷)对修饰核苷三磷酸进行修饰。
在另一个具体实施例中,靶核酸利用天然存在、但并不是靶核酸的标准前体的核苷三磷酸加以扩增。例如,尿苷三磷酸,其通常并不存在于DNA中,可以在有标准DNA前体核苷酸(例如,dCTP、dATP、以及dGTP)以及dUTP存在的情况下,通过扩增DNA而加入到被扩增的DNA分子中。当扩增的产物用尿嘧啶-DNA糖基化酶(UDG)处理时,尿嘧啶残余被裂解。其后对UDG反应产物的化学处理或酶处理导致磷酸主链的裂解,并产生核碱基特异性片段。此外,在糖基化酶处理之前分离扩增产物的互补链,使得可以产生断裂的互补图。因此,dUTP和尿嘧啶-DNA糖基化酶的使用允许为互补链产生T特异性片段,从而提供有关于给定序列内T以及A位置的信息。类似地,如果独立地分析两个扩增链的断裂图,那么对两个(互补)链(即,与C特异性糖基化酶)的C特异性反应将产生有关给定序列内C以及G位置的信息。借助糖基化酶方法和质谱测定法,可以分析全系列的A、C、G、以及T特异性断裂图。存在若干方法,其中用特定化学制剂处理DNA会修饰存在的碱基,以使它们可以通过特异性DNA糖基化酶加以识别。例如,用烷化剂(如甲基亚硝脲)处理DNA可产生若干烷化碱基,包括N3-甲基腺嘌呤以及N3-甲基鸟嘌呤,它们可通过烷基嘌呤DNA-糖基化酶加以识别和裂解。用亚硫酸氢钠处理DNA会引起DNA中胞嘧啶残基的脱氨作用,从而在DNA中形成尿嘧啶残基,它可以用尿嘧啶N-糖基化酶(也称为尿嘧啶DNA-糖基化酶)加以裂解。化学试剂也可以把鸟嘌呤转化成其氧化形式,即8-羟基鸟嘌呤,其可以用甲酰氨基嘧啶DNAN-糖基化酶(FPG蛋白)加以裂解(Chung et al.,“An endonuclease activity of Escherichia coli that specifically removes8-hydroxyguanine residues from DNA,”Mutation Research 254:1-12(1991))。
在另一个具体实施例中,基因组DNA的亚硫酸氢盐处理可以用来分析DNA内甲基化胞嘧啶残基的位置。用亚硫酸氢盐处理核酸会把胞嘧啶残基脱氨成尿嘧啶残基,同时甲基化胞嘧啶残基保持未修饰状态。因此,通过比较未用亚硫酸氢盐处理的靶核酸序列的裂解图和按本文提供的方法用亚硫酸氢盐处理的靶核酸序列的裂解图,可以推出核酸的甲基化程度以及胞嘧啶被甲基化的位置。
本文提供的方法可适用于任何依赖于或包括核酸断裂的测序方法或检测方法。如下面进一步描述的,多核苷酸的断裂在本技术领域是已知的,并且可以用多种方式完成。例如,由DNA、RNA、DNA和RNA的类似物、或其组合组成的多核苷酸可以用物理方法、化学方法、或酶方法加以断裂。片段的大小可以不同,并且适当的核酸片段通常小于约2000个核苷酸。适当的核酸片段可以属于多个大小范围,包括但不限于:小于约1000个碱基、在约100至约500个碱基之间、或从约25到约200个碱基。在某些方面,约一个核苷酸的片段可以存在于通过特异性裂解获得的片段集中。
在有链终止核苷酸存在的情况下,核酸的断裂还可以与依赖于链延伸的测序方法结合。这些方法包括但不限于基于桑格测序的测序方法、以及检测方法,如引物寡核苷酸碱基延伸(参见,例如,美国申请第6,043,031号;已授权的美国申请第6,258,538号;以及第6,235,478号),其依赖并包括链延伸步骤。
一种从核酸产生碱基特异性终止片段的方法是通过用适量的特异性内切核酸酶接触适量的靶核酸来进行,从而导致部分或完全消化靶核酸。内切核酸酶通常将序列降解成不大于约50~70个核苷酸的碎片,即使反应进行完全。在一个具体实施例中,核酸是核糖核酸,而内切核酸酶是核糖核酸酶(RNase),选自:G特异性RNase T1、A特异性RNase U2、A/U特异性RNase PhyM、U/C特异性RNase A、C特异性鸡肝RNase(RNase CL3)、或cusavitin。在其他具体实施例中,核酸是脱氧核糖核酸(DNA),而裂解试剂是DNA酶或糖基化酶。在另一个具体实施例中,内切核酸酶是限制性内切酶,其裂解至少一个包含在靶核酸内的位点。另一种产生碱基特异性终止片段的方法包括将扩增反应和碱基特异性终止反应相结合,例如,使用的是:适量的第一DNA聚合酶,它对于链终止核苷酸具有相对较低的亲和性,从而导致靶的指数扩增;以及对于链终止核苷酸具有相对较高亲和性的聚合酶,从而使聚合产生碱基特异性终止。
裂解和未裂解靶序列片段的质量可以利用本技术领域熟知的方法进行确定,这些方法包括但不限于质谱测定法和凝胶电泳,优选MALDI/TOF。用于进行高通量质谱分析的芯片和试剂盒可商业上获自SEQUENOM公司,商标为MassARRAYTM。MassARRAYTM系统可用来高速和准确地分析由碱基特异性断裂所发现和定位的SNP和其他突变。
本文提供的方法提高了鉴定通过靶核酸的碱基特异性断裂(而不是引物延伸)所产生的片段信号的准确性和清楚性,并通过对信号进行筛选、仅选择那些可能表示出靶核酸内的真序列变异的信号的算法增加了这些信号的分析速度。
本文提供的方法可另外适用于分析样品中的序列变异,这些样品是:含有来自多个基因组(物种)、或多个个体的核酸的混合物的样品,或生物样品,如衍生自组织或细胞的混合物的肿瘤样品。这样的“样品混合物”通常包括含有低频率的序列变异或突变或多态性、并具有高度过量的野生型序列的靶核酸。例如,在肿瘤中,引起肿瘤的突变通常小于存在于肿瘤样品中的核酸的5%~10%,该肿瘤样品是一种以上组织类型或细胞类型的异质混合物。类似地,在个体群中,大多数具有功能重要性的多态性(其是例如疾病状况或易患疾病的决定因素)以小于5%的低等位基因频率存在。本文提供的方法可以适用于检测存在范围小于约5%~10%的低频率突变、序列变异、等位基因、或多态性。
本文提供的方法也可以适用于检测测序差错。例如,如果在本文提供的方法中使用的参比核酸的实际序列不同于报道的序列(例如,在出版的数据库中),本文提供的方法将会通过检测报道序列中的序列变异来检测报道序列中的差错。
本文的方法允许测定任何大小的寡核苷酸的序列,尤其在小于约4000nt的范围内,更通常在约100至约1000nt的范围内。
还提供了包含用于检测或发现靶核酸中的突变(插入、缺失、取代)和多态性的成分的试剂盒。这些试剂盒含有如本文描述的试剂,以及可选的为进行反应所需要的任何其他试剂。这类试剂和组合物包装在本领域技术人员熟知的标准包装中。也可以包括用于测序的其他管瓶、容器、移液管、注射器、以及其他制品。可以包括进行反应的说明。
本文提供的方法可以用来确定靶蛋白质或肽序列中相对于参比蛋白质或肽序列的序列变异。可通过采用各种技术的特异性裂解来断裂蛋白质,这些技术包括化学裂解、酶裂解、以及电离裂解。然后鉴定与靶蛋白质或肽的断裂图谱中相对于参比蛋白质或肽所失去的或附加的信号相对应的片段差异。一旦确定了不同片段的质量,就可以鉴定出一种或多种氨基酸的组成(基底成分),其质量与每个不同片段的实际测得质量相差一数值,该数值小于或等于如本文所述的足够小的质量差。这些基底成分对于靶蛋白质或肽将是参考基底成分。对于二十种氨基酸的一种或多种、或对于序列模体特有的结构特点的一种或多种特异的裂解反应可以用来产生数据集,这些数据集包括每一个特异性裂解片段的可能的参考基底成分,其中,各个特异性裂解片段接近或等于每个不同片段的测得质量,在接近的情况下,相差的数值小于或等于足够小的质量差。
然后靶蛋白或肽序列相对于参比序列的每个一不同片段的可能的参考基底成分可以用来确定SNP或其他序列变异(例如,插入、缺失、取代)在靶蛋白或肽序列中的存在。
根据以下详述和权利要求,其他特点和优点将是显而易见的。
附图说明
图1示出了通过如本文所述的方法和过程,由进行数据分析的计算机系统所执行的操作的流程图。
图2示出了由计算机系统执行用来确定一组经过精简的序列变异候选的操作的流程图。
图3是执行样品处理和进行图1和图2所示的操作的系统的方框图。
图4是图3中示出的数据分析计算机的方框图。
发明详述
A.定义
B.产生片段的方法
C.发现多态性、突变、以及序列变异的技术
D.应用
E.系统和软件方法
F.实施例
A.定义
除非另有规定,本文使用的所有技术和科学术语具有本发明所属技术领域的技术人员所通常理解的含义。除非另有说明,本文中提及的所有专利、专利申请、公布的申请以及出版物、基因文库、万维网站、以及其他公布的材料以引用方式结合于本文。在本文的术语存在多种定义的情况下,那些在此部分的定义占优势。在参考URL或其他这样的标识符或地址的情况下,应当明了,这类标识符可以变化,并且因特网上的特定信息也可以变化,但通过搜索因特网可以发现相同的信息。对这些信息的参考证明了这类信息的可获得性和大众传播。
如本文所使用的,分子指任何分子个体,包括但不限于生物聚合物,生物分子,大分子或其成分或前体,如肽、蛋白质、有机化合物、寡核苷酸或肽的单体单元,有机物,核酸以及其他大分子。单体单元指构造生成的化合物的组分之一。因而,单体单元包括核苷酸、氨基酸、以及利用其合成小的有机分子的药效团。
如本文所使用的,生物分子是指任何天然存在的分子,或其衍生物。生物分子包括生物聚合物和大分子以及所有可以分离自活生物和病毒的分子,包括但不限于细胞、组织、朊病毒、动物、植物、病毒、细菌、朊病毒、以及其他生物。生物分子还包括但不限于寡核苷酸,寡核苷,蛋白质,肽,氨基酸,脂质,类固醇,肽核酸(PNA),寡糖和单糖,有机分子,如酶辅因子,金属络合物,如血红素、铁硫簇、卟啉以及其金属络合物,金属,如铜、钼、锌、以及其他金属。
如本文所使用的,大分子指分子量为几百到几百万的任何分子。大分子包括但不限于肽、蛋白质、核苷酸、核酸、糖类、以及其他这类分子,它们通过生物合成,但也可以用合成方法或利用重组分子生物学方法进行制备。
如本文所使用的,生物聚合物指生物分子,包括大分子(由两个或多个单体亚单元构成)或其衍生物(由键或大分子连接)。生物聚合物可以是,例如,多核苷酸、多肽、碳水化合物、或脂质、或其衍生物或结合,例如,含有肽核酸部分或糖蛋白的核酸分子。
如本文所使用的,“核酸”指多核苷酸,如脱氧核糖核酸(DNA)和核糖核酸(RNA)。该术语还应理解为包括由核苷酸类似物、单链(有义或反义)和双链多核苷酸制成的RNA或DNA的等同体、衍生物、变异体、以及类似物。脱氧核糖核酸包括脱氧腺苷、脱氧胞苷、脱氧鸟苷、以及脱氧胸苷。对于RNA,尿嘧啶碱基是尿苷。把核酸称作“多核苷酸”是在其最广泛的意义上用来指由共价键连接的两个或多个核苷酸或核苷酸类似物,包括单链或双链分子。虽然本领域技术人员会认为寡核苷酸(如PCR引物)在长度上通常少于约40至100个核苷酸,但术语“寡核苷酸”在本文也被用来指由共价键连接的两个或更多核苷酸或核苷酸类似物。术语“扩增”在与核酸相关使用时,指通过使用特异或非特异方式重复复制DNA序列或RNA序列,导致要复制的特定DNA或RNA序列的增加。
如本文所使用的,“核苷酸”包括但不限于天然存在的核苷一磷酸、核苷二磷酸、以及核苷三磷酸:脱氧腺苷、脱氧鸟苷、脱氧胸苷、以及脱氧胞苷(本文分别称作dA、dG、dT、以及dC,或A、G、T、以及C)的一磷酸、二磷酸、以及三磷酸。核苷酸还包括(但不限于)修饰核苷酸和核苷酸类似物,如脱氮嘌呤核苷酸,例如,7-脱氮-脱氧鸟苷(7-脱氮-dG)和7-脱氮-脱氧腺苷(7-脱氮-dA)一、二、以及三磷酸,含氘-脱氧胸苷(含氘-dT)一、二、以及三磷酸,甲基化核苷酸例如,5-甲基脱氧胞苷三磷酸,13C/15N标记的核苷酸以及脱氧肌苷一、二、以及三磷酸。对于本领域技术人员来说,很清楚,修饰核苷酸、同位素富集、贫化、或标记核苷酸和核苷酸类似物可以利用官能度和附着位置的各种组合来获得。
如本文所使用的,词组“链延伸核苷酸”按照其技术认可的意义来使用。例如,对于DNA,链延伸核苷酸包括2′脱氧核糖核苷酸(例如,dATP、dCTP、dGTP、以及dTTP),而链终止核苷酸包括2′,3′-双脱氧核糖核苷酸(例如,ddATP、ddCTP、ddGTP、ddTTP)。对于RNA,链延伸核苷酸包括核糖核苷酸(例如,ATP、CTP、GTP、以及UTP),而链终止核苷酸包括3′-脱氧核糖核苷酸(例如,3′dA、3′dC、3′dG、以及3′dU)以及2′,3′-双脱氧核糖核苷酸(例如,ddATP、ddCTP、ddGTP、ddTTP)。一组完全的链延伸核苷酸对于DNA来说指dATP、dCTP、dGTP、以及dTTP,或对于RNA来说指的是ATP、CTP、GTP、以及UTP。术语“核苷酸”在本技术领域也是熟知的。
如本文所使用的,术语“核苷酸终止子”或“链终止核苷酸”指在DNA或RNA模板被测序或复制的过程中终止核酸多聚体(链)延伸的核苷酸类似物。标准的链终止核苷酸,即核苷酸终止子,包括2′,3′-双脱氧核苷酸(ddATP、ddGTP、ddCTP、以及ddTTP,本文也称作双脱氧核苷酸终止子)。如本文所使用的,双脱氧核苷酸终止子还包括标准双脱氧核苷酸终止子的类似物,例如,5-溴-双脱氧尿苷、5-甲基-双脱氧胞苷、以及双脱氧肌苷分别是ddTTP、ddCTP、以及ddGTP的类似物。
如本文所使用的,术语“多肽”指由肽键连接的至少两个氨基酸、或氨基酸衍生物(包括质量修饰氨基酸),而肽键可以是修饰肽键。多肽可以从至少是编码序列的一部分的核苷酸序列翻译得到、或从由于处于读取帧而不是编码帧,或由于是内含子序列、3′或5′未翻译序列、或调节序列(如启动子)而不是天然翻译的核苷酸序列翻译得到。多肽也可以化学合成,并且在翻译或化学合成后可以用化学或酶方法加以修饰。当涉及翻译核酸,例如,基因产物时,术语“蛋白质”、“多肽”、以及“肽”在本文可互换地使用。
如本文所使用的,生物分子(如生物聚合物)的片段指小于整体的部分。片段可以含有一个组分直到少于全部的组分。通常当裂解时,片段具有许多不同的大小,以致大多数片段包括两种以上的组分,如组分单体。
如本文所使用的,术语“靶核酸的片段”指通过靶核酸的特异性物理、化学、或酶裂解所产生的裂解片段。如本文所使用的,通过特异性裂解获得的片段指在靶核酸序列中的特定位置被裂解的片段,其是基于:裂解试剂的碱基/序列特异性(例如,A、G、C、T、或U,或修饰碱基或核苷酸的识别);或靶核酸的结构;或物理方法,如在质谱测定法期间通过碰致解离的电离;或其结合。片段可以含有一个直到小于所有的靶核酸分子的组分核苷酸。由于这种裂解产生的片段的集合含有各种不同大小的寡核苷酸和核苷酸。片段可以大小不同,而适当的核酸片段通常小于约2000个核苷酸。适当的核酸片段可以属于几个大小范围,包括但不限于:小于约1000个碱基,在约100至约500个碱基之间,或约25至约200个碱基。在某些方面,约一个核苷酸的片段可以存在于一组通过特异性裂解获得的片段中。
如本文所使用的,靶核酸指样品中感兴趣的任何核酸。它可以含有一个或多个核苷酸。靶核苷酸序列指靶核酸分子中特定的核苷酸序列。检测或鉴定这样的序列能够检测到靶,并可以指示特定的突变、序列变异、或多态性的存在或不存在。类似地,靶多肽(如本文所使用的)指其质量通过例如质谱测定法进行分析的感兴趣的任何多肽,以确定至少一部分多肽的氨基酸序列,或确定通过用一个或多种内肽酶处理多肽所产生的靶多肽的肽片段图。术语“靶多肽”指为了鉴定多态性或突变的存在而针对本文披露的目的进行质谱测定法的任何感兴趣多肽。靶多肽含有至少两个氨基酸,通常至少3或4个氨基酸,尤其至少5个氨基酸。靶多肽可以由对可能与特定疾病或状况有关的蛋白或一部分蛋白进行编码的核苷酸序列加以编码。靶多肽还可以由通常并不对翻译多肽进行编码的核苷酸序列加以编码。靶多肽可以,例如,编码自二核苷酸重复单位或三核苷酸重复单位或类似物的序列,其可以存在于染色体核酸中,例如,染色体的端粒区中的基因编码区或非编码区。词组“靶序列”,如本文所使用的,指靶核酸序列或靶多肽或蛋白质序列。
本文披露的方法还提供了一种通过质谱分析靶多肽的肽片段来鉴定靶多肽的方法。如本文所使用的,术语“靶多肽的肽片段”指通过多肽的特异性化学或酶降解所产生的裂解片段。由于化学和酶裂解以序列特异方式发生,因而靶多肽的肽片段的生成通过多肽的原发性氨基酸序列加以限定。靶多肽的肽片段可以,例如,通过在高pH下(其可以裂解Asp-Gly肽键),用化学制剂如溴化氰(其在甲硫氨酸残基裂解多肽),或羟胺;或用内肽酶如胰蛋白酶(其在Lys或Arg残基裂解多肽)接触多肽(其可以固定到固体载体)来产生。
靶多肽的身分(identity)可以通过与参比或已知多肽的分子质量或序列进行比较来确定。例如,可以比较靶多肽和已知多肽的质谱。
如本文所使用的,术语“相应的或已知的多肽或核酸”是通常用作对照物以确定例如靶多肽或核酸是否是相应的已知多肽或核酸的等位基因变异体的已知多肽或核酸。应当认识到,相应的已知蛋白质或核酸可以具有基本上和靶多肽相同的氨基酸或碱基序列,或可以是基本上不同。例如,在靶多肽是与相应的已知蛋白质相差一个氨基酸的等位基因变异体的情况下,除相差单氨基酸之外,多肽的氨基酸序列将是相同的。在正对靶多肽编码的核酸中的突变改变,例如,编码核酸的读取帧或引入或缺失终止密码子的情况下,靶多肽的序列可以基本不同于相应的已知多肽的序列。
如本文所使用的,参比生物分子指靶生物分子通常(但不一定)与其进行比较的生物分子。因此,例如,参比核酸是这样的一种核酸,靶核酸与其进行比较以便相对于参比核酸鉴定出靶核酸中潜在的或实际的序列变异。参比核酸通常具有已知序列或具有可以确定的序列。
如本文所使用的,参比多肽是这样的一种多肽,靶多肽与其进行比较从而用不涉及测定多肽序列的方法来鉴定靶多肽。参比多肽通常是已知的多肽。参比序列,如本文所使用的,指参比核酸或参比多肽或蛋白质的序列。
如本文所使用的,基于转录的方法包括“体外转录系统(体系)”,其指无细胞系统,含有RNA聚合酶和其他因子,以及转录DNA分子所必须的试剂,其中DNA分子可操作地连接于特异地结合RNA聚合酶的启动子。体外转录系统可以是细胞提取物,例如,真核生物细胞提取物。术语“转录”,如本文所使用的,通常指这样的方法,通过该方法并基于DNA模板,RNA分子的生成被引发、延伸和终止。此外,“反转录”方法,其在本技术领域是熟知的,被认为包括在如本文所使用的术语“转录”的含义内。转录是一种聚合反应,该反应由依赖DNA或依赖RNA的RNA聚合酶所催化。RNA聚合酶的实例包括细菌RNA聚合酶、SP6 RNA聚合酶、T3RNA聚合酶、T3 RNA聚合酶、以及T7 RNA聚合酶。
如本文所使用的,术语“翻译”描述的是这样的方法,通过该方法,多肽的生成在RNA模板的基础上被引发、延伸和终止。对于要从DNA生成的多肽,DNA必须转录成RNA,然后该RNA由于各种细胞成分的相互作用被翻译成多肽。在原核生物细胞中,转录和翻译是“成对”的,这意味着RNA在被从DNA转录的过程中被翻译成多肽。在包括植物和动物细胞的真核生物细胞中,DNA被转录成细胞核中的RNA,然后RNA被处理成mRNA,然后被转运到细胞质,并在此处被翻译成多肽。
如本文中针对包括DNA和RNA的核酸所使用的术语“分离的”,指基本上从其他在自然状态下通常与核酸相关的大分子分离得到的核酸分子。分离的核酸分子基本上分离自在细胞中通常与它有关的细胞物质,或作为相关的,可以基本上分离自细菌或病毒物质;或当通过重组DNA技术生产时分离自培养基;或当化学合成核酸时分离自化学前体或其他化学制剂。一般说来,相对于其自然状态,分离的核酸分子至少约50%富集,通常约70%至约80%富集,尤其约90%或95%或更多。优选地,分离的核酸构成至少约50%的含有核酸的样品,并且可以是至少约70%或80%的样品物质,尤其是样品的至少约90%至95%或更大。分离的核酸可以是在自然界并不存在的核酸分子,因而在自然状态未发现。
术语“分离的”在本文还用来指基本上从通常与自然状态下的多肽相关的其他大分子分离的多肽。分离的多肽的鉴定可以基于它相对于它所自然相关的物质的富集程度或它构成含有多肽的样品的分数达到如上述对“分离的”核酸所规定的相同程度,即,相对于其自然状态富集至少约50%,或构成至少约50%的含有多肽的样品。分离的多肽,例如,可以由通常表达多肽的细胞纯化得到,或可以利用重组DNA方法生成。
如本文所使用的,核酸的“结构”包括但不限于起因于非沃森-克里克碱基配对的二级结构(参见,例如,Seela,F.and A.Kehne(1987)Biochemistry,26,2232-2238.),以及在核酸中由碱基配对和非碱基配对或错配碱基的组合形成的结构,如发夹结构、环结构和泡结构。
如本文所使用的,外遗传改变指靶序列中相对于参比序列的变异(例如,相对于野生型序列的突变序列),其不依赖于天然碱基(A、G、C、T/U)或二十种天然氨基酸的身分变化。这类变异包括但不限于,例如,靶核酸序列和参比核酸序列之间存在修饰碱基或甲基化碱基情况下的差异。外遗传改变指基因功能的有丝分裂和/或减数分裂上的可遗传改变,或高级核酸结构的改变,这种改变不能用核酸序列的改变来解释。易发生外遗传变异或改变的体系的实例包括但不限于动物中的DNA甲基化模式、组蛋白修饰、以及多蜂房-trithorax组(Pc-G/tx)蛋白复合物(络合物)。外遗传改变通常(但不一定)导致基因表达的改变,这通常(但不一定)是可遗传的。
如本文所使用的,“引物”指适用于杂交、链延伸、扩增、以及测序的寡核苷酸。类似地,探针是用于杂交的引物。这种引物指具有足够低质量的核酸,通常约在约5和200个核苷酸之间,一般约70个核苷酸或少于70个核苷酸,并具有足够的大小以方便地用于本文提供的扩增方法以及检测和测序方法。这些引物包括但不限于用于核酸检测和测序的引物,其需要足够数目的核苷酸以形成稳定的双链体,通常约6~30个核苷酸,约10~25个核苷酸和/或约12~20个核苷酸。因此,对本文来说,引物是含有任何适当长度,通常含有约6~70个核苷酸、12~70个核苷酸、或大于约14至约上限70个核苷酸的核苷酸序列,其依赖于该引物的序列和应用。
如本文所使用的,对质谱测定法的参考包括本领域技术人员已知的任何适当的质谱形式。这类形式包括但不限于基体辅助激光解吸/电离、飞行时间(MALDI-TOF)、电喷射(ES)、IR-MALDI(参见,例如,公布的国际PCT申请第99/57318号以及美国专利第5,118,937号)、离子回旋共振(ICR)、傅里叶变换、以及其组合。MALDI、尤其是UV和IR,属于优选形式。
如本文所使用的,质谱指以图表方式或数值编码方式表达通过质谱测定法分析生物聚合物或其片段获得的数据。
如本文所使用的,关于质谱或质谱分析的图谱或断裂图或断裂质谱指信号(如峰或其数字表示)的特征分布和数目。一般说来,本文使用的断裂图指生物分子(例如但不限于核酸和蛋白质)的特异性裂解而生成的一组片段。
如本文所使用的,在质谱或任何其他测量质量并对质量进行分析的方法的范围内,信号、质量信号、或输出信号指的是作为具有特定质量的分子的数目或相对数目的输出数据。信号包括“峰”和其数字表示。
如本文所使用的,术语“峰”指从质谱仪图谱(“质谱”)基线信号显著向上的突出部分,其相应于片段的质量和强度。峰可以通过人工或自动“找峰”程序从质谱图中提取出来。
如本文所使用的,质谱图中峰的质量指由“找峰”程序计算的质量。
如本文所使用的,质谱中峰的强度指由“找峰”程序计算的强度,其依赖于一些参数,包括但不限于质谱中峰的高度以及其信噪比。
如本文所使用的,“分析”指确定单个寡核苷酸或多肽、或寡核苷酸或多肽的混合物的某些性能。这些性能包括但不限于核苷酸或氨基酸的组成和完全序列、在一个以上寡核苷酸或多肽之间单核苷酸多态性以及其他突变或序列变异的存在、寡核苷酸或多肽的质量和长度、以及分子或序列在样品的分子内的存在。
如本文所使用的,“多重化(multiplexing)”指在单个质谱或其他质量测量中,即,在单个质谱或其他解读序列的方法中,同时确定一个以上的寡核苷酸或多肽分子,或同时分析一个以上的寡核苷酸或寡肽。
如本文所使用的,扩增指增加生物聚合物、尤其是核酸数量的方式。基于所选择的5′和3′引物,扩增还用来限制和限定要分析的基因组的区域。扩增可以是本领域技术人员已知的任何方式,包括利用聚合酶链反应(PCR),等等。当需要确定多态性的频率时,必须定量进行扩增(例如PCR)。
如本文所使用的,“多态性”指同时存在一种以上形式的基因或其部分。存在至少两种不同形式,即,两种不同核苷酸序列的基因部分被称作“基因的多态区”。多态区可以是单个核苷酸,其身分差别在于不同的等位基因。多态区的长度还可以是几个核苷酸。因此,多态性,例如,基因变异,指群体中的基因组中的基因序列的变异,如产生的或被观察到的等位基因变异和其他变异。因此,多态性指在群体中存在两个或多个以基因方式确定的可变序列或等位基因。这些差异可以发生在基因组的编码和非编码部分,并且可以被表现或检测为核酸序列、基因表达(包括,例如转录、加工、翻译、转运、蛋白质加工、往返、DNA合成)、表达的蛋白质、其他基因产物、生化途径的产物、或翻译后修饰的产物中的差异、以及在群体成员之间表现的任何其他差异。单核苷酸多态性(SNP)指由于单个碱基变化所引起的多态性,如单个碱基的插入、缺失、或变化(取代)。
多态标志或位点是发生趋异的基因座。这样的位点可以小至一个碱基对(一种SNP)。多态标志包括但不限于限制性片段长度多态性、可变数目的串联重复序列(VNTR)、高变区、小卫星、二核苷酸重复单位、三核苷酸重复单位、四核苷酸重复单位、以及其他重复模式、简单序列重复单位、以及插入元素,如Alu。多态形式还表现为基因的不同的孟德尔等位基因。多态性可以通过以下方面的差异加以观察:蛋白质、蛋白质修饰、RNA表达修饰、DNA和RNA甲基化、改变基因表达和DNA复制的调节因子、以及基因组核酸或细胞器核酸变更的任何其他表现形式。
如本文所使用的,“多态基因”指具有至少一个多态区的基因。
如本文所使用的,“等位基因”,其在本文可与“等位基因变异体”交换地使用,指基因或其部分的可变形式。等位基因在同源染色体上占据相同的基因座或位置。当研究对象具有一基因的两个相同等位基因时,则该研究对象被认为对于该基因或等位基因是纯合的。当研究对象具有一基因的至少两个不同等位基因时,该研究对象被认为对于该基因是杂合的。特定基因的等位基因可以彼此相差单个核苷酸、或几个核苷酸,并且可以包括核苷酸的取代、缺失、以及插入。基因的等位基因也可以是含有突变的基因形式。
如本文所使用的,“主要等位基因”指对于给定群体以最大频率表现的等位基因。以较小频率存在的等位基因称作等位基因变异体。
如本文所使用的,在核酸序列中称作突变的变化可以导致蛋白质具有被改变的生化活性,或在某些情况下甚至失去生化活性;这进而又会引起遗传疾病。突变包括核苷酸缺失、插入、或变更/取代(即,点突变)。点突变可以是“错义”,其导致蛋白质的氨基酸序列变化,或“无义”,其编码终止密码子并从而导致蛋白质截短。
如本文所使用的,序列变异包括一个或多个核苷酸或氨基酸,当与参比核酸或蛋白质序列比较时,这些核苷酸或氨基酸在靶核酸或蛋白质序列中是不同的。该序列变异可以包括但不限于突变、多态性、或属于不同生物的靶序列和参比序列之间的序列差异。序列变异一般(但并不总是)包括靶序列和参比序列之间核苷酸、氨基酸、或其他生物聚合物单体单元的差异的完全集的一个子集。
如本文所使用的,附加的或失去的峰或信号是相对于在相同裂解反应条件下通过实际或模拟裂解参比序列所获得的片段,分别对应于靶序列中存在或不存在的片段的峰或信号。除失去的或附加的信号之外,靶片段和参比片段之间的差异可以表现为其他差异,包括但不限于信号的峰强度差异(高度、面积、信噪比、或其组合)。
如本文所使用的,不同片段是相对于在相同裂解反应条件下,与通过实际或模拟裂解参比序列所获得的片段不同的靶序列的片段。不同片段可以是靶片段图中相对于参比片段图失去的片段,或是相对于参比断裂图另外存在于靶断裂图中的片段。除失去的或附加的片段之外,不同片段也可以是靶断裂图和参比断裂图之间的差异,这种差异是定性的,包括但不限于导致与不同片段相对应的信号的峰强度差(高度、面积、信噪比、或其组合)的差异。
如本文所使用的,术语“基底成分”指用其单体成分单元来表示的序列片段的组成。对于核酸,基底成分指片段的碱基组成,其中单体单元是碱基;每种碱基的数目可以用Bn表示(即,AaCcGgTt,其中A0C0G0T0表示“空”基底成分或不含有碱基的基底成分)。天然基底成分是这样的基底成分,对于它来说,所有成分单体单元(例如,对于核酸来说是碱基,而对于蛋白质来说是氨基酸)大于或等于零。然而,为了比较序列以确定序列变异,在本文提供的方法中,可通过算法产生含有负数个单体单元的“非天然”基底成分。对于多肽,基底成分指多肽片段的氨基酸组成,其中每种氨基酸的数目用类似方法表示。如果序列中碱基的数目和类型可以相加以获得基底成分的组成,那么该基底成分对应于所述序列。例如,基底成分A2G3对应于序列AGGAG。一般说来,一个序列对应唯一的基底成分,但一种以上的序列可以对应于相同的基底成分。例如,序列AGGAG、AAGGG、GGAGA等等都对应于相同的基底成分A2G3,但对于每一个这些序列,对应的基底成分是唯一的,即,A2G3
如本文所使用的,参考基底成分或基底成分参考指质量相对于相同的参比裂解反应与在靶裂解反应中产生的每个不同片段的实际质量相差小于或等于足够小的质量差的数值的所有可能的基底成分。足够小的质量差异可以根据经验确定(如果需要的话),并且通常是质量测量的分辨率。例如,对于质谱测量,足够小的质量差异值是多个参数的函数,这些参数包括但不限于相应于参考基底成分的不同片段的质量(通过其信号所测得)、其质量在类型或长度上相差单个核苷酸的片段之间的峰间隔、以及质谱仪的绝对分辨率。对于四种核酸碱基(对于RNA来说A、G、C、T或U,或其修饰)或二十种氨基酸或其修饰中一种或多种特异的裂解反应可以用来为每个不同片段产生含有可能参考基底成分的数据集,以使可能的参考基底成分的质量接近或等于每个不同片段的实际测量质量,其相差的值小于或等于足够小的质量差异。
如本文所使用的,如果对于特定的裂解反应,靶序列和参比序列的断裂图之间的差异并不表示靶序列中每个序列变异的差异的简单和,那么靶序列相对于参比序列的两个或更多序列变异被认为彼此相互作用。对于靶序列中并不彼此相互作用的序列变异,沿靶序列在序列变异之间的间隔(距离)足以使各个序列变异在特定裂解反应中产生(靶序列相对于参比序列的)明显不同的片段,靶序列中相对于参比序列的断裂图的差异表示靶序列中相对于参比序列的所有序列变异的和。
如本文所使用的,足够小的质量差异是被鉴定出的不同片段的测量质量与基底成分的质量之间的最大质量差,这样,该基底成分可以被认为是被鉴定的不同片段的参考基底成分。足够小的质量差异可以根据经验确定(如果需要的话),并且通常是质量测量的分辨率。例如,对于质谱测量,足够小的质量差异值是多个参数的函数,这些参数包括但不限于相应于参考基底成分的不同片段的质量(通过其信号所测得)、其质量在类型或长度上相差单个核苷酸的片段之间的峰间隔、以及质谱仪的绝对分辨率。
如本文所使用的,子串列或子序列s[i,j]表示表示全长度核酸或蛋白质序列的串列s的裂解片断。如本文所使用的,i和j是整数,其表示子串列的起始和结束位置。例如,对于核酸子串列,i和j可以分别表示在核酸序列中子串列开始和结束的碱基位置。如本文所使用的,c[i,j]指对应于s[i,j]的基底成分。
如本文所使用的,序列变异级k指通过本文提供的技术构造的靶序列的序列变异候选,其中序列变异候选最多含有k个突变、多态性、或其他序列变异,包括但不限于靶序列中相对于参比序列的在生物之间的序列变异、插入、缺失、以及取代。k值依赖于若干参数,包括但不限于在参比序列和靶序列之间序列变异的预期类型和数目,例如,序列变异是单个碱基还是多个碱基,序列变异相对于参比序列在靶序列上存在于一个位置还是存在于一个以上的位置,或靶序列中的各个序列变异彼此相互作用还是不相互作用。例如,为了检测SNP,k值通常(但不一定)是1或2。作为另一个实例,为了检测突变以及在再测序中,k值通常(但不一定)是3或更高。
如本文所使用的,假设串列s中碱基、氨基酸、或由裂解试剂识别的其他特征X发生特异性裂解反应,则子串列s[i,j]或相应基底成分c[i,j]的界限b[i,j]指的是表示串列s的裂解是否没有直接在子串列s[i,j]的外边发生的标志集。可能的标志是L,其表示是否“s没有正好在i之前被裂解”,以及R,其表示是否“s没有正好在j之后被裂解”。因此,b[i,j]是集{L,R}的子集,当且仅当X存在于串列s的i-1位置时,该子集含有L,以及当且仅当X存在于串列s的j+1位置时,含有R。#b表示在集b中元素的数目,其可以是0、1、或2,这依赖于子串列s[i,j]是否在两个直接旁侧位置(即,在位置i-1和j+1)、在一个直接旁侧位置(即,在位置i-1或j+1)、或不在直接旁侧位置(即,既不在位置i-1也不在位置j+1)被特异性裂解。
如本文所使用的,基底成分界限或界限b是如上述针对b[i,j]所定义的集{L,R}的子集。b的可能值是空集{},即,b中元素的数目(#b)是0;{L}、{R},即,#b是1;以及{L,R},即,#b是2。
如本文所使用的,有界限的基底成分指对应于参比序列的子序列的集的所有基底成分c的集,并具有表示裂解位点是否存在于每个子序列的两端的界限。有界限的基底成分集可以与可能的基底成分参考进行比较,以相对于参比序列构造出靶序列的所有可能的序列变异。例如,(c,b)指包含基底成分c和界限b的“有界限的基底成分”。
如本文所使用的,C指在串列s内所有有界限基底成分的集;即,对于所有可能的子串列s[i,j],找出有界限基底成分(c[i,j],b[i,j]),并且这些将属于集C。C可以表示为C:={(c[i,j],b[i,j]):1≤i≤j≤s的长度}
如本文所使用的,ord[i,j]指在特定裂解反应中子串列s[i,j]将被裂解的次数。
如本文所使用的,如果基底成分c、c′相应于片段f、f′,那么d(c,c′)是这样的一个函数,它用来在考虑相应于基底成分c,c′的所有潜在的片段f,f′的基础上,确定把c转化到c′所需要的序列变异、多态性、或突变(插入、缺失、取代)的最小数目,其中,c是参比生物分子的片段s的基底成分,而c′是靶生物分子的片段s′(由s片段的序列变异产生)的基底成分。如本文所使用的,d(c,c′)等价于d(c′,c)。
对于构造自集C的有界限基底成分(c,b),函数D(c′,c,b)测量相对于参比序列的序列变异的最小数目,其需要用来产生基底成分参考c′。D(c′,c,b)可以表示为D(c′,c,b):=d(c′,c)+#b。如本文所使用的,D(c′,c,b)相当于D(c,c′,b)
如本文所使用的,CK是C的子集,这样,包括大于k个切割串列的序列变异的子串列的基底成分将被排除在集C之外。因此,如果存在一个最多包括k个插入、缺失、以及取代的序列变异,以及如果c′是对应于此序列变异的峰参考的基底成分,那么在CK中存在使D(c′,c,b)≤k的有界限的基底成分(c,b)。CK可以表示为CK:={(c[i,j],b[i,j]):1≤i≤j≤s的长度,以及ord[i,j]+#b[i,j]≤k}。本文提供的算法正是基于这种对应于可能的序列变异的减少的基底成分的集。
如本文所使用的,LΔ或L_Δ表示与靶裂解反应中相对于相同参比裂解反应的各不相同的多个片段相对应的一系列峰或信号。这些差异包括但不限于相对参比片段信号在靶片段信号中存在或不存在的信号,以及在靶片段信号和参比片段信号之间强度不同的信号。
如本文所使用的,序列变异候选指包括一个或一个以上序列变异的靶序列的潜在序列。序列变异候选作为包括一个或一个以上序列变异的靶生物分子的实际序列的可能性通过得分加以测量。
如本文所使用的,经过精简的一组序列变异候选指在靶序列中所有可能序列变异的子集,其在靶序列的特异性裂解后将产生一定的片段集。经过精简的一组序列变异候选可以通过从靶序列的所有可能的序列变异的集中创建子集获得,其中,所有可能的序列变异能够在特定的特异性裂解反应中产生特定的断裂图(通过测量片段的质量所检测到),所创建的子集仅包括那些产生与在相同特异性裂解反应中通过实际或模拟裂解参比序列所产生的片段不同的靶序列片段的序列变异(变异序列)。
如本文所使用的,和靶分子中特定序列变异一致的片段指那些在一个以上反应中利用一种以上裂解试剂来裂解靶分子所获得的不同的片段,当按照本文提供的方法进行分析时,其特征(包括但不限于质量、强度、或信噪比)表明在靶分子中存在相同的序列变异。
如本文所使用的,评分或得分指特定序列变异候选实际存在于靶核酸或蛋白质序列中的可能性的计算结果。得分值用来确定相应于实际靶序列的序列变异候选。通常,在靶序列的样品集中,最高得分表示在靶分子中最可能的序列变异,但当存在单个靶序列时也可以使用其他选择规则,如检查正得分。
如本文所使用的,模拟指基于核酸或蛋白质的序列以及针对特定的特异性裂解试剂在核酸或蛋白质序列中所预测的裂解位点的断裂图的计算结果。该断裂图可以模拟成数目表(例如,模拟成对应于参比生物分子的片段的质量信号的一系列峰)、模拟成质谱、模拟成在凝胶上的带型图、或模拟成测量质量分布的任何技术的体现。在大多数情况下模拟可以通过计算机程序进行。
如本文所使用的,模拟裂解指in silico方法,其中假想地裂解靶分子或参比分子。
如本文所使用的,in silico指利用计算机进行的研究和实验。Insilico方法包括但不限于分子模型研究、生物分子停靠实验、以及分子结构和/或过程的虚拟表现,如分子相互作用。
如本文所使用的,研究对象包括但不限于动物、植物、细菌、病毒、寄生物、以及任何其他具有核酸的生物或实体。研究对象包括有哺乳动物,优选(但不一定)人类。患者指患有疾病或不适的研究对象。
如本文所使用的,表型指包括生物的任何可区别的性状的参数集。表型可以是物理性状,并且在研究对象是动物的情况下可以是心理性状,如情绪性状。
如本文所使用的,“规定”指确定核酸或蛋白质片段的位置表示特定的分子量以及特定的末端核苷酸或氨基酸。
如本文所使用的,“一个”指一个或一个以上。
如本文所使用的,“多个”指两个或两个以上多核苷酸或多肽,每一个都具有不同的序列。这样的差异可以由序列之中天然存在的变异引起,例如,由核苷酸或编码氨基酸中等位基因变异引起,或可以是由于将特定的修饰引入不同的序列引起,例如,将质量修饰核苷酸有差别地并入多个核酸或蛋白质中的每一个中。
如本文所使用的,阵列指由三个或更多项目(如固体载体上的三个或更多基因座)产生的图案。
如本文所使用的,“明确的”指相应于靶分子中特定序列变异(如突变)的唯一地指定峰或信号,在多个分子或突变被多重化的情况下,表示特定序列变异的峰也可以唯一地指定给每个突变或每个分子。
如本文所使用的,数据处理程序指一种可通过软件实现的过程,用于确定所获得数据(即,测定的最终结果)的生物意义。例如,该数据处理程序可以基于收集的数据确定基因型。在本文的系统和方法中,在所确定的结果的基础上,该数据处理程序还控制仪器和/或数据采集程序。把数据处理程序和数据采集程序结合起来,并提供反馈以通过仪器进行数据获取,因而提供了本文提供的基于测定的判断方法。
如本文所使用的,多个基因包括至少2、5、10、25、50、100、250、500、1000、2,500、5,000、10,000、100,000、1,000,000、或更多基因。多个基因可以包括生物或甚至多个生物的完全或部分基因组。对生物类型的选择确定了可从其中选择基因调节区的基因组。用于基因筛选的典型生物包括动物,如哺乳动物,包括人和啮齿动物如小鼠,昆虫,酵母菌,细菌,寄生物,以及植物。
如本文所使用的,“特异性杂交”指探针或引物仅优先地杂交于靶序列而不是非靶序列。本领域技术人员熟悉影响杂交的参数;如温度、探针或引物的长度以及组成、缓冲液组成、以及盐浓度,并且可以容易地调节这些参数以实现将核酸特异杂交到靶序列。
如本文所使用的,“样品”指含有待检测物质的组合物。在一个优选实施例中,样品是“生物样品”。术语“生物样品”指任何从有生命来源(例如,动物如人或其他哺乳动物,植物,细菌,真菌、原生生物,或病毒)获得的物质。生物样品可以是任何形式,包括固体物质如组织、细胞、细胞沉淀物、细胞提出物、或活检,或生物体液如尿液、血液、唾液、羊水、来自感染或炎症区域的渗出物、或含有口腔细胞的漱口剂、尿、大脑脊髓液、滑液,以及各种器官。优选地,固体物质与液体混合。尤其是,在本文中,样品指的是用于质谱分析的基体和生物试样如核酸的混合物。从这些方式可以得出,可通过核酸分子的纯化或分离和/或扩增对样品进行处理。
如本文所使用的,组合物指任何混合物。它可以是溶液、悬浮液、液体、粉末、糊剂、含水的、不含水的、或其任何组合。
如本文所使用的,组合指在两个项目之间或更多项目之间的结合。
如本文所使用的,术语“1 1/4-切割子”指一种识别并裂解核酸中的2碱基范围的限制性内切酶,其中一个碱基位置的身分是固定的,而另一个碱基位置的身份是四种天然碱基中的三种中的任意一种。
如本文所使用的,术语“1 1/2-切割子”指一种识别并裂解核酸中的2碱基范围的限制性内切酶,其中一个碱基位置的身分是固定的,而另一个碱基位置的身分是四个天然碱基中的两种中的任意一种。
如本文所使用的,术语“2切割子”指一种识别并裂解2碱基长的特定核酸位点的限制性内切酶。
如本文所使用的,术语“AFLP”指扩增片段长度多态性,而术语“RFLP”指限制性片段长度多态性。
如本文所使用的,术语“扩增子”指可以被复制的DNA区。
如本文所使用的,术语“完全裂解”或“总裂解”指所有由特定裂解试剂识别出的裂解位点被完全切割的裂解反应。
如本文所使用的,术语“假阳性”指来自背景噪声且不是由核酸或蛋白质的特异性实际或模拟裂解所产生的质量信号。
如本文所使用的,术语“假阴性”指从实际断裂谱中失去的但可以在相应的模拟谱中检测到的实际质量信号。
如本文所使用的,术语“部分裂解”指一种只有一部分特定裂解试剂的裂解位点被裂解试剂实际切割的反应。
如本文所使用的,裂解指的是将核酸或蛋白质分子切割成较小的碎片所采用的任何方式。裂解识别位点的长度可以是一个、两个、或更多碱基。裂解方式包括物理裂解、酶裂解、化学裂解、以及任何产生核酸的较小碎片的其他方法。
如本文所使用的,裂解条件或裂解反应条件指一个或多个裂解试剂和其他反应参数的集,其中,裂解试剂被用来进行实际或模拟裂解反应,其他的参数包括但不限于时间、温度、pH、或缓冲液的选择。
如本文所使用的,未裂解的裂解位点指这样的裂解位点,其对于裂解试剂是已知的识别位点,但在反应条件(例如,时间、温度)下未被裂解试剂切割,或由于修饰了裂解识别位点上的碱基而阻止了裂解试剂的裂解,而未被裂解试剂切割。
如本文所使用的,互补裂解反应指利用不同裂解试剂或通过改变相同裂解试剂的裂解特异性,针对相同靶或参比核酸或蛋白质执行或模拟的裂解反应,从而产生相同靶或参比核酸或蛋白质的替换裂解模式。
如本文所使用的,组合指在两个或更多项目或元素之间的任何结合。
如本文所使用的,组合物指任何混合物。它可以是溶液、悬浮液、液体、粉末、糊剂、含水、不含水、或其任何组合。
如本文所使用的,流体指任何可以流动的组合物。因此流体包括半固体、糊剂、溶液、含水混合物、凝胶、洗液、乳膏形式的组合物以及其他这样的组合物。
如本文所使用的,细胞提出物指由溶解或破碎的细胞构成的制剂或部分。
如本文所使用的,试剂盒是可选地与使用说明和/或与组合一起使用的试剂和仪器一起包装的多种成分的组合。
如本文所使用的,系统指元素与软件以及任何其他元素的组合,用于控制和指导本文提供的方法。
如本文所使用的,软件指计算机可读程序指令,当由计算机执行时,其进行计算机操作。通常,软件通过包括记录在计算机可读介质上的程序指令的程序产品提供,其中的计算机可读介质例如但不限于磁介质包括软盘、硬盘、以及磁带;以及光介质包括CD-ROM光盘、DVD光盘、磁光盘,以及程序指令可以记录在其上的其他这类介质。
为了清楚说明起见,而不是限制,详细描述被分成以下的分部分。
B.产生片段的方法
核酸断裂
核酸的断裂在本技术领域是熟知的,并可以以许多方式实现。只要在靶核酸的特定位点可以通过裂解实现断裂,那么,例如由DNA、RNA、DNA和RNA的类似物、或其组合组成的多核苷酸可以用物理方法、化学方法、或酶方法加以断裂。基于下述方面可以在靶核酸的特定位置进行裂解而从靶核酸产生片段:(i)裂解试剂的碱基特异性(例如,A、G、C、T或U,或对修饰碱基或核苷酸的识别);或(ii)靶核酸的结构;或(iii)两者的结合。片段的大小可以不同,并且适当的片段通常小于约2000个核酸。适当的片段可以属于若干大小范围,包括但不限于:小于约1000个碱基、在约100至约500个碱基之间、或从约25至约200个碱基。在某些方面,约一个核酸的片段是所希望的。
多核苷酸可以通过化学反应加以断裂,包括例如水解反应,其包括碱水解和酸水解。碱性条件可以用来断裂由RNA组成的多核苷酸,这是因为在碱性条件下RNA是不稳定的。参见,例如,Nordhoff et al.(1993)Ion stability of nucleic acids in infrared matrix-assisted laser desorption/ionization mass spectrometry,Nucl.Acids Res.,21(15):3347-57。在有酸的情况下可以水解DNA,通常强酸如6M HCl。温度可以提高到室温以上以促进水解。依赖于反应条件和反应时间,多核苷酸可以被断裂成不同大小,包括单碱基片段。在严酷的条件下,水解可以断开脱氧核糖和嘌呤以及嘧啶碱基之间的磷酸酯键以及N-糖苷键。
用于产生多核苷酸片段的典型酸/碱水解方案描述于Sargentet al.(1988)Methods Enzymol.,152:432。简单地说,1g DNA溶解于50mL 0.1N NaOH中。加入1.5mL浓HCl,然后快速混合溶液。DNA将立即沉淀,并且不应搅拌几秒以上以防止形成较大的聚集物。样品在室温保温(或称作“培养”)20分钟,以从DNA中部分除去嘌呤。其后,加入2mL 10N NaOH(OH-浓度至0.1N),并搅拌样品直到DNA完全重新溶解。然后在65℃下培养样品30分钟以水解DNA。典型的大小范围在约250~1000个核苷酸之间,但可以变得更低或更高,这取决于水解的条件。另一个以碱基特异方式化学裂解核酸分子的方法由A.M.Maxam and W.Gilbert,Proc.Nalt.Acad.Sci.USA 74:560-64,1977提供,并以引用方式结合于本文。设计了独特的反应以优先在鸟嘌呤、在腺嘌呤、在胞嘧啶和胸腺嘧啶、以及仅仅在胞嘧啶进行裂解。
多核苷酸还可以经过烷基化作用加以裂解,尤其是磷硫酰修饰多核苷酸。K.A.Browne(2002)Metal ion-catalyzed nucleic Acid alkylation and fragmentation.J.Am.Chem.Soc.124(27):7950-62。在磷硫酰修饰处的烷基化使多核苷酸在修饰位点变得易于裂解。I.G.Gut和S.Beck描述了烷基化DNA以便用质谱测定法进行检测的方法。I.G.Gut和S.Beck(1995)A procedure for selective DNA alkylation and detection by mass spectrometry.Nucleic Acids Res.23(8):1367-73。另一种方法利用含P3′-N5′-氨基磷酸盐的DNA的酸不稳定性(Shchepinov et al.,“Matrix-induced fragmentation ofP3′-N5′-phosphoroamidate-containing DNA:high-throughputMALDI-TOF analysis of genomic sequence polymorphisms,”NucleicAcids Res.25:3864-3872(2001))。dCTP或dTTP由其类似物P-N修饰核苷三磷酸取代,并通过在PCR之后的引物扩展反应引入靶序列。其后的酸性反应条件产生碱基特异性裂解片段。为了在所需要的酸性裂解条件下最大程度降低腺嘌呤和鸟嘌呤残基的脱嘌呤作用,可以使用dA和dG的7-脱氮类似物。
在DNA异源双链体中的单核苷酸错配可以利用四氧化锇和哌啶加以裂解,这提供了检测单碱基取代的可替换战略,其一般称作“错配化学裂解”(MCC)(Gogos et al.,Nucl.Acids Res.,18:6807-6817[1990])。
多核苷酸断裂也可以通过辐照多核苷酸来实现。通常,辐射(如γ或X射线辐射)将足以断裂多核苷酸。通过调节暴露于辐射的强度和持续时间可以调节片段的大小。也可以使用紫外辐射。也可以调节暴露的强度和持续时间,以最大程度减小辐射对多核苷酸的不良影响。煮沸多核苷酸也可以产生片段。通常多核苷酸溶液在恒定搅拌下煮沸两小时。可以获得约500个碱基对的片段。片段的大小可以随煮沸的持续时间而变化。
多核苷酸片段可以得自单链或多链多核苷酸的酶裂解。多链多核苷酸包括含有一个以上多核苷酸链的多核苷酸络合物(复合物),包括例如双链和三链多核苷酸。依赖于所使用的酶,多核苷酸可以非特异性地被切割或在特定的核苷酸序列被切割。可以使用任何能够裂解多核苷酸的酶,包括但不限于内切核酸酶、外切核酸酶、核酶、以及DNA酶。可用于断裂多核苷酸的酶在本技术领域是已知的,并可以商业上获得。参见例如Sambrook,J.,Russell,D.W.,Molecular Cloning:A Laboratory Manual,the third edition,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,New York,2001,其以引用方式结合于本文。酶也可以用来把较大的多核苷酸降解成较小的片段。
内切核酸酶是一类典型的可用于断裂多核苷酸的酶。内切核酸酶能够裂解多核苷酸链内的键。内切核酸酶对于双链或单链多核苷酸可以是特异的。裂解可以随机发生在多核苷酸内,或可以在特定序列进行裂解。随机裂解双链多核苷酸的内切核酸酶经常与多核苷酸的主链相互作用。多核苷酸的特异断裂可以利用一种或多种酶按顺序反应或同时完成。可以裂解同种或异种多核苷酸。裂解可以通过用提供自各种来源的核酸酶进行处理来完成,其中核酸酶包括CleavaseTM酶、Taq DNA聚合酶、埃布氏菌DNA聚合酶I和真核生物结构特异性内切核酸酶、鼠FEN-1内切核酸酶[Harrington andLiener,(1994)Genes and Develop.8:1344]、以及牛胸腺5′至3′外切核酸酶[Murante,R.S.,et al.(1994)J.Biol.Chem.269:1191]。此外,具有3′核酸酶活性的酶如DNA修复内切核酸酶的家族成员(例如,来自黑腹果蝇的Rrpl酶、酵母菌RAD1/RAD10络合物、以及埃布氏菌外切核酸酶III)也可以用于酶裂解。
限制性内切核酸酶是内切核酸酶的子类,其识别双链多核苷酸内的特定序列,并通常裂解在识别序列内或靠近识别序列的链。在DNA分析中一种通常使用的酶是HaeIII,其以序列5′-GGCC-3′切割DNA。其他典型的限制性内切核酸酶包括Acc I、Afl III、Alu I、Alw44 I、Apa I、Asn I、Ava I、Ava II、BamH I、Ban II、Bcl I、BglI、Bgl II、Bln I、Bsm I、BssH II、BstE II、Cfo I、Cla I、Dde I、Dpn I、Dra I、EclX I、EcoR I、EcoR I、EcoR II、EcoR V、Hae II、Hae III、Hind II、Hind III、Hpa I、Hpa II、Kpn I、Ksp I、Mlu I、MluN I、Msp I、Nci I、Nco I、Nde I、Nde II、Nhe I、Not I、Nru I、Nsi I、Pst I、Pvu I、Pvu II、Rsa I、Sac I、Sal I、Sau3A I、Sca I、ScrF I、Sfi I、Sma I、Spe I、Sph I、Ssp I、Stu I、Sty I、Swa I、TaqI、Xba I、Xho I。这些酶的裂解位点在本技术领域是已知的。
限制性内切酶分为I型、II型、以及III型。I型和II型酶在相同的蛋白质中进行修饰和ATP依赖性裂解。III型酶在识别位点切割DNA,然后与DNA分离。I型酶裂解DNA内的随机位点。任何种类的限制性内切核酸酶都可以用来断裂多核苷酸。依赖于所使用的酶,在多核苷酸内的切割可以导致一个链伸出在另一个链之上,这也称作“黏性”末端。BamHI产生黏性5′突出末端。KpnI产生黏性3′突出末端。可替换地,该切割可以导致并不具有突出末端的“平”端。DraI裂解产生的是平端。如果需要的话,可以通过例如甲基化掩蔽裂解识别位点。许多已知的限制性内切核酸酶具有4至6碱基对识别序列(Eckstein and Lilley(eds.),Nucleic Acids andMolecular Biology,Vol.2,Springer-Verlag,Heidelberg[1988])。
少量的具有8碱基对特异性的稀少切割限制性内切酶已被分离,并且这些酶广泛用于基因制图,但这些酶数目很少,限于识别G+C-富集序列,并在倾向于高度群集的位点进行裂解(Barlow andLehrach,Trends Genet.,3:167[1987])。最近,已发现由I组内含子编码的内切核酸酶,其可以具有大于12碱基对特异性(Perlman andButow,Science 246:1106[1989])。
限制性内切核酸酶可以用来产生各种大小的多核苷酸片段。例如,CviJ1是一种限制性内切核酸酶,其识别两个和三个碱基之间的DNA序列。利用CviJ1的完全消化可以使DNA片段的长度平均为16至64个核苷酸。因而用CviJ1的部分消化可以以类似于裂解或超声处理的“准”随机方式断裂DNA。CviJ1通常裂解G和C之间的RGCY位点,留下可容易克隆的平端,其中R是任意的嘌呤,而Y是任意的哌啶。在有1mM ATP和20%二甲基亚砜的情况下,裂解的特异性被放宽,并且CviJ1还能裂解RGCN和YGCY位点。在这些“星”条件下,CviJ1裂解产生准随机消化液。此时经消化和裂解的DNA可以具有选择的大小。
利用限制性内切核酸酶来断裂多核苷酸的方法在本技术领域是众所周知的。在一个典型的方案中,制备了20-50μl的反应混合物,其含有:DNA 1-3μg;限制性内切酶缓冲液1X;以及对于1μg的DNA两个单位的限制性内切核酸酶。适当的缓冲液在本技术领域也是熟知的,并且包括适当的离子强度、辅因子、以及可选的pH缓冲液,以提供酶活性的最佳条件。特异酶可能需要特定的缓冲液,其通常可获自酶供应商。典型的缓冲液是谷氨酸钾缓冲液(KGB)。Hannish,J.and M.McClelland.(1988).Activity of DNA modification and restriction enzymes in KGB,a potassium glutamate buffer.GeneAnal.Tech.5:105;McClelland,M.et al.(1988)A single buffer for all restriction endonucleases.Nucleic Acid Res.16:364。反应混合物在37℃下保温1小时或任何需要的时间,以产生所希望大小或大小范围的片段。当需要时,可以在65℃或80℃下加热混合物以终止反应。可替换地,可以用例如EDTA螯合二价阳离子如Mg2+来终止反应。
可以使用一种以上的酶来断裂多核苷酸。多种酶可以用于顺序反应或相同反应中,只要这些酶在类似条件下如离子强度、温度、或pH下是活性的。通常,多种酶与标准的缓冲液如KGB一起使用。多核苷酸可以被部分或完全消化。部分消化意味着仅有一小部分的限制位点被裂解。完全消化意味着所有的限制位点都被裂解。
内切核酸酶对于某些类型的多核苷酸可以是特异的。例如,内切核酸酶对于DNA或RNA可以是特异的。核糖核酸酶H是一种内切核糖核酸酶,其特异性地降解RNA-DNA杂种中的RNA链。核糖核酸酶A也是一种内切核糖核酸酶,其特异性地攻击C和U残基上的单链RNA。核糖核酸酶A催化裂解核苷酸的5′-核糖和附着于相邻嘧啶核苷酸的3′-核糖的磷酸酯基团之间的磷酸二酯键。生成的2′,3′-环磷酸可以被水解成相应的3′-核苷磷酸。核糖核酸酶T1仅在G核糖核苷酸消化RNA,而核糖核酸酶U2仅在A核糖核苷酸消化RNA。使用单特异性核糖核酸酶如核糖核酸酶T1(G特异的)和核糖核酸酶U2(A特异的)已变成常规(Donis-Keller et al.,NucleicAcids Res.4:2527-2537(1977);Gupta and Randerath,Nucleic AcidsRes.4:1957-1978(1977);Kuchino and Nishimura,Methods Enzymol.180:154-163(1989);and Hahner et al.,Nucl.Acids Res.25(10):1957-1964(1997))。已报道另一种酶-鸡肝核糖核酸酶(核糖核酸酶CL3),其优先在胞苷进行裂解,但据报道该酶对于此碱基的倾向性受到反应条件的影响(Boguski et al.,J.Biol.Chem.255:2160-2163(1980))。最近的报道还声称胞苷对于另一种核糖核酸酶-cusativin具有特异性,其分离自Cucumis sativus L的干种子(Rojoet al.,Planta 194:328-338(1994))。可替换地,已说明利用核糖核酸酶PhyM(对A和U特异)(Donis-Keller,H.Nucleic Acids Res.8:3133-3142(1980))和核糖核酸酶A(对C和U特异)(Simoncsits etal.,Nature 269:833-836(1977);Gupta and Randerath,Nucleic AcidsRes.4:1957-1978(1977))来鉴定嘧啶残基。为了减少序列测定中的不定性,可以进行另外的有限的碱水解。因为在这些条件下可以潜在地裂解每一个磷酸二酯键,所以用这种方法可以获得关于略去的和/或非特异性裂解的信息(Donis-Keller et al.,Nucleic Acids Res.4:2527-2537(1977))。BenzonaseTM、核酸酶P1、以及磷酸二酯酶I是非特异性内切核酸酶,其适合于产生200碱基对或更少的多核苷酸片段。BenzonaseTM是一种通过基因工程获得的内切核酸酶,其以许多形式降解DNA和RNA链,并描述于美国专利第5,173,418号中,该专利以引用方式结合于本文。
DNA糖基化酶从给定DNA片段中特异地除去某些类型的核碱基。从而这些酶可以产生缺碱基位点,其可以通过另一种裂解酶识别,该裂解酶在缺碱基位点特异性地裂解暴露出的磷酸主链、并产生一组表示序列的核碱基特异片段,或通过化学方式如碱性溶液和/或加热,加以识别。使用DNA糖基化酶和其定向核苷酸的一种组合将足以产生任何给定靶区的碱基特异特征图。
已知有许多DNA糖基化酶。例如,DNA糖基化酶可以是尿嘧啶-DNA糖基化酶(UDG)、3-甲基腺嘌呤DNA糖基化酶、3-甲基腺嘌呤DNA糖基化酶II、嘧啶水合物-DNA糖基化酶、FaPy-DNA糖基化酶、胸腺嘧啶错配-DNA糖基化酶、次黄嘌呤-DNA糖基化酶、5-羟甲基尿嘧啶DNA糖基化酶(HmUDG)、5-羟甲基胞嘧啶DNA糖基化酶、或1,N6-亚乙烯基腺嘌呤DNA糖基化酶(参见,例如,美国专利第5,536,649、5,888,795、5,952,176、6,099,553、以及6,190,865 B1号;国际PCT申请号WO 97/03210、WO 99/54501;还可参见Eftedal et al.(1993)Nucleic Acids Res 21:2095-2101,Bjelland and Seeberg(1987)Nucleic Acids Res.15:2787-2801,Saparbaev et al.(1995)Nucleic Acids Res.23:3750-3755,Bessho(1999)Nucleic Acids Res.27:979-983),它们对应于酶的修饰核苷酸或核苷酸类似物靶。
在有正常DNA前体核苷酸(例如,dCTP、dATP、以及dGTP)和dUTP存在的情况下,通过扩增DNA,尿嘧啶,例如,可以加入到扩增的DNA分子中。当用UDG处理扩增的产物时,尿嘧啶残基被裂解。随后对来自UDG反应的产物进行的化学处理导致磷酸主链的裂解并产生了核碱基特异片段。此外,在糖基化酶处理之前,扩增产物的互补链的分离使得可以产生断裂的互补模式。因此,使用dUTP和尿嘧啶DNA糖基化酶能够产生互补链的T特异片段,从而提供在给定序列内关于T以及A位置的信息。如果分别地分析两个扩增链的断裂图,那么对两个(互补)链的C特异反应(即,利用C特异糖基化酶)就可以产生在给定序列内关于C以及G位置的信息。借助糖基化酶方法和质谱测定法,可以分析全系列的A、C、G、以及T特异断裂图。
存在有几种方法,其中用特定的化学制剂处理DNA可修饰现有的碱基,以使它们由特异DNA糖基化酶所识别。例如,用烷化剂如甲基亚硝基脲处理DNA可产生几种烷基化碱基,包括N3-甲基腺嘌呤和N3-甲基鸟嘌呤,其被烷基嘌呤DNA-糖基化酶所识别和裂解。用亚硫酸氢钠处理DNA可引起DNA中胞嘧啶残基的脱氮作用,从而在DNA中形成尿嘧啶残基,其可以被尿嘧啶N-糖基化酶(也称作尿嘧啶DNA-糖基化酶)裂解。化学试剂也可以将鸟嘌呤转化成其氧化形式,8-羟基鸟嘌呤,其可以被甲酰胺基嘧啶DNAN-糖基化酶(FPG蛋白质)裂解(Chung et al.,“An endonucleaseactivity of Escherichia coli that specifically removes 8-hydroxyguanineresidues from DNA,”Mutation Research 254:1-12(1991))。已报道,错配核苷酸糖基化酶用于在错配核苷酸位点裂解多核苷酸以检测点突变(Lu,A-L and Hsu,I-C,Genomics(1992)14,249-255 and Hsu,I-C.,et al,Carcinogenesis(1994)14,1657-1662)。所使用的糖基化酶包括大肠杆菌Mut Y基因产物,其有效地释放A/G错配的错配腺嘌呤和以及较低效地释放A/C错配,以及在Gfr错配进行裂解的人胸苷DNA糖基化酶。通过糖基化酶处理和其后缺碱基位点的裂解产生片段。
用如本文提供的方法进行的核酸断裂也可以通过二核苷酸(“2切割子”)或松驰二核苷酸(例如,“1和1/2切割子”)的裂解特异性来完成。二核苷酸特异性裂解试剂对于本领域技术人员来说是已知的,并且以引用方式结合于本文(参见,例如,WO 94/21663;Cannistraro et al.,Eur.J.Biochem.,181:363-370,1989;Stevens et al.,J.Bacteriol.,164:57-62,1985;Marotta et al.,Biochemistry,12:2901-2904,1973)。通过酶和化学修饰靶核酸也可以设计严紧型或松驰二核苷酸特异性裂解。例如,所关心的靶核酸的转录物可以用规则和α-硫-基质的混合物加以合成,而磷硫酰核苷内键可以其后通过烷基化作用加以修饰,其中使用试剂如烷基卤(例如,碘乙酰胺、碘乙醇)或2,3-环氧-1-丙醇。通过这样的修饰形成的磷酸三酯键并不是预期的核糖核酸酶的底物。利用这种方法,可以制成单特异性核糖核酸酶,如核糖核酸酶T1,以裂解四种可能GpN键中的任何三种、两种、或一种,这取决于在靶制剂的α-硫代形式中使用哪些底物。通过使用另外的核糖核酸酶如核糖核酸酶U2和核糖核酸酶A,可以进一步扩大有用的二核苷酸特异性裂解试剂的清单。在核糖核酸酶A的情况下,例如,通过酶结合适当核苷酸的2′修饰形式,裂解特异性可以限制于CpN或UpN二核苷酸,这取决于所希望的裂解特异性。因此,为了使核糖核酸酶A对于CpG核苷酸是特异的,则通过结合αS-dUTP、αS-ATP、αS-CTP以及GTP核苷酸来制备转录物(靶分子)。这些选择性修饰战略也可以用来通过选择性地修饰同聚物区域内的某些核苷酸,以使修饰核苷酸变得较少或更耐裂解,从而防止同聚物区域中的每一个碱基都发生裂解。
DNA酶也可以用来产生多核苷酸片段。Anderson,S.(1981)Shotgun DNA sequencing using cloned DNase I-generated fragments.Nucleic Acids Res.9:3015-3027。DNA酶I(脱氧核糖核酸酶I)是一种内切核酸酶,其将双链和单链DNA消化成多核苷酸和单核苷酸。该酶能够作用于单链和双链DNA以及作用于染色质。
II型脱氧核糖核酸酶用于核酸研究的许多应用,包括DNA测序和在酸性pH下的消化。来自猪脾的脱氧核糖核酸酶II具有38,000道尔顿的分子量。该酶是具有二聚体结构的糖蛋白内切核酸酶。在离子强度为0.15M的情况下,最佳pH范围是4.5-5.0。脱氧核糖核酸酶II水解天然和变性DNA中的脱氧核糖核苷酸键,从而产生具有3′-磷酸酯的产物。在pH5.6-5.9时,它还作用于对硝基酚磷酸二酯。Ehrilich,S.D.et al.(1971)Studies on acid deoxyribonuclease.IX. 5′-Hydroxy-terminal and penultimate nucleotides of oligonucleotides obtained from calf thymus deoxyribonucleic acid.B iochemistry.10(11):2000-9。
利用从多核苷酸的末端除去各种长度的碱基的核酸酶可以将较大的单链多核苷酸断裂成较小的多核苷酸。用于除去单链多核苷酸末端的的典型的核酸酶包括但不限于S1、Bal 31、以及绿豆核酸酶。例如,绿豆核酸酶将单链DNA降解成单核苷酸或多核苷酸,其中磷酸酯基团在其5′末端。如果暴露于非常大量的这种酶,那么双链核酸可以被完全消化。
外切核酸酶是蛋白质,其同样从多核苷酸(例如DNA分子)的末端裂解核苷酸。有5′外切核酸酶(从DNA链的5′-末端裂解DNA)和3′外切核酸酶(从DNA链的3′-末端裂解DNA)。不同的外切核酸酶可以水解单链或双链DNA。例如,外切核酸酶III是3′至5′外切核酸酶,从DNA链的3′-末端释放5′-单核苷酸;它是DNA3′-磷酸酶、水解3′-末端磷酸单酯;并且,它是AP内切核酸酶,在脱嘌呤或脱嘧啶位点裂解磷酸二酯键以产生5′-末端,其是无碱基脱氧核糖5′-磷酸酯残基。此外,该酶具有核糖核酸酶H活性;它将优先降解DNA-RNA杂种双链体中的RNA链,该降解可能是通过外切核酸方式进行。在哺乳动物细胞中,主要的DNA 3′-外切核酸酶是DNA酶III(也称作TREX-1)。因此,利用外切核酸酶降解多核苷酸的末端就可以形成片段。
催化DNA和RNA在本技术领域是已知的,并且可以用来裂解多核苷酸以产生多核苷酸片段。Santoro,S.W.and Joyce,G.F.(1997)A general purpose RNA-cleaving DNA enzyme.Proc.Natl.Acad.Sci.USA 94:4262-4266。作为单链分子的DNA可以折叠成类似于RNA的三维结构,而2′-羟基对于催化作用是非必需的。作为核酶,通过选择也可以使DNA酶依赖于辅因子。对于用于RNA水解的组氨酸依赖性DNA酶,这一点已得到证明。美国专利第6,326,174和6,194,180号披露了能够裂解核酸序列或分子(尤其是RNA)的脱氧核糖核酸酶-催化或酶DNA分子。美国专利第6,265,167、6,096,715、5,646,020号披露了核酶组成和方法,并以引用方式结合于本文。
DNA切口酶、或DNA酶可以用来识别和裂解DNA双链体的一个链。许多切口酶是已知的。在这些切口酶之中,有例如切口酶NY2A切口酶和NYS1切口酶(Megabase),其具有以下裂解位点:
NY2A:5′...R AG...3′
3′...Y TC...5′,其中R=A或G,而Y=C或T
NYS1:5′...CC[A/G/T]...3′
3′...GG[T/C/A]...5′。
其后对来自切口酶反应的产物的化学处理导致磷酸主链的裂解,并产生片段。
Fen-1断裂方法涉及酶Fen-1酶,它是一种位点特异性核酸酶,称作“游离”内切核酸酶(美国专利5,843,669、5,874,283、以及6,090,606)。此酶识别和裂解DNA“活瓣(flap)”,其是通过重叠杂交于靶DNA链的两个寡核苷酸所产生。此裂解是高度特异性的,并可以识别出单碱基对突变,从而允许根据感兴趣的一个SNP从个体杂合子检测出单个同系物,然后根据存在于片段内的其他SNP确定那个同系物的基因型。Fen-1酶可以是Fen-1型核酸酶,例如人、鼠、和爪蟾XPG酶、以及酵母RAD2核酸酶或Fen-1内切核酸酶,其来自例如M.jannaschii、P.furiosus、以及P.woesei。
另一种技术,正在开发作为检测结核分枝杆菌(M.tuberculosis)的存在的诊断工具,可以用来裂解DNA嵌合体。三联DNA-RNA-DNA探针被杂交到靶核酸,如结核分枝杆菌特异序列。在加入核糖核酸酶H以后,嵌合探针的RNA部分被降解,并释放出DNA部分[Yule,Bio/Technology 12:1335(1994)]。
利用任意的断裂方法组合以及酶的任意组合也可以形成片段。产生特异片段的方法可以和产生随机片段的方法结合。另外,在特定位点裂解多核苷酸的一种或多种酶可以和在不同位点特异性裂解多核苷酸的一种或多种酶结合使用。在另一个实施例中,可以结合使用裂解特定种类多核苷酸的酶,例如,核糖核酸酶和DNA酶相结合。在又一个实施例中,随机裂解多核苷酸的酶可以和特异性裂解多核苷酸的酶结合使用。结合使用指的是对多核苷酸相继或同时进行一种或多种方法。
肽断裂
随着对蛋白组学的兴趣已增强为研究领域,已开发出了许多蛋白质断裂技术,以用于蛋白质测序。其中有化学和酶水解、以及利用电离能的断裂。
顺序裂解蛋白质的N-末端在本技术领域是熟知的,可以利用埃德曼降解法来完成。在此方法中,N-末端氨基酸和异硫氰酸苯酯起反应而形成PTC-蛋白质,当其与三氟乙酸接触时会形成中间物苯胺基噻唑啉酮。该中间物被裂解和转化成乙内酰苯硫脲形式,其后被分离,并通过与标准样品比较加以鉴定。为了促进蛋白质裂解,可以用乙烯基吡啶或碘乙酰胺对蛋白质进行还原和烷基化。
利用溴化氰对蛋白质进行化学裂解在本技术领域是熟知的(Nikodem and Fresco,Anal.Biochem.97:382-386(1979);Jahnen etal.,Biochem.Biophys.Res.Commun.166:139-145(1990))。溴化氰(CNBr)是初始裂解蛋白质的最好方法之一。CNBr在甲硫氨酰残基的C-末端裂解蛋白质。因为蛋白质中甲硫氨酰残基的数目通常很少,所以CNBr通常产生一些较大的片段。该反应通常在70%甲酸或50%三氟乙酸中进行,其中溴化氰相对于甲硫氨酸摩尔过量50至100倍。虽然通常允许反应进行24小时,但在10~12小时内裂解通常是定量的。某些Met-Thr键未被裂解,并且可以通过氧化甲硫氨酸来防止裂解。
也可以利用部分酸水解方法裂解蛋白质,以除去单端氨基酸(Vanfleteren et al.,Bio Techniques 12:550-557(1992))。含有肽键的天冬氨酸残基在天冬氨酸残基的任何一侧特别易于被酸裂解,不过这通常需要相当苛刻的条件。水解通常在高温的密封管中在浓盐酸或恒定煮沸盐酸中进行12~18小时的时间间隔。在37℃下88%的甲酸可以裂解Asp-Pro键。已发现Asp-Pro键在其他含Asp键相当稳定的条件下是易受影响的。适当的条件是指在40℃下在10%乙酸(用吡啶调节到pH2.5)中保温蛋白质(约5mg/ml)2~5天。
在酸性介质中的溴化试剂已用来裂解多肽链。试剂(如N-溴琥珀酰亚胺)将在各种各样的位点裂解多肽,包括色氨酸、酪氨酸、以及组氨酸,但经常会发生导致不溶产物的副反应。BNPS-粪臭素[2-(2-硝基苯基亚氧硫基)-3-甲基吲哚]是一种温和的氧化剂和溴化试剂,其导致在色氨酸残基的C-末端侧发生多肽裂解。
虽然可以发生与酪氨酸和组氨酸的反应,但通过在反应混合物中包括酪氨酸就可以显著减少这些副反应。通常,约10mg/ml的蛋白质溶解于75%乙酸中,并加入BNPS-粪臭素和酪氨酸(相对于色氨酸和蛋白酪氨酸分别100倍过量)的混合物,然后保温18小时。通过离心作用获得含有肽的上清液。
除了温和酸裂解Asp-Pro键的问题以外,该问题在BNPS-粪臭素处理的条件下也会遇到,仅有的其他潜在问题是下述事实:所有的甲硫氨酸残基都被转化成甲硫氨酸亚砜,而它无法被溴化氰裂解。如果需要对获自BNPS-粪臭素裂解的肽进行CNBr裂解,则可以通过在30℃下用15%巯基乙醇保温72小时来再生甲硫氨酸残基。
在相当温和的条件下,用邻亚碘酰基苯甲酸处理蛋白质就可以裂解色氨酸-X键。在含有4M盐酸胍的80%乙酸中的蛋白质用碘苯甲酸(大约2mg/ml蛋白质)进行保温,该碘苯甲酸已在室温下在暗处用对甲苯酚预保温24小时。该反应可以通过加入二硫赤藓糖醇加以终止。使用纯化的邻亚碘酰基苯甲酸时必须小心,因为污染物邻碘酰基苯甲酸将导致酪氨酸-X键的裂解,以及可能使组氨酸-X键引起裂解。对甲苯酚在反应混合物中的作用是起邻碘酰基苯甲酸残基的清除剂的作用,以及改善裂解的选择性。
可以使用两种使含肽的半胱氨酸残基发生裂解的试剂。这些试剂是(2-甲基)N-1-苯磺酰基-N-4-(溴乙酰)醌二亚胺(或者称为Cyssor,用于“通过有机试剂的半胱氨酸特异切割”)以及2-硝基-5-氰硫基苯甲酸(NTCB)。在两种情况下,裂解都发生在半胱氨酸的氨基末端侧。
用羟胺保温蛋白质会导致多肽主链的断裂(Saris et al.,Anal.Biochem.132:54-67(1983))。羟氨基分解导致所有天冬酰胺酰-甘氨酸键的裂解。该反应通过在6M盐酸胍、20mM乙酸钠+1%巯基乙醇(pH5.4)中保温浓度约4~5mg/ml的蛋白质,然后向6M盐酸胍(pH9.0)中加入等体积的2M羟胺来进行。通过加入0.1N NaOH将生成的反应混合物的pH保持在9.0,而该反应允许在45℃下进行不同的时间间隔;它可以通过加入0.1体积的乙酸加以终止。在缺少羟胺的情况下,可以发生环状亚胺中间物的碱催重排作用,从而产生α-天冬氨酰甘氨酸和β-天冬氨酰甘氨酸的混合物,而不用肽裂解。
在本技术领域有许多利用蛋白水解酶来水解蛋白质的已知方法(Cleveland et al.,J.Biol.Chem.252:1102-1106(1977))。所有肽酶或蛋白酶都是水解酶,其作用于蛋白质或其部分水解产物以分解肽键。天然蛋白质是蛋白酶的不良底物,并且通常在酶裂解之前通过用尿素处理而变性。现有技术披露了许多呈现肽酶、氨肽酶、以及其他酶活性的酶,而这些酶可以衍生自许多生物,包括脊椎动物、细菌、真菌、植物、反转录病毒、以及某些植物病毒。蛋白酶已用于,例如,分离重组蛋白质。参见,例如,美国专利第5,387,518、5,391,490、以及5,427,927号,它们描述了各种酶及其在从融合蛋白质中分离所希望的成分方面的应用。
这些蛋白酶可以分为两类。外肽酶,其包括羧肽酶和氨肽酶,可以从多肽中除去一个或更多氨基末端残基。内肽酶,其在多肽序列内进行裂解,可以在蛋白质序列内的特定残基之间进行裂解。不同的酶对于最佳活性显示出不同的要求,包括离子强度、温度、时间、以及pH。存在中性内蛋白酶(如NeutraseTM)和碱性内蛋白酶(如AlcalaseTM和EsperaseTM)、以及耐酸羧肽酶(如羧肽酶-P)。
对蛋白酶已进行广泛的研究,以改善其活性和扩展其底物特异性(例如,参见美国专利第5,427,927、5,252,478、以及6,331,427B1号)。一种扩展蛋白酶的靶的方法是把蛋白酶所要求的裂解序列插入靶蛋白。最近,已披露了一种方法,用于制备和选择位点特异性蛋白酶(“策划(designer)蛋白酶”),这种方法可以裂解蛋白质中的用户定义识别序列(参见美国专利第6,383,775号)。
不同的内肽酶在不同选择的裂解位点裂解蛋白质。例如,内肽酶肾素在以下序列的亮氨酸残基之间进行裂解:Pro-Phe-His-Leu-Leu-Val-Tyr(序列鉴定号:1)(Haffey,M.L.et al.,DNA 6:565(1987))。因子Xa蛋白酶在以下序列中的Arg之后进行裂解:Ile-Glu-Gly-Arg-X;Ile-Asp-Gly-Arg-X;以及Ala-Glu-Gly-Arg-X,其中X是除脯氨酸或精氨酸之外的任何氨基酸(序列鉴定号:分别为2~4)(Nagai,K.and Thogersen,H.C.,Nature 309:810(1984);Smith,D.B.and Johnson,K.S.Gene 67:31(1988))。胶原酶跟随以下序列中的X和Y残基进行裂解:-Pro-X-Gly-Pro-Y-(其中X和Y是任何氨基酸)(序列鉴定号:5)(Germino J.and Bastis,D.,Proc.Natl.Acad.Sci.USA 81:4692(1984))。来自金黄色葡萄球菌(S.aureus)V8的谷氨酸内肽酶是丝氨酸蛋白酶,其在酸性条件或谷氨酸碱性条件下特异性裂解位于天冬氨酸的羧基侧的肽键。
胰蛋白酶在精氨酸、赖氨酸、以及S-氨乙基-半胱氨酸残基的羧基侧进行特异性裂解,但在精氨酰-脯氨酸或赖氨酰-脯氨酸键则很少或没有裂解。胃蛋白酶对于苯丙氨酸、亮氨酸、以及谷氨酸来说优先裂解C-端,但它在缬氨酸、丙氨酸、或甘氨酸并不进行裂解。胰凝乳蛋白酶在苯丙氨酸、酪氨酸、色氨酸、以及亮氨酸的C-端侧进行裂解。氨肽酶P是负责释放相邻于脯氨酸残基的任何N-端氨基的酶。脯氨酸二肽酶(氨酰基脯氨酸二肽酶)断裂在羧基端位置具有脯氨酰残基的二肽。
肽或核酸的电离断裂裂解
蛋白质或核酸的电离断裂是在质谱分析期间,通过在质谱仪(MS)电离区中应用较高的电压进行断裂,或通过利用离子阱中的碰致解离的串联MS来实现(参见,例如,Bieman,Methods inEnzymology,193:455-479(1990))。氨基酸或碱基序列是利用所发表的在MS中与各个氨基酸残基或核苷酸残基有关的质量,由在形成的肽或核酸的MS断裂图中观察到的分子量差推出的。
蛋白质的完全测序是通过沿肽主链在几乎每个残基对肽进行裂解来完成。当碱性残基位于N-端和/或C-端时,在碰致解离(CID)质谱中产生的大多数离子将含有该残基(参见,Zaia,J.,in:Proteinand Peptide Analysis by Mass Spectrometry,J.R.Chapman,ed.,pp.29-41,Humana Press,Totowa,N.J.,1996;and Johnson,R.S.,et al.,Mass Spectrom.Ion Processes,86:137-154(1988)),这是因为正电荷通常位于碱性位点。碱性残基的存在一般会简化生成的质谱,因为碱性位点引导断裂成有限系列的特定子离子。缺少碱性残基的肽倾向于断裂成更复杂的片段离子的混合物,这使得序列确定更困难。这可以通过将硬正电荷附着于N-端来克服。参见,Johnson,R.S.,etal.,Mass Spectrom.Ion Processes,86:137-154(1988);Vath,J.E.,etal.,Fresnius Z Anal.Chem.,331:248-252(1988);Stults,J.T.,et al.,Anal.Chem.,65:1703-1708(1993);Zaia,J.,et al.,J Am.Soc.MassSpectrom.,6:423-436(1995);Wagner,D.S.,et al.,Biol.MassSpectrom.,20:419-425(1991);and Huang,Z.-H.,et al.,Anal.Biochem.,268:305-317(1999)。也可以化学修饰蛋白质以包括改变其分子量的标记,从而能够区别由电离断裂所产生的质量片段。用各种制剂标记蛋白质在本技术领域是已知的,并且对于本技术领域人员来说可用于实施本文的方法的大量标记试剂和技术很容易获得。参见,例如,Means et al.,Chemical Modification of Proteins,Holden-Day,San Francisco,1971;Feeney et al.,Modification ofProteins:Food,Nutritional and Pharmacological Aspects,Advances inChemistry series,Vol.198,American Chemical Society,Washington,D.C.,1982。
本文描述的方法可以用于分析通过如上述提供的特异性裂解获得的靶核酸或肽片段,用于各种目的,包括但不限于多态性检测、SNP扫描、测定细菌和病毒类型、病原体检测、抗生素分析、生物鉴定、疾病标志的鉴定、甲基化分析、微卫星分析、确定单体型、确定基因型、确定等位基因频率、多重化、以及核苷酸测序和再测序。
C.发现多态性、突变、以及序列变异的技术
本文提供的一些技术可以增加相对于参比序列在靶序列中检测突变、多态性、或其他序列变异的速度。先前的相对于参比序列在靶序列中发现已知或未知序列变异的方法涉及为参比序列的每个可能的靶序列变异(包括取代、插入、缺失、多态性、以及物种依赖性变异)模拟特定的断裂质谱,该断裂质谱是通过用于那个特定靶序列的给定裂解试剂或一组裂解试剂所产生。在这些先前的方法中,由相对于参比序列在靶序列中所有可能序列变异产生的每个模拟与为靶序列获得的实际断裂质谱进行比较,以确定在靶序列中存在的实际序列变异。这种方法的问题在于:为模拟所有可能序列变异候选所花费的时间和资源可能过高。
解决此问题的一种方法是减少给定靶序列的可能序列变异的数目,其中,对给定靶序列的断裂图进行模拟,并与通过裂解靶序列产生的实际断裂图进行比较。在本文提供的方法中,使用了一种算法来仅输出那些最可能已产生靶序列的实际断裂质谱的序列变异候选。然后,第二种算法仅这小部分的模拟序列变异候选,用于与实际靶序列断裂质谱进行比较。因此,可以显著减少用于模拟分析的序列变异的数目。
在本文提供的方法中,第一步,对通过在相同条件下相对于参比序列的实际或模拟裂解而实际裂解靶序列所获得的、与靶序列和参比序列之间的绝对信号差(相对于参比质谱在靶质谱中存在或不存在一信号)或定量信号差(在信号强度或信噪比方面的差异)相对应的片段进行鉴定,然后确定这些“不同”靶核酸片段的质量。在确定不同片段的质量以后,鉴定一种或多种核酸碱基组成(基底成分),其质量与每个不同片段的实际测得质量相差一数值,该数值小于或等于足够小的质量差。这些基底成分称作参考基底成分。这种足够小的质量差的数值由一些参数确定,如片段(其质量在类型或长度上相差单个核苷酸)之间的峰间隔,以及质谱仪的绝对分辨率。对于四种核酸碱基(对于RNA来说,A、G、C、T或U,对于蛋白质来说,指其修饰物、或氨基酸或其修饰物)的一种或多种特异的裂解反应可用来产生数据集,这些数据集包括每个特异性裂解的片段的可能的参考基底成分,其接近或等于每个不同片段的测得质量,其中不同的片段相差一数值,该数值小于或等于足够小的质量差。
本文提供的技术可以根据与靶核酸片段相对于参比核酸之间的差异相对应的、可能的参考基底成分重建靶序列变异。
算法1:寻找序列变异候选
这是一项对得自靶核酸序列的一种或多种特异性裂解反应的结果进行分析的基本技术。第一步骤鉴定所有可能的基底成分,其质量与靶核酸裂解反应中相对于相同参比核酸裂解反应产生的每个不同片段的实际质量相差一数值,该数值小于或等于足够小的质量差异。这些基底成分是“基底成分参考”。例如,假定不同片段的峰在2501.3Da检测到。质量在例如a+/-2Da峰质量间隔内的唯一天然基底成分是在2502.6Da的A1C4G2T1。在裂解反应并不在裂解位点除去识别出的碱基(此处为T)的情况下,(例如,UDG将除去裂解的碱基,但核糖核酸酶A不会)识别碱基被减去,生成基底成分A1C4G2。以这种方式检测的每个基底成分称为基底成分参考。
然后该基本技术确定可以转变成每个基底成分参考c′的所有基底成分,其至多具有k个突变、多态性、或其他序列变异,包括但不限于生物之间的序列变异。k值,即序列变异级,由用户预先规定并依赖于若干参数,包括但不限于参比序列和靶序列之间的预期的序列变异的类型和数目,例如,序列变异是单碱基还是多碱基,相对于参比序列序列变异在靶序列上存在于一个位置还是存在于一个以上的位置,或靶序列中的序列变异彼此相互作用还是不相互作用。例如,为了检测SNP,k值通常(但不一定)是1或2。作为另一个实施例,为了检测突变以及在重新测序中,k值通常(但不一定)是3或更高。
构造了有界限的基底成分的集,它指的是与参比序列的子序列的集相对应的所有基底成分c的集,具有界限b,用来表示裂解位点是否存在于每个子序列的两端。有界限的基底成分集可以与可能的基底成分参考进行比较,以相对于参比序列构造出靶序列的所有可能的序列变异。利用构造的成对基底成分参考和有界限的基底成分,所述算法就可以构造出所有序列变异候选,其导致获得在相同裂解条件下靶序列相对于参比序列的断裂图中的差异。
相对于先前模拟出每种可能的序列的断裂图(其是参比序列的变异)、并将模拟图与靶核酸序列的实际断裂图进行比较的方法,序列变异候选的确定可显著减小为确定靶序列中实际序列变异要分析的序列变异的样品集。
两个函数d+、d-的定义是:
d+(c):=∑{A,C,G,T}中的bc(b),对于那些c(b)>0的b
d-(c):=∑{A,C,G,T}中的bc(b),对于那些c(b)<0的b
而函数d(c)被定义为d(c):=最大{d+(c),d-(c)}以及d(c,c′):=d(c-c ′)。这是一种度量函数,该函数提供把一个片段(例如参比片段)突变成另一个片段(例如靶片段)所需的插入、缺失、取代、以及其他序列变异的数目的下限。如果f、f′是片段,而c、c′是相应的基底成分,那么我们至少需要d(c,c′)个序列变异以把f转变成f′。
串列s(全长度序列)的子串列(片段)表示为s[i,j],其中i,j是满足1≤i≤j≤s的长度的子串列的起始和结束位置。
基底成分界限或界限b是集{L,R}的子集。b的可能值是{}(空集)、{L}、{R}、{L,R}。对于界限b,#b表示在b中元素的数目,即,0、1、或2。有界限的基底成分(c,b)含有基底成分c和界限b。有界限的基底成分指与参比序列的子序列的集相对应的所有基底成分c的集,并具有界限,表示裂解位点是否存在于每个子序列的两端。有界限的基底成分集可以与可能的基底成分参考进行比较,以相对于参比序列构造出靶序列的所有可能的序列变异。
基底成分c′和有界限的基底成分(c,b)之间的间距被定义为:
D(c′,c,b):=d(c′,c)+#b
函数D(c′,c,b)估量相对于产生基底成分参考c′所需的参比序列来说序列变异的最小数目。
假设对串列s中的碱基、氨基酸、或由裂解试剂识别的其他特征X进行特异性裂解反应,那么子串列s[i,j]或相应基底成分c[i,j]的界限b[i,j]指一组标志,表示串列s的裂解是否没有直接在子子串列s[i,j]的外边发生。可能的标志有L,其表示是否“s没有正好在i之前被裂解”,以及R,其表示是否“s没有正好在i之后被裂解”。因此,b[i,j]是集{L,R}的子集,当且仅当X存在于串列s的i-1位置时含有L,以及当且仅当X存在于串列s的j+1位置含有R。#b表示集b中的元素的数目,其可以是0、1、或2,这依赖于子串列s[i,j]是否在两个直接旁侧位置(即,在位置i-1和j+1)、在一个直接旁侧位置(即,在位置i-1或j+1)、或不在直接旁侧位置(即,既不在位置i-1也不在位置j+1)被特异性裂解。b[i,j]是集{L,R}的子集,并表示s[i,j]的界限,如由下述所定义:
·如果s既不直接在i之前也不在j之后裂解,则b[i,j]:={L,R}
·如果s直接在i之前但不在j之后裂解,则b[i,j]:={R}
·如果s直接在j之后但不在i之前裂解,则b[i,j]:={L}
·如果s直接在i之前和在j之后裂解,则b[i,j]:={}
#b[i,j]表示集b[i,j]的元素数目。
s的所有有界限的基底成分的集被定义为:
C:={(c[i,j],b[i,j]):1≤i≤j≤s的长度},其中相应于s的子串列s[i,j]的基底成分被表示为c[i,j]。
如果存在靶序列的序列变异,其最多包括k个突变、多态性、或其他序列变异,包括但不限于生物之间的序列变异、插入、缺失、以及取代(通常对于核酸,k表示在序列变异中单碱基变异的数目),以及如果c′是此序列变异的基底成分参考,则C中存在有界限的基底成分(c,b)以使D(c′,c,b)≤k。换言之,对于靶序列的每个序列变异,其最多包括k个突变、多态性、或其他序列变异,包括但不限于生物之间的序列变异、插入、缺失、以及取代(通常对于核酸,k表示在序列变异中单碱基变异的数目),其导致对应于一个信号(相对于参比序列其在靶序列中是不同的)的不同片段,并且其对应于基底成分参考c′,在C中存在有界限的基底成分(c,b)满足性质D(c′,c,b)≤k。因此,所研究的片段的数目可以减少到那些最多含有k个裂解点的数目:
CK:={(c[i,j],b[i,j]):1≤i≤j≤s的长度,以及ord[i,j]+#b[i,j]≤k},其中ord[i,j]是片段s[i,j]将被裂解的次数。
算法1:寻找序列变异候选
输入:参比序列s(或一种以上的参比序列)、裂解反应的描述、是否将修饰核苷酸或氨基酸加入所有或部分序列中、对应于不同片段的一系列峰(靶序列中相对于参比序列的失去的信号或附加的信号或定性差异)、最大序列变异级k。
输出:一系列序列变异,最多含有k个插入、缺失、以及取代,并且具有不同的峰作为参考。
·给定参比序列s和特异性裂解反应,计算在Ck中的所有有界限的基底成分(c[i,j],b[i,j],并将它们和指数i,j一起存储。这通常与含有要分析的靶序列的样品无关,并且通常一次完成。
·对于每个不同的峰,寻找所有质量接近该峰质量(相差足够小的质量差异)的基底成分,并将它们存储为基底成分参考。
·对于每个基底成分参考c′,找出Ck中的所有有界限的基底成分(c,b)以使D(c′,c,b)≤k。
·对于每个这样的具有指数i,j的有界限的基底成分(c,b),相对于新的参比序列s′并利用最多k个插入、缺失、以及取代,计算s的所有序列变异,使得:
如果L在b中,那么我们直接在位置i之前插入/取代裂解的碱基或氨基酸;
如果R在b中,那么我们直接在位置j之后插入/取代裂解的碱基或氨基酸;
·最多使用k-#b个插入、缺失、以及将具有相应基底成分c的片段f=s[i,j]变成具有相应基底成分c′的s′的某个片段f′的插入。
·输出每个这样的序列变异。
图1的流程图说明了由计算机系统执行的操作,其中,计算机系统从事于数据分析以确定那些满足上述准则的序列变异候选。在由方框102表示的第一操作中,利用一种或多种裂解试剂并利用本领域技术人员熟知的和本文描述的技术,将靶分子裂解成片段。在接着的由方框104表示的操作中,利用相同的一种或多种裂解试剂将参比分子实际或假想地(通过模拟)裂解成片段。根据通过裂解反应产生的片段产生数据,如靶序列和参比序列的质谱。产生的数据可以用来提取出序列数据中与表示靶序列和参比序列之间差异的片段相对应的一系列峰。
接着的操作是基于所鉴定的不同片段确定经过精简的一组序列变异候选。此操作由方框106描述。然后对序列变异候选评分(方框108),并基于得分值鉴定相应于靶序列中实际序列变异的序列变异候选。通常,在靶序列的样品集中,最高得分表示在靶分子中最可能的序列变异,但当存在单个靶序列时也可以使用其他选择规则,如检查正得分。
在本文描述的一个示范性具体实施例中,从裂解反应产生的数据包括用于分析分子信息的常规实验室设备的输出。这样的输出可容易地以各种数字数据格式(如纯文本)获得,或按照文字处理格式或按照专用计算机数据表示法。
如上所述,基于所鉴定出的不同片段确定一组经过精简的序列变异候选(即,序列变异候选的精简集)的方法优选用编程计算机进行。图2的流程图说明了由计算机系统执行用来确定序列变异候选的精简集的操作。
在由方框202表示的第一操作中,根据上述的参比序列s和特异性裂解反应数据,上述的反应数据被处理来计算Ck中的所有有界限的基底成分(c[i,j]b[i,j]),并被和指数i,j一起存储。由方框204表示的下一操作是为每个不同峰找出所有基底成分,其质量与峰质量相差足够小的质量差异,该质量差相当接近峰质量。这种足够小的质量差的数值由一些参数确定,其包括但不限于其质量在类型或长度上相差单个核苷酸的片段之间的峰间隔、以及质谱仪的绝对分辨率。这些基底成分被存储为基底成分参考。在鉴定了基底成分参考以后,下一操作是为根据方框204鉴定出的每个基底成分参考c′找出Ck中的所有有界限的基底成分(c,b),以使D(c′,c,b)≤k。有界限的基底成分操作由方框206表示。方框208表示的操作涉及利用最多k个插入、缺失、以及取代,针对新的参比序列s′计算s的所有序列变异,以致:
·如果L在b中,那么我们直接在位置i之前插入/取代裂解的碱基或氨基酸;
·如果R在b中,那么我们直接在位置j之后插入/取代裂解的碱基或氨基酸;
·最多使用k-#b个插入、缺失、以及插入,其将具有相应基底成分c的片段f=s[i,j]变成具有相应基底成分c′的s′的某个片段f′。
由方框210表示的最后的操作是产生每个这样的计算自方框208的序列变异作为系统输出。在这里,d(c,c′)是如本文所定义的函数,其确定把c转变为c′所需的序列变异、多态性、或突变(插入、缺失、取代)的最小数目,其中c是参比分子片段的基底成分,而c′是由于c片段突变产生的靶分子的基底成分。
串列s(全长度序列)的子串列(片段)表示为s[i,j],其中i、j是子串列的起始和结束位置。
假设对串列s中的碱基、氨基酸、或由裂解试剂识别的其他特征X进行特异性裂解反应,那么子串列s[i,j]或相应基底成分c[i,j]的界限b[i,j]指一组标志,表示串列s的裂解是否没有直接在子串列s[i,j]的外边发生。可能的标志有L,其表示是否“s没有正好在i之前被裂解”,以及R,其表示是否“s没有正好在i之后被裂解”。因此,b[i,j]是集{L,R}的子集,当且仅当X存在于串列s的i-1位置时含有L,以及当且仅当X存在于串列s的j+1位置时含有R。#b表示集b中的元素的数目,其可以是0、1、或2,这依赖于子串列s[i,j]是否在两个直接旁侧位置(即,在位置i-1和j+1)、在一个直接旁侧位置(即,在位置i-1或j+1)、或不在直接旁侧位置(即,既不在位置i-1也不在位置j+1)被特异性裂解。b[i,j]是集{L,R}的子集,并表示s[i,j]的界限,如由下述所定义:
·如果s既不直接在i之前也不在j之后裂解,则b[i,j]:={L,R}
·如果s直接在i之前但不在j之后裂解,则b[i,j]:={R}
·如果s直接在j之后但不在i之前裂解,则b[i,j]:={L}
·如果s直接在i之前和在j之后裂解,则b[i,j]:={}#b[i,j]表示集b[i,j]的元素数目。
ord[i,j]指在特定裂解反应中s[i,j]将被裂解的次数;即,存在于s[i,j]中的切割串列的数目。
D(c′,c,b):=d(c,c′)+#b指基底成分c′和有界限的基底成分(c,b)′之间的间距;即,从具有基底成分c的片段产生具有基底成分c′的片段所必须的变化的总的最小数目,必要时包括变成切割串列的子串列s[i,j]界限的序列变异。
C:={(c[i,j],b[i,j]):1≤i≤j≤s的长度}指在串列s内所有有界限基底成分的集;即,对于所有可能的子串列s[i,j],找出有界限基底成分(c[i,j],b[i,j]),并且这些将属于集C。
CK:={(c[i,j],b[i,j]):1≤i≤j≤s的长度,以及ord[i,j]+#b[i,j]≤k}和上述的C相同,不同之处在于:包括多于k个切割串列的序列变异的子串列的基底成分将被排除在该集之外,即,CK是C的子集。可以表明,如果存在一个最多包括k个插入、缺失、以及取代的序列变异,以及如果c′是对应于此序列变异的参考峰的基底成分,那么在CK中存在(c,b)使得D(c′,c,b)≤k。该算法是基于这种精简的对应于基底成分参考的可能序列变异的集。
以这种方式构造的每个序列变异将从输入的一系列不同峰中产生至少一个不同的峰。另外,最多包括k个插入、缺失、以及不是由该算法构造的每个序列变异或者是已构造出的一种或多种序列变异的并集的超集,或者不从一系列不同峰(其用作算法的输入)中产生任何的不同峰。
算法1可以重复用于一种以上的特异性裂解试剂,其相对于参比断裂图产生一种以上的靶断裂图,以及超过一列的基底成分参考。在一个具体实施例中,最后的输出包括作为每个裂解反应的序列变异候选的集的并集的序列变异集。
算法2
第二算法用来为每个计算出的输出序列变异候选生成模拟质谱。采用参比序列的参比质谱,利用下述的第三(评分)算法并相对于实际靶质谱,对每个序列变异候选的模拟质谱进行评分。然后得分值(得分越高,匹配得越好,其中最高得分通常是最可能存在的序列变异)可以用来确定在靶核酸序列中实际存在的序列变异候选。
以下提供的是典型的算法,该算法中要检测的序列变异是SNP。用于检测其他类型的序列变异(包括纯合子或杂合子等位基因变异)的算法可以以类似方式实现。
a)对于每个裂解反应,为来自算法1的给定序列变异候选生成模拟质谱。
b)相对于实际靶质谱对模拟质谱进行评分。
c)为给定靶序列加上来自所有裂解反应、优选互补裂解反应的得分。使用一种以上的特异性裂解反应可改善鉴定特定序列变异的准确性。
d)在为所有序列变异计算了所有得分以后,根据其得分对序列变异进行分类。
算法2:寻找SNP
输入:参比序列s、一种或多种裂解反应、针对每个裂解反应的模拟或实际的参比断裂质谱、对于每个裂解反应在相应的样品质谱中发现的一系列峰、最大序列变异级k。
输出:相应于最多包括k个插入、缺失、以及取代的序列变异的所有SNP候选的列表,并具有作为参考的不同峰;以及对于每个这样的SNP候选的得分。
·对于每个裂解反应,通过比较样品质谱和模拟参比质谱,提取一系列不同峰。
·对于每个裂解反应,使用寻找序列变异候选(算法1)以及输入s、当前的裂解反应、相应的一系列不同峰、以及k。
·将由寻找序列变异候选返回的一系列序列变异候选结合成单个列表,除去重复序列。
·对于每个序列变异候选:
·应用该序列变异候选,生成序列s′。
·对于每个裂解反应,在给定裂解反应下模拟s′的参比质谱。
·使用得分SNP(算法3)和对应于s,s′质谱的峰列表以及测得的样品质谱的峰列表作为输入,以计算该裂解反应的序列变异(或SNP)候选的得分(杂合的和纯合的)。
·把所有裂解反应的得分加起来,保持杂合子和纯合子变异的分开得分。
·存储包括序列变异候选的SNP候选加上其得分;SNP候选的总得分是其杂合子和纯合子得分的最大值。
·根据其得分对SNP候选进行分类。
·输出SNP候选序列候选以及其得分。
评分算法(得分SNP)的示范性实施如下:
算法3:得分SNP
输入:相应于参比序列s的峰列表(表示为L),经过修饰的参比序列s′(表示为L′),以及样品质谱(表示为Ls)。
输出:杂合子得分,纯合子得分。
·将两种得分设置为0。
·计算强度变化的列表(表示为LΔ),其包括那些在列表中对应于s,s′的峰,其显示如下差异:
·如果某个峰存在于L中但不存在于L′中,则将此峰加入LΔ中,并将它注明为野生型。
·如果某个峰存在于L′中但不存在于L中,则将此峰加入LΔ中,并将它注明为突变型。
·如果某个峰在L和L′中具有不同的预期强度,则将此峰与从L到L′的预期强度变化一起加入LΔ中。
·对于每个在LΔ中注明为突变型并同样在Ls′中发现的峰,在两种得分中加+1。
·对于每个在LΔ中注明为突变型并在Ls′中未发现的峰,在两种得分中加-1。
·对于每个在LΔ中注明为野生型并在Ls′中未发现的峰,在纯合子得分中加+1。
·对于每个在LΔ中注明为野生型并同样在Ls′中发现的峰,在纯合子得分中加-1。
·输出两种得分。
其他的评分函数实现方法对于本领域技术人员来说是显而易见的。例如,一种实现方法利用未区分为突变或野生型的峰。另一种实现方法可以另外或作为分开的特点考虑在L、LΔ、以及Ls中的强度。其他典型的参数包括利用称为“野生型”的峰以修改杂合子得分,或结合加权函数,其是基于在实际(测得)靶序列断裂质谱中的置信水平。优选的实现方法可以利用对数似然方法来计算得分。
在一个具体实施例中,代替直接利用由算法2输出的潜在SNP的得分,可以结合来自一个以上的预期包括或实际上包括相同的SNP的靶序列的得分。当相对于相同参比序列同时分析一个以上靶序列时,代替独立地报道每个靶序列的SNP得分,对于不同靶序列所有相同得分的序列变异的得分可以联合起来以计算SNP的联合得分。联合得分可以通过把函数应用于得分集加以计算,该函数可以包括但不限于得分最大值、得分和、或其结合。
在已计算出所有SNP或其他序列变异候选及其得分以后,可以确定临界得分以仅报道那些得分等于或高于临界得分的SNP或序列变异(因而,是真实情况的合理可能性,即,相应于靶序列中实际的序列变异)。一般说来,具有最高得分的序列变异将相应于靶序列中实际的序列变异。然后被认为是真实的序列变异可以用来修改最初的参比峰列表L。然后利用得分SNP算法,经过修改的峰列表可以用来重新评估(评分)所有其他潜在的序列变异或SNP,或甚至在纯合子SNP的情况下寻找新的参考。这导致SNP或其他序列变异检测的迭代过程。例如,在检测靶序列中的一个以上序列变异的迭代过程中,具有最高得分的序列变异被认为是实际的序列变异,而对应于此序列变异的信号或峰被加入参比片段质谱以产生更新的参比片段质谱。然后相对于此更新的参比片段质谱对所有剩余的序列变异候选进行评分,以输出具有次最高得分的序列变异候选。此第二序列变异候选也可以表示靶序列中第二个实际的序列变异。因此,相应于第二序列变异的峰可以加入参比片段质谱以产生第二次更新的参比质谱,相对于此则可以根据其得分检测第三序列变异。可以重复此迭代过程直到不再鉴定到表示靶序列中实际序列变异的序列变异候选。该过程可以应用于任何类型和数目的裂解反应,其是完全的,包括2-、1 1/2-、或1 1/4-碱基切割子。在另一个具体实施例中,此过程可以应用于部分裂解实验。
该方法并不限于SNP和突变检测,而是可以应用于检测任何类型的序列变异,包括多态性、突变、以及测序差错。
因为所介绍的算法能够处理均一的样品,所以对本领域技术人员来说,很明显,其应用可以扩展到样品混合物的分析。这样的“样品混合物”通常包括序列变异或突变或多态性,其以非常低的频率含有靶核酸,并具有高度过量的野生型序列。例如,在肿瘤中,引起肿瘤的突变通常存在于少于5%~10%的存在于肿瘤样品(其是一种以上组织类型或细胞类型的不均一混合物)中的核酸中。类似地,在个体的群体中,大多数具有功能重要性的多态性,其对于,例如,疾病状况或易患疾病的素质具有决定作用,发生在小于5%的低等位基因频率。本文提供的方法可以检测高频率序列变异或可以适合于检测低频率突变、序列变异、等位基因、或多态性,它们存在的范围小于约5%~10%。
D.应用
1.检测多态性
本文的一个目的是提供经过改进的用于鉴定疾病及其标志的基因组基础的方法。用本文提供的方法鉴定的序列变异候选包括含有作为多态性的序列变异的一些序列。多态性包括天然存在的体细胞序列变异以及那些起因于突变的序列变异。多态性包括但不限于:序列微变异体,其中在局部区域的一个或多个核苷酸因个体而异;插入和缺失,其大小可以从一个核苷酸到几百万碱基不等;以及微卫星或核苷酸重复单位,其相差若干重复单位。核苷酸重复单位包括均一重复单位如二核苷酸、三核苷酸、四核苷酸、或更大的重复单位,其中相同序列重复多次,以及不均一核苷酸重复单位,其中发现序列模体被重复。对于给定的基因座,核苷酸重复单位的数目可以随个体而变化。
多态标志或位点是发生趋异差别的基因座。这样的位点可以小至一个碱基对(SNP)。多态标志包括但不限于:限制片段长度多态性(RFLP)、可变数目的串联重复(VNTR’s)、高变区、微卫星、二核苷酸重复单位、三核苷酸重复单位、四核苷酸重复单位、以及其他重复模式、简单序列重复单位以及插入元素,如Alu。多态形式还表现为基因的不同孟德尔等位基因。多态性可以通过蛋白质差异、蛋白质修饰、RNA表达修饰、DNA和RNA甲基化、改变基因表达和DNA复制的调节因子、以及任何其他变更基因组核酸或细胞器核酸的表现形式来加以观测。
此外,许多基因具有多态区。因为个体具有多态区的若干等位基因变异体的任何一个,所以可以基于基因的多态区的等位基因变异体的类型来鉴定个体。这可以用于,例如,法医用途。在其他情况下,知道个体具有的等位基因变异体的身分很关键。例如,在某些基因(例如,主要组织相容性络合物(MHC)基因)中的等位基因差异,与骨髓移植中的移植物排斥或移植物抗宿主病有关。因此,非常希望开发出迅速、敏感、以及准确的方法,用于确定基因或基因损伤的多态区的等位基因的身分。通过确定在研究对象的一个或多个基因或染色体中的一个或多个多态区的一个或多个等位基因变异体的身分,如本文提供的一种方法或试剂盒可以用来确定研究对象的基因型。利用如本文提供的方法确定研究对象的基因型可以用于法医或身分试验目的,而多态区可以存在于线粒体基因中或可以是短串联重复。
单核苷酸多态性(SNP)通常是双等位基因系统,即,对于任何特定标志,个体可以具有两个等位基因。这意味着,当与微卫星标志比较时,每个SNP标志的信息内容相对较低,其中微卫星标志可以具有10个以上的等位基因。SNP还倾向于非常具有群体特异性;在一个群体中为多态的标志在另一个群体中可能并不是非常多态的。大约每千个碱基发现的SNP(参见Wang et al.(1998)Science280:1077-1082)提供产生非常高密度基因图的潜力,这对于开发用于感兴趣的基因或区域的单体型确定系统非常有用,并且由于SNP的特性,它们可能事实上是与所研究的疾病表型有关的多态性。SNP的低突变率还使它们成为研究复合遗传性状的极好标志。
基因组学的许多研究中心都是关于SNP的鉴定,它由于各种原因而非常重要。它们使得可以间接试验(单体型的结合)和直接试验(功能变异体)。它们是最丰富和稳定的遗传标志。常见疾病最好用常见基因变更加以解释,而在人类群体中的自然变异有助于理解疾病、治疗、以及环境相互作用。
2.病原体分类
本文提供的是鉴定微生物品系的过程或方法。微生物是选自各种生物,包括但不限于细菌、真菌、原生动物、纤毛虫、以及病毒。这些微生物并不限于特定的属、种、品系、或血清型。这些微生物可以通过相对于一个或多个参比序列确定靶微生物序列中的序列变异加以鉴定。参比序列可以获自,例如,来自相同或不同属、种、品系、或血清型的其他微生物,或来自宿主原核或真核生物。
细菌病原体的鉴定和分类在传染病的临床管理方面非常关键。微生物的精确身分不仅用来区分疾病状态和健康状态,而且对于确定是否和哪些抗生素或其他抗微生物治疗最适合于治疗具有重大意义。传统的病原体分类方法已使用了各种表型特征来鉴定细菌,这些表型特征包括生长特性、颜色、细胞或菌落形态、抗生素敏感性、染色、气味、以及与特异抗体的反应性。所有这些方法需要培养可疑的病原体,其具有若干严重的缺点,包括较高的材料和人力成本、工作人员暴露的危险、起因于误操作的假阳性、以及起因于较少数目的有活力细胞或起因于许多病原体的严苛培养要求的假阴性。此外,培养方法需要相对较长的时间以完成诊断,并且由于这类感染的潜在威胁生命的特性,抗微生物治疗经常在可以获得结果之前就开始。
在许多情况下,病原体非常类似于形成正常菌群的生物,通过上述列举的方法可能无法区别于无害的品系。在这些情况下,确定病原菌株的存在可能需要本文提供的分子分类方法所提供的更高的分辨率。例如,靶核酸序列的PCR扩增、继之以通过特异性裂解(例如,碱基特异性)的断裂、继之以基体辅助激光解吸/电离飞行时间质谱测定法、继之以如本文提供的筛选序列变异,使得可以可靠地区分仅相差一个核苷酸的序列,并把产生的序列信息的区分效率和MALDI-TOF MS的速率结合起来。
3.检测表示感染的病毒或细菌核酸序列的存在
通过相对于一个或多个参比序列鉴定在病毒或细菌核酸序列中存在的序列变异,本文提供的方法可以用来确定表示感染的病毒或细菌核酸序列的存在。参比序列可以包括但不限于获自相关非传染性生物的序列、或获自宿主生物的序列。
病毒、细菌、真菌、以及其他传染性生物含有独特的核酸序列(包括多态性),其不同于包含在宿主细胞中的序列。靶DNA序列可以是部分外来基因序列如侵入微生物的基因组,包括,例如,细菌以及其噬菌体、病毒、真菌、原生动物等等。本文提供的方法尤其可应用于把微生物的不同变异体或品系区别开,以便,例如,挑选出适当的治疗干涉。可使人和动物感染并可以用已披露的方法检测的引起疾病的病毒的实例包括但不限于:逆转录病毒科(例如,人体免疫缺陷病毒如HIV-1(也称作HTLV-III、LAV或HTLV-III/LAV;R atner et al.,Nature,313:227-284(1985);WainHobson et al.,Cell,40:9-17(1985),HIV-2(Guyader et al.,Nature,328:662-669(1987);欧洲专利公布号0 269 520;Chakrabarti et al.,Nature,328:543-547(1987);欧洲专利申请号0 655 501),以及其他分离物如HIV-LP(国际公布号WO 94/00562);微小RNA病毒科(例如,脊髓灰质炎病毒、甲型肝炎病毒、(Gust et al.,Intervirology,20:1-7(1983));肠道病毒、人体柯萨奇病毒、鼻病毒、艾柯病毒);Calcivirdae(例如,引起胃肠炎的菌株);披膜病毒科(例如,马脑炎病毒、风疹病毒);黄病毒科(例如,登革热病毒、脑炎病毒、黄热病病毒);冠状病毒科(例如,冠状病毒);弹状病毒科(例如,疱疹性口炎病毒、狂犬病病毒);丝状病毒科(例如,埃博拉病毒);副粘病毒科(例如,副流感病毒、流行性腮腺炎病毒、麻疹病毒、呼吸道合胞病毒);正粘病毒科(例如,流感病毒);环蛇病毒科(例如,汉滩病毒、环蛇病毒、白蛉热病毒、以及内罗毕病毒);沙粒病毒科(出血热病毒);呼肠孤病毒科(例如,呼肠孤科病毒、环状病毒、以及轮状病毒);双节RNA病毒科;嗜肝DNA病毒科(乙型肝炎病毒);细小病毒科(细小病毒);乳多空病毒科;嗜肝DNA病毒科(乙型肝炎病毒);细小病毒科(大多数腺病毒);乳多空病毒科(乳头状瘤病毒、多瘤病毒);腺病毒科(大多数腺病毒);疱疹病毒科(1型单纯疱疹病毒(HSV-1)和HSV-2、水痘带状疱疹病毒、巨细胞病毒、疱疹病毒;痘病毒科(天花病毒、牛痘病毒、痘病毒);虹彩病毒科(例如,非洲猪瘟病毒);以及未分类型病毒(例如,海绵状脑病的病原因子、δ型肝炎因子(认为是乙型肝炎病毒的缺损卫星)、非A型、非B型肝炎因子(1类=内部传递;2类=肠外传递,即,丙型肝炎);诺沃克和有关病毒、以及星形病毒。
传染性细菌的实例包括但不限于幽门螺杆菌、布氏疏螺旋体、侵肺军团菌、分枝杆菌sp.(例如,结核分枝杆菌、鸟分枝杆菌、胞内分枝杆菌、堪萨斯分枝杆菌、戈氏分枝杆菌)、金黄色葡萄球菌、淋病奈瑟菌、脑膜炎奈瑟菌、单核细胞增多利斯特菌、化脓链球菌(A型链球菌)、无乳链球菌(B型链球菌)、链球菌sp.(草绿色型)、粪链球菌、牛链球菌、链球菌sp.(厌氧菌种)、肺炎链球菌、病原弯曲杆菌sp.、肠球菌sp.、流感嗜血杆菌、炭疽杆菌、白喉棒状杆菌、棒状杆菌sp.、红斑丹毒丝菌、产气荚膜菌、破伤风杆菌、产气肠杆菌、肺炎克雷白杆菌、多杀巴斯德菌、类杆菌sp.、核粒梭杆菌、念珠状链杆菌、苍白密螺旋体、极细密螺旋体、钩端螺旋体、以及伊氏放线菌。
传染性真菌的实例包括但不限于新型隐球菌、荚膜组织胞浆菌、球孢子菌immitis、皮炎芽生菌、沙眼衣原体、白色念珠菌。其他传染性生物包括原生生物,如镰状疟原虫和鼠弓形体。
4.抗生素分析
如本文提供的特异性裂解断裂图的分析可改善检测核苷酸变化的速度和准确性,这些核苷酸变化与耐药性有关,包括耐抗生素性。与耐异烟肼、利福平、链霉素、氟喹诺酮类、以及乙硫异烟胺有关的基因座已被鉴定[Heym et al.,Lancet 344:293(1994)andMorris et al.,J.Infect.Dis.171:954(1995)]。异烟肼(inh)和利福平(rif)以及吡嗪酰胺和乙胺丁醇或链霉素的结合通常被用作对结核分枝杆菌的已证实病例的第一线攻击[Banerjee et al.,Science 263:227(1994)]。这类抗药株的发生率增加使得有必要开发出快速测定方法,以对它们进行检测并从而减少从事无效、以及可能有害治疗的费用和对公众健康的危害。一些与抗药性有关的基因座的鉴定已促进采用突变检测技术用于快速筛选导致抗药性的核苷酸变化。
5.鉴定疾病标志
本文提供快速和准确地鉴定作为疾病的基因标志的序列变异的方法,其可以用来诊断或确定疾病的预后。以基因标志为特征的疾病可以包括但不限于动脉粥样硬化、肥胖症、糖尿病、自身免疫病、以及癌症。在所有生物中的疾病都具有基因成分,其或者是遗传的,或者来自身体对环境压力的反应,如病毒和毒素。正在进行的基因组研究的最终目的是利用此信息来开发新方法,以鉴定、治疗和潜在地治愈这些疾病。第一步是筛选疾病组织以及在个体样品水平鉴定基因组变化。这些“疾病”标志的鉴定依赖于检测基因组标志的变化从而鉴定错误基因或多态性的能力。基因组标志(所有基因座,包括单核苷酸多态性(SNP)、微卫星、以及其他非编码基因组区、串联重复、内含子以及外显子)可以用于鉴定所有生物,包括人类。这些标志提供了一种方法,不仅鉴定群体,而且允许根据群体对疾病、药物治疗、耐环境因子、以及其他因子的反应对群体进行分层。
6.确定单体型
本文提供的方法可以用来检测单体型。在任何二倍体细胞中,在任何基因或其他染色体节段存在两种单体型,其含有至少一个明显变异。在许多充分研究的基因系统中,单体型比单核苷酸变异更强有力地与表型有关。因此,确定单体型对理解各种表型的基因基础很重要,包括疾病易患性或敏感性、对治疗干涉的反应、以及其他在医学、畜牧业、以及农业中有价值的表型。
如本文提供的确定单体型的步骤允许从个体的两条同源染色体的一条选择部分序列,以及确定与该部分序列相关联的SNP的基因类型。单体型的直接分辨能力可以产生增加的信息内容,从而改善对任何相关的疾病基因的诊断,或鉴定与那些疾病有关的联系。
7.微卫星
本文提供的基于断裂的方法便于快速、明确地检测作为微卫星的序列变异。微卫星(有时称作可变数目的串联重复序列或VNTR)是一个至七个或更多碱基的短串联重复核苷酸单位,在它们之中最重要的是二、三、以及四核苷酸重复单位。在基因组DNA中每100,000个碱基对存在微卫星(J.L.Weber and P.E.Can,Am.J.Hum.Genet.44,388(1989);J.Weissenbach et al.,Nature 359,794(1992))。CA二核苷酸重复单位,例如,构成人外线粒体基因组的约0.5%;CT和AG重复单位一起构成约0.2%。CG重复单位非常稀少,最可能起因于CpG岛的调节功能。微卫星在长度方面是高度多态的,并广泛分布于整个基因组,其中主要分布于非编码序列中,而其在基因组内的功能是未知的。
微卫星在法医用途中很重要,因为群体将保持该群体特有的各种微卫星,并与没有杂交的其他群体不同。
微卫星内的许多变化可能毫不起眼,但一些变化可以导致基因产物或表达水平的显著改变。例如,在某些肿瘤中,在基因的编码区发现的三核苷酸重复单位被改变(C.T.Caskey et al.,Science 256,784(1992)),而微卫星的变更可以导致基因不稳定性,这将导致易患癌症的倾向(P.J.McKinnen,Hum.Genet.175,197(1987);J.German et al.,Clin.Genet.35,57(1989))。
8.短串联重复序列
本文提供的方法可以用来相对于例如并不含有STR序列区的人基因组中的参比序列,鉴定人基因组的某些靶序列中的短串联重复序列(STR)区。STR区是并不与任何疾病或状况有关的多态区。人基因组中的许多基因座都含有多态短串联重复序列(STR)区。STR基因座含有长度为3至7个碱基对的短重复序列单位。据估计,存在200,000个预期的三体和四体STR,其存在于人基因组中的频率为每15千个碱基有一次(参见,例如,国际PCT申请号WO9213969A1,Edwards et al.,Nucl.Acids Res.19:4791(1991);Beckmann et al.(1992)Genomics 12:627-631)。这些STR基因座的大约一半是多态的,这提供了丰富的遗传标志来源。在特定基因座的重复单位数目的变化决定着观察到的多态性,这使人联想到可变的核苷酸串联重复(VNTR)基因座(Nakamura et al.,(1987)Science 235:1616-1622);以及微卫星基因座(Jeffreys et al.(1985)Nature 314:67-73),其含有更长的重复单位,以及微卫星或二核苷酸重复基因座(Luty et al.(1991)Nucleic Acids Res. 19:4308;Litt et al.(1990)Nucleic Acids Res. 18:4301;Litt et al.(1990)Nucleic Acids Res. 18:5921;Luty et al.(1990)Am.J.Hum.Genet. 46:776-783;Tautz(1989)Nucl.Acids Res. 17:6463-6471;Weber et al.(1989)Am.J.Hum. Genet.44:388-396;Beckmann et al.(1992)Genomics 12:627-631)。
STR基因座的实例包括但不限于人体CD4基因座中的五核苷酸重复单位(Edwards et al.Nucl.Acids Res.19:4791(1991));人体芳化酶细胞色素P-450基因中的四核苷酸重复单位(CYP19;Polymeropoulos et al.,Nucl.Acids Res.19:195(1991));人体凝固作用因子XIII A亚单位基因中的四核苷酸重复单位(F13A1;Polymeropoulos et al.,Nucl.Acids Res.19:4306(1991));F13B基因座中的四核苷酸重复单位(Nishimura et al.,Nucl.Acids Res.20:1167(1992));人体c-les/fps原癌基因中的四核苷酸重复单位(FES;Polymeropoulos et al.,Nucl.Acids Res.19:4018(1991));LFL基因中的四核苷酸重复单位(Zuliani et al.,Nucl.Acids Res.18:4958(1990));人体胰磷脂酶A-2基因中的三核苷酸重复单位多态性(PLA2;Polymeropoulos et al.,Nucl.Acids Res.18:7468(1990));VWF基因中的四核苷酸重复单位多态性(Ploos et al.,Nucl.Acids Res.18:4957(1990));以及人体甲状腺过氧化物酶(hTPO)基因座中的四核苷酸重复单位(Anker et al.,Hum.Mol.Genet.1:137(1992))。
9.生物鉴定
基因的多态STR基因座和其他多态区是对于下述来说是非常有用的标志的序列变异:人鉴定,父母身份测试,基因制图,移入和遗传竞争、双生子的接合性测试,人近交测试,人培养细胞的质量控制,人遗体的鉴定,以及在法医学中测试精液样品、血斑以及其他物质。这类基因座在商用动物繁殖和系谱分析以及在商用植物繁殖中也是有用的标志。在农作物和动物中的经济重要性可以通过利用多态DNA标志的相关分析加以鉴定。本文提供了确定这种基因座的身分的有效和准确的方法。
10.检测等位基因变异
本文提供的方法便于高通量、快速以及准确地检测等位基因变异体。对等位基因变异的研究不仅涉及检测复合背景中的特异序列,而且涉及在具有很少、或单个核苷酸差异的序列之间进行区别。一种通过PCR检测等位基因特异变异体的方法是基于这样的事实:当在模板链和引物的3′未端之间存在错配时,Taq聚合酶很难合成DNA链。等位基因特异变异体可以利用仅与可能的等位基因之一完全匹配的引物加以检测;与其他等位基因的错配起防止引物扩展的作用,从而防止序列的扩增。此方法具有显著的局限性:错配的碱基组成影响防止穿过错配扩展的能力,以及某些错配并不防止扩展或仅有最小的影响(Kwok et al.,Nucl.Acids Res.,18:999[1990])。本文提供的基于断裂的方法可以克服引物扩展方法的局限性。
11.确定等位基因频率
本文描述的方法对鉴定一个或多个遗传标志很有价值,在群体内其频率是作为年龄、人种、性别、或某些其他指标的函数而变化。例如,ApoE基因型的年龄依赖性分布在本技术领域是已知的(参见,et al.(1994)Nature Genetics 6:29-32)。已知在某个水平与疾病有关的多态性的频率也可以用来检测或监测疾病状况的进展。例如,脂蛋白脂酶基因的N291S多态性(N291S),其导致天冬酰胺在氨基酸密码子291发生丝氨酸取代,导致高密度脂蛋白胆固醇(HDL-C)水平的降低,并伴随男性动脉硬化以及尤其是心肌梗死的危险增加(参见,Reymer et al.(1995)Nature Genetics 10:28-34)。此外,确定等位基因频率的变化可以使得能够鉴定先前未知的多态性以及最终的与疾病的发作和进展有关的基因或途径。
12.实验胚胎学
本文提供的方法可以用于相对参比核酸或蛋白质研究在靶核酸或蛋白质中的变异,其不是基于序列,例如,碱基或氨基酸(天然存在的核酸或蛋白质单体单元)的身分。例如,在本文提供的方法中使用的特异性裂解试剂可以识别与序列无关的特征(如甲基化模式)的差异、修饰碱基或氨基酸的存在、或靶分子和参比分子之间在高级结构方面的差异,从而在序列无关位点裂解产生片段。实验胚胎学是基于基因表达的差异而不是基因序列的差异来对信息遗传进行的研究。外遗传改变指基因功能的有丝分裂和/或减数分裂上的可遗传改变或无法用核酸序列的改变来解释的高级核酸结构的改变。易发生外遗传变异或改变的特征的实例包括但不限于动物中的DNA甲基化模式、组蛋白修饰、以及多蜂房-trithorax组(Pc-G/tx)蛋白复合物(参见,例如,Bird,A.,Genes Dev.,16:6-21(2002))。
外遗传改变通常(但不一定)会导致基因表达的改变,而这种改变通常(但不一定)是可遗传的。例如,如以下进一步论述的,甲基化模式的改变是癌症和其他疾病形成和进展中的早期事件。在许多癌症中,由于异常甲基化作用,某些基因被不适当地断开或接通。甲基化模式阻遏或活化转录的能力可以被遗传。和甲基化一样,Pc-G/trx蛋白复合物可以以可遗传方式阻遏转录。Pc-G/trx多蛋白组合被指向基因组的特异区,在此处它有效地冷冻基因的胚基因表达状态,不管该基因是活性的还是失活的,并扩展该状态稳定地通过发育。蛋白质的Pc-G/trx组靶向并结合于基因组的能力仅影响包含在基因组中的基因的表达水平,而不影响基因产物的性能。本文提供的方法可以和相对于参比序列鉴定靶序列变异的特异性裂解试剂一起使用,其是基于与序列无关的改变,如后生的改变。
13.甲基化模式
本文提供的方法可以用来检测作为靶序列中的外遗传改变的序列变异,如靶序列中甲基化模式的改变。细胞甲基化的分析是一门正形成的研究学科。甲基共价加入胞嘧啶主要存在于CpG二核苷酸(微卫星)。虽然不位于启动子区中的CpG岛的功能仍然有待研究,但启动子区中的CpG岛具有特殊的意义,因为其甲基化状态可调节相关基因的转录和表达。启动子区的甲基化导致基因表达停止。该停止是持久性的,并通过有丝分裂过程延续。由于在基因表达中的重要作用,DNA甲基化对下述方面具有影响:发育过程、印记和X染色体失活以及肿瘤发生、老化、以及寄生DNA的抑制。甲基化被认为与多种流行肿瘤的致癌作用有关,如肺、乳房、以及结肠癌症、白血病。甲基化和蛋白质功能不良(长Q-T间期综合征)或代谢病(新生儿短暂性糖尿病、II型糖尿病)之间也存在关系。
基因组DNA的亚硫酸氢盐处理可以用来分析DNA内甲基化胞嘧啶残基的位置。用亚硫酸氢盐处理核酸可将胞嘧啶残基脱氨成尿嘧啶残基,而甲基化胞嘧啶保持未修饰状态。因此,通过对未用亚硫酸氢盐处理的靶核酸序列和用亚硫酸氢盐根据本文提供的方法处理的核酸序列进行比较,就可以推导出核酸的甲基化程度以及胞嘧啶被甲基化的位置。
利用具有甲基化特异识别位点(如HpaII和MSPI)的限制性内切酶,可使经过限制性内切核酸酶反应的甲基化分析成为可能位点,。基本原理是某些酶被识别序列中的甲基化胞嘧啶阻断。在完成此分化以后,对生成片段的后续分析可以利用本文提供的方法进行。
这些方法可以和联用亚硫酸氢盐限制分析(COBRA)一起使用。用亚硫酸氢盐处理可引起在扩增PCR产物中损失BstUI识别位点,与未处理样品比较,这将产生新的可供分析的可检测片段。本文提供的基于断裂的方法可以和甲基化位点的特异性裂解一起使用,以提供关于靶核酸序列中的甲基化模式的快速、可靠的信息。
14.再测序
可从各种生物获得的基因组序列信息的显著增长增加了对一些技术的需要,这些技术允许大规模比较序列分析把序列信息与功能、表型、或身分相联系。这类比较序列分析技术的应用可以非常广泛,包括SNP发现和病原体的序列特异性鉴定。因而,再测序和高通量突变筛选技术对于鉴定作为疾病基础的突变以及作为不同药物反应基础的基因变异性很是关键。
已开发若干方法以满足这些需要。当前的高通量DNA测序技术包括利用电泳和激光诱导荧光检测的DNA序列分析仪。基于电泳的测序方法对于检测杂合子具有内在的局限性,并为GC压力所危害。因此,产生数字数据而不使用电泳的DNA测序平台将克服这些问题。基体辅助激光解吸/电离飞行时间质谱测定法(MALDI-TOF-MS)测量DNA片段并具有数字数据输出。本文提供的特异性裂解断裂分析的方法能够相对于参比序列高通量、高速、以及高准确性地检测序列变异。此方法使得可以常规将MALDI-TOF MS测序用于准确的突变检测,如筛选BRCA1和BRCA2中的建立者突变,其和乳房癌的形成相联系。
15.多重化
本文提供的方法便于相对于一个或多个参比序列,高通量地检测或发现多个靶序列中的序列变异。多重化指同时检测一个以上的多态性或序列变异。进行多重化反应的方法,尤其是和质谱测定法一起,是已知的(参见,例如,美国专利号6,043,031、5,547,835、以及国际PCT申请号WO 97/37041)。
可以利用本文提供的不同的互补特异性裂解反对相同的靶核酸序列,或对不同的靶核酸序列进行多重化,断裂图进而可以相对于多个参比核酸序列加以分析。利用本文提供的方法也可以对同一个靶序列同时检测多种突变或序列变异,其中相对于参比核酸序列的断裂图来说,每个序列变异相应于不同的裂解片段。与对于每个单独的序列变异必须进行分开的质谱分析相比较,多重化提供以下优点:可以在少至单个质谱中对许多序列变异进行鉴定。本文提供的方法有助于分析序列变异的高通量、高度自动化过程且具有较高的速度和准确性。
E.系统和软件方法
本文还提供一些系统,利用基于本文提供的方法为鉴定序列变异而编程的计算机,使确定靶核酸或蛋白质中序列变异的方法或使本文提供的检测方法自动化。例如,利用以下计算机系统以及利用以下计算、系统、以及方法,可以实施本文的方法。
典型的自动化测试系统包括核酸工作台,它包括分析仪器,如凝胶电泳仪或质谱仪或其他确定样品中核酸分子质量的仪器,以及用于断裂数据分析并能够与分析仪器通信的计算机(参见,例如,共同提出的未决美国申请号09/285,481、09/663,968、以及09/836,629;关于典型的自动化系统,还可参见国际PCT申请号WO 00/60361)。在一示范性具体实施例中,计算机是台式计算机系统,如在“微软视窗”操作系统(微软公司)或“麦金托什”操作系统(苹果计算机公司)的控制下进行操作的计算机,其利用已知的通信标准如并行或串行接口与仪器通信。
例如,提供了分析核酸样品的系统。这些系统包括:处理站,进行如本文描述的碱基特异或其他特异性裂解反应;机器人系统,将生成的裂解片段从处理站运送到质量测量站,在此处确定反应产物的质量;以及数据分析系统,如经编程以利用断裂数据鉴定靶核酸序列中序列变异的计算机,处理来自质量测量站的数据以鉴定一个或多个样品中的一种核苷酸或多种核苷酸。该系统还可以包括控制系统,用于确定每个站的处理何时完成,并作为响应把样品移到下一测试站,并连续地逐一处理样品,直到控制系统接到停止指令。
图3是进行样品处理并执行图1和图2所示的操作的系统的方框图。系统300包括核酸工作站302和分析计算机304。在核酸工作站,接收一个或多个分子样品305并加以制备,以供在处理站306进行分析,在处理站可以发生上述裂解反应。然后把样品移到质量测量站308,如质谱仪,在此处进行进一步的样品处理。样品最好通过计算机控制的机器人装置310从样品处理站306移到质量测量站308。
机器人装置可以包括子系统,这些子系统可确保两个处理站303、308之间的移动,这将维持样品305的完整性,并将确保有效的测试结果。这些子系统可以包括,例如,机械提升装置或臂,其可以从样品处理站306采集样品,移动到质量测量站308,然后沉积经处理的样品用于质量测量操作。然后机器人装置310可以除去测量的样品,并采取适当的行动以从处理站306移动下一个经处理的样品。
质量测量站308生成鉴定和量化被测量的样品305的分子成分的数据。本领域技术人员将熟悉分子测量系统,如质谱仪,可以用来产生测量数据。通过将测量结果人工输入分析计算机或通过质量测量站和分析计算机之间的通信,把来自质量测量站308的数据提供到分析计算机304。例如,质量测量站308和分析计算机304可以经网络312互联,以使分析计算机可以获得由质量测量站产生的数据。网络312可以包括局域网(LAN),或无线通信信道,或任何其他适合于计算机-计算机数据交换的通信信道。
如果希望的话,分析计算机304的测量处理功能和核酸工作站302的控制功能可以合并到单个计算机装置里。在该构造中,例如,单个通用计算机可以用来控制机器人装置310,以及执行数据分析计算机304的数据处理。类似地,质量测量站的处理操作和样品处理站306的样品处理操作可以在单个计算机的控制下进行。
因此,如果计算装置具有连往任何适当子系统(如机器人装置310的机械臂)的适当接口,并具有适当的处理能力以控制这些系统和进行数据处理,那么工作站和计算机302、304、306、308、310的处理和分析功能可以通过各种计算装置来完成。
数据分析计算机304可以是分析仪器的一部分,或另一个系统的部件,或可以处于远程位置。该计算机系统可以(例如)通过广域网或局域通信网络或其他适当的通信网络与仪器通信。具有计算机的系统被编程以自动进行本文方法的步骤以及必要的计算。对于使用基于所采用的裂解试剂和修饰的碱基或氨基酸的(参比或靶序列的)预计断裂图的具体实施例,用户录入预计片段的质量。这些数据可以由用户直接录入:从键盘或从其他计算机或由网络连接的计算机系统,或在可移动存储介质上如数据CD、小型光盘(MD)、DVD、软盘、或其他适当的存储介质。接着,用户启动用于操作该系统的执行软件,利用该软件鉴定靶核酸序列和参比核酸序列之间的片段差异。序列变异软件进行算法1的步骤,并在某些具体实施例中,进行如本文所述的算法2或算法3的步骤。
图4是图3的系统300中的计算机的方框图,示出了包括在计算机中的硬件部分,其可以提供工作站和计算机302、304、306、308的功能。本领域技术人员将明白,示于图3的工作站和计算机可以都具有类似的计算机结构,或可以具有和本文描述的能力和相应功能一致的可替换结构。图4的结构尤其适合于示于图3的数据分析计算机304。
图4示出了典型的计算机400,例如可以包括控制任何工作站和分析计算机302、304、306、308的操作的计算机。每个计算机400在中央处理器(CPU)402的控制下进行操作,如“奔腾”微处理器以及关联的集成电路芯片,可获自英特尔公司(Santa Clara,California,美国)。计算机用户可以从键盘和计算机鼠标404输入命令和数据,并可以在显示器406上查看输入和计算机输出。显示器通常是视频监视器或平板显示器。计算机400还包括直接存取存储设备(DASD)408,如硬盘驱动器。该计算机包括存储器410,其通常包括易失性半导体随机存储器(RAM)。每个计算机优选包括程序产品阅读器412,其接受程序产品存储设备414,从程序产品阅读器可以读数据(以及可以对其随意地写入数据)。程序产品阅读器可以包括,例如,磁盘驱动器,而程序产品存储设备可以包括可移动存储介质如软盘、CD-R光盘、CD-RW光盘、或DVD光盘。
每个计算机400可以通过网络接口418经由计算机网络420(如,局部网络312或因特网或内联网)与其他图3的系统通信,其中,网络接口使经由网络420和计算机之间的链接的通信成为可能。网络接口418通常包括,例如,网络接口卡(NIC),其允许经过各种网络以及相关的网络访问子系统如调制解调器进行通信。
CPU 402在临时存储在计算机400的存储器410中的编程指令的控制下进行操作。当执行编程指令时,计算机执行其功能。因此,编程指令实现了相应工作站或处理器的功能。编程指令可以接收自DASD 408,通过程序产品存储设备414、或通过网络连接422接收。程序产品存储驱动器412可以接收程序产品414、读取记录在其上的编程指令、以及把编程指令传输到存储器410以供CPU 402执行。如上所述,程序产品存储设备可以包括多种可移动介质(已记录有计算机可辨认指令)的任何一种,包括软盘和CD-ROM存储光盘。其他适当的程序产品存储设备可以包括磁带和半导体存储芯片。这样,根据本文的方法和披露内容进行操作所必需的处理指令可以具体化在程序产品上。可替换地,程序指令可以经过网络420接受到操作存储器410中。在网络方法中,在通过本领域技术人员所明了且而无需进一步解释的周知方法经过网络连接422建立起网络通信以后,计算机400通过网络接口418将包括程序指令的数据接收到存储器410中。然后通过CPU 402执行程序指令,从而包括计算机处理。
应当明了,示于图3的系统300中的所有工作站和计算机可以具有类似于示于图4的结构,这样,关于图4计算机400描述的细节可以适用于系统300的所有计算机。应当知道,任何通信站和计算机都可以具有可替换的结构,只要它们可以与示于图3中的其他通信站和计算机进行通信,并且可以支持本文描述的功能。例如,如果工作站不从程序产品设备接收程序指令,那么工作站就无需包括那个能力,而工作站将不具有描述于图4中与该能力有关的元件。
以下实施例仅是为了说明的目的而不是限制本发明的范围。
具体实施方式
实施例1
RNA的碱基特异性裂解
本文提供的是半自动化方案,用于一个试管反应,包括RNA转录和使用典型核糖核酸酶(核糖核酸酶T1)的G特异性内切核解裂解反应,以分析所研究的靶核酸的序列变异。由本文所提供的核糖核酸酶裂解方法所产生的片段可以根据本文提供的方法加以分析。核糖核酸酶T1反应被进行到使靶核酸上的G核苷酸位点裂解约100%。此裂解产生片段质量的特征图,其表示在所研究的靶序列中的序列变异。
材料和方法
寡核苷酸购自Metabion(德国)。5-甲基胞苷5′-三磷酸锂盐(Me-CTP)和5-甲基尿苷5′-三磷酸锂盐(Me-UTP)获自Trilink(美国)。
PCR扩增
一个5μl的PCR反应包括5ng基因组DNA、0.1单位HotStarTaqDNA聚合酶(Qiagen,德国)、各1pmol的正向和反向引物、由酶生产商提供的各0.2mM的dNTP和1×HotStarTaq PCR缓冲液(Qiagen,德国;包括1.5mM MgCl2、Tris-HCl、KCl、以及(NH4)2SO4,pH8.7)。在94℃进行酶激活和初始变性15分钟,接着45次扩增循环(94℃20秒,56℃30秒,以及72℃60秒),最后在72℃延伸3分钟。
RNA转录和核糖核酸酶T1裂解
PCR扩增以后,将2.4μl的PCR产物用于6μl转录反应,其包括10单位T7(或SP6)RNA聚合酶(Epicentre)和各0.5mM的NTP和1×转录缓冲液(包括6mM MgCl2、10mM DTT、10mM NaCl、10mM精脒、以及40mM Tris·Cl,在20℃下pH7.9)。当利用Me-UTP或Me-CTP进行转录时,UTP或CTP被修饰的甲基核苷酸完全代替。在37℃下保温转录反应两小时。在完成转录反应以后,加入20单位核糖核酸酶T1,然后在30℃下保温反应混合物30分钟。研究发现,在30℃下保温可迫使裂解反应向着3′-磷酸基团进行,并消除由质谱中的每个给定母片段的多个质量信号产生的复杂性。
一种替换的方法是使用不同的RNA内切核酸酶以产生碱基特异性片段。例如,体外转录物可以用核糖核酸酶U2在每个A位置、核糖核酸酶PhyM在每个A和U位置、或核糖核酸酶A在每个C和U位置完全消化。
样品调节和质谱测定
在转录和裂解以后,通过加入21μl H2O对每个样品进行稀释。磷酸主链的调节是用6mg SpectroCLEANTM阳离子交换树脂(装有铵离子的离子交换树脂;Sequenom,美国)来实现。接着,16nl的生成溶液被自动分送到硅芯片(SpectroCHIPTM,Sequenom)上。所有的质谱用Biflex III质谱仪(Bruker Daltonik,德国)进行记录。分析阳离子,并积累约50个单脉冲(once-shot)质谱。利用延迟离子提取和20kV的总加速电压,以线性飞行时间方式分析所有样品。
在一种替换方法中,代替在单个试管中进行扩增、转录、以及消化反应(均一方法),转录物可以通过杂交到与转录物的3′-末端互补的固定寡核苷酸上进行分离,例如,包括T7或SP6启动子的固定寡核苷酸。然后,分离的转录物可以在MALDI-MS相容条件下用核糖核酸酶加以消化。
结果和讨论
迫使完成核糖核酸酶T1裂解。优化具有足够核糖核酸酶浓度的反应条件,以避免甚至是非常少量的变性剂,如尿素或甲酰胺,其干扰被分析物/基体的结晶作用。相对于有限的/不完全的消化,所介绍的均一方法的一个优点是:它可以延伸到500nt或更大的模板区,而在更高的质量范围内(>12000Da)没用损失信号。在完全消化中,最大的质量片段是序列依赖的,由两个G位置之间的最大间距确定,但最大质量片段与RNA转录物的长度无关。
因为均一测定格式并不应用任何洗涤或除去液体,所以所有上述试剂和试剂成分对下游MALDI分析以及其评估有影响。最好的性能是用5μl PCR设置获得。这为分析正向和反向链的两个转录反应提供足够的容积。足够的PCR产物产率和质量是用5ng基因组DNA和1pmol各自需要的引物来实现。增加DNA浓度只产生稍高的产率。引物浓度的增加在某些情况下导致引物二聚体的大量产生。这些反应条件可以应用于各式各样的靶区。此外,其后的RNA转录补偿PCR产物产率的任何变化。每个RNA转录和裂解反应的总容积被最小化,而没有损失各个质谱的数据质量,即,片段信号的信噪比和片段信号的质量准确性没有减小。可再生的体外转录物产量是相对于与PCR扩增靶区的序列无关的6μl反应,利用8重量单位的T7 RNA或SP6 RNA聚合酶而获得。384 MTP格式的可重复性试验和高通量分析可以利用自动化液体处理设备来进行。
在37℃或更高温度下的核糖核酸酶裂解反应几乎总是产生3′-环状磷酸酯和3′-磷酸酯的1∶3混合物,而研究发现在30℃下保温会迫使裂解反应向着3′-磷酸酯基团。这消除了由质谱中各个给定片段的多个信号引起的复杂性。研究发现,除裂解条件以外,核糖核苷三磷酸浓度、转录缓冲液组成、以及RNA聚合酶的量可导致可重复的、均一的基于RNA的裂解测定。
借助超小型分送装置(其把样品转移到芯片阵列上)的小型化MALDI样品制备体现出相对于标准3-HPA宏观制备的改进。被分析物在MALDI样品中的非均一分布(热点区形式),在3-HPA宏观制备中几乎总是被观察到并妨碍自动化MALDI测量,通过在芯片阵列上的小型化和均一样品结晶作用被大大抑制。并且,未观察到体现被分析物质量的全质谱的仅较低或较高质量窗的样品分配。另外,对于任何单个样品,自动质谱测量的获取时间可以减少到5秒。
在硅芯片(SpectroCHIPTM)上良好的样品结晶作用通过样品的最终稀释来实现。在没有稀释的情况下,缓冲液成分和去污剂会抑制MALDI样品的结晶过程,导致在MALDI-TOF质谱中检测不到片段信号。样品稀释以及在最终溶液中加入离子交换树脂证明足以调节核酸片段的磷酸主链,从而允许均一断裂测定和基于芯片阵的MALDI-TOF MS分析的有效结合。
典型的断裂质谱表明,所有观察到的片段都具有5′-OH和3′-磷酸酯基团,并且没有观察到具有2′、3′-环磷酸酯基团的片段,它在受限制裂解条件下是一种稳定的中间物。这允许质谱中的所有主要信号被明确地赋予预期的片段。因此,按照所描述的方案,该方法提供高度可重复的和准确的结果。
基于RNA的断裂方法的局限是由U和C之间较小的质量差异(1Da)所引起。在某些情况下,具有相同长度以及仅相差一个或几个U或C残基的两个RNA片段不可能用当前的线性MALDI-TOF仪器的分辨率加以分开。为了避免这种仪器相关限制,可以使用一种可替换的方法,其中在转录反应期间一个核苷酸的嘧啶残基完全被化学修饰的碱基所代替。UTP或CTP可以被相应的5-Me-修饰的核糖核苷酸类似物所代替而不损失转录产量,从而使相应核苷酸的质量增加14Da。
质量改变方法的另一个优点来自以下事实:在没有任何先前序列信息的情况下,可以计算任何核糖核酸酶T1片段的A-C-U-组成。对核酸可以分开进行三种不同的核糖核酸酶T1裂解反应,包括:(a)CTP、UTP,(b)5-Me CTP、UTP,以及(c)CTP、5-Me UTP。对于任何RNA片段,反应(a)和(b)的给定片段之间的质量差异以及反应(a)和(c)之间的差异可以用来计算片段中U残基和C残基的数目。因为除最后的片段之外每个片段仅包括一个G,所以也可以推出A残基的数目。
对于部分碱基特异性裂解,未被碱基特异性核糖核酸酶裂解的修饰或未修饰核苷酸以一比率加入转录反应混合物,其决定被裂解的裂解位点的数目。典型的方案提供如下:
PCR引物和扩增子序列
正向引物(序列鉴定号6)
5′CAGTAATACGACTCACTATAGGGAGAAGGCTCCCCAGCAAGACGGACTT-3′
反向引物(序列鉴定号7)
5′-AGGAAGAGAGCGCCTCGGCAAAGTACAC-3′
扩增子(序列鉴定号8)
5′-GGGAGAAGGC    TCCCCAGCAA    GACGGACTTCTTCAAAAACA TCATGAACTT CATAGACATT GTGGCCATCATTCCTTATTT CATCACGCTG GGCACCGAGA TAGCTGAGCAGGAAGGAAAC CAGAAGGGCG AGCAGGCCAC CTCCCTGGCCATCCTCAGGG TCATCCGCTT GGTAAGGGTT TTTAGAATCTTCAAGCTCTC CCGCCACTCT AAGGGCCTCC AGATCCTGGGCCAGACCCTC AAAGCTAGTA TGAGAGAGCT AGGGCTGCTCATCTTTTTCC TCTTCATCGG GGTCATCCTG TTTTCTAGTGCAGTGTACTT TGCCGAGGCG CTCTCTTCCT-3′
RNA转录和核糖核酸酶裂解
每个反应需要2μl转录混合物和2μl扩增DNA样品。对于T特异性裂解,转录混合物包括40mM三羟甲基氨基甲烷乙酸酯(Tirs-acetate)(pH8),40mM乙酸钾,10mM乙酸镁,8mM精脒,各1mM的ATP、GTP、以及UTP,2.5mM的dCTP,5mM的DTT,以及20单位的T7 R&D聚合酶(Epicentre)。对于T特异性部分裂解,使用4∶1的dTTP和UTP。转录反应在37℃下进行两小时。在转录以后,将2μl核糖核酸酶A(0.5μg)加入每个转录反应。该核糖核酸酶裂解反应在37℃下进行1小时。
样品调节和MALDI-TOF MS分析
在核糖核酸酶裂解以后,在试管或384孔板内通过加入20μl的ddH2O对每个反应混合物进行稀释。通过在每孔中加入6mg阳离子交换树脂(SpectroCLEANTM,Sequenom)、旋转5分钟、以及在640×g下离心作用5分钟(2000rpm,离心IEC Centra CL3R,转子CAT.244)来调节磷酸主链。在离心作用以后,利用压电移液管将15nl样品转移到SpectroCHIPTM。用Biflex线性TOF质谱仪(Bruker Daltonics,Bremen)对样品进行分析。
实施例2
DNA的碱基特异性裂解
以下实施例描述了根据核酸中U残基的存在断裂靶核酸的方法,其是通过用尿嘧啶DNA糖基化酶进行消化以及利用NH3的磷酸主链裂解来完成。本文提供的断裂方法可以用来产生靶DNA的碱基特异性裂解片段,然后其可以按照本文提供的方法加以分析,以相对于参比DNA鉴定靶DNA中的序列变异。
所研究的DNA区在有dUTP而不是dTTP的情况下利用PCR进行扩增。该靶区利用50μl PCR反应加以扩增,该反应包括25ng基因组DNA,1单位HotStarTaq DNA聚合酶(Qiagen),各0.2mM的dATP、dCTP、以及dGTP,以及在1×HotStarTaq PCR缓冲液中的0.6mM的dUTP。以5pmol生物素化引物和15pmol非生物素化引物的不对称比例使用PCR引物。温度曲线程序包括在94℃下酶激活15分钟,接着45个扩增循环(95℃30秒,56℃30秒,以及72℃30秒),接着在72℃下最后延伸5分钟。
对于微卫星分析,温度曲线变为降落程序,其中,开始的退火温度为60℃,然后每两个循环退火温度下降2℃,直至达到最后的退火温度56℃。此温度曲线证明是更通用于微卫星基因座的扩增。
向粗制的PCR产物中加入50μg预洗涤的在45μl的2×B/W缓冲液(10mM Tris-HCl,pH7.5,1mM EDTA,2M NaCl)中的顺磁链霉抗生物素珠(Dynal),并在室温下保温20分钟。然后在室温下用0.1M NaOH对附有固定PCR产物的链霉抗生物素珠保温5分钟。在除去含有非生物素化PCR链的上清液以后,这些珠用10mMTris-HCl pH7.8洗涤三次。
附有单链生物素化PCR产物的珠再溶解于12μl UDG缓冲液(60mM Tris-HCl,pH7.8,1mM EDTA),加入2单位尿嘧啶DNA糖基化酶(MBI Fermentas),然后在37℃下保温混合物45分钟。在裂解反应以后,这些珠用10mM Tris-HCl pH7.8洗涤两次并用ddH2O洗涤一次。然后这些珠重悬浮在12μl的氨水中,在60℃下保温10分钟,接着冷却到4℃。含有洗脱链的上清液被转移到新的试管,然后加热到95℃保持10分钟,接着在80℃下用开口盖保温11分钟以蒸发氨。
用于部分裂解的一个典型方案提供如下:
PCR引物和扩增子序列
正向引物(序列鉴定号9)
5′-生物CCCAGTCACGACGTTGTAAAACG-3′
反向引物(序列鉴定号10)
5′-AGCGGATAACAATTTCACACAGG-3′
扩增子(序列鉴定号11)
5′-CCCAGTCACG    ACGTTGTAAA    ACGTCCAGGGAGGACTCACC ATGGGCATTT GATTGCAGAG CAGCTCCGAGTCCATCCAGA GCTTCCTGCA GTCACCTGTG TGAAATTGTTATCCGCT-3′
为了实现部分裂解,75μg链霉抗生物素珠(Dynal,Oslo)在50μl的1×B/W缓冲液中预洗涤两次,然后再悬浮在45μl的2×B/W缓冲液中(按照生产商的建议)。通过加入50μl PCR反应,经过生物素化的PCR产物被固定到再悬浮的链霉抗生物素珠,并在室温下保温20分钟。然后在室温下用0.1M NaOH保温附有固定PCR产物的链霉抗生物素珠5分钟,使双链PCR产物变性。在除去含有非生物素化PCR链的上清液以后,这些珠用10mM Tris-HCl pH7.8洗涤三次以中和pH。
这些珠再悬浮于10μl UDG缓冲液(60mM Tris-HCl,pH7.8,1mM EDTA,pH7.9),加入2单位尿嘧啶DNA糖基化酶(MBIFermentas),然后在37℃下保温混合物45分钟。在反应以后,这些珠用25μl的10mM Tris-HCl pH8洗涤两次,并用10μl的ddH2O洗涤一次。通过加入12μl的500mM NH4OH以及在60℃下保温10分钟对生物素化链进行洗脱。在保温10分钟以后,上清液被收集到新鲜的微滴度板或试管中,以在缺碱基位点裂解磷酸酯,接着用闭合盖在95℃下保温10分钟。为了蒸发氨,用开口盖在80℃下保温11分钟。
质谱分析
在DNA裂解以后,利用压电移液管将15nl样品转移到SpectroCHIPTM(Sequenom)。用Bruker Bilex质谱仪(Bruker Daltonics,Bremen)进行分析。
实施例3
A.通过扩增DNA的碱基特异性断裂来发现SNP
包含SNP的靶序列的碱基特异性裂解片段可以通过本文提供的方法加以分析以检测已知的SNP或发现未知的SNP。高通量碱基特异性断裂继之以质谱分析可以按照Rodi等,Bio Techniques,32:S62-S69(2002)(以引用方式结合于本文)所述进行,其中,使用的系统如由商标MassARRAYTM表示的系统。MassARRAYTM依靠与小型化阵列和MALDI-TOF(基体辅助激光解吸电离-飞行时间)质谱测定法结合的质谱分析以迅速地传送结果。按照本文提供的和Rodi等,Bio Techniques,32:S62-S69(2002)的方法产生的片段信号可以按照本文提供的方法加以分析。
在碱基特异性断裂中,建立靶序列的单链复制物,并在四个独立的反应中在相应于四个碱基的每一个的位置将其完全断裂。这减少核酸到寡核苷酸组的集合,其可以容易借助MALDI-TOF MS的精确性、准确性、以及分辨力加以解决。利用参比序列使得可以明确地鉴定每个生成的峰。序列的变化对产生的峰的图具有深刻和容易辨别的影响。这在以下序列中得到说明:
XXXACTGXXXC/AXXXTGACXXX(序列鉴定号12)
在此实施例中,示出了A/C碱基颠换。假设已知(参比)序列是含有A的序列;那么可以预期所示序列的A特异性裂解将产生所示的两个片段,7链节和6链节(忽略末端片段)。现在考虑如果样品在第二个A位置含有C的结果。将仅有两个A残基,而切割将产生所示的单个较大的片段,13链节;7链节和6链节将消失(或在杂合子的情况下,强度减弱)。当然,C特异性裂解将产生相反的结果,对于A等位基因具有13链节,而对于C等位基因有6链节加上7链节。甚至T特异性和G特异性裂解会产生可辨别的变化,这是因为C等位基因比A等位基因的质量小24Da,很容易在质谱低质量部分检测到峰位移。这些反应的任何一个反应将足以检测此多态性,但结合在一起时则可以确定精确的位置,因为在大多数情况下仅有一种方法来调解所有四个峰图。
单链核酸通过转录产生,它是一种非常可靠的、经济的、以及过程友好的方法。在DNA扩增期间利用三引物体系,T7 RNA聚合酶启动子可以附着于扩增子的任一末端(参见Rodi et al.,BioTechniques,32:S62-S69(2002))。使用靶特异扩增引物,每一个在5′末端具有稍微不同的序列标记。通过在反应中包括通用正向T7引物产生扩增子,其产生+转录物;通过将通用反向T7引物代入反应,则产生扩增子,其产生-转录物。在高通量模式中,建议简单地进行两个+链反应和两个-链反应,而不是在产生转录物以后对其进行区别。利用在一个孔中对C残基特异的核糖核酸酶反应,以及在另一个孔中对U残基特异的第二个反应来断裂两个+链。仅仅通过分别对-链运行C特异和U特异反应就可以推出G特异性裂解和A特异性裂解。
用于发现基因变异的断裂方法的主要优点之一是所产生信号的清晰度。这允许利用扩增子(而不是克隆)的定向发现以及结果的完全自动化解释。其一个实例示于CETP基因中(参见Rodi et al.,Bio Techniques,32:S62-S69(2002))。来自CETP基因(序列鉴定号13)的内含子10的500碱基对扩增子产生自12个个体的每一个,并被转录以及进行T特异断裂。部分质谱精确地对应于基于Ensembl序列的预测峰图;所有预期的峰都存在,并且没有观察到未预期的峰。12个个体中的两个显示不同的图,在3159Da处显示未预期的峰;此外,在2830.7Da处的峰具有显著降低的信号强度。因为不缺少预测的峰,所以这与这种个体(在T残基具有核苷酸取代)的同系物之一是一致的,从而使它能够耐裂解并产生更大质量的新信号。第二个体在3159Da处具有相同的未预期峰,但其相对强度更大,并且在2830.7Da处的峰完全不存在;因而此个体对于至今未知的SNP是同型的。根据上述断裂方法产生的片段信号的清晰度、准确性、以及快速性使它们对于按照本文提供的方法进行分析来说,属于优选的信号。
B.通过碱基特异断裂评价SNP发现
本文提供的用于分析序列变异候选的精简集的方法(“自动化”方法)以C++实现。包括在该实现中的是精确的SNP评分方案,以及根据本文提供的方法的迭代SNP选择过程。在某些情况中,如以下提供的,按照以C++实现的算法的分析与候选SNP列表的人工组合进行比较。人工组合是通过如下过程进行:检查互补裂解反应之间的一致性和/或指示片段在样品集中的再现,然后针对不包含序列变异的参比序列的每种可能的序列变化(而不是根据本文提供的方法获得序列变异候选的精减集)模拟变异质谱或其他质量指示物,如在凝胶电泳情况下的迁移率。在人工方法中,相应于特定序列变异或序列变异集的每个模拟变异质谱与实际变异质谱进行比较,以确定最可能导致变异质谱的序列变化。
分析两组样品,第一组10个扩增子(扩增子1~扩增子10;序列鉴定号45~54)和第二组30个扩增子(扩增子2.1~2.30;序列鉴定号55~84),其来自人基因组的不同区,平均长度为500个碱基对。对于每个扩增子,分析了来自12个白种人个体的DNA样品(Dausset et al.,Genomics,6(3):575-577(1990))并与相应的参比序列比较,以确定SNP在由扩增子序列跨越的区内的存在。
方法
碱基特异性裂解的进行如下:采用RNA转录(借助T7 RNA聚合酶),继之以如本文提供的核糖核酸酶裂解。所有PCR引物在其5′末端用T7启动子标记。对每个扩增子整理两组PCR引物以便于有义或反义链的转录,其中PCR引物具有与在40个扩增子的5′和3′末端的18~22个碱基相同或互补的序列,这40个扩增子的序列在序列列表中的序列鉴定号为45~84。核糖核酸酶A用来利用有义转录物获得T特异和C特异性裂解,以及利用反义转录物获得A特异和G特异性裂解的等同物(在转录物中加入dCTP(dTTP)会阻断核糖核酸酶A对C(T)残基的活性,因而使得核糖核酸酶A对于U或C残基是特异的)。这样,分析了所有四个碱基特异性裂解的等同物。
在384孔板中准备进行5μl PCR反应。采用如本文提供的一致的PCR条件。在PCR以后,转录混合物加入微滴度板的每个孔中,并在37℃下进行转录2小时。在转录之后,核糖核酸酶A加入每个孔中,并在37℃下进行裂解60分钟。用于MALDI-TOF MS分析的RNA片段的调节是通过每孔加入6mg SpectroCLEANTM来进行。
为了MALDI-TOF MS分析,借助针状装置,10nl被分析物被自动分送到384阵列芯片上。所有的PCR后吸移步骤是利用Beckman Multimek移液管进行。
结果
SNP通过产生序列变异候选的精简集的自动分析、模拟该精简集、以及根据本文提供的方法进行评分来加以鉴定。通过人工分析在软件中报道的另外和失去的信号进一步对结果进行证实。所有鉴定的SNP通过其后的链终止引物扩展反应加以证实。在碱基特异反应不可能准确确定SNP位置的情况下,引物扩展反应也用来确定SNP的位置。
A.第一组:10个扩增子
下表提供在第一组10个扩增子中鉴定的SNP(碱基在扩增子序列中的变化和位置)。
  扩增子   鉴定的SNP   序列鉴定号
  1   C/T,123   45
  2   T/G,179   46
  C/T,317
  3   G/A,285   47
  4   A/G,131   48
  5   G/A,50   49
  T/C,111
  C/T,133或135
  C/T,185
  T/G,198
  C/A,253*
  T/C,359*
  6   C/G,131   50
  7   T/A,236   51
  8   C/G,84   52
  T/C,269
  9   C/A,136   53
  G/A,383
  10   G/C,76   54
在以上由本文提供的自动化方法鉴定的19个SNP中,仅两个(用*标明)被确定为假阳性,其未由验证性引物扩展反应检测到。此外,由软件报道这两个假阳性具有非常低的置信度。
B.第二组:30个扩增子
类似地鉴定在第二组30个扩增子中的SNP(碱基在扩增子序列中的变化和位置)。此外,根据本文提供的方法通过自动产生和分析序列变异候选的精简集而鉴定的SNP与通过裂解图的人工检查和分析(所有可能序列变异候选的结构、模拟、以及评分)而鉴定的SNP进行比较,其中裂解图是通过四个互补碱基特异性裂解反应而获得。所有SNP,不管是通过人工还是自动化分析所检测到的,通过链终止引物扩展反应证实为是真阳性或假阳性。
30个长度为328至790个碱基对的“分离”扩增子(通过PCR扩增的DNA的非重叠性亚区)扩增自人染色体22上的不同区(Dunham et al.,Nature,402(6761):489-495(1999)),扩增子的平均长度为433个碱基对。总计分析了11793个碱基对。对于质谱分析,使用了核糖核酸酶A进行四碱基特异性裂解反应,并通过质谱测定法独立地进行测量。
通过人工分析质谱数据,发现了50个SNP,并通过链终止引物扩展加以证实。对于50个SNP中的6个,根据裂解质谱数据不能确定准确的位置。质谱数据的人工分析非常费时,并且需要若干星期来完成分析。此外,利用在质谱数据的人工分析中丢失的电泳数据发现了一个SNP。
通过质谱数据或电泳数据的人工分析总计发现51个SNP(平均来说,每231个碱基对一个SNP)。这表示,在SNP发现应用的情况下,要达到的所希望的临界值是通常(但不一定)为1或2的序列变异级k,其中级2包括彼此更紧密接近的SNP。在突变发现或再测序的情况下,k值通常(但不一定)为3或4或更大,这是因为彼此紧靠着的多个碱基变化更可能被观测到。
然后通过本文提供的自动化方法对裂解质谱数据进行分析。所有51个SNP都包括在22,447个利用本文提供的方法实施的算法所构造的序列变异候选的潜在精简集中。单独地对每个样品进行分析,从而平均对每个样品的1871个序列变异进行评分。在由自动化方法鉴定的53个SNP中,7个被证实为假阳性,而46个被证实为真阳性。此外,对于46个真阳性SNP中的6个,不能确定其准确位置。
虽然自动化方法比人工方法少鉴定了5个SNP,但应当注意到,这种水平的敏感性和特异性是利用默认的分析程序包评分方案和临界值获得的,而不是使程序包的参数适合本实施例。此外与完成人工分析所需的若干星期的时间相反,自动化方法(与人工模拟1132128个序列变异候选的总集相比,其构造和评分22,447个序列变异候选的精简集)显著减少了处理数据所需要的运行时间,进若减少了总的分析时间。
相应于序列变异级k=1、2、或3的运行时间测量在利用1.0GHz第三代奔腾处理器的单处理器台式计算机上执行。对于k=1,与62.6秒的人工运行时间相比,自动化运行时间是1.5秒。当序列变异级增加时,运行时间的差异会大大地增加。因此,对于k=2,与91.9分钟的人工运行时间相比,自动化运行时间是32.2秒。对于k=3,与57小时的人工运行时间相比,自动化运行时间是467秒。因此,利用根据本文提供的方法的算法,甚至更高级变异(k=3)的序列变异分析,对于每个被分析的质谱可以在0.33秒内完成,因而很好地适合于质谱数据的实时分析。
实施例4
通过碱基特异断裂对细菌进行分类
此实施例提供碱基特异断裂细菌菌株的方法。按照本文提供的断裂方法和用von Wintzingerode等的方法(Proc.Natl.Acad.Sci.U.S.A.99(10):7039-7044(2002),其以引用方式结合于本文)产生的片段可以按照本文提供的方法加以分析,以鉴定靶细菌菌株。
材料和方法
细菌菌株
在本研究中使用了分枝杆菌物种的12种参比菌株(“模式(type)”菌株),其由德国微生物收集和细胞培养(DSMZ,Braunschweig,德国)和医学实验室reg.ass.标准化和文件协会(Instand e.V.,Düsseldorf,德国)提供,以及分枝杆菌的24种临床分离株。这些分枝杆菌生长在液体培养液中(MGIT液体培养液;Becton Dickinson Europe,法国),该培养液具有富集补充物(MGIT体系油酸-白蛋白-右旋糖-柠檬酸)和抗微生物补充物(MGIT体系PANTA(多粘菌素B、萘啶酮酸、甲氧苄啶、以及阿洛西林))。除海分枝杆菌在30℃下进行培养之外,分枝杆菌在37℃下进行培养。当表示细菌生长时,通过在3300×g下离心作用20分钟,分枝杆菌被集中在0.5ml的液体培养基中。
DNA提取
利用商业上可获得的试剂盒(呼吸样品制备试剂盒,AMPLICOR:Roche Molecular Systems公司,Branchburg,N.J.,美国)提取DNA。简单地说,将100μl再悬浮分枝杆菌沉淀物转移到1.5ml聚丙烯试管中,用由试剂盒提供的洗涤液(500μl)洗涤,并离心(14,000×g)10分钟。除去上清液,然后细菌沉淀物再悬浮在溶胞试剂(100μl)中。在60℃的加热块中保温45分钟以后,用所提供的中和剂(100μl)中和溶胞产物,并在4℃下保存生成的DNA溶液。
通过PCR和测序进行鉴定
如上所述分析来自12种分枝杆菌参比菌株的全长度16S rRNA基因(参见序列鉴定号14~25)(参见von Wintzingerode et al.,Appl.Environ.Microbiol.65:283-286(1999))。简单地说,利用真细菌引物TPU1(AGA GTT TGA TCM TGG CTC AG(序列鉴定号39),对应于大肠杆菌位置8~27)和RTU8(AAG GAG GTG ATC CAKCCR CA(序列鉴定号40),对应于大肠杆菌位置1541~1522(对于来自大肠杆菌的16S rRNA基因序列,参见序列鉴定号29))对16S rDNA进行PCR扩增。PCR产物连接于载体pCR2.1(AT克隆试剂盒,Invitrogen,de Schelp,荷兰),并按照生产商的说明转变成大肠杆菌。重组质粒DNA利用GFX质粒制备试剂盒(AmershamPharmacia,Freiburg,德国)加以纯化,并借助热测序酶荧光标记引物循环测序试剂盒(Amersham Pharmacia,Freiburg,德国)直接用于循环测序。用LICOR 4000L自动化DNA序列分析仪(MWG-Biotech,Ebersberg,德国)分析测序反应,并与ARB软件联合(http://www.arb-home.de)。12种参比菌株的全长度16S rRNA基因序列存放在EMBL核苷酸序列数据库中(参见EMBL访问号AJ536031-AJ536042),并在序列列表中作为序列鉴定号14~25。
对来自临床来源的分枝杆菌的进行鉴定,具体如下:按照Springer等的方案(J.Clin.Microbiol.34:296-303(1996)),对部分16S rDNA进行PCR扩增,并针对分别对应于大肠杆菌16S rDNA(序列鉴定号29)位置129~267以及430~500的高变区A和高变区B直接测序。利用Husar程序包的程序BLASTN和FASTA(版本4.0;Heidelberg Unit Sequence Analysis Resources,DKFZ,Heidelberg,德国),将生成的序列与EMBL和基因文库数据库中所有的16S rRNA条目的序列进行比较。基于具有数据库条目的两个高变区的序列同一性,以及总的大于99%的序列同一性,临床分离株被鉴定到物种水平。
通过PCR和MALDI-TOF进行鉴定
对于每种分枝杆菌菌株进行PCR和MALDI-TOF分析三次。PCR扩增混合物包括PCR缓冲液(Tris-HCl、KCl、(NH4)2SO4、MgCl2(pH8.7)),在总容积为50μl的缓冲液中,具有2.5mM的最终MgCl2浓度、200μM(每个)脱氧核苷三磷酸、1单位HotStarTaq(QIAGEN GmbH,Hilden,德国)、10pmol引物Myko109-T7(5′-gtaatacgactcactataggg ACG GGT GAG TAA CAC GT-3′(序列鉴定号41);对应于大肠杆菌16S rRNA从位置105~121)、10pmol引物R259-SP6(5′-atttaggtgacactatagaa TTT CAC GAA CAA CGCGAC AA-3′(序列鉴定号42);对应于大肠杆菌16S rRNA从位置609~590)、以及5μl DNA。利用热循环控制装置(Goldblock;Biometra,德国),在开始的HotStarTaq激活步骤(15分钟,95℃)之后,进行PCR扩增40个循环:变性(1分钟,95℃)、退火(1分钟,58℃)、以及延伸(1分钟30秒,72℃)。通过琼脂糖电泳对扩增进行证实。
RNA转录和核糖核酸酶T1裂解
通过在37℃下对2.4μl PCR产物,10单位的T7(或SP6)RNA聚合酶(Epicentre),各0.5mM的ATP、GTP、UTP,以及在1×转录缓冲液(6mM MgCl2、10mM DTT、10mM NaCl、10mM精脒、40mM TrisCl(pH7.9),20℃)中保温5-甲基核糖CTP2小时,来进行正向链RNA转录。核糖CTP被化学修饰的类似物5-甲基核糖CTP(Trilink,美国)代替,以在U和C之间产生质量差异。在完成转录以后,通过加入20单位核糖核酸酶T1和1单位虾碱性磷酸酶(SAP)以及在30℃下保温30分钟,实现完全的G特异性裂解。
样品调节和MALDI-TOF MS分析
通过加入21μl水对每个样品进行稀释。磷酸主链的调节是通过加入6mg SpectroCLEANTM树脂(装荷有铵离子的阳离子交换树脂;Sequenom,美国)来实现。调节以后,10nl样品被利用针状装置自动转移到预装有3-HPA基体的SpectroCHIPTM硅芯片上(Sequenom,美国)。利用Biflex III质谱仪(Bruker Daltonik,Bremen,德国)记录所有质谱。只分析正电荷离子,并且每个样品积累大约50个一次运算质谱。利用延迟离子提取和20kV的总加速电压并以线性飞行时间方式分析所有样品。质谱处理和峰赋值利用软件包XMASS5.0进行,其由生产商(Bruker Daltonik)或内部软件提供,用于基线校正、峰鉴定和校准,从而将其检测到的质量信号图与衍生自模式菌株的in silico图的参比序列以及与公布的16S rDNA序列的insilico质量图比较来鉴定临床分离株的菌株。
结果
分枝杆菌分离株
从所有模式菌株和临床分离株,对与大肠杆菌16S rDNA位置105~609(序列鉴定号29)的16S rRNA基因相对应的大约500碱基对区进行PCR扩增。RNA转录和碱基特异性裂解导致针对所有被测试的模式菌株的独特的MALDI-TOF质谱。
评定结核分枝杆菌H37Rv(序列鉴定号24)的典型质谱。主要的裂解产物被赋予峰号1~27,并确定核酸组成以及在未裂解PCR扩增子内的准确位置。参比质量信号已通过在鸟嘌呤的所有位置上的in silico裂解从参比序列计算得到(),并与通过MALDI-TOFMS检测的质量信号相联系。质量差异小于4Da的计算片段无法通过线性、轴向MALDI-TOF MS分开。相应的检测到的裂解产物仅被估计为一个片段(峰号2、3、4、8、9、11、12、18)。
质量信号被分类为“主”裂解产物(在扩增子的3′-末端之前)或“末”裂解产物(在扩增子的3′末端)。质量信号22、24、以及25号被归入“末”,因为它们表示了转录物的3′-末端的裂解产物(都在位置510),其差别分别是加入了一个5-甲基-CTP(3′片段+319.2Da)或一个ATP(3′片段+329.2Da)。核苷酸非模板加入RNA转录物的3′-末端反映了T7-RNA聚合酶的末端转移酶活性,这是Taq DNA聚合酶的一个众所周知的特点。对于所有分枝杆菌物种,核苷酸非模板加入末端片段被包括在片段的软件自动化鉴定中,以避免误判断。
在1500和2600Da之间的质量范围内分析了5种典型的分枝杆菌模式菌株的特征质谱。结核分枝杆菌(序列鉴定号24)、鸟分枝杆菌(序列鉴定号15)、胞内分枝杆菌(序列鉴定号19)、堪萨斯分枝杆菌(序列鉴定号20)、以及隐藏分枝杆菌(序列鉴定号16)通过其独特的质谱而清楚地区分开。结核分枝杆菌是仅有的在1828Da缺少片段的物种。隐藏分枝杆菌显示了在所有其他质量图内不存在的1884Da的信号。堪萨斯分枝杆菌的质谱在2180Da没有显示信号。鸟分枝杆菌和胞内分枝杆菌的质谱与其他物种的差别是分别在2532Da和2157Da的片段。
编制了在本研究中使用的所有分枝杆菌物种的In silico、能鉴别的峰图。根据与结核分枝杆菌的质谱比较失去和附加的峰的数目进行排列。仅包括在所有分枝杆菌物种内不存在的能鉴别的峰。基于多个附加的或失去的质量信号,结核分枝杆菌可以清楚地与其他物种区分开。与结核分枝杆菌相比,隐藏分枝杆菌和堪萨斯分枝杆菌是最靠近的物种,其分别显示一个失去的和三个附加的峰或两个失去的和两个附加的峰。海分枝杆菌(序列鉴定号24)和瘰疬分枝杆菌(序列鉴定号22)仅相差两个片段(2453.5Da、2795.8Da)。所有计算出的质量图通过实验加以证实。所有质谱的比较导致明确鉴定所有分枝杆菌物种。
在蟾分枝杆菌模式菌株DSM 43995的情况下,实验和计算质量图的比较揭示在MALDI TOF分析中在4408.8Da有一附加的峰。相应的蟾分枝杆菌16S rDNA扩增子(序列鉴定号25)的克隆和若干质粒的重复测序导致检测三种序列变异体,其在大肠杆菌位置198(T/C)和434(T/C)上相差1~2个碱基对。大肠杆菌位置198上的序列变异在G特异性裂解反应中未检测到。生成的二聚体片段(50H-TG-3p和50H-CG-3p)与发生于扩增子中的不同位置的、具有相同组成的裂解产物重叠。大约500碱基对扩增子的碱基特异性裂解统计上导致所有可能的二聚体结合,其表现多次。此外,低于1000Da的质量范围可以受到由基体分子引起的背景噪声信号的影响,这是在基体辅助激光解吸/电离飞行时间质谱测定法中使用3-羟基吡啶甲酸基体(3-HPA)所特有的特点。
在大肠杆菌位置434(T/C)的序列变异会影响14碱基对G特异性裂解产物。在T(在裂解的RNA中相应于U)和C之间的核苷酸质量差异使预期片段的质量减少13Da。在4408.8Da和4421.8Da检测到两个质量信号表明模式菌株的被分析的扩增子包括两种序列变异体的混合物。
在建立包括12种分枝杆菌模式菌株的数据库以后,用MALDI-TOF质谱测定法自动分析24个临床分离株。G特异性裂解RNA转录的16S rDNA扩增产物和质谱测定法可明确地鉴定21个分离株。在21个分离株中,8个鉴定为结核分枝杆菌(序列鉴定号24),并且从鸟分枝杆菌(序列鉴定号15)、戈氏分枝杆菌(序列鉴定号18)、胞内分枝杆菌(序列鉴定号19)、以及蟾分枝杆菌(序列鉴定号25)各鉴定两个分离株。剩余的5个分离株被鉴定为龟分枝杆菌(序列鉴定号85)、偶发分枝杆菌(序列鉴定号17)、堪萨斯分枝杆菌(序列鉴定号20)、海分枝杆菌(序列鉴定号21)、以及耻垢分枝杆菌(序列鉴定号23)。
所有代表来自模式菌株数据库的物种的分离株用重复实验正确地加以鉴定。代表金色分枝杆菌(MT1 323)、石蜡分枝杆菌(MT1423)、以及interjectum分枝杆菌(MT1 223)的三个临床分离株在MALDI-TOF分析其RNA裂解产物以后无法被鉴定。数据库缺少所有这三种物种的相应的in silico质量图。用物种特异质量信号图扩展数据库能够在所有相应实验中正确地进行鉴定,其中,物种特异质量信号图计算自所发表的石蜡分枝杆菌(序列鉴定号26)、interjectum分枝杆菌(序列鉴定号27)、以及金色分枝杆菌(序列鉴定号28)的16S rDNA序列。
鲍特杆菌菌株
借助上述方法并利用真细菌引物TPU1(序列鉴定号39)和RTU8(序列鉴定号40)扩增可变16S rRNA基因区(参见序列鉴定号30~38),还分析了三种已知鲍特杆菌物种-鸟鲍特杆菌、trematum鲍特杆菌、以及petrii鲍特杆菌,以及6种到目前为止还未培养的厌氧细菌,有机氯还原微生物聚生体(参见vonWintzingerode et al.,Proc.Natl.Acad.Sci.U.S.A.99(10):7039-7044(2002))。如所描述的,在核糖CTP和核糖UTP核苷酸之间1Da的质量差异可通过用5甲基-类似物代替任何一个嘧啶碱基得到增加,而不会察觉到转录产量的损失。借助核糖核酸酶T1的G特异性裂解产生片段质量的特征图,其表示各个16S rRNA基因靶序列。所有6种到目前为止还未培养的鲍特杆菌菌株被明确鉴定,并且结果与通过标准荧光双脱氧测序获得的结果一致。
实施例5
通过碱基特异断裂检测甲基化模式
将甲基共价加入胞嘧啶主要在CpG二核苷酸观察到。和其他二核苷酸相比,这些CpG岛不是经常观察到,其频率小于对随机核酸序列的预期。在启动子区以及在基因的5′末端可观察到更多的CpG二核苷酸。本文提供的是利用断裂图来研究靶序列中的甲基化模式的示范性方案。根据该示范性方案产生的片段可以按照本文提供的方法加以分析,用于相对于参比序列研究靶序列的甲基化模式的变化。
包括甲基化胞嘧啶的基因组DNA可以用亚硫酸氢钠进行处理,其中非甲基化胞嘧啶转化成尿嘧啶,但甲基化胞嘧啶仍然是胞嘧啶。在亚硫酸氢盐处理以后,顶部和底部链不再是互补的。这种甲基化依赖性序列变异可以作为分析甲基化模式的基础。利用质谱测定法检测甲基化相关序列变异可以通过产生限定片段来完成,其中甲基化导致受影响片段的质量偏移。
胞嘧啶甲基化的检测是在染色体11.p15.5(序列鉴定号43)的lgf2/H19基因座进行试验。在H19和lgf2之间的称作印记控制区(ICR)的序列在精液中被完全甲基化,而在卵母细胞中则完全未甲基化。在成年血液样品中,lgf2/H19区仅在一个亲本等位基因上被甲基化。lgf2是基本的胎儿生长因子,并且其误调节在贝-威综合征和维尔姆斯瘤中起作用。H19是一种神秘的非翻译RNA,其功能仍然未知。对于lgf2/H19,有差别地甲基化的ICR对于两种基因的印记转录是必要的。
亚硫酸氢盐处理基因组DNA以后进行PCR。用于PCR的引物包括5′末端上的转录标记,用于T7或SP6聚合酶。在某些情况下,含有6个碱基(agaagg)的转录标记被放置在聚合酶标记和该寡核苷酸的DNA结合位点之间。这可以改善转录反应并有助于抑制过早终止的影响。
RNA转录是以384孔板形式进行。在转录基本混合物加入PCR产物以后,在37℃下进行转录2小时。接着,把裂解酶混合物加入转录反应。之后,加入离子交换剂,然后反应溶液被点样到芯片上,并通过MALDI-TOF MS进行分析。
RNA裂解可以用两种不同的核糖核酸内切酶进行:核糖核酸酶T1和核糖核酸酶A。通过裂解磷酸二酯键,两种酶都作用于单链RNA,但其靶核苷酸不同。核糖核酸酶T1在3′-鸟苷酸残基和旁侧核苷酸的5′-羟基残基之间进行裂解。此反应产生具有末端3′-GMP的寡核苷酸。核糖核酸酶A特异攻击C和U残基上的RNA。核糖核酸酶A催化在核苷酸的5′-核糖和附着于旁侧嘧啶核苷酸的3′-核糖的磷酸基团之间的裂解。
在核糖核酸酶处理以后,SAP被加入裂解反应,以减少环状一磷酸副产物的数量。
突变聚合酶T7用来把dCTP或dTTP加入转录物。这允许当分别加入dCTP或dTTP后在U或C残基进行碱基特异性裂解,并且还防止发生由于rCTP和rTTP的几乎相同的质量而产生的问题。
因此,一个序列有6种理论上可能的裂解方案:
  被标记的正向引物T7   被标记的反向引物T7
 核糖核酸酶T1   G特异性裂解   G特异性裂解
 核糖核酸酶A;dCTP   T特异性裂解   T特异性裂解
 核糖核酸酶A;dTTP   C特异性裂解   C特异性裂解
在一个实施例中,如果在第五位置的胞嘧啶被甲基化,那么亚硫酸氢盐处理的DNA序列如TAAAC(5′甲基)GCAT将仍然是TAAACGTAT,并且如果未甲基化则将转化成TAAATGTAT。
M32053靶区的转录产物是430个核苷酸长的片段,其包含ggg转录起始和agaagg标记以及421个核苷酸长的转录产物。碱基特异性裂解以后生成片段的数目依赖于裂解方案、转录方向、以及甲基化状态。
结果
核糖核酸酶A裂解
正向转录物:
甲基化样品的质谱清楚地不同于非甲基化样品。在CpG甲基化的所有情况下,产生新的片段,其可以归因于在那些片段中的甲基化。那些片段的5个包含两个CpG位点,而两个信号由两个各自含有一个CpG位点的片段所产生。在某些情况下,并不能清楚地区别那个CpG位点引起检测到的信号;在那些情况下,缺少来自非甲基化CpG岛的信号有助于鉴定甲基化状态。
反向转录物:
甲基化和非甲基化样品是清楚地区别的。与正向转录相反,每个甲基化事件导致相应信号的质量漂移。与正向反应相比,信号强度更好一些。
核糖核酸酶T1裂解:
总的信号强度低于在核糖核酸酶A裂解样品中的信号强度。在野生型T7聚合酶的情况下转录结果最好。在裂解反应中加入SAP以及把agaagg标记放入引物并会不改善效率。
正向转录物:
在正向反应中,甲基化样品明显不同于非甲基化样品。在甲基化样品中13d的质量漂移有时难以在信号束中检测,这是因为峰靠近在一起。
反向转录物:
与其他转录相比,在非甲基化样品中反向反应更复杂。因为在正向链中没有胞嘧啶,所以在反向转录物中没有鸟苷,因此没有用于酶切割的识别位点。因此,信号强度较弱。
IGF2/H19印记区M32053的甲基化模式
在甲基化和非甲基化DNA中,m32053区的甲基化模式明显不同。被分析的样品被完全甲基化或没有甲基化。先前的论文描述了在种系以及发育期阶段中甲基化DNA和非甲基化DNA的完全分离。在位置470的DNA CpG位点被清楚地分类甲基化。数据还证实在位置347的CpNpG位点的甲基化。
甲基化比率
为了确定在DNA样品中的甲基化比率,汇集了不同量的甲基化和非甲基化DNA。质粒DNA浓度的确定是借助Pico Green荧光测定来进行。
被分析的样品具有提高的甲基化DNA浓度。分析了DNA池,其包括0%、0.5%、1%、5%、10%、20%...90%、95%、99%、99.5%、以及100%的甲基化DNA。核糖核酸酶A裂解在两个转录方向进行。比较正向和反向反应,在准确性或可靠性方面没有显著差异。测量了峰面积以检查甲基化与非甲基化的甲基化比率。
甲基化比率确定在10%~90%甲基化DNA的范围内,准确度为±2%。在甲基化DNA的较高和较低范围内的准确度下降。在甲基化DNA的浓度低于5%的样品中,相应的峰变得难以与背景分离。因此,检测限度是在约1%~%的甲基化DNA之间。
基因组DNA
分析表明甲基化和非甲基化以50/50的比率克隆。这表明在基因组DNA中甲基化等位基因和非甲基化等位基因的PCR扩增相等。
有效范围和丰余
理论上,每个甲基化CpG可以产生特定片段,这使得在质谱中至少产生一个指示性质量信号。这些信号的一些可能检测不到,因为其质量属于被切去较高或较低质量。MALDI-TOF设备可允许检测质量在1000~11000Da之间的裂解产物,其相当于长度为约3~35个核苷酸的片段。取决于靶核酸序列,单独一个反应可确定靶核酸内所有CpG位点的例如约75%的甲基化状态。为了获得所有CpG位点的信息,可以使用两至四个反应,其中这些反应可以包括正向或反向转录产物的C或T特异性裂解。这种结合可以允许在正向链上的每个核苷酸进行碱基特异性裂解,这是因为在反应链上的C特异性裂解相当于在正向链上的G特异性裂解,以及在反应链上的T特异性裂解相当于在正向链上的A特异性裂解。这种来自两至四个裂解反应的组合信息可以允许编制准确的甲基化图。对于IGF2/H19区,甚至两个反应就足以获得每个CpG位点的甲基化状态。使用四个反应则提供多余的信息,其中所有CpG位点的92%由一个以上的信号表示。因而,每个甲基化事件由一个或多个观测结果独立地证实。
利用RNA断裂并结合MALDI-TOF MS检测的甲基化分析是一种成功的技术,其提供了高通量分析与使用少量较差质量DNA相结合的潜力。它不仅是定性而且是定量的方法。根据所例示的方案产生的片段可以用于按照本文提供的方法进行分析。
实施例6
样品混合物中的序列变异分析
此研究的目的是相对于参比序列并通过具有野生型和突变DNA的不同DNA比率的样品中的碱基特异断裂来分析靶序列中的序列变异,并评价检测敏感性。
材料和方法
DNA是衍生自癌基因K-Ras(序列鉴定号44)的269个碱基对扩增子。DNA样品包括野生型序列或衍生自肿瘤细胞系的K-Ras突变序列。以野生型DNA和杂合子突变DNA的不同比率混合DNA样品(样品A、B、C、D、以及E)。对于每个样品,混合物中的突变DNA的比率从0%到50%不等,如下表所示:
DNA名称  DNA与杂合子突变 DNA的重量比率 突变DNA的百分数
  DNA A   1∶1   25%
  DNA B   9∶1   5%
  DNA C   0∶1   50%
  DNA D   4∶1   10%
  DNA E   1∶0   0%
每个DNA样品含有50ng(10ng/μl,5μl)。按照实施例1提供的方案,均一碱基特异性裂解反应在四个不同的日期进行四次。相对于野生型扩增子,通过有差别地裂解突变扩增子获得的片段用质谱测定法加以分析,接着按照本文提供的方法分析质谱片段峰。
结果
在突变扩增子中检测到在位置216的G/A取代。通过在从2313d(在G等位基因中)到2297d(在A等位基因中)的C特异正向反应中的质量漂移证实了该突变。检测此信号对于鉴定突变序列中SNP的存在是必要的。在所有DNA样品A、B、C、以及D中检测到在2297d的信号(相应于A等位基因),甚至当突变等位基因的存在水平仅为5%(DNA样品B)时也是如此。
由于对于本领域技术人员来说各种修改将是显而易见的,因而本发明应仅由所附权利要求的范围所限定。
Figure IYZ000004142214200011
Figure IYZ000004142214200071
Figure IYZ000004142214200081
Figure IYZ000004142214200121
Figure IYZ000004142214200151
Figure IYZ000004142214200181
Figure IYZ000004142214200191
Figure IYZ000004142214200231
Figure IYZ000004142214200241
Figure IYZ000004142214200251
Figure IYZ000004142214200271
Figure IYZ000004142214200281
Figure IYZ000004142214200291
Figure IYZ000004142214200301
Figure IYZ000004142214200311
Figure IYZ000004142214200321
Figure IYZ000004142214200351
Figure IYZ000004142214200361
Figure IYZ000004142214200371
Figure IYZ000004142214200401
Figure IYZ000004142214200451
Figure IYZ000004142214200471
Figure IYZ000004142214200501
Figure IYZ000004142214200511

Claims (65)

1.一种确定靶生物分子中的序列变异的方法,包括:
a)通过使所述靶生物分子与一种或多种特异性裂解试剂接触将所述靶生物分子裂解成片段;
b)用相同的裂解试剂将参比生物分子裂解或模拟裂解成片段;
c)确定在a)和b)中产生的所述片段的质量信号;
d)确定在a)中产生的所述片段和在b)中产生的所述片段之间的质量信号的差异,从而鉴定不同的片段;
e)确定与在d)中鉴定的不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;以及
f)确定与所述基底成分参考相对应的一组经过精简的序列变异候选,从而与所述参比生物分子比较确定所述靶中的序列变异。
2.根据权利要求1所述的方法,其中,所述生物分子是生物聚合物。
3.根据权利要求1所述的方法,其中,所述生物分子是多肽。
4.根据权利要求1所述的方法,其中,所述生物分子是核酸。
5.根据权利要求1所述的方法,其中,所述生物分子是DNA。
6.根据权利要求1所述的方法,其中,所述生物分子是RNA。
7.根据权利要求4至6中任一权项所述的方法,进一步包括对所述候选序列评分,并确定所述靶核酸分子中的所述序列变异。
8.根据权利要求1至6中任一权项所述的方法,其中,所述质量信号差表现为失去的信号、附加的信号、强度不同的信号、和/或具有不同信噪比的信号。
9.根据权利要求1至6中任一权项所述的方法,其中,所述质量信号通过质谱测定法确定。
10.一种确定靶核酸分子中的序列变异的方法,包括:
a)通过使所述靶核酸分子与一种或多种特异性裂解试剂接触将所述靶核酸分子裂解成片段;
b)用相同的裂解试剂把参比核酸分子裂解或模拟裂解成片段;
c)确定在a)和b)中产生的所述片段的质量信号;
d)确定在a)中产生的所述片段和在b)中产生的所述片段之间的质量信号差,从而鉴定不同的片段;
e)确定与在d)中鉴定的不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;以及
f)确定与所述基底成分参考相对应的一组经过精简的序列变异候选,从而与所述参比核酸比较确定所述靶核酸分子中的序列变异。
11.根据权利要求10所述的方法,其中,所述质量信号差表现为失去的信号、附加的信号、强度不同的信号、和/或具有不同信噪比的信号。
12.根据权利要求10所述的方法,其中,所述质量信号通过质谱测定法确定。
13.根据权利要求10所述的方法,其中,所述序列变异是突变或多态性。
14.根据权利要求13所述的方法,其中,所述突变是插入、缺失、或取代。
15.根据权利要求13所述的方法,其中,所述多态性是单核苷酸多态性。
16.根据权利要求1或权利要求10所述的方法,其中,特异性裂解试剂是核糖核酸酶。
17.根据权利要求16所述的方法,其中,特异性裂解试剂选自核糖核酸酶T1、核糖核酸酶U2、核糖核酸酶PhyM、核糖核酸酶A、鸡肝核糖核酸酶(核糖核酸酶CL3)、以及cusavitin。
18.根据权利要求1或权利要求10所述的方法,其中,特异性裂解试剂是糖基化酶。
19.根据权利要求1或权利要求10所述的方法,其中,所述方法相对于参比核酸分子确定靶核酸分子的外遗传改变。
20.根据权利要求10所述的方法,是确定样品中等位基因频率的方法,包括:
a)利用一种或多种特异性裂解试剂将包含野生型和突变型等位基因的混合物的所述样品中的靶核酸分子的混合物裂解成片段;
b)利用相同的裂解试剂将包含野生型等位基因的核酸分子裂解成片段;
c)确定所述片段的质量信号;
d)鉴定在所述靶核酸分子的混合物和所述野生型核酸分子之间不同的片段;
e)确定与在步骤d)中鉴定的不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;
f)确定作为与各个基底成分参考相对应的候选等位基因的等位基因变异体;
g)对所述候选等位基因进行评分;以及
h)确定所述样品中所述突变等位基因的所述等位基因频率。
21.根据权利要求20所述的方法,其中,所述等位基因频率为5%~10%。
22.根据权利要求20所述的方法,其中,所述等位基因频率小于5%。
23.一种用于确定多个靶核酸分子中的一个或多个碱基位置上的序列变异的方法,包括:
a)通过使所述分子与一种或多种特异性裂解试剂接触将所述靶核酸分子裂解成片段;
b)用相同的裂解试剂将一种或多种参比核酸分子裂解或模拟裂解成片段;
c)确定在a)和b)中产生的片段的质量信号;
d)鉴定在所述靶核酸分子和所述一种或多个参比核酸分子之间不同的片段;
e)确定与所述不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;
f)确定作为与所述各个基底成分参考相对应的候选序列的所述序列变异;
g)对所述候选序列进行评分;以及
h)确定所述许多靶核酸分子中的所述序列变异。
24.根据权利要求23所述的方法,其中,在将所述靶核酸和所述一个或多个参比分子裂解成片段以后,将所述片段固定到固体载体上。
25.根据权利要求24所述的方法,其中,固定到固体载体上的所述片段包括阵列。
26.根据权利要求23所述的方法,其中,所述特异性裂解试剂选自核糖核酸酶T1、核糖核酸酶U2、核糖核酸酶PhyM、核糖核酸酶A、鸡肝核糖核酸酶(核糖核酸酶CL3)、以及cusavitin。
27.根据权利要求23所述的方法,其中,特异性裂解试剂是糖基化酶。
28.根据权利要求25所述的方法,其中,所述阵列是用于质谱测定法的芯片。
29.一种用于检测样品中的核酸混合物中的靶核酸的序列变异的方法,包括:
a)使用相同或不同特异性裂解试剂对所述样品进行一个以上的特异性裂解反应,其中,所述靶核酸在多个断裂反应中被裂解从而产生多个断裂图;
b)在和步骤a)中的所述靶裂解反应相同的条件下对参比核酸执行或模拟一个以上的特异性裂解反应;
c)确定在所述被裂解的靶核酸的多个断裂图和所述被裂解的参比核酸的多个断裂图之间不同的片段;
d)确定与所述靶核酸中的特定序列变异一致的不同片段;
e)结合与一个或多个序列变异相对应的所述一致的不同片段以获得不同片段的质谱;
f)根据所述不同片段的质谱,确定那些含有作为基底成分参考的基底成分的不同片段,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;
g)确定作为与各个基底成分参考相对应的候选序列相对应的所述序列变异;
h)对所述候选序列进行评分;以及
i)确定生物样品中的核酸混合物中的所述靶核酸分子的所述序列变异。
30.根据权利要求29所述的方法,其中,所述生物样品包括来自一组个体的基因组DNA。
31.根据权利要求29或权利要求30所述的方法,其中,5%-10%的所述靶核酸的混合物含有所述序列变异。
32.根据权利要求29或权利要求30所述的方法,其中,小于5%的所述靶核酸的混合物含有所述序列变异。
33.一种用于高通量分析样品中的靶核酸分子的序列变异的自动化测试系统,包括:
处理站,用于在有一种或多种特异性裂解试剂的情况下,对反应混合物中的靶核酸分子进行断裂反应;
机器人系统,用于将来自所述处理站的生成的断裂产物运送到质量测量站,所述反应产物的质量在所述质量测量站中确定;以及
数据分析系统,用于通过使用根据权利要求1所述的方法处理来自所述质量测量站的数据,以鉴定所述样品中在所述靶核酸分子的一个或多个位置上的序列变异。
34.根据权利要求33所述的系统,进一步包括控制系统,用于确定每个站中的处理何时完成,以及作为响应,将所述样品移到下一个测试站,并连续地逐一处理样品,直到所述控制系统接到停止指令。
35.根据权利要求33所述的系统,其中,所述质量测量站是质谱仪。
36.根据权利要求10所述的方法,其中,在将所述靶核酸分子裂解成片段之前,对所述核酸进行处理从而改变裂解特异性。
37.一种用于确定多个靶核酸分子中在一个或多个碱基位置上的单核苷酸多态性的方法,包括:
a)通过使所述分子与一种或多种碱基特异性裂解试剂接触将所述靶核酸分子裂解成片段;
b)用相同的裂解试剂将一种或多种参比核酸分子裂解或模拟裂解成片段;
c)确定在a)和b)中产生的片段的质量信号;
d)鉴定在所述靶核酸分子和一种或多个所述参比核酸分子之间不同的片段;
e)确定与在步骤d)中鉴定的不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;
f)确定与各个基底成分参考相对应的候选序列中的单核苷酸多态性;
g)对所述候选序列进行评分;以及
h)确定所述多个靶核酸分子中的所述单核苷酸多态性。
38.根据权利要求37所述的方法,其中,所述特异性裂解试剂是核糖核酸酶。
39.根据权利要求37所述的方法,其中,所述特异性裂解试剂选自核糖核酸酶T1、核糖核酸酶U2、核糖核酸酶PhyM、核糖核酸酶A、鸡肝核糖核酸酶(核糖核酸酶CL3)、以及cusavitin。
40.根据权利要求37所述的方法,其中,所述靶核酸分子选自单链DNA、双链DNA、cDNA、单链RNA、双链RNA、DNA/RNA杂种、PNA(肽核酸)、以及DNA/RNA镶嵌核酸。
41.根据权利要求37所述的方法,其中,所述靶核酸通过转录产生。
42.根据权利要求37所述的方法,其中,所述靶核酸包括来自一组个体的基因组DNA。
43.一种确定靶核酸分子中的单核苷酸多态性的方法,包括:
a)通过使所述靶核酸分子与一种或多种碱基特异性裂解试剂接触将所述靶核酸分子裂解成片段;
b)用相同的裂解试剂将参比核酸分子裂解或模拟裂解成片段;
c)确定在a)和b)中产生的片段的质量信号;
d)确定在a)中产生的所述片段和在b)中产生的所述片段之间的质量信号差,从而鉴定不同的片段;
e)确定与在d)中鉴定的不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;以及
f)确定与所述基底成分参考相对应的一组经过精简的序列变异候选,从而与所述参比核酸比较确定所述靶中的单核苷酸多态性。
44.根据权利要求43所述的方法,其中,所述特异性裂解试剂是核糖核酸酶。
45.根据权利要求43所述的方法,其中,所述特异性裂解试剂选自核糖核酸酶T1、核糖核酸酶U2、核糖核酸酶PhyM、核糖核酸酶A、鸡肝核糖核酸酶(核糖核酸酶CL3)、以及cusavitin。
46.根据权利要求43所述的方法,其中,所述靶核酸分子选自单链DNA、双链DNA、cDNA、单链RNA、双链RNA、DNA/RNA杂种、PNA(肽核酸)、以及DNA/RNA镶嵌核酸。
47.根据权利要求43所述的方法,其中,所述靶核酸通过转录产生。
48.根据权利要求43所述的方法,其中,所述靶核酸是来自单个个体的基因组DNA。
49.根据权利要求43所述的方法,进一步包括对所述经过精简的一组单核苷酸多态性候选进行评分。
50.根据权利要求43所述的方法,进一步包括对杂合单核苷酸多态性候选进行评分。
51.根据权利要求43所述的方法,进一步包括对纯合单核苷酸多态性候选进行评分。
52.根据权利要求2所述的方法,其中,确定经过精简的一组序列变异候选包括:
a)鉴定在所述靶生物分子和所述参比生物分子之间不同的片段;
b)确定与在步骤a)中鉴定的不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;以及
c)确定与作为候选序列的所述基底成分参考相对应的经过精简的一组序列变异,从而与所述参比生物分子比较确定所述靶中的序列变异。
53.根据权利要求2至6以及52中任一权项所述的方法,其中,所述质量信号差表现为失去的信号、附加的信号、强度不同的信号、和/或具有不同信噪比的信号。
54.根据权利要求2至6以及52中任一权项所述的方法,其中,所述质量信号通过质谱测定法确定。
55.根据权利要求12至13中任一权项所述的方法,其中,所述序列变异是突变或多态性。
56.根据权利要求55所述的方法,其中,所述突变是插入、缺失、或取代。
57.根据权利要求2-6、10和12-15中任一权项所述的方法,其中,特异性裂解试剂是核糖核酸酶。
58.根据权利要求2-6、10和12-15任一权项所述的方法,其中,特异性裂解试剂是糖基化酶。
59.根据权利要求2-6、10和12-15中任一权项所述的方法,其中,所述方法相对于参比核酸分子确定靶核酸分子的外遗传改变。
60.根据权利要求12-15中任一权项所述的方法,是用于确定样品中等位基因频率的方法,包括:
a)利用一种或多种特异性裂解试剂将包含野生型和突变型等位基因的混合物的所述样品中的靶核酸分子的混合物裂解成片段;
b)利用相同的裂解试剂将含有野生型等位基因的核酸分子裂解成片段;
c)确定所述片段的质量信号;
d)鉴定在所述靶核酸分子的混合物和所述野生型核酸分子之间不同的片段;
e)确定与在步骤d)中鉴定的不同片段相对应的基底成分,所述基底成分作为基底成分参考,所述基底成分参考为具有的质量与(d)的每个不同片段的实际测量质量相差一数值的基底成分,该数值小于或等于在类型或长度上单个核苷酸产生的质量差;
f)确定作为与所述各个基底成分参考相对应的候选等位基因的等位基因变异体;
g)对所述候选等位基因进行评分;以及
h)确定所述样品中所述突变等位基因的所述等位基因频率。
61.根据权利要求24或25所述的方法,其中,所述特异性裂解试剂选自核糖核酸酶T1、核糖核酸酶U2、核糖核酸酶PhyM、核糖核酸酶A、鸡肝核糖核酸酶(核糖核酸酶CL3)、以及cusavitin。
62.根据权利要求24或25所述的方法,其中,所述特异性裂解试剂是糖基化酶。
63.根据权利要求38、39、44、或45中任一权项所述的方法,其中,所述靶核酸分子选自单链DNA、双链DNA、cDNA、单链RNA、双链RNA、DNA/RNA杂种、PNA(肽核酸)、以及DNA/RNA镶嵌核酸。
64.根据权利要求38至44以及44至46中任一权项所述的方法,其中,所述靶核酸通过转录产生。
65.根据权利要求38至41中任一权项所述的方法,其中,所述靶核酸包括来自一组个体的基因组DNA。
CN2003801092195A 2002-11-27 2003-11-26 用于序列变异检测和发现的基于断裂的方法和系统 Expired - Fee Related CN1774511B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US42989502P 2002-11-27 2002-11-27
US60/429,895 2002-11-27
PCT/US2003/037931 WO2004050839A2 (en) 2002-11-27 2003-11-26 Fragmentation-based methods and systems for sequence variation detection and discovery

Publications (2)

Publication Number Publication Date
CN1774511A CN1774511A (zh) 2006-05-17
CN1774511B true CN1774511B (zh) 2013-08-21

Family

ID=32469386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2003801092195A Expired - Fee Related CN1774511B (zh) 2002-11-27 2003-11-26 用于序列变异检测和发现的基于断裂的方法和系统

Country Status (8)

Country Link
US (1) US7820378B2 (zh)
EP (1) EP1613723B1 (zh)
JP (1) JP4786904B2 (zh)
CN (1) CN1774511B (zh)
AU (1) AU2003298733B2 (zh)
CA (1) CA2507189C (zh)
HK (1) HK1087436A1 (zh)
WO (1) WO2004050839A2 (zh)

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6994969B1 (en) * 1999-04-30 2006-02-07 Methexis Genomics, N.V. Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
EP1235932A2 (en) * 1999-10-08 2002-09-04 Protogene Laboratories, Inc. Method and apparatus for performing large numbers of reactions using array assembly
US7332275B2 (en) * 1999-10-13 2008-02-19 Sequenom, Inc. Methods for detecting methylated nucleotides
AU2003298733B2 (en) 2002-11-27 2009-06-18 Agena Bioscience, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
CA2523490A1 (en) * 2003-04-25 2004-11-11 Sequenom, Inc. Fragmentation-based methods and systems for de novo sequencing
US9394565B2 (en) 2003-09-05 2016-07-19 Agena Bioscience, Inc. Allele-specific sequence variation analysis
US20050149272A1 (en) * 2003-09-10 2005-07-07 Itshack Pe' Er Method for sequencing polynucleotides
US20050196809A1 (en) * 2004-03-05 2005-09-08 Kelleher Neil L. Identification and characterization of proteins using new database search modes
US20090075251A1 (en) * 2004-03-24 2009-03-19 Dimo Dietrich Method for analysis of cytosine methylation
CA2561381C (en) 2004-03-26 2015-05-12 Sequenom, Inc. Base specific cleavage of methylation-specific amplification products in combination with mass analysis
US7785843B2 (en) * 2004-06-23 2010-08-31 Sequenom, Inc. Target-specific compomers and methods of use
EP1802772A4 (en) * 2004-09-10 2008-12-31 Sequenom Inc METHOD FOR NUCLEIC ACID SEQUENCE ANALYSIS WITH GREAT RANGE
JP2008522638A (ja) * 2004-12-13 2008-07-03 オウトジエノミクス・インコーポレーテツド 挿入又は欠失を有する配列の核酸分析についての組成物及び方法
US7765068B2 (en) 2005-01-31 2010-07-27 The Board Of Trustees Of The University Of Illinois Identification and characterization of protein fragments
EP1762629B1 (en) 2005-09-12 2009-11-11 Roche Diagnostics GmbH Detection of biological DNA
DE102006003415A1 (de) * 2006-01-24 2007-08-02 Siemens Ag Verfahren zur Analyse einer Probe
EP2602321B1 (en) 2006-05-31 2017-08-23 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
US7902345B2 (en) 2006-12-05 2011-03-08 Sequenom, Inc. Detection and quantification of biomolecules using mass spectrometry
WO2009032781A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
US7888127B2 (en) * 2008-01-15 2011-02-15 Sequenom, Inc. Methods for reducing adduct formation for mass spectrometry analysis
EP2620511B1 (en) 2008-01-17 2018-02-28 Sequenom, Inc. Single molecule nucleic acid sequence analysis processes
US8852864B2 (en) * 2008-01-17 2014-10-07 Sequenom Inc. Methods and compositions for the analysis of nucleic acids
EP2271772B1 (en) * 2008-03-11 2014-07-16 Sequenom, Inc. Nucleic acid-based tests for prenatal gender determination
US20100063742A1 (en) * 2008-09-10 2010-03-11 Hart Christopher E Multi-scale short read assembly
US8962247B2 (en) * 2008-09-16 2015-02-24 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non invasive prenatal diagnoses
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
JP5766610B2 (ja) * 2008-10-29 2015-08-19 ノクソン ファーマ エージー 質量分析法による核酸分子の配列決定
WO2010059914A2 (en) 2008-11-24 2010-05-27 Sequenom, Inc. Nucleic acid quantification products and processes
CA2741592A1 (en) * 2008-12-19 2010-06-24 Abbott Laboratories Diagnostic test for mutations in codons 12-13 of human k-ras
DE102009005845A1 (de) * 2009-01-21 2010-07-22 Friedrich-Schiller-Universität Jena Verfahren zur Indentifizierung insbesondere unbekannter Substanzen durch Massenspektrometrie
EP2394165A4 (en) * 2009-02-03 2013-12-11 Complete Genomics Inc ASSIGNMENT OF OLIGOMER SEQUENCES
WO2010091023A2 (en) * 2009-02-03 2010-08-12 Complete Genomics, Inc. Indexing a reference sequence for oligomer sequence mapping
WO2010091021A2 (en) * 2009-02-03 2010-08-12 Complete Genomics, Inc. Oligomer sequences mapping
CN102428191A (zh) * 2009-03-18 2012-04-25 塞昆纳姆股份有限公司 热稳定性内切核酸酶在产生报道分子中的应用
EP2414545B1 (en) 2009-04-03 2017-01-11 Sequenom, Inc. Nucleic acid preparation compositions and methods
EP2511843B1 (en) * 2009-04-29 2016-12-21 Complete Genomics, Inc. Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence
AU2010242073C1 (en) 2009-04-30 2015-12-24 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
CN102482638A (zh) 2009-07-02 2012-05-30 微德赞股份有限公司 制备己二酸的生物学方法
EP2451960A2 (en) 2009-07-09 2012-05-16 Verdezyne, Inc. Engineered microorganisms with enhanced fermentation activity
US8889394B2 (en) * 2009-09-07 2014-11-18 Empire Technology Development Llc Multiple domain proteins
WO2011041695A1 (en) * 2009-10-02 2011-04-07 Ibis Biosciences, Inc. Determination of methylation status of polynucleotides
ES2577017T3 (es) 2009-12-22 2016-07-12 Sequenom, Inc. Procedimientos y kits para identificar la aneuploidia
CN102762987B (zh) * 2010-02-18 2016-03-30 弗·哈夫曼-拉罗切有限公司 测定多肽的序列变体的方法
JP5738027B2 (ja) * 2010-03-30 2015-06-17 キヤノン株式会社 質量分析法
US8412462B1 (en) 2010-06-25 2013-04-02 Annai Systems, Inc. Methods and systems for processing genomic data
JP6222202B2 (ja) * 2010-07-05 2017-11-01 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
JP5838557B2 (ja) 2010-07-05 2016-01-06 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
WO2012031035A2 (en) 2010-08-31 2012-03-08 Lawrence Ganeshalingam Method and systems for processing polymeric sequence data and related information
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
JPWO2012111249A1 (ja) * 2011-02-14 2014-07-03 学校法人麻布獣医学園 質量分析法における質量変化を検出する方法及び安定同位体標識タンパク質の絶対量の定量方法
WO2012122551A2 (en) 2011-03-09 2012-09-13 Lawrence Ganeshalingam Biological data networks and methods therefor
US8460872B2 (en) 2011-04-29 2013-06-11 Sequenom, Inc. Quantification of a minority nucleic acid species
US8728798B2 (en) 2011-05-03 2014-05-20 Verdezyne, Inc. Biological methods for preparing adipic acid
US8343752B2 (en) 2011-05-03 2013-01-01 Verdezyne, Inc. Biological methods for preparing adipic acid
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US9738913B2 (en) 2011-07-06 2017-08-22 Verdezyne, Inc. Biological methods for preparing a fatty dicarboxylic acid
EP3922731A3 (en) 2011-10-06 2022-01-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2851537C (en) 2011-10-11 2020-12-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2852665A1 (en) 2011-10-17 2013-04-25 Good Start Genetics, Inc. Analysis methods
JP5750676B2 (ja) * 2011-10-18 2015-07-22 株式会社島津製作所 細胞識別装置及びプログラム
EP2805280B1 (en) 2012-01-20 2022-10-05 Sequenom, Inc. Diagnostic processes that factor experimental conditions
EP2820129A1 (en) 2012-03-02 2015-01-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
US10227635B2 (en) 2012-04-16 2019-03-12 Molecular Loop Biosolutions, Llc Capture reactions
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK3663409T3 (da) 2012-05-21 2021-12-13 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv bedømmelse af genetiske variationer
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013192631A1 (en) 2012-06-22 2013-12-27 Maltbie Dan System and method for secure, high-speed transfer of very large files
US20140004105A1 (en) 2012-06-29 2014-01-02 Sequenom, Inc. Age-related macular degeneration diagnostics
AU2013290102B2 (en) 2012-07-13 2018-11-15 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014055790A2 (en) 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2895124C (en) 2012-12-19 2024-01-23 Verdezyne, Inc. Biological methods for preparing a fatty dicarboxylic acid
SG10201705057QA (en) 2012-12-19 2017-07-28 Verdezyne Inc Biological methods for preparing a fatty dicarboxylic acid
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130189684A1 (en) 2013-03-12 2013-07-25 Sequenom, Inc. Quantification of cell-specific nucleic acid markers
US9305756B2 (en) 2013-03-13 2016-04-05 Agena Bioscience, Inc. Preparation enhancements and methods of use for MALDI mass spectrometry
EP2971100A1 (en) 2013-03-13 2016-01-20 Sequenom, Inc. Primers for dna methylation analysis
WO2014152421A1 (en) 2013-03-14 2014-09-25 Good Start Genetics, Inc. Methods for analyzing nucleic acids
LT2981921T (lt) 2013-04-03 2023-02-27 Sequenom, Inc. Neinvazinio genetinių variacijų vertinimo būdai ir procesai
EP3004383B1 (en) 2013-05-24 2019-04-24 Sequenom, Inc. Methods for non-invasive assessment of genetic variations using area-under-curve (auc) analysis
US8847799B1 (en) 2013-06-03 2014-09-30 Good Start Genetics, Inc. Methods and systems for storing sequence read data
MX2015016911A (es) 2013-06-21 2016-06-21 Sequenom Inc Metodos y procesos para evaluacion no invasiva de variaciones geneticas.
JP2015035212A (ja) * 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
CN105637099B (zh) 2013-08-23 2020-05-19 深圳华大智造科技有限公司 使用短读段的长片段从头组装
CA3205430A1 (en) 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10438691B2 (en) 2013-10-07 2019-10-08 Sequenom, Inc. Non-invasive assessment of chromosome alterations using change in subsequence mappability
US10851414B2 (en) 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
WO2015057565A1 (en) 2013-10-18 2015-04-23 Good Start Genetics, Inc. Methods for assessing a genomic region of a subject
WO2015138774A1 (en) 2014-03-13 2015-09-17 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10513706B2 (en) 2014-04-09 2019-12-24 The Scripps Research Institute Import of unnatural or modified nucleoside triphosphates into cells via nucleic acid triphosphate transporters
WO2015175530A1 (en) 2014-05-12 2015-11-19 Gore Athurva Methods for detecting aneuploidy
CA2950731C (en) 2014-05-30 2023-04-25 Sequenom, Inc. Chromosome representation determinations
US11783911B2 (en) 2014-07-30 2023-10-10 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
US10910086B2 (en) * 2014-08-15 2021-02-02 Life Technologies Corporation Methods and systems for detecting minor variants in a sample of genetic material
WO2016040446A1 (en) 2014-09-10 2016-03-17 Good Start Genetics, Inc. Methods for selectively suppressing non-target sequences
WO2016040602A1 (en) * 2014-09-11 2016-03-17 Epicentre Technologies Corporation Reduced representation bisulfite sequencing using uracil n-glycosylase (ung) and endonuclease iv
EP3224595A4 (en) 2014-09-24 2018-06-13 Good Start Genetics, Inc. Process control for increased robustness of genetic assays
EP3730629A1 (en) 2014-10-10 2020-10-28 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10000799B2 (en) 2014-11-04 2018-06-19 Boreal Genomics, Inc. Methods of sequencing with linked fragments
JP6694635B2 (ja) * 2014-12-26 2020-05-20 国立大学法人大阪大学 マイクロrnaにおけるメチル化修飾部位を計測する方法
US10066259B2 (en) 2015-01-06 2018-09-04 Good Start Genetics, Inc. Screening for structural variants
US20180148744A1 (en) 2015-03-20 2018-05-31 Verdezyne, Inc. Biological methods for preparing 3-hydroxypropionic acid
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US20180355410A1 (en) * 2015-06-19 2018-12-13 Cambridge Enterprise Limited Diagnosis and treatment of infectious disease
WO2017087206A1 (en) 2015-11-16 2017-05-26 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP4282974A3 (en) 2016-03-28 2024-03-13 Ncan Genomics, Inc. Linked duplex target capture
US10961573B2 (en) 2016-03-28 2021-03-30 Boreal Genomics, Inc. Linked duplex target capture
CN107423534B (zh) * 2016-05-24 2021-08-06 郝柯 基因组拷贝数变异的检测方法和系统
WO2017205826A1 (en) 2016-05-27 2017-11-30 Sequenom, Inc. Methods for detecting genetic variations
US10274440B2 (en) 2016-06-22 2019-04-30 International Business Machines Corporation Method to facilitate investigation of chemical constituents in chemical analysis data
EP3491560A1 (en) 2016-07-27 2019-06-05 Sequenom, Inc. Genetic copy number alteration classifications
US11515003B2 (en) 2016-07-27 2022-11-29 Sequenom, Inc. Copy number alteration and reference genome mapping
CN106355045B (zh) * 2016-08-30 2019-03-15 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序小片段插入缺失检测的方法及装置
CN106611106B (zh) * 2016-12-06 2019-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
JP7048609B2 (ja) 2016-12-09 2022-04-05 ボリアル ジェノミクス, インコーポレイテッド 連結型ライゲーション
WO2018136882A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
EP3571615B1 (en) 2017-01-20 2024-01-24 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
US11352662B2 (en) 2017-01-20 2022-06-07 Sequenom, Inc. Sequence adapter manufacture and use
US11694768B2 (en) 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
EP3998350A1 (en) 2017-03-17 2022-05-18 Sequenom, Inc. Methods and processes for assessment of genetic mosaicism
EP3652316A4 (en) 2017-07-11 2021-04-07 Synthorx, Inc. INTEGRATION OF NON-NATURAL NUCLEOTIDES AND METHOD FOR THEREFORE
US11174488B2 (en) 2017-07-13 2021-11-16 Radici Chimica S.P.A. Biological methods for modifying cellular carbon flux
US11622993B2 (en) 2017-08-03 2023-04-11 Synthorx, Inc. Cytokine conjugates for the treatment of autoimmune diseases
WO2019051103A1 (en) * 2017-09-06 2019-03-14 Lawrence Livermore National Security, Llc METHODS AND SYSTEMS FOR EXECUTING GENETICALLY MODIFIED PROTEIN ANALYSIS, AND ASSOCIATED MARKER PROTEIN GENETIC VARIATIONS AND DATABASES
US10426424B2 (en) 2017-11-21 2019-10-01 General Electric Company System and method for generating and performing imaging protocol simulations
WO2019232520A1 (en) * 2018-06-01 2019-12-05 Cerno Bioscience Llc Mass spectral analysis of large molecules
WO2020060948A1 (en) 2018-09-17 2020-03-26 Levadura Biotechnology, Inc. Production of cannabinoids in yeast using a fatty acid feedstock
CN109920485B (zh) * 2018-12-29 2023-10-31 浙江安诺优达生物科技有限公司 对测序序列进行变异模拟的方法及其应用
EP3884071A4 (en) 2019-01-03 2022-04-06 Boreal Genomics, Inc. LINKED TARGET CAPTURE
WO2020146741A1 (en) 2019-01-10 2020-07-16 Selim Olcum Calibration of a functional biomarker instrument
CN113660946A (zh) 2019-02-06 2021-11-16 新索思股份有限公司 Il-2缀合物及其使用方法
US20220100985A1 (en) * 2019-05-10 2022-03-31 Academia Sinica Dynamic data correction method and apparatus for generating a high-resolution spectrum
CA3159786A1 (en) 2019-10-31 2021-05-06 Sequenom, Inc. Application of mosaicism ratio in multifetal gestations and personalized risk assessment
CN111304345A (zh) * 2020-02-27 2020-06-19 中国人民解放军军事科学院军事医学研究院 幽门螺旋杆菌23S rRNA基因耐药突变的检测方法及其应用
CN115209724A (zh) * 2020-02-27 2022-10-18 孟山都技术公司 用于选择可遗传编辑的方法
CN111477276B (zh) * 2020-04-02 2020-12-15 上海之江生物科技股份有限公司 微生物的种特异共有序列的获得方法、装置及应用
CN111662990A (zh) * 2020-07-10 2020-09-15 内蒙古农业大学职业技术学院 一种用于定量检测猪瘟抗体不同水平的方法和引物对
CN114974416B (zh) * 2022-07-15 2023-04-07 深圳雅济科技有限公司 一种检测相邻多核苷酸变异的方法及装置

Family Cites Families (158)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US42112A (en) * 1864-03-29 Improvement in grain-drills
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US5173418A (en) 1985-05-10 1992-12-22 Benzon Pharma, A/S Production in Escherichia coli of extracellular Serratia spp. hydrolases
US4762823A (en) 1985-10-16 1988-08-09 Sloan-Kettering Institute For Cancer Research Nucleosides of 5-monofluoromethyluracil and 5-difluoromethyluracil
US5079342A (en) 1986-01-22 1992-01-07 Institut Pasteur Cloned DNA sequences related to the entire genomic RNA of human immunodeficiency virus II (HIV-2), polypeptides encoded by these DNA sequences and use of these DNA clones and polypeptides in diagnostic kits
US4826360A (en) 1986-03-10 1989-05-02 Shimizu Construction Co., Ltd. Transfer system in a clean room
EP0269520A3 (fr) 1986-11-21 1988-08-24 Institut Pasteur Rétrovirus du type HIV-2 susceptible de provoquer le sida, et ses constituants antigéniques et nucléiques
FR2620049B2 (fr) 1986-11-28 1989-11-24 Commissariat Energie Atomique Procede de traitement, stockage et/ou transfert d'un objet dans une atmosphere de haute proprete, et conteneur pour la mise en oeuvre de ce procede
US4837726A (en) 1987-06-19 1989-06-06 Applied Biosystems, Inc. Quantitation of chromatographic information
US4802102A (en) 1987-07-15 1989-01-31 Hewlett-Packard Company Baseline correction for chromatography
IE61148B1 (en) 1988-03-10 1994-10-05 Ici Plc Method of detecting nucleotide sequences
US5003059A (en) 1988-06-20 1991-03-26 Genomyx, Inc. Determining DNA sequences by mass spectrometry
EP0395481A3 (en) 1989-04-25 1991-03-20 Spectra-Physics, Inc. Method and apparatus for estimation of parameters describing chromatographic peaks
GB2236186B (en) 1989-08-22 1994-01-05 Finnigan Mat Gmbh Process and device for laser desorption of analyte molecular ions, especially of biomolecules
WO1991010674A1 (en) 1990-01-12 1991-07-25 Scripps Clinic And Research Foundation Nucleic acid enzymes for cleaving dna
NZ236819A (en) 1990-02-03 1993-07-27 Max Planck Gesellschaft Enzymatic cleavage of fusion proteins; fusion proteins; recombinant dna and pharmaceutical compositions
IT1239733B (it) 1990-02-23 1993-11-15 Eniricerche Spa Mutanti della proteasi neutra termostabili e mezzi e metodi per la loro preparazione
US5288644A (en) 1990-04-04 1994-02-22 The Rockefeller University Instrument and method for the sequencing of genome
DE69109109T2 (de) 1990-05-09 1995-09-14 Massachusetts Inst Technology Ubiquitinspezifische protease.
US5264563A (en) 1990-08-24 1993-11-23 Ixsys Inc. Process for synthesizing oligonucleotides with random codons
US5210412A (en) 1991-01-31 1993-05-11 Wayne State University Method for analyzing an organic sample
WO1992013629A1 (en) 1991-01-31 1992-08-20 Wayne State University A method for analyzing an organic sample
US5364759B2 (en) 1991-01-31 1999-07-20 Baylor College Medicine Dna typing with short tandem repeat polymorphisms and identification of polymorphic short tandem repeats
US5578443A (en) 1991-03-06 1996-11-26 Regents Of The University Of Minnesota DNA sequence-based HLA typing method
CA2066556A1 (en) 1991-04-26 1992-10-27 Toyoji Sawayanagi Alkaline protease, method for producing the same, use thereof and microorganism producing the same
US5846717A (en) 1996-01-24 1998-12-08 Third Wave Technologies, Inc. Detection of nucleic acid sequences by invader-directed cleavage
US5436150A (en) 1992-04-03 1995-07-25 The Johns Hopkins University Functional domains in flavobacterium okeanokoities (foki) restriction endonuclease
US5646020A (en) 1992-05-14 1997-07-08 Ribozyme Pharmaceuticals, Inc. Hammerhead ribozymes for preferred targets
WO1993024834A1 (en) * 1992-05-29 1993-12-09 The Rockefeller University Method and product for the sequence determination of peptides using a mass spectrometer
US5792664A (en) 1992-05-29 1998-08-11 The Rockefeller University Methods for producing and analyzing biopolymer ladders
US5440119A (en) 1992-06-02 1995-08-08 Labowsky; Michael J. Method for eliminating noise and artifact peaks in the deconvolution of multiply charged mass spectra
WO1994000562A1 (en) 1992-06-24 1994-01-06 The Mt. Sinai School Of Medicine Of The City University Of New York A novel human immunodeficiency virus
US5700672A (en) 1992-07-23 1997-12-23 Stratagene Purified thermostable pyrococcus furiousus DNA ligase
EP0596205A3 (en) 1992-11-03 1996-02-21 Hewlett Packard Co Bench supervisor system.
US5795714A (en) 1992-11-06 1998-08-18 Trustees Of Boston University Method for replicating an array of nucleic acid probes
US6436635B1 (en) 1992-11-06 2002-08-20 Boston University Solid phase sequencing of double-stranded nucleic acids
US5503980A (en) 1992-11-06 1996-04-02 Trustees Of Boston University Positional sequencing by hybridization
US5422253A (en) 1992-12-07 1995-06-06 Wisconsin Alumni Research Foundation Method of site specific nucleic acid cleavage
US6194144B1 (en) 1993-01-07 2001-02-27 Sequenom, Inc. DNA sequencing by mass spectrometry
US5547835A (en) 1993-01-07 1996-08-20 Sequenom, Inc. DNA sequencing by mass spectrometry
US5605798A (en) 1993-01-07 1997-02-25 Sequenom, Inc. DNA diagnostic based on mass spectrometry
US6074823A (en) 1993-03-19 2000-06-13 Sequenom, Inc. DNA sequencing by mass spectrometry via exonuclease degradation
ATE220114T1 (de) 1993-03-19 2002-07-15 Sequenom Inc Dns-sequenzbestimmung durch massenspektrometrie auf dem weg des abbaus mit exonuklease
EP0690870A4 (en) 1993-03-24 1998-05-20 Molecular Biology Resources DINUCLEOTIDE RESTRICTION ENDONUCLEASE PREPARATIONS AND METHOD FOR USE THEREOF
US5604098A (en) 1993-03-24 1997-02-18 Molecular Biology Resources, Inc. Methods and materials for restriction endonuclease applications
CA2122203C (en) 1993-05-11 2001-12-18 Melinda S. Fraiser Decontamination of nucleic acid amplification reactions
US5861242A (en) 1993-06-25 1999-01-19 Affymetrix, Inc. Array of nucleic acid probes on biological chips for diagnosis of HIV and methods of using the same
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
FR2710075B1 (fr) * 1993-09-15 1995-10-27 Bio Merieux Réactif et procédé pour la détection d'une séquence nucléotidique avec amplification de signal.
WO1995014108A1 (en) 1993-11-17 1995-05-26 Amersham International Plc Primer extension mass spectroscopy nucleic acid sequencing method
US5908779A (en) 1993-12-01 1999-06-01 University Of Connecticut Targeted RNA degradation using nuclear antisense RNA
US5714330A (en) 1994-04-04 1998-02-03 Lynx Therapeutics, Inc. DNA sequencing by stepwise ligation and cleavage
US5807522A (en) 1994-06-17 1998-09-15 The Board Of Trustees Of The Leland Stanford Junior University Methods for fabricating microarrays of biological samples
US5853979A (en) 1995-06-30 1998-12-29 Visible Genetics Inc. Method and system for DNA sequence determination and mutation detection with reference to a standard
US5498545A (en) 1994-07-21 1996-03-12 Vestal; Marvin L. Mass spectrometer system and method for matrix-assisted laser desorption measurements
US5453613A (en) 1994-10-21 1995-09-26 Hewlett Packard Company Mass spectra interpretation system including spectra extraction
US5807718A (en) 1994-12-02 1998-09-15 The Scripps Research Institute Enzymatic DNA molecules
US6428955B1 (en) 1995-03-17 2002-08-06 Sequenom, Inc. DNA diagnostics based on mass spectrometry
US5858705A (en) 1995-06-05 1999-01-12 Human Genome Sciences, Inc. Polynucleotides encoding human DNA ligase III and methods of using these polynucleotides
AU758454B2 (en) 1995-04-11 2003-03-20 Sequenom, Inc. Solid phase sequencing of biopolymers
US5753439A (en) 1995-05-19 1998-05-19 Trustees Of Boston University Nucleic acid detection methods
US5869240A (en) 1995-05-19 1999-02-09 Perseptive Biosystems, Inc. Methods and apparatus for sequencing polymers with a statistical certainty using mass spectrometry
US5874283A (en) 1995-05-30 1999-02-23 John Joseph Harrington Mammalian flap-specific endonuclease
NZ298494A (en) 1995-07-11 1999-09-29 Forfas Trading As Bioresearch Glycosylase mediated detection of nucleotide sequences at candidate loci
US6146854A (en) 1995-08-31 2000-11-14 Sequenom, Inc. Filtration processes, kits and devices for isolating plasmids
US5869242A (en) 1995-09-18 1999-02-09 Myriad Genetics, Inc. Mass spectrometry to assess DNA sequence polymorphisms
US6190865B1 (en) 1995-09-27 2001-02-20 Epicentre Technologies Corporation Method for characterizing nucleic acid molecules
US6090549A (en) 1996-01-16 2000-07-18 University Of Chicago Use of continuous/contiguous stacking hybridization as a diagnostic tool
US6090606A (en) 1996-01-24 2000-07-18 Third Wave Technologies, Inc. Cleavage agents
US5830712A (en) 1996-02-06 1998-11-03 Allelix Biopharmaceuticals Inc. Selective template deletion method
US5686656A (en) 1996-02-27 1997-11-11 Aviv Amirav Method and device for the introduction of a sample into a gas chromatograph
AU2069597A (en) 1996-03-04 1997-09-22 Genetrace Systems, Inc. Methods of screening nucleic acids using mass spectrometry
AU2217597A (en) 1996-03-18 1997-10-22 Sequenom, Inc. Dna sequencing by mass spectrometry
HUP9901560A3 (en) 1996-04-08 2000-09-28 Glaxo Group Ltd Mass-based encoding and qualitative analysis of combinatorial libraries
US5928906A (en) 1996-05-09 1999-07-27 Sequenom, Inc. Process for direct sequencing during template amplification
US6022688A (en) 1996-05-13 2000-02-08 Sequenom, Inc. Method for dissociating biotin complexes
US6017704A (en) 1996-06-03 2000-01-25 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
AU3382097A (en) * 1996-06-10 1998-01-07 Novo Nordisk Biotech, Inc. Aspergillus oryzae 5-aminolevulinic acid synthases and nucleic acids encoding same
FR2749662B1 (fr) 1996-06-11 1998-08-28 Elf Aquitaine Laboratoire robotise d'analyses d'echantillons
WO1998003532A1 (en) 1996-07-24 1998-01-29 Hanna Michelle M Base-protected nucleotide analogs with protected thiol groups
US5928870A (en) 1997-06-16 1999-07-27 Exact Laboratories, Inc. Methods for the detection of loss of heterozygosity
GB9618960D0 (en) 1996-09-11 1996-10-23 Medical Science Sys Inc Proteases
US5885841A (en) 1996-09-11 1999-03-23 Eli Lilly And Company System and methods for qualitatively and quantitatively comparing complex admixtures using single ion chromatograms derived from spectroscopic analysis of such admixtures
WO1998012355A1 (en) 1996-09-19 1998-03-26 Genetrace Systems Methods of preparing nucleic acids for mass spectrometric analysis
US5965363A (en) 1996-09-19 1999-10-12 Genetrace Systems Inc. Methods of preparing nucleic acids for mass spectrometric analysis
US5777324A (en) 1996-09-19 1998-07-07 Sequenom, Inc. Method and apparatus for maldi analysis
US5864137A (en) 1996-10-01 1999-01-26 Genetrace Systems, Inc. Mass spectrometer
US5900481A (en) 1996-11-06 1999-05-04 Sequenom, Inc. Bead linkers for immobilizing nucleic acids to solid supports
US6024925A (en) 1997-01-23 2000-02-15 Sequenom, Inc. Systems and methods for preparing low volume analyte array elements
CA2702219C (en) 1996-11-06 2013-01-08 Sequenom, Inc. High density immobilization of nucleic acids
US6133436A (en) 1996-11-06 2000-10-17 Sequenom, Inc. Beads bound to a solid support and to nucleic acids
US6140053A (en) 1996-11-06 2000-10-31 Sequenom, Inc. DNA sequencing by mass spectrometry via exonuclease degradation
EP1164203B1 (en) 1996-11-06 2007-10-10 Sequenom, Inc. DNA Diagnostics based on mass spectrometry
US6297006B1 (en) 1997-01-16 2001-10-02 Hyseq, Inc. Methods for sequencing repetitive sequences and for determining the order of sequence subfragments
US6059724A (en) 1997-02-14 2000-05-09 Biosignal, Inc. System for predicting future health
EP0985148A4 (en) 1997-05-28 2004-03-10 Inst Medical W & E Hall DIAGNOSIS OF NUCLEIC ACIDS BY MASS SPECTROMETRY, MASS SEPARATION AND BASE-SPECIFIC CLEAVING
US5976806A (en) 1997-06-25 1999-11-02 Pioneer Hi-Bred International, Inc. DNA ligase assay
US5975492A (en) 1997-07-14 1999-11-02 Brenes; Arthur Bellows driver slot valve
US6207370B1 (en) 1997-09-02 2001-03-27 Sequenom, Inc. Diagnostics based on mass spectrometric detection of translated target polypeptides
US5888795A (en) 1997-09-09 1999-03-30 Becton, Dickinson And Company Thermostable uracil DNA glycosylase and methods of use
US6112161A (en) 1997-09-17 2000-08-29 Hewlett-Packard Method, apparatus, and article of manufacture for enhanced intergration of signals
US6090558A (en) 1997-09-19 2000-07-18 Genetrace Systems, Inc. DNA typing by mass spectrometry with polymorphic DNA repeat markers
US6485944B1 (en) 1997-10-10 2002-11-26 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
US5932451A (en) 1997-11-19 1999-08-03 Incyte Pharmaceuticals, Inc. Method for unbiased mRNA amplification
US5948902A (en) 1997-11-20 1999-09-07 South Alabama Medical Science Foundation Antisense oligonucleotides to human serine/threonine protein phosphatase genes
DE19754482A1 (de) 1997-11-27 1999-07-01 Epigenomics Gmbh Verfahren zur Herstellung komplexer DNA-Methylierungs-Fingerabdrücke
DK1036198T3 (da) 1997-12-08 2013-01-02 California Inst Of Techn Fremgangsmåde til fremstilling af polynukleotid- og polypeptidsekvenser
US6268131B1 (en) 1997-12-15 2001-07-31 Sequenom, Inc. Mass spectrometric methods for sequencing nucleic acids
DE19803309C1 (de) 1998-01-29 1999-10-07 Bruker Daltonik Gmbh Massenspektrometrisches Verfahren zur genauen Massenbestimmung unbekannter Ionen
US6054276A (en) 1998-02-23 2000-04-25 Macevicz; Stephen C. DNA restriction site mapping
NO311111B1 (no) 1998-04-03 2001-10-08 Geir H Soerland Metode for bestemmelse av mengden av fett og vann i en biologisk pröve
JP3575295B2 (ja) 1998-04-15 2004-10-13 住友電装株式会社 電気接続用コネクタのプラグ
WO1999054501A1 (en) 1998-04-22 1999-10-28 Enterprise Ireland Trading As Bioresearch Ireland A method for the characterisation of nucleic acid molecules involving generation of extendible upstream dna fragments resulting from the cleavage of nucleic acid at an abasic site
US6723564B2 (en) 1998-05-07 2004-04-20 Sequenom, Inc. IR MALDI mass spectrometry of nucleic acids using liquid matrices
US20030017483A1 (en) 1998-05-12 2003-01-23 Ecker David J. Modulation of molecular interaction sites on RNA and other biomolecules
US6099553A (en) 1998-05-21 2000-08-08 Applied Medical Resources Corporation Suture clinch
US6104028A (en) 1998-05-29 2000-08-15 Genetrace Systems Inc. Volatile matrices for matrix-assisted laser desorption/ionization mass spectrometry
GB9827152D0 (en) 1998-07-03 1999-02-03 Devgen Nv Characterisation of gene function using double stranded rna inhibition
JP2000067805A (ja) * 1998-08-24 2000-03-03 Hitachi Ltd 質量分析装置
ATE431428T1 (de) 1998-10-01 2009-05-15 Variagenics Inc Ein verfahren zur analyse von polynukleotiden
US6440705B1 (en) 1998-10-01 2002-08-27 Vincent P. Stanton, Jr. Method for analyzing polynucleotides
US6270835B1 (en) 1999-10-07 2001-08-07 Microcoating Technologies, Inc. Formation of this film capacitors
US6331427B1 (en) 1999-03-26 2001-12-18 Millennium Pharmaceuticals, Inc. Protease homologs
US20020009394A1 (en) 1999-04-02 2002-01-24 Hubert Koster Automated process line
US6309833B1 (en) 1999-04-12 2001-10-30 Nanogen/Becton Dickinson Partnership Multiplex amplification and separation of nucleic acid sequences on a bioelectronic microchip using asymmetric structures
CA2370872C (en) * 1999-04-30 2007-02-06 Methexis N.V. Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
US6994969B1 (en) 1999-04-30 2006-02-07 Methexis Genomics, N.V. Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
US7332275B2 (en) 1999-10-13 2008-02-19 Sequenom, Inc. Methods for detecting methylated nucleotides
US6475736B1 (en) 2000-05-23 2002-11-05 Variagenics, Inc. Methods for genetic analysis of DNA using biased amplification of polymorphic sites
EP1179589A1 (en) 2000-08-08 2002-02-13 F. Hoffmann-La Roche Ag MMX-1, a member of the family of human cancer/testis antigens, a protein encoded thereby and a process for determining whether a tumor sample has metastatic potential
US20030027169A1 (en) 2000-10-27 2003-02-06 Sheng Zhang One-well assay for high throughput detection of single nucleotide polymorphisms
DE10061348C2 (de) 2000-12-06 2002-10-24 Epigenomics Ag Verfahren zur Quantifizierung von Cytosin-Methylierungen in komplex amplifizierter genomischer DNA
DE10112515B4 (de) 2001-03-09 2004-02-12 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern mit hoher Sensitivität
US20030013099A1 (en) 2001-03-19 2003-01-16 Lasek Amy K. W. Genes regulated by DNA methylation in colon tumors
US7056663B2 (en) 2001-03-23 2006-06-06 California Pacific Medical Center Prognostic methods for breast cancer
US6522477B2 (en) 2001-04-17 2003-02-18 Karl Storz Imaging, Inc. Endoscopic video camera with magnetic drive focusing
US20020155587A1 (en) 2001-04-20 2002-10-24 Sequenom, Inc. System and method for testing a biological sample
WO2002086163A1 (en) 2001-04-20 2002-10-31 Karolinska Innovations Ab Methods for high throughput genome analysis using restriction site tagged microarrays
DE10130800B4 (de) 2001-06-22 2005-06-23 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierung mit hoher Sensitivität
WO2003008623A2 (en) 2001-07-15 2003-01-30 Keck Graduate Institute Methylation analysis using nicking agents
JP2003245087A (ja) 2001-11-22 2003-09-02 Sankyo Co Ltd 遺伝子診断方法
DE10201138B4 (de) 2002-01-08 2005-03-10 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern durch exponentielle Ligation hybridisierter Sondenoligonukleotide (MLA)
US7285394B2 (en) 2002-03-15 2007-10-23 Epigenomics Ag Discovery and diagnostic methods using 5-methylcytosine DNA glycosylase
WO2003087410A1 (en) 2002-04-11 2003-10-23 Sequenom, Inc. Methods and devices for performing chemical reactions on a solid support
US20040014101A1 (en) 2002-05-03 2004-01-22 Pel-Freez Clinical Systems, Inc. Separating and/or identifying polymorphic nucleic acids using universal bases
AU2003298733B2 (en) 2002-11-27 2009-06-18 Agena Bioscience, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
CA2523490A1 (en) 2003-04-25 2004-11-11 Sequenom, Inc. Fragmentation-based methods and systems for de novo sequencing
US20050009059A1 (en) 2003-05-07 2005-01-13 Affymetrix, Inc. Analysis of methylation status using oligonucleotide arrays
US20050026183A1 (en) 2003-05-15 2005-02-03 Jian-Bing Fan Methods and compositions for diagnosing conditions associated with specific DNA methylation patterns
US8150626B2 (en) 2003-05-15 2012-04-03 Illumina, Inc. Methods and compositions for diagnosing lung cancer with specific DNA methylation patterns
US20040253141A1 (en) 2003-06-16 2004-12-16 Schembri Carol T. Apparatus and method for nucleic acid spatial ordering
US9394565B2 (en) 2003-09-05 2016-07-19 Agena Bioscience, Inc. Allele-specific sequence variation analysis
ES2382780T3 (es) 2003-10-21 2012-06-13 Orion Genomics, Llc Procedimientos para la determinación cuantitativa de la densidad de metilación en un locus de ADN
CA2561381C (en) 2004-03-26 2015-05-12 Sequenom, Inc. Base specific cleavage of methylation-specific amplification products in combination with mass analysis
US7608394B2 (en) 2004-03-26 2009-10-27 Sequenom, Inc. Methods and compositions for phenotype identification based on nucleic acid methylation
EP1802772A4 (en) 2004-09-10 2008-12-31 Sequenom Inc METHOD FOR NUCLEIC ACID SEQUENCE ANALYSIS WITH GREAT RANGE

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WO2000.11.09,

Also Published As

Publication number Publication date
EP1613723B1 (en) 2013-05-15
AU2003298733A1 (en) 2004-06-23
CA2507189A1 (en) 2004-06-17
JP2006515987A (ja) 2006-06-15
JP4786904B2 (ja) 2011-10-05
CA2507189C (en) 2018-06-12
WO2004050839A2 (en) 2004-06-17
US20050112590A1 (en) 2005-05-26
EP1613723A2 (en) 2006-01-11
AU2003298733B2 (en) 2009-06-18
CN1774511A (zh) 2006-05-17
US7820378B2 (en) 2010-10-26
WO2004050839A3 (en) 2006-02-09
HK1087436A1 (en) 2006-10-13
EP1613723A4 (en) 2010-06-09

Similar Documents

Publication Publication Date Title
CN1774511B (zh) 用于序列变异检测和发现的基于断裂的方法和系统
CN101680872B (zh) 序列比较分析方法和系统
AU2004235331B2 (en) Fragmentation-based methods and systems for De Novo sequencing
AU2006272776B2 (en) Methods for rapid identification and quantitation of nucleic acid variants
EP2395098B1 (en) Base specific cleavage of methylation-specific amplification products in combination with mass analysis
US20060073501A1 (en) Methods for long-range sequence analysis of nucleic acids
US20060252061A1 (en) Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
JP2014221072A (ja) 特異的切断および質量分析法の組合せによる診断的配列決定
US9394565B2 (en) Allele-specific sequence variation analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130821

Termination date: 20131126