二代测序---NGS,二代测序技术原理及流程

新闻资讯2024-08-13 04:28小乐

二代测序---NGS,二代测序技术原理及流程

新一代测序,也称为下一代测序(NGS),是一系列高通量测序技术的统称,可以在短时间内产生数十万至数十亿的短序列读数。 NGS技术包括Illumina测序、Ion Torrent测序、Roche 454测序(现已停产)和Pacific Biosciences(PacBio)单分子实时测序(SMRT)等。这里我重点介绍一下Illumina测序的数据分析方法和原理,因为它是目前使用最广泛的NGS平台。

Illumina测序原理:

**文库准备:**首先将待测序的DNA样本打碎成小片段,并在两端添加特定的接头序列。这些带有接头的DNA 片段称为文库。 **桥式扩增:**文库中的DNA片段通过接头固定在流动池表面,然后在流动池中扩增形成DNA簇。每个DNA 簇都由同一DNA 分子的多个副本组成。 **边合成边测序(SBS):**使用可逆终止的荧光核苷酸,一次只允许将一种核苷酸添加到新合成的DNA 链中。每个核苷酸都经过独特的荧光标记,并且3' 末端经过化学修饰以防止进一步的链延伸。 **图像采集:** 通过用激光激发荧光标记,相机捕获每个位置的荧光信号,以确定添加的核苷酸类型。 **洗脱和下一个循环:**洗掉未结合的核苷酸和荧光标记,去除3'端的封闭基团,并准备添加下一个核苷酸。 **序列生成:**重复此过程,直到获得足够长的序列读数。 Illumina测序的数据分析方法:

**数据预处理:**包括去除adapter序列、去除低质量reads、去除污染序列等。 **序列比对(Alignment):**将测序得到的短序列reads映射到参考基因组上,以确定其位置。常用的比对工具包括BWA、Bowtie、TopHat等。 **变异检测:**比对后,分析软件寻找序列中的变异位点,如单核苷酸多态性(SNP)、插入/缺失(indels)、和结构变体(SV)。常用的突变检测工具包括GATK、SAMtools和VarScan。 **注意:**将检测到的变异位点与数据库中的信息进行比较,以预测其功能影响和潜在的生物学意义。常用的注释工具包括ANNOVAR和Ensembl VEP等。 **下游分析:**根据研究目的,还可能包括转录组分析、表观遗传分析、基因融合检测、非编码RNA分析等。 **结果可视化:**使用各种生物信息学工具和软件包,如IGV、Circos、GenomeBrowse等,可视化和解释分析结果。 NGS 数据分析是一个复杂的过程,涉及大量计算和统计分析。随着技术的进步和生物信息学工具的发展,NGS 数据分析方法不断发展,以提高准确性、效率和可重复性。以下是典型的NGS数据分析流程,以全基因组测序(WGS)为例:

数据采集:从测序仪获取原始数据,通常是FASTQ格式的文件,其中包含序列的基础信息及其质量评分。数据预处理:**质量控制:**使用FastQC等工具检查序列质量和测序错误。 **Adapter Trimming:**使用Cutadapt或Trimmomatic等工具去除序列两端的Adapter序列。 **低质量读数修剪:**删除质量分数低于阈值的碱基或整个读数。 **污染物去除:**识别并去除不属于目标物种的序列,例如细菌、真菌或人类DNA。序列比对(Alignment):使用比对工具(例如BWA、Bowtie2或SOAPaligner)将预处理的reads映射到参考基因组。生成的比对结果通常存储在BAM或SAM格式文件中。比对后处理: **排序:** 使用Samtools 等工具按染色体位置对比对结果进行排序。 **重复删除:**在PCR 或扩增过程中使用MarkDuplicates 等工具识别并删除重复读数。 **重新对齐:**使用GATK RealignerTargetCreator 和IndelRealigner 等工具进行局部重新对齐,以提高变异检测的准确性。 **碱基质量分数重新校准(BQSR):**使用GATK BaseRecalibrator 等工具校准碱基质量分数以提高变异检测的准确性。 Variant Calling:使用变异检出工具(如GATK HaplotypeCaller、FreeBayes 或VarScan)来识别基因组中的变异位点,包括单核苷酸多态性(SNP)、插入/删除(indels)等。生成的突变检出结果通常会被存储VCF 格式的文件。变异注释:使用注释工具(如ANNOVAR、VEP或SnpEff)将变异位点与生物学功能、疾病关联、保护等信息关联起来。下游分析:根据研究目的进行具体分析,如群体遗传分析、癌症基因组分析、基因融合检测、甲基化分析等。 结果可视化(Visualization):利用生物信息学工具和软件(如IGV、Integrative Genomics Viewer、 Circos 等)来可视化和解释分析结果。统计分析和生物学解释:进行统计检验以确定变异的显着性,并结合生物学知识进行功能预测和机制解释。报告撰写:总结分析结果,撰写报告,提出结论,推荐后续研究方向。整个NGS 数据分析过程可能需要几天到几周的时间,具体取决于数据的复杂性、分析工具的选择以及计算资源的可用性。随着生物信息学工具的不断发展,该过程不断优化和自动化,以提高分析的效率和准确性。在下一代测序(NGS)数据分析过程中,广泛使用了许多生物信息学工具。这些工具涵盖了从数据预处理到高级分析的每个阶段。以下是一些常用工具的概述:

数据预处理工具:FastQC:用于检查原始测序数据的质量。 TrimGalore 或Trimmomatic:用于去除接头序列并过滤低质量的读数。 Skewer:专门用于从Illumina 测序数据中删除接头。序列比对工具:BWA(Burrows-Wheeler Aligner):用于将短读段映射到参考基因组。 Bowtie2:另一种流行的短读对齐工具。 STAR:特别适合转录组测序数据的比较。 SOAPaligner/soap2:用于短读段与大基因组的高效比对。对比后处理工具: Samtools:用于处理SAM/BAM格式的对比文件,包括排序、索引和查看。 Picard Tools:由Broad Institute 开发,用于重复数据删除、重新排序和其他对齐后处理任务。 GATK(基因组分析工具包):提供一系列用于高质量变异检测和基因分型的工具,包括重度比对和碱基质量评分校正。变异检测工具:GATK HaplotypeCaller:用于检测SNP和indels。 FreeeBayes:一种灵活的变异检测工具,适用于多种测序技术和数据类型。 VarScan:用于检测SNP、插入缺失和拷贝数变异。 MuTect:专门用于癌症样本中的体细胞变异检测。变异注释工具:ANNOVAR:用于注释SNP、indels和CNV的功能影响。 Ensembl VEP(变异效应预测器):提供详细的变异注释,包括基因和调控元件的位置。 SnpEff:用于预测SNP 和插入缺失对基因和蛋白质水平的影响。下游分析工具:DESeq2、edgeR 或limma:用于差异表达分析。 MACS(基于模型的ChIP-Seq 分析):用于ChIP-Seq 数据的峰调用。 HTSeq 或featureCounts:用于对对齐读数进行计数,常用于RNA-Seq 数据。袖扣或StringTie:用于转录本组装和表达定量。结果可视化工具: IGV(Integrative Genomics Viewer):用于可视化比对和变异数据。 UCSC Genome Browser:提供基因组浏览和注释信息。 Circos:用于创建基因组数据的复杂圆形图。统计分析和生物学解释的工具: R语言:一种用于统计计算和图形表示的语言,有许多用于NGS数据分析的软件包(例如Bioconductor项目)。 Python:另一种流行的编程语言,具有用于数据分析的Pandas、NumPy 和BioPython 等库。这些工具只是冰山一角,还有许多其他工具和技术可用于特定的分析需求。随着NGS技术的不断发展,新的工具和方法不断涌现。选择工具时,您应该考虑数据的特征、分析的目的以及您的个人经验和技术堆栈。

猜你喜欢