测序以及序列分析专栏
Sanger测序
人类基因组计划使用的测序方法是sanger测序,它的原理是在DNA
合成过程中,DNA聚合酶能够使用ddNTP(双脱氧核苷酸)来作为原料,
但它的反应会在加入ddNTP的时候终止,最后产生了一系列长度不一
并且分别在以A,G,C,T时终止的DNA片段。接着我们拿着这些片段去
进行一个高分辨率的电泳(能够区分出一个碱基的差别),然后根据
电泳结果,我们就能读出序列了。
二代测序(以illumina平台为例)
湖南生壹教育科技有限公司1版权所有侵权必究
三代测序(以纳米孔测序为例)
三代测序的核心思想是单分子测序,在不打断DNA的情况下直接把完
湖南生壹教育科技有限公司2版权所有侵权必究
整的序列读出来。
首先人们人工合成了一种蛋白质复合体,把复合体固定到一个电阻率
很高的薄膜上,类似于跨膜的离子通道,但这个通道是用来通过一条
DNA链的。测序的时候给反应体系加上电压,DNA链就可以通过这个
纳米孔,整个测序的反应原理跟其他两者测序方法是一样的,都是PCR
反应。只不过在三代测序中,每加入一个碱基,由于碱基的电荷大小
不一样,通过通道时产生的微电流扰动也不一样。通过记录每一次DNA
链经过通道时产生的电信号,就可以还原出DNA序列的本来面目。
利用序列构建系统发育树
湖南生壹教育科技有限公司3版权所有侵权必究
现代分子生物学一般用保守的基因比对去构建系统发育树,相比于性
状的突变,基因的突变包含的差异信息更多且不易丢失,更能精确的
还原演化历程。
在一段序列中的某个位点,它从A突变成CGT或者保持不变的概率是
多少,这些突变在时间尺度上多久发生一次,都由数学家,生物统计
学家做出了总结。他们提出了分子钟模型,用来解释基因位点发生突
变的速率。
根据这些数学模型,我们可以利用序列的不同去反推这些基因在什么
时候积累了足够多的突变导致物种的分化。
转录组学与RNAseq技术
湖南生壹教育科技有限公司4版权所有侵权必究
我们给整个细胞的DNA测序得到的数据叫做基因组。那给整个细胞的
RNA测序得到的就叫转录组。
基因的表达是受到严格的时间,空间上的调控的。我们如果想研究一
个疾病的发生过程,一个胚胎的发育过程,或者一个器官的再生过程,
那最直接的方法就是比对这些事件发生前后都有哪些基因的表达发
生了改变。
RNAseq,首先需要提取出组织样本里面的RNA,因为mRNA它有一个特
殊的polyA尾巴的结构,所以我们就可以通过针对PolyA尾巴设计的
引物,对mRNA进行富集,再逆转录的方式合成cDNA文库,最后把
cDNA文库送去测序。
测序的结果会用生物信息学的工具比对到基因组上去,看看这些转录
本都属于哪些基因,定量之后,我们就可以看到这些不同的基因的表
达量的变化了。
湖南生壹教育科技有限公司5版权所有侵权必究
一般来说,RNAseq数据给我们的第一个比较重要的结果就是差异表
达分析,你可以输出这样的几个图,图一是韦恩图,展示了两个组之
间有多少基因是下调或上调的,图B是散点图,每个点都代表了一个
基因相对于对照组的表达情况,你可以把它变成旁边的火山图横轴是
Foldchange取了以2为底数的对数,大于0的点是上调的,而小于0
的点是下调的。但是这些点的置信度都不一样,置信度我们这里用到
是q值,y轴是给q值取了以10为底的对数。一般来说,我们的
log2FC绝对值大于1,q值小于0.05.
湖南生壹教育科技有限公司6版权所有侵权必究
做完差异表达,一般下一步会做的是通路富集。通路富集就是把我们
的测序结果比对到公共数据库上去,看一看我们富集到的有差异的基
因主要集中在哪些信号通路,细胞活动,或者代谢过程上。比较常用
的有俩个数据库,一个叫KEGG,另一个叫Geneontology,简称GO。
湖南生壹教育科技有限公司