自然遗传变异和基因型-表型图的反向设计张媛媛
发生在群体中的自然的遗传变异是研究基因型如何影响表型的有力资源每个等位基因都是生物系统的一个扰动,并且通过重组和别离过程的遗传杂交,使得这些等位基因在后代中随机化的分布。而这些扰动会直接或间接地影响性状,对扰动做出反响的性状间的相似和不同可以推理:性状的改变到底是表型的原因〔例如疾病〕还是结果?这样可以用这种信息建立概率因果网络模型,这些网络开始定义了‘基因型-表型图’
背景关于基因、转录物、蛋白质及代谢物的数据很多,但区分这些因子关联的网络能力有限因此,当代生物学的一个中心目标是连接这些观测模式形成模型,以预测生物网络作为一个系统是怎么运作这里涉及的网络是一种因果关系,它可以通过扰动实验得到〔BOX1〕从观察数据推理因果网络就是反向工程。因为我们的目标是理解系统作为一个整体怎么运作,而不仅仅是识别功能相关或邻近关系
反向工程的经典方法是:系统中一个元素发生扰动,描述扰动的结果;同时并且随机的使得多个元素发生扰动,重复屡次这种随机的实验,描述扰动结果。而自然遗传变异就是多因素扰动的原因近来,用自然遗传变异探索因果网络的数据集大量产生本文的主要工作:1、讨论了最近关于自然遗传变异应用到基因型-表型图的一些成果;2、获得一个理解关联基因型到表型网络机制的步骤,并指出潜在的障碍和捷径
转录产物丰度的数量遗传学种群遗传特征是发现遗传变异〔引起表型变异〕的主要工具。通用的方法是杂交两个自交系,它的每一个位点是纯合子,产生一个杂交后代,它们之间是不同的用分子标记追踪基因组段〔通过减数分裂得到的〕,那么数量性状位点〔QTL〕可以被识别在基因型和表型关联的重要的进步是衡量关联的“表型状态〞,最明显的是对应感兴趣基因的转录产物的丰度。全基因组的转录丰度的数量遗传学分析有时候叫遗传基因组学或表达QTL定位
前面描述的用自然遗传变异作为扰动源的数量遗传学方法,比经典的方法〔单个基因一个时间〕有显著地优势:1、数量遗传学方法涉及大量隐藏的复制。在研究每个等位基因的影响时,100个个体代表平均50倍的复制2、在多个位点的同时改变使得扰动间的相互作用被发现。基因相互作用的例子:遗传冗余3、多个因子同时扰动相比单个扰动可以探索一个相对大的变量空间。复杂的遗传性状经常表现出超亲别离现象。被遗传别离种群覆盖的大的表型空间增加了检测表型间相互关系的能力
因果顺序一个QTL可以直接影响某些性状,也可以通过直接影响的这些性状间接影响其他的性状。特别关心的就是有机体表型的改变(例如疾病状态或行为)到底是转录丰度改变的原因还是结果?仅仅当转录丰度是原因时,表型的改变才是刻画生物性状变异的扰动的目标。在一个广泛的假设集下,可以用条件独立刻画因果关系。三个因果相关性状:A,B和C,在标准Markov假设下,如果ABC,当B的分布,A没有提供关于C的信息,也就是说A和C在B的条件下是独立的,但用条件独立说明的因果序不唯一,也可以是这样的:ABC。尽管如此,条件独立仍是区分直接关系和非直接关系的有利工具
研究基因扰动的关键优势是,很多因果顺序被基因变异引起表型变异的中心法那么所禁止,至少在单个个体中,表型不会反过来影响基因型T1=β1G+ε;T2=β2T1+ε;蓝色代表G的一个等位基因,红色是另一个等位基因,线是对应每个基因型的性状的平均值
在别离种群中测量表型的因果序对有几种方法,包括同时定位QTLs和适应因果模型、应用统计检验识别直接的因果关系、包含两个性状和一个QTL的三者之间的多种因果模型并用信息理论准那么比较了模型的适应度分享一个QTL的多个性状间的关系可以帮助识别一个QTL间隔的因果基因,这也是数量遗传学主要的挑战。表型相关的应用希望用在全基因组关联的研究上,这类研究发现了在人类中的大量的高置信度的基因变异和疾病间的联系,但这些疾病相关变异通常是功能未知的非编码区基因型和表型的相互关系可能会由于外部原因导致,比方年龄和种族的分层
因果网络为了获得生物因果关系的系统水平的理解,研究者需要整合遗传变异和表型性状的关系,而不仅仅是因果序对。贝叶斯网络提供了最受欢送的框架。贝叶斯网络是一个随机变量的图,每个随机变量代表一个表型,边是有向边。概率分布集描述了指向某个变量的其他变量的条件下,这个变量的状态。这个图和概率分布就定义了一个条件概率状态。但存在三个问题。
1、如果一个有向图被单个条件概率状态描述,不能根据这个图唯一确定有向网络;2、贝叶斯网络必须是无环的,因此不能模拟反响调控;3、可能的网络图很多,使得因果网络推理变得很复杂。尽管有这些困难,但从遗传别离种群中测量转录丰度非常适合发现有向贝叶斯网络。两个主要原因是:1、一个由另一个性状造成的性状应该分享一个遗传扰动:一个QTL。这