AWSG爱保信(Biotech)-窥探人类疾病遗传易感性研究方法

来源:AWSG爱保信发布时间:2021-01-20 15:59:13

随着人类基因组计划的完成和后基因组计划的开展,人们对于基因组变异和疾病的认识也越来越深入。人类基因组上的变异主要分为三种:单核苷酸变异(SNP)、小片段序列的插入或删除(SmallIndel)和大片段的结构性变异(SV)。任何一种变异都可能会引起个体的表型或特征发生改变甚至引起疾病。

根据基因变异-疾病的关系可以将人类疾病分为三类。第一类是单基因遗传病(Monogenicdisease),仅一对等位基因的改变就会引发疾病并可以遗传给后代,如血友病和白化病。虽然每种单基因遗传病的发病率很低,但由于种类众多(约5000~8000种),总发病率高达6%。第二类是多基因疾病(Multigenic/polygenicdisease),也称为复杂性疾病(Complexdisease),是涉及两个或两个以上的基因且通常和多种环境因素共同作用导致的疾病,如肿瘤和糖尿病等。第三类为获得性基因病,主要是由病原微生物通过感染将其基因入侵到宿主,导致宿主基因组改变,如艾滋病、HPV感染及乙型肝炎等。

遗传易感性研究通常关注的是与人类疾病相关的基因组变异,主要研究方法有基于家系的连锁分析(Linkageanalysis)、关联分析(包含候选基因关联分析(Candidategeneassociationstudy)、全基因组关联分析(Genome⁃wideassociationstudy)和基因集合关联分析(Genesetanalysis))等。本文将介绍各种遗传易感性研究方法的历史、原理及进展。


1 基于家系的连锁分析

连锁分析研究的理论基础是疾病家系中致病的基因或者染色体区域与疾病性状共分离(Co⁃segregation),因此连锁分析主要应用于单基因疾病研究。两个在基因组上位置相邻的基因座上的等位基因由于连锁而共同分离,因此更容易作为一个单位共同遗传给后代。因此,患病个体除携带致病性变异外,还会表现出携带与致病变异连锁的遗传标记位点(单核苷酸多态位点或微卫星序列)。通过分析患者中共享的遗传标记位点即可实现对于致病变异的定位。由于来自一个家庭中父方或母方的共分离现象可能仅限于在此家庭内部,因此连锁分析必须有患病家庭的数据。基于家系的连锁分析有主要分为参数分析法、非参数分析法和核心家系法。

1.1 非参数分析法

基于模型的参数分析法需要预先获得所研究性状的遗传模式、涉及的等位基因数量及外显率,因此前期模型的错误预设对结果的影响非常大。为了解决参数分析法对预设参数极度敏感的难题,Weeks和Lange于1988年提出了连锁分析的另一种研究方法———非参数分析法(又称非基于模型分析法),检测的是该家系的遗传模式是否背离了预期的自由组合模式,可以应用于无法预知疾病的遗传模式或无法获取足量的家庭成员数据的情况。非参数方法的原理是通过状态同源(IBS,identicalbystate)和血缘同源(IBD,identicalbydescent)来进行等位基因共占(Allelesharingmethods)分析。

IBS指一段DNA片段的序列在两个或多个个体中完全一致;若该IBS片段是遗传自同一个共同祖先,则该片段是IBD。IBD的片段同时也是IBS的,但是IBS的片段不一定都是IBD,还可能是由于突变或重组导致序列完全一致。非参数方法通过患者同胞对(ASP,affectedsibpairs),患者亲戚对(ARP,affectedrelativepairs)和家系患者(APM,affected⁃pedigree⁃member)三种设计来检测患病家系中患病和未患病个体的基因位点相似的程度,并判断导致疾病的位点与测到的位点是否连锁。非参数方法的优点是研究对象相对容易收集,但检验效能相对较低且样本量要求较大。

1.2基于核心家系的研究方法

复杂疾病遗传易感性的分析最常用的方法是在人群中随机选取的病例-对照法,但是由于样本人群可能受到年龄、性别、种族或地域等因素而造成人群分层,从而对研究结果造成影响。家庭成员之间的遗传背景相似,因此使用患者核心家系(Nuclearfamily)作为样本进行基于家系的病例-对照研究可以避免样本分层造成的影响。核心家系(又称三体家系)由一对夫妻及其至少一名患病子女构成,常用的研究方法是家系传递连锁不平衡检验(Transmissiondisequilibriumtest,TDT)。TDT方法是在家系内进行相关分析,观察双亲(至少一个为杂合子)将与候选致病位点连锁的等位基因位点传递给患者子代的概率是否明显增高而呈现出连锁不平衡。与非参数分析方法相因间的相互作用,比如应用TDT方法解决了胰岛素基因与IDDM是否相关的问题。此外,由于核心家系只需包含一个患病子代,因此达到同样的检验效能所需的样本量比非参数分析法大大减少。但缺点是晚发型疾病的患者不易取得其双亲的数据,且部分携带疾病易感基因的个体因外显不全而易被错误定为不患病个体。因而许多研究者提出了改善TDT的方法,比如Curtis提出以不患病同胞作为对照。

核心家系可以用来鉴定多种疾病相关的基因和位点。例如,一项欧洲系统性红斑狼疮家系研究选取了103例核心家系及C1q基因的5个tag⁃SNP进行分析,发现C1qA和C1qC与系统性红斑狼疮显著相关。此外,目前研究新生突变的主要方法是收集核心家系成员的全基因组测序数据,通过比较父母与子代基因组的差异来寻找新生突变。这种研究策略要求测序覆盖度足够大(大于30X),来避免测序中的抽样误差。2015年解密发育障碍研究计划(TheDecipheringDevelopmentalDisordersStudy)收集了1006个核心家系,鉴定了12个新生突变与个体生长发育疾病相关。

基于家系的连锁分析方法需要大量、完整且准确的家系样本数据,在实际研究中具有较大的局限性,而且无法用于分析复杂疾病。随着二代测序技术的发展,研究者们开发了更有效的新方法来替代基于家系的连锁分析方法。


2关联分析研究方法

关联分析(Associationstudy)是一种基于群体而非家系的研究方法,原理是通过分析在病例和对照中频率有显著差异的等位基因,来鉴定与疾病或性状相关的易感基因和位点。关联分析可以筛选与疾病或性状相关的位点,但两者的因果关系无法推测。1996年Lander提出了常见变异导致常见疾病假说(CommonDisease/CommonVariant,CD/CV)。该假说推测所有患有特定疾病或带有特定表型的个体的基因组均有来自于一个共同祖先的常见变异。这些变异对疾病和表型的作用表现为累加效应或倍乘效应。根据该假说,疾病易感性是来源于某些特定的常见变异位点,这些位点在患者人群中的频率显著高于未患病人群。该假说适用于2型糖尿病相关的PPARγ基因和阿尔兹海默病相关的APOEε4基因]。目前常用的关联分析方法有候选基因关联分析和全基因组关联分析两种。

2.1候选基因关联分析

候选基因关联分析通过分析候选基因中的tagSNP或者候选SNP在病例样本和对照样本中等位基因的频率,筛选出在统计学意义上具有显著频率差异的位点作为与疾病相关的位点。候选基因关联分析最重要的是样本人群和候选基因的挑选。病例和对照人群应选择具有相似遗传背景的样本,这样频率差异显著的位点才确实与疾病相关。候选基因位点可以通过以下几个途径挑选:(1)首先根据被研究的疾病(性状)的发病机制,选择可能相关的基因;再挑选可能会调控该基因或者编码蛋白的SNP(通常为标记SNP,即tagSNP)];(2)通过全基因组关联分析筛选的与疾病相关的基因和位点,然后将这些候选基因位点在另外一个人群中进行验证;(3)将其他模式生物(如小鼠模型)的研究结果中与疾病相关的基因和位点作为候选基因,在人类疾病样本中研究其同源基因的关联性。

最早使用候选基因关联分析法定位的疾病关联基因的例子是1983年基因APOC3(ApolipoproteinC3)上的位点被发现与高甘油三酯血症和动脉粥样硬化相关。随后,Kim等人使用比较基因组学和染色体遗传方法发现了与人类和猪肥胖特性相关的基因。通候选基因关联分析还在108例藏族人样本中发现了EDAR基因的位点与血氧饱和度及血小板数量相关,提示EDAR基因对藏族人的高海拔低氧环境适应有正向的贡献。

2.2全基因组关联分析

全基因组关联分析(Genome⁃wideassociationstudy,GWAS)是在具有不同特性的人群中进行全基因组水平的关联分析的方法。与候选基因关联分析不同,全基因组关联分析针对的是所有的遗传位点。20世纪90年代末,全世界开始大规模构建生物样本数据库。世界各地的研究者都可以上传或获取数据库中的样本和基因组数据,使得样本收集的成本和难度大幅下降。2003年完成的人类基因组单体型图(HapMapProject)计划为全基因组关联分析研究使用的绝大多数SNP位点提供了单体型信息。基于以上因素及全基因组分型芯片技术的发展,全基因组关联分析成为了鉴定复杂疾病或性状研究中最常用的方法。

2.3基于关联分析的其他研究方法

关联分析通常是针对一组病例-对照样本进行逐个位点的卡方检验。为了发现更多的候选位点及微效基因位点,研究者基于单点单组样本关联分析又开发了多种研究方法,比如imputation、meta⁃analysis、上位效应研究(Epistasis)和基因集合关联分析(Genesetanalysis,GSA)。

运用imputation,可以基于已知的基因型(如国际人类基因组单体型图计划和千人基因组计划来预测缺失位点的基因型,使得用于分析的位点数大大增加,从而实现对于易感性位点的精细定位。而meta⁃analysis则可以将多个关联分析的结果进行整合分析,保证微效位点的有效检出。

2.4关联分析的应用

关联分析经常用来鉴定复杂疾病的易感基因。2005年一项发表在Science杂志的研究鉴定了一个在老年性黄斑变性的病例-对照中有显著的频率差异的CFH基因位点。这是第一项应用全基因组关联分析进行疾病易感基因定位的研究。在此之后,全基因组关联分析就成为了鉴定疾病易感基因和复杂性状相关基因的主要方法。现在全基因组关联分析的策略是综合多个表型(表型组)数据,使用大样本人群队列进行分析,如使用了344369例样本,发现了编码的15个常见多态和9个低频突变与人类身体脂肪分布特征显著相关


3连锁分析和关联分析的比较

连锁分析和关联分析是两种有本质区别的研究方法,前者研究的是在一个家系中基因的遗传特性是否与疾病的传递相关,适用于家系中首位携带致病位点的个体与所收集到最年轻的个体相隔一代或几代的情况;而后者是基于样本群体的基因频率差异研究该基因是否与患病相关,可以用于分析大量无亲缘关系但拥有一个遥远的共同祖先的患病个体。基于家系的连锁分析只适合研究单基因遗传病,且鉴定的与疾病相关的区域较大,而关联分析在发现疾病的微效遗传机制时比连锁分析更为有效,通常定位的区域非常短,因此可以应用于复杂疾病的研究。


4 小结

目前应用于疾病易感性研究的几种方法,这些方法均基于目前基因组分型和测序技术的快速发展及人类基因组数据的极大累积。每种方法均有各自的优势和局限性,因此研究者可以根据待研究的疾病或性状的特性及样本属性来选择合适的方法。由于疾病是多种环境和遗传因素共同作用的结果,发病机制非常复杂,因此未来仍需更多更有效的分析方法来研究基因组变异和疾病易感性的关系。

AWSG爱保信(Biotech)投行事业部,由深耕生物医药领域多年的资深投行专家以及来自国内外顶尖院校的生物医药专业博士组成,致力于帮助全球最好的生物技术产业化和资本化,以资本、人才、技术资源助力,全链条全周期地陪伴生物医药公司共同生长,成为生物医药公司背后最坚定的助跑者。