AWSG 爱保信(Biotech)-突破!癌症鉴定组织分类新方法DNA甲基化450K

来源:AWSG爱保信发布时间:2021-01-13 15:43:47

本文分为两个部分:

part1:

①介绍了癌症DNA甲基化的鉴定及其在癌症鉴定中的意义

②介绍的源的数据集以及维度约简和特征选择。

Part2

①比较不同数量模型的性能功能和分类器以及该项技术对生物学意义

结论及未来展望

DNA甲基化与癌症鉴定

DNA甲基化是基因组的表观遗传修饰,对基因转录的正常调节。这是一个生物过程,涉及到将甲基转移到胞嘧啶的C5位置以形成5-甲基胞嘧啶。在正常细胞中,这种修饰导致不同的相互作用确保适当调节基因表达和基因沉默的特性。 

相反,恶性细胞的DNA甲基化表现出重大破坏模式。DNA甲基化的变化包括低甲基化和高蛋白化已被认为是癌症的重要组成部分发展。(低甲基化通常与致癌基因的激活有关,而CpG岛的高度甲基化与癌症的沉默有关抑制基因。)

通过DNA甲基化分析,可以预期可以基于不同水平的DNA实现癌症分类甲基化,可能有助于肿瘤诊断和药物开发。通常,已知癌症是由以下疾病驱动的一组疾病进行性遗传异常,包括肿瘤抑制基因的突变和癌基因,以及染色体异常。而遗传的作用许多研究者都强调突变,表观遗传学交替如DNA甲基化等也被发现与癌症发展高度相关。

 

/uploads/image/2021/01/13/图片1.png

 

传统上,癌症识别是通过医学测试(例如实验室)进行的检查,影像学检查和活检。Masilamani等人的先前工作表明诸如血液测试等肿瘤标志物的实验室测试具有巨大的早期潜力检测癌症。

但是,正如美国国家癌症研究所(NCI)指出的那样,实验室检查结果异常并非癌症的肯定迹象,其中大多数可能只是有助于评估癌症风险而不是诊断。同样,成像测试有助于早期发现癌症。他们可以帮助找到并找出肿瘤的阶段。但是,由于癌症之间有些相似的外观和其他类型的疾病,它们不适合进行最终诊断。

此外,由于需要数百万个细胞才能使肿瘤大到足以出现在影像学检查,影像学检查可能仅有助于检测大量癌症细胞。就活检而言,尽管它们提供了最准确的诊断癌症,需要样本进行此类测试。通常,获取活检样本用针,内窥镜甚至是外科手术,这些可能会给病人带来很大的痛苦。

考虑到当前技术的局限性,通过从分子水平进行癌症鉴定和分类的工具测序DNA甲基化数据。甲基化DNA数据的遗传分析可能还提供了有关药物开发的新见解。

测序数据可改善癌症分类  

准确鉴定出特定癌症有望为进一步治疗带来希望选择和预测癌症的预后。

但是,由于以下限制由于患者的手术耐受性,外科医生可能难以使用复杂的解剖获得高精度的癌症诊断。有时,即使肿瘤是成功获得的,相似的组织病理学外观不同肿瘤仍可能导致误诊,因此可能无法实现治疗有效的治疗作用。这种预后的不确定性推动确定性更高的其他诊断方法的发展。

随着下一代测序(NGS)技术的改进越来越多测序数据,例如DNA-seq,RNA-seq可供研究人员使用先进的方法来挖掘这些数据,并提供更通用,更可靠的方法通过特定的生物学见解为临床诊断提供信息。

一个伟大的已经进行了许多研究以对癌症类型和亚型进行分类使用测序数据。例如,李(2017)和他的团队使用RNA序列数据可提取33种不同类型肿瘤的20种特征ML的最终准确率超过90%。类似的想法从Zhang(2018)的项目中可以看出,他们提出了预后模型贝叶斯网络对888个特征的乳腺肿瘤的分类从DNA甲基化数据中提取。Raweh(2018)和他的团队使用了TCGA数据集和RnRead软件从原始数据中提取512个有用功能,然后将快速傅里叶变换算法的方法用于七种类型的癌症分别提取不到10个相应特征,最后使用了不同的分类器(例如随机森林)和支持向量机来获得整体准确率高于97%。

 

但是,尽管事实上技术已经应用于分析基因表达数据,先前的研究证明了一些常见的机器学习方法如支持向量机可能由于基因表达谱(GEP)数据集的维度和小样本量。这样,设计的降维方法就大大减少了数量排序数据中的特征将是获得高精度模型的关键。

实验方法  

数据集  

癌症基因组图谱(TCGA)是由国家癌症基金会牵头的一项具有里程碑意义的项目研究所(NCI)和国家人类基因组研究所(NHGRI)旨在列出了主要的致癌基因突变。

TCGA数据集,分子鉴定超过20,000种原发癌和匹配的正常样品公开提供了30多种癌症类型。这项研究集中在由TCGA提供的TCGA数据集中的DNA甲基化数据上UCSC Xena。使用Illumina Infinium获得DNA甲基化谱HumanMethylation450平台,包含超过45万个CpG位点探针(HumanMethylation450),可提供定量甲基化在单CpG站点级别进行测量。

拥有超过45万个甲基化位点,Infinium HumanMethylation450 BeadChip可提供全面,专家选择的覆盖范围和高吞吐率相结合价格低廉,因此可以对各种DNA进行具有成本效益的DNA甲基化分析应用。

由于其全面的全基因组覆盖范围以及无与伦比的成本效益,HumanMethylation450数据集已成为研究许多疾病过程中表观遗传变化的流行选择。Saumya使用DNA甲基化450K数据揭示了外周血男性不育的甲基化差异和邦妮(Bonnie)利用相同的数据得出胶质母细胞瘤的MGMT甲酰化评估。

在这项研究中,使用的来自UCSC Xena的甲基化450k数据已经通过了质量控制,例如过滤低质量的探针以及标准化过程和DNA甲基化水平以定义的beta值进行测量甲基化探针强度与总强度之比(甲基化和未甲基化的探针强度)。


 /uploads/image/2021/01/13/图片3.png

 

它是介于0和1之间的连续变量。DNA甲基化水平,而较低的β值表示较低的DNA水平甲基化。

降维

研究的重点是从TCGA中提取的30个DNA甲基化数据集。原始数据包括代表的超过45万个标识符探针的ID号和总共9743个样本,有一些特征含有由于某些甲基化450Bead芯片质量低而缺失的值探针。

在神经网络思想的启发下,从原始中选择特征480000个CPG站点分两个阶段实现(图1)。该项技术采用了一个“隐藏层”(中层)大小特征,它是方差选择的输出(尺寸缩小)以及后一个RFE过程的输入(特征选择)。

在第一步中,通过方差选择法(降维),我们减少了数字450,000至2000特征。在第二步中,第一阶段的输出成为RFE过程的输入我们从2000个CPG站点中提取20个特征。在这里构建“隐藏层”的原因是虽然RFE可以提供精确的解决方案,但当时,时间开销是一个缺陷输入特性是巨大的。此外,如果直接应用RFE算法来由于冗余和噪声,该算法的稳定性受到质疑基因最初没有被移除。

在降维和特征选择之前,缺少特征删除样本中的值,然后将30个数据集合并为一个整体数据集。之后,根据和之间的方差进行降维在不同的癌症组中。Afshar(2020)证明了删除低方差的特征,以便选择高方差的重要特征维度数据和Model(2001)表明,具有较大差异的基因是更重要的特征,因为它们可以解释大多数总方差。因此,结合了相关的想法,并在此应用了方差选择学习。

以下是组内方差的公式:

/uploads/image/2021/01/13/图片4.png

/uploads/image/2021/01/13/图片5.png

 (图1降维和特征选择)

 

功能选择

 利用特征选择算法的递归特征消除法[RFE]方法,从中获得最重要的特征第一步后总共有2000个标识符。作为Guyon等人的工作说明,该算法在遗传诊断和基因诊断中具有很高的准确性选择。

 更具体地说,RFE是一种用于特征选择的方法,它选择通过递归地获取越来越小的特征集直到获得所需的功能数量。估计器(即分类器)是该算法的一个重要组成部分,它计算特征的重要程度。在每个循环中,它对功能的重要性进行排名,消除了最差的功能。在这里,我们选择准确性作为RFE的指标并主要调整所选要素的数量以比较结果。

 由于RFE方法是估计方法的范围,因此选择它至关重要。根据自Deng(2012)以来,基于树的分类器经常被选为估计量,因为他们可以提供可变的显着性得分,并且表现相对较强。

 类似的观点可以在Touw(2013)的论文中看到,该论文证明了森林随机分类器对生物信息学领域的意义。因此,该项技术选择随机森林作为估计量,并提出类似算法的决策树和额外树进行测试。

 另一方面,Moon(2016)证明了L1-norm SVM的性能以及处理生物医学数据时的特征选择估计器。原因是生物统计学家的数字倾向于居中当基于L1的分类器能够区分它们时,可能很难区分它们稀疏且易于检测。

 结果,由于我们拥有的数据是小数在0.0到1.0之间(主要根据0.1到0.9 ),跟随Moon及其团队将L1-norm SVM用作估计量因此,使用这四个估算器来获得每个功能的得分然后选择排名靠前的几个分类器。

 跟随Sahu(2017)的DNA微阵列数据研究,支持向量机(SVM),k最近邻(KNN)和多层感知器(MLP)2.3是选择。此外,另外两个集成分类器LightGBM和Xgboost也被使用。

 

/uploads/image/2021/01/13/图片6.png 

 

首先将按差异过滤的特征集分为10个部分,进行10倍交叉验证(图2)。在每次迭代中,保留一份数据作为验证集并使用其他9个部分作为训练集。然后使用RFE方法训练集并实现所选功能。因此,新的数据子集使用选定的CpG网站作为特征撰写的内容,输入到分类器中评估。

 在这里,需要检查选定的功能以及选择最佳的组(功能加分类器)作为最终模型。由于实验中有四个估算器以及五个不同的分类器,因此总共进行了20组,每个组包含10次迭代,因为每组包含十折交叉验证。如图所示(图3),分别用模型(运动测试训练部分是检查模型是否过拟合),并且以10个特征(从20到50)的间隔记录准确性。

 这样,两个列表每个包含列车评分和试验得分分别被获得。因此,对于在20个模型中的每个模型上,我们都获得了验证集上每个折叠的准确性,并且对它们进行平均,以得到不同数量的特征的平均设置精度以及计算出的10组的最小值和最大值。

 

/uploads/image/2021/01/13/图片7.png 

(图3估计器和分类器的组合)

 

AWSG爱保信(Biotech)投行事业部,由深耕生物医药领域多年的资深投行专家以及来自国内外顶尖院校的生物医药专业博士组成,致力于帮助全球最好的生物技术产业化和资本化,以资本、人才、技术资源助力,全链条全周期地陪伴生物医药公司共同生长,成为生物医药公司背后最坚定的助跑者。