基于生物信息学筛选慢性肾脏病进展中自噬关键基因及潜在中药预测研究
桑田,王亿平
1.安徽中医药大学第一临床医学院,安徽合肥230038;2.安徽中医药大学第一附属医院肾内科,安徽合肥230031
本研究旨在通过从基因表达总表(GeneExpressionOmnibus,GEO)数据库下载的整合基因表达谱数据来探索自噬相关基因在肾纤维化中的作用。利用支持向量机(supportvectormachine,SVM)模型确定关键自噬关键基因,对关键基因预测可能的治疗中药。本研究为研究CKD的分子机制和探索治疗性中药提供理论依据。
通过人类自噬数据库获得参与自噬的基因。利用GEO数据库获得包含8名健康对照者和54例CKD患者的肾组织样本的GSE66494数据集,基于平台注释文件将数据集中的探针标识转换为基因名,进行批次矫正后用于后续筛选差异表达基因。
使用R包“limma”分析232个自噬相关基因在健康对照者和CKD患者之间的差异表达水平,在|log2FC|2和校正后的P0.05的标准下,得到不同的自噬相关差异表达基因(differentiallyexpressedautophagy-relatedgenes,DEARGs),并利用ggplot2和pheatmap包进行可视化处理。通过使用用于检索相互作用基因的搜索工具(STRING11.0)研究DEARGs的功能相互作用。然后通过Cytoscape3.9.1构建蛋白质-蛋白质相互作用(protein-proteininteractionnetworks,PPI)网络。
为进一步研究自噬相关基因DEG的富集途径和功能,将基因导入DAVID6.8,并通过使用R中的“ggplot2”包进一步可视化富集结果。
利用基于e1071包的支持向量机-递归特征消除(supportvectormachine-recursivefeatureelimination,SVM-RFE)算法从重要DEG中筛选特征基因,同时根据关键基因在正常样本和CKD患者样本中的表达情况。利用受试者操作特征曲线(receiveroperatingcharacteristiccurve,ROC曲线)评估关键基因诊断CKD的有效性,并使用pROC包绘制关键基因的ROC曲线。
利用CoremineMedical数据库作为分析工具,将筛选得到的关键基因输入该数据库进行进一步分析。通过设置统计学显著性阈值P0.05,对基因与相应中药之间的关联性进行映射,以识别具有潜在治疗效果的中药。
从GEO数据库提取232个自噬相关基因进行差异分析,得到67个DEARGs,见图1A。然后使用STRING11.0研究67个DEARGs的功能相互作用,通过Cytoscape3.9.0构建PPI网络,如图1B。
图1DEG的筛选及PPI网络分析
为进一步探索67个DEARGs的富集途径和功能,将基因导入DAVID6.8,并使用R中的“ggplot2”包进一步可视化富集结果。这些基因主要参与大自噬、位于自噬体、主要表现为泛素?样蛋白连接酶结合,见图2A。KEGG分析表明139个DEARGs主要参与巨自噬、自噬调节、细胞对外部刺激的反应等,见图2B。
图2GO生物功能富集分析与KEGG途径富集化分析结果
为进一步缩小自噬相关基因的范围,使用SVMRFE算法对67个CKD的DEARGs进行进一步筛选,见图3A,得到2个自噬关键基因ATF6、GNAI3。绘制ROC曲线对关键基因的诊断效能进行评估,ROC曲线显示ATF6、GNAI3在曲线下面积(areaunderthecurve,AUC)均接近1,即筛选出的2个关键基因对区分CKD患者与健康对照者具有较高的诊断效能,见图3B、图3D。
图3机器学习筛选核心基因
将2个关键基因定位到CoremineMedical数据库,根据P0.05为条件筛选治疗CKD的潜在中药,获得姜黄、泽泻、丹参、地黄、五味子等多味中药,见表1。
表1关键基因相关中药预测
本研究获得67个差异表达的自噬相关基因,并用于GO功能和KEGG通路分析,综合DEARGs的富集结果发现自噬相关基因主要与巨自噬密切相关。在应激条件下,巨自噬作为一种生存机制发挥重要作用,主要负责大分子、细胞膜和细胞器的更新,维持细胞内环境的稳态[8]。这一过程通过循环利用受损和有毒的细胞组分,转化为细胞的构建模块,从而支持细胞抵御应激反应并维持能量平衡[9]。此外,巨噬细胞在调控炎症反应和纤维化过程中扮演着关键角色[10]。因此,自噬相关基因可能在肾纤维化的进程中起重要作用。
SVM模型的进一步构