1.KEGG的基本概念

KEGG是一个整合基因、通路、疾病和药物信息的综合数据库,旨在系统地解析基因与基因组的功能。其核心内容是KEGG通路(Pathway) ,通过手工绘制的分子相互作用网络图(如代谢通路、信号转导通路等),将基因、蛋白质、化合物的功能联系起来。

KEGG通路分为以下几类:

代谢通路(Metabolism) :如糖酵解、三羧酸循环。

遗传信息处理(Genetic Information Processing) :如DNA复制、转录、翻译。

环境信息处理(Environmental Information Processing) :如信号转导(MAPK通路、PI3K-Akt通路)。

细胞过程(Cellular Processes) :如细胞周期、凋亡。

疾病相关通路(Human Diseases) :如癌症、神经退行性疾病。

药物开发(Drug Development) :药物靶点与代谢路径

2.KEGG通路分析的目的

功能关联 :将基因或蛋白质映射到已知通路,揭示其参与的生物学过程。

通路富集分析(Pathway Enrichment) :在组学数据(如差异表达基因)中,统计显著富集的通路,解释实验结果的生物学意义。

系统生物学研究 :构建分子相互作用网络,探索疾病机制或药物靶点。

3. 分析流程

输入数据 :一组目标基因或蛋白质(如RNA-seq筛选的差异表达基因)。

通路注释 :通过基因ID(如Entrez ID、KO编号)将目标基因映射到KEGG通路。

富集分析 :

使用超几何检验或Fisher精确检验,计算目标基因集在特定通路中的富集程度(p值)。

校正p值(如Benjamini-Hochberg校正)以减少假阳性。

结果可视化 :

通路图(Pathway Map) :用颜色标记目标基因在通路中的位置(如KEGG Mapper工具)。

富集结果图 :柱状图、气泡图展示显著富集的通路(如使用R包clusterProfiler或pathview)

4.应用场景

疾病机制研究 :例如,发现肿瘤相关基因富集在“细胞周期调控”或“PI3K-Akt信号通路”。

药物靶点预测 :通过通路分析寻找潜在药物作用靶点(如代谢通路中的关键酶)。

跨组学整合 :结合基因组、转录组、蛋白质组数据,构建分子调控网络。

5.常用工具和数据库

KEGG官网 (https://www.kegg.jp ):提供通路图、基因注释和分析工具(如KEGG Mapper)。

DAVID :支持KEGG通路富集分析。

clusterProfiler (R包):自动化完成KEGG富集分析和可视化。

Metascape :整合KEGG、GO等数据库的在线分析工具。

注意事项

物种特异性 :KEGG通路在不同物种中的注释可能不一致,需确认目标物种的数据库支持。

通路覆盖范围 :部分通路可能缺乏完整注释,需结合文献补充。

生物学验证 :富集结果需结合实验验证(如敲除关键基因、通路抑制剂实验)。