人类蛋白质组图谱为超过90%的蛋白质编码基因提供了其蛋白质翻译证据,然而人类基因组约20,000个蛋白质编码基因中由于选择性剪接事件的存在,其蛋白质组多样性显著增加;此外,单氨基酸多态性(SAP)和翻译后修饰也进一步增加了蛋白质组的复杂性,而精确检测蛋白质多样性对于理解生物学功能至关重要。但由于目前蛋白质组学技术的局限性,常用的鸟枪法蛋白质组学检测方法是通过部分肽段序列来确定整个蛋白质的,其序列覆盖率不足以完全表征样本中存在的所有蛋白质状态。
近期,马克斯-普朗克生物化学研究所、欧洲分子生物学实验室等机构的科学家在Nature Biotechnology上发表题为“Global detection of human variants and isoforms by deep proteome sequencing”的文章。
◆实验概况
研究人员使用了6种不同的蛋白酶(其中LysC使用的是FUJIFILM Wako的Lysyl Endopeptidase,产品编号:125-05061)消化6种人类细胞系蛋白质,碎片化后进行液相色谱分离和串联质谱分析,从17,717个蛋白质编码基因或蛋白质组中识别100万条特异性肽段,其序列覆盖度中位数达到80%,大大提高了鸟枪法蛋白质组学对单个蛋白的序列覆盖率,为全面绘制蛋白质多样性图谱奠定了基础。
高蛋白质组序列覆盖度有助于膜蛋白的鉴定
高蛋白质序列覆盖度有助于膜蛋白的鉴定。膜蛋白是重要的药物靶点,有助于了解跨膜区域的序列结构。
图1. 跨膜蛋白与非跨膜蛋白的序列覆盖度对比
高蛋白质组序列覆盖度有助于更全面地检测
由于不同可变检测事件产生的蛋白isoform。依据RNA-Seq的数据,人类组织和细胞系提供了95%的多外显子可变剪接的基因产物。但由于质谱数据的覆盖度不足的原因,在蛋白质层面检测可变检测变异非常困难。
值得注意的是,Trypsin酶检测到的可变检测比例比较低,大概是~25% vs 28-32%。而Trypsin与Lys-C一起使用时候与编码外显子无差异,第一和最后一个氨基酸都是一致的。其他类型的蛋白酶,如Glu-C, Asp-N也有助于可变剪接isoforms鉴定。
图2. 质谱检测到多肽的外显子边界。距离外显子5’端和3’端的氨基酸多肽分布图
高蛋白质组序列覆盖度有助于检测SAP(单氨基酸多态性)
基因在转录和翻译过程中,会出现单氨基酸多态性(SAP),而低深度的蛋白质组覆盖度,使得大部分SAP无法鉴定到。而鉴定不到的SAP主要是由于蛋白不稳定导致的。
图3. 检测到的SAP的性质。各细胞系中转录组学和蛋白质组学对于SAP的检测。不同组学,不同酶解方式鉴定到的数目
参考文献

Sinitcyn, P., et al. : Nature biotechnology,10.1038/s41587-023-01714-x (2023). 

https://www.nature.com/articles/s41587-023-01714-x
※ 仅供实验研究用,不可用于临床诊断。

Search Articles