蛋白质组学研究的内容、方法及意义

  生物有机体的生理活动、病理活动以及药物的作用主要是通过蛋白质来实现的,然而仅凭目前已知的蛋白质根本无法阐明各种复杂的生命活动过程,因此,以基因组的研究成果为基础,以各种先进技术为支撑,进一步研究生物有机体的全部蛋白质结构、功能及其相互作用已经成为必然。目前大量工作者致力于蛋白质组学的研究,本文现对此作一简述。

  1.蛋白质组学的定义及研究内容

  蛋白质组学(Proteomics)是研究在特定时间或环境下某个细胞或某种组织的基因组表达的全部蛋白质。蛋白质组学的真正含义在于:它不是按照传统的方式孤立地研究某种蛋白质分子的功能,而是应用各种蛋白质组学技术研究某种蛋白质在复杂的细胞环境中的功能。蛋白质组学旨在列出全部蛋白质的细目,弄清每一个蛋白质的结构和功能及蛋白质群体内的相互作用,对比在疾病和健康状态下它们的表达水平的变化。

  蛋白质组学分为表达蛋白质组学和细胞图谱蛋白质组学。前者利用各种先进技术研究蛋白质表达的整体变化,即研究在机体的生长发育、疾病和死亡的不同阶段中,细胞与组织的蛋白质组分的变化;后者主要通过分离蛋白质复合物系统地研究蛋白质间的相互作用。

  2.蛋白质组与基因组的关系

  基因是遗传信息的携带者,蛋白质则是生命活动的执行者。实际上每一种生命运动形式,都是特定蛋白质群体在不同时间和空间出现并发挥功能的结果。因而蛋白质组研究是我们理解细胞功能和疾病发生发展过程的中心环节。如果不能共同致力于蛋白质组的研究,那么基因组的研究成果将无法兑现。

  DNA序列所提供的信息仅仅是一种静止的资源,而细胞的生命活动是通过各种蛋白质来实现的一种动态过程。一个机体内所有不同的细胞都共享同一基因组,然而同一个机体的不同细胞和不同组织却有不同的蛋白质组,而且机体在不同发育阶段,直至最后消亡的全过程中蛋白质组也在不断变化。因而蛋白质组要比基因组复杂得多。由于对转录产物的选择性剪切、翻译起止点的变化或者mRNA上三联体密码发生移码突变等均可以明显促进蛋白质多样性的产生,而且mRNA的水平并不能反映蛋白质水平,即使一个开放阅读框(ORF)呈现在面前,也根本无法证实某种蛋白质存在与否。此外,蛋白质在细胞中的位置、稳定性的变化,以及与不同的物质如其它蛋白质、核酸、脂类等配基相结合,再加上蛋白质具有多种修饰形式,如糖基化、磷酸化、乙酰化、硫酸化、连接在各种载体上,如小的泛素蛋白等,所有这些均可导致蛋白质组要比基因组复杂多个数量级,同时也说明基因的存在和多样性与蛋白质的存在和多样性之间是不均衡的。因此,利用基因组的研究成果进行大规模的蛋白质组研究已经成为必然。

  人类基因组测序成功为蛋白组研究奠定了良好基础。例如,金黄色葡萄球菌病原体的全套基因组测序已经完成,通过基因组的信息来研究其蛋白质组成将有助于发现新的抗癌因子、抗生素、工业催化剂等;1995年流感嗜血杆菌全部基因组测序完成,为支气管感染的研究提供了蛋白质组学基础,这些工作将会是蛋白质组学的重要组成部分。

  3.蛋白质组的研究方法

  蛋白质组研究需要有足够的技术支撑,如质谱分析(MS),酵母双杂交系统,蛋白质微阵列技术以及能够进行大规模数据处理的计算机系统和软件等[6]。现阶段蛋白质组的研究可分为3个主要步骤:应用双向凝胶电泳、“双向”高效柱层析分离蛋白质;应用氨基酸组成分析、C或N末端氨基酸序列分析及质谱分析鉴定所分离的蛋白质;应用生物信息学数据库对鉴定结果进行存储、处理、对比和分析。

  3.1 双向凝胶电泳 双向凝胶电泳(two-dimensionalpolycacrylamidegelelectrophoresis,2-D电泳)是分离蛋白质最基本的工具。其原理是:第一向是等电聚集电泳:用pH值呈梯度排列的凝胶,分离等电点不同的蛋白质。第二向是十二烷基磺酸钠聚丙烯酰胺凝胶电泳(SDSPEGE):由于带负电荷的SDS可与蛋白质多肽链结合,掩盖了蛋白质原有的电荷差别,故可分离分子量不同的蛋白质。

  双向凝胶电泳不仅用于蛋白质的分离,同时也用于蛋白质的纯化,一张凝胶可分离纯化出几千个甚至上万个蛋白质。目前美国的Proteome公司已开发了一种全自动化的仪器,灌腔、电泳、染色全部实现自动化。

  双向凝胶电泳技术存在的问题是不易分离极酸或极碱、极大(>200kD)或极小(<10kD)的蛋白质,不易检测低拷贝(<1000拷贝)蛋白质或难溶解蛋白质。此外,还有三种新的方法可以用作对2D电泳的补充:带有同位素的亲和性标签标记法,二维液相色谱串联质谱测量

  法,毛细管区带电泳。

  3.2 “双向”高效柱层析 “双向”高效柱层析原理:第一向用分子筛柱层析,按蛋白质不同分子量进行分离;第二向用反向柱层析,利用蛋白质表面疏水性质进行分离。第二向的分离原理与双向凝胶电泳中利用蛋白质等电点分离完全不同,因此两种方法可相互补充。

  双向高效柱层析的优点:(1)可分离得到较多的蛋白量以供鉴定;(2)可与质谱分析联用,分离流出的蛋白峰直接进入质谱仪进行鉴定。

  3.3 氨基酸组成分析 氨基酸组成分析可提供蛋白质一级结构信息。原理是用酸水解蛋白质,测定蛋白质中各氨基酸所占摩尔百分数(%)或各氨基酸的摩尔比率,与数据库中已知蛋白质的理论值进行比较。氨基酸组成分析经济、快速,但灵敏度低。

  3.4 C-或N-端氨基酸序列分析 N-端氨基酸序列分析常用Edman降解法测定蛋白质N端氨基酸序列,C端氨基酸序列分析常用羧肽酶法、化学降解法测定蛋白质C端氨基酸序列。目前均可用自动测序仪。

  N-端4个氨基酸残基序列即可鉴定43%~83%蛋白质、C-端5个氨基酸残基序列即可鉴定74%~97%蛋白质,若两者结合使用,判断结果的准确性会更高。

  3.5 质谱分析 以往MS仅用于小分子挥发物质的分析,由于新的离子化技术的出现,如:介质辅助的激光解析/离子化、电喷雾离子化,各种新的质谱技术开始用于生物大分子的分析。其原理是:通过电离源将蛋白质分子转化为气相离子,然后利用质谱分析仪的电场、磁场将具有特定质量与电荷比值(M/Z值)的蛋白质离子分离开来,经过离子检测器收集分离的离子,确定离子的M/Z值,分析鉴定未知蛋白质。

  质谱技术主要用于检测双向凝胶电泳或“双向”高效柱层析分离所得的蛋白质及酶解所得的多肽的质量,也可用于蛋白质高级结构及蛋白质间相互作用等方面的研究。三条肽段的精确质量数便可鉴定蛋白质。

  近年来,串联质谱分析仪发展迅猛,其数据采集方面的自动化程度、检测的敏感性及效率都大大提高,大规模数据库和一些分析软件(如:SEQUEST)的应用使得串联质谱分析仪可以进行更大规模的测序工作。目前,利用2D电泳及MS技术对整个酵母细胞裂解产物进行分析,已经鉴定出1484种蛋白质,包括完整的膜蛋白和低丰度的蛋白质。

  3.6 酵母双杂交系统 对于研究蛋白质间的相互作用,酵母双杂交系统是非常有力的工具。其基本原理是:由于所有真核生物转录激活因子都由两部分独立的功能域组成,即DNA结合功能域(DNABD)和激活功能域(AD)。DNABD的作用是与特异的启动子结合,AD的作用是引导RNA聚合酶Ⅱ复合物,两者靠近并协同作用,才能使DNA结合位点下游的基因得以转录。如果将待测蛋白之一与DNABD融合,蛋白之二与AD融合,若待测的两种蛋白有相互作用,则DNABD和AD靠近并激活报道基因的转录,借此可研究蛋白质间的相互作用。

  为了大规模高通量研究蛋白间的相互作用,近年来发展了一种酵母双杂交扫描法。首先建立两类含不同cDNA文库的酵母菌株,在第一类菌株中,读码框(ORF)以DNABD融合蛋白形成被表达,在第二类菌株中,ORF以AD融合蛋白形式被表达,将两类菌株配对,用缺陷的培养基筛选二倍体,只有表达两种可以相互作用的蛋白质的酵母细胞才可以在该培养基上生长。

  该方法的应用模式有两种:一种是微阵列模式,即先将第一类酵母菌(表达已知蛋白-DNABD融合蛋白)克隆在阵列的栅状网孔内,以此筛查第二类菌株(表达待测蛋白AD融合蛋白),从而确定待测蛋白质可与哪一已知蛋白质相结合;另一种是库筛查模式,即先将一组ORF产生的融合蛋白建成一个库,而后通过待测蛋白质与库中的蛋白质的反应寻找可以相互作用某个或某些蛋白质。

  最近,从酵母双杂交系统衍生出一种新的方法,称为“反向双杂交”,主要用于鉴定可以干扰蛋白质间相互作用的化合物和多肽。与传统方式不同,这种方法可以用于开发在体内具有活性的药物。此外,酵母双杂交系统的作用已经扩展至对蛋白质的鉴定,通过这种方法已经发现与酵母菌mRNA剪接相关的15种蛋白质,以及噬菌体T7的55种蛋白质、痘苗病毒的226种蛋白质、酿酒酵母的5345种蛋白质。酵母双杂交系统提供的蛋白质间可能的相互作用的信息,还需通过进一步的生物化学试验加以确定和排除。

  3.7 微阵列技术 严格的讲,DNA微阵列技术并非蛋白质组技术的范畴,但是却不失为大规模研究蛋白质功能的一种好方法。通常在转录中受到协同调控的基因将编码同种功能的蛋白质,如果某一段DNA序列与已知功能的DNA序列在很大程度上相同,说明它们编码的蛋白质的功能也可能相同,例如酵母细胞中与细胞分裂周期和芽孢形成相关的基因可能编码功能相同的蛋白质。

  蛋白质阵列技术已经发展起来,蛋白质样品以纳升小滴共价吸附在玻璃、硅、塑料等载物片上,每一个载物片可以点10000个样品,可用于鉴定一个生物有机体的全部修饰酶。例如:蛋白质微阵列技术已经检测出酵母中近乎全套的蛋白激酶。

  3.8 生物信息学 蛋白质组的研究要求有自动化处理大规模数据的工具,从而促使生物信息学迅速发展。目前许多与蛋白质组相关的软件可通过与EXPASY蛋白质组学服务器链接而获得(www.expasy.ch/www/tools.html),这些软件可用于鉴定蛋白质的种类,分析蛋白质的理化特性,预测可能的翻译后修饰以及蛋白质的三维结构,其中注释蛋白质和二维凝胶电泳数据库是蛋白质组研究的生物信息学核心。

  4.蛋白质组学与疾病

  蛋白质组学可以让我们对人类疾病的发病机制有更加清楚的认识。在基因水平检测基因的突变和多态性,在蛋白质水平分析健康及病变组织不同水平的基因表达,对于疾病的发病机制的研究二者均具有重要意义,但对于疾病的诊断治疗方面后者更为重要。正常及患病个体的组织、体液中的蛋白质分布、特征及差异都是将蛋白质组学技术应用于分子诊断学的基础。例如:骨髓瘤患者尿液中沉淀物??BenceJones蛋白、抗上皮细胞肿瘤特异性抗体、病变肝细胞中的p53蛋白均可以作为肿瘤的标记,用于肿瘤的诊断。目前,应用蛋白质组学技术已发现许多与癌症相关的异常糖基化的蛋白质,但将这些研究结果应用于临床诊断其价值尚待评估。

  到目前为止,心功能障碍的发病机制仍未阐明。如果用蛋白质组学的研究方法分析心肌蛋白质表达的变化,将为阐明心脏疾病相关的细胞病变机制提供新的思路,也将有助于发现新的诊断标记、治疗方法。人类心脏蛋白质联合二维电泳数据库(www.expasy.ch/chzd/zdindex.html)已建立,目前已鉴定几百种心脏蛋白质。

  对于感染性疾病而言,由于许多微生物的部分或全部基因组的测序工作已经完成,这将有助于鉴定该微生物所产生的全部蛋白质,以寻找新的诊断标记,寻找用作疫苗的抗原及毒力决定簇等。

  5.蛋白质组与药物开发

  药物作用的靶标多为蛋白质。如何发现更多的药物作用的靶蛋白是药品开发面临的主要挑战。蛋白质组研究能发现那些在健康人组织细胞中正常表达或不存在,而在患者组织细胞中异常表达或出现的蛋白质,为药品开发提供新的药物靶标,或新的生物标记,还能发现与药物毒性相关的蛋白质,用于预报药物的毒副作用,从而减少到临床试验阶段才发现该药物的副作用所造成的中间阶段的损耗。

  除了药物作用的靶蛋白的选择外,观察药物对靶蛋白的作用及药物毒性的研究也同样重要。在这一研究领域中,可采用CD-标记(CD-tagging)技术研究用药期间蛋白质组中的任一成员在分子和细胞水平的各种变化。其原理是将带有CD-tagging的CD盒插入某一个表达基因的内含子,结果该基因转录的mRNA增加了一段外来序列,该基因编码的蛋白质增加了一个特殊的外来肽???抗原决定簇或荧光蛋白,这种外来肽作为标记物,可用高效价的抗体识别或各种荧光检测方法观察,标记的基因及转录产物的变化可用多聚酶链反应(PCR)、逆转录多聚酶链反应(RTPCR)、测序等方法观察。因此,CD标记技术可用来研究基因的转录、翻译水平的变化,评估基因的功能状态,探查蛋白质表达的组织特异性,以及蛋白质在细胞或细胞器中的定位,等等。该项技术的特点是:(1)尤其适用于标记内含子丰富的基因;(2)被标记的基因、转录产物及蛋白质均保留正常的功能;(3)不影响基因的正常调控;(4)可在组织细胞原位观察研究标记基因、标记蛋白;(5)也可从组织细胞中分离提纯标记蛋白,然后用于生化、功能检查。

  蛋白质组学正日渐走向成熟。相信对于未来医学的发展,无论是基础、临床研究,还是药物开发,蛋白质组学的贡献都将不可估量。