2019-nCoV刺突蛋白中独特插入片段与HIV-1 gp120和Gag的异常相似性
(这篇论文通过谷歌翻译,并修改了几个术语。简单的来说,这种新型病毒是非典病毒和艾滋病毒的合成,如果这篇文章的研究结果被同行证实,结果非常严重,对亚裔和非洲裔具有强烈的感染性,可能是导致灭种的生化武器。)
Prashant Pradhan, Ashutosh Kumar Pandey, Akhilesh Mishra, Parul Gupta1, Praveen Kumar Tripathi1, Manoj Balakrishnan Menon1, James Gomes1, Perumal Vivekanandan and Bishwajit Kundu
Kusuma School of biological sciences, Indian institute of technology, New Delhi-110016, India.
印度理工学院Kusuma生物科学学院
Acharya Narendra Dev College, University of Delhi, New Delhi-110019, India
Equal contribution
Corresponding authors- email: bkundu@bioschool.iitd.ac.in
vperumal@bioschool.iitd.ac.in
2019-nCoV的传播方式类似于先前爆发中记录的传播方式,包括通过身体或气溶胶与感染病毒的人接触。武汉报道了轻至重病病例以及感染死亡病例。这次疫情已蔓延至包括法国,澳大利亚和美国在内的遥远国家。中国国内外的案件数量急剧增加。我们目前的理解仅限于病毒基因组序列以及适度的流行病学和临床数据。对可用的2019-nCoV序列进行全面分析可能会提供重要线索,这可能有助于增进我们当前对管理持续爆发的认识。冠状病毒的刺突糖蛋白(S)被切割成两个亚基(S1和S2)。 S1亚基有助于受体结合,而S2亚基促进细胞膜融合(Bosch等,2003; Li,2016)。冠状病毒的突触糖蛋白是组织嗜性和宿主范围的重要决定因素。此外,刺突糖蛋白是疫苗开发的关键靶标(Du等人,2013)。因此,刺突蛋白代表了冠状病毒中研究最广泛的蛋白。因此,我们寻求使用计算工具研究2019-nCoV的刺突糖蛋白,以了解其进化,新特征序列和结构特征。
我们的全长冠状病毒的系统树表明,2019-nCoV与SARS CoV密切相关[图1]。此外,其他近期研究也显示2019-nCoV与SARS CoV相关联。因此,我们将2019-nCoV的刺突糖蛋白序列与SARS CoV的刺突糖蛋白序列进行了比较(NCBI登录号:AY390556.1)。在仔细检查序列比对后,我们发现2019-nCoV刺突糖蛋白包含4个插入片段(图2)。为了进一步研究这些插入片段是否存在于其他任何冠状病毒中,我们对所有可用冠状病毒(n = 55)[参见表S.File1]的NCBI refseq(ncbi.nlm.nih.gov)的刺突糖蛋白氨基酸序列进行了多序列比对,其中包括一个序列2019-nCoV [Fig.S1]。我们发现这4个插入片段[插入片段1、2、3和4]对于2019-nCoV是唯一的,并且在分析的其他冠状病毒中不存在。来自中国的另一个小组记录了三个插入片段,它们比冠状病毒的刺突糖蛋白序列较少(Zhou等人,2020年)。
图1:最大似然族谱显示了2019-nCoV的进化:进化历史是通过使用最大似然法和基于JTT矩阵的模型来推断的。 显示了具有最高对数可能性(12458.88)的树。 通过将近邻结合发(Neighbor-Join)和BioNJ算法应用于使用JTT模型估算的成对距离矩阵,然后选择具有较高对数似然值的拓扑,可以自动获得用于启发式搜索的初始树。 该分析涉及5个氨基酸序列。 最终数据集中共有1387个位置。 在MEGA X中进行了进化分析。
图2:2019-nCoV的刺突蛋白和SARS之间的多序列比对。 使用MultiAlin软件比对2019-nCoV(武汉-HU-1,保藏号NC_045512)和SARS CoV(GZ02,保藏号AY390556)的刺突蛋白的序列。 差异的位置在框中突出显示。
然后,我们翻译了比对的基因组,发现这些插入片段存在于所有武汉的2019-nCoV病毒中,而蝙蝠的2019-nCoV病毒除外(图S4)。对2019-nCoV特有的4个高度保守的插入片段感到迷惑不解,我们想了解它们的起源。为此,我们使用每个插入2019-nCoV的局部片段作为查询条件,比对所有病毒基因组的进行搜索查询,并考虑了100%序列覆盖率的命中条件。出人意料的是,这四个插入片段中的每一个都与人类免疫缺陷病毒1(HIV-1)蛋白的短片段对齐。表1显示了2019-nCoV中插入片段的氨基酸位置以及HIV-1 gp120和HIV-1 Gag中的相应残基。前3个插入片段(插入1、2和3)与氨基酸的短片段对齐HIV-1 gp120中的残基。插入物4与HIV-1 Gag对齐。 2019-nCoV的刺突糖蛋白中的插入物1(6个氨基酸残基)和插入物2(6个氨基酸残基)与定位到HIV-1 gp120的残基100%相同。 2019-nCoV中的插入片段3(12个氨基酸残基)与HIV-1 gp120对应并带有缺口[见表1]。插入物4(8个氨基酸残基)与HIV-1 Gag对应并带有缺口。
尽管这4个插入片段代表2019-nCoV的刺突糖蛋白中不连续的短氨基酸段,但实际上这三个插入片段都与HIV-1 gp120和HIV-1 Gag(在所有带注释的病毒蛋白中)具有氨基酸同一性或相似性这表明这不是一个偶然的偶然发现。换句话说,可能偶尔会为不相关的蛋白质中的6至12个连续氨基酸残基进行偶然的匹配。但是,2019-nCoV峰值糖蛋白中的所有4个插入片段不太可能偶然与无关病毒(HIV-1)的2个关键结构蛋白匹配。映射到HIV-1的2019-nCoV刺突糖蛋白的插入片段1、2和3的氨基酸残基分别是gp120中V4,V5和V1域的一部分[表1]。由于2019-nCoV插入片段定位到HIV-1的可变区,因此它们在HIV-1 gp120中并不普遍存在,但仅限于选定的HIV-1序列[请参阅S.File1],主要来自亚洲和非洲。HIV-1 Gag蛋白使病毒与带负电荷的宿主表面相互作用(Murakami,2008年),而Gag蛋白上的高正电荷是宿主与病毒相互作用的关键特征。在分析2019-nCoV中4个插入片段中每个片段的pI值以及来自HIV-1蛋白的相应氨基酸残基片段时,我们发现a)每个分析的对的pI值非常相似b)这些pI值中的大多数为10±2 [参考表1]。值得注意的是,尽管插入物3和4之间存在间隙,但pI值是可比较的。所有4个插入片段的pI值均一,值得进一步研究。
由于这4个插入片段在任何其他冠状病毒中均不存在,因此编码这些插入片段的基因组区域代表了设计引物(primers)的理想候选者,这些引物可将2019-nCoV与其他冠状病毒区分开。
表1:HIV-1的2019-nCoV和gp120蛋白的比对序列及其在蛋白质一级序列中的位置。 所有插入物均具有高密度的带正电残留物。 插入物3和4中被删除的片段增加了正电荷与表面积的比率。 *请参阅补充。 表1登记号。(插入1来自泰国HIV,插入2来自肯尼亚,3和4来自印度。)
新型插入片段是2019-nCoV受体结合位点的一部分
为了获得结构性视觉从而了解这些插入在2019-nCoV糖蛋白中的作用,我们基于SARS刺突糖蛋白(PDB:6ACD.1.A)的可用结构对其结构进行了建模。建模结构的比较表明,尽管插入片段1,2和3位于蛋白质一级序列的非连续位置,但它们折叠后构成识别宿主受体的糖蛋白结合位点部分(Kirchdoerfer等,2016) (图4)。插入物1对应于2019-nCoV刺突糖蛋白中S1亚基的NTD(N末端结构域),插入物2和3对应于CTD(C末端结构域)。插入片段4位于S1亚基的SD1(子域1)和SD2(子域2)的交界处(Ou等,2017)。我们推测,这些插入通过在蛋白质结构中形成亲水环,从而可以促进或增强病毒-宿主相互作用,从而为糖蛋白结合位点提供了额外的灵活性。
图3. 2019-nCoV病毒的模拟同型三聚体刺突糖蛋白。 HIV包膜蛋白的插入片段带有彩色珠子,显示在该蛋白的结合位点。
2019-nCoV的进化分析
据推测,2019-nCoV是冠状病毒的变体,其源于动物源并传播给人类。考虑到宿主特异性的变化,我们决定研究该病毒的刺突糖蛋白(S蛋白)序列。 S蛋白是帮助病毒识别和附着宿主的表面蛋白。因此,这些蛋白质的变化可以反映为病毒宿主特异性的变化。为了了解2019-nCoV的S蛋白基因的变化及其对结构重组的影响,我们针对所有其他病毒进行了2019-nCoV的非法分析。 2019-nCoV,Bat-SARS-Like,SARS-GZ02和MERS的S蛋白氨基酸序列之间的多序列比对显示,S蛋白与SARS-GZ02的进化具有最接近的显着多样性(图1)。
在2019-nCoV的刺突蛋白区域插入
由于2019-nCoV的S蛋白与SARS GZ02具有最相似的血统,因此使用MultiAlin软件比较了这两种病毒的刺突蛋白的编码序列。我们在2019-nCoV的蛋白质中发现了四个新插入片段-“ GTNGTKR”(IS1),“ HKNNKS”(IS2),“ GDSSSG”(IS3)和“ QTNSPRRA”(IS4)(图2)。令我们惊讶的是,这些序列插入不仅在SARS的S蛋白中不存在,而且在冠状病毒科的任何其他成员中也未观察到(补充图)。这令人震惊,因为病毒不太可能在短时间内自然地获得这种独特的插入。
插入与艾滋病毒有相似之处
观察到插入物存在于可从最近临床分离株获得的2019-nCoV病毒的所有基因组序列中(补充图1)。为了了解这些插入物在2019-nCoV中的来源,我们使用这些插入物作为所有病毒基因组的查询,对BLASTp进行了局部比对。出乎意料的是,所有插入都与人类免疫缺陷病毒1(HIV-1)对齐。进一步的分析显示,HIV-1与2019-nCoV的比对序列来自表面糖蛋白gp120(氨基酸序列位置:404-409、462-467、136-150)和Gag蛋白(366-384个氨基酸)(表格1)。 HIV的Gag蛋白参与宿主膜的结合,病毒的包装以及病毒样颗粒的形成。 Gp120通过与初级受体CD4结合在识别宿主细胞中起关键作用,这种结合诱导GP120中的结构重排,为趋化因子共受体(如CXCR4和/或CCR5)创建了高亲和力结合位点。
进一步研究蛋白质结构的3D建模显示这些插入物存在于2019-nCoV的结合位点。由于2019-nCoV刺突糖蛋白在其结合结构域中存在gp120基序,我们建议这些基序插入可能提供了对宿主细胞受体的增强亲和力。此外,这种结构变化可能也增加了2019-nCoV可以感染的宿主细胞范围。据我们所知,这些基序的功能在HIV中仍然不明确,需要进行探索。病毒之间遗传物质的交换是众所周知的,而这种关键性交换突出了研究看似无关的病毒家族之间的关系的风险和需要。
References
Beniac, D. R., Andonov, A., Grudeski, E., & Booth, T. F. (2006). Architecture of the SARS coronavirus prefusion spike. Nature Structural and Molecular Biology, 13(8), 751–752. https://doi.org/10.1038/nsmb1123
Biasini, M., Bienert, S., Waterhouse, A., Arnold, K., Studer, G., Schmidt, T., Kiefer, F., Cassarino, T. G., Bertoni, M., Bordoli, L., & Schwede, T. (2014). SWISS-MODEL: Modelling protein tertiary and quaternary structure using evolutionary information. Nucleic Acids Research. https://doi.org/10.1093/nar/gku340
Bosch, B. J., van der Zee, R., de Haan, C. A. M., & Rottier, P. J. M. (2003). The Coronavirus Spike Protein Is a Class I Virus Fusion Protein: Structural and Functional Characterization of the Fusion Core Complex. Journal of Virology, 77(16), 8801–8811. https://doi.org/10.1128/jvi.77.16.8801-8811.2003
Chan, J. F.-W., Kok, K.-H., Zhu, Z., Chu, H., To, K. K.-W., Yuan, S., & Yuen, K.-Y. (2020). Genomic characterization of the 2019 novel human-pathogenic coronavirus isolated from a patient with atypical pneumonia after visiting Wuhan. Emerging Microbes & Infections, 9(1), 221–236. https://doi.org/10.1080/22221751.2020.1719902
Chan, J. F. W., Lau, S. K. P., To, K. K. W., Cheng, V. C. C., Woo, P. C. Y., & Yuen, K.-Y. (2015). Middle East Respiratory Syndrome Coronavirus: Another Zoonotic Betacoronavirus Causing SARS-Like Disease. https://doi.org/10.1128/CMR.00102-14
Chan, J., To, K., Tse, H., Jin, D., microbiology, K. Y.-T. in, & 2013, undefined. (n.d.). Interspecies transmission and emergence of novel viruses: lessons from bats and birds. Elsevier.
Corpet, F. (1988). Multiple sequence alignment with hierarchical clustering. Nucleic Acids Research. https://doi.org/10.1093/nar/16.22.10881
DeLano, W. L. (2002). The PyMOL Molecular Graphics System, Version 1.1. Schr{ö}dinger LLC. https://doi.org/10.1038/hr.2014.17
Du, L., Zhao, G., Kou, Z., Ma, C., Sun, S., Poon, V. K. M., Lu, L., Wang, L., Debnath, A. K., Zheng, B.-J., Zhou, Y., & Jiang, S. (2013). Identification of a Receptor-Binding Domain in the S Protein of the Novel Human Coronavirus Middle East Respiratory Syndrome Coronavirus as an Essential Target for Vaccine Development. Journal of Virology, 87(17), 9939–9942. https://doi.org/10.1128/jvi.01048-13
Edgar, R. C. (2004). MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. https://doi.org/10.1093/nar/gkh340
Elbe, S., & Buckland-Merrett, G. (2017). Data, disease and diplomacy: GISAID’s innovative contribution to global health. Global Challenges. https://doi.org/10.1002/gch2.1018
Kirchdoerfer, R. N., Cottrell, C. A., Wang, N., Pallesen, J., Yassine, H. M., Turner, H. L., Corbett, K. S., Graham, B. S., McLellan, J. S., & Ward, A. B. (2016). Pre-fusion structure of a human coronavirus spike protein. Nature. https://doi.org/10.1038/nature17200
Kumar, S., Stecher, G., Li, M., Knyaz, C., & Tamura, K. (2018). MEGA X: Molecular evolutionary genetics analysis across computing platforms. Molecular Biology and Evolution. https://doi.org/10.1093/molbev/msy096
Li, F. (2016). Structure, Function, and Evolution of Coronavirus Spike Proteins. Annual Review of Virology, 3(1), 237–261. https://doi.org/10.1146/annurev-virology-110615-042301
Murakami, T. (2008). Roles of the interactions between Env and Gag proteins in the HIV-1 replication cycle. Microbiology and Immunology, 52(5), 287–295. https://doi.org/10.1111/j.1348-0421.2008.00008.x
Ou, X., Guan, H., Qin, B., Mu, Z., Wojdyla, J. A., Wang, M., Dominguez, S. R., Qian, Z., & Cui, S. (2017). Crystal structure of the receptor binding domain of the spike glycoprotein of human betacoronavirus HKU1. Nature Communications. https://doi.org/10.1038/ncomms15216
Snijder, E. J., van der Meer, Y., Zevenhoven-Dobbe, J., Onderwater, J. J. M., van der Meulen, J., Koerten, H. K., & Mommaas, A. M. (2006). Ultrastructure and origin of membrane vesicles associated with the severe acute respiratory syndrome coronavirus replication complex. Journal of Virology, 80(12), 5927–5940. https://doi.org/10.1128/JVI.02501-05
Zhou, P., Yang, X.-L., Wang, X.-G., Hu, B., Zhang, L., Zhang, W., Si, H.-R., Zhu, Y., Li, B., Huang, C.-L., Chen, H.-D., Chen, J., Luo, Y., Guo, H., Jiang, R.-D., Liu, M.-Q., Chen, Y., Shen, X.-R., Wang, X., … Shi, Z.-L. (2020). Discovery of a novel coronavirus associated with the recent pneumonia outbreak in humans and its potential bat origin. BioRxiv. https://doi.org/10.1101/2020.01.22.914952
Zhu, N., Zhang, D., Wang, W., Li, X., Yang, B., Song, J., Zhao, X., Huang, B., Shi, W., Lu, R., Niu, P., Zhan, F., Ma, X., Wang, D., Xu, W., Wu, G., Gao, G. F., & Tan, W. (2020). A Novel Coronavirus from Patients with Pneumonia in China, 2019. New England Journal of Medicine, NEJMoa2001017. https://doi.org/10.1056/NEJMoa2001017
图S1冠状病毒科糖蛋白的多序列比对,代表所有四个插入片段。
图S2:所有四个插入片段均存在于从GISAID获得的对齐的28个武汉2019-nCoV病毒基因组中。 最后一行的Bat-SARS Like CoV中的缺口表明,插入片段1和4对于武汉2019-nCoV非常独特。
图S3 2019-nCoV的28个临床分离株基因组的系统进化树,其中一个来自蝙蝠作为宿主。
(这篇论文通过谷歌翻译,并修改了几个术语。简单的来说,这种新型病毒是非典病毒和艾滋病毒的合成,如果这篇文章的研究结果被同行证实,结果非常严重,对亚裔和非洲裔具有强烈的感染性,可能是导致灭种的生化武器。)
Prashant Pradhan, Ashutosh Kumar Pandey, Akhilesh Mishra, Parul Gupta1, Praveen Kumar Tripathi1, Manoj Balakrishnan Menon1, James Gomes1, Perumal Vivekanandan and Bishwajit Kundu
Kusuma School of biological sciences, Indian institute of technology, New Delhi-110016, India.
印度理工学院Kusuma生物科学学院
Acharya Narendra Dev College, University of Delhi, New Delhi-110019, India
Equal contribution
Corresponding authors- email: bkundu@bioschool.iitd.ac.in
vperumal@bioschool.iitd.ac.in
提要
我们目前正在目睹由2019年新型冠状病毒(2019-nCoV)引起的主要流行病。 2019-nCoV的发展仍然难以捉摸。 我们在刺突糖蛋白(S)中发现了4个插入,这是2019-nCoV所独有的,在其他冠状病毒中不存在。 重要的是,所有4个插入片段中的氨基酸残基均与HIV-1 gp120或HIV-1 Gag中的氨基酸残基具有相同性或相似性。 有趣的是,尽管插入片段在一级氨基酸序列上是不连续的,但2019-nCoV的3D建模表明它们会聚在一起构成受体结合位点。 在2019-nCoV中发现4个独特的插入片段,这些插入片段都与HIV-1关键结构蛋白中的氨基酸残基具有同一性/相似性,这在自然界不太可能是偶然的。 这项工作提供了关于2019-nCoV的未知见解,并阐明了该病毒的进化和致病性,对诊断该病毒具有重要意义。导言
冠状病毒(CoV)是感染动物和人类的单链正义RNA病毒。根据它们的宿主特异性,它们可分为4个属:α冠状病毒,β冠状病毒,δ冠状病毒和γ冠状病毒(Snijder等,2006)。有七种已知的CoV类型,包括229E和NL63(Alphacoronavirus属),OC43,HKU1,MERS和SARS(Beta Coronavirus属)。虽然229E,NL63,OC43和HKU1普遍感染人类,但2002年和2012年的SARS和MERS暴发分别是当病毒从动物传播到人类造成严重死亡时发生的(J.Chan等人,nd; JFW Chan等人)。等人,2015年)。 2019年12月,中国武汉又发生了一次冠状病毒暴发,该暴发也从动物传播给人类。世界卫生组织(WHO)将该新病毒临时称为2019年新冠状病毒(2019-nCoV)(J.F.-W. Chan等,2020; Zhu等,2020)。尽管有几种关于2019-nCoV起源的假设,但这种持续爆发的根源仍然难以捉摸。2019-nCoV的传播方式类似于先前爆发中记录的传播方式,包括通过身体或气溶胶与感染病毒的人接触。武汉报道了轻至重病病例以及感染死亡病例。这次疫情已蔓延至包括法国,澳大利亚和美国在内的遥远国家。中国国内外的案件数量急剧增加。我们目前的理解仅限于病毒基因组序列以及适度的流行病学和临床数据。对可用的2019-nCoV序列进行全面分析可能会提供重要线索,这可能有助于增进我们当前对管理持续爆发的认识。冠状病毒的刺突糖蛋白(S)被切割成两个亚基(S1和S2)。 S1亚基有助于受体结合,而S2亚基促进细胞膜融合(Bosch等,2003; Li,2016)。冠状病毒的突触糖蛋白是组织嗜性和宿主范围的重要决定因素。此外,刺突糖蛋白是疫苗开发的关键靶标(Du等人,2013)。因此,刺突蛋白代表了冠状病毒中研究最广泛的蛋白。因此,我们寻求使用计算工具研究2019-nCoV的刺突糖蛋白,以了解其进化,新特征序列和结构特征。
研究方法
核酸和蛋白质序列的检索和比对我们从NCBI病毒基因组数据库(https://www.ncbi.nlm.nih.gov/)中检索了所有可用的冠状病毒序列(n = 55),并使用了GISAID(Elbe&Buckland-Merrett,2017)[https: //www.gisaid.org/]检索截至2020年1月27日所有可用的2019-nCoV全长序列(n = 28)。使用MUSCLE软件对所有冠状病毒基因组进行多序列比对(Edgar,2004)基于近邻结合法。在55个冠状病毒基因组中,使用MEGAX软件将所有类别的32个代表性基因组用于建立系统发生树模型(Kumar等,2018)。发现最接近的亲属是SARS CoV。使用Multalin软件(Corpet,1988)对SARS CoV和2019-nCoV的糖蛋白区域进行比对和可视化。使用BLASTp和BLASTn将鉴定出的氨基酸和核苷酸序列与整个病毒基因组数据库进行比对。通过使用MEGAX软件进行多序列比对,提出了2019-nCoV基因组的28个临床变异中核苷酸和氨基酸基序的保守性。使用SWISS-MODEL在线服务器(Biasini等,2014)生成2019-nCoV糖蛋白的三维结构,并使用PyMol对其进行标记和可视化(DeLano,2002)。结果
2019-nCoV刺突蛋白中新插入片段与HIV-1 gp120和Gag的异常相似性我们的全长冠状病毒的系统树表明,2019-nCoV与SARS CoV密切相关[图1]。此外,其他近期研究也显示2019-nCoV与SARS CoV相关联。因此,我们将2019-nCoV的刺突糖蛋白序列与SARS CoV的刺突糖蛋白序列进行了比较(NCBI登录号:AY390556.1)。在仔细检查序列比对后,我们发现2019-nCoV刺突糖蛋白包含4个插入片段(图2)。为了进一步研究这些插入片段是否存在于其他任何冠状病毒中,我们对所有可用冠状病毒(n = 55)[参见表S.File1]的NCBI refseq(ncbi.nlm.nih.gov)的刺突糖蛋白氨基酸序列进行了多序列比对,其中包括一个序列2019-nCoV [Fig.S1]。我们发现这4个插入片段[插入片段1、2、3和4]对于2019-nCoV是唯一的,并且在分析的其他冠状病毒中不存在。来自中国的另一个小组记录了三个插入片段,它们比冠状病毒的刺突糖蛋白序列较少(Zhou等人,2020年)。
图1:最大似然族谱显示了2019-nCoV的进化:进化历史是通过使用最大似然法和基于JTT矩阵的模型来推断的。 显示了具有最高对数可能性(12458.88)的树。 通过将近邻结合发(Neighbor-Join)和BioNJ算法应用于使用JTT模型估算的成对距离矩阵,然后选择具有较高对数似然值的拓扑,可以自动获得用于启发式搜索的初始树。 该分析涉及5个氨基酸序列。 最终数据集中共有1387个位置。 在MEGA X中进行了进化分析。
图2:2019-nCoV的刺突蛋白和SARS之间的多序列比对。 使用MultiAlin软件比对2019-nCoV(武汉-HU-1,保藏号NC_045512)和SARS CoV(GZ02,保藏号AY390556)的刺突蛋白的序列。 差异的位置在框中突出显示。
然后,我们翻译了比对的基因组,发现这些插入片段存在于所有武汉的2019-nCoV病毒中,而蝙蝠的2019-nCoV病毒除外(图S4)。对2019-nCoV特有的4个高度保守的插入片段感到迷惑不解,我们想了解它们的起源。为此,我们使用每个插入2019-nCoV的局部片段作为查询条件,比对所有病毒基因组的进行搜索查询,并考虑了100%序列覆盖率的命中条件。出人意料的是,这四个插入片段中的每一个都与人类免疫缺陷病毒1(HIV-1)蛋白的短片段对齐。表1显示了2019-nCoV中插入片段的氨基酸位置以及HIV-1 gp120和HIV-1 Gag中的相应残基。前3个插入片段(插入1、2和3)与氨基酸的短片段对齐HIV-1 gp120中的残基。插入物4与HIV-1 Gag对齐。 2019-nCoV的刺突糖蛋白中的插入物1(6个氨基酸残基)和插入物2(6个氨基酸残基)与定位到HIV-1 gp120的残基100%相同。 2019-nCoV中的插入片段3(12个氨基酸残基)与HIV-1 gp120对应并带有缺口[见表1]。插入物4(8个氨基酸残基)与HIV-1 Gag对应并带有缺口。
尽管这4个插入片段代表2019-nCoV的刺突糖蛋白中不连续的短氨基酸段,但实际上这三个插入片段都与HIV-1 gp120和HIV-1 Gag(在所有带注释的病毒蛋白中)具有氨基酸同一性或相似性这表明这不是一个偶然的偶然发现。换句话说,可能偶尔会为不相关的蛋白质中的6至12个连续氨基酸残基进行偶然的匹配。但是,2019-nCoV峰值糖蛋白中的所有4个插入片段不太可能偶然与无关病毒(HIV-1)的2个关键结构蛋白匹配。映射到HIV-1的2019-nCoV刺突糖蛋白的插入片段1、2和3的氨基酸残基分别是gp120中V4,V5和V1域的一部分[表1]。由于2019-nCoV插入片段定位到HIV-1的可变区,因此它们在HIV-1 gp120中并不普遍存在,但仅限于选定的HIV-1序列[请参阅S.File1],主要来自亚洲和非洲。HIV-1 Gag蛋白使病毒与带负电荷的宿主表面相互作用(Murakami,2008年),而Gag蛋白上的高正电荷是宿主与病毒相互作用的关键特征。在分析2019-nCoV中4个插入片段中每个片段的pI值以及来自HIV-1蛋白的相应氨基酸残基片段时,我们发现a)每个分析的对的pI值非常相似b)这些pI值中的大多数为10±2 [参考表1]。值得注意的是,尽管插入物3和4之间存在间隙,但pI值是可比较的。所有4个插入片段的pI值均一,值得进一步研究。
由于这4个插入片段在任何其他冠状病毒中均不存在,因此编码这些插入片段的基因组区域代表了设计引物(primers)的理想候选者,这些引物可将2019-nCoV与其他冠状病毒区分开。
表1:HIV-1的2019-nCoV和gp120蛋白的比对序列及其在蛋白质一级序列中的位置。 所有插入物均具有高密度的带正电残留物。 插入物3和4中被删除的片段增加了正电荷与表面积的比率。 *请参阅补充。 表1登记号。(插入1来自泰国HIV,插入2来自肯尼亚,3和4来自印度。)
新型插入片段是2019-nCoV受体结合位点的一部分
为了获得结构性视觉从而了解这些插入在2019-nCoV糖蛋白中的作用,我们基于SARS刺突糖蛋白(PDB:6ACD.1.A)的可用结构对其结构进行了建模。建模结构的比较表明,尽管插入片段1,2和3位于蛋白质一级序列的非连续位置,但它们折叠后构成识别宿主受体的糖蛋白结合位点部分(Kirchdoerfer等,2016) (图4)。插入物1对应于2019-nCoV刺突糖蛋白中S1亚基的NTD(N末端结构域),插入物2和3对应于CTD(C末端结构域)。插入片段4位于S1亚基的SD1(子域1)和SD2(子域2)的交界处(Ou等,2017)。我们推测,这些插入通过在蛋白质结构中形成亲水环,从而可以促进或增强病毒-宿主相互作用,从而为糖蛋白结合位点提供了额外的灵活性。
图3. 2019-nCoV病毒的模拟同型三聚体刺突糖蛋白。 HIV包膜蛋白的插入片段带有彩色珠子,显示在该蛋白的结合位点。
2019-nCoV的进化分析
据推测,2019-nCoV是冠状病毒的变体,其源于动物源并传播给人类。考虑到宿主特异性的变化,我们决定研究该病毒的刺突糖蛋白(S蛋白)序列。 S蛋白是帮助病毒识别和附着宿主的表面蛋白。因此,这些蛋白质的变化可以反映为病毒宿主特异性的变化。为了了解2019-nCoV的S蛋白基因的变化及其对结构重组的影响,我们针对所有其他病毒进行了2019-nCoV的非法分析。 2019-nCoV,Bat-SARS-Like,SARS-GZ02和MERS的S蛋白氨基酸序列之间的多序列比对显示,S蛋白与SARS-GZ02的进化具有最接近的显着多样性(图1)。
在2019-nCoV的刺突蛋白区域插入
由于2019-nCoV的S蛋白与SARS GZ02具有最相似的血统,因此使用MultiAlin软件比较了这两种病毒的刺突蛋白的编码序列。我们在2019-nCoV的蛋白质中发现了四个新插入片段-“ GTNGTKR”(IS1),“ HKNNKS”(IS2),“ GDSSSG”(IS3)和“ QTNSPRRA”(IS4)(图2)。令我们惊讶的是,这些序列插入不仅在SARS的S蛋白中不存在,而且在冠状病毒科的任何其他成员中也未观察到(补充图)。这令人震惊,因为病毒不太可能在短时间内自然地获得这种独特的插入。
插入与艾滋病毒有相似之处
观察到插入物存在于可从最近临床分离株获得的2019-nCoV病毒的所有基因组序列中(补充图1)。为了了解这些插入物在2019-nCoV中的来源,我们使用这些插入物作为所有病毒基因组的查询,对BLASTp进行了局部比对。出乎意料的是,所有插入都与人类免疫缺陷病毒1(HIV-1)对齐。进一步的分析显示,HIV-1与2019-nCoV的比对序列来自表面糖蛋白gp120(氨基酸序列位置:404-409、462-467、136-150)和Gag蛋白(366-384个氨基酸)(表格1)。 HIV的Gag蛋白参与宿主膜的结合,病毒的包装以及病毒样颗粒的形成。 Gp120通过与初级受体CD4结合在识别宿主细胞中起关键作用,这种结合诱导GP120中的结构重排,为趋化因子共受体(如CXCR4和/或CCR5)创建了高亲和力结合位点。
讨论
当前的2019-nCoV爆发值得彻底调查并了解其感染人类的能力。请记住,宿主的偏好从以前的冠状病毒到此病毒已有明显变化,我们研究了2019-nCoV和其他病毒之间刺突蛋白的变化。与它的最近亲属SARS CoV相比,我们在2019-nCoV的S蛋白中发现了四个新插入。对来自最近28种临床分离株的基因组序列分析显示,这些插入的编码序列保存在所有这些分离株中。这表明这些插入片段已被2019-nCoV择优获得,为其提供了额外的生存和感染优势。深入研究,我们发现这些插入与HIV-1类似。我们的结果强调了gp120与HIV的Gag蛋白与2019-nCoV刺突糖蛋白之间的惊人关系。这些蛋白质对于病毒识别并锁定在其宿主细胞和病毒结合至关重要(Beniac等,2006)。由于表面蛋白质负责宿主的嗜性,因此这些蛋白质的变化暗示病毒宿主特异性的变化。根据中国的报道,在2019-nCoV的情况下已经获得了宿主特异性,因为该病毒最初被称为感染动物而不是人类,但是在突变后,它也向人类倾斜。进一步研究蛋白质结构的3D建模显示这些插入物存在于2019-nCoV的结合位点。由于2019-nCoV刺突糖蛋白在其结合结构域中存在gp120基序,我们建议这些基序插入可能提供了对宿主细胞受体的增强亲和力。此外,这种结构变化可能也增加了2019-nCoV可以感染的宿主细胞范围。据我们所知,这些基序的功能在HIV中仍然不明确,需要进行探索。病毒之间遗传物质的交换是众所周知的,而这种关键性交换突出了研究看似无关的病毒家族之间的关系的风险和需要。
结论
我们对2019-nCoV峰值糖蛋白的分析揭示了几个有趣的发现:首先,我们确定了2019-nCoV峰值糖蛋白中的4个独特插入片段,这些插入片段迄今为止尚无其他冠状病毒报道。令我们惊讶的是,2019-nCoV中的所有4个插入片段都映射到NCBI数据库中所有带注释的病毒蛋白中HIV-1 gp120和Gag中氨基酸的短片段。 2019-nCoV峰值蛋白中新插入片段与HIV-1 gp120和Gag的这种不可思议的相似性不太可能是偶然的。此外,3D建模表明,在2019-nCoV刺突糖蛋白的一级蛋白质序列中不连续的独特插入物中至少有3个会聚在一起构成受体结合位点的关键成分。值得注意的是,所有4个插入片段的pI值均约为10,这可能有助于病毒与宿主的相互作用。综上所述,我们的发现表明2019-nCoV的非常规进化值得进一步研究。我们的工作重点介绍了2019-nCoV的新进化方面,并对该病毒的发病机理和诊断产生了影响。References
Beniac, D. R., Andonov, A., Grudeski, E., & Booth, T. F. (2006). Architecture of the SARS coronavirus prefusion spike. Nature Structural and Molecular Biology, 13(8), 751–752. https://doi.org/10.1038/nsmb1123
Biasini, M., Bienert, S., Waterhouse, A., Arnold, K., Studer, G., Schmidt, T., Kiefer, F., Cassarino, T. G., Bertoni, M., Bordoli, L., & Schwede, T. (2014). SWISS-MODEL: Modelling protein tertiary and quaternary structure using evolutionary information. Nucleic Acids Research. https://doi.org/10.1093/nar/gku340
Bosch, B. J., van der Zee, R., de Haan, C. A. M., & Rottier, P. J. M. (2003). The Coronavirus Spike Protein Is a Class I Virus Fusion Protein: Structural and Functional Characterization of the Fusion Core Complex. Journal of Virology, 77(16), 8801–8811. https://doi.org/10.1128/jvi.77.16.8801-8811.2003
Chan, J. F.-W., Kok, K.-H., Zhu, Z., Chu, H., To, K. K.-W., Yuan, S., & Yuen, K.-Y. (2020). Genomic characterization of the 2019 novel human-pathogenic coronavirus isolated from a patient with atypical pneumonia after visiting Wuhan. Emerging Microbes & Infections, 9(1), 221–236. https://doi.org/10.1080/22221751.2020.1719902
Chan, J. F. W., Lau, S. K. P., To, K. K. W., Cheng, V. C. C., Woo, P. C. Y., & Yuen, K.-Y. (2015). Middle East Respiratory Syndrome Coronavirus: Another Zoonotic Betacoronavirus Causing SARS-Like Disease. https://doi.org/10.1128/CMR.00102-14
Chan, J., To, K., Tse, H., Jin, D., microbiology, K. Y.-T. in, & 2013, undefined. (n.d.). Interspecies transmission and emergence of novel viruses: lessons from bats and birds. Elsevier.
Corpet, F. (1988). Multiple sequence alignment with hierarchical clustering. Nucleic Acids Research. https://doi.org/10.1093/nar/16.22.10881
DeLano, W. L. (2002). The PyMOL Molecular Graphics System, Version 1.1. Schr{ö}dinger LLC. https://doi.org/10.1038/hr.2014.17
Du, L., Zhao, G., Kou, Z., Ma, C., Sun, S., Poon, V. K. M., Lu, L., Wang, L., Debnath, A. K., Zheng, B.-J., Zhou, Y., & Jiang, S. (2013). Identification of a Receptor-Binding Domain in the S Protein of the Novel Human Coronavirus Middle East Respiratory Syndrome Coronavirus as an Essential Target for Vaccine Development. Journal of Virology, 87(17), 9939–9942. https://doi.org/10.1128/jvi.01048-13
Edgar, R. C. (2004). MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. https://doi.org/10.1093/nar/gkh340
Elbe, S., & Buckland-Merrett, G. (2017). Data, disease and diplomacy: GISAID’s innovative contribution to global health. Global Challenges. https://doi.org/10.1002/gch2.1018
Kirchdoerfer, R. N., Cottrell, C. A., Wang, N., Pallesen, J., Yassine, H. M., Turner, H. L., Corbett, K. S., Graham, B. S., McLellan, J. S., & Ward, A. B. (2016). Pre-fusion structure of a human coronavirus spike protein. Nature. https://doi.org/10.1038/nature17200
Kumar, S., Stecher, G., Li, M., Knyaz, C., & Tamura, K. (2018). MEGA X: Molecular evolutionary genetics analysis across computing platforms. Molecular Biology and Evolution. https://doi.org/10.1093/molbev/msy096
Li, F. (2016). Structure, Function, and Evolution of Coronavirus Spike Proteins. Annual Review of Virology, 3(1), 237–261. https://doi.org/10.1146/annurev-virology-110615-042301
Murakami, T. (2008). Roles of the interactions between Env and Gag proteins in the HIV-1 replication cycle. Microbiology and Immunology, 52(5), 287–295. https://doi.org/10.1111/j.1348-0421.2008.00008.x
Ou, X., Guan, H., Qin, B., Mu, Z., Wojdyla, J. A., Wang, M., Dominguez, S. R., Qian, Z., & Cui, S. (2017). Crystal structure of the receptor binding domain of the spike glycoprotein of human betacoronavirus HKU1. Nature Communications. https://doi.org/10.1038/ncomms15216
Snijder, E. J., van der Meer, Y., Zevenhoven-Dobbe, J., Onderwater, J. J. M., van der Meulen, J., Koerten, H. K., & Mommaas, A. M. (2006). Ultrastructure and origin of membrane vesicles associated with the severe acute respiratory syndrome coronavirus replication complex. Journal of Virology, 80(12), 5927–5940. https://doi.org/10.1128/JVI.02501-05
Zhou, P., Yang, X.-L., Wang, X.-G., Hu, B., Zhang, L., Zhang, W., Si, H.-R., Zhu, Y., Li, B., Huang, C.-L., Chen, H.-D., Chen, J., Luo, Y., Guo, H., Jiang, R.-D., Liu, M.-Q., Chen, Y., Shen, X.-R., Wang, X., … Shi, Z.-L. (2020). Discovery of a novel coronavirus associated with the recent pneumonia outbreak in humans and its potential bat origin. BioRxiv. https://doi.org/10.1101/2020.01.22.914952
Zhu, N., Zhang, D., Wang, W., Li, X., Yang, B., Song, J., Zhao, X., Huang, B., Shi, W., Lu, R., Niu, P., Zhan, F., Ma, X., Wang, D., Xu, W., Wu, G., Gao, G. F., & Tan, W. (2020). A Novel Coronavirus from Patients with Pneumonia in China, 2019. New England Journal of Medicine, NEJMoa2001017. https://doi.org/10.1056/NEJMoa2001017
图S1冠状病毒科糖蛋白的多序列比对,代表所有四个插入片段。
图S2:所有四个插入片段均存在于从GISAID获得的对齐的28个武汉2019-nCoV病毒基因组中。 最后一行的Bat-SARS Like CoV中的缺口表明,插入片段1和4对于武汉2019-nCoV非常独特。
图S3 2019-nCoV的28个临床分离株基因组的系统进化树,其中一个来自蝙蝠作为宿主。
评论
发表评论