Preview

Журнал микробиологии, эпидемиологии и иммунобиологии

Расширенный поиск

Совершенствование методики SNP-типирования штаммов Vibrio cholerae на основе анализа первичных данных полногеномного секвенирования

https://doi.org/10.36233/0372-9311-2020-97-6-9

Полный текст:

Аннотация

Цель работы — совершенствование метода оценки качества единичных нуклеотидных замен, используемых для SNP-типирования, на основе анализа их распределения в первичных данных полногеномного секвенирования (ридах).

Материалы и методы. В работе использованы данные полногеномного секвенирования 56 штаммов Vibrio cholerae, полученные на секвенаторах разных типов. Программное обеспечение разрабатывали на языке программирования Java. Кластерный анализ и построение дендрограммы проведены с использованием авторского программного обеспечения по методу UPGMA.

Результаты и обсуждение. Показана «нестабильность» определения ряда SNP в геноме возбудителя холеры. Разработан метод подбора перечня SNP для филогенетического анализа на основе обработки первичных данных полногеномного секвенирования (ридов). Предложена методика использования «контрольных геномов» при проведении кластерного анализа данных полногеномного секвенирования.

Заключение. Составлен перечень из 3198 «стабильных SNP» для проведения филогенетического анализа. Показана генетическая близость нетоксигенных штаммов, содержащих ген tcpA (ctxABtcpA+), и preCTX-штаммов V. cholerae.

Введение

Методы генотипирования на основе анализа распределения единичных нуклеотидных замен (single nucleotide polymorphism, SNP) возбудителей опасных инфекционных болезней, в том числе холеры, широко используются в научных исследованиях и эпидемиологическом анализе, поскольку позволяют оценить филогенетические связи между разными штаммами, установить их возможное происхождение, а также источники и пути распространения инфекции. Исследователи используют различные наборы SNP-маркеров, что может приводить к расхождению результатов даже при изучении одного набора штаммов. Например, ранее анализ данных полногеномного секвенирования (whole genome sequencing, WGS) позволил выявить, что клинические штаммы Vibrio cholerae O1, выделенные в 2010 г. в Москве (завоз из Индии), относятся к штаммам «гаитянской группы» [1], однако при анализе с использованием другого набора SNP они попали в группу «непальских штаммов», дистанцированную от вызвавших вспышку на острове Гаити [2].

В ряде случаев набор SNP-маркеров строится непосредственно для анализируемого набора штаммов. Например, именно такой алгоритм используется в программе kSNP 3.0 [3], что было использовано для генотипирования штаммов V. cholerae, выделенных в Демократической Республике Конго [4].

Это подчеркивает актуальность работ по совершенствованию и стандартизации подходов к анализу полногеномных сиквенсов [5] и, соответственно, отбору SNP-маркеров, используемых для генотипирования.

Как правило, результаты WGS представлены «ридами» — последовательностями ДНК размером 100–300 п.о., которые многократно дублируются. В дальнейшем с помощью специализированных программ проводится их сборка в контиги, размеры которых могут достигать сотен тысяч нуклеотидов. При этом существенно сокращается общий объем: так, если набор ридов составляет около 600–900 Мб, то суммарный объем контигов, как правило, не превышает 7 Мб. Это приводит к тому, что большинство исследователей предпочитают работать именно с контигами, а не с ридами.

Однако такой подход имеет существенный недостаток, заключающийся в обработке ошибок. Важно отметить, что если в ридах присутствуют замены нуклеотидов, то программа-сборщик в качестве «правильного» выбирает самый часто встречающийся вариант, вне зависимости от того, встречается он в 99% или в 50% случаев. Таким образом, при работе с контигами может теряться весьма важная информация о достоверности выявляемых SNP.

В связи с этим цель работы состояла в разработке метода оценки качества SNP, используемых для SNP-типирования, на основе анализа их распределения в первичных данных WGS (ридах).

Материалы и методы

В работе использованы данные WGS 56 штаммов разных серогрупп, полученные на платформе «MiSeq Illumina» в лаборатории диагностики особо опасных инфекций ФКУЗ «Ростовский-на-Дону противочумный институт», и геномы, включенные в локальную базу геномов, секвенирование которых проведено другими группами исследователей (табл. 1).

Таблица 1. Геномы штаммов, использованные в работе
Table 1. Genomes of the strains used in the study


Примечание
. *Геномы получены из базы данных NCBI.
Note. *Genomes obtained from the NCBI database.

Программное обеспечение разрабатывали на языке программирования Java. Кластерный анализ и построение дендрограммы проводили с использованием обеспечения по методу UPGMA. Для построения дендрограммы использовали программу MEGA 5 [6].

Результаты и обсуждение

Для анализа был использован набор SNP-маркеров, выявленный ранее при анализе данных WGS штаммов V. cholerae [7]. Для этого нами было разработано программное обеспечение, позволяющее оценивать встречаемость каждого SNP непосредственно в наборе ридов. Для каждого изучаемого SNP была посчитана встречаемость в наборе данных первичного секвенирования (ридах) каждого нуклеотида. Примеры результатов анализа нескольких SNP-маркеров представлены в табл. 2, из которой можно видеть, что SNP в позиции 316 в гене VC0275 штамма V. cholerae 81 представлена именно тимином (Т), который обнаружен в 79 ридах, в то время как наличие ридов с аденином (1 рид) и цитозином (2 рида) является ошибкой секвенирования. Аналогичные результаты получены и для генов VC0289, VC0321 и VC0345.

Таблица 2. Оценка встречаемости единичных нуклеотидных замен в наборе ридов штаммов V. cholerae 81 и V. cholerae HC-72 (фрагмент). Указано количество ридов, в которых встречается тот или иной нуклеотид
Table 2. Estimation of the occurrence of single nucleotide polymorphisms in the reed set of strains V. cholerae 81 and V. cholerae HC-72 (fragment). The number of rows in which a particular nucleotide occurs is indicated

В противовес этому для гена VC0362 почти половина ридов у штамма V. cholerae 81 в позиции 833 содержала аденин (148 ридов), а половина (154 рида) — гуанин. Такое распределение не позволяет рассматривать это как ошибку секвенирования, тем более что аналогичное распределение наблюдается у штамма V. cholerae HC-72, WGS которого проведено другой группой исследователей. Причиной такой «нестабильности» нуклеотидов может являться существование в геноме нескольких копий гена или сходных нуклеотидных мотивов в разных генах, содержащих замены, однако это требует дальнейшего изучения. Тем не менее, вне зависимости от причины, при сборке контигов выбор «итогового» нуклеотида может быть практически случайным и зависеть от незначительного преобладания ридов с тем или иным нуклеотидом. Ярким примером может служить вышеописанный SNP в гене VC0362: так, у штамма V cholerae 81 преобладают риды, содержащие в позиции 833 гуанин, а у V. cholerae HC-72 — аденин. Нам представляется нецелесообразным использовать при анализе подобные «нестабильные» SNP, в связи с чем описанный ранее перечень [7] был сокращен с 3683 до 3198 SNP путем удаления SNP, в которых наиболее часто встречаемый вариант обнаруживался менее чем в 70% случаев. Также очевидно, что выбор схемы SNP-типирования должен осуществляться, исходя из анализа первичных данных секвенирования (ридов), а не результата сборки (контигов).

Довольно информативным методом кластерного анализа является UPGMA — метод невзвешенных парных групп со средним арифметическим [8][9][10][11]. Сравнительный анализ показывает конкордантность результатов UPGMA и других методов анализа, в частности, методов минимального остовного дерева и максимальной бережливости [12][13].

На основе кластерного анализ по методу UPGMA с использованием предлагаемого набора SNP нами была построена дендрограмма, отражающая генетическую близость между геномами 56 штаммов V. cholerae различного происхождения (рисунок). Ранее мы предложили использовать в качестве контрольных образцов при проведении биоинформационного анализа штаммы, геномы которых были секвенированы различными группами авторов, либо штаммы, генетическая близость которых не вызывает сомнений. При этом критерием корректности проведения анализа является попадание «контрольных геномов» в один кластер [7]. В данной работе в качестве таких контролей мы использовали штамм V. cholerae О1 81, геном которого секвенирован дважды: на платформе MiSeq (ФКУЗ «Ростовский-на-Дону противочумный институт») и платформе IonTorrent (ФКУЗ РосНИПЧИ «Микроб»). Как видно из дендрограммы, оба контрольных штамма попадают в одну ветку, что свидетельствует о корректности проведения кластерного анализа. Аналогичное распределение получено и для двух других пар контрольных геномов: штамма V. cholerae О1 18899 и его изогенного варианта, лишенного гена холерного токсина, и двух относящихся к одному клональному комплексу штаммов V. cholerae О1 № 433 и № 434, выделенных из воды реки Агура в 2015 г. (секвенированных в РосНИПЧИ «Микроб» и ФКУЗ «Ростовский-на-Дону противочумный институт» соответственно на разных платформах).


Дендрограмма, построенная на основе SNP-типирования.
A dendrogram based on SNP typing.

Использование нового набора SNP-маркеров позволило более достоверно установить родственные связи между токсигенными штаммами O1 (биовара El Tor) и О139 серогрупп, содержащих разные наборы маркеров эпидемического потенциала: аллели генов ctxB (ctxB3, ctxB1 или ctxB7), tcpA (eltor или CIRS), rtxA (rtxA1, rtxA4 или rtxA4а), структура острова пандемичности VSPII (интактный или содержащий протяженную делецию — VSPIIΔ). Все они сгруппировались в один большой кластер из двух основных ветвей. Наиболее опасные штаммы с генотипом ctxB7 tcpACIRS rtxA4a VSPIIΔ и близким ему ctxB1 tcpACIRS rtxA4 VSPIIΔ попали в одну ветвь с гаитянскими штаммами и штаммом CIRS101 из Бангладеш; отдельную группу в этой ветви образовали штаммы ctxB1 tcpAeltor rtxA1 VSPII из Ростова-на-Дону, Казани и Дагестана. В то же время другие дагестанские штаммы с таким же генотипом оказались в составе другой ветви, куда отдельной группой вошли и 4 штамма серогруппы О139, что согласуется с более ранними данными на основе INDEL-типирования [1].

Особый интерес представляют нетоксигенные штаммы, лишенные генов ctxAB и не склонные к эпидемическому распространению. Вместе с тем
они могут вызывать спорадические случаи и локальные вспышки холероподобной диареи за счет экспрессии ряда детерминант факторов патогенности. Часть из них содержит остров патогенности VPI-I, в состав которого входит ген tcpA, а некоторые из последних — профаг preCTX, их вирулентность показана в опытах in vivo [14]. Их происхождение, пути эволюции, а также возможности приобретения генов холерного токсина изучены крайне недостаточно.

По результатам SNP-типирования с использованием другого набора маркеров сотрудниками РосНИПЧИ «Микроб» [15] показано, что штаммы с генотипом ctxABtcpA+VSPI+VSPIIблизкородственны токсигенным штаммам. На этом основании авторами было предложено считать их потенциально эпидемически опасными, т.е. способными приобрести профаг CTX путем «традиционной» и TCP-зависимой трансдукции и восстановить эпидемический потенциал. В то же время штаммы с генотипом ctxABtcpA+VSPIVSPII– даже в случае приобретения ими CTX эпидемически опасными стать не могут, поскольку на дендрограмме они образовали отдельный удаленный от токсигенных штаммов кластер. Третий отдаленный от обоих указанных кластер был образован штаммами ctxABtcpAVSPIVSPII. Эти данные позволили оценить сходство и различия между штаммами с разными наборами генетических детерминант и проследить пути их эволюции.

Вместе с тем в анализ была включена большая, но все же ограниченная выборка штаммов, и некоторые генотипы оказались за ее пределами. Мы включили в исследование ряд других нетоксигенных штаммов и установили, что они образуют большее число кластеров на дендрограмме и иногда группируются с токсигенными. Например, штаммы ctxABtcpA+VSPIVSPII, выделенные из водоемов в Ростове-на-Дону и Калмыкии, попали в один кластер со штаммом ctxAB+tcpA+VSPI+VSPII– V. cholerae O1 MS6 из Тайланда [16]. При этом один из штаммов, выделенных в Ростовской области, (18963) содержал preCTX. Два других штамма preCTXtcpA+VSPIVSPII– сгруппировались со штаммами preCTXtcpA+VSPIVSPII– — представителями клонального комплекса, вызвавшими вспышку заболеваний в Каменском районе Ростовской области в 2005 г. [17].

Еще более гетерогенной группой возбудителей являются штаммы V. cholerae nonО1/nonО139, в том числе имеющие гены холерного токсина. Например, именно такими штаммами была вызвана продолжительная вспышка в Узбекистане в 1987–1990 гг. [18]. Настоящее исследование показало, что узбекский штамм ctxAB+ tcpA+VSPIVSPII– (16150) попадает в общий гетерогенный кластер, содержащий preCTXи ctxABштаммы V. cholerae О1. Ряд других токсигенных штаммов V. cholerae nonO1/nonO139 (V51, CP1117, 16002) образовали отдаленный от него кластер и оказались ближе к нетоксигенным вариантам V. cholerae О1 серогруппы. Штамм V52 ctxAB+tcpA+VSPIVSPII  серогруппы О37 — один из возбудителей крупной эпидемической вспышки в Судане в 1968 г. — оказался близок атоксигенному штамму, выделенному на Гаити в 2012 г.

Очевидно, пути эволюции нетоксигенных штаммов крайне многообразны и требуют отдельного, более детального изучения, чему будет способствовать дальнейшее использование разработанного нами усовершенствованного метода SNP-типирования.

Заключение

В ходе выполнения настоящей работы разработан метод подбора перечня SNP для проведения филогенетического анализа на основе анализа первичных данных WGS (ридов). Составлен перечень из 3198 «стабильных SNP» для проведения филогенетического анализа. Предложена и апробирована методика использования «контрольных геномов» при проведении кластерного анализа данных WGS. Показана генетическая близость между нетоксигенными штаммами, содержащими ген tcpA (ctxABtcpA+) и preCTX-штаммами V. cholerae.

Список литературы

1. Водопьянов А.С., Водопьянов С.О., Олейников И.П., Мишанькин Б.Н. INDEL-типирование штаммов Vibrio cholerae. Эпидемиология и инфекционные болезни. 2017; 22(4): 195-200. http://doi.org/10.18821/1560-9529-2017-22-4-195-200

2. Kuleshov K.V., Vodop'ianov S.O., Dedkov V.G., Markelov M.L., Deviatkin A.A., Kruglikov V.D., et al. Travel-associated Vibrio cholerae O1 El Tor, Russia. Emerg. Infect. Dis. 2016; (11): 2006-8. https://dx.doi.org/10.3201/eid2211.151727.

3. Gardner S.N., Slezak T., Hall B.G. kSNP3.0: SNP detection and phylogenetic analysis of genomes without genome alignment or reference genomes. Bioinformatics. 2015; 31: 2877-8. https://dx.doi.org/10.1093/bioinformatics/btv271.

4. Irenge L.M., Ambroise J., Mitangala P.N., Bearzatto B., Kabangwa R.K.S., Durant J.F., Gala J.L. Genomic analysis of pathogenic isolates of Vibrio cholerae from eastern Democratic Republic of the Congo (2014–2017). PLoS Negl. Trop. Dis. 2020; 14(4): e0007642. https://dx.doi.org/10.1371/journal.pntd.0007642.

5. Миронова Л.В., Балахонов С.В. Полногеномный анализ однонуклеотидных полиморфизмов в изучении молекулярной эпидемиологии холеры и эволюционной истории возбудителя. Эпидемиология и вакцинопрофилактика. 2014; 4(77):10-8.

6. Tamura K., Peterson D., Peterson N., Stecher G., Nei M., Kumar S. MEGA5: Molecular Evolutionary Genetics Analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods. Mol. Biol. Evol. 2011; 28: 2731-9. https://dx.doi.org/10.1093/molbev/msr121.

7. Водопьянов А.С., Писанов Р.В., Водопьянов С.О., Мишанькин Б.Н., Олейников И.П., Кругликов В.Д., Титова С.В. Молекулярная эпидемиология Vibrio cholerae — разработка алгоритма анализа данных полногеномного секвенирования. Эпидемиология и инфекционные болезни. 2016; 21(3): 146-52.

8. García D.F., Astudillo M. MIRU-VNTR genotyping of Mycobacterium tuberculosis in a population of patients in Cali, Colombia, 2013–2015. Biomedica. 2019; 39(s1): 71-85. https://dx.doi.org/10.7705/biomedica.v39i2.3924.

9. Shastri A.A., Ahuja K., Ratnaparkhe M.B., Shah A., Gagrani A., Lal A. Vector quantized spectral clustering applied to whole genome sequences of plants. Evol. Bioinform. Online. 2019; 15: 1176934319836997. https://dx.doi.org/10.1177/1176934319836997.

10. Singh R.B., Mahenderakar M.D., Jugran A.K., Singh R.K., Srivastava R.K. Assessing genetic diversity and population structure of sugarcane cultivars, progenitor species and genera using microsatellite (SSR) markers. Gene. 2020;753: 144800. https://dx.doi.org/10.1016/j.gene.2020.144800.

11. Subramanian S., Ramasamy U., Chen D. VCF2PopTree: a client-side software to construct population phylogeny from genome-wide SNPs. PeerJ. 2019; 7 :e8213. https://dx.doi.org/10.7717/peerj.8213.

12. Chatterjee S., Rudra S.K., Azmi S.A., Bandyopadhyay R. Phylogenetic study based on 28S rRNA gene sequencing of Wuchereria bancrofti isolated from the filaria endemic areas of Bankura district, West Bengal, India. J. Parasit. Dis. 2017; 41(4): 981-6. https://dx.doi.org/10.1007/s12639-017-0922-6.

13. Yokoyama E., Hirai S., Ishige T., Murakami S. Application of whole genome sequence data in analyzing the molecular epidemiology of Shiga toxin-producing Escherichia coli O157:H7/H. Int. J. Food Microbiol. 2018; 264: 39-45. https://dx.doi.org/10.1016/j.ijfoodmicro.2017.10.019.

14. Монахова Е.В., Миронова А.В., Алексеева Л.П., Мазрухо А.Б. Вирулентность холерных вибрионов, содержащих pre-CTXφ: генотипическая и фенотипическая характеристика. Журнал микробиологии, эпидемиологии и иммунобиологии. 2008; (4): 27-32.

15. Смирнова Н.И., Кульшань Т.А., Баранихина Е.Ю., Краснов Я.М., Агафонов Д.А., Кутырев В.В. Структура генома и происхождение нетоксигенных штаммов Vibrio cholerae биовара Эль Тор с различной эпидемиологической значимостью. Генетика. 2016; 52(9): 1029-41.

16. Okada K., Roobthaisong A., Swaddiwudhipong W., Hamada S., Chantaroj S. Vibrio cholerae O1 isolate with novel genetic background, Thailand–Myanmar. Emerg. Infect. Dis. 2013; 19(6): 1015-7. https://dx.doi.org/10.3201/eid1906.120345

17. Онищенко Г.Г., Ломов Ю.М., Москвитина Э.А., Подосинникова Л.С., Водяницкая С.Ю., Прометной В.И. и др. Холера, обусловленная Vibrio cholerae О1 ctxAB– tcpA+. Журнал микробиологии, эпидемиологии и иммунобиологии. 2007; (1): 23-9.

18. Онищенко Г.Г., Водопьянов С.О., Ломов Ю.М., Мишанькин Б.Н., Сучков И.Ю., Черепахина И.Я. и др. Холерные вибрионы серогрупп неО1, выделенные в Узбекистане в 1987–1990 гг.: ретроспективный VNTR-анализ. Эпидемиология и инфекционные болезни. 2003; (6): 25-9.


Об авторах

А. С. Водопьянов
ФКУЗ «Ростовский-на-Дону противочумный институт» Роспотребнадзора
Россия

Водопьянов Алексей Сергеевич — к.м.н., с.н.с. группы вирусологии

344002, Ростов-на-Дону



Р. В. Писанов
ФКУЗ «Ростовский-на-Дону противочумный институт» Роспотребнадзора
Россия

Писанов Руслан Вячеславович — к.б.н., зав. лаб. диагностики особо опасных инфекций

344002, Ростов-на-Дону



С. О. Водопьянов
ФКУЗ «Ростовский-на-Дону противочумный институт» Роспотребнадзора
Россия

Водопьянов Сергей Олегович — д.м.н., зав. лаб. биохимии микробов

344002, Ростов-на-Дону



И. П. Олейников
ФКУЗ «Ростовский-на-Дону противочумный институт» Роспотребнадзора
Россия

Олейников Игорь Павлович — н.с. лаб. биохимии микробов

344002, Ростов-на-Дону



Рецензия

Просмотров: 352


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 0372-9311 (Print)
ISSN 2686-7613 (Online)