Preview

Труды Института системного программирования РАН

Расширенный поиск

Оптимизация выравнивания коротких прочтений с инделями при полногеномном секвенировании

https://doi.org/10.15514/ISPRAS-2025-37(6)-30

Аннотация

Представлен новый метод выравнивания прочтений для задач полногеномного секвенирования (WGS), ориентированный на повышение точности и практической эффективности этого этапа геномного анализа. В отличие от графовых подходов, предложенный алгоритм интегрирует информацию об известных генетических вариантах напрямую в процесс выравнивания, что позволяет улучшить сопоставление последовательностей с эталонным геномом без строительства сложных графовых структур. Метод продемонстрировал высокую эффективность на реальных данных: наблюдается устойчивый прирост качества выравнивания на участках с высоким уровнем изменений между разными людьми, а также участках, которые сложны для однозначного выравнивания даже при отсутствии изменений в этом месте у конкретного человека. В частности, использование информации о вариантах позволяет точнее выравнивать короткие последовательности (прочтения), содержащие альтернативные аллели, снижая число ошибок в указанных регионах. При этом требуемые вычислительные ресурсы остаются на приемлемом уровне, что делает решение применимым в стандартных WGS-пайплайнах без существенного увеличения нагрузки. Скорость работы алгоритма сопоставима с традиционными решениями, что упрощает его интеграцию в существующие аналитические программные конвейеры. Практическая ценность метода заключается в улучшении точности выравнивания, что напрямую влияет на качество последующего обнаружения вариантов и других анализов. Предлагаемый подход способен служить эффективной альтернативой современным графовым методам выравнивания, обеспечивая сопоставимое повышение качества результатов выравнивания при меньшей сложности реализации. Перспективы дальнейшего развития включают оптимизацию производительности алгоритма, расширение набора учитываемых генетических вариантов и проведение углубленного сравнения с другими инструментами. Эти шаги призваны еще более повысить эффективность и надежность метода, укрепляя его значимость для практического применения в геномике.

Об авторах

Никита Артемович КОЛТУНОВ
Институт системного программирования им. В.П. Иванникова РАН
Россия

Лаборант Федерального государственного бюджетного учреждения науки Институт системного программирования им. В.П. Иванникова Российской академии наук, специалист в области биоинформатики.



Егор Павлович ГУГУЧКИН
Институт системного программирования им. В.П. Иванникова РАН
Россия

Аспирант Федерального государственного бюджетного учреждения науки Институт системного программирования им. В.П. Иванникова Российской академии наук, специалист в области биоинформатики.



Евгений Андреевич КАРПУЛЕВИЧ
Институт системного программирования им. В.П. Иванникова РАН
Россия

Кандидат физико-математических наук, научный сотрудник Института системного программирования им. В.П. Иванникова Российской академии наук, специалист в области биоинформатики.



Список литературы

1. Halldorsson, B. V., Eggertsson, H. P., Moore, K. H., Hauswedell, H., Eiriksson, O., Ulfarsson, M. O., ... & Stefansson, K. (2022). The sequences of 150,119 genomes in the UK Biobank. Nature, 607(7920), 732 740.

2. Liao, W. W., Asri, M., Ebler, J., Doerr, D., Haukness, M., Hickey, G., ... & Paten, B. (2023). A draft human pangenome reference. Nature, 617(7960), 312-324.

3. Genomes Project Consortium. A global reference for human genetic variation. Nature. 2015;526(7571):68.

4. Li, H. (2018). Minimap2: pairwise alignment for nucleotide sequences. Bioinformatics, 34(18), 3094 3100.

5. Chaisson, M. J., Sanders, A. D., Zhao, X., Malhotra, A., Porubsky, D., Rausch, T., ... & Lee, C. (2019). Multi-platform discovery of haplotype-resolved structural variation in human genomes. Nature communications, 10(1), 1784.

6. Sirén, J., Monlong, J., Chang, X., Novak, A. M., Eizenga, J. M., Markello, C., ... & Paten, B. (2021). Pangenomics enables genotyping of known structural variants in 5202 diverse genomes. Science, 374(6574), abg8871.

7. Illumina. (n.d.). ALT-aware mapping. Illumina DRAGEN Bio-IT Platform Documentation (v3.7). Available at: https://support.illumina.com/content/dam/illumina-support/help/Illumina_DRAGEN_Bio_IT_Platform_v3_7_1000000141465/Content/SW/Informatics/Dragen/GPipelineAltMap_fDG.html, accessed 12.11.2025.

8. Mun, T., Chen, N. C., & Langmead, B. (2021). LevioSAM: fast lift-over of variant-aware reference alignments. Bioinformatics, 37(22), 4243-4245.

9. Mose, L. E., Perou, C. M., & Parker, J. S. (2019). Improved indel detection in DNA and RNA via realignment with ABRA2. Bioinformatics, 35(17), 2966-2973.

10. National Institute of Standards and Technology (NIST). (n.d.). Genome in a Bottle. NIST. Available at: https://www.nist.gov/programs-projects/genome-bottle, accessed 13.11.2025.

11. Olson, N. D., Wagner, J., McDaniel, J., Stephens, S. H., Westreich, S. T., Prasanna, A. G., ... & Zook, J. M. (2022). PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions. Cell genomics, 2(5).

12. Krusche, P., Trigg, L., Boutros, P. C., Mason, C. E., De La Vega, F. M., Moore, B. L., ... & Global Alliance for Genomics and Health Benchmarking Team. (2019). Best practices for benchmarking germline small-variant calls in human genomes. Nature biotechnology, 37(5), 555-560.


Рецензия

Для цитирования:


КОЛТУНОВ Н.А., ГУГУЧКИН Е.П., КАРПУЛЕВИЧ Е.А. Оптимизация выравнивания коротких прочтений с инделями при полногеномном секвенировании. Труды Института системного программирования РАН. 2025;37(6):211-222. https://doi.org/10.15514/ISPRAS-2025-37(6)-30

For citation:


KOLTUNOV N.A., GUGUCHKIN E.P., KARPULEVICH E.A. Optimization of Short Reads Alignment with Indels in Whole-Genome Sequencing. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(6):211-222. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(6)-30



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)