Realistically simulating SARS-CoV-2 wastewater metagenome sequencing data

Tez KünyeDurumu
Realistically simulating SARS-CoV-2 wastewater metagenome sequencing data / SARS-CoV-2 atık su metagenom verisinin gerçekçi simülasyonu
Yazar:FATMA RABİA FİDAN
Danışman: PROF. DR. MEHMET SOMEL ; DR. NICK GOLDMAN
Yer Bilgisi: Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Biyoloji Ana Bilim Dalı
Konu:Biyoloji = Biology
Dizin:
Onaylandı
Yüksek Lisans
İngilizce
2022
64 s.
apılan çalışmalarla yeni bir SARS-CoV-2 varyantının atık sularda hastane kliniklerinden 2 hafta kadar daha erken gözlemlenebildiğinin gösterilmesiyle (Karthikeyan et al., 2021) varyant takibi için atık su izlemesi tarafsız ve işe yarar bir metod olarak yaygınlaşmaya başladı. Bu şekilde bir varyant takibinin tehlikeli varyantlara karşı alınan önlem politikalarında oynayacağı rol ve bunların yol açabileceği büyük düzenlemeler yüzünden bu çalışmalarda kullanılan metodların ve yazılımların test edilmesi ve doğrulanması büyük önem taşımaktadır. Bu durum, gerçekçi bir atık su SARS-CoV-2 metagenom simulatörü ihtiyacını doğurmaktadır. Biz de gerçek atık sudan gelen verinin farklı SARS-CoV-2 varyant yoğunluğu, pirmer setine özel farklı amplikon yoğunlukları ve temel hata bileşenleri gibi en önemli özelliklerini yansıtan prototip bir simülatör yapmak için adım attık. Gerçek veriye baktığımızda bazı yapay mutasyonların verisetinde bir çok okuma tarafından desteklendiğini gördük. Bu tip hataların başlıca sebepleri arasında RNA’nın örneklemesine kadar geçen sürede su içinde beklemesinden kaynaklı RNA bozulmaları ve PCR hataları yer almaktadır. Bu durum bu tarz yüksek sıklıklı hataların da simülasyonun bir parçası olmasını gerekli kılmaktadır. Biz de bu çalışmada bunu başarmak için gerçek verinin yüksek sıklıklı hata karakteristiklerini çalışıp başlıca yüksek sıklıklı hata bileşenlerini gerçekçi bir şekilde simülatörümüze uyguluyoruz. Ayrıca simülatör çıktısı verinin olası kullanım alanlarını göstermenin yanı sıra bireysel korona varyantlarını tespit etme gibi uygulama programlarında nasıl davrandığını gösteriyoruz. Atık su verisi ile kilinik veriyi karşılaştırarak iki verinin hata karakteristiklerinin farklı olduğunu gösteriyoruz.
Wastewater surveillance for SARS-CoV-2 is seeing increasingly widespread use as it proved useful in tracking variants and their prevalence in an unbiased manner. It has been shown that it is possible to detect an emerging variant from wastewater samples up to two weeks earlier than its detection at hospital clinics (Karthikeyan et al., 2021). Such data are critical for policies regarding the measures taken against variants of concern. Since such surveillance has important consequences, it is also vital to test and validate the surveillance methodologies and software packages, which in turn creates a need for a realistic SARS-CoV-2 wastewater metagenome sequencing data simulator. We stepped up to develop a prototype simulator, modelling many unusual features of the data, such as differential SARS-CoV-2 variant abundance, amplicon architecture, differential amplicon abundance of a primer set and major error components. By investigating wastewater metagenomic SARS-CoV-2 datasets, we identified high-frequency errors where many reads from the same sample wrongly supported the same artifactual mutation. This kind of error likely stemmed from RNA-degradation and PCR amplification processes, as the most significant source of noise in wastewater metagenomic SARS-CoV-2 data analysis. This makes it crucial to realistically model high-frequency errors within inference and simulation frameworks for this type of data. To achieve this, we study the error characteristics of SARS-CoV-2 wastewater sequencing data, model the major high-frequency error components, and realistically implement these models into our simulator. We also aim to display some use cases of the simulated data in downstream applications such as the benchmarking of software for individual variant resolution. Moreover, comparisons involving results from wastewater and clinical data will allow us to see the differences in error characteristics of the clinical and wastewater data.

Download: Click here