Makine öğrenmesi özellik seçimi (anova-boruta) ve sınıflandırma yaklaşımlarıyla pan-kanserde potansiyel mikroRNA biyobelirteçlerinin belirlenmesi

Tez KünyeDurumu
Makine öğrenmesi özellik seçimi (anova-boruta) ve sınıflandırma yaklaşımlarıyla pan-kanserde potansiyel mikroRNA biyobelirteçlerinin belirlenmesi / Identification of potential microRNA biomarkers in pan-cancer using machine learning feature selection and classification approaches
Yazar:MELİKE KILIÇ
Danışman: DOÇ. DR. SAVAŞ İZZETOĞLU
Yer Bilgisi: Ege Üniversitesi / Fen Bilimleri Enstitüsü / Biyoloji Ana Bilim Dalı / Moleküler Biyoloji Bilim Dalı
Konu:Biyoloji = Biology
Dizin:
Onaylandı
Yüksek Lisans
Türkçe
2023
99 s.
MikroRNA’lar (miRNA’lar), yaklaşık 17-25 nükleotidden oluşan küçük, kodlayıcı olmayan bir RNA sınıfını temsil eder. mRNA’ları hedefleyip ekspresyonlarını kontrol ederek, oldukça karmaşık sinyal iletim yollarını ve diğer biyolojik yolakları kontrol edebilen miRNA’ların kanserdeki biyolojik rolleri, prognoz ve terapötik sonuç ile yakından ilişkilidir. Bu rollerin daha fazla araştırılması, insan kanserlerinin sınıflandırılması, teşhisi ve tedavisi için yeni yaklaşımların keşfedilmesine yol açabilir. Birçok çalışma miRNA’ların, tümör büyümesi, invazyon, anjiyogenez ve immün kaçışı kolaylaştırmak için hedef mRNA’larının ekspresyonunu kontrol ederek kanser biyolojisinde rol oynadıklarını ve insan kanserlerinde miRNA ekspresyonunun düzensiz olduğunu göstermektedir. Dolayısıyla miRNA’lar, kanserde potansiyel biyobelirteçler olma olasılığına sahiplerdir. Biyolojik sıvılarda kolaylıkla tespit edilebilir olmaları, daha az invaziv olan izleme ve takip etme yöntemlerinin ortaya çıkmasına olanak sağlayabilir. Yapay zekanın bir dalı olan makine öğrenmesi, farklı alanlardan karmaşık veri kümelerinin kalıplarını tanımak için bilimsel çalışmalarda tercih edilmektedir. Çeşitli ve çok sayıda kanser veri setleri ile yapılan çalışmalarla makine öğrenimi, prognozda kansere özgü kalıpları ele alarak kanser teşhisi, yönetimi ve kişiselleştirilmiş tıpta başvurulabilecek kaynaklardan biri olmuştur. Bu nedenlerle, bu tez çalışmasında makine öğrenimi yaklaşımıyla miRNA’ların meme, mide, akciğer, pankreas ve yumurtalık kanserlerinde biyobelirteç olma potansiyellerinin araştırılması, GEO veri bankasından elde edilen diferansiyel miRNA ekspresyon bilgileri kullanılarak, yüksek doğrulukta kanser tahmini yapabilen makine öğrenmesi modelleri geliştirilmesi amaçlanmıştır. Çalışma süresince veriler üzerinde, Anova ve Boruta adlı iki farklı özellik seçimi yöntemi uygulanıp aralarında verimlilik açısından karşılaştırma yapılmıştır. Geliştirilen tahmin modelleri için Random Forest ve SVM tahmincileri kullanılmıştır. Araştırılan tüm kanser türlerinin verileri için en etken olarak yorumlanabilecek özellikler yani miRNA’lar analiz edilmiş ve farklı kanser türleri arasında karşılaştırılmıştır. Analizler sonucunda meme ve yumurtalık kanserleri için sırasıyla hsa-miR-1307-3p ve hsa-miR-4532; mide, akciğer ve pankreas kanserleri için hsa-miR-1343-3p, en etken özellikler olarak tespit edilmiş ve ayrıca bunlarla birlikte tüm kanser türleri için ilk 20 en etken özellik incelenmiştir. Tez çalışması süresince geliştirilen tüm tahmin modelleri için, iki tahminci ile de doğruluk ve kesinlik ölçütleri bakımından %95’in, duyarlılık ölçütü bakımından %85’in üzerinde sonuçlar elde edilmiştir. Farklı özellik seçimi ve tahminleme yöntemlerinin kullanıldığı bu çalışmanın, ileride benzer konular üzerinde yapılacak makine öğrenmesi çalışmalarına yol göstermesi hedeflenmektedir. Elde edilen bulgular, ıslak laboratuvar çalışmalarıyla test edilebilen miRNA biyobelirteç adaylarının, zaman ve diğer kaynaklardan tasarruf edebilmek amacıyla, öncelikle in silico olarak tespit edilebilirliğine işaret etmektedir.
MicroRNAs (miRNAs) represent a class of small, non-coding RNAs composed of approximately 17-25 nucleotides. By targeting mRNAs and controlling their expression, miRNAs can regulate highly complex signalling pathways and other biological pathways, and their biological roles in cancer are closely associated with prognosis and therapeutic outcomes. Further investigation of these roles may lead to the discovery of new approaches for classification, diagnosis, and treatment of human cancers. Numerous studies have shown that miRNAs play a role in cancer biology by controlling the expression of target mRNAs to facilitate tumour growth, invasion, angiogenesis, and immune evasion, and that miRNA expression is dysregulated in human cancers. Therefore, miRNAs have the potential to be biomarkers in cancer, as they can be easily detected in biological fluids, allowing for less invasive monitoring and tracking methods to emerge. Machine learning, a branch of artificial intelligence, is preferred in scientific studies for recognizing patterns in complex datasets from different fields. Through studies using various and numerous cancer datasets, machine learning has become a source of cancer diagnosis, management, and personalized medicine by addressing cancer-specific patterns in prognosis. For this reason, in this thesis study, the potential of miRNAs as biomarkers in breast, stomach, lung, pancreas, and ovarian cancers was investigated using a machine learning approach, and machine learning models capable of accurately predicting cancer using differential miRNA expression information obtained from the GEO database were developed. During the study, two different feature selection methods, Anova and Boruta, were applied to the data, and a comparison was made between them in terms of efficiency. Random Forest and SVM classifiers were used for the developed prediction models. The most effective features, i.e., miRNAs, were analysed and compared among different cancer types. As a result of the analysis, hsa-miR-1307-3p and hsa-miR-4532 were identified as the most effective features for breast and ovarian cancers, respectively, and hsa-miR-1343-3p was identified as the most effective feature for stomach, lung, and pancreas cancers. In addition, the top 20 most effective features were examined for all cancer types. Throughout the thesis study, accuracy and precision criteria were achieved above 95% and sensitivity was achieved above 85% for all developed prediction models using both classifiers. It is aimed that this study, which uses different feature selection and prediction methods, will guide future machine learning studies on similar topics. The findings obtained indicate the detectability of miRNA biomarker candidates, which can be tested with wet laboratory studies, in silico initially to save time and other resources.

Download: Click here