Aminoasit dizilerinden protein yapılarının üç boyutlu (3B) tahmini, 10 yıl kadar önce çoklu dizi hizalamalarında bulunan ortak evrimsel ilişkilerden, kalıntı-kalıntı (rezidü-rezidü) temasları çıkarımlarına doğru yönelmiştir. Sonrasında AlphaFold ve trRosetta gibi derin nöral ağ yaşlaşımlarıyla tasarlanan ilk jenerasyon algoritmalar, protein yapı tahmininde fizik temelli yöntemlere göre daha iyi performans göstermiştir. En son geliştirilen AlphaFold2 (AF2), benzeri görülmemiş bir başarıya imza atsa da makine öğrenmesi (ML) ile MSA’lardan proteinlerin 3B yapı tahmininde hala zorluklar yaşanmaktadır. Bunun nedeni dizi homologlarından yoksun proteinlerin yapısal tahminlerindeki performans düşüklüğüdür; çünkü bu yaklaşım MSA’lardan gelen ortak evrimsel bilgiye gereksinim duymaktadır. Önemli bir diğer konu, protein tasarımı ve protein dizisinde bulunan varyasyonların işlevsel tayini gibi uygulamaların tek-dizi (single-sequence) yapı tahmini bağımlılığı olarak gösterilmektedir.
Chowdhury ve arkadaşları, bir proteinin 3B yapısını MSA’lar kullanmadan tek dizilerden mutagenez ve protein tasarımı ile ilgili olarak tahmin edebilen, ML tabanlı tekrarlayan geometrik ağ (RGN) içeren bir derin öğrenme sistemi (RGN2) geliştirmiştir. RGN2’nin geliştirilmesinde öncelikle doğal dil işleme için geliştirilen modellerden ilham alan AminoBERT adı verilen bir protein dili modeli kullanmıştır. Daha sonra “MSA’lardan türetilen pozisyona özgü puanlama matrislerinden (PSSM’ler) protein yapısını tahmin eden, uçtan uca türevlenebilir RGN (RGN1 olarak isimlendirilmektedir)” oluşturulmuştur; ancak bu yaklaşımın birkaç homolog dizi gereksinimine sahip olması, RGN2 adını verilen ve Frenet-Serret çerçevelerini kullanan yeni bir uçtan uca türevlenebilir sistem geliştirilmesiyle sonuçlanmıştır.
Araştırmacılar son olarak, geliştirdikleri RGN2 sisteminin performansını, bilinen homologları olmayan ve doğal olarak oluşan yetim proteinler üzerinde (AF2), trRosetta ve RoseTTAFold (RF) algoritmaları ile karşılaştırmıştır. Uniclust30 veri setindeki 222 yetim protein üzerindeki 3B yapı tahminleri gerçekleştirilmiştir. Bununla birlikte Rosetta enerji fonksiyonu kullanılarak tasarlanan 35 de novo proteinin yapılarının tahmini için de AF2 ve RF ile performans karşılaştırması gerçekleştirilmiştir. Her iki performans testinde de tahmin doğruluğundaki farklılıklar, dRMSD ve GDT_TS metrikleri ile değerlendirilmiştir. Sonuçlar, fizik tabanlı konformasyonel örnekleme gerektirmeyen RGN2’nin, AF2 dahil homologları olmayan proteinler üzerindeki tüm ana yöntemlerden hem daha iyi hem de daha hızlı bir performansa sahip olduğunu göstermiştir.
Sonuç olarak, RGN2, MSA’dan bilgi türetilemeyen yetim ve de novo proteinlerin 3B yapı tahmininde, tek bir diziden AminoBERT aracılığıyla bütün bir proteinin bilgisini çözümlemeyi başaran ML tabanlı ilk yaklaşımdır. Protein tasarımı ve hastalık mutasyonlarının analizi gibi hız gerektiren uygulamalar için hem verimli hem de daha az hesaplama maliyetiyle daha iyi sonuçlar üreten bir sistem olarak önerilmiştir.
Yazar: Tuğçe Özcan
Editör: İrem Coşkuntan
Referans: Chowdhury, R., Bouatta, N., Biswas, S., Floristean, C., Kharkare, A., Roye, K., … & AlQuraishi, M. (2022). Single-sequence protein structure prediction using a language model and deep learning. Nature Biotechnology, 1-7. https://doi.org/10.1038/s41587-022-01432-w
-Bioinforange Bilimsel Haber Servisi-
Haber Yazıları, 20> Etki Faktörlü Q1 dergilerinde yayınlanan (listesi için tıklayınız)
bilimsel araştırmaların ekip arkadaşlarımız tarafından incelenip derlenmesi ile hazırlanmaktadır.
Selçuk Üniversitesi – Biyoteknoloji Yüksek Lisans/ Tez Dönemi