Breaking News

Presentasi EVO 2, genomik prediktif dan generatif untuk semua domain kehidupan

Presentasi EVO 2, genomik prediktif dan generatif untuk semua domain kehidupan

Urutan DNA model EVO 2 dan memungkinkan aplikasi melalui dogma pusat, yang mencakup skala molekuler dan seluler. Kredit: Biorxiv (2025). Doi: 10.1101/2025.02.18.638918

Para peneliti di ARC Institute, Stanford dan Nvidia University telah mengembangkan EVO 2, model AI canggih yang mampu memprediksi variasi genetik dan menghasilkan sekuens genomik dalam semua domain kehidupan.

Bukti menunjukkan bahwa EVO 2 secara tepat memprediksi efek fungsional mutasi antara genom prokariotik dan eukariotik. Dia juga berhasil mencetak genom raksasa raksasa Raw Tanpa referensi pelatihan langsung, yang menunjukkan kemampuan untuk menggeneralisasi fungsi urutan saja.

Model genomik saat ini berjuang untuk memprediksi dampak fungsional mutasi pada berbagai sistem biologis, terutama untuk genom eukariotik. Pendekatan pembelajaran otomatis telah menunjukkan beberapa keberhasilan dalam pemodelan dan genom prokariotik. Kompleksitas DNA eukariotik, dengan interaksi panjang dan elemen peraturan, menghadirkan satu tantangan lagi.

EVO 2 dikembangkan untuk mengatasi keterbatasan ini menggabungkan set pelatihan skala besar yang mencakup bakteri, lengkungan, eukariota dan bakteriofag, dengan pendekatan terhadap pola genom yang luas antara spesies alih -alih dilatih untuk fungsi spesifik tunggal.

Dalam penelitian ini, “Desain Pemodelan dan Genom di Semua Domain Kehidupan Dengan Evo 2”, diterbitkan sebagai Biorxiv Preimpresi, tim merinci bagaimana model yang dilatih dalam basis DNA 9,3 miliar DNA memungkinkan prediksi dan desain skala genom.

EVO 2 dilatih dalam 9,3 miliar nukleotida (A, T, C atau G), yang menjadikannya salah satu model biologis terbesar yang pernah dikembangkan. Model ini dapat menganalisis dan menghasilkan hingga 1 juta nukleotida secara bersamaan, yang memungkinkan Anda untuk menangkap pola dan hubungan yang panjang dalam urutan DNA.

Selama pelatihan, EVO 2 belajar memprediksi pasangan pangkalan berikut dalam urutan, mirip dengan bagaimana model bahasa memprediksi kata berikut dalam sebuah kalimat. Pendekatan ini memungkinkan EVO 2 untuk mengidentifikasi struktur genomik yang kompleks dan secara tepat memodelkan dampak fungsional dari variasi genetik di semua domain kehidupan.

Kumpulan data pelatihan, OpenGenome2, dipilih dengan cermat untuk mengecualikan urutan genomik virus yang menginfeksi tamu eukariotik untuk mengurangi potensi penyalahgunaan.

Strategi pelatihan dua fase digunakan, dimulai dengan fase pra-seating yang memprioritaskan elemen genetik fungsional dan fase pelatihan menengah yang memperpanjang panjang konteks untuk menangkap pola genom yang lebih luas.

EVO 2 menggunakan Stripedhyena 2, sebuah arsitektur baru yang menggabungkan operator konvolusi yang bergantung pada pintu masuk dengan mekanisme perawatan, dioptimalkan untuk secara efisien menangani urutan DNA panjang pada skala. Model yang dilatih dengan 1.024 GPU pada tingkat 40 miliar parameter, yang mencapai efisiensi yang lebih besar dibandingkan dengan model transformator tradisional.

Hasil penelitian menunjukkan bahwa EVO 2 secara tepat memprediksi efek fungsional mutasi antara genom prokariotik dan eukariotik tanpa perlu penyesuaian tugas spesifik dari tugas tersebut. Model ini menunjukkan sensitivitas terhadap mutasi dalam kodon awal, situs persimpangan dan daerah genom yang diawetkan, dengan penyelarasan kinerja dengan keterbatasan biologis yang diketahui.

Model khusus seperti Alphamissense dan GPN-MSA bekerja sedikit lebih baik untuk mengkode varian nukleotida tunggal, sementara EVO 2 menunjukkan akurasi superior untuk indels dan varian non-coding. Pengklasifikasi berdasarkan incrustation yang dilatih dalam Representasi EVO 2 mencapai keadaan -dari -the -ART kinerja dalam klasifikasi varian kanker payudara BRCA1.

Analisis interpretabilitas mengungkapkan bahwa EVO 2 secara mandiri mempelajari struktur biologis utama, termasuk situs serikat dari faktor transkripsi, batas motif ekson-intron dan protein struktural.

Teknik -teknik self -chire yang langka mengidentifikasi karakteristik laten yang sesuai dengan elemen genetik seluler, profago dan sekuens yang terkait dengan CRISPR. Kemampuan Evo 2 untuk menggeneralisasi ditunjukkan dengan sukses dengan mencetak genom raksasa lanudo, spesies yang tidak ada dalam data pelatihannya.

Generasi sekuens pada skala genom juga diuji, dengan EVO 2 berhasil menciptakan genom mitokondria lengkap, genom bakteri dan sekuens pada skala kromosom ragi. Urutan yang dihasilkan menunjukkan sifat struktural dan evolusi yang realistis, termasuk pola sinteslasi yang tepat, daerah pengkode protein dan elemen pengatur.

Ketika urutan genom mitokondria diminta, EVO 2 menghasilkan DNA dengan jumlah gen pengkode yang benar, ARNA dan RNA.

Di luar generasi urutan, EVO 2 diterapkan dalam tugas desain yang dikendalikan oleh inferensi untuk merancang urutan DNA dengan aksesibilitas kromatin yang dapat diprogram. Mengintegrasikan model aksesibilitas kromatin seperti Enforce dan Borzoi, EVO 2 menghasilkan urutan dengan karakteristik regulasi spesifik, termasuk kemampuan untuk menyandikan pesan kode Morse dalam struktur epigenetik.

EVO 2 mewakili kemajuan yang signifikan dalam AI genomik, menggabungkan presisi prediktif dengan kemampuan generatif dalam -Scals dari segalanya. Dengan membuat kode pelatihan EVO 2, parameter model dan set data OpenGenome2 secara terbuka, para peneliti berharap untuk mempercepat penelitian genomik.

Aplikasi EVO 2 di masa depan mungkin termasuk studi genetik populasi skala besar, biologi sintetis dan desain epigenomik lanjut.

Informasi lebih lanjut:
Garyk Brixi et al, Pemodelan dan Desain Genom di Semua Domain Kehidupan Dengan Evo 2, Biorxiv (2025). Doi: 10.1101/2025.02.18.638918

© 2025 Science X Network

Kutipan: Pengenalan Evo 2, genomik prediktif dan generatif untuk semua domain kehidupan (2025, 3 Maret) pulih pada 3 Maret 2025 dari https://phys.org/news/2025-03-vo-generative-genomic-ai-domains.html

Dokumen ini tunduk pada hak cipta. Selain pengobatan yang adil dengan tujuan studi atau penelitian pribadi, Anda tidak dapat mereproduksi bagian apa pun tanpa izin tertulis. Konten disediakan hanya untuk tujuan informasi.



Sumber