Breaking News

Bagaimana raksasa teknologi menghadapi masalah keandalan

Bagaimana raksasa teknologi menghadapi masalah keandalan

Pada Mei 2025, Meta membukanya Seri Konferensi @Scale Dengan pesan yang tidak salah lagi: Teknologi besar ada di atas. Sekarang Anda perlu menahan berat mahkota Anda.

Sistem dan trek keandalan menyatukan Netflix, AMD, Google, Meta, Microsoft, Nvidia dan Pinterest untuk menangani tuntutan infrastruktur dunia yang berjalan dalam AI dan personalisasi. Dengan banyak pekerjaan Gen AI yang tumbuh setiap hari, dan lalu lintas global berusaha bahkan dengan platform yang paling matang, bahkan platform yang paling matang sedang ditekan untuk memikirkan kembali pendekatan keandalan mereka.

Dalam konteks itu, Netflix‘S bicara Mosaik Tinggalkan kesan yang sangat kuat. Sementara banyak sesi yang berfokus pada penyesuaian model AI atau pemrograman GPU, insinyur perangkat lunak senior Karthik Puthraya Dan Saurabh Jaluka berfokus pada lapisan kritis di bawahnya: Cara membuktikan dan mempertahankan infrastruktur yang menawarkan konten yang dipersonalisasi kepada ratusan juta pelanggan, setiap menit setiap hari, tanpa runtuh di bawah bobotnya sendiri.

Di belakang tahap halaman beranda Netflix Anda

Jika Anda telah menggunakan Netflix baru -baru ini, Anda telah melihat Mosaik beraksi. Ini adalah sistem yang membuat orkestra halaman beranda: jajaran korsel konten dan rekomendasi kemajuan yang membantu memandu apa yang diamerikan dan dialami oleh ratusan juta pengguna. Setiap elemen dipersonalisasi, didorong oleh server dan disesuaikan dengan hati -hati oleh kecerdasan buatan, kemudian dirakit melalui jaringan layanan mikro yang didistribusikan di seluruh dunia.

Platform ini mengakui lebih dari 300 juta rumah di 190 negara, menawarkan lebih dari 18.000 judul dan menangani ratusan miliar visualisasi per tahun. Pada skala itu, retakan tidak dijaga agar tetap kecil untuk waktu yang lama.

Itulah sebabnya Puthraya dan timnya mulai dengan asumsi bahwa segala sesuatunya akan rusak. Netflix tiba lebih awal untuk mengadopsi rekayasa kekacauan, sebuah disiplin yang dibantu perusahaan mempopulerkan dengan alat -alat seperti Chaos Monkey, yang server produksi acak secara acak Untuk membuktikan bagaimana sistem pulih. Mosaik Ini didasarkan pada warisan itu, tetapi dengan pendekatan yang lebih jelas untuk menguji dan memperkuat keandalan terdalam, dan lebih sering, pada siklus hidup pengembangan perangkat lunak.

Selesaikan melalui tes

Puthraya dan tim harus memikirkan kembali tes itu sendiri. Praktik kontrol kualitas tradisional (di mana ia menulis tes, menjalankannya dan memverifikasi keluar) dipecah menjadi lingkungan yang rumit seperti raksasa transmisi. Ada terlalu banyak variasi dan terlalu banyak unit. Alih -alih mempercayai tes stres setelah penyebaran atau kontrol kualitas sintetis, tim menggunakan tes reproduksi. Teknik ini mengekstraksi sampel lalu lintas nyata dari produksi dan mereproduksi mereka di lingkungan yang terkontrol, menangkap regresi dan kasus tepi yang tidak pernah muncul dalam skenario uji internal. Yang paling penting adalah memungkinkan peralatan untuk memverifikasi perilaku dalam kondisi yang tidak dapat diklasifikasikan dengan sempurna.

Dalam praktiknya, ini berarti bahwa kegagalan menjadi masalah desain utama: layanan secara bebas digabungkan dan toleran kesalahan secara default. Jika instance server berperilaku buruk atau seluruh wilayah menjadi gelap, yang lain mengumpulkan beban. Pikiran ini bernilai pada tahun 2011 ketika gangguan AWS menghilangkan segmen infrastruktur awan besar. Netflix, terkenal, Dia tetap online. Seperti yang dijelaskan Puthraya, itu adalah jenis kinerja yang sekarang diterima konsumen, tetapi insinyur tahu bahwa itu tidak dijamin.

Industri mencapai batasnya

Dia Mosaik Sejarah adalah bagian dari perhitungan industri yang lebih luas. Selama sebagian besar dekade terakhir, rekayasa platform yang berfokus pada kecepatan, dengan upaya untuk mengimplementasikan dan iterando lebih cepat. Itu bisa bekerja dengan baik sementara lalu lintas dapat diprediksi, dan layanannya lebih sederhana. Tetapi hari ini, dengan interaksi dan layanan pengguna menengah AI, saling bergantung pada baterai global, konsistensi dan waktu aktivitas telah menjadi hambatan baru. Menurut sebuah laporan, Setengah dari organisasi yang disurvei Setuju bahwa lambat adalah yang baru. Dalam kasus penggunaan mulai dari transmisi ke permainan, hingga membiayai dan bahkan SaaS bisnis, keandalan semakin menjadi pembeda.

Itu adalah garis lorong dari Sistem dan trek keandalan di @scale. Percakapan bervariasi dari pipa pasokan meta GPU, yang mengurangi waktu implementasi untuk beban kerja AI, hingga eksplorasi AMD dari skala ML sadar perangkat keras. Microsoft dan Pinterest membagikan buku bermain mereka sendiri untuk isolasi kegagalan dan manajemen latensi. Sementara setiap pembicaraan berfokus pada lapisan baterai yang berbeda, suatu topik jelas: tidak dapat dibangun untuk lalu lintas hari ini dengan strategi pengujian kemarin.

“Tantangan keandalan adalah perubahan budaya baik sebagai teknis,” jelas Puthraya. “Apa yang terjadi ketika kamu melayani seluruh dunia? Kami menemukan bersama.”

Di mana hal -hal diarahkan

Keandalan tidak akan pernah seberat arsitektur model baru atau algoritma yang cerdas, tetapi dengan cepat menjadi faktor penentu apakah kemajuan teknologi terbaru dapat memenuhi janji mereka. Sistem rekomendasi sama bermanfaatnya dengan waktu aktivitasnya; Model generatif hanya menciptakan nilai jika antarmuka cepat dan stabil. Dan dengan raksasa teknologi berinvestasi Lebih dari $ 180 miliar infrastruktur pusat data tahun lalu sajaProduk dan platform ini diharapkan berfungsi di bawah permintaan global tanpa henti.

Konferensi ini memperkuat bahwa mempertahankan sistem yang dapat diandalkan dan dapat diskalakan adalah tantangan setiap orang dalam ekonomi digital baru. Ketika tuntutan komputasi meningkat dan ekspektasi pengguna mengeras, margin kesalahan berkurang. Biaya waktu dan latensi tidak aktif, baik diukur dalam dolar atau pengguna, terlalu tinggi. Berita baiknya adalah bahwa komunitas teknologi merespons dengan berlaku.

Pertanyaannya, tampaknya, sedang berubah Bisakah kita membangunnya? ke Apakah itu akan tetap ada?









Sumber

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *