Model besar menggali lebih dalam nilai elemen data: setelah algoritma dan daya komputasi, nilai operator penyimpanan menjadi lebih menonjol

2023-09-27 08:03:34

Artikel| Relativitas Cerdas** (aixdlun)**

Penulis | Ye Yuanfeng

18,8 triliun dolar AS, yang merupakan nilai total yang diperkirakan pasar akan dihasilkan oleh ekonomi pintar yang digerakkan oleh AI pada tahun 2030. Diantaranya, perubahan kualitatif dalam kemampuan AI yang dihasilkan oleh model-model besar tidak diragukan lagi akan menjadi kekuatan pendorong yang penting.

Di bawah gelombang model-model besar, perhatian industri terhadap setiap dimensi dari ketiga pengembangan AI – daya komputasi, algoritma, dan data – telah mencapai tingkat yang baru. Menghindari “efek barel” telah menjadi pertimbangan utama dalam pengembangan model-model besar. model.

Dalam proses ini, perhatian industri terhadap "data" sering kali berfokus pada "kuantitas" + "kualitas". Jumlah data yang lebih besar dan kualitas data yang lebih tinggi dapat mendorong efek pelatihan dan penerapan model besar yang lebih baik. telah menjadi konsensus.

Namun, karena inovasi model besar memerlukan data yang lebih banyak dan lebih kompleks, tidak lagi cukup hanya berfokus pada “kuantitas” + “kualitas” data. Penyimpanan yang dapat membawa data dan memenuhi kebutuhan model besar juga patut mendapat perhatian. praktisi di bidang model besar.

Pada Huawei Connectivity Conference 2023 (HC 2023) yang baru saja diselenggarakan, Huawei secara sistematis memperkenalkan bagaimana solusi penyimpanannya dapat mengatasi kendala dalam pelatihan dan penerapan model besar, serta mendukung proses inovasi pada model besar.

Tindakan Huawei secara luas menunjukkan esensi pengembangan model besar dari dimensi data - pengembangan "elemen data" dalam skala besar, dan bagaimana inovasi penyimpanan memberikan kekuatan untuk esensi ini, membantu praktisi model besar memasuki era ekonomi cerdas dengan lebih baik.

Era model besar adalah era elemen data, dan nilai penyimpanan sebagai pembawa ditunjukkan.

Tidak ada keraguan bahwa permintaan daya komputasi, algoritma, dan data untuk model besar meningkat pesat.

Menurut statistik riset pasar, dalam lima tahun terakhir, parameter model besar telah meningkat 2.000 kali lipat, daya komputasi yang dibutuhkan meningkat 50.000 kali lipat, permintaan penyimpanan data meningkat 100.000 kali lipat, dan kebutuhan bandwidth jaringan terkait telah meningkat 8.000 kali lipat.

Pembukaan yang besar, penutupan yang besar, dan permintaan yang besar memerlukan fasilitas dan investasi yang besar.

Namun, dari perspektif inovasi, pada kenyataannya, kesulitan algoritma dan daya komputasi semakin menurun atau menyatu.

Dalam hal daya komputasi, yang membuat pusing banyak perusahaan, meskipun jumlah yang dibutuhkan besar, semuanya berasal dari NVIDIA, Ascend, dan sumber daya perangkat keras GPU lainnya, yang sebagian besar bergantung pada investasi biaya. Dengan kata lain, selama anggaran tersedia cukup, sumber daya komputasi dapat disuplai.

Di sisi algoritme, meskipun produsen besar terus menyempurnakan dan melakukan iterasi, mereka umumnya mengadopsi infrastruktur model Transformer, yang dikembangkan berdasarkan kerangka pengembangan arus utama seperti Pytorch, TensorFlow, dan MindSpore, dan secara bertahap menyatu.

Saat ini, tekanan datang pada data.

Dengan pengembangan model besar yang mendalam, total permintaan data telah melonjak dari tingkat TB ke tingkat PB, dan "kumpulan" yang diperlukan semakin besar; pada saat yang sama, permintaan akan tipe data sangat kaya, dan model teks tunggal Selain modalitas, data multi-modal seperti gambar, video, dan suara semakin banyak, dan kebutuhan data menjadi semakin kompleks.Ini semua menguji daya dukung penyimpanan dan bagaimana cara yang lebih baik bekerja dengan daya komputasi dan algoritma selama pelatihan dan aplikasi. .

Selama periode ini banyak timbul permasalahan yang menunggu untuk diatasi dengan penyimpanan, terutama antara lain:

Performa membaca file kecil. Persyaratan data model besar sebagian besar adalah file kecil dalam jumlah besar seperti gambar dan teks. Server AI tunggal dapat membaca lebih dari 20.000 gambar per detik, yang sering kali menyebabkan efisiensi pemuatan data yang rendah (mirip dengan tindakan penyalinan pada PC pribadi , setara dengan Di bawah ruang yang dibutuhkan, folder yang berisi banyak file kecil akan jauh lebih lambat daripada satu file besar), yang memengaruhi efisiensi pelatihan model besar. Saat ini, performa file kecil berukuran besar telah menjadi hambatan, dan persyaratan dasar untuk model besar dengan triliunan parameter telah mencapai 10 juta IOPS.

Breakpoint CheckPoint melanjutkan pelatihan. Selama proses pelatihan model besar, karena berbagai kebutuhan seperti penyetelan parameter, CheckPoint akan diinterupsi pada titik waktu yang tidak ditentukan, lalu dimulai ulang untuk melanjutkan pelatihan (membutuhkan waktu dan menimbulkan kesenjangan dalam pemanfaatan sumber daya GPU). Ini adalah kemampuan yang sangat ramah untuk model pelatihan jangka panjang, namun penyetelan parameter yang sering dilakukan oleh perusahaan sering kali mengakibatkan berkurangnya penggunaan GPU (saat ini, industri biasanya melakukan interupsi rata-rata setiap dua hari sekali, dan penggunaan GPU hanya 40%), yang mana membutuhkan penyimpanan. Hanya dengan kinerja membaca dan menulis file besar yang kuat Anda dapat mengurangi waktu tunggu GPU dan meningkatkan efisiensi pemanfaatan sumber daya yang mahal.

Masalah “halusinasi AI”. Fenomena bahwa hasil keluaran model besar "dibuat secara acak" dan jelas bertentangan dengan fakta merupakan masalah yang sangat meresahkan di industri.Fenomena pembenaran diri model besar ini disebut "ilusi AI". Tampaknya ini adalah masalah algoritmik, namun faktanya, selama eksplorasi, industri secara bertahap menemukan bahwa solusinya memerlukan "verifikasi" terus-menerus pada tingkat data (terutama mengacu pada informasi kontekstual), yang pada dasarnya memerlukan penyimpanan untuk dapat menyediakan serupa Sistem pengetahuan "Kamus Ensiklopedia" berfungsi sebagai "hipokampus" dari model besar untuk memberikan pengetahuan industri yang akurat.

Dapat dilihat bahwa pada tingkat inovasi, penyelesaian tantangan penyimpanan yang dihadapi oleh model besar mungkin lebih diprioritaskan dibandingkan daya komputasi dan algoritma.

Poin ini sebenarnya memungkinkan model besar untuk kembali ke esensinya, yaitu menggunakan model AI dengan parameter yang lebih besar untuk mengeksplorasi lebih jauh nilai elemen data dan mendorong transformasi dan peningkatan ribuan industri.

Saat ini, elemen data telah menjadi sumber daya inti ekonomi digital dan masyarakat informasi, dan dianggap sebagai faktor produksi penting lainnya setelah tanah, tenaga kerja, modal, dan teknologi.Inovasi yang tak terhitung jumlahnya, termasuk model besar, semuanya didasarkan pada elemen data. Perkembangan nilai yang mendalam.

Proses pengembangan model besar dapat dilihat sebagai proses di mana elemen data terus berpindah dari keluaran asli ke keluaran nilai.

Dalam proses ini, algoritme memandu arah dari depan, menuju industri umum atau spesifik. Peningkatan daya komputasi membawa kekuatan pendorong yang kuat, sementara penyimpanan memberikan dukungan dan kemampuan kolaboratif. Ketika daya komputasi terutama bergantung pada investasi biaya dan algoritma secara bertahap menyatu, nilai inovatif penyimpanan sebagai pembawa elemen data menjadi semakin menonjol.

Biarkan nilai elemen data membuahkan hasil, penyimpanan Huawei menyerang titik-titik lemah di berbagai dimensi

Produk OceanStor A800 dan solusi terkait penyimpanan berbasis pengetahuan berkinerja tinggi dari Huawei memiliki efisiensi pelatihan dan promosi terdepan secara komprehensif dalam skenario pelatihan dan promosi model industri. Secara umum, produk-produk tersebut memiliki empat karakteristik utama:

1. Performa keseluruhan yang sangat tinggi, sesuai dengan kebutuhan pelatihan model besar

Solusi utama penyimpanan Huawei adalah untuk memenuhi permintaan besar akan data pelatihan model besar dalam hal kinerja keseluruhan, terutama permintaan kinerja pembacaan file kecil.

OceanStor A800 didasarkan pada arsitektur pemisahan CNC yang inovatif. Ia dapat mencapai 24 juta IOPS dalam satu frame. Efisiensi pemuatan set pelatihannya empat kali lipat dari industri, dan kinerjanya dapat diperluas secara linier sesuai dengan kebutuhan pelanggan. Selain itu, sistem file terdistribusi OceanFS mencapai dispersi seimbang global, menghilangkan kemacetan CPU, menghadirkan pengalaman peningkatan kinerja terbaik untuk file kecil berukuran besar, dan memenuhi kebutuhan membaca file kecil dalam jumlah besar.

Selama ada permintaan kinerja, penyimpanan Huawei dapat "menanggungnya" meskipun "ditingkatkan".

2. Mengoptimalkan kemampuan khusus untuk memenuhi kebutuhan spesifik seperti pelatihan lanjutan breakpoint

Cara memberikan dukungan yang lebih baik dalam keadaan khusus seperti kelanjutan pelatihan breakpoint adalah tantangan yang harus diatasi secara bersamaan oleh Huawei Storage selama fase pelatihan model besar.

Melalui kolaborasi kontrol disk dan sistem file paralel NFS+, penyimpanan Huawei mencapai bandwidth sangat tinggi sebesar 500 GB/dtk dalam satu frame dan dapat mencapai pemulihan CheckPoint yang sangat cepat. Kecepatan melanjutkan pelatihan breakpoint tiga kali lipat dari kecepatan industri. TB -tingkat CheckPoint membaca dan menulis dapat dicapai dari Jam ke menit (yaitu, waktu pemulihan rata-rata model besar dengan triliunan parameter dipercepat dari jam ke menit), mengurangi waktu tunggu GPU yang mahal.

Selama diperlukan untuk mengoptimalkan model besar, pelanggan dapat lebih berani melakukan penyetelan parameter dan operasi lainnya.

Selain itu, bidang manajemen dan kendalinya memiliki partisi sumber daya + kemampuan penjadwalan terpadu, yang juga dapat membuat penyimpanan sesuai untuk model bisnis yang berbeda.

Apa pun model bisnis yang dikembangkan pelanggan, kapan pun pelanggan memilih untuk berhenti sejenak dalam prosesnya, Huawei Storage dapat mengatasinya dengan lebih baik.

3. Peningkatan kemampuan respons untuk memenuhi kebutuhan real-time aplikasi model besar

Setelah fase pelatihan selesai, Huawei Storage perlu memenuhi kebutuhan respons data yang ketat dalam fase aplikasi.

Saat ini, dalam tahap penerapan model besar, berkat basis pengetahuan vektor bawaan (menyimpan pengetahuan industri dalam bentuk vektor), QPS penyimpanan Huawei telah mencapai 250.000+, dan telah mampu mencapai respons tingkat milidetik. Di satu sisi, hal ini dapat mempercepat penalaran, membuat konsumsi sumber daya GPU selama proses aplikasi sangat berkurang, secara efektif menghemat biaya implementasi - saat ini banyak model besar yang mengonsumsi sumber daya dalam jumlah besar pada tahap aplikasi terbuka, dan beberapa perusahaan kewalahan; di sisi lain , "kamus ensiklopedia" membuat model besar menjadi lebih akurat. Pengetahuan industri memainkan peran pendukung yang penting dalam mengurangi terjadinya halusinasi AI dan dapat sangat meningkatkan keakuratan penalaran.

4. Inovasi arsitektur memastikan stabilitas dan keandalan sistem secara keseluruhan

Persyaratan terakhir dan paling mendasar untuk penyimpanan adalah apa pun karakteristiknya, penyimpanan harus memastikan struktur keseluruhan yang stabil dan andal tanpa menyebabkan masalah keamanan atau "jatuh dari rantai".

Proses Huawei Storage dalam menyelesaikan serangkaian persyaratan masalah data model besar juga telah meningkatkan kompleksitas solusi dan sistem penyimpanan hingga batas tertentu. Namun, pada saat yang sama, Huawei tidak mengorbankan keandalan sistem. Inovasinya saling terhubung sepenuhnya Arsitektur AA, dapat mencapai 5 lapisan perlindungan menyeluruh dan 6 sembilan keandalan ultra-tinggi.

Hasilnya, keandalan data dan stabilitas pelatihan model besar terjamin secara end-to-end.

Siapa yang membuat roda, dialah yang akan menempuh perjalanan panjang terlebih dahulu

Penyimpanan Huawei dapat memecahkan permasalahan pada data model berukuran besar. Akar permasalahannya terletak pada eksplorasi inovatif jangka panjang dalam penyimpanan.

Arsitektur pemisahan CNC OceanStor A800 memanfaatkan inovasi teknologi mutakhir industri dalam membaca dan menulis data langsung ke disk, memungkinkan bidang data dihubungkan langsung ke disk dan dipisahkan dari bidang kontrol untuk mencapai IO langsung, sehingga mengurangi operasi CPU selama membaca dan menulis data, sangat Meningkatkan kinerja penyimpanan.

Faktanya, Huawei telah lama melakukan upaya teknologi dalam penyimpanan dan telah mencapai banyak inovasi mutakhir serupa.

Saat ini, penyimpanan Huawei OceanStor memiliki 12 pusat Litbang di seluruh dunia, 4.000+ personel Litbang, dan 3.000+ paten. Produk-produknya terlibat dalam banyak bidang seperti solusi penyimpanan NAS berkinerja tinggi, solusi penyimpanan anti-ransomware, solusi penyimpanan kontainer, dan virtualisasi pusat data, yang mendapat pengakuan luas.

Di lebih dari 150 negara di seluruh dunia, penyimpanan Huawei telah melayani lebih dari 25.000 pelanggan termasuk operator, keuangan, pemerintahan, energi, medis, manufaktur, transportasi, dan industri lainnya.

Dapat dikatakan bahwa kemampuan penyimpanan yang disesuaikan dengan pengembangan nilai elemen data dan kebutuhan inovasi model-model besar adalah hasil kerja keras jangka panjang Huawei di jalur penyimpanan - penyimpanan Huawei telah melakukan pekerjaan yang baik dalam memenuhi data. kebutuhan banyak bidang (tidak hanya model skala besar). Model) memberikan persiapan daya dukung yang kuat dan sinergi.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Simple Earn Annual Rate 24.4%
40k Popularitas
2Gate Launchpad List IKA
42k Popularitas
3ETH Trading Volume Surges
44k Popularitas
4Gate ETH 10th Anniversary Celebration
23k Popularitas
5Trump’s AI Strategy
18k Popularitas

Sematkan

peta situs