Berapa volume pelatihan model besar? Mengungkap misteri kekuatan komputasi model besar

Question

Sumber artikel: Titanium MediaPenulis|Qin ConghuiRedaksi|Gai Hongda> Premis meraih daya komputasi adalah bahwa daya komputasi menjadi model bisnis baru. Ledakan model skala besar "alkimia" akan berlalu, dan penyedia layanan daya komputasi harus mengambil tindakan pencegahan dan menyerahkan waktu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f385fd50ff-dd1a6f-69ad2a) *Sumber gambar: Dihasilkan oleh Unbounded AI*Menggunakan 40 tahun data cuaca global, pra-pelatihan dengan 200 kartu GPU, dan dalam waktu sekitar 2 bulan, model meteorologi Pangea besar dengan ratusan juta parameter dilatih.Ini adalah kisah Bi Kaifeng, yang lulus dari Universitas Tsinghua selama 3 tahun, dan melatih seorang model besar.Namun, dari sudut pandang biaya, dalam keadaan normal, GPU adalah 7,8 yuan / jam, dan biaya pelatihan model meteorologi Bikaifeng Pangu dapat melebihi 2 juta. Ini masih model besar vertikal di bidang meteorologi, dan jika dilatih pada model besar umum, biayanya mungkin seratus kali lipat.Menurut statistik, ada lebih dari 100 model besar dengan 1 miliar parameter di Cina. Namun, model besar industri "Alkimia" menghadapi masalah bahwa GPU kelas atas sulit ditemukan. Biaya daya komputasi tinggi, dan kurangnya daya komputasi dan dana telah menjadi masalah paling intuitif di depan industri.  ## **GPU kelas atas, berapa kekurangannya? **  "Tidak, tentu saja kurang, tapi apa yang bisa kita lakukan." Seorang eksekutif senior sebuah pabrik besar berseru ketika ditanya apakah dia kekurangan daya komputasi.Ini tampaknya telah menjadi masalah yang belum terpecahkan yang diakui oleh industri, harga NVIDIA A100 pada puncaknya telah berspekulasi menjadi 200.000 yuan, dan harga sewa bulanan satu server A100 juga melonjak menjadi 50.000-70.000 / bulan. Namun meski begitu, harga tinggi mungkin masih belum bisa mendapatkan chip tersebut, dan beberapa pemasok daya komputasi juga mengalami pengalaman aneh yang sulit ditemui sebelumnya, seperti melewatkan tiket pemasok.Zhou Lijun, seorang eksekutif industri komputasi awan, mengatakan hal yang sama: "Ada kekurangan daya komputasi. Kami memiliki banyak pelanggan yang menginginkan sumber daya GPU kelas atas, tetapi mereka tidak dapat sepenuhnya memenuhi kebutuhan pasar yang luas untuk saat ini. "![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f46d3c3ff5-dd1a6f-69ad2a) * Cluster komputasi berkinerja tinggi penyedia layanan cloud dengan A100 terjual habis antarmuka *Ternyata kekurangan GPU kelas atas tidak terpecahkan di industri dalam jangka pendek. Dengan pecahnya model-model besar, permintaan pasar akan daya komputasi telah berkembang pesat, tetapi tingkat pertumbuhan pasokan masih jauh dari berkelanjutan. Meskipun pasokan daya komputasi pasti akan memasuki pasar pembeli dari pasar penjual dalam jangka panjang, tidak diketahui berapa lama waktu yang dibutuhkan.Setiap perusahaan menghitung berapa banyak "barang" (GPU NVIDIA) yang mereka miliki, dan bahkan menggunakan ini untuk menilai pangsa pasar. Misalnya, jika Anda memiliki hampir 10.000 kartu di tangan Anda, dan pasar berjumlah 100.000 kartu, bagiannya adalah 10%. "Pada akhir tahun, akan ada sekitar 40.000, dan jika pasarnya 200.000, mungkin akan menjadi 20 persen dari pasar." Orang-orang yang akrab dengan masalah ini memberi contoh.Di satu sisi, Anda tidak dapat membeli kartu, di sisi lain, ambang batas untuk pelatihan model besar tidak semudah "memulai" seperti yang dipanggang industri. Seperti disebutkan di atas, biaya pelatihan model meteorologi Bikaifeng Pangea dapat melebihi 2 juta. Namun, perlu dicatat bahwa model meteorologi Bikaifeng Pangu adalah model besar vertikal yang dilatih berdasarkan model besar umum Pangu, dan parameternya ratusan juta. Jika Anda ingin melatih model besar serba guna dengan parameter skala miliar atau lebih besar, biayanya mungkin sepuluh kali atau seratus kali lebih tinggi."Saat ini, skala investasi terbesar adalah dalam pelatihan, dan tanpa miliaran investasi modal, sulit untuk terus membuat model besar." Qiu Yuepeng, Wakil Presiden Tencent Group, COO Cloud and Smart Industry Business Group, dan Presiden Tencent Cloud, mengungkapkan."Lari cepat, setidaknya sampai uangnya habis untuk mendapatkan putaran 'pembiayaan' berikutnya." Seorang pengusaha menggambarkan model besar "situasi perang" saat ini: "Jalan ini adalah jalan buntuJika Anda tidak memiliki puluhan miliar dolar di belakang Anda, sulit untuk pergi. "Dalam situasi ini, pandangan umum dalam industri adalah bahwa dengan persaingan di pasar model besar, pasar juga akan berubah dari fanatik menjadi rasional, dan perusahaan juga akan mengendalikan biaya dan menyesuaikan strategi dengan perubahan yang diharapkan.  ## **Respons Positif yang Tidak Terpecahkan**  Jika tidak ada kondisi, perlu untuk menciptakan kondisi - ini tampaknya menjadi mentalitas mayoritas di antara para peserta dalam model besar. Dan bagaimana menciptakan kondisi untuk menangani masalah nyata, setiap perusahaan juga memiliki banyak metode.Karena kekurangan chip GPU kelas atas, dan GPU yang tersedia di pasar Cina bukanlah generasi terbaru, kinerjanya biasanya lebih rendah, sehingga perusahaan membutuhkan waktu lebih lama untuk melatih model besar. Perusahaan-perusahaan ini juga mencari cara-cara inovatif untuk menebus kurangnya daya komputasi.Salah satu cara untuk melakukannya adalah dengan menggunakan data berkualitas lebih tinggi untuk pelatihan, yang membuat pelatihan lebih efisien.Baru-baru ini, Akademi Teknologi Informasi dan Komunikasi (CAICT) memimpin dalam merilis "Laporan Penelitian tentang Sistem Standar Model Besar Industri dan Arsitektur Kapasitas", yang menyebutkan evaluasi lapisan data model besar. Laporan tersebut menunjukkan bahwa dalam hal kualitas data, karena akan berdampak besar pada efek model, disarankan untuk memperkenalkan pelabelan dan konfirmasi manual, dan memilih setidaknya proporsi tertentu dari data asli untuk pelabelan, sehingga dapat membangun dan serius dataset berkualitas tinggi.Selain mengurangi biaya model besar melalui data berkualitas tinggi, untuk industri, meningkatkan kemampuan infrastruktur dan mencapai operasi yang stabil lebih dari 100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000"Sebagai penyedia layanan cloud, kami membantu pelanggan membangun infrastruktur yang stabil dan andal. Karena stabilitas kartu server GPU akan buruk, kegagalan apa pun akan mengganggu pelatihan, yang mengakibatkan peningkatan waktu pelatihan secara keseluruhan. Cluster komputasi berkinerja tinggi dapat menyediakan pelanggan dengan layanan yang lebih stabil, mengurangi waktu pelatihan, dan memecahkan beberapa masalah daya komputasi. Kata Zhou Lijun.Pada saat yang sama, penjadwalan sumber daya kartu daya komputasi juga menguji kemampuan teknis penyedia layanan. Xu Wei, kepala Solusi Internet China Timur dari Volcano Engine, mengatakan kepada Titanium Media bahwa memiliki sumber daya kartu daya komputasi hanyalah satu aspek, dan bagaimana menjadwalkan sumber daya kartu dan benar-benar menggunakannya adalah kemampuan inti dan kemampuan teknik yang lebih teruji. "Membagi kartu menjadi banyak kartu kecil dan mencoba mencapai penjadwalan yang terdistribusi dan disempurnakan dapat semakin mengurangi biaya daya komputasi." Kata Xu Wei.Jaringan juga mempengaruhi kecepatan dan efisiensi pelatihan model besar. Pelatihan model besar seringkali ribuan kartu, menghubungkan ratusan server GPU membutuhkan kecepatan jaringan sangat tinggi, jika jaringan sedikit padat, kecepatan pelatihan akan sangat lambat, efisiensi sangat terpengaruh. "Selama satu server terlalu panas dan turun, seluruh cluster mungkin harus berhenti dan tugas pelatihan harus dimulai ulang. Ini memerlukan persyaratan yang sangat tinggi untuk kemampuan O&M layanan cloud dan kemampuan pemecahan masalah. Kata Qiu Yuepeng.Beberapa vendor telah menemukan cara lain, dan transisi dari arsitektur komputasi awan ke arsitektur superkomputer juga menjadi cara untuk mengurangi biaya, yaitu, dalam hal memenuhi kebutuhan pengguna, tugas komputasi non-throughput tinggi dan skenario tugas paralel, awan superkomputer adalah sekitar setengah harga superkomputer awan, dan kemudian melalui optimalisasi kinerja pemanfaatan sumber daya dapat ditingkatkan dari 30% menjadi 60%.Selain itu, beberapa pabrikan memilih untuk menggunakan platform dalam negeri untuk melatih dan alasan model besar untuk menggantikan NVIDIA, yang sulit ditemukan dengan kartu. "Kami bersama-sama merilis mesin all-in-one iFLYTEK Spark dengan Huawei, yang sangat luar biasa untuk dapat melakukan pelatihan dan penalaran di platform domestik. Saya sangat senang memberi tahu Anda bahwa kemampuan GPU Huawei sekarang sama dengan NVIDIA, dan Ren Zhengfei sangat mementingkannya, dan tiga direktur Huawei telah bekerja di kelas khusus iFLYTEK dan sekarang membuatnya sebanding dengan NVIDIA A100. Liu Qingfeng, pendiri dan ketua iFLYTEK, pernah berkata.Masing-masing metode di atas adalah proyek yang relatif besar, sehingga sulit bagi perusahaan umum untuk bertemu melalui pusat data yang dibangun sendiri, dan banyak tim algoritma memilih produsen daya komputasi paling profesional untuk didukung. Diantaranya, penyimpanan paralel juga merupakan biaya besar, serta kemampuan teknis, jaminan tingkat kegagalan yang sesuai, dll. Juga merupakan bagian dari biaya perangkat keras. Tentu saja, bahkan mempertimbangkan biaya ketersediaan listrik area ketersediaan IDC, biaya operasi seperti perangkat lunak, platform, dan biaya personel.Hanya kluster GPU di tingkat kilocard yang akan memiliki efek skala, dan memilih penyedia layanan daya komputasi sama dengan mengatakan bahwa biaya marjinal adalah nol.Sun Ninghui, akademisi Akademi Teknik Tiongkok dan peneliti Institut Teknologi Komputasi Akademi Ilmu Pengetahuan Tiongkok, juga mengusulkan dalam pidatonya bahwa AIGC telah menyebabkan pecahnya industri kecerdasan buatan, dan aplikasi teknologi cerdas skala besar memiliki masalah ekor panjang yang khas, yaitu, departemen yang kuat dengan kemampuan AI yang kuat (keamanan jaringan, sembilan institut akademi kesembilan dan biro meteorologi, dll.), Lembaga penelitian ilmiah dan perusahaan besar dan menengah hanya menyumbang sekitar 20% dari badan utama permintaan daya komputasi, dan 80% lainnya adalah perusahaan kecil dan menengah. Atau dibatasi oleh mahalnya daya komputasi, sulit untuk mendapatkan dividen pengembangan di gelombang era AI.Oleh karena itu, untuk mewujudkan penerapan teknologi cerdas skala besar, industri kecerdasan buatan "bertepuk tangan" dan "bertepuk tangan", dan diperlukan sejumlah besar daya komputasi cerdas yang murah dan mudah digunakan, sehingga usaha kecil, menengah dan mikro juga dapat menggunakan daya komputasi dengan nyaman dan murah.Apakah itu permintaan mendesak untuk daya komputasi model besar atau berbagai masalah yang perlu dipecahkan dalam proses aplikasi daya komputasi, perubahan baru yang perlu diperhatikan adalah bahwa daya komputasi telah menjadi model layanan baru dalam proses permintaan pasar dan iterasi teknologi.  ## **Jelajahi model baru layanan daya komputasi**  Apa kekuatan komputasi dari model besar yang kita raih? Untuk menjawab pertanyaan ini, kita harus mulai dengan layanan daya komputasi.Dari segi jenis, daya komputasi dibagi menjadi daya komputasi umum, daya komputasi cerdas dan daya superkomputer, dan daya komputasi ini telah menjadi layanan, yang merupakan hasil dari dual drive pasar dan teknologi.Definisi layanan daya komputasi dalam "Buku Putih Layanan Daya Komputasi 2023" (selanjutnya disebut sebagai "Buku Putih") adalah bidang baru industri daya komputasi berdasarkan daya komputasi yang beragam, dihubungkan oleh jaringan daya komputasi, dan ditujukan untuk menyediakan daya komputasi yang efektif.Inti dari layanan daya komputasi adalah untuk mencapai output terpadu dari daya komputasi heterogen melalui teknologi komputasi baru, dan terintegrasi silang dengan cloud, data besar, AI, dan teknologi lainnya. Tidak hanya daya komputasi dalam layanan daya komputasi, itu adalah enkapsulasi terpadu daya komputasi, penyimpanan, jaringan dan sumber daya lainnya, dan pengiriman daya komputasi diselesaikan dalam bentuk layanan (seperti API).Memahami hal ini, Anda akan menemukan bahwa dalam meraih chip NVIDIA, sebagian besar dari mereka adalah penyedia layanan daya komputasi, yaitu produsen daya komputasi. Pengguna industri yang benar-benar menyebut API daya komputasi di front-end hanya perlu mengedepankan persyaratan daya komputasi yang sesuai.Menurut Titanium Media App, dari perspektif sisi perangkat lunak, semua model besar yang digunakan oleh interaksi perangkat lunak dibagi menjadi tiga jenis, panggilan API model besar pertama, setiap keluarga memiliki kutipan, sesuai dengan penyelesaian harga; Yang kedua adalah memiliki model kecil, membeli daya komputasi sendiri, atau bahkan menerapkannya sendiri; Ketiga, vendor model besar bekerja sama dengan vendor cloud, yaitu dedicated cloud, dan membayar bulanan. "Secara umum, ini adalah ketiganya, Kingsoft Office saat ini terutama menggunakan panggilan API, dan model kecil internal telah membuat platform penjadwalan daya komputasi sendiri." Yao Dong, wakil presiden Kingsoft Office, berkata kepada Titanium Media App.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf2277488b-dd1a6f-69ad2a) Diagram struktur rantai industri hashrate, sumber: Akademi Teknologi Informasi dan Komunikasi ChinaDengan kata lain, dalam rantai industri struktur daya komputasi, perusahaan hulu terutama menyelesaikan pasokan sumber daya pendukung untuk layanan daya komputasi seperti daya komputasi umum, daya komputasi cerdas, daya superkomputer, penyimpanan, dan jaringan. Misalnya, dalam pertempuran untuk daya komputasi model besar, NVIDIA termasuk dalam catu daya dasar daya komputasi hulu ke industri untuk memasok chip, dan kenaikan stok produsen server seperti Inspur Information juga dipengaruhi oleh permintaan pasar.Perusahaan midstream terutama penyedia layanan cloud dan penyedia layanan daya komputasi baru, dan peran mereka terutama untuk mewujudkan produksi daya komputasi melalui orkestrasi daya komputasi, penjadwalan daya komputasi, dan teknologi perdagangan daya komputasi, dan menyelesaikan pasokan daya komputasi melalui API. Penyedia layanan daya komputasi yang disebutkan di atas, Tencent Cloud, dan Volcano Engine semuanya ada di tautan ini. Semakin kuat kemampuan daya komputasi yang berorientasi layanan untuk melayani perusahaan midstream, semakin rendah ambang batas untuk sisi aplikasi, dan semakin kondusif untuk pengembangan daya komputasi yang inklusif dan ada di mana-mana.Perusahaan hilir mengandalkan daya komputasi yang disediakan oleh layanan daya komputasi untuk menghasilkan dan memproduksi layanan bernilai tambah, seperti pengguna industri. Bagian pengguna ini hanya perlu mengedepankan permintaan, dan produsen daya komputasi mengonfigurasi daya komputasi yang sesuai sesuai dengan permintaan untuk menyelesaikan "tugas daya komputasi" yang dikeluarkan oleh pengguna.Ini memiliki lebih banyak biaya dan keuntungan teknis daripada pembelian server asli untuk membangun lingkungan daya komputasi model besar. Pelatihan Model Besar Meteorologi Pangu oleh Bi Kaifeng harus secara langsung memanggil lapisan dasar Model Pangu, yaitu layanan komputasi berkinerja tinggi HUAWEI CLOUD, jadi apakah proses perusahaan model besar lainnya menggunakan daya komputasi atau membayar daya komputasi akan berbeda?  ## **Iterasi Model Bisnis Daya Komputasi**  ChatGLM adalah batch pertama dari model besar umum yang diluncurkan, menggunakan kekuatan komputasi ChatGLM dari Zhipu AI sebagai contoh, menurut informasi yang telah diungkapkan kepada publik, ChatGLM AI menggunakan sejumlah penyedia layanan daya komputasi AI arus utama di China. "Secara teori, semuanya harus berguna." Orang-orang yang akrab dengan masalah ini mengatakan bahwa ini mungkin juga termasuk penyedia layanan daya komputasi arus utama domestik / penyedia layanan cloud.Penagihan bayar sesuai pemakaian dan penagihan bulanan adalah mode utama dari layanan daya komputasi saat ini, dan ada sekitar dua jenis persyaratan penggunaan, satu adalah memilih instans layanan daya komputasi yang sesuai, dan pada antarmuka situs web resmi penyedia layanan cloud, dapat menyediakan server GPU berkinerja tinggi yang dilengkapi dengan NVIDIA A800, A100, V100 tiga kartu grafis utama.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6fb6682b2-dd1a6f-69ad2a) *Jenis kartu grafis GPU komputasi berkinerja tinggi yang disediakan oleh penyedia layanan komputasi*Yang lainnya adalah memilih platform layanan MaaS yang sesuai dan menyempurnakan model besar di platform MaaS. Mengambil harga publikasi pay-as-you-go platform Tencent Cloud TI-ONE sebagai contoh, konfigurasi 8C40G V100\*1 adalah 20,32 yuan per jam, yang dapat digunakan untuk visi pembelajaran otomatis, pemodelan berbasis tugas, notebook, dan pemodelan visual.Saat ini, industri ini juga mempromosikan "integrasi komputasi dan jaringan" dari layanan daya komputasi, dan melalui penilaian komprehensif tugas komputasi, status sumber daya jaringan komputasi, dan informasi lainnya, skema orkestrasi jaringan komputasi yang dapat mendukung penjadwalan lintas arsitektur, lintas wilayah, dan penyedia lintas layanan terbentuk, dan penyebaran sumber daya terkait selesai. Misalnya, selama Anda menyimpan sejumlah uang dan menyimpannya di jaringan daya komputasi, partisi di jaringan daya komputasi dapat dipanggil sesuka hatiSesuai dengan karakteristik aplikasi, pilih partisi yang paling sesuai, partisi tercepat, dan partisi yang paling hemat biaya, lalu kenakan biaya sesuai durasi, dan kurangi biaya dari dana yang disetorkan sebelumnya.Hal yang sama berlaku untuk penyedia layanan cloud, sebagai produk unik dari layanan cloud, memungkinkan mereka untuk dengan cepat berpartisipasi dalam rantai industri daya komputasi.Menurut data dari Kementerian Perindustrian dan Teknologi Informasi, skala total daya komputasi China akan mencapai 180EFLOPS pada tahun 2022, peringkat kedua di dunia. Pada tahun 2022, skala industri daya komputasi China telah mencapai 1,8 triliun. Kekuatan komputasi model besar telah sangat mempercepat perkembangan industri daya komputasi.Satu pepatah mengatakan bahwa layanan daya komputasi saat ini sebenarnya adalah jenis baru dari model "menjual listrik". Namun, menurut pembagian kerja yang berbeda, beberapa penyedia layanan komputasi mungkin perlu membantu pengguna melakukan lebih banyak debugging kinerja sistem, instalasi perangkat lunak, tugas operasi pekerjaan skala besar dan analisis karakteristik operasi, yaitu, bagian dari operasi last-mile dan pekerjaan pemeliharaan.Dengan normalisasi permintaan komputasi berkinerja tinggi model besar, layanan daya komputasi, yang lahir dari layanan cloud, dengan cepat memasuki bidang visi publik, membentuk rantai industri dan model bisnis yang unik. Hanya saja pada awal pecahnya industri tenaga komputasi karena model besar, kekurangan GPU kelas atas, tingginya biaya daya komputasi, dan perebutan "core" telah membentuk lanskap unik milik era ini."Pada tahap ini, volumenya adalah siapa yang bisa mendapatkan kartu dalam rantai pasokan, NVIDIA adalah raja dari seluruh industri saat ini, dan semua pasar dikendalikan olehnya, yang merupakan status quo." Orang-orang yang akrab dengan masalah ini berkomentar. Seolah-olah siapa pun yang mendapatkan kartu dapat memberikan bisnis ketika permintaan melebihi pasokan.Tetapi tidak semua orang mengambil "kartu", karena kekurangannya bersifat sementara, dan masalahnya akan selalu terpecahkan. "Orang yang melakukan penelitian jangka panjang tidak benar-benar mengambilnya, tunggu saja karena dia tidak akan matiSaat ini, hanya ada sekelompok startup yang meraih kartu, dan mereka ingin memastikan bahwa mereka dapat bertahan hingga tahun depan. Kata orang itu.Dalam banyak ketidakpastian, ini adalah tren yang pasti untuk daya komputasi untuk menjadi layanan, dan apa yang harus dilakukan penyedia layanan daya komputasi adalah siap untuk mengambil tindakan pencegahan ketika model besar kembali ke rasionalitas dan angin pasar berubah dengan cepat.Catatan: Atas permintaan orang yang diwawancarai, Zhou Lijun adalah nama samaran.**(Artikel ini pertama kali diterbitkan Titanium Media APP) **