Gerakan "pelangsingan biaya" model besar

Sumber asli: Tubuh kutub otak

Sumber gambar: Dihasilkan oleh Unbounded AI

Dengan data besar, parameter besar, dan daya komputasi besar, kemampuan tertentu dari model besar akan "muncul", yang tersebar luas di lingkaran teknologi.

Ide utama membuat model besar adalah: jangan mudah mengatakan bahwa model "tidak berfungsi", jika "belum berhasil", maka buatlah lebih besar.

Oleh karena itu, dalam waktu kurang dari setahun, skala parameter model besar telah meningkat 100 kali lipat, dan sekarang telah melampaui level triliun, konsumsi sumber daya sangat besar, dan juga membawa biaya penyimpanan, biaya inferensi, biaya operasi dan pemeliharaan, dan biaya pendaratan yang semakin tinggi. dan biaya sosial.

Saat ini, model besar masih di awal komersialisasi, dan masih banyak yang tidak diketahui dan ketidakpastian tentang bagaimana memulihkan investasi dalam model besar, dan model besar telah semakin besar dan telah menjadi bisnis yang sangat menghabiskan uang, didukung oleh Microsoft Open AI, yang akan kehilangan sekitar $540 juta pada tahun 2022.

Biaya yang terus berkembang adalah tagihan uang sungguhan, dan "jerami" yang membebani perusahaan model besar. CEO Anthropic, Dario Amodei, baru-baru ini memperkirakan bahwa model mereka akan menelan biaya $ 10 miliar selama dua tahun ke depan.

Selain perusahaan itu sendiri, masyarakat juga menanggung biaya tersembunyi dari model-model besar. Google telah melaporkan bahwa pelatihan PaLM mengkonsumsi sekitar 3,4 kWh listrik dalam waktu sekitar dua bulan, yang setara dengan total konsumsi energi tahunan 300 rumah tangga. Beban dan biaya konsumsi energi yang tinggi pada lingkungan yang dibawa oleh model besar pada akhirnya dibayar oleh seluruh masyarakat.

Jelas, baik secara komersial maupun lingkungan, ukuran model kompetisi tidak berkelanjutan.

Era mencari kebesaran secara membabi buta telah berlalu.

Pertanyaannya adalah, bagaimana cara "mengurangi beban" model besar?

Bahkan, produsen kepala model besar umum telah secara aktif melakukan kampanye "pelangsingan biaya".

Misalnya, Microsoft mengumumkan di Microsoft Build 2020 bahwa superkomputer superkomputer AI yang mendukung GPT-3 dapat membuat model AI 16 kali lebih efisien daripada platform lain, dan pelatihan yang lebih cepat dapat mengurangi waktu dan biaya risiko.

Model besar domestik tidak terkecuali.

Pada awal versi 2.0, model besar Pangu mencoba mengadopsi arsitektur yang jarang + padat untuk mengurangi biaya pelatihan. Satu bulan setelah diluncurkan, Wenxin Yiyan juga meningkatkan kinerja inferensi model besar hampir 10 kali lipat melalui sarana teknis, dan biaya inferensi dikurangi menjadi sepersepuluh dari biaya aslinya.

Untuk menghindari kembung dan berat, sangat penting untuk menjadi alat yang dapat digunakan semua orang, dan "gerakan pelangsingan biaya" model besar. Bagaimana? Artikel ini akan membahas masalah ini.

** Satu gigitan tidak bisa membuat pria gemuk **

Biaya model besar mana yang dapat dioptimalkan, biaya mana yang tidak dapat dikurangi, dan biaya mana yang perlu diinvestasikan lebih lanjut? Sebelum Anda mengetahui hal ini, Anda harus terlebih dahulu tahu cara menjadi gemuk. Untuk memastikan kinerja dan pengalaman pengguna (kesehatan) dari model besar, "pengurangan biaya" dapat dilakukan secara wajar dan akurat.

Sederhananya, tiga elemen AI - data, daya komputasi, dan algoritma - masih merupakan faktor paling penting dalam menentukan biaya model besar.

Mari kita mulai dengan data. **Garbage in, garbage out, masih berlaku di era model besar.

Kualitas data secara langsung menentukan kemampuan model besar. OpenAI telah merekrut sejumlah PhD untuk memproses data profesional di berbagai industri, dan telah mempekerjakan sejumlah perusahaan anotasi data seperti perusahaan unicorn Scale AI untuk memberi makan GPT-3 dengan dataset skala besar. Pada saat yang sama, model algoritma akan terus ditingkatkan secara berulang, dan permintaan volume data akan berlanjut untuk waktu yang singkat dengan peningkatan penggunaan dan optimalisasi kinerja.

Salah satu alasan utama tingginya biaya model besar Cina adalah bahwa masih ada kesenjangan antara jumlah dan kualitas data Cina dan bahasa Inggris, dan lebih banyak data bahasa Cina perlu dikumpulkan dan diproses untuk melatih model besar Cina. Di sisi lain, struktur tata bahasa Inggris lebih sederhana daripada bahasa Cina, kompleksitas dan keragaman teks bahasa Cina, beberapa kata bahasa Cina dapat mengekspresikan berbagai makna, konteks yang kaya, dan banyak ambiguitas dan kesulitan dalam pemahaman konteks, yang juga meningkatkan kesulitan pelatihan model Cina, dan membutuhkan sumber daya tambahan untuk mendukung pelatihan model besar Cina.

Mari kita bicara tentang daya komputasi. **

Sumber daya perlu dihitung dan disimpan selama pelatihan, operasi, layanan, dan iterasi model besar.

Pelatihan model besar berfokus pada "estetika kekerasan", dan semakin besar parameternya, semakin banyak sumber daya komputasi yang digunakan untuk pelatihan. GPT-3 menggunakan superkomputer yang berisi 10.000 GPU dan 285.000 core prosesor. Wenxin 4.0 domestik juga dilatih di cluster Vanka berdasarkan platform dayung.

Dan itu belum semuanya. Model besar terpapar ke layanan setelah penyebaran, dan seiring meningkatnya penggunaan, semakin banyak tugas inferensi yang harus diselesaikan. Proses penalaran "berpikir" dan "keluaran" dalam 24 jam juga akan terus mengkonsumsi sumber daya komputasi, seperti halnya otak manusia perlu mengkonsumsi glikogen ketika berhadapan dengan sejumlah besar tugas kompleks, dan mudah merasa lapar dan harus makan makanan besar untuk mengisi kembali energi. Oleh karena itu, biaya inferensi model besar juga sangat tinggi.

Kesimpulan GPT-3 setelah penyebaran 175B membutuhkan setidaknya lima GPU A100, dan model besar yang terbuka untuk seluruh masyarakat di China, seperti Wenxin Yiyan, dikatakan memiliki biaya inferensi 8-10 kali lipat dari generasi sebelumnya.

Akhirnya, mari kita bicara tentang algoritma. **

Untuk mengurangi ketergantungan besar model besar pada sumber daya komputasi, solusi utama adalah mengoptimalkan model, berdasarkan kinerja yang tidak berubah, dengan kecepatan inferensi yang lebih cepat, latensi yang lebih kecil, dan persyaratan sumber daya yang lebih rendah, yang setara dengan rasio input-output ROI yang lebih tinggi, dan biaya unit sumber daya komputasi yang diperlukan untuk pelatihan dan inferensi lebih rendah.

Ada banyak tenaga kerja karena ada kecerdasan, dan tidak mungkin membuat model besar yang benar-benar dapat dimainkan tanpa bakat. Pengembangan algoritma, pengujian, iterasi, produksi, dll., Semuanya membutuhkan banyak bakat teknis. Apakah biaya tenaga kerja tinggi atau tidak tergantung pada apakah model bisnis model besar itu kuat.

Tim talenta dengan kualifikasi akademik penuh cukup kompetitif dalam tahap penelitian dan pengembangan. Pertanyaannya adalah, bagaimana Anda menghasilkan uang? Panggilan API atau biaya penggunaan, token kurang dari satu sen, dan laba atas investasi mungkin jauh; Langganan berbayar (versi profesional), model besar kepala memiliki efek menyedot, semua orang akan memilih OpenAI atau BATH dan produsen besar lainnya, apakah model besar mereka sendiri dapat diterima oleh pengguna dan bersedia membayar, tidak diketahui; Untuk menyesuaikan pengembangan untuk pelanggan industri, ToB harus memiliki pemahaman mendalam tentang industri, penelitian, pengembangan, pengujian, dan iterasi, sehingga insinyur algoritma dengan gaji tahunan puluhan juta dapat tinggal di lokasi konstruksi selama beberapa bulan, dan margin laba kotor proyek diperkirakan tidak terlalu baik.

Oleh karena itu, apakah model besar dapat berhasil tidak hanya bergantung pada kemampuan algoritma itu sendiri, tetapi juga pada apakah siklus bisnis dari pengembangan hingga implementasi berkelanjutan.

** Tutup mulut Anda dan buka kaki Anda **

Jika kita membandingkan biaya model besar dengan seseorang yang ingin kehilangan kelebihan lemak, maka tujuan ini dapat dipecah menjadi dua cara dasar:

Salah satunya adalah menciptakan "perbedaan panas". Ini untuk menutup mulut dan membuka kaki, mengontrol investasi, mengurangi biaya berlebih, mempercepat komersialisasi dan meningkatkan pendapatan, dan secara alami menurunkan berat badan.

Yang kedua adalah menjadi "mudah menurunkan berat badan". Pahami sepenuhnya mekanisme model besar, gunakan arsitektur baru untuk memecahkan masalah mekanisme perhatian Transformer, dan miliki fisik "tidak peduli bagaimana Anda makan, Anda tidak bisa menjadi gemuk".

Bukankah itu terdengar seperti yang kedua sangat menggoda?

Tidak perlu mengontrol biaya, menarik pengguna, menyesuaikan layanan, dan dengan mudah berbaring untuk menghasilkan uang, dan hal baik semacam ini? Memang.

Saat ini, semua model bahasa besar menggunakan arsitektur Transformer, yang sulit untuk memproses teks panjang dan gambar resolusi tinggi, dan penalaran logis dan induksi pengetahuan bergantung pada "menghasilkan keajaiban dengan penuh semangat", yang mahal. Banyak prinsip dasar yang masih belum jelas, yang mengarah pada banyak masalah yang ada, seperti generasi "halusinasi" dan kemampuan penalaran yang terbatas.

Pemenang Turing Award Yann LeCun telah mengkritik paradigma teknis model bahasa besar lebih dari sekali, mengatakan bahwa "LLM memiliki pemahaman yang sangat dangkal tentang dunia", dan dia ingin membangun" model dunia "untuk mempelajari bagaimana dunia bekerja, kemudian membentuk model internal, dan kemudian menggunakan model internal ini untuk menyelesaikan berbagai tugas. Selain itu, ada banyak ilmuwan yang membahas kecerdasan umum AGI dari bidang penelitiannya masing-masing.

Singkatnya, banyak prinsip model bahasa besar saat ini tidak jelas, dan teknologinya masih berubah. Di masa depan, paradigma teknologi lain mungkin muncul untuk menumbangkan model saat ini yang secara membabi buta berusaha menjadi lebih besar, dan kemudian mungkin tidak perlu biaya berlebihan dan "pelangsingan" yang menyakitkan.

Anda mungkin telah mengetahui bahwa meneliti prinsip-prinsip dasar dan menemukan teknologi AGI yang lebih kuat terdengar keren, tetapi itu benar-benar bukan garis skor, dan belum ada garis waktu yang jelas. Paradigma teknis dari putaran model bahasa besar ini layak dalam praktik teknik, dapat bekerja di industri, dan memiliki efek yang jelas untuk meningkatkan kualitas dan efisiensi. Menggunakannya terlebih dahulu dan memahami masa kini adalah prioritas utama bagi perusahaan teknologi.

Oleh karena itu, perusahaan model skala besar hanya dapat tutup mulut, membuka kaki, mengendalikan biaya sesegera mungkin, mempercepat komersialisasi, dan menciptakan "perbedaan kalori" untuk pembangunan yang jinak dan berkelanjutan.

Empat Gerakan Modernisasi untuk Menciptakan "Perbedaan Kalori"

Jadi, bagaimana tepatnya Anda menciptakan "perbedaan panas"? **Berdasarkan metode utama yang saat ini ada di pasaran, kami meringkasnya sebagai "Gerakan Empat Modernisasi": skala data, kompresi model, efisiensi komputasi, dan stratifikasi bisnis. **

Skala data adalah untuk meningkatkan manfaat marjinal data dan mendapatkan kinerja biaya terbaik melalui efek skala. Efek skala terutama dicapai melalui tiga cara, satu adalah skala konsentrasi industri, dan tingkat nasional telah dengan jelas mengusulkan untuk "mempercepat budidaya pasar elemen data", yang melibatkan produksi data, pengumpulan, penyimpanan, pemrosesan, analisis, layanan dan tautan lainnya, industrialisasi akan membantu mengurangi biaya data perusahaan model besar. Yang kedua adalah penerapan alat AI, yang mengurangi partisipasi manual dalam semua aspek rekayasa data, mempercepat pemrosesan data yang telah dilatih sebelumnya, dan mengurangi biaya serta meningkatkan efisiensi untuk pelatihan model. Yang ketiga adalah skala data umpan balik. Beberapa model besar yang telah membuka layanan mereka ke seluruh masyarakat lebih awal, seperti Baidu Wenxin Yiyan, "SenseChat" SenseTime, "Model Baichuan" Baichuan Intelligence, "Model Spark" iFLYTEK, dll., Diharapkan mencapai skala data optimal dengan manfaat marjinal lebih cepat.

Ada manfaat marjinal untuk data. OpenAl sudah memungkinkan pengguna untuk memutuskan apakah akan mengizinkan mereka menggunakan data obrolan untuk pelatihan, yang berarti bahwa mereka tidak dapat lagi mengandalkan data umpan balik pengguna, sehingga biaya penyimpanan dan perhitungan data dapat dikontrol.

Kompresi model adalah untuk meningkatkan kinerja model, mencapai kinerja yang lebih tinggi dengan sumber daya yang lebih sedikit, dan mengubah model besar yang intensif sumber daya menjadi versi yang lebih ringkas dan efisien melalui teknologi kompresi. Mirip dengan mengubah lemak menjadi otot, otot lebih padat dan berat (kinerja) tetap sama, sementara orang tersebut menjadi lebih kurus (lebih kecil).

Saat ini, ada tiga metode umum kompresi model besar: kuantifikasi, pemangkasan, dan distilasi pengetahuan. **

Kuantifikasi, setara dengan sedot lemak, sederhana dan kasar tetapi efektif. Semakin tinggi akurasi model, semakin banyak ruang penyimpanan yang dibutuhkan. Namun, dalam inferensi, tidak perlu menangkap perubahan gradien yang sangat kecil dalam model yang kompleks, sehingga kuantisasi dapat secara langsung mengurangi akurasi parameter model dan "mengekstrak" beberapa informasi terperinci, sehingga mengurangi ruang yang ditempati dan tidak mengurangi kemampuan inferensi. Misalnya, Qualcomm AI Research menggunakan teknologi kuantisasi untuk menjaga akurasi model pada tingkat akurasi yang lebih rendah, dan telah menerapkan Difusi Stabil pada smartphone Android untuk pertama kalinya. Teknologi kuantitatif juga telah diterapkan dalam model besar domestik seperti Wenxin dan Pangu.

Pemangkasan, mirip dengan "eksisi", secara langsung mengurangi beberapa cabang samping yang memiliki sedikit efek pada efek, seperti sejumlah besar struktur dan neuron yang berlebihan, dan bobot yang lebih kecil ini dihilangkan, yang memiliki sedikit dampak pada efek model dan mengurangi ukuran model. Tentu saja, pemangkasan adalah "pekerjaan kerajinan", dan semakin tepat pemangkasan, semakin kecil kehilangan akurasi pada model, dan semakin baik efek kompresi.

Distilasi pengetahuan adalah membiarkan model besar "sauna", dan model 100 miliar disuling dalam satu lintasan untuk menghasilkan beberapa model kecil dengan kinerja serupa dan struktur yang lebih sederhana, dan biaya pendaratan lebih rendah. Tantangannya adalah distilasi model dengan skala 100 miliar juga menghabiskan sumber daya komputasi yang sangat tinggi, dan kesenjangan volume data dari 100 miliar menjadi puluhan juta terlalu besar, yang mudah mempengaruhi efek distilasi. Distilasi non-destruktif adalah salah satu poin persaingan teknis dari produsen besar.

Karena teknologi kompresi model juga mengkonsumsi sumber daya komputasi, sangat penting untuk meningkatkan efisiensi komputasi infrastruktur komputasi.

Efisiensi komputasi adalah premis bagi produsen model besar untuk menyediakan layanan model dengan efisiensi yang lebih tinggi.

Kinerja chip dan cluster komputasi adalah fokus penelitian dan optimasi. Microsoft Cloud Azure telah membangun superkomputer untuk komputasi AI khusus untuk OpenAI. Produsen dalam negeri, seperti Baidu dan Huawei, memiliki chip yang dikembangkan sendiri dan kerangka kerja pembelajaran mendalam, yang dapat meningkatkan efisiensi komputasi melalui pengoptimalan ujung ke ujung, meningkatkan kecepatan pelatihan dan kecepatan inferensi model besar, serta mengurangi waktu dan biaya pelatihan.

Namun, untuk model besar non-umum seperti model industri dan model industri, efek skala dan teknologi pengoptimalan perangkat keras terbatas, dan biaya membangun dan memelihara infrastruktur sendiri sangat tinggi, jadi menggunakan layanan cloud untuk melatih dan menyebarkan layanan adalah pilihan yang lebih hemat biaya.

Dalam analisis akhir, model besar perlu meningkatkan pendapatan komersial untuk mencapai tujuan mengoptimalkan ROI dan memulihkan biaya. Saat ini, komersialisasi berbagai model besar mencerminkan karakteristik hierarkis yang jelas.

Sederhananya, ini adalah model besar dengan volume berbeda, fungsi berbeda, dan arah berbeda, dan jalur komersialisasi sudah mulai jelas.

Model umum didasarkan pada skala ekonomi dan pasar bernilai tinggi. OpenAI memiliki sejumlah besar pengguna, dan pengembangan ekonomi API memiliki efek skala, dan investasi di muka dapat dibagi rata dengan pertumbuhan volume bisnis. BATH (Baidu, Alibaba, Tencent, Huawei) dan lainnya memiliki bisnis cloud mereka sendiri dan telah mengumpulkan pengalaman yang kaya dalam layanan industri, terutama kemampuan jangkauan pelanggan dari pemerintah dan perusahaan besar seperti keuangan, pertambangan, dan urusan pemerintahan, dan memiliki potensi besar untuk transformasi komersial. Persyaratan tinggi pelanggan ToB mempromosikan peningkatan pengalaman dan efek model, dan juga dapat melayani pasar ToC dan selanjutnya mengamortisasi biaya melalui skala.

Model industri besar secara aktif membatasi produk dan batas-batas bisnis, berfokus pada bisnis inti dan fungsi, dan mengembangkan model kecil khusus dengan sumber daya yang lebih sedikit, sehingga dapat mencapai keseimbangan ROI yang baik antara investasi dan komersialisasi. Misalnya, di bidang keuangan, "Xuanyuan 70B" Du Xiaoman telah memasukkan sejumlah besar korpus keuangan profesional untuk meningkatkan pemahaman pengetahuan keuangan, memenuhi persyaratan khusus pelanggan keuangan dalam hal pengendalian dan keamanan, dan telah diterapkan untuk uji coba oleh ratusan lembaga keuangan.

Secara keseluruhan, model besar tidak hanya jalan universal dan umum, tetapi juga privatisasi dan penyebaran ribuan industri yang dipersonalisasi akan menghasilkan faktor pengambilan keputusan seperti harga, privasi, dan keamanan, dan juga membawa sejumlah besar peluang bisnis segmentasi. Model besar umum, model besar industri, dan model kecil berpemilik, upaya hierarkis + bersama membuka jalan menuju komersialisasi. Harmoni dan perbedaan menguji kebijaksanaan setiap peran dalam rantai industri.

Untuk layanan jangka panjang dan berkelanjutan, perlu tutup mulut dan buka kaki Anda, dan "pengurangan biaya" dari model besar adalah satu-satunya cara.

Proses ini mungkin menyakitkan, tetapi akan memadatkan parit untuk melindungi perkembangan sehat seluruh industri.

Pada 40-an abad ke-20, ketika komputer baru saja lahir, orang-orang kagum dengan tubuh besar "monster mesin" ini, tetapi kemudian lompatan era informasi dimulai. Ketika smartphone pertama kali lahir, produsen ponsel menengah sangat sarkastik tentang hal itu, tetapi mereka tidak menyangka bahwa koneksi inklusif semacam ini, di mana setiap orang dapat mengakses Internet, telah mempromosikan kemakmuran Internet seluler.

Ketika model besar menjadi lebih baik dan lebih rendah, "AI untuk semua orang" tidak akan lagi menjadi mimpi yang jauh.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)