Berapa banyak langkah yang diperlukan untuk memuat model besar ke dalam ponsel?

Question

Sumber Asli: Light Cone Intelligence![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b1ee7bd50a-dd1a6f-1c6801)Sumber gambar: Dihasilkan oleh AI‌ Tak TerbatasModel besar "berjalan" ke dalam ponsel, dan pertempuran AI telah dibakar dari "awan" ke "terminal seluler"."Di era AI, model Pangu Huawei akan membantu ekologi Hongmeng." Pada 4 Agustus, Yu Chengdong, direktur eksekutif Huawei, CEO terminal BG, dan CEO solusi mobil pintar BU, memperkenalkannya melalui teknologi dasar Pangu model, Harmony OS membawa Inilah generasi berikutnya dari sistem operasi terminal cerdas.Penggunaan model besar di ponsel bukanlah hal baru. Sebelumnya, aplikasi dan applet seperti ChatGPT, Wenxin Yiyan, dan Miaoya semuanya menggunakan daya komputasi awan untuk memenuhi kebutuhan aplikasi AI di terminal seluler.**Langkah selanjutnya adalah membiarkan model besar berjalan langsung di ponsel. **Sejak April dan Mei tahun ini, tiga raksasa teknologi Amerika—Qualcomm, Microsoft, dan Nvidia, bintang AI OpenAI yang paling menarik perhatian, dan "kepala tim" AI domestik Tencent, Baidu, dll., semuanya telah mempercepat upaya di terminal seluler Penyebaran model besar AI yang ringan. Qualcomm bahkan mengumumkan secara bertahap bertransformasi menjadi perusahaan intelligent edge computing (menyediakan layanan komputasi pada sumber data seperti terminal seluler).Di bawah dorongan kuat para raksasa, tren industri model skala besar yang bergerak dari cloud ke end menjadi sangat jelas.## Mengapa model besar harus "berjalan" di ponsel?Fitur terbesar dari model besar adalah "besar", dengan puluhan miliar miliar atau bahkan triliunan parameter, dan untuk menjalankan model besar dengan lebih baik, cluster daya komputasi telah ditingkatkan ke level "sepuluh ribu kartu". Nah, kenapa harus "memasukkan" model besar ke dalam ponsel kecil seukuran telapak tangan?Model besar memang membawa beberapa peningkatan pengalaman bagi pengguna ponsel. Misalnya, Xiaoyi, asisten cerdas terminal Huawei, tidak hanya dapat merekomendasikan restoran berdasarkan perintah suara, tetapi juga melakukan pemrosesan informasi seperti peringkasan, pencarian informasi, dan terjemahan multibahasa.Teks bahasa Inggris yang panjang dengan ribuan kata dapat diproses oleh ponsel asisten cerdas dengan kemampuan model skala besar. Ringkasan dihasilkan, yang juga dapat diterjemahkan ke dalam bahasa Mandarin. Apalagi poin terakhir, di era ledakan informasi, masih sangat berharga untuk meningkatkan efisiensi belajar dan bekerja.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4d7d0cda67-dd1a6f-1c6801) **Jia Yongli, President of Huawei's Terminal BG AI and Intelligent All-Scenario Business Department, menjelaskan bahwa, di satu sisi, model bahasa besar memiliki kemampuan untuk menggeneralisasi, yang dapat membantu asisten pintar ponsel meningkatkan pemahaman mereka. Di sisi lain, kemampuan plug-in model besar Plug-in dapat menembus penghalang antara aplikasi di ponsel dan memperluas kemampuan dengan bantuan alat. **Selain itu, aplikasi AIGC seperti ChatGPT selalu disertai dengan perselisihan privasi dan keamanan yang kuat, tetapi jika dijalankan sepenuhnya di sisi akhir, masalah ini dapat dihindari sepenuhnya. Karena model besar berjalan di sisi ujung, data tidak akan meninggalkan sisi ujung. Selain itu, kecepatan respon akan lebih cepat.** Di sisi lain, permintaan model besar ke terminal seluler seperti ponsel sudah sangat mendesak. **Tren gejolak model besar membuat cloud semakin tidak mampu menanggung permintaan daya komputasi sendirian. Alex Katouzian, wakil presiden senior Qualcomm, baru-baru ini mengatakan secara blak-blakan, "Saat pertumbuhan perangkat yang terhubung dan lalu lintas data semakin cepat, dan biaya pusat data yang ditumpangkan meningkat, tidak mungkin (bagi kami) mengirim semua konten ke cloud."Belum lagi jumlah sumber daya yang besar seperti bandwidth jaringan, penyimpanan, dan perangkat keras yang dikonsumsi oleh transmisi data, daya komputasi cloud saja sudah membuat produsen terkait kewalahan. ChatGPT hanya dalam tahap inferensi, dan diperkirakan secara konservatif bahwa biaya daya komputasi bulanan sekitar 10 juta dolar AS.Masalah terbesar bukanlah "mahal", tapi "kekurangan".Sebelumnya, bahkan Sam Altaman, pendiri OpenAI, mengungkapkan bahwa ada kekurangan GPU, bahkan secara blak-blakan mengatakan bahwa dia tidak ingin terlalu banyak orang menggunakan ChatGPT. Baru-baru ini, beberapa orang dalam berspekulasi bahwa kapasitas klaster H100 berskala besar dari penyedia cloud kecil dan besar akan segera habis, dan tren permintaan untuk H100 akan berlanjut hingga setidaknya akhir tahun 2024. Kapasitas produksi Nvidia H100 saat ini masih sangat terkendala oleh rantai pasokan.Oleh karena itu, cloud dan terminal membentuk kerja sama, dan sumber daya komputasi menganggur dari ponsel dan terminal lainnya digunakan untuk mengatasi ketidaksesuaian antara daya komputasi "terpusat" dan permintaan "terdistribusi". . Lebih penting lagi, dibandingkan dengan jumlah node pusat yang terbatas, banyak terminal seluler dapat disebut "kapiler" yang menyentuh ribuan skenario, yang menentukan bahwa entri ini akan menjadi kunci untuk mempercepat penetrasi aplikasi model besar.## Bagaimana cara "mengantongi" model besar?"Dibandingkan dengan PC atau server tradisional, tantangan terbesar untuk terminal seluler adalah bagaimana menyeimbangkan pengalaman dan konsumsi energi. Ini adalah salah satu poin inti terpenting dari desain inti Hongmeng." Gong Ti, Presiden Departemen Perangkat Lunak Bisnis Terminal Huawei , ditekankan .Model besar membutuhkan banyak sumber daya komputasi dan sumber daya penyimpanan, terutama berdasarkan konfigurasi perangkat keras ponsel yang ada, yang memerlukan koordinasi sistem perangkat lunak untuk meningkatkan efisiensi dan mengurangi konsumsi energi.Saat ini, untuk meningkatkan kinerja ponsel, setidaknya 8 inti chip perlu dikoordinasikan oleh sistem ponsel, dan proses ini akan menghabiskan banyak daya komputasi. Jika penjadwalan sumber daya heterogen diadopsi, CPU, GPU, dan NPU dapat dikoordinasikan secara efisien. Menurut Gong Ti, efisiensi penjadwalan dapat ditingkatkan hingga lebih dari 60%.Sistem ponsel dapat melakukan perhitungan, dan unit penjadwalan terkecil disebut utas.Dalam sistem operasi tradisional, puluhan ribu utas berjalan pada saat yang sama, dan akan ada banyak utas yang tidak valid. Mengingat hal ini, model konkurensi yang lebih ringan dapat digunakan untuk menangani operasi bersamaan dan mengurangi konsumsi daya komputasi dengan pengalihan thread yang tidak valid. Menurut Gong Ti, model konkurensi dapat menghemat 50% dari overhead pengalihan tugas.Selain itu, dalam hal penjadwalan tugas di sistem operasi, ini juga merupakan elemen paling dasar yang memengaruhi kelancaran pengalaman Dibandingkan dengan penjadwalan yang adil, penjadwalan prioritas dinamis akan sangat mengurangi konsumsi energi. Penjadwalan prioritas dinamis mirip dengan sistem transportasi cerdas, yang secara dinamis dapat menyesuaikan status pencahayaan lampu lalu lintas sesuai dengan kondisi jalan dan arus lalu lintas, kemacetan, dan penundaan.Namun, agar model besar dapat diterapkan di ponsel dan tetap berfungsi, tidak cukup hanya dengan meningkatkan dan menyempurnakan sistem operasi ponsel.Karena prediksi model besar menjadi lebih akurat dan jaringan menjadi lebih dalam, kapasitas memori yang dikonsumsi oleh jaringan saraf telah menjadi masalah inti. Pada saat yang sama, ini juga menyangkut masalah bandwidth memori, ketika jaringan berjalan, memori, CPU, dan baterai akan dikonsumsi dengan cepat, ini jelas merupakan beban yang tidak dapat ditanggung oleh ponsel saat ini.** Oleh karena itu, sebelum menerapkan ke ponsel, model besar harus dikompresi untuk mengurangi permintaan daya komputasi inferensi. Namun, penting untuk memastikan bahwa performa dan akurasi asli pada dasarnya tidak berubah. **Kuantisasi adalah operasi kompresi yang umum dan penting, yang dapat mengurangi ruang memori yang ditempati oleh model dan meningkatkan kinerja inferensi. Intinya adalah mengubah model operasi floating-point menjadi model operasi integer, karena operasi integer memiliki presisi yang lebih tinggi dan kecepatan operasi yang lebih cepat daripada operasi floating-point.Saat ini, teknologi kuantitatif juga mempercepat terobosan. Model yang dilatih di server umumnya menggunakan operasi floating-point 32-bit (FP32). Di sisi ponsel, Qualcomm telah mengkuantisasi dan mengompresi model FP32 ke model INT4, mencapai 64 memori dan peningkatan efisiensi energi komputasi. Data implementasi Qualcomm menunjukkan bahwa setelah menggunakan pelatihan persepsi kuantisasi Qualcomm, banyak model AIGC dapat dikuantisasi menjadi model INT4. Dibandingkan dengan INT8, kinerjanya meningkat sekitar 90%, dan efisiensi energi meningkat sekitar 60%.Teknologi kompresi model besar tidak diragukan lagi merupakan faktor kunci bagi raksasa AI untuk memenangkan medan perang terminal seluler. Ini juga menjelaskan sampai batas tertentu mengapa Nvidia "diam-diam" mengakuisisi OmniML, startup kecerdasan buatan yang menguasai teknologi model besar kompresi, pada bulan Februari tahun ini.## Model besar memaksa perangkat keras terminal untuk ditingkatkan“Tahun ini kami akan dapat mendukung model AI generatif dengan 10 miliar parameter yang berjalan di ponsel.” Ziad Asghar, wakil presiden senior manajemen produk dan kepala AI di Qualcomm, baru-baru ini mengatakan bahwa model dengan 10 miliar hingga 15 miliar parameter dapat mencakup sebagian besar data Sebagian besar kasus penggunaan AIGC. Jika terminal sudah dapat mendukung level parameter ini, semua perhitungan dapat dilakukan di terminal, dan ponsel akan menjadi asisten pribadi yang nyata.Namun, chip ponsel andalan generasi saat ini juga dapat membawa dan menjalankan model besar dengan level parameter 1 miliar.Qualcomm berhasil mendemonstrasikan model besar yang berjalan pada sistem Android di CVPR, konferensi akademik visi komputer teratas pada bulan Juni ini tahun, tetapi hanya 1,5 miliar parameter.Parameternya telah melonjak hampir sepuluh kali lipat, dan model besar yang menuju ke terminal seluler telah menginjak "akselerator", sehingga ponsel harus ditingkatkan untuk mengatasinya.**Perangkat keras ponsel sangat membutuhkan inovasi dalam akselerator dan memori AI. **Pertama, model besar dengan parameter yang lebih besar memerlukan memori dan ruang penyimpanan yang lebih besar untuk menyimpan parameter model dan hasil antara. Ini membutuhkan peningkatan kapasitas chip memori terminal seluler dan bandwidth antarmuka memori.Kedua, parameter yang lebih besar pasti membutuhkan kemampuan komputasi dan penalaran yang lebih kuat untuk memproses data masukan dan hasil keluaran.Meskipun akselerator AI (seperti berbagai IP NPU) pada chip ponsel hampir standar, desainnya pada dasarnya untuk desain jaringan saraf konvolusional generasi sebelumnya, tidak sepenuhnya untuk model besar.Untuk beradaptasi dengan model besar, akselerator AI harus memiliki bandwidth akses memori yang lebih besar dan mengurangi latensi akses memori. Ini memerlukan beberapa perubahan dalam antarmuka akselerator AI (seperti menetapkan lebih banyak pin ke antarmuka memori), dan juga memerlukan perubahan yang sesuai dalam interkoneksi data on-chip untuk memenuhi persyaratan akses memori akselerator AI.Salah satu alasan penting mengapa Qualcomm dapat menyebut "menjalankan ponsel dengan 10 miliar parameter dalam setahun" adalah karena Qualcomm memiliki prosesor Snapdragon 8 generasi kedua yang dilengkapi dengan mesin AI tercepat dan tercanggih dalam sejarah Qualcomm. , kinerja AI meningkat 4,35 kali lipat, dan efisiensi energi meningkat 60%.** Tentu saja, bahkan di cloud, pelatihan dan penalaran model parameter berskala sangat besar perlu menembus lima dinding: dinding memori + dinding daya komputasi + dinding komunikasi + dinding penyetelan + dinding penyebaran, dan ponsel harus menembus lapis demi lapis. **Namun, dari "kecerdasan" menjadi "kecerdasan buatan", untuk ponsel, peluangnya lebih besar daripada tantangannya.“Dampak siklus inovasi terhadap barang elektronik konsumen lebih penting, bahkan bisa membuat industri keluar dari dampak siklus ekonomi.” CEO Glory Terminal, Zhao Ming menilai industri smartphone saat ini berada di babak baru siklus inovasi diprakarsai oleh AI dan 5G+ .