Era model AI yang besar ≠ Era AI yang hanya memiliki model berukuran besar

Penulis丨Jin Lei

Sumber丨Qubit QbitAI

Teknologi macam apa yang dapat bertahan seiring dengan perkembangan zaman dan tetap baru?

Jawabannya dapat diringkas dalam pola seperti "trilogi" - kebangkitan, pengembangan, dan penerapan skala besar, ditambah pengulangan evolusioner lainnya dari proses ini.

Dengan mengambil sejarah sebagai panduan, mesin uap memimpin revolusi industri pertama. Ketika berevolusi menjadi mesin pembakaran internal dan menjadi populer, pengganggu revolusi industri kedua - energi listrik itu sendiri dan berbagai peralatan terkait masih dalam tahap awal. Sebagai peralatan bergerak menuju inovasi berulang dalam mikroelektronika, berbagai mesin bahan bakar masih ditingkatkan dan dipopulerkan.

Dilihat dari aturan ini, meskipun model bahasa besar (disingkat LLM) telah mendominasi semua kata kunci terkait AI dan menarik perhatian semua orang sejak kemunculannya, ini tidak berarti bahwa "tidak ada AI sebelum LLM".

Meskipun model-model besar mulai mencuri perhatian, aplikasi pembelajaran mesin generasi lama yang sebelumnya dikhususkan untuk pengambilan keputusan, serta aplikasi pembelajaran mendalam "tradisional" yang berfokus pada kemampuan persepsi, juga tidak menganggur. masa remaja dan memasuki tahap praktek yang mantap dan praktis.

Apa buktinya?

Sebuah produsen chip besar telah meluncurkan serangkaian manual praktis AI, yang menargetkan praktik AI di industri manufaktur dan energi, kedokteran, keuangan, transportasi dan logistik, serta pendidikan.

Dalam pemutakhiran Manual Praktis AI untuk Logistik, Transportasi dan Kesehatan tahun ini, dicatat banyak aplikasi AI yang telah atau sedang diimplementasikan, serta cara penerapannya dengan lancar dan mengeluarkan sepenuhnya potensi akselerasi kinerjanya. mereka juga digunakan di beberapa kepala yang sudah dikenal.Contoh penerapan perusahaan yang bergerak jauh ke garis depan.

Oleh karena itu, AI bukan hanya tentang model berukuran besar. Era model AI yang besar juga ≠ era AI yang hanya menggunakan model berukuran besar.

AI yang matang telah diterapkan

Mungkin Anda masih tidak percaya bahwa teknologi AI sudah ada di balik pengiriman ekspres kecil sekalipun.

Benar sekali, dan ini hampir terlibat dalam keseluruhan proses logistik: pemesanan, pengiriman, penyortiran, transshipment, distribusi... AI sekarang harus "mengelola" semuanya.

Ambil contoh teknologi klasik OCR (Optical Character Recognition), Statusnya dalam "dunia teknis" logistik bisa dikatakan sangat penting, sangat meningkatkan efisiensi kerja.

Misalnya, ketika pengirim mengisi informasi alamat dan identitas saat pengiriman, dan gudang e-commerce memeriksa informasi produk yang dikirim, OCR dapat digunakan untuk mencapai entri satu klik.

Seiring dengan semakin sempurnanya teknologi AI dan penerapannya yang semakin mendalam, kecepatan ini telah mencapai "tidak ada yang tercepat, hanya lebih cepat".

Seperti halnya Yunda Express yang sudah kita kenal, pada proses pengenalan OCR tiga segmen, awalnya diharapkan AI dapat mencapai akurasi pengenalan OCR sebesar 95%.

Hasilnya, AI saat ini "memberi pelajaran kepada Yunda". Tidak hanya akurasinya yang melonjak hingga hampir 98%, tetapi waktunya juga "turun": dari 130 md menjadi 114 md.

△Hasil tes performa berdasarkan tes yang dilakukan Yunda pada Oktober 2022

Selain itu, pengakuan OCR hanyalah sebagian kecil dari keterlibatan AI dalam industri logistik. Lihatlah gambar untuk merasakan kekuatan yang dimilikinya saat ini:

Ya, AI sangat canggih, tidak heran kecepatan logistik domestik meningkat pesat.

Tapi kawan, ini hanyalah kasus AI yang mengakselerasi ribuan industri, nyatanya perjalanan kita sehari-hari juga penuh dengan "rasa" AI.

Misalnya saja teknologi analisis video AI yang mampu menganalisis kondisi lalu lintas di jalan raya secara real time.

Baik itu pemantauan arus lalu lintas, pengenalan pelat nomor kendaraan, atau peringatan kecelakaan, dll., AI dapat dikatakan memiliki panorama segalanya.

Dengan cara ini, kondisi jalan dapat dikendalikan secara efektif dan akurat.

Contoh lainnya adalah bandara, kamera yang didukung teknologi AI juga dapat mengidentifikasi pesawat, kendaraan, personel, dan pelanggaran perbatasan secara detail, sehingga memberikan jaminan tertentu bagi keselamatan area penerbangan.

......

Tidak sulit untuk melihat dari kasus penggunaan kecil di atas bahwa AI yang "matang", atau aplikasi AI bintang yang populer beberapa tahun lalu, mungkin tampak tidak populer, namun sebenarnya telah merambah ke setiap aspek kehidupan kita, dan aplikasinya. fokus utamanya adalah "pengurangan pengeluaran dan peningkatan efisiensi".

Jadi, apa yang melatarbelakangi “penghematan biaya dan peningkatan efisiensi”?

Jangan terlalu sok, berikan saja jawabannya——

Platform Intellah yang membantu, khususnya prosesor Xeon®️ yang Dapat Diskalakan. Demikian pula, produsen chip yang kami sebutkan di atas juga adalah Intel, dan Intel-lah yang telah menyediakan manual praktis AI untuk berbagai industri.

Namun yang membuka kemampuan tersebut bukan hanya CPU, namun bonus optimasi di tingkat perangkat lunak dari Intel; dengan kata lain, ini adalah hasil dari "integrasi perangkat lunak dan perangkat keras".

Sederhananya menjadi: Prosesor Xeon®️ yang dapat diskalakan dan akselerator AI bawaannya, serta serangkaian kerangka kerja AI dan perangkat lunak pengoptimalan seperti OpenVINO™️ dan oneAPI untuk membantu.

Saat ini hanya ada dua faktor yang mempengaruhi kinerja aplikasi AI: daya komputasi dan kecepatan akses data.

Jumlah inti CPU tunggal pada prosesor skalabel Xeon®️ generasi keempat terbaru telah meningkat hingga maksimum 60 inti. Dalam hal kecepatan akses data, ukuran cache di semua level, jumlah saluran memori, kecepatan akses memori, dll telah dioptimalkan sampai batas tertentu. Selain itu, teknologi memori bandwidth tinggi HBM juga terintegrasi dalam seri CPU Max.

Selain itu, set instruksi CPU juga telah dioptimalkan, dan akselerator perangkat keras seperti Intel®️ Advanced Matrix Extensions (Intel®️ AMX) sudah terpasang, yang bertanggung jawab untuk penghitungan matriks dan mempercepat beban kerja pembelajaran mendalam. Ini bisa disebut C -sedikit aplikasi AI yang dipercepat CPU.

Ini agak mirip dengan Tensor Core di GPU.

AMX terdiri dari dua bagian, satu adalah file register 2D 1kb, dan yang lainnya adalah modul TMUL, yang digunakan untuk menjalankan instruksi perkalian matriks. Ini dapat mendukung tipe data INT8 dan BF16, dan BF16 memiliki kinerja komputasi yang lebih baik daripada FP32.

Dengan berkat set instruksi AMX, kinerjanya ditingkatkan hingga 8 kali lipat atau bahkan lebih tinggi daripada set instruksi jaringan saraf vektor VNNI yang dibangun pada prosesor skalabel Xeon®️ generasi sebelumnya.

Selain platform perangkat keras inti, yang sebenarnya membantu industri-industri ini mengimplementasikan aplikasi AI praktis adalah serangkaian perangkat lunak AI “milik” milik Intel, bukan perangkat lunak “pribadi”.

Misalnya, akselerasi OCR yang disebutkan sebelumnya tidak dapat dipisahkan dari optimalisasi OpenVINO™️, yang menghilangkan banyak penghitungan berlebihan yang diperlukan untuk bagian pelatihan dan terutama mendukung bagian inferensi.

Ini juga merupakan kerangka kerja yang dioptimalkan yang dibuat khusus untuk perangkat keras Intel. Hanya diperlukan 5 baris kode untuk menyelesaikan penggantian kerangka kerja asli.

Pengguna dapat mengoptimalkan parameter operasi OpenVINO™️ untuk berbagai skenario bisnis.

Dengan kombinasi perangkat lunak dan perangkat keras seperti itu, Intel tidak hanya mengeluarkan sepenuhnya potensi komputasi CPU, namun juga mencapai kinerja yang mendekati GPU dalam skenario penalaran sebenarnya. Intel juga memiliki keunggulan tambahan seperti biaya rendah, ambang batas rendah, dan kemudahan penggunaan.

Namun, ini hanyalah optimalisasi teknologi AI yang matang pada platform Intel®️. Kemampuan Intel jauh lebih dari itu.

Ini kembali ke model besar.

Model-model besar yang populer juga sedang dipercepat

Saat ini, model bahasa besar sedang dikejar oleh perusahaan teknologi besar di seluruh dunia, dan kalangan teknologi kini menganggapnya sebagai tren perkembangan masa depan.

Meskipun dibandingkan dengan teknologi dan aplikasi AI yang sudah matang, masih jauh dari penerapan skala besar, namun kepemimpinan teknologinya tidak perlu dipertanyakan lagi, dan bahkan aplikasi AI "generasi lama" diharapkan dapat digabungkan atau diubah olehnya. Diperbarui.

Sebagai output daya komputasi dasar dan akselerator kinerja aplikasi, Intel juga bersiap menghadapi hari hujan di arena kompetitif ini dan telah menyusun rencananya.

Pertama-tama, betapapun canggihnya suatu model besar, lebih banyak orang perlu menggunakannya agar dapat sepenuhnya menyadari manfaatnya. Jika ingin "memainkannya", biaya menjadi masalah lama mengingat ukurannya yang besar.

Oleh karena itu, Intel telah meluncurkan “alat ajaib pengurang bobot” yang disempurnakan yang dapat memperkecil model bahasa besar dengan satu miliar parameter sebesar 3/4 dan meningkatkan keakuratannya. , dan juga dapat secara efektif meningkatkan kinerja inferensi model besar di Intel ®️ platform.

Secara khusus, yang digunakan adalah teknologi SmoothQuant, yang diadaptasi Intel ke platformnya sendiri dan menerapkan peningkatan. Pendekatan ini telah diintegrasikan ke dalam Intel®️ Neural Compressor. Ini adalah pustaka Python sumber terbuka yang berisi berbagai teknik kompresi model yang umum digunakan seperti kuantisasi, pemangkasan (sparsitas), distilasi (ekstraksi pengetahuan), dan pencarian arsitektur saraf. Ini sudah mendukung berbagai perangkat keras arsitektur Intel®️ dan kompatibel dengan TensorFlow, Kerangka kerja arus utama seperti PyTorch, ONNX Runtime, dan MXNet.

Kedua, di tingkat perangkat keras, Intel juga telah melakukan beberapa upaya.

Misalnya, ChatGLM-6B yang baru-baru ini populer menggunakan Intel®️ AMX bawaan dari prosesor Xeon®️ yang dapat diskalakan generasi keempat untuk meningkatkan kecepatan penghitungan penyetelan model secara signifikan; ia menggunakan HBM yang terintegrasi dengan prosesor seri Xeon®️ CPU Max untuk memenuhi kebutuhan pengguna berskala besar. Diperlukan bandwidth memori yang besar untuk penyempurnaan model.

△Arsitektur Teknologi Intel® AMX

Selain CPU, Intel juga memiliki chip akselerasi pembelajaran mendalam khusus Habana®️ Gaudi®️2, yang dapat menyebarkan 8 kartu akselerator (disebut Habana Processing Unit, disebut sebagai HPU) dalam satu server. Setiap kartu memiliki memori Hingga 96 GB, menyediakan banyak ruang untuk model besar.

Oleh karena itu, bahkan model bahasa tingkat 100 miliar seperti BLOOMZ dengan 176 miliar parameter dapat mengontrol penundaan kinerja hingga 3,7 detik setelah pengoptimalan oleh Intel. Untuk model yang lebih kecil BLOOMZ-7B dengan 7 miliar parameter, latensi satu perangkat di Gaudi®️2 adalah sekitar 37,21% dari Gaudi®️ generasi pertama; dan ketika jumlah perangkat ditingkatkan menjadi 8, persentase ini semakin turun menjadi Tentang 24,33%.

△Hasil uji latensi inferensi BLOOMZ pada Gaudi®️2 dan Gaudi®️ generasi pertama

Kemudian pada tingkat perangkat lunak, untuk model bahasa besar yang populer seperti ChatGLM, Intel juga dapat mengoptimalkannya dengan membuat model stateful OpenVINO™: mengompresi bobot untuk mengurangi penggunaan bandwidth memori dan meningkatkan kecepatan inferensi.

Hal ini merupakan cerminan langsung dari pendekatan “integrasi perangkat lunak dan perangkat keras” Intel dalam aplikasi model besar. Selain itu, perangkat kerasnya tidak lagi terbatas pada CPU, tetapi ada juga Gaudi®️ yang dapat menyaingi GPU baik dalam performa pelatihan maupun inferensi serta membuat kagum semua orang dalam hal performa biaya.

Terakhir, dalam hal keamanan, Intel juga telah mencapai "yang terbaik dari kedua dunia": Lingkungan Eksekusi Tepercaya (TEE) berdasarkan Intel®️ SGX/TDX dapat memberikan lingkungan pengoperasian yang lebih aman untuk model besar tanpa mengorbankan kinerja. .

Ini adalah “pendekatan akselerasi” Intel di era model AI besar.

Perubahan apa lagi yang akan terjadi?

Melihat perkembangan teknologi AI, tidak sulit untuk menemukan bahwa Intel menerapkan prinsip yang sangat jelas – penggunaan adalah kata terakhir. Bahkan menggunakannya di pusat data dan edge saja tidaklah cukup. Yang terbaik adalah setiap komputer dan perangkat terminal informasi setiap orang memiliki kemampuan untuk mempercepat aplikasi AI secara mandiri agar dapat memenuhi kepuasan "inti".

Oleh karena itu, Intel telah menyesuaikan misi inovasinya untuk: menambahkan kemampuan AI ke berbagai produk perangkat keras, dan mempromosikan mempopulerkan aplikasi AI melalui solusi perangkat lunak multi-arsitektur yang terbuka dan mendorong kebangkitan "ekonomi inti".

"Pendekatan akselerasi" Intel tidak hanya memungkinkan teknologi diimplementasikan dan dipopulerkan dengan lebih cepat, namun juga untuk mendorong adopsi, inovasi, dan perubahan, sehingga membuka jalan bagi perubahan teknologi generasi berikutnya.

Jadi, apakah Intel memiliki tujuan akhir dalam hal ini?

Mungkin seperti yang diulangi dan ditekankan pada Intel Innovation 2023: biarkan AI ada di mana saja (AI Everywhere).

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)