Mematahkan "monopoli" NVIDIA dengan diferensiasi, d-Matrix mengurangi biaya daya komputasi inferensi AI hingga 30 kali lipat

2023-10-12 03:21:59

Sumber asli: Alpha Commune

Sumber gambar: Dihasilkan oleh Unbounded AI

Di balik ledakan AIGC adalah permintaan besar untuk pelatihan AI dan penalaran AI. NVIDIA saat ini adalah penyedia daya komputasi AI terbesar, dan profitabilitasnya pada kuartal kedua (naik 854% tahun-ke-tahun) mengirimkan sinyal bahwa permintaan industri akan daya komputasi AI masih jauh dari terpenuhi.

Monopoli NVIDIA atas daya komputasi AI (pangsa pasar lebih dari 80%) telah membuat banyak perusahaan yang menggunakan daya komputasi AI khawatir, Microsoft, Amazon, dan OpenAI secara aktif membangun inti, dan OpenAI juga memiliki skandal akuisisi dengan startup chip AI seperti Cerebras dan Atomic Semi.

Persyaratan daya komputasi penalaran AI untuk menjalankan aplikasi AI akan jauh melebihi persyaratan daya komputasi untuk melatih model besar di masa mendatang, dan persyaratan untuk penalaran daya komputasi tidak sama dengan pelatihan, dan GPU yang ada untuk melakukan inferensi tidak memiliki keuntungan dalam biaya, yang membutuhkan chip inferensi AI eksklusif.

Baru-baru ini, d-Matrix, sebuah startup yang berfokus pada chip penalaran AI, menerima $ 110 juta dalam pembiayaan Seri B, yang dipimpin oleh Temasek, termasuk investor dari putaran pembiayaan sebelumnya seperti Playground Global, M12 (Microsoft Venture Capital Fund), Industry Ventures, Ericsson Ventures, Samsung Ventures, SK Hynix, dll., Dengan investasi industri menyumbang sebagian besar. Sid Sheth, CEO d-Matrix, mengatakan: "Mereka adalah modal yang tahu bagaimana membangun bisnis semikonduktor dan dapat bekerja dengan kami untuk waktu yang lama. "

Pendanaan baru dari d-Matrix akan digunakan untuk membangun Corsair, Digital In-Memory Computing (DIMC) Chiplet Inference Computing Card. Kartu ini dikatakan 9 kali lebih cepat daripada GPU NVIDIA H100, dan dalam kasus sekelompok kartu komputasi, ini 20 kali lebih hemat daya, latensi 20 kali lebih sedikit, dan hingga 30 kali lebih murah daripada solusi serupa NVIDIA.

Dua veteran chip membidik kebutuhan daya komputasi penalaran AI di era AIGC

Sistem AI menggunakan berbagai jenis komputasi saat melatih model AI versus menggunakannya untuk prediksi dan inferensi. Inferensi AI membutuhkan daya komputasi yang lebih sedikit, tetapi ketika menjalankan layanan AI yang besar, inferensi memerlukan lebih banyak daya komputasi daripada pelatihan dalam jangka panjang.

Sulit untuk menyebarkan pusat data khusus untuk inferensi AI dengan biaya rendah menggunakan perangkat keras AI yang ada. Dilaporkan bahwa layanan GitHub Copilot Microsoft diposting rata-rata $ 20 per pengguna per bulan, dan menurut Dylan Patel, analis utama di SemiAnalysis, biaya investasi harian OpenAI yang menjalankan ChatGPT mungkin setinggi $ 700.000. Biaya ini adalah biaya inferensi AI yang tidak dapat dikurangi saat menjalankan layanan AI.

Industri AI harus berkembang lebih sehat, dengan biaya inferensi yang lebih rendah dan biaya konsumsi energi yang lebih rendah dari chip inferensi AI.

Dua veteran industri chip, Sid Sheth dan Sudeep Bhoja, mendirikan d-Matrix pada 2019 setelah sebelumnya bekerja sama di Marvell dan Broadcom. Pada tahun 2019, model AI dari arsitektur Transformer baru saja muncul, dan mereka melihat potensi dan peluang besar dari arsitektur model ini dan memutuskan untuk merancang perangkat keras AI mereka khusus untuk model bahasa besar ini.

Sid Sheth, CEO dan salah satu pendiri d-Matrix, mengatakan: "Kami bertaruh pada tahun 2019 untuk fokus pada platform akselerasi untuk model Transformer dan fokus pada inferensi, dan pada akhir tahun 2022, ketika AI generatif meledak, d-Matrix menjadi salah satu dari sedikit perusahaan yang memiliki platform komputasi inferensi AI generatif. Kami tumbuh dan memanfaatkan kesempatan ini selama tiga tahun. Semua perangkat keras dan perangkat lunak kami dibuat untuk mempercepat model Transformer dan AI generatif. "

Sid Sheth melanjutkan dengan menggambarkan keunikan posisi pasar d-Matrix: "AI Generatif akan selamanya mengubah paradigma tentang bagaimana orang dan perusahaan menciptakan, bekerja, dan berinteraksi dengan teknologi.

Tetapi total biaya kepemilikan (TCO) saat ini untuk menjalankan inferensi AI meningkat pesat, dan tim d-Matrix mengubah ekonomi biaya penerapan inferensi AI dengan solusi komputasi yang dibuat khusus untuk model bahasa besar, dan putaran pendanaan ini semakin menegaskan posisi kami di industri. "

Michael Stewart, seorang investor di Microsoft M12, mengatakan: "Kami secara resmi memasuki produksi ketika TCO inferensi model bahasa besar menjadi faktor pembatas utama bagi perusahaan untuk menggunakan AI canggih dalam layanan dan aplikasi mereka. d-Matrix telah mengikuti rencana yang akan menyediakan TCO terdepan di industri untuk berbagai skenario penyajian model potensial menggunakan arsitektur Chiplet yang fleksibel dan tangguh berdasarkan pendekatan yang berpusat pada memori. "

Mengurangi biaya inferensi AI hingga 30x

Menggunakan CPU dan GPU untuk pelatihan AI dan inferensi bukanlah cara yang paling efisien. Untuk operasi inferensi AI, pergerakan data adalah hambatan terbesar. Secara khusus, mentransfer data bolak-balik ke memori akses acak menyebabkan latensi yang signifikan, yang pada gilirannya menyebabkan konsumsi energi dan biaya yang lebih tinggi, dan memperlambat seluruh sistem AI.

Ada tiga cara untuk mengatasi masalah ini.

Yang pertama mempercepat deep learning dengan mengurangi jumlah data yang diproses melalui pengambilan sampel dan alur, tetapi juga membatasi akurasi dan presisi.

Yang kedua adalah menyiapkan prosesor mesin AI khusus di dekat prosesor tradisional, Apple, NVIDIA, Intel dan AMD semuanya menggunakan metode ini, tetapi solusi ini masih menggunakan arsitektur prosesor von Neumann tradisional, untuk mengintegrasikan SRAM dan memori DRAM eksternal, mereka semua perlu memindahkan data masuk dan keluar dari memori, masih menghasilkan konsumsi daya yang tinggi dan efisiensi yang rendah.

Yang ketiga adalah memindahkan komputasi lebih dekat ke RAM (memori), yang merupakan pendekatan yang diambil oleh d-Matrix. Arsitektur mesin ini, yang disebut Digital In-Memory Computing (DIMC), mengurangi latensi dan konsumsi energi. Ini juga cocok untuk inferensi AI, karena inferensi melibatkan himpunan data tertimbang yang relatif statis (tetapi besar) yang diakses berulang kali, dan DIMC menghilangkan sebagian besar biaya transfer energi dan penundaan pergerakan data.

d-Matrix menggunakan beberapa chiplet untuk membangun sirkuit terpadu yang lebih besar, modular, dan terukur. Hal ini memungkinkannya membangun platform yang dapat diskalakan untuk tugas inferensi AI tingkat perusahaan, membantu perusahaan AI meningkatkan performa dan efisiensi.

** Jayhawk II Chiplet **

Pada tahun 2021, d-Matrix meluncurkan Nighthawk Chiplet, setelah itu mereka meluncurkan Jayhawk Chiplet Platform, platform Open Domain-Specific Architecture (ODSA) Bunch of Vores (BoW) Chiplet pertama di industri yang dirancang untuk menyediakan konektivitas chip-to-chip berbasis substrat organik hemat energi.

Produk pertama yang menampilkan arsitektur DIMC d-Matrix akan didasarkan pada prosesor Jayhawk II yang baru-baru ini diumumkan, sebuah Chiplet yang berisi sekitar 16,5 miliar transistor.

Setiap Chiplet Jayhawk II berisi inti RISC-V untuk mengelolanya, 32 inti Apollo (masing-masing dengan delapan unit DIMC yang beroperasi secara paralel), dan 256 MB SRAM dengan bandwidth 150TB / s. Inti terhubung menggunakan chip jaringan khusus dengan bandwidth 84TB / s.

Kartu Komputasi Corsair

d-Matrix juga memperkenalkan kartu komputasi Corsair, mirip dengan NVIDIA H100, setiap kartu komputasi Corsair memiliki 8 chiplet Jayhawk II, masing-masing Jayhawk II menyediakan bandwidth chip-ke-chip 2Tb/s (250GB/s), dan satu kartu komputasi Corsair memiliki bandwidth chip-to-chip agregat 8Tb/s (1TB/s).

Arsitektur dan skalabilitas perangkat lunak d-Matrix memungkinkannya untuk menggabungkan memori SRAM terintegrasi ke dalam kumpulan memori terpadu yang menyediakan bandwidth sangat tinggi. Misalnya, server dengan 16 kartu Corsair memiliki 32 GB SRAM dan 2TB LPDDR5, yang cukup untuk menjalankan model Transformer dengan 20 miliar hingga 30 miliar parameter.

d-Matrix mengklaim bahwa server dengan kartu komputasi Corsair mengurangi total biaya kepemilikan inferensi AI generatif sebesar 10 hingga 30 kali lipat dibandingkan dengan solusi berbasis GPU, tetapi rangkaian perangkat keras ini tidak akan tersedia secara resmi hingga 2024.

** tumpukan perangkat lunak d-Matrix Aviator **

Kekuatan NVIDIA dalam kekuatan komputasi AI tidak hanya terletak pada GPU, tetapi juga pada tumpukan perangkat lunak CUDA dan banyak pustaka yang dioptimalkan untuk beban kerja dan kasus penggunaan tertentu, sehingga membentuk ekosistem yang lengkap.

d-Matrix juga memberi pelanggan pengalaman lengkap dengan tumpukan perangkat lunak Aviator bersama perangkat keras, yang mencakup berbagai perangkat lunak untuk menerapkan model dalam produksi, seperti rantai alat ML, perangkat lunak sistem untuk distribusi beban kerja, perangkat lunak server inferensi untuk penyebaran produksi, dll. Dan sebagian besar tumpukan perangkat lunaknya memanfaatkan perangkat lunak open source yang diadopsi secara luas.

** Bertujuan untuk model yang relatif kecil **

Sid Sheth, CEO d-Matrix, menunjukkan bahwa selain memposisikan inferensi AI, mereka lebih fokus pada multi-miliar hingga puluhan miliar model kecil dan menengah, daripada tujuan umum ratusan miliar model besar.

Karl Freund, pendiri dan analis utama di Cambrian AI, sebuah perusahaan riset semikonduktor dan AI, setuju, dengan mengatakan: "Sebagian besar perusahaan tidak menggunakan model dengan ratusan miliar atau triliunan parameter. Tetapi mereka akan menggunakan data perusahaan sendiri untuk menyempurnakan model, dan model yang benar-benar akan mereka terapkan akan jauh lebih kecil. Untuk model ukuran ini, NVIDIA H100 belum tentu merupakan pilihan paling ekonomis dalam hal inferensi AI, dan H100 saat ini dijual hingga $ 40.000. "

Dia juga menunjukkan bahwa d-Matrix menghadapi jendela peluang, dan dia memiliki periode waktu yang relatif kosong untuk menunjukkan nilainya sebelum raksasa seperti Nvidia beralih ke pasar ini.

Untuk saat ini, d-Matrix mengharapkan pendapatan tidak lebih dari $ 10 juta tahun ini, sebagian besar dari pelanggan yang membeli chip untuk evaluasi. Pendiri Sheth mengatakan d-Matrix mengharapkan pendapatan tahunan lebih dari $ 70 juta hingga $ 75 juta selama dua tahun dan impas. Ruang pasar yang dihadapi d-Matrix sangat besar, dan Cambrian AI memprediksi bahwa pada tahun 2030, rasio konsumsi daya komputasi chip inferensi AI dapat mencapai lebih dari 1000 TOPS per watt.

Otonomi dan biaya adalah tanah untuk chip AI

Di satu sisi, tanah kelangsungan hidup startup chip AI seperti d-Matrix berasal dari kebutuhan independen dan terkendali dari produsen AI, apakah itu raksasa seperti Microsoft, Meta, Amazon, unicorn super seperti OpenAI, Anthropic, atau startup terkemuka seperti Cohere, mereka tidak ingin kekuatan komputasi AI mereka terikat pada satu perusahaan.

Di sisi lain, biaya operasi layanan AI, untuk perusahaan model besar, dalam jangka panjang, biaya daya komputasi untuk menjalankan layanan AI akan lebih tinggi daripada biaya daya komputasi untuk model pelatihan, dan pada tahap ini, biaya operasi satu pengguna perusahaan AI adalah keadaan merugi, dan total biaya kepemilikan (TCO) juga tinggi. Untuk raksasa kaya uang, kerugian ini terjangkau, tetapi untuk startup, itu adalah beban besar, memperlambat ekspansi lebih lanjut dari bisnis mereka.

Pihak ketiga, daya komputasi penalaran AI berbiaya rendah sangat dibutuhkan untuk raksasa dan startup.

Pada tahap ini, apa risiko yang dihadapi oleh startup di bidang chip AI? Salah satunya adalah, tentu saja, "monopoli" raksasa NVIDIA, serta Microsoft, Meta, Google, OpenAI, perusahaan AI terbesar yang mengembangkan chip sendiri, dan kemudian masalah ekologis perangkat lunak yang mendukung chip tersebut.

Dan masalah ini, d-Matrix sedang dalam proses penyelesaian. Ini menargetkan pasar untuk model AI komersial kecil dan menengah, dan juga bekerja sama dengan komunitas open source untuk membangun ekosistem perangkat lunak, yang dapat memberikan keunggulan kompetitif yang berbeda dalam persaingan raksasa.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
16862 Popularitas
2White House Crypto Report
3885 Popularitas
3Fed Holds Rates Decision
4932 Popularitas
4Alpha Points System Opens
14673 Popularitas
5Ethereum 10th Anniversary
20994 Popularitas

Sematkan

peta situs

Mematahkan "monopoli" NVIDIA dengan diferensiasi, d-Matrix mengurangi biaya daya komputasi inferensi AI hingga 30 kali lipat

Dua veteran chip membidik kebutuhan daya komputasi penalaran AI di era AIGC

Mengurangi biaya inferensi AI hingga 30x

** Otonomi dan biaya adalah tanah untuk chip AI **

Otonomi dan biaya adalah tanah untuk chip AI