Pada bulan April tahun ini, beberapa peneliti di perusahaan kecerdasan buatan terkemuka memperhatikan teknologi baru: SAM (Segment Anything Model). Para peneliti dengan cepat melaporkan teknologi ini kepada kepala departemen Perusahaan ini dimulai dengan teknologi visi mesin, dan teknologi yang menjadi fokus para peneliti juga terkait dengan ini. “Dengan munculnya SAM, semakin banyak orang AI yang menyadari bahwa model besar mengejutkan mereka,” kata salah satu peneliti.
Sebulan kemudian, perusahaan mulai mengalokasikan sumber daya untuk mengembangkan model visual yang besar.
Dalam tiga bulan berikutnya, perusahaan AI visi mesin terkemuka memperhatikan potensi teknologi ini.Sejauh ini, perusahaan kecerdasan buatan seperti SenseTime dan CloudWalk Technology, serta perusahaan keamanan tradisional, telah mulai berinvestasi dalam kompetisi teknologi baru ini.
SAM adalah model segmentasi gambar untuk pemandangan umum. Ini diluncurkan oleh Meta pada bulan April tahun ini. Sama seperti berbicara dengan ChatGPT, manusia dapat menggunakan beberapa instruksi bahasa agar SAM dapat membedakan dan memikirkan konten dalam gambar secara mandiri. SAM dianggap be ChatGPT muncul di bidang penglihatan.
Penggemar di seluruh dunia menggunakannya untuk menggambar, memotong gambar, dan bersenang-senang, tetapi peneliti Cina telah mengakui kekuatan SAM: jika digunakan dalam mengemudi otomatis, pemantauan keamanan, untuk mendeteksi orang, mobil, dan jalan, itu adalah model besar mandiri yang secara fundamental merusak gameplay visi mesin tradisional.
Segmentasi dan pengenalan gambar adalah tugas inti dari visi mesin. Di masa lalu, setiap tugas membuat gambar tersegmentasi memerlukan pelatihan algoritme, menganotasi kumpulan data, dan memungkinkan mesin untuk "melihat" berbagai objek dalam gambar dengan melapiskan model kecil. SAM telah menunjukkan beberapa fitur baru: tanpa membuat model kecil untuk setiap tugas tertentu, mesin dapat secara mandiri mengelompokkan objek apa pun dalam gambar apa pun, bahkan pemandangan buram yang tidak diketahui, dan pengoperasiannya sangat sederhana.
Ini berarti bahwa SAM memiliki fitur yang lebih umum, dan dimungkinkan untuk menggunakan fitur umum ini untuk mengurangi biaya pengenalan visi mesin secara signifikan, sehingga mengubah model bisnis dan pola persaingan berdasarkan teknologi aslinya.
Sejak 2016, ratusan perusahaan kecerdasan buatan telah muncul di China, yang memiliki pasar yang sangat besar, dengan bantuan persaingan pasar dan modal, beberapa AI unicorn secara bertahap terbentuk, seperti Teknologi Shangtang, Teknologi Cloudwalk, Teknologi Megvii, Menurut Teknologi Yitu , perusahaan-perusahaan ini telah membawa AI ke bidang keamanan, urusan pemerintahan, dan industri, serta membangun parit dengan memanfaatkan kecanggihan algoritme dan keunggulan skala.
Tapi sekarang, dengan perubahan teknologi, acara tersebut mungkin akan dimulai kembali.
Feng Junlan, Kepala Ilmuwan China Mobile Group dan Wakil Ketua Aliansi Pengembangan Industri Kecerdasan Buatan China, mengatakan kepada wartawan bahwa AI model besar akan membawa paradigma kecerdasan buatan baru yang disebut parit di bidang AI di masa lalu pada dasarnya tidak ada di bawah pengaruh model besar. . Munculnya SAM membuktikan kelayakan model visual besar, menumbangkan kerangka penelitian, interaksi dan metode layanan produksi dari visi mesin.
Luo Xun, anggota senior IEEE, seorang profesor di Universitas Teknologi Tianjin, dan seorang ahli dalam teknologi AR/VR, mengatakan kepada wartawan bahwa keunggulan kemampuan AI dari perusahaan terkemuka sebelumnya akan melemah sampai batas tertentu karena munculnya model besar tujuan umum. Tetapi apakah perusahaan-perusahaan ini sendiri akan menjadi lebih lemah bergantung pada transformasi mereka.
Rute teknis
Sebagai cabang AI yang penting, tujuan dari visi mesin adalah untuk memungkinkan komputer meniru sistem visual manusia untuk memahami dan memproses gambar dan video.
Setelah tahun 2000, Geoffrey Hinton, Yann LeCun, dan Yoshua Bengio, yang dikenal sebagai pendiri kecerdasan buatan, menerobos teknologi pembelajaran mendalam, memungkinkan mesin untuk mensimulasikan otak manusia secara samar-samar, dan secara otomatis mempelajari dan mengekstraksi fitur dari gambar masif.
2012 adalah simpul waktu yang penting. Proyek ImageNet yang dibuat oleh profesor Universitas Stanford, Li Feifei, mendorong pembelajaran mendalam ke arus utama: peneliti dapat mengajarkan komputer untuk mengenali berbagai objek dengan memberi label sejumlah besar gambar secara manual, yang sangat meningkatkan penglihatan mesin. Tingkat akurasi mengurangi biaya dan memungkinkan untuk dikomersialkan.
Pada April 2023, perubahan baru datang, dan Meta meluncurkan model segmentasi gambar yang disebut SAM. Sebagai model besar, SAM tidak hanya melengkapi mesin dengan mata untuk memahami dunia luar, tetapi juga melengkapi mesin dengan otak nyata. Ia belajar mengamati, memahami, berpikir, menalar secara logis, dan menggambar hasil dari gambar, dan pengoperasian sangat sederhana, mirip dengan ChatGPT menggunakan dialog bahasa manusia untuk memberikan perintah mesin.
Singkatnya, ini mencapai tujuan visi mesin dengan lebih mudah, tanpa memerlukan banyak anotasi gambar dan algoritme penumpukan, dan menghabiskan lebih sedikit daya komputasi. Ilmuwan kecerdasan buatan Nvidia Jim Fan mengatakan bahwa model besar SAM adalah momen penglihatan mesin GPT-3. Ia telah memahami konsep umum objek, bahkan untuk objek yang tidak dikenal, pemandangan yang tidak dikenal (seperti gambar bawah air), dan dalam situasi yang ambigu Gambar segmentasi juga bisa.
Setelah Meta merilis SAM, Meta juga membuka sumber model dan kumpulan data pelatihan di belakangnya, dan memperkenalkan skenario aplikasi SAM dari AR, VR, pembuatan konten, dan bidang lainnya.
Perusahaan dan peneliti di China dengan cepat menilai kemungkinan nilai komersial SAM. Jika digunakan dalam mengemudi otonom, pemantauan keamanan, untuk mendeteksi orang, mobil, dan jalan, secara fundamental dapat merusak visi mesin tradisional.
Feng Junlan mengatakan bahwa model besar akan mengubah mode pasokan AI, sangat mengurangi kompleksitas sisi penawaran, dan biaya marjinal mendekati nol; sisi bisnis dapat mengungkapkan permintaan dalam bahasa alami yang lebih sederhana, dan tidak perlu lagi bergantung pada instruksi profesional seperti kode oleh insinyur Berkomunikasi dengan mesin dan menerapkan secara fleksibel ke model yang berbeda sesuai dengan kebutuhan mereka sendiri, meningkatkan efisiensi
Zhu Bing, chief product officer Uniview Technology, mengatakan kepada wartawan, "Di masa lalu, melakukan pekerjaan AI seperti membawa kotak. Faktanya, itu adalah pekerjaan fisik yang relatif berteknologi rendah. Ketika AI mendukung adegan satu titik, itu adalah sangat terfragmentasi. Dan yang disesuaikan, efisiensi pra-penjualan, efisiensi purna jual, dan efisiensi penjualan semuanya rendah, dan industri hulu dan hilir lebih menyakitkan. Misalnya, Zhu Bing mengatakan bahwa investasi dan biaya produsen yang berinvestasi dalam pengembangan, pengumpulan bahan, kalibrasi, dan penyesuaian algoritme untuk berbagai skenario dan wilayah sangat besar.Bagi pelanggan, biaya pengembangan kustom juga merupakan pengeluaran yang cukup besar.
Saat ini, menggunakan model besar untuk menggantikan gameplay model kecil asli tidak memerlukan algoritme susun atau data berlabel dalam jumlah besar, dan hanya menghabiskan sedikit daya komputasi dalam prosesnya. Anda dapat menggunakan bahasa manusia yang lebih sederhana untuk memberikan perintah ke mesin tanpa menggunakan bahasa pemrograman komputer profesional. . Zhu Bing mengatakan bahwa model besar telah sangat mengurangi biaya penelitian dan pengembangan dan penerapan AI. Model ini telah membangun serangkaian permainan baru dan merestrukturisasi tatanan industri, terutama di industri visi komputer. Hambatan teknis sebelumnya yang dibangun oleh perusahaan besar telah telah dihaluskan. , semua orang kembali ke garis awal yang sama.
Masuk
Sekitar generasi teknologi visi mesin sebelumnya, sejumlah perusahaan kecerdasan buatan lahir di China, dan teknologi yang disediakan oleh perusahaan tersebut mulai banyak digunakan dalam pemantauan kamera dan identifikasi pemeriksaan keamanan untuk keamanan publik, kereta bawah tanah, dan bangunan komersial.
"AI Four Tigers" mengacu pada empat perusahaan kecerdasan buatan Tiongkok yang didirikan berturut-turut antara tahun 2011 dan 2014, yaitu SenseTime, Teknologi Cloudwalk, Teknologi Megvii, dan Teknologi Yitu. Fitur umum mereka adalah visi mesin sebagai teknologi inti.Terobosan AI dalam rute pembelajaran mendalam telah memberikan landasan teknis bagi kebangkitan kelompok perusahaan kecerdasan buatan ini, dan keunggulan industri China telah menyediakan pasar untuk pengembangan perusahaan-perusahaan ini .
Setelah SAM keluar, mereka mulai mengincar teknologi ini satu demi satu.
Wartawan mengetahui dari banyak orang di industri ini bahwa, selain Teknologi Yitu, SenseTime, Teknologi Cloudwalk, dan Teknologi Megvii di antara "AI Four Tigers", semuanya sedang mengembangkan model visual berskala besar. Kangweishi dan Teknologi Uniview juga menyebarkan penelitian teknologi terkait dan pengembangan.
Pada bulan April, hanya beberapa hari setelah Meta meluncurkan SAM, SenseTime merilis model besar "Daily New". Tian Feng, dekan Institut Penelitian Industri Cerdas SenseTime, mengatakan kepada wartawan bahwa seri "Ri Ri Xin" adalah kumpulan dari beberapa model besar termasuk pembuatan bahasa alami, pembuatan gambar, dan persepsi visual. Diantaranya, "Ruying", "Qiongyu" , "Gewu" adalah model besar yang berhubungan dengan penglihatan.
Pada bulan Mei, Teknologi Yuncong merilis model besar "tenang", yang merupakan model besar multi-modal termasuk visi Teknologi Yuncong menyatakan pada pertemuan investor baru-baru ini bahwa model besar visual sangat penting dan akan diluncurkan di masa depan Dipimpin secara visual model. Karena perusahaan memiliki cadangan yang kuat dalam visi komputer, dan karena membutuhkan teknologi multi-modal untuk menyelesaikan bisnis spesifik pelanggan.
Megvii dan Yitu belum meluncurkan model besar. Megvii mengatakan kepada wartawan bahwa itu "mengembangkan model besar, tetapi belum diluncurkan dan dikirim ke pelanggan." Dalam hal arah, Megvii telah memilih empat arah penelitian: model besar gambar umum, model besar pemahaman video, model besar fotografi komputasi, dan model besar persepsi mengemudi otonom, dan telah mencapai terobosan tertentu.
Su Lianjie, kepala analis kecerdasan buatan di lembaga penelitian Omdia, mengatakan kepada wartawan bahwa di bawah pengaruh model skala besar visual, "AI Four Tigers" dengan cepat berubah menjadi model skala besar dan menerapkan skala besar multi-modal. -model skala yang berfokus pada visi.relatif masuk akal.
Hikvision mengatakan kepada investor pada bulan Juni tahun ini, "Kami memperhatikan model SAM pada awal peluncurannya dan melakukan evaluasi sistematis." Zhu Bing mengatakan kepada wartawan bahwa model industri AIoT yang dikembangkan sendiri oleh perusahaan " "Wutong" adalah model industri skala besar berdasarkan model skala besar umum + adegan industri + pelatihan dan penyetelan.Ini dirilis untuk pertama kalinya pada 9 Mei dan telah diuji oleh mitra gelombang pertama pada bulan Juni.
Hikvision dan Uniview Technology adalah perusahaan keamanan tradisional yang dimulai sebagai produsen peralatan. Mereka menghadapi persaingan sengit setelah "AI Four Tigers" memasuki industri keamanan. Mereka secara aktif merangkul pangsa pasar teknologi visi mesin.
Saat ini, perusahaan AI mulai mencapai konsensus tentang arti "pembuatan zaman model besar".
Tian Feng, dekan Institut Penelitian Industri Cerdas SenseTime, dan Yao Zhiqiang, salah satu pendiri Teknologi Yuncong, keduanya mengatakan kepada wartawan bahwa AI1.0 adalah era model kecil. Perusahaan terutama menyediakan model kecil berpemilik dan menggunakan teknologi multi-titik untuk memecahkan kebutuhan adegan spesifik. ; AI2.0 adalah era model besar. Perusahaan perlu menggunakan platform basis teknologi skala besar terpadu, yaitu, untuk membuat model dasar multi-modal dengan persepsi umum dan kemampuan kognisi untuk dunia, dan menghasilkan serangkaian industri berdasarkan model kecil ini untuk memenuhi kebutuhan adegan profesional dan adegan yang lebih masif.
Yao Zhiqiang percaya bahwa jika perusahaan AI masih pada tahap sebelumnya, mungkin dapat menyelesaikan banyak masalah adegan, tetapi biayanya sulit dikurangi, membuat efek skala tidak mungkin ditampilkan; Tian Feng percaya bahwa dua era hidup berdampingan selama lama, dan tidak ada yang menghilangkan yang lain Hubungan yang berlawanan, keduanya diselesaikan secara terkoordinasi. Misalnya, dengan menggunakan struktur model ahli hybrid (MoE), di era AI2.0, beberapa model digabungkan menjadi layanan, dan model 1.0 juga dapat disematkan.
Dalam persaingan baru, akumulasi teknologi asli dan investasi perangkat keras masih akan berperan.
Tian Feng mengatakan kepada wartawan bahwa pusat komputasi cerdas "Perangkat Besar AI" memiliki daya komputasi AI yang kuat dan dapat memberikan daya komputasi pelatihan untuk 20 model besar dengan ratusan miliar parameter. Ini adalah peralatan utama untuk mengembangkan dan melatih model besar. SenseTime Not hanya untuk penggunaan pribadi, tetapi juga terbuka untuk startup skala besar dan mitra R&D.
Orang yang relevan yang bertanggung jawab atas Yunwalk mengatakan kepada wartawan bahwa sistem operasi CWOS perusahaan memiliki keunggulan yang melekat dalam mengintegrasikan model bahasa super seperti ChatGPT. Pada saat yang sama, sistem dapat memberi umpan balik data dan informasi ke model besar sesuai dengan situasi produksi aktual, mengoptimalkan pelatihan dan penyesuaian model, serta meningkatkan akurasi dan efisiensi model.
Model besar menerobos pasar
"Bahkan tanpa pengaruh model besar, "AI Four Tigers" masih dalam masa kebingungan dalam transformasi, dan perlu memikirkan nilai dan jalan keluar mereka sendiri." kata Su Lianjie.
Sekelompok perusahaan kecerdasan buatan telah disukai oleh modal dan pasar, di antaranya SenseTime dan CloudWalk telah mendarat di pasar modal. Dari 2018 hingga 2022, SenseTime telah menginvestasikan lebih dari 12 miliar yuan dalam penelitian dan pengembangan setiap tahun, dan mengumpulkan lebih dari 5 miliar yuan dalam IPO pada tahun 2021. Dari 2018 hingga 2022, Yuncong telah menginvestasikan lebih dari 2,2 miliar yuan untuk penelitian dan pengembangan setiap tahun, dan akan mengumpulkan 1,7 miliar yuan dalam IPO pada tahun 2022.
Interaksi yang baik antara teknologi dan modal juga telah memberi China keunggulan terdepan di bidang pengenalan visual.Sekitar tahun 2018, China berada di urutan kedua setelah Amerika Serikat atau melampaui Amerika Serikat dalam hal jumlah makalah kecerdasan buatan yang diterbitkan dan jumlah pembiayaan kecerdasan buatan Khususnya di bidang pengenalan visual, perusahaan kecerdasan buatan China telah berulang kali memecahkan rekor dalam kompetisi internasional dan mencapai hasil yang sangat baik.
Namun segera, dengan promosi pasar, potensi teknologi asli berangsur-angsur memuncak.Pada tahun 2019, Zhang Bo, seorang akademisi dari Akademi Ilmu Pengetahuan China, menyarankan dalam sebuah wawancara eksklusif dengan Pengamat Ekonomi bahwa potensi aplikasi industri dapat telah menyentuh pada jalur teknologi yang ada, ke langit-langit.
Lebih penting lagi, dari sudut pandang komersial, rute teknis asli AI selalu sulit untuk menembus hambatan biaya, sehingga lebih banyak pelanggan industri tradisional tidak dapat membayar tagihan. Zhu Bing berkata, "Selama bertahun-tahun, kami belum melihat tatanan baru yang kuat. Sejumlah besar perusahaan dengan kejam bersaing dalam dua jalur pengenalan manusia dan pelat nomor. Alasan mendasarnya adalah semakin banyak algoritme tidak dapat membentuk efek skala. "
Seorang peneliti AI dari perusahaan terkemuka mengatakan kepada wartawan bahwa menurut metode tradisional, sebuah perusahaan AI melayani pabrik mobil dan menjual satu set algoritme untuk mengidentifikasi penghalang jalan.Algoritma tunggal rata-rata untuk mengidentifikasi penghalang jalan berharga lebih dari 100.000 yuan dan memakan waktu sekitar 2 bulan. , pelanggan perlu memberikan puluhan ribu gambar untuk pelabelan, tetapi hanya satu algoritme yang tidak cukup, pemandangan jalan yang sebenarnya sangat kompleks, algoritme yang cocok untuk mobil kecil mungkin tidak cocok untuk truk besar, dan itu tidak dapat dikenali dari sudut yang lain.Juga sulit untuk mengenali ketika target deteksi terhalang sebagian.
Untuk meningkatkan kecerdasan peralatan, perusahaan AI perlu menerapkan banyak algoritme, yang berarti menumpuk banyak model kecil. Menurut laporan keuangan, SenseTime telah mengumpulkan 67.000 model komersial kecil Reporter mengetahui dari Yuncong Technology bahwa perusahaan juga memiliki ribuan model komersial kecil.
Tetapi waktu dan biaya pelatihan juga berlipat ganda.
Feng Junlan mengatakan kepada wartawan bahwa sulit bagi banyak perusahaan AI untuk menghasilkan uang. Salah satu alasan penting adalah tingginya biaya layanan AI, menyebabkan perusahaan "menghasilkan satu yuan dan kehilangan lima yuan", dan model "semakin banyak pesanan yang diterima, semakin banyak kompensasi" mempersulit pemasok. Selanjutnya, sisi permintaan hanya dapat berupa beberapa industri kunci atau industri dengan kemampuan pembayaran yang kuat.
Menurut laporan keuangan, dari 2018 hingga 2022, Teknologi Yuncong telah mengakumulasi kerugian sebesar 3,1 miliar yuan, dan SenseTime telah mengakumulasikan kerugian lebih dari 40 miliar yuan.
Untuk lebih mengurangi biaya AI dan meningkatkan pasar, strategi "AI Four Tigers" juga telah menyimpang. SenseTime memilih perangkat AI, Cloudwalk memilih sistem operasi, Megvii memilih chip, dan YITU memilih IoT.
Dari perspektif ini, model besar tidak hanya membawa tantangan bagi perusahaan yang sudah ada, tetapi juga model bisnis baru dan skenario aplikasi.
Peneliti yang disebutkan di atas mengatakan bahwa perusahaan telah berusaha keras untuk menemukan bisnis AI di lebih banyak pasar. Misalnya, perusahaan pernah berbicara dengan supermarket tentang pemantauan AI untuk mendeteksi apakah ada penjual. Perusahaan mengirim lima insinyur algoritme, dan gaji saja biaya 300.000 yuan Total gaji bulanan puluhan penjual klien kurang dari 50.000 yuan, dia juga berbicara dengan pemilik pabrik tentang pemeriksaan kualitas AI, yang mendeteksi apakah kotak kemasan di jalur perakitan rusak, dan yang lainnya pihak menilai bahwa lebih ekonomis untuk mempekerjakan pekerja, dll.
Persyaratan ini secara kolektif disebut sebagai persyaratan AI jangka panjang: sejumlah besar pelanggan kecil dan menengah, dengan kemampuan pembayaran yang lemah, tidak memiliki permintaan AI yang kaku, tetapi memiliki beberapa kebutuhan khusus dalam skenario tertentu, yang dapat digunakan atau tidak, dan mereka tidak mau membayar jutaan dolar. . Dalam pandangan peneliti ini, di masa depan, jenis model besar tertentu atau sekumpulan model besar multi-modal dapat diterapkan pada skenario deteksi visual ini, dengan menggunakan migrasi dan kemampuan umum model besar, hanya sejumlah kecil dari anotasi data dan investasi algoritme diperlukan, dan pengembangan Siklus dan persyaratan untuk daya komputasi juga akan lebih rendah, sehingga biayanya akan sangat berkurang, dan pelanggan akan cenderung membayar.
Zhu Bing telah menghitung bahwa di masa lalu, algoritme AI berdasarkan model kecil dapat memenuhi kurang dari 10% persyaratan fragmentasi. Di masa mendatang, kemungkinan algoritme AI berdasarkan model besar dapat ditingkatkan hingga lebih dari 50%, dan efisiensi dari algoritma long-tail keseluruhan dapat ditingkatkan 10 kali lipat Waktu dapat dikurangi menjadi dalam 1 minggu orang.
Yao Zhiqiang mengatakan kepada wartawan bahwa setelah teknologi diplatform dan distandarisasi, semua perusahaan AI dapat dengan cepat beradaptasi dengan skenario masif dan mewujudkan aplikasi masif melalui platform basis teknologi inti terpadu.
Feng Junlan mengatakan bahwa biaya konsumsi teknologi jauh lebih kecil daripada nilai yang dibawa teknologi ke bisnis.Ketika formula ini terpenuhi, teknologi dapat ditingkatkan dan bermigrasi ke pasar yang lebih banyak dan berekor lebih panjang. Ini juga memenuhi logika fundamental bagi perusahaan AI untuk mencapai profitabilitas, dan juga berarti bahwa mereka memiliki kesempatan untuk mengembangkan lebih banyak pasar samudra biru.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model besar AI akan merevolusi AI
Sumber: Pengamat Ekonomi
Pengarang: Shen Yiran
Pada bulan April tahun ini, beberapa peneliti di perusahaan kecerdasan buatan terkemuka memperhatikan teknologi baru: SAM (Segment Anything Model). Para peneliti dengan cepat melaporkan teknologi ini kepada kepala departemen Perusahaan ini dimulai dengan teknologi visi mesin, dan teknologi yang menjadi fokus para peneliti juga terkait dengan ini. “Dengan munculnya SAM, semakin banyak orang AI yang menyadari bahwa model besar mengejutkan mereka,” kata salah satu peneliti.
Sebulan kemudian, perusahaan mulai mengalokasikan sumber daya untuk mengembangkan model visual yang besar.
Dalam tiga bulan berikutnya, perusahaan AI visi mesin terkemuka memperhatikan potensi teknologi ini.Sejauh ini, perusahaan kecerdasan buatan seperti SenseTime dan CloudWalk Technology, serta perusahaan keamanan tradisional, telah mulai berinvestasi dalam kompetisi teknologi baru ini.
SAM adalah model segmentasi gambar untuk pemandangan umum. Ini diluncurkan oleh Meta pada bulan April tahun ini. Sama seperti berbicara dengan ChatGPT, manusia dapat menggunakan beberapa instruksi bahasa agar SAM dapat membedakan dan memikirkan konten dalam gambar secara mandiri. SAM dianggap be ChatGPT muncul di bidang penglihatan.
Penggemar di seluruh dunia menggunakannya untuk menggambar, memotong gambar, dan bersenang-senang, tetapi peneliti Cina telah mengakui kekuatan SAM: jika digunakan dalam mengemudi otomatis, pemantauan keamanan, untuk mendeteksi orang, mobil, dan jalan, itu adalah model besar mandiri yang secara fundamental merusak gameplay visi mesin tradisional.
Segmentasi dan pengenalan gambar adalah tugas inti dari visi mesin. Di masa lalu, setiap tugas membuat gambar tersegmentasi memerlukan pelatihan algoritme, menganotasi kumpulan data, dan memungkinkan mesin untuk "melihat" berbagai objek dalam gambar dengan melapiskan model kecil. SAM telah menunjukkan beberapa fitur baru: tanpa membuat model kecil untuk setiap tugas tertentu, mesin dapat secara mandiri mengelompokkan objek apa pun dalam gambar apa pun, bahkan pemandangan buram yang tidak diketahui, dan pengoperasiannya sangat sederhana.
Ini berarti bahwa SAM memiliki fitur yang lebih umum, dan dimungkinkan untuk menggunakan fitur umum ini untuk mengurangi biaya pengenalan visi mesin secara signifikan, sehingga mengubah model bisnis dan pola persaingan berdasarkan teknologi aslinya.
Sejak 2016, ratusan perusahaan kecerdasan buatan telah muncul di China, yang memiliki pasar yang sangat besar, dengan bantuan persaingan pasar dan modal, beberapa AI unicorn secara bertahap terbentuk, seperti Teknologi Shangtang, Teknologi Cloudwalk, Teknologi Megvii, Menurut Teknologi Yitu , perusahaan-perusahaan ini telah membawa AI ke bidang keamanan, urusan pemerintahan, dan industri, serta membangun parit dengan memanfaatkan kecanggihan algoritme dan keunggulan skala.
Tapi sekarang, dengan perubahan teknologi, acara tersebut mungkin akan dimulai kembali.
Feng Junlan, Kepala Ilmuwan China Mobile Group dan Wakil Ketua Aliansi Pengembangan Industri Kecerdasan Buatan China, mengatakan kepada wartawan bahwa AI model besar akan membawa paradigma kecerdasan buatan baru yang disebut parit di bidang AI di masa lalu pada dasarnya tidak ada di bawah pengaruh model besar. . Munculnya SAM membuktikan kelayakan model visual besar, menumbangkan kerangka penelitian, interaksi dan metode layanan produksi dari visi mesin.
Luo Xun, anggota senior IEEE, seorang profesor di Universitas Teknologi Tianjin, dan seorang ahli dalam teknologi AR/VR, mengatakan kepada wartawan bahwa keunggulan kemampuan AI dari perusahaan terkemuka sebelumnya akan melemah sampai batas tertentu karena munculnya model besar tujuan umum. Tetapi apakah perusahaan-perusahaan ini sendiri akan menjadi lebih lemah bergantung pada transformasi mereka.
Rute teknis
Sebagai cabang AI yang penting, tujuan dari visi mesin adalah untuk memungkinkan komputer meniru sistem visual manusia untuk memahami dan memproses gambar dan video.
Setelah tahun 2000, Geoffrey Hinton, Yann LeCun, dan Yoshua Bengio, yang dikenal sebagai pendiri kecerdasan buatan, menerobos teknologi pembelajaran mendalam, memungkinkan mesin untuk mensimulasikan otak manusia secara samar-samar, dan secara otomatis mempelajari dan mengekstraksi fitur dari gambar masif.
2012 adalah simpul waktu yang penting. Proyek ImageNet yang dibuat oleh profesor Universitas Stanford, Li Feifei, mendorong pembelajaran mendalam ke arus utama: peneliti dapat mengajarkan komputer untuk mengenali berbagai objek dengan memberi label sejumlah besar gambar secara manual, yang sangat meningkatkan penglihatan mesin. Tingkat akurasi mengurangi biaya dan memungkinkan untuk dikomersialkan.
Pada April 2023, perubahan baru datang, dan Meta meluncurkan model segmentasi gambar yang disebut SAM. Sebagai model besar, SAM tidak hanya melengkapi mesin dengan mata untuk memahami dunia luar, tetapi juga melengkapi mesin dengan otak nyata. Ia belajar mengamati, memahami, berpikir, menalar secara logis, dan menggambar hasil dari gambar, dan pengoperasian sangat sederhana, mirip dengan ChatGPT menggunakan dialog bahasa manusia untuk memberikan perintah mesin.
Singkatnya, ini mencapai tujuan visi mesin dengan lebih mudah, tanpa memerlukan banyak anotasi gambar dan algoritme penumpukan, dan menghabiskan lebih sedikit daya komputasi. Ilmuwan kecerdasan buatan Nvidia Jim Fan mengatakan bahwa model besar SAM adalah momen penglihatan mesin GPT-3. Ia telah memahami konsep umum objek, bahkan untuk objek yang tidak dikenal, pemandangan yang tidak dikenal (seperti gambar bawah air), dan dalam situasi yang ambigu Gambar segmentasi juga bisa.
Setelah Meta merilis SAM, Meta juga membuka sumber model dan kumpulan data pelatihan di belakangnya, dan memperkenalkan skenario aplikasi SAM dari AR, VR, pembuatan konten, dan bidang lainnya.
Perusahaan dan peneliti di China dengan cepat menilai kemungkinan nilai komersial SAM. Jika digunakan dalam mengemudi otonom, pemantauan keamanan, untuk mendeteksi orang, mobil, dan jalan, secara fundamental dapat merusak visi mesin tradisional.
Feng Junlan mengatakan bahwa model besar akan mengubah mode pasokan AI, sangat mengurangi kompleksitas sisi penawaran, dan biaya marjinal mendekati nol; sisi bisnis dapat mengungkapkan permintaan dalam bahasa alami yang lebih sederhana, dan tidak perlu lagi bergantung pada instruksi profesional seperti kode oleh insinyur Berkomunikasi dengan mesin dan menerapkan secara fleksibel ke model yang berbeda sesuai dengan kebutuhan mereka sendiri, meningkatkan efisiensi
Zhu Bing, chief product officer Uniview Technology, mengatakan kepada wartawan, "Di masa lalu, melakukan pekerjaan AI seperti membawa kotak. Faktanya, itu adalah pekerjaan fisik yang relatif berteknologi rendah. Ketika AI mendukung adegan satu titik, itu adalah sangat terfragmentasi. Dan yang disesuaikan, efisiensi pra-penjualan, efisiensi purna jual, dan efisiensi penjualan semuanya rendah, dan industri hulu dan hilir lebih menyakitkan. Misalnya, Zhu Bing mengatakan bahwa investasi dan biaya produsen yang berinvestasi dalam pengembangan, pengumpulan bahan, kalibrasi, dan penyesuaian algoritme untuk berbagai skenario dan wilayah sangat besar.Bagi pelanggan, biaya pengembangan kustom juga merupakan pengeluaran yang cukup besar.
Saat ini, menggunakan model besar untuk menggantikan gameplay model kecil asli tidak memerlukan algoritme susun atau data berlabel dalam jumlah besar, dan hanya menghabiskan sedikit daya komputasi dalam prosesnya. Anda dapat menggunakan bahasa manusia yang lebih sederhana untuk memberikan perintah ke mesin tanpa menggunakan bahasa pemrograman komputer profesional. . Zhu Bing mengatakan bahwa model besar telah sangat mengurangi biaya penelitian dan pengembangan dan penerapan AI. Model ini telah membangun serangkaian permainan baru dan merestrukturisasi tatanan industri, terutama di industri visi komputer. Hambatan teknis sebelumnya yang dibangun oleh perusahaan besar telah telah dihaluskan. , semua orang kembali ke garis awal yang sama.
Masuk
Sekitar generasi teknologi visi mesin sebelumnya, sejumlah perusahaan kecerdasan buatan lahir di China, dan teknologi yang disediakan oleh perusahaan tersebut mulai banyak digunakan dalam pemantauan kamera dan identifikasi pemeriksaan keamanan untuk keamanan publik, kereta bawah tanah, dan bangunan komersial.
"AI Four Tigers" mengacu pada empat perusahaan kecerdasan buatan Tiongkok yang didirikan berturut-turut antara tahun 2011 dan 2014, yaitu SenseTime, Teknologi Cloudwalk, Teknologi Megvii, dan Teknologi Yitu. Fitur umum mereka adalah visi mesin sebagai teknologi inti.Terobosan AI dalam rute pembelajaran mendalam telah memberikan landasan teknis bagi kebangkitan kelompok perusahaan kecerdasan buatan ini, dan keunggulan industri China telah menyediakan pasar untuk pengembangan perusahaan-perusahaan ini .
Setelah SAM keluar, mereka mulai mengincar teknologi ini satu demi satu.
Wartawan mengetahui dari banyak orang di industri ini bahwa, selain Teknologi Yitu, SenseTime, Teknologi Cloudwalk, dan Teknologi Megvii di antara "AI Four Tigers", semuanya sedang mengembangkan model visual berskala besar. Kangweishi dan Teknologi Uniview juga menyebarkan penelitian teknologi terkait dan pengembangan.
Pada bulan April, hanya beberapa hari setelah Meta meluncurkan SAM, SenseTime merilis model besar "Daily New". Tian Feng, dekan Institut Penelitian Industri Cerdas SenseTime, mengatakan kepada wartawan bahwa seri "Ri Ri Xin" adalah kumpulan dari beberapa model besar termasuk pembuatan bahasa alami, pembuatan gambar, dan persepsi visual. Diantaranya, "Ruying", "Qiongyu" , "Gewu" adalah model besar yang berhubungan dengan penglihatan.
Pada bulan Mei, Teknologi Yuncong merilis model besar "tenang", yang merupakan model besar multi-modal termasuk visi Teknologi Yuncong menyatakan pada pertemuan investor baru-baru ini bahwa model besar visual sangat penting dan akan diluncurkan di masa depan Dipimpin secara visual model. Karena perusahaan memiliki cadangan yang kuat dalam visi komputer, dan karena membutuhkan teknologi multi-modal untuk menyelesaikan bisnis spesifik pelanggan.
Megvii dan Yitu belum meluncurkan model besar. Megvii mengatakan kepada wartawan bahwa itu "mengembangkan model besar, tetapi belum diluncurkan dan dikirim ke pelanggan." Dalam hal arah, Megvii telah memilih empat arah penelitian: model besar gambar umum, model besar pemahaman video, model besar fotografi komputasi, dan model besar persepsi mengemudi otonom, dan telah mencapai terobosan tertentu.
Su Lianjie, kepala analis kecerdasan buatan di lembaga penelitian Omdia, mengatakan kepada wartawan bahwa di bawah pengaruh model skala besar visual, "AI Four Tigers" dengan cepat berubah menjadi model skala besar dan menerapkan skala besar multi-modal. -model skala yang berfokus pada visi.relatif masuk akal.
Hikvision mengatakan kepada investor pada bulan Juni tahun ini, "Kami memperhatikan model SAM pada awal peluncurannya dan melakukan evaluasi sistematis." Zhu Bing mengatakan kepada wartawan bahwa model industri AIoT yang dikembangkan sendiri oleh perusahaan " "Wutong" adalah model industri skala besar berdasarkan model skala besar umum + adegan industri + pelatihan dan penyetelan.Ini dirilis untuk pertama kalinya pada 9 Mei dan telah diuji oleh mitra gelombang pertama pada bulan Juni.
Hikvision dan Uniview Technology adalah perusahaan keamanan tradisional yang dimulai sebagai produsen peralatan. Mereka menghadapi persaingan sengit setelah "AI Four Tigers" memasuki industri keamanan. Mereka secara aktif merangkul pangsa pasar teknologi visi mesin.
Saat ini, perusahaan AI mulai mencapai konsensus tentang arti "pembuatan zaman model besar".
Tian Feng, dekan Institut Penelitian Industri Cerdas SenseTime, dan Yao Zhiqiang, salah satu pendiri Teknologi Yuncong, keduanya mengatakan kepada wartawan bahwa AI1.0 adalah era model kecil. Perusahaan terutama menyediakan model kecil berpemilik dan menggunakan teknologi multi-titik untuk memecahkan kebutuhan adegan spesifik. ; AI2.0 adalah era model besar. Perusahaan perlu menggunakan platform basis teknologi skala besar terpadu, yaitu, untuk membuat model dasar multi-modal dengan persepsi umum dan kemampuan kognisi untuk dunia, dan menghasilkan serangkaian industri berdasarkan model kecil ini untuk memenuhi kebutuhan adegan profesional dan adegan yang lebih masif.
Yao Zhiqiang percaya bahwa jika perusahaan AI masih pada tahap sebelumnya, mungkin dapat menyelesaikan banyak masalah adegan, tetapi biayanya sulit dikurangi, membuat efek skala tidak mungkin ditampilkan; Tian Feng percaya bahwa dua era hidup berdampingan selama lama, dan tidak ada yang menghilangkan yang lain Hubungan yang berlawanan, keduanya diselesaikan secara terkoordinasi. Misalnya, dengan menggunakan struktur model ahli hybrid (MoE), di era AI2.0, beberapa model digabungkan menjadi layanan, dan model 1.0 juga dapat disematkan.
Dalam persaingan baru, akumulasi teknologi asli dan investasi perangkat keras masih akan berperan.
Tian Feng mengatakan kepada wartawan bahwa pusat komputasi cerdas "Perangkat Besar AI" memiliki daya komputasi AI yang kuat dan dapat memberikan daya komputasi pelatihan untuk 20 model besar dengan ratusan miliar parameter. Ini adalah peralatan utama untuk mengembangkan dan melatih model besar. SenseTime Not hanya untuk penggunaan pribadi, tetapi juga terbuka untuk startup skala besar dan mitra R&D.
Orang yang relevan yang bertanggung jawab atas Yunwalk mengatakan kepada wartawan bahwa sistem operasi CWOS perusahaan memiliki keunggulan yang melekat dalam mengintegrasikan model bahasa super seperti ChatGPT. Pada saat yang sama, sistem dapat memberi umpan balik data dan informasi ke model besar sesuai dengan situasi produksi aktual, mengoptimalkan pelatihan dan penyesuaian model, serta meningkatkan akurasi dan efisiensi model.
Model besar menerobos pasar
"Bahkan tanpa pengaruh model besar, "AI Four Tigers" masih dalam masa kebingungan dalam transformasi, dan perlu memikirkan nilai dan jalan keluar mereka sendiri." kata Su Lianjie.
Sekelompok perusahaan kecerdasan buatan telah disukai oleh modal dan pasar, di antaranya SenseTime dan CloudWalk telah mendarat di pasar modal. Dari 2018 hingga 2022, SenseTime telah menginvestasikan lebih dari 12 miliar yuan dalam penelitian dan pengembangan setiap tahun, dan mengumpulkan lebih dari 5 miliar yuan dalam IPO pada tahun 2021. Dari 2018 hingga 2022, Yuncong telah menginvestasikan lebih dari 2,2 miliar yuan untuk penelitian dan pengembangan setiap tahun, dan akan mengumpulkan 1,7 miliar yuan dalam IPO pada tahun 2022.
Interaksi yang baik antara teknologi dan modal juga telah memberi China keunggulan terdepan di bidang pengenalan visual.Sekitar tahun 2018, China berada di urutan kedua setelah Amerika Serikat atau melampaui Amerika Serikat dalam hal jumlah makalah kecerdasan buatan yang diterbitkan dan jumlah pembiayaan kecerdasan buatan Khususnya di bidang pengenalan visual, perusahaan kecerdasan buatan China telah berulang kali memecahkan rekor dalam kompetisi internasional dan mencapai hasil yang sangat baik.
Namun segera, dengan promosi pasar, potensi teknologi asli berangsur-angsur memuncak.Pada tahun 2019, Zhang Bo, seorang akademisi dari Akademi Ilmu Pengetahuan China, menyarankan dalam sebuah wawancara eksklusif dengan Pengamat Ekonomi bahwa potensi aplikasi industri dapat telah menyentuh pada jalur teknologi yang ada, ke langit-langit.
Lebih penting lagi, dari sudut pandang komersial, rute teknis asli AI selalu sulit untuk menembus hambatan biaya, sehingga lebih banyak pelanggan industri tradisional tidak dapat membayar tagihan. Zhu Bing berkata, "Selama bertahun-tahun, kami belum melihat tatanan baru yang kuat. Sejumlah besar perusahaan dengan kejam bersaing dalam dua jalur pengenalan manusia dan pelat nomor. Alasan mendasarnya adalah semakin banyak algoritme tidak dapat membentuk efek skala. "
Seorang peneliti AI dari perusahaan terkemuka mengatakan kepada wartawan bahwa menurut metode tradisional, sebuah perusahaan AI melayani pabrik mobil dan menjual satu set algoritme untuk mengidentifikasi penghalang jalan.Algoritma tunggal rata-rata untuk mengidentifikasi penghalang jalan berharga lebih dari 100.000 yuan dan memakan waktu sekitar 2 bulan. , pelanggan perlu memberikan puluhan ribu gambar untuk pelabelan, tetapi hanya satu algoritme yang tidak cukup, pemandangan jalan yang sebenarnya sangat kompleks, algoritme yang cocok untuk mobil kecil mungkin tidak cocok untuk truk besar, dan itu tidak dapat dikenali dari sudut yang lain.Juga sulit untuk mengenali ketika target deteksi terhalang sebagian.
Untuk meningkatkan kecerdasan peralatan, perusahaan AI perlu menerapkan banyak algoritme, yang berarti menumpuk banyak model kecil. Menurut laporan keuangan, SenseTime telah mengumpulkan 67.000 model komersial kecil Reporter mengetahui dari Yuncong Technology bahwa perusahaan juga memiliki ribuan model komersial kecil.
Tetapi waktu dan biaya pelatihan juga berlipat ganda.
Feng Junlan mengatakan kepada wartawan bahwa sulit bagi banyak perusahaan AI untuk menghasilkan uang. Salah satu alasan penting adalah tingginya biaya layanan AI, menyebabkan perusahaan "menghasilkan satu yuan dan kehilangan lima yuan", dan model "semakin banyak pesanan yang diterima, semakin banyak kompensasi" mempersulit pemasok. Selanjutnya, sisi permintaan hanya dapat berupa beberapa industri kunci atau industri dengan kemampuan pembayaran yang kuat.
Menurut laporan keuangan, dari 2018 hingga 2022, Teknologi Yuncong telah mengakumulasi kerugian sebesar 3,1 miliar yuan, dan SenseTime telah mengakumulasikan kerugian lebih dari 40 miliar yuan.
Untuk lebih mengurangi biaya AI dan meningkatkan pasar, strategi "AI Four Tigers" juga telah menyimpang. SenseTime memilih perangkat AI, Cloudwalk memilih sistem operasi, Megvii memilih chip, dan YITU memilih IoT.
Dari perspektif ini, model besar tidak hanya membawa tantangan bagi perusahaan yang sudah ada, tetapi juga model bisnis baru dan skenario aplikasi.
Peneliti yang disebutkan di atas mengatakan bahwa perusahaan telah berusaha keras untuk menemukan bisnis AI di lebih banyak pasar. Misalnya, perusahaan pernah berbicara dengan supermarket tentang pemantauan AI untuk mendeteksi apakah ada penjual. Perusahaan mengirim lima insinyur algoritme, dan gaji saja biaya 300.000 yuan Total gaji bulanan puluhan penjual klien kurang dari 50.000 yuan, dia juga berbicara dengan pemilik pabrik tentang pemeriksaan kualitas AI, yang mendeteksi apakah kotak kemasan di jalur perakitan rusak, dan yang lainnya pihak menilai bahwa lebih ekonomis untuk mempekerjakan pekerja, dll.
Persyaratan ini secara kolektif disebut sebagai persyaratan AI jangka panjang: sejumlah besar pelanggan kecil dan menengah, dengan kemampuan pembayaran yang lemah, tidak memiliki permintaan AI yang kaku, tetapi memiliki beberapa kebutuhan khusus dalam skenario tertentu, yang dapat digunakan atau tidak, dan mereka tidak mau membayar jutaan dolar. . Dalam pandangan peneliti ini, di masa depan, jenis model besar tertentu atau sekumpulan model besar multi-modal dapat diterapkan pada skenario deteksi visual ini, dengan menggunakan migrasi dan kemampuan umum model besar, hanya sejumlah kecil dari anotasi data dan investasi algoritme diperlukan, dan pengembangan Siklus dan persyaratan untuk daya komputasi juga akan lebih rendah, sehingga biayanya akan sangat berkurang, dan pelanggan akan cenderung membayar.
Zhu Bing telah menghitung bahwa di masa lalu, algoritme AI berdasarkan model kecil dapat memenuhi kurang dari 10% persyaratan fragmentasi. Di masa mendatang, kemungkinan algoritme AI berdasarkan model besar dapat ditingkatkan hingga lebih dari 50%, dan efisiensi dari algoritma long-tail keseluruhan dapat ditingkatkan 10 kali lipat Waktu dapat dikurangi menjadi dalam 1 minggu orang.
Yao Zhiqiang mengatakan kepada wartawan bahwa setelah teknologi diplatform dan distandarisasi, semua perusahaan AI dapat dengan cepat beradaptasi dengan skenario masif dan mewujudkan aplikasi masif melalui platform basis teknologi inti terpadu.
Feng Junlan mengatakan bahwa biaya konsumsi teknologi jauh lebih kecil daripada nilai yang dibawa teknologi ke bisnis.Ketika formula ini terpenuhi, teknologi dapat ditingkatkan dan bermigrasi ke pasar yang lebih banyak dan berekor lebih panjang. Ini juga memenuhi logika fundamental bagi perusahaan AI untuk mencapai profitabilitas, dan juga berarti bahwa mereka memiliki kesempatan untuk mengembangkan lebih banyak pasar samudra biru.