Setelah model bahasa besar, apakah visi komputer adalah outlet berikutnya?

Question

*Sumber artikel: Rumah Model Besar**Penulis:Zhao Xiaoman*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Sumber gambar: Dihasilkan oleh Unbounded AI*Bulan lalu, Open AI merilis versi terbaru GPT-4V, yang memungkinkan pengguna untuk menginstruksikan GPT-4 untuk menganalisis kemampuan terbaru dari input gambar yang disediakan pengguna, dan berita tersebut telah menarik perhatian industri bahwa menggabungkan modalitas lain, seperti input gambar, ke dalam model bahasa besar (LLM) dipandang sebagai batas utama dalam penelitian dan pengembangan AI, dan LLM multimodal menawarkan kemungkinan memperluas dampak sistem bahasa murni.Dari chatbot AI ChatGPT yang dirilis akhir tahun lalu hingga GPT-4V saat ini, Open AI memperluas Model Bahasa Besar (LLM) dengan keterampilan multisensori (seperti pemahaman visual) dalam Model Multimodal Besar (LMM) untuk mencapai kecerdasan umum yang lebih kuat.Tak lama setelah rilis GPT-4V, Microsoft memberikan panduan pengguna ultra-rinci 166 halaman untuk GPT-4V, dari mode input sederhana hingga kemampuan bahasa visual, petunjuk interaktif dengan manusia, hingga pemahaman video waktu, penalaran visual abstrak dan tes kecerdasan emosional IQ, GPT-4V tidak hanya dapat mencakup pengalaman interaktif dalam kehidupan sehari-hari, tetapi bahkan mewujudkan evaluasi diagnostik profesional di bidang industri, medis, dan lainnya.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Sumber: Microsoft (Web terjemahan untuk referensi saja)**Saat ini, kemampuan GPT-4V yang belum pernah terjadi sebelumnya untuk menangani input multimodal interleaved sewenang-wenang dan fleksibilitas fungsinya bergabung untuk menjadikan GPT-4V sistem generalis multimodal yang kuat. Selain itu, kemampuan unik GPT-4V untuk memahami penanda visual yang digambar pada gambar input dapat mengarah pada metode interaksi manusia-komputer baru, seperti isyarat referensi visual.Perlu ditegaskan bahwa eksplorasi awal GPT-4V dapat merangsang penelitian masa depan tentang formula tugas multimodal generasi berikutnya **, menggunakan dan meningkatkan metode baru LMM untuk memecahkan masalah dunia nyata, dan lebih memahami model dasar multimodal, dan juga menjadi eksplorasi baru dari arah pengembangan visi komputer.  ## **Big Model Memberdayakan Pengembangan Baru Computer Vision **  Mungkin jika menyangkut kemampuan multimodal, banyak orang yang tidak asing, dan ada banyak model besar di China yang sudah memiliki kemampuan multimodal ketika diluncurkan, dan dapat melakukan pengenalan citra dan generasi, tetapi harus diakui bahwa dibandingkan dengan LLM (model bahasa besar), pengembangan LMM (model multimodal besar) masih memiliki banyak celah yang harus dipecahkan. **Sebelumnya, Big Model Home telah mengalami sejumlah model besar dengan kemampuan multi-modal, mengambil kerangka kerja AI MindSpore "Zidong Taichu" versi 2.0 platform model besar dan iFLYTEK Spark sebagai contoh, yang perlu ditingkatkan dalam kemampuan analisis, penalaran dan ekspresi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **Foto: Zidong Taichu**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **Foto: iFLYTEK Spark****Perlu dicatat bahwa pada bulan April tahun ini, Meta mengusulkan model SAM (Segment Anything Model) ** untuk membagi semuanya, SAM adalah model yang cepat, yang telah melatih lebih dari 1 miliar topeng pada 11 juta gambar, mencapai generalisasi nol-sampel yang kuat, beberapa orang dalam industri mengatakan bahwa SAM menerobos batas-batas segmentasi dan sangat mempromosikan pengembangan model dasar visi komputer.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Sumber: Meta**SAM sendiri adalah segmentasi semantik gambar, dan model ini memahami konsep "objek" yang dapat menghasilkan topeng untuk objek apa pun dalam gambar atau video apa pun, bahkan jika belum melihatnya dalam pelatihan.Munculnya model SAM dan GPT-4V dapat memasang model bahasa besar pada "mata", seperti halnya Open AI yang disiapkan untuk penyebaran generasi GPT-4V**, termasuk Be My Eyes, sebuah organisasi yang membangun alat untuk pengguna tunanetra, menjelang pembuatan model, dapat dibayangkan bahwa model besar adalah "buta" yang berbicara, tetapi setelah menambahkan penglihatan, model besar dengan kemampuan multimodal dapat memahami angka, video, dll. Kekuatan fungsi ini juga mendorong perkembangan kecerdasan buatan ke arah yang baru.  ## **Di bawah gelombang model besar, jalan visi komputer domestik**  Setelah menggunakan fungsi input gambar, pengenalan dan analisis inferensi, model besar dapat mencapai pemekaran multi-bidang dan bergerak menuju "GPT visi komputer".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **Sumber: Huawei**Di sisi industri, dengan menerapkan model visual besar untuk deteksi cacat dan langkah-langkah penting lainnya untuk memastikan kualitas produk dalam proses manufaktur, penting untuk dapat mendeteksi kesalahan atau cacat secara tepat waktu dan mengambil tindakan yang tepat untuk meminimalkan biaya operasional dan terkait kualitas. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **Sumber: SenseTime**Dalam hal diagnosis pencitraan medis, dikombinasikan dengan pengetahuan domain profesional model kognitif besar, setelah menambahkan kemampuan visual, tidak hanya dapat menganalisis dalam berbagai gambar medis, tetapi juga dengan cepat menghasilkan laporan radiologi lengkap, dengan potensi untuk menjadi asisten AI untuk pembuatan laporan radiologi, saat ini SenseTime telah mengembangkan model bahasa medis Cina "Dokter Besar" berdasarkan pengetahuan medis dan data klinis, dengan kemampuan untuk menyediakan percakapan multi-skenario multi-putaran seperti bimbingan, konsultasi, konsultasi kesehatan, dan pengambilan keputusan.Dalam hal mengemudi otomatis, informasi gambar yang diperoleh oleh model besar kognitif selama mengemudi, tujuan mengemudi dinamis, dll., Dapat digabungkan untuk memberikan keputusan mengemudi dan penjelasan mengemudi yang sesuai, dan kemudian model besar dapat mengubahnya menjadi bahasa mengemudi otomatis, dan berinteraksi dengan sistem mengemudi otomatis melalui Drive untuk mencapai mengemudi cerdas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **Sumber: Baidu****Mengambil Baidu sebagai contoh, dalam Konferensi Dunia Baidu 2023 yang baru saja diadakan, dalam hal mengemudi cerdas, tumpukan teknologi mengemudi otonom sepenuhnya direkonstruksi melalui teknologi baru seperti Transformer dan BEV, dan kemampuan persepsi ditingkatkan dari generasi ke generasi, mempercepat kematangan dan mempopulerkan solusi penglihatan murni. Saat ini, solusi mengemudi cerdas high-end visi murni Baidu Apollo dapat diterapkan pada kecepatan tinggi, kota, parkir, dan skenario global lainnya, dan akan mencapai produksi massal pada kuartal keempat tahun ini, yang juga merupakan solusi penglihatan murni pertama di China yang mendarat di adegan perkotaan. Perlu disebutkan bahwa penghapusan lidar membuat biaya seluruh kendaraan lebih rendah dan meningkatkan daya saing pasar.** Big Model House percaya bahwa dengan berkah pengetahuan umum tentang model bahasa besar, visi komputer telah mengantarkan ke arah pengembangan yang lebih jelas **, dari visi komputer awal yang mengandalkan memori berulang untuk aplikasi praktis (seperti pengenalan wajah, pengenalan objek), menjelajahi integrasi visi dan bahasa telah menjadi arah baru model besar dan visi komputer, dari pengembangan independen hingga integrasi timbal balik, kecerdasan buatan juga terus mengeksplorasi kemampuan sensorik lebih dekat dengan manusia, dapat menangkap detail dan fitur dalam gambar dengan lebih baik, dan akurasi model besar telah ditingkatkan. Itu dapat beradaptasi dengan lebih banyak adegan dan distribusi data, mengandalkan kemampuan untuk menulis dan memahami model besar, mengintegrasikan kemampuan visual, dan menjadi avatar yang lebih cerdas.Tentu saja, perkembangan ilmu pengetahuan dan teknologi harus dibatasi oleh banyak faktor. Model besar membutuhkan lebih banyak sumber daya komputasi dan waktu untuk pelatihan, yang dapat membatasi skalabilitas dan real-time, data pelatihan yang besar harus dibatasi oleh daya komputasi, terutama GPU berkinerja tinggi, memori dan penyimpanan berkecepatan tinggi, dan teknologi pelatihan terdistribusi, ** dan pasar GPU berkinerja tinggi global saat ini NVIDIA menempati hampir 90% saham, China ingin menempati posisi tinggi dalam kompetisi AI ini, mempromosikan pengembangan kualitas tinggi daya komputasi cerdas China telah menjadi prioritas utama. ****Secara umum, model besar memiliki banyak keuntungan setelah mengintegrasikan kemampuan visual, tetapi ada juga beberapa keterbatasan pengembangan pada tahap ini. **Dengan pengembangan berkelanjutan dari sumber daya pembelajaran mendalam dan komputasi, kita dapat mengharapkan munculnya model besar yang lebih maju dan teknologi terkait untuk lebih mempromosikan aplikasi dan terobosan visi komputer dalam tugas gambar resolusi tinggi.