Pertarungan model besar dalam ayunan penuh? "Model kecil" mungkin jalan keluarnya

Question

Teks: Keuangan Qingcheng, Penulis: Qing Mu Editor: Liu Zi

Sumber gambar: Dihasilkan oleh AI Tak Terbatas

Pada 26 Juli, OpenAI meluncurkan versi Android ChatGPT. Meskipun saat ini hanya tersedia di Amerika Serikat, India, Bangladesh, dan Brasil, OpenAI juga mengatakan akan mempromosikan versi Android ChatGPT di lebih banyak negara minggu depan. Ini membawa ChatGPT, yang sedikit kurang populer belakangan ini, kembali ke mata publik.

Di awal peluncuran ChatGPT, hanya butuh dua bulan untuk menjadi aplikasi tercepat dalam sejarah menembus 100 juta pengguna. Pasar teknologi global yang telah lama diam kembali mendidih. Investor dan pengusaha dalam negeri terbang ke Silicon Lembah bertanya.

Menghadapi gelombang AI yang bergejolak ini, pengusaha dan investor Tiongkok bertindak cepat. Beberapa bulan kemudian, industri teknologi China telah menunjukkan postur spektakuler "Perang Seratus Model". Pada paruh pertama tahun 2023, lebih dari 80 produk model skala besar telah muncul di China Menurut data terbaru, 130 perusahaan sudah membuat model skala besar di pasar domestik. Dalam skala global, lebih dari 400 model besar baru dirilis pada paruh pertama tahun ini.

Sementara pemain model skala besar China mengejar kepentingan komersial dan masa depan teknologi, mereka juga dijuluki sentimen nasional: menjadi OpenAI versi China.

Menurut berita pada 24 Juli, sebelum ChatGPT versi Android diluncurkan, IDC merilis laporan evaluasi kemampuan teknis model skala besar yang menunjukkan bahwa model skala besar Baidu Wenxin 3.5 mendapat skor 7 dari 12 indikator, menempati peringkat pertama dalam skor komprehensif. Wu Tian, wakil presiden Baidu, mengatakan bahwa kemampuan versi baru Wenxin Yiyan 3.5 telah melampaui ChatGPT 3.5, yang merupakan tonggak penting dalam pengembangan pekerjaan teknis terkait di negara kita.

HKUST Xunfei sebelumnya mengumumkan akan melakukan iterasi ketiga dari model besar Xinghuo pada 24 Oktober, sepenuhnya membandingkan ChatGPT, kemampuan China telah melampaui GPT3.5, dan kemampuan bahasa Inggris setara dengan GPT3.5.

01 adegan, adegan

Faktanya, seperti yang dikatakan Li Zhifei, mantan ilmuwan Google dan pendiri serta CEO Mobvoy, mungkin tidak ada organisasi seperti OpenAI di China.

Dibandingkan dengan model skala besar tujuan umum seperti ChatGPT, produk model skala besar domestik lebih memperhatikan aplikasi dan skenario, yaitu model skala besar vertikal, model skala besar industri, dan model skala besar industri. Dalam hal ini, pendapat para petinggi di kalangan modal ventura teknologi hampir mengungkapkan makna yang sama.

Robin Li, pendiri Baidu, telah lama menyatakan secara terbuka: "Tidak masuk akal bagi perusahaan pemula untuk membuat ulang ChatGPT. Saya pikir ada peluang besar untuk mengembangkan aplikasi berdasarkan model bahasa yang besar ini. Tidak ada perlu menemukan kembali roda. Setelah roda, dimungkinkan untuk membuat mobil." , Pesawat terbang, nilainya mungkin jauh lebih besar daripada roda."

Zhu Xiaohu, direktur pelaksana GSR Venture Capital, menulis di Moments: "Jangan percaya takhayul tentang model umum, karena tahun depan GPT-3.5 akan menjadi komoditas (infrastruktur umum), dan tiga tahun kemudian, GPT-4 juga akan menjadi . Bagi kebanyakan Pengusaha, skenario pertama, data adalah raja!"

Fu Sheng, ketua dan CEO Cheetah Mobile, percaya bahwa akan ada dua jalan untuk model besar. Model besar yang disebut Menjadi Lebih Baik adalah "Membangun Einstein". Tetapi banyak pekerjaan tidak membutuhkan "Einstein", lulusan perguruan tinggi dapat melakukannya. Ini cara lain. Saya yakin pasti ada banyak orang yang membuat "model besar sipil".

Zhang Pingan, CEO Huawei Cloud, mengatakan pada konferensi pers Pangu Large Model 3.0: "Model Besar Pangu tidak punya waktu untuk menulis puisi dan mengobrol. Tidak peduli berapa banyak parameter yang ada dan seberapa bagus kemampuan dialognya, jika bisa tidak memecahkan masalah praktis, itu tidak akan banyak berguna."

Sebagian besar model skala besar yang dirilis di China baru-baru ini ditujukan untuk industri vertikal, seperti model skala besar Yanxi yang dirilis oleh JD Model skala besar vertikal "Ziyue" di bidang pendidikan yang dirilis oleh Dao.

Model besar JD Yanxi telah mengumpulkan akumulasi pengetahuan JD di bidang ritel, logistik, kesehatan, keuangan, dan industri lainnya selama bertahun-tahun. Ini mengintegrasikan 70% data umum dan 30% data rantai pasokan asli JD untuk pelatihan, membawa rekomendasi produk, kebijakan keuangan , Kemampuan di berbagai bidang seperti aturan manajemen keuangan dan pengalaman logistik. Cao Peng, Presiden Divisi JD Cloud, percaya bahwa satu teknologi model skala besar itu sendiri tidak dapat secara langsung menghasilkan nilai, dan teknologi tersebut hanya dapat menghasilkan nilai aktual ketika dimasukkan ke dalam adegan.

Model perjalanan Ctrip meminta untuk menyaring 20 miliar data pariwisata tidak terstruktur, menggabungkan data real-time struktural Ctrip yang ada, dan robot terlatih Ctrip serta algoritme pencarian untuk melakukan pelatihan model vertikal yang dikembangkan sendiri, dan menginvestasikan banyak tenaga kerja Menghasilkan dan memverifikasi respons umum konten perjalanan. Liang Jianzhang, pendiri dan ketua dewan direksi Ctrip, mengatakan bahwa Ctrip akan berusaha keras untuk berinvestasi dalam model besar, dan tidak ada batasan jumlah investasi.

Dalam hal aplikasi, Baidu baru-baru ini menjalin kerja sama dengan Lenovo di bidang AIGC. Bisnis kustomisasi pribadi Lenovo telah sepenuhnya memperkenalkan Baidu Wenxin Yige. Konsumen dapat menyesuaikan tampilan laptop melalui aktivitas pengecatan bertema AIGC di situs web resmi. Huawei Cloud Pangu Large Model dan Meitu Visual Large Model MiracleVision bersama-sama meluncurkan fungsi penyesuaian model AI, yang secara efektif dapat meningkatkan efisiensi e-commerce produk pakaian.

Meskipun model besar vertikal tidak memiliki persyaratan yang tinggi untuk parameter dan daya komputasi seperti model besar pada umumnya, ia memiliki persyaratan yang lebih tinggi untuk skenario dan data, mengharuskan pengembang untuk memiliki pengetahuan profesional, akumulasi praktik aplikasi industri yang kaya, dan toleransi terhadap kesalahan. juga lebih rendah, membutuhkan AI untuk memiliki stabilitas dan keandalan super. Oleh karena itu, semakin dekat dengan industri vertikal, semakin besar keunggulan model vertikal.

"Model skala besar umum dapat memecahkan 70%-80% masalah dalam 100 skenario, tetapi mungkin tidak dapat memenuhi kebutuhan skenario tertentu perusahaan 100%. Jika perusahaan menyesuaikan berdasarkan model industri skala besar dan datanya sendiri, dapat Membangun model khusus untuk membuat layanan cerdas yang sangat tersedia, dan parameter model lebih kecil dari model besar umum, biaya pelatihan dan penalaran lebih rendah, dan pengoptimalan model adalah lebih mudah." kata Senior Executive Vice President Tencent Group, CEO Cloud and Smart Industry Business Group Tang Daosheng.

Dari perspektif ini, "model kecil" mungkin lebih seksi dan lebih mampu memecahkan masalah tertentu.

SenseTime telah meluncurkan model besar dengan 100 miliar parameter, dan juga meluncurkan model kecil dengan 10 miliar parameter untuk berbagai bidang vertikal. Keuntungan dari model besar adalah dapat menemukan solusi baru dan membantu memecahkan masalah baru, setelah diselesaikan, dapat menghasilkan sejumlah besar data dalam bidang sempit dan melatih kembali model kecil. Beberapa model kecil bahkan dapat berjalan di terminal dengan biaya lebih rendah. Tapi model kecil tidak akan ada tanpa model besar.

02 Manufaktur besar mengambil semua pemenang, dimana peluang bagi perusahaan start-up?

Ada pandangan di industri bahwa ChatGPT versi China hanya akan diproduksi di lima perusahaan: Baidu, Ali, Tencent, Byte, dan Huawei.

Di era Internet, ini adalah tipikal "721". Tempat pertama enak dan pedas, tempat kedua hampir tidak bertahan, dan tempat ketiga dalam bahaya.

Saat ini, seratus model bertarung, dan semua orang ingin mendapat bagian dari model besar. Tetapi ada masalah yang sangat nyata bahwa pabrik besar memiliki keunggulan yang tidak dapat ditandingi oleh perusahaan pemula ketika mereka membuat model skala besar. Untuk perusahaan start-up yang kecil dan cantik, mungkin ini hanya ilusi yang ingin menggulingkan pabrik besar dengan hanya tiga atau lima orang.

Model besar tidak dapat dipisahkan dari platform cloud. Pendaratan model besar memerlukan penyempurnaan dan pelatihan berkelanjutan, yang semuanya harus dijalankan di platform cloud. Baidu, Ali, Tencent, Byte, dan Huawei semuanya memiliki bisnis cloud mereka sendiri. Baidu dan Huawei juga telah menyelesaikan tata letak dari chip hingga aplikasi. Baidu adalah "Kunlun Core + Flying Paddle Platform + Wenxin Large Model", Huawei adalah "chip Shengteng + kerangka kerja MindSpore + model besar Pangu", yang merupakan keunggulan yang tidak dapat ditandingi oleh perusahaan pemula.

Selain itu, perusahaan besar memiliki keunggulan alami dalam hal cadangan modal, sumber daya manusia, skenario penggunaan, dan akumulasi data. Tanpa skenario pendaratan untuk startup, teknologi tidak dapat diulang, terus dioptimalkan, dan efek jaringan data tidak dapat dibentuk.

Jadi perusahaan kecil tidak punya peluang sama sekali?

Mari kita lihat kembali metafora era demam emas: "Era ini sangat mirip dengan era demam emas. Jika Anda pergi ke California untuk mendulang emas pada waktu itu, banyak orang akan mati. Tetapi orang yang menjual sendok dan sekop bisa selalu menghasilkan uang." Ini juga benar. Lu Qi, pendiri dan CEO Qiji Chuangtan, baru-baru ini berbagi dengan para pengusaha. Lu Qi berharap dapat membantu pengusaha Tiongkok mengenali titik balik bersejarah ini, menemukan koordinat era saat ini, dan menemukan posisi mereka sendiri.

Pada awal Juli, Stuart Russell, seorang profesor ilmu komputer di University of California, Berkeley dan penulis "Artificial Intelligence—A Modern Approach", memperingatkan bahwa bot bertenaga AI seperti ChatGPT dapat segera "kehabisan teks di alam semesta ." ", dan teknik melatih bot dengan mengumpulkan teks dalam jumlah besar "mulai mengalami kesulitan".

Minggu lalu, lebih dari 8.500 penulis menandatangani surat yang meminta para pemimpin perusahaan termasuk OpenAI, Microsoft, Meta, dan Alphabet untuk tidak menggunakan karya mereka untuk melatih sistem AI tanpa izin atau pembayaran, dan meminta perusahaan kecerdasan buatan ini mengkompensasi kerugian hak cipta mereka.

Stok data Internet akan segera habis, dan data berkualitas tinggi menjadi semakin langka. Sebuah model baik atau buruk, 20% ditentukan oleh algoritma, dan 80% ditentukan oleh kualitas data. Dalam "troika" data, daya komputasi, dan algoritme, data adalah elemen inti, jangka panjang, dan paling mendasar. Model besar perlu diberi data dalam jumlah besar agar dapat terus dioptimalkan dan diulang.

Selanjutnya, nilai sebenarnya akan menjadi data berkualitas tinggi yang berkelanjutan. Cara terus mendapatkan sumber data yang legal, patuh, dan sejalan dengan logika bisnis akan menjadi faktor kunci dalam meningkatkan performa model besar. Oleh karena itu, operator data dapat menjadi peran penting yang membatasi pengembangan model besar.

Idealnya, model terus memberikan layanan kepada pengguna, dan pengguna terus menghasilkan data baru untuk model tersebut. Adapun langkah selanjutnya, data pribadi akan dijabarkan. Lebih banyak layanan yang dipersonalisasi berarti lebih banyak data pribadi, dan kecil kemungkinan manusia akan menunjukkan data pribadi ke model besar tanpa syarat.

Di era manapun, "penjual air" selalu menjadi bisnis yang bagus. Menariknya, tidak peduli apakah Anda seorang perintis, penjelajah, atau penggali emas, Anda tidak dapat melakukannya tanpa air. Tentu saja, Anda juga bisa menjual sendok dan sekop.

03 Kesimpulan

Dalam beberapa bulan terakhir, ada postingan yang beredar luas di platform sosial:

Pikirkan AI sebagai seorang anak. AI di Eropa dan Amerika Serikat termasuk dalam jalur pendidikan elit, setelah dia lahir, keluarganya menghabiskan uang untuk dia belajar sampai dia mendapatkan gelar doktor.

AI China termasuk dalam garis pendidikan utilitarian. Dia dibesarkan untuk bertahan hidup saat lahir, dan ketika dia berusia 15 tahun, dia dipaksa mencari cara untuk mendapatkan uang untuk keluarga dan belajar bagaimana memasarkan keterampilan.

Beberapa kata, dicicipi dengan hati-hati, penuh rasa.

Meskipun belum tentu benar, hal ini juga dapat menjelaskan mengapa OpenAI dan ChatGPT tidak muncul di China. Nyatanya, beberapa investor dan pengusaha dalam negeri pada awalnya penuh percaya diri dan ingin menjadi OpenAI versi China. Setelah beberapa bulan membolak-balik, saya menemukan bahwa saya masih perlu menemukan model keuntungan, menjelajahi skenario aplikasi bisnis, dan kemampuan komersialisasi.

Perlu disebutkan bahwa beberapa pengguna C-end baru-baru ini menganggap bahwa kinerja ChatGPT-4 pada tugas-tugas tertentu terlalu buruk.Hal ini dianggap sebagai penggunaan model ahli campuran (MOE) oleh OpenAI untuk mengurangi biaya dan meningkatkan efisiensi , dan mengalihkan fokusnya ke layanan tingkat perusahaan, salah satu tindakannya.

Melihat sekeliling, Apple juga sedang mengembangkan model bahasa besar Apple GPT sendiri, dan Qualcomm sudah mempelajari bagaimana mewujudkannya pada akhir tahun ini, sehingga model dengan level parameter 10 miliar hingga 15 miliar dapat berjalan offline di ponsel tanpa pemrosesan cloud.

Model besar adalah pembentukan kembali produktivitas, pergeseran paradigma. 200 tahun yang lalu, manusia pertama kali menggunakan mesin uap untuk mengubah energi panas menjadi energi kinetik, dan era industrialisasi pun dimulai. Saat ini, manusia menggunakan model besar untuk mengubah energi listrik menjadi kekuatan otak dan kecerdasan umum, dan era baru sedang dibuka.

Tentu kita tidak membutuhkan terlalu banyak roda, tapi kita tetap membutuhkan roda yang bagus.

Ada jalan panjang untuk pergi.

Lihat Asli