Evolusi "Konsultasi 2.0", berdiri di depan tata letak model SenseTime yang besar

2023-07-10 08:05:29

Kami mengalami gelombang besar infrastruktur baru AI.

Dalam waktu setengah tahun, model skala besar dengan cepat menyebar dari konsensus skala kecil. Menurut laporan yang dirilis oleh CITIC, jumlah model skala besar dengan lebih dari 1 miliar model parameter yang telah dirilis sejauh ini mendekati 80, setengahnya berasal dari perusahaan dan setengahnya lagi dari lembaga penelitian ilmiah.

Dalam proses pembentukan bertahap ekologi model skala besar domestik, ia juga mulai melepaskan pengejaran OpenAI dan secara bertahap menemukan jalannya sendiri. Standar untuk mengukur keberhasilan model besar juga telah berubah dari parameter persaingan jembatan keras dan kuda keras menjadi pemecahan masalah nyata.

SenseTime mengumumkan sistem model skala besar "SenseNova" untuk pertama kalinya pada bulan April tahun ini, dan merilis sejumlah model dan aplikasi AI skala besar termasuk model bahasa skala besar China yang dikembangkan sendiri "SenseChat". Baru-baru ini di World Artificial Intelligence Conference, SenseTime mengumumkan iterasi besar pertama dari sistem "Model Besar SenseNova Harian Baru". Model bahasa besar "negosiasi" ditingkatkan ke versi 2.0.

Ini lebih kuat. Di seluruh sistem tata letak model skala besar SenseTime, perannya menjadi semakin jelas.

"Negosiasi 2.0" yang Lebih Kuat

Bagaimana cara mencerminkan peningkatan kemampuan "Konsultasi 2.0" secara visual? Xu Li, ketua dan CEO SenseTime, mendemonstrasikan dialog yang tidak ada antara Lao Tzu dan Konfusius.

Jawaban untuk "Konsultasi 2.0" berkisar pada "Tao". Konfusius bertanya kepada Lao Tzu. Meskipun Lao Tzu telah tercerahkan, dia tidak dapat berbicara dengan Konfusius, jadi dia pergi begitu saja. Dialog yang dibawakan dalam adegan ini halus dan mengalir. "Discussion 2.0" bahkan menambahkan lelucon ke teks:

Konfusius berkata: "Saya telah mendengar nama Guru, dan sungguh merupakan keberuntungan besar bertemu dengan Anda hari ini!"

Lao Tzu berkata sambil tersenyum: "Tidak, aku berjalan di jalan yang sama denganmu, kenapa 'tiga nyawa'?"

Dan menurut pertanyaannya, seluruh dialog muncul dalam bahasa Mandarin klasik. Dan untuk menghindari kebingungan, "Konsultasi 2.0" juga menyatakan premis "ini hanya fiksi dan tidak boleh dianggap sebagai catatan sejarah yang sebenarnya" di kalimat pertama jawaban.

Ketika "Konsultasi 1.0" pertama kali diluncurkan, demonstrasi di tempat telah menunjukkan dialog multi-putaran yang sangat baik dan kemampuan kreasi manusia-mesin. Tiga bulan kemudian, "Konsultasi 2.0" telah membuat lebih banyak peningkatan dalam akurasi informasi pengetahuan, kemampuan penilaian logis, kemampuan pemahaman konteks, dan kreativitas.

Misalnya, gunakan "Konsultasi 2.0" untuk membuat perencanaan perjalanan, dan beri tahu untuk membuat tabel:

Atau menguji hal tentang "pacar benar":

Nggak cuma bisa ngertiin pacar, tapi "Discussion 2.0" juga bisa baca sedikit nada ironi atau yin dan yang:

Apa yang terjadi pada "Konsultasi 2.0" dalam tiga bulan terakhir sebenarnya hanya melihat hasil beberapa ujian. Dalam hasil evaluasi dari tiga tolok ukur evaluasi model bahasa besar resmi (MMLU, AGI, C-) di seluruh dunia, kinerja "Konsultasi 2.0" telah melampaui ChatGPT.

Selain itu, beberapa orang mungkin telah memperhatikan dalam foto demonstrasi dialog antara Lao Tzu dan Konfusius bahwa "Shangshang 2.0" memiliki demonstrasi layar terpisah versi XL dan S. Ada banyak model besar dengan parameter dan ukuran berbeda untuk pelanggan pilih, dan versi model dengan parameter terkecil bahkan dapat berjalan di terminal seluler.

Dari segi bahasa, "Konsultasi 2.0" telah menambahkan bahasa baru seperti bahasa Arab dan Kanton. Mendukung interaksi antara Bahasa Cina Sederhana, Bahasa Cina Tradisional dan Bahasa Inggris dan bahasa lainnya. Dan dukungan "Konsultasi 2.0" untuk teks super panjang juga telah ditingkatkan dari 2k menjadi 32k, memungkinkan pemahaman konteks yang lebih baik.

Untuk pabrikan model skala besar yang berorientasi pada ToB seperti SenseTime, kualitas model skala besar itu sendiri hanyalah titik awal Bagaimana pelanggan perusahaan dapat menentukan garis besar spesifik untuk model skala besar berdasarkan kebutuhan mereka sendiri, dan bagaimana dapatkah yang terakhir mencapai proses iteratif yang stabil dan mendekatinya selangkah demi selangkah Titik sakit sebenarnya adalah di mana pemenang akan diputuskan.

Kemampuan Fusi Basis Pengetahuan Terbuka

Setelah SenseTime melatih "Konsultasi 2.0" dengan pemahaman super, dialog, penalaran, dan kemampuan lainnya, pelanggan korporat juga dapat menggunakan akumulasi pengetahuan korporat mereka untuk mengubah model besar menjadi "bakat profesional" yang dapat melayani perusahaan mereka sendiri dengan baik. .

Cara efisien memecahkan masalah teknik ini sangat penting.

"Konsultasi 2.0" yang diluncurkan oleh SenseTime telah menambahkan antarmuka integrasi basis pengetahuan, yang memungkinkan perusahaan memperoleh pengetahuan dan kemampuan profesional dengan cepat tanpa menunggu pembaruan iteratif dari model besar dasar. Setelah basis pengetahuan terintegrasi, kemampuan model untuk memperbarui dan memahami pengetahuan dapat ditingkatkan, dan pemahaman dan perolehan pengetahuan yang cepat dapat diperkuat, pada saat yang sama, biaya model pelatihan pelanggan akan sangat berkurang.

Wang Xiaogang, salah satu pendiri dan ilmuwan kepala SenseTime, berkata: "Dengan basis pengetahuan, relatif sederhana dan nyaman untuk meringkas pengetahuan terkait di bidang ini tanpa memasukkan model kami sendiri", dan karena informasinya lebih akurat , juga memecahkan masalah halusinasi.

Manusia Digital Sebagai Alat Produktivitas

Pada saat yang sama dengan pemutakhiran komprehensif "Konsultasi 2.0", kemampuan platform AIGC dalam sistem "Model Besar SenseNova" terus-menerus menerobos, dan setelah integrasi kemampuan model besar bahasa, peningkatan lompatan telah dicapai.

Misalnya, platform pembuatan Wenshengtu "Miaohua" yang disebutkan di atas telah ditingkatkan ke versi 3.0 kali ini, parameter model telah ditingkatkan hingga urutan 7 miliar, dan detail gambar yang dihasilkan telah mencapai tingkat fotografi profesional. Adapun sakit kepala dari kata-kata prompt, "Discussion 2.0" memberi "Miahua 3.0" kemampuan untuk memperluas kata-kata prompt secara otomatis. Artinya, pengguna hanya memerlukan beberapa kata prompt sederhana untuk mendapatkan hasil gambar yang mendetail.

Di bidang manusia digital, platform pembuatan video manusia digital SenseTime "Ruying" juga telah ditingkatkan ke versi 2.0. Kefasihan suara dan mulut "Ruying 2.0" telah meningkat lebih dari 30%, dan video 4K dapat direalisasikan. Efek . Pada konferensi pers, gambar manusia digital dari ekonom Ren Zeping, Master Yancan, dan Xu Li muncul, dan efeknya cukup realistis.

Dalam adegan pendaratan model besar, manusia digital adalah metode pembawa yang sangat penting.Siaran langsung manusia digital yang sangat populer baru-baru ini adalah pemandangan yang khas. Streaming langsung, termasuk video pendek, juga merupakan salah satu adegan paling fokus bagi pelanggan selama tiga bulan pengujian internal dan publik "Ruying 2.0".

Luan Qing, manajer umum Departemen Hiburan Digital SenseTime, mengatakan bahwa dalam kerangka kerja AIGC, "Discussion 2.0" dapat melakukan copywriting dan pembuatan skrip untuk siaran langsung video pendek. Dan bagaimana "Ronin 2.0" dapat mengikuti tren dalam komunikasi juga bergantung pada kemampuan model bahasa "Konsultasi 2.0" yang besar untuk mempelajari korpus video pendek terbaru.

Selain video pendek dan adegan siaran langsung, "Ronin 2.0" mempercepat masuknya ke semua lapisan masyarakat.

Misalnya, dalam industri asuransi, setiap spesialis asuransi memiliki kebutuhan untuk mempromosikan produk baru atau keluaran konten berorientasi layanan lainnya yang dipersonalisasi untuk pelanggan. "Ruying 2.0" dapat menggantikan spesialis asuransi pada hari ulang tahun pelanggan atau ketika produk manajemen kekayaan tertentu dirilis. Konten dan layanan yang dipersonalisasi; dalam industri pendidikan, "Roning 2.0" telah mulai membantu para guru di platform pendidikan kejuruan domestik teratas untuk memproduksi materi pendidikan guna memenuhi kebutuhan internal untuk produksi video.

"Manusia Digital adalah alat efisiensi tipikal dalam suatu perusahaan," kata Luan Qing.

Sebagai platform pembuatan AIGC, Ronin akan terus mendalami bidang pembuatan video di masa depan, Luan Qing percaya bahwa ini karena pembuatan konten sedang mengalami perubahan dimensi dari teks, gambar menjadi video.

Menuju Multimoda

Karena informasi gambar dan video memiliki proporsi yang sangat besar di dunia nyata, jauh melebihi informasi bahasa, kebutuhan untuk memahami dunia nyata akan membuat masa depan model skala besar dasar bergerak menuju multimodalitas, yang telah terlihat untuk pertama kalinya. melalui Petunjuk "Konsultasi 2.0".

Selain teks, "Konsultasi 2.0" memiliki kemampuan untuk menganalisis konten gambar dan video.

Misalnya, seperti yang ditunjukkan pada gambar di atas, "Konsultasi 2.0" dapat mengidentifikasi objek tertentu dalam foto meja yang berantakan, dan menggabungkan karakteristik setiap objek untuk menjawab "apa yang Anda lakukan saat merasa panas?" Ini mirip dengan desain proses pertanyaan terbuka; atau setelah melihat foto menu, bantu pengguna memberikan opsi a la carte dalam kisaran harga terbatas.

SenseTime, yang awalnya memasuki bidang AI dari penelitian visi komputer dan telah melewati gelombang AI, semakin yakin bahwa gelombang model besar ini akan menjadi peluang nyata.

Penelitian model skala besar saat ini didasarkan pada arsitektur jaringan transformator. "SenseTime telah terlibat dalam penelitian model skala besar sejak 2019. Saat itu, itu adalah rute untuk melakukan penglihatan. "Menurut Wang Xiaogang, salah satu pendiri dan kepala ilmuwan SenseTime, beberapa standar visual dan standar bahasa alami secara bertahap konvergen hari ini. , "Ketika kita berkembang ke arah multimodal, bahasa dan visi mulai memiliki integrasi yang lebih dalam, yang mencerminkan akumulasi dan kemampuan yang relatif kuat di bidang ini."

Banyak skenario aplikasi yang kita jumpai dalam kehidupan nyata, seperti dalam serangkaian bidang seperti mengemudi otonom dan robotika, harus diterapkan pada multimodalitas. "Namun, data multi-modal dan beberapa tugas seringkali tidak mudah diperoleh dan membutuhkan akumulasi industri yang mendalam. Ini juga merupakan keuntungan dari SenseTime," Wang Xiaogang memperkenalkan.

Tiga bulan setelah penampilan publik pertamanya di World Artificial Intelligence Conference tahun ini, sistem "Model Besar SenseNova Harian Baru" SenseTime telah sepenuhnya ditingkatkan dan dibuka untuk pengguna perusahaan. Pada saat yang sama, banyak orang belum menyadari bahwa Shangtang juga telah merilis model cendekiawan skala besar multi-modal bersama dengan Laboratorium Kecerdasan Buatan Shanghai. Di masa mendatang, patut dinantikan apakah SenseTime dapat memimpin dalam menemukan kunci jalan multi-moda.

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
GT 2025 Q2 Burn Completed
13k Popularitas
Michael Saylor Hints at Buying BTC
10k Popularitas
BTC
30453k Popularitas
4contentstar
10720k Popularitas
5NADA
11186k Popularitas
6BOME
11565k Popularitas
7BTC
30453k Popularitas
8SMILE
9062k Popularitas
9比特币
13441k Popularitas

Sematkan

peta situs