Setengah Tahun Lebih Berlalu, Peringkat ChatGPT Hampir "Terbawah"

2023-09-08 06:02:49

Sumber: TMTpost Media

Penulis: Teknologi Sanyan

Kemarin, saya tidak sengaja menemukan sebuah gambar.

Berdasarkan gambar, GPT-4 OpenAI menduduki peringkat terakhir di antara 11 model besar (nomor satu adalah 0). Beberapa netizen menambahkan tulisan "GPT4: Bagaimana saya bisa menuntut keluhan saya?"

Hal ini membuat penasaran, di awal tahun ini, setelah ChatGPT populer, perusahaan lain mulai menyebut konsep model besar.

Ini baru lebih dari setengah tahun, dan GPT sudah "mencapai titik terendah"?

Maka dari itu, penulis ingin melihat seperti apa rangking GPTnya.

Waktu tes berbeda, tim penguji berbeda, GPT-4 menempati peringkat kesebelas

Dilihat dari informasi yang ditampilkan pada gambar di artikel sebelumnya, pemeringkatan ini berasal dari C-list.

C-List, nama lengkap C-Global Large Model Comprehensive Examination Test List, adalah perangkat evaluasi ujian komprehensif model bahasa Mandarin yang dibuat bersama oleh Universitas Tsinghua, Universitas Shanghai Jiaotong, dan Universitas Edinburgh.

Dilaporkan bahwa rangkaian tersebut mencakup empat bidang utama: humaniora, ilmu sosial, sains dan teknik, dan jurusan lainnya, termasuk 52 mata pelajaran, yang mencakup berbagai bidang pengetahuan seperti kalkulus dan aljabar linier. Ada total 13,948 soal pengetahuan dan penalaran bahasa Mandarin, dengan tingkat kesulitan yang dibagi menjadi empat tingkatan tes: sekolah menengah, sarjana, pascasarjana, dan kejuruan.

Jadi penulis mengecek C-list terbaru.

Peringkat C-list terbaru sesuai dengan peringkat yang ditunjukkan pada gambar sebelumnya.Di antara 11 model besar teratas, GPT-4 menempati peringkat terakhir.

Menurut daftar C, hasil ini mewakili tes zero-shot (pembelajaran zero-shot) atau tes beberapa-shot (pembelajaran beberapa-shot), namun beberapa-shot belum tentu lebih baik daripada zero-shot.

C- mengatakan bahwa dalam pengujiannya ditemukan bahwa banyak model setelah instruksi fine-tuning lebih baik di bawah zero-shot. Banyak model yang diuji memiliki hasil zero-shot dan beberapa-shot, dan peringkatnya menunjukkan pengaturan dengan skor rata-rata keseluruhan yang lebih baik.

Daftar C juga menunjukkan bahwa nama model besar dengan "*" menunjukkan bahwa hasil model diuji oleh tim C, sedangkan hasil lainnya diperoleh melalui kiriman pengguna.

Selain itu, penulis juga memperhatikan bahwa waktu penyerahan hasil pengujian untuk model besar ini sangat bervariasi.

Waktu penyerahan hasil tes untuk GPT-4 adalah tanggal 15 Mei, sedangkan Yuntianshu yang menduduki peringkat pertama menyerahkan hasil pada tanggal 31 Agustus; Galaxy yang menempati peringkat kedua menyerahkan pada tanggal 23 Agustus; dan YaYi yang menempati peringkat ketiga menyerahkan hasilnya pada tanggal 31 Agustus. untuk tanggal 4 September.

Dan, di antara 16 model besar teratas, hanya GPT-4 dengan tambahan “*” pada namanya yang diuji oleh tim C.

Jadi penulis mengecek kembali C-list lengkapnya.

C-list terbaru mencakup total 66 peringkat model besar.

Diantaranya, hanya 11 yang bertuliskan "*" di namanya, yang diuji oleh tim C, dan waktu penyerahan pengujian adalah 15 Mei.

Model-model besar ini diuji oleh tim C, GPT-4 OpenAI berada di peringkat kesebelas, ChatGPT di peringkat tiga puluh enam, sementara ChatGLM-6B milik Tsinghua Zhipu AI berada di peringkat enam puluh, dan MOSS Fudan berada di peringkat keenam empat belas.

Meskipun pemeringkatan ini menunjukkan momentum perkembangan pesat model skala besar dalam negeri, penulis yakin bahwa pengujian tersebut tidak dilakukan oleh tim yang sama pada waktu yang sama, sehingga tidak cukup untuk membuktikan sepenuhnya siapa yang lebih kuat dan siapa yang lebih lemah. di antara model skala besar ini.

Ibaratnya, siswa dalam satu kelas, setiap orang mempunyai waktu ujian yang berbeda dan kertas ujian yang berbeda, bagaimana kita bisa membandingkan nilai setiap siswa berdasarkan nilai masing-masing siswa?

Apa yang dikatakan pengembang model besar? Sejumlah orang mengatakan bahwa mereka melampaui ChatGPT dalam hal bahasa Mandarin dan kemampuan lainnya

Belakangan ini, lingkaran model besar cukup ramai.

Produk model berskala besar dari 8 perusahaan termasuk Baidu dan Byte telah lolos pengajuan "Tindakan Sementara untuk Pengelolaan Layanan Kecerdasan Buatan Generatif" dan dapat diluncurkan secara resmi untuk memberikan layanan kepada publik. Perusahaan lain secara berturut-turut merilis produk model besar mereka sendiri.

Lalu bagaimana cara para pengembang model besar ini memperkenalkan produknya?

Pada tanggal 7 Juli, di forum Konferensi Kecerdasan Buatan Dunia 2023 "Peluang dan Risiko untuk Perkembangan Industri Kecerdasan Buatan Umum di Era Model Besar", Qiu Xipeng, profesor di Sekolah Ilmu dan Teknologi Komputer di Universitas Fudan dan kepala sistem MOSS, mengatakan bahwa model bahasa percakapan skala besar Fudan MOSS Setelah dirilis pada bulan Februari tahun ini, masih terus melakukan iterasi, "MOSS terbaru telah mampu melampaui ChatGPT dalam kemampuan bahasa Mandarin."

Pada akhir Juli, NetEase Youdao meluncurkan model terjemahan besar.CEO NetEase Youdao Zhou Feng secara terbuka menyatakan bahwa dalam pengujian internal, dalam arah terjemahan Mandarin-Inggris, ia telah melampaui kemampuan terjemahan ChatGPT dan melampaui level Google Terjemahan. **

Pada akhir Agustus, di KTT Musim Panas Forum Yabuli 2023, Liu Qingfeng, pendiri dan ketua iFlytek, memberikan pidato dan berkata, “**Kemampuan pembuatan kode dan penyelesaian model iFlytek Spark telah melampaui ChatGPT, dan kemampuan lainnya. mengejar ketinggalan dengan cepat.**Logika, algoritma, sistem metode, dan persiapan data untuk kemampuan kode saat ini sudah siap, dan yang diperlukan hanyalah waktu dan daya komputasi.”

SenseTime menyatakan dalam siaran pers baru-baru ini bahwa pada bulan Agustus tahun ini, model baru internlm-123b menyelesaikan pelatihan dan jumlah parameter meningkat menjadi 123 miliar. **Dari 51 set evaluasi terkenal di dunia dengan total 300.000 pertanyaan, skor tes keseluruhan menempati peringkat kedua di dunia, melampaui gpt-3.5-turbo dan meta yang baru dirilis llama2-70b dan model lainnya. **

Menurut SenseTime, **internlm-123 menduduki peringkat pertama dalam 12 evaluasi utama. Di antara mereka, skor agi dalam tes komprehensif set evaluasi adalah 57,8, melampaui gpt-4 untuk menempati peringkat pertama; skor evaluasi **kuis pengetahuan akal sehat adalah 88,5, peringkat pertama; internlm-123b mendapat skor dalam lima evaluasi membaca pemahaman Semua berada di urutan teratas.

Selain itu, ia menduduki peringkat pertama dalam lima evaluasi penalaran.

Awal bulan ini, Zuoyebang secara resmi merilis model Galaxy yang dikembangkan sendiri.

Homework Gang menyatakan bahwa model Galaxy besar telah mencapai hasil dari dua tolok ukur evaluasi model bahasa besar yang resmi, C- dan CMMLU. Menurut data, model besar Galaxy Jobbang menempati peringkat pertama dalam daftar C dengan skor rata-rata 73,7 poin; pada saat yang sama, ia menempati peringkat dalam evaluasi lima tembakan dan nol tembakan dari daftar CMMLU dengan skor rata-rata masing-masing 74,03 poin dan 73,85 poin Pertama, menjadi model pendidikan pertama yang menempati peringkat pertama dalam skor rata-rata dari dua daftar otoritatif di atas secara bersamaan.

Kemarin, Baichuan Intelligent mengumumkan open source resmi Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat yang telah disempurnakan dan versi terkuantisasi 4bitnya.

Wang Xiaochuan, pendiri dan CEO Baichuan Intelligent, mengatakan bahwa model Obrolan yang disempurnakan, di bidang Tiongkok, di lingkungan Tanya Jawab, atau di lingkungan ringkasan, kinerja sebenarnya telah melampaui model sumber tertutup seperti ChatGPT- 3.5. **

Hari ini, di Tencent Global Digital Ecology Conference 2023, Tencent secara resmi merilis model Hunyuan. Jiang Jie, wakil presiden Tencent Group, mengatakan bahwa kemampuan **Model Besar Tencent Hunyuan di Tiongkok telah melampaui GPT-3.5. **

Selain perkenalan diri para pengembang tersebut, ada juga beberapa media dan tim yang mengevaluasi model besar.

Pada awal Agustus, tim Shen Yang, seorang profesor dan pembimbing doktoral di Sekolah Jurnalisme dan Komunikasi di Universitas Tsinghua, merilis "Laporan Evaluasi Kinerja Komprehensif Model Bahasa Besar." Laporan tersebut menunjukkan bahwa **skor komprehensif Baidu Wenxinyiyan dalam 20 indikator dalam tiga dimensi utama memimpin negara, dan lebih baik daripada ChatGPT. Di antaranya, pemahaman semantik bahasa Mandarin memiliki peringkat tinggi, dan beberapa kemampuan bahasa Mandarin lebih baik daripada GPT-4. **

Pada pertengahan Agustus, beberapa media melaporkan bahwa pada 11 Agustus, model besar Xiaomi MiLM-6B muncul di daftar evaluasi model besar C- dan CMMLU. Saat ini, MiLM-6B menempati peringkat ke-10 dalam daftar C-total, peringkat ke-1 pada tingkat parameter yang sama, dan peringkat ke-1 dalam model besar CMMLU Tiongkok.

Pada 12 Agustus, Universitas Tianjin merilis "Laporan Evaluasi Model Besar". Laporan tersebut menunjukkan bahwa kinerja komprehensif **GPT-4 dan Baidu Wenxinyiyan jauh lebih unggul dibandingkan model lainnya, dan skor keduanya tidak jauh berbeda dan berada pada level yang sama. Wen Xinyiyan telah melampaui ChatGPT dalam sebagian besar tugas di Tiongkok dan secara bertahap mempersempit kesenjangan dengan GPT-4. **

Pada akhir Agustus, beberapa media melaporkan bahwa model bahasa besar “KwaiYii” yang dikembangkan sendiri oleh Kuaishou telah memulai pengujian internal. Dalam pemeringkatan CMMLU terbaru yang berorientasi Tiongkok, KwaiYii-13B, KwaiYi versi 13B, menempati peringkat pertama di bawah five-shot dan zero-shot. Ia kuat dalam humaniora, topik khusus Tiongkok, dll., dengan skor rata-rata lebih dari 61 poin.

Terlihat dari penjelasan di atas bahwa meskipun model besar ini mengklaim berada di peringkat teratas tertentu atau mengungguli ChatGPT dalam aspek tertentu, sebagian besar model tersebut berkinerja baik di beberapa bidang tertentu.

Selain itu, beberapa skor komprehensif melebihi GPT-3.5 atau GPT-4, namun tes GPT dihentikan pada bulan Mei Siapa yang dapat menjamin bahwa GPT tidak membaik dalam tiga bulan terakhir?

Situasi OpenAI

Menurut laporan UBS pada bulan Februari, hanya dua bulan setelah ChatGPT diluncurkan, pengguna aktif bulanannya pada akhir Januari 2023 telah melampaui 100 juta, menjadikannya aplikasi konsumen dengan pertumbuhan tercepat dalam sejarah.

Namun perkembangan ChatGPT tidak begitu mulus.

Pada bulan Juli tahun ini, banyak pengguna GPT-4 yang mengeluh bahwa dibandingkan dengan kemampuan penalaran sebelumnya, performa GPT-4 mengalami penurunan.

Beberapa pengguna telah menunjukkan masalah di Twitter dan forum pengembang online OpenAI, dengan fokus pada logika yang lebih lemah, lebih banyak jawaban yang salah, ketidakmampuan untuk melacak informasi yang diberikan, kesulitan mengikuti instruksi, lupa memberi tanda kurung pada kode perangkat lunak dasar, hanya mengingat sebagian besar masalah. tips terkini, dll.

Pada bulan Agustus, laporan lain menyatakan bahwa OpenAi mungkin berada dalam potensi krisis keuangan dan mungkin bangkrut pada akhir tahun 2024.

Menurut laporan tersebut, OpenAI menghabiskan biaya sekitar $700.000 per hari hanya untuk menjalankan layanan kecerdasan buatannya ChatGPT. Saat ini, perusahaan sedang berusaha meraih keuntungan dengan GPT-3.5 dan GPT-4, namun belum menghasilkan pendapatan yang cukup untuk mencapai titik impas.

Namun, OpenAI mungkin juga mempunyai titik balik baru.

Beberapa hari yang lalu, OpenAI mengumumkan akan mengadakan konferensi pengembang pertamanya pada bulan November.

Meskipun OpenAI menyatakan tidak akan merilis GPT-5, OpenAI mengatakan bahwa ratusan pengembang dari seluruh dunia akan bekerja dengan tim OpenAI untuk melihat pratinjau "alat baru" terlebih dahulu dan bertukar ide.

Ini mungkin berarti ChatGPT telah mencapai kemajuan baru.

Menurut The Paper, pada tanggal 30 Agustus, seseorang yang mengetahui masalah ini mengungkapkan bahwa OpenAI diperkirakan akan memperoleh pendapatan lebih dari $1 miliar dalam 12 bulan ke depan dengan menjual perangkat lunak AI dan kekuatan komputasi untuk menggerakkan operasinya.

Hari ini, laporan media lain menyatakan bahwa Morgan Stanley akan meluncurkan chatbot kecerdasan buatan generatif yang dikembangkan bersama dengan OpenAI akhir bulan ini.

Orang yang berurusan dengan bankir di Morgan Stanley adalah orang kaya atau kaya. Jika chatbot kecerdasan buatan generatif yang akan datang ini dapat memberikan pengalaman berbeda kepada klien Morgan Stanley, ini mungkin merupakan keuntungan besar bagi OpenAI.

Kedatangan era kecerdasan buatan sudah tidak bisa dibendung lagi. Adapun siapa yang lebih baik pada akhirnya, Anda tidak bisa hanya mengandalkan diri sendiri, Anda harus membiarkan pengguna mencetak gol. Kami juga percaya bahwa model skala besar dalam negeri pasti akan dan mampu mengejar ChatGPT dalam hal kemampuan spesifik dan kemampuan komprehensif.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Altcoin Season Coming?
29k Popularitas
2Stablecoin Regulation Crackdown
12k Popularitas
3Gate June Transparency Report
25k Popularitas
4ETH Breaks Through $3,800
28k Popularitas
5Institutions Buying Bitcoin
17k Popularitas

Sematkan

peta situs