Model besar baru mengklaim melampaui GPT-4 di setiap kesempatan, dan kami telah mengumpulkan alat ulasan ini

2023-10-24 07:33:22

Sumber: AI Pioneer Officer

Sumber gambar: Dihasilkan oleh Unbounded AI

Sejak munculnya ChatGPT, telah terjadi "perlombaan senjata" untuk model-model besar di seluruh dunia. Menurut laporan, dari Januari hingga Juli tahun ini, total 64 model besar dirilis di Cina. Pada Juli 2023, total 130 model besar telah dirilis di China.

"Perang seratus model" tidak cukup untuk menggambarkan "situasi perang" yang terik hari ini, jadi model besar mana yang lebih baik? Ini tidak terlepas dari evaluasi model besar.

Namun, pada tahap ini, tidak ada metode evaluasi yang diakui dan efektif, yang telah menyebabkan "perang daftar" di bidang evaluasi model besar di dalam dan luar negeri. Statistik tidak lengkap, saat ini ada tidak kurang dari 50 alat evaluasi (sistem) di pasar, dan hasil daftar serupa dapat sangat bervariasi. Keraguan publik tentang "menyikat poin" tidak ada habisnya.

Industri umumnya percaya bahwa ada dua kriteria manifestasi untuk mengevaluasi model besar: satu adalah jumlah parameter, dan yang lainnya adalah set evaluasi. **

Yang disebut kuantitas parameter mengacu pada jumlah parameter yang dapat dipelajari dalam model, termasuk bobot dan bias model. Ukuran jumlah parameter menentukan kompleksitas model, dan lebih banyak parameter dan jumlah lapisan adalah fitur ciri khas yang membedakan model besar dari model kecil. Pada tahun 2022, sejumlah model besar di Amerika Serikat akan diluncurkan, dari Stability AI merilis Difusi, model generatif dari teks ke gambar, hingga ChatGPT yang diluncurkan oleh OpenAI, skala parameter model mulai memasuki era puluhan miliar dan ratusan miliar.

**Dari indikator permukaan, model dengan ratusan miliar parameter umumnya berkinerja lebih baik daripada puluhan miliar parameter. Namun, ini tidak mutlak, dan parameter tumpukan tidak selalu meningkatkan kemampuan. Jadi, bagaimana seharusnya model dengan tingkat parameter yang sama membedakan antara yang baik dan yang buruk? Ini membutuhkan pengenalan dimensi evaluasi kedua dari model besar - set evaluasi.

Set evaluasi adalah dataset benchmark terpadu tugas tunggal atau multi-tugas yang dibangun untuk secara efektif mengevaluasi efek komprehensif dari model dasar dan algoritma fine-tuning-nya dalam skenario yang berbeda dan tugas yang berbeda, dan ada dua bentuk: terbuka dan tertutup.

** Set evaluasi ini seperti kertas ujian untuk berbagai bidang, dan dengan menguji skor model besar dalam "kertas ujian" ini, orang dapat lebih intuitif membandingkan kinerja model besar. **

Di era model kecil, sebagian besar lembaga model akan menggunakan efek set evaluasi akademik sebagai dasar untuk menilai kualitas model. Sekarang, produsen model besar juga mulai berpartisipasi lebih aktif dalam kerangka pembandingan akademik, melihatnya sebagai dukungan otoritatif dan dasar pemasaran.

Ada banyak set evaluasi model besar di pasaran, seperti MMLU, model evaluasi Cina C-, SuperCLUE, dll.

-1- Alat Evaluasi

MMLU

Massive Multitask Language Understanding, penilaian pemahaman bahasa untuk model besar, adalah salah satu penilaian pemahaman semantik paling terkenal untuk model besar, diluncurkan oleh para peneliti di UC Berkeley University pada September 2020. **Tes ini mencakup 57 tugas, termasuk matematika dasar, sejarah AS, ilmu komputer, hukum, dan banyak lagi. ** Tugas ini mencakup berbagai pengetahuan dan dalam bahasa Inggris untuk menilai cakupan pengetahuan dasar dan pemahaman model besar.

Alamat kertas:

Situs resmi:

Papan Peringkat Model Besar:

C-

C- adalah kit evaluasi model dasar Cina yang komprehensif. Diluncurkan bersama oleh para peneliti dari Shanghai Jiao Tong University, Tsinghua University dan University of Edinburgh pada Mei 2023, berisi 13.948 pertanyaan pilihan ganda** yang mencakup 52 disiplin ilmu yang berbeda dan empat tingkat kesulitan** untuk mengukur pemahaman model besar Tiongkok.

Alamat kertas:

Alamat Proyek:

Situs resmi:

SuperCLUE

Tolok ukur evaluasi komprehensif Cina model besar umum, kemampuan model dievaluasi dari tiga dimensi yang berbeda: kemampuan dasar, kemampuan profesional, dan kemampuan karakteristik Cina.

Diantaranya, kemampuan kemampuan dasar meliputi: ** Pemahaman semantik, dialog, penalaran logis, simulasi peran, kode, generasi dan penciptaan dan 10 kemampuan lainnya. **

Kompetensi profesional meliputi: Termasuk ujian menengah, universitas dan profesional, yang mencakup lebih dari 50 kompetensi dari matematika, fisika, geografi hingga ilmu sosial.

Kemampuan karakteristik Cina: Untuk tugas-tugas dengan karakteristik Cina, ini mencakup lebih dari 10 kemampuan seperti idiom Cina, puisi, sastra, dan mesin terbang.

Alamat Proyek:

Situs resmi:

** SuperCLUE Daftar Langya **

Tolok ukur evaluasi pertempuran anonim model besar universal Cina, sama seperti ChatbotArena, crowdsourcing produk model besar yang berbeda untuk evaluasi konfrontasi anonim dan acak, hasilnya didasarkan pada sistem peringkat Elo.

Alamat Proyek:

LYB

Arena Chatbot

ChatbotArena adalah platform benchmark untuk Large Language Models (LLMs) oleh LMSYS Org, sebuah organisasi penelitian yang didirikan oleh UC Berkeley, UC San Diego, dan Carnegie Mellon University.

**Platform tolok ukur LLM untuk pertandingan acak anonim berdasarkan crowdsourced. **Masuk ke platform pertempuran melalui alamat pengalaman demo. Masukkan pertanyaan yang Anda minati, setelah mengirimkan pertanyaan, model anonim akan bermain berpasangan untuk menghasilkan jawaban yang relevan masing-masing, mengharuskan pengguna untuk menilai jawaban dan memilih salah satu dari 4 opsi penilaian: model A lebih baik, model B lebih baik, seri, dan semuanya buruk. Dukungan untuk beberapa putaran percakapan. Akhirnya, sistem penilaian Elo digunakan untuk mengevaluasi secara komprehensif kemampuan model besar. (Anda dapat menentukan model sendiri untuk melihat efeknya, tetapi tidak akan dihitung dalam peringkat akhir).

Alamat Proyek:

Situs resmi:

Bendera

Flag adalah platform evaluasi model berskala besar yang menggunakan kerangka evaluasi tiga dimensi "capability-task-index"** untuk memberikan hasil evaluasi yang komprehensif dan terperinci. Platform ini telah menyediakan lebih dari 30 kemampuan, 5 tugas dan 4 kategori indikator, total lebih dari 600 dimensi evaluasi komprehensif, termasuk 22 dataset evaluasi subjektif dan obyektif dan 84433 pertanyaan.

Tahap pertama Flag telah meluncurkan sistem evaluasi model bahasa besar, teks dan grafik multibahasa sumber terbuka, alat evaluasi model besar mCLIP- dan alat evaluasi pembuatan teks dan gambar sumber terbuka Gambar. Libra juga akan terus mengeksplorasi penelitian silang evaluasi model bahasa dan psikologi, pendidikan, etika dan disiplin sosial lainnya, untuk mengevaluasi model bahasa secara lebih ilmiah dan komprehensif. Ditujukan untuk pengembang dan pengguna model besar, Flag dirancang untuk membantu tim pengembangan memahami kelemahan model mereka dan mendorong inovasi teknologi.

Alamat Proyek:

Situs resmi:

OpenCompass

Pada Agustus 2023, Shanghai Artificial Intelligence Lab (Shanghai AI Lab) secara resmi meluncurkan sistem evaluasi terbuka model besar OpenCompass, yang mendukung evaluasi satu atap dari berbagai model model bahasa besar dan model multimodal melalui kerangka evaluasi yang dapat direproduksi sumber terbuka lengkap**, dan secara teratur menerbitkan daftar hasil evaluasi.

Situs resmi:

Alamat Proyek:

JioNLP

Untuk memeriksa efek bantuan dan kemampuan tambahan model LLM untuk pengguna manusia, apakah dapat mencapai tingkat "asisten pintar", pertanyaan pilihan ganda berasal dari berbagai ujian profesional di Cina daratan Cina, dengan fokus pada cakupan pengetahuan obyektif model, akuntansi untuk 32%; Pertanyaan subyektif berasal dari ringkasan harian dan terutama memeriksa efek pengguna pada fungsi umum LLM.

Alamat Proyek:

Mengukur himpunan data

** Tsinghua Keamanan Big Model Evaluasi **

Kumpulan ulasan yang dikumpulkan oleh Tsinghua mencakup delapan kategori, termasuk ujaran kebencian, ujaran bias dan diskriminatif, kejahatan dan hukum, privasi, etika dan moralitas, termasuk lebih dari 40 kategori keamanan tingkat kedua yang dibagi ke dalam kategori berbutir halus**.

Alamat:

LLM-3

Diluncurkan oleh Laboratorium NLP Universitas Fudan, ini berfokus pada pengetahuan profesional dan penilaian kemampuan, yang mencakup 13 disiplin ilmu dan lebih dari 50 disiplin ilmu tingkat kedua yang ditunjuk oleh Kementerian Pendidikan, seperti filsafat, ekonomi, hukum, pendidikan, sastra, sejarah, sains, teknik, pertanian, kedokteran, ilmu militer, manajemen, seni, dll., Dengan total sekitar 20W pertanyaan dan jawaban pertanyaan generatif standar. Untuk mencegah terjadinya fenomena menyikat peringkat, evaluasi LLM-3 mengadopsi mode evaluasi baru, yaitu mode "ujian bank soal".

Alamat:

GAOKAO-Bangku

GAOKAO-bench adalah kerangka penilaian yang menggunakan pertanyaan ujian masuk perguruan tinggi Cina sebagai dataset untuk menilai kemampuan pemahaman bahasa dan kemampuan penalaran logis model besar.

Alamat Proyek:

PandaLM

Ini secara langsung melatih model penilaian otomatis, dan mencetak dua model kandidat pada sistem tiga poin 0.1.2.

Alamat Proyek:

** BANGKU BESAR **

Kumpulan ulasan yang diterbitkan oleh Google, BIG-bench terdiri dari 204 tugas tentang topik-topik seperti linguistik, perkembangan anak, matematika, penalaran akal sehat, fisika biologi, bias sosial, pengembangan perangkat lunak, dan banyak lagi.

Alamat Proyek:

MMCU

Oracle Yi AI Research Institute mengusulkan tes untuk mengukur akurasi model besar China dalam menangani multitasking, dan konten pengujian dataset mencakup empat bidang utama: perawatan medis, hukum, psikologi, dan pendidikan. **Jumlah soal mencapai 10.000+, meliputi 2819 soal bidang kedokteran, 3695 soal bidang hukum, 2001 soal bidang psikologi, dan 3331 soal bidang pendidikan.

Alamat Proyek:

BERTINDAK

Tolok Ukur Penilaian Kompetensi Dasar Model Besar Microsoft, diluncurkan pada April 2023, terutama mengukur kemampuan umum model besar dalam kognisi manusia dan pemecahan masalah, yang mencakup 20 ujian penerimaan dan kualifikasi resmi, publik, dan standar tinggi untuk kandidat manusia biasa di seluruh dunia, termasuk data dalam bahasa Mandarin dan Inggris. Oleh karena itu, tes ini lebih condong ke hasil tes manusia, yang mencakup bahasa Mandarin dan Inggris.

Alamat kertas:

GSM8K

Model besar OpenAI, Mathematical Reasoning Proficiency Assessment Benchmark, mencakup 8.500 dataset masalah matematika berkualitas tinggi di tingkat sekolah menengah. Himpunan data lebih besar dari himpunan data masalah teks matematika sebelumnya, bahasanya lebih beragam, dan pertanyaannya lebih menantang. Tes ini dirilis pada Oktober 2021 dan tetap menjadi tolok ukur tes yang sangat sulit.

Alamat kertas:

HELM

Metode evaluasi HELM terutama mencakup tiga modul: adegan, adaptasi, dan indikator **, dan setiap proses evaluasi perlu menentukan adegan, prompt untuk model adaptasi, dan satu atau lebih indikator. Ini terutama mencakup bahasa Inggris, dengan 7 indikator, termasuk akurasi, ketidakpastian / kalibrasi, ketahanan, keadilan, bias, toksisitas, dan efisiensi inferensi; Tugas meliputi Tanya Jawab, pengambilan informasi, abstrak, klasifikasi teks, dan lainnya.

Alamat kertas:

Alamat Proyek:

Cina-LLalA-Alpaka

Ini dinilai sebagai nilai relatif, dengan GPT4 lebih disukai dan ChatGPT3 sebagian.

Alamat Proyek:

** MT-bangku **

Evaluasi dialog multi-giliran dan instruksi mengikuti kemampuan model besar. Himpunan data mencakup 80 (8kategori*10pertanyaan) pertanyaan dialog multi-putaran berkualitas tinggi, masing-masing dijawab oleh 6 model besar terkenal (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B, dan LLaMA-13B), diurutkan secara manual untuk mendapatkan pasangan pasangan 3.3K.

Alamat kertas:

Menilai LLM-sebagai-juri dengan MT-Bench dan Chatbot Arena

GitHub

Alamat Proyek:

/pohon/utama/fastchat/llm_judge

Alamat unduhan data:

-2- Mode Evaluasi

Melalui alat evaluasi di atas, ditemukan bahwa mode evaluasi model besar umum saat ini secara kasar dapat diringkas menjadi empat jenis:

**1. Skor pertanyaan. ** Terutama mengumpulkan berbagai set data evaluasi, dan kemudian membagi set data menjadi kemampuan dimensi yang berbeda. Dengan merancang beberapa tugas yang memungkinkan model besar melakukan kumpulan data ini, skor dihitung terhadap jawaban standar. Contoh tipikal adalah OpenCompass, papan peringkat openLLM huggingface, dll.

**2. Biarkan GPT-4 menjadi juri. Kumpulkan kumpulan data untuk evaluasi (beberapa kumpulan data yang bukan sumber terbuka dan tidak memiliki jawaban standar juga akan disertakan), dan kemudian biarkan GPT-4 menilai hasil pembuatan model besar. Ada dua cara untuk menilai proses penilaian ini, satu adalah menilai secara langsung, dan yang lainnya adalah merancang beberapa dimensi, seperti fakta, akurasi, kepatuhan keamanan, dll., Dan kemudian mengevaluasinya pada tingkat yang lebih terperinci.

**3. Mode Arena. **Mirip dengan arena dalam game kompetitif. Setiap kali dua pemain model besar PK, pengguna (kadang-kadang GPT-4) untuk mengevaluasi model mana yang lebih baik, model besar yang menang memiliki poin ekstra, dan model besar yang kalah memiliki minus. Ketika putaran PK yang cukup dieksekusi, akan ada peringkat skor model besar, yang relatif adil dan secara obyektif dapat mencerminkan kekuatan model. Contoh tipikal adalah Chatbot Arena Leaderboard UC Berkeley.

**4. Penilaian kompetensi individu. Misalnya, untuk kemampuan matematika, kemampuan kode, kemampuan penalaran, dll., Mengevaluasi kemampuan ini tidak hanya dapat menentukan apakah model besar benar-benar memiliki kemampuan berpikir seperti manusia, tetapi juga secara langsung membantu memilih model besar (seperti asisten kode) di bidang tertentu.

-3- Hasil evaluasi "sangat berbeda"

Ada banyak alat evaluasi yang berbeda, dan hasil evaluasi alat evaluasi yang berbeda juga "sangat berbeda".

Pada 15 Agustus, laporan pengalaman model besar kecerdasan buatan lembaga dirilis, yang melakukan evaluasi horizontal terhadap pengalaman penggunaan model besar arus utama domestik. Daftar ini mengevaluasi 8 model AI arus utama di China dengan 500 pertanyaan, dan akhirnya Xunfei Xinghuo peringkat pertama, Baidu Wenxin peringkat kedua, dan Ali Tongyi Qianwen peringkat kedua dari bawah.

Pada bulan September, dalam edisi terbaru daftar evaluasi open source populer C-edisi terbaru dari daftar tersebut, model besar Yuntian Lifei "Yuntianshu" menempati peringkat pertama, sedangkan GPT-4 hanya menempati peringkat kesepuluh.

Pada bulan yang sama, SuperCLUE merilis daftar model besar bulan September. GPT-4 menempati peringkat pertama dalam daftar keseluruhan, sementara SenseChat 3.0 SenseTime menduduki puncak daftar Cina.

Pada 19 Oktober, Universitas Stanford merilis Indeks Transparansi Model Dasar 2023, yang memberi peringkat 10 model dasar utama untuk transparansi, dengan Llama 2 peringkat pertama dan GPT-4 peringkat ketiga.

Mengapa hasil dari berbagai alat peninjauan sangat berbeda? Alasan utamanya adalah sebagai berikut:

** 1.Setiap set ulasan akademis populer memiliki fokusnya sendiri. Misalnya, GSM8K dan MMLU, yang paling umum digunakan oleh Meta, adalah set tes untuk tingkat yang berbeda - yang pertama adalah matematika dasar, yang terakhir adalah pertanyaan dan jawaban multidisiplin yang lebih maju. Sama seperti siswa di kelas mengikuti ujian dalam mata pelajaran yang berbeda, model-model besar secara alami memiliki peringkat yang berbeda pada daftar yang berbeda.

** 2.Proporsi pertanyaan subjektif dalam evaluasi model besar meningkat. ** Dalam daftar evaluasi model besar saat ini di dalam dan luar negeri, gagasan menggabungkan pertanyaan subjektif dan pertanyaan objektif umumnya diakui oleh industri. Tetapi tantangan dari pertanyaan subjektif adalah apakah kriteria evaluasi dalam pikiran setiap orang konsisten. Dan "peringkat tim manusia" pasti menyentuh langit-langit jumlah pertanyaan, dan untuk evaluasi model besar, semakin besar jumlah pertanyaan, semakin efektif kesimpulannya.

**3. Persaingan vertikal antara model khusus dan model besar tujuan umum menyebabkan peringkat terdistorsi. **Dalam skenario pendaratan aktual, pelanggan perusahaan di bidang manufaktur, perawatan kesehatan, keuangan, dan industri lainnya perlu melakukan penyesuaian sekunder sesuai dengan database mereka sendiri saat mengakses kemampuan model besar. Ini juga berarti bahwa hasil yang diperoleh dengan partisipasi langsung dari model besar umum asli di bidang vertikal Tanya Jawab tidak dapat mewakili kinerja nyata dari produk model besar di bidang vertikal.

**4. Fenomena "menyikat daftar" yang disebabkan oleh set pengujian open source. ** Banyak model besar baru dapat melampaui GPT-4 dalam daftar set pengujian open source, sebagian karena dugaan "menyikat masalah". Misalnya, C- saat ini hanya pertanyaan yang diungkapkan tetapi jawabannya tidak diungkapkan, dan produsen model besar yang berpartisipasi dalam pengujian menemukan anotator data untuk mengerjakan pertanyaan lagi, atau menggunakan GPT-4 untuk mengerjakan pertanyaan lagi, dan kemudian mengurangi jawaban untuk melatih model besar, sehingga mereka bisa mendapatkan nilai penuh dalam tes subjek yang sesuai.

Dapatkah kumpulan ulasan sumber tertutup menghindari "menyikat daftar"? Jika tidak, jika set evaluasi sumber tertutup tidak diperbarui, model yang berpartisipasi dapat menarik sejarah sejarah dari latar belakang untuk "menipu" dan mengulang pertanyaan yang diuji. Ini setara dengan "sumber tertutup palsu".

** Menanggapi masalah di atas, industri juga mengeksplorasi solusi yang sesuai. **

Misalnya, untuk kesulitan kriteria evaluasi yang konsisten untuk pertanyaan subjektif dalam evaluasi model besar, dan masalah bahwa "skor tim manusia" menyentuh langit-langit jumlah pertanyaan, industri telah mulai mengadopsi model "penilaian manusia + GPT4". Di Cina, SuperCLUE akan memilih untuk menganggap GPT4 sebagai "guru penilaian" dan membiarkannya bergabung dengan tim manusia untuk membantu penilaian.

Contoh lain adalah masalah "menyikat daftar", orang dalam industri percaya bahwa "set evaluasi harus ditutup untuk menghindari kecurangan, tetapi evaluasi model besar yang baik harus menjadi evaluasi terbuka dari proses, yang nyaman bagi semua orang untuk mengawasi evaluasi. " "

Beberapa orang juga percaya bahwa itu adalah visi yang baik untuk mempublikasikan proses evaluasi model besar, tetapi mengingat keadilan dan ketidakberpihakan evaluasi, masih harus ada sejumlah besar set evaluasi tertutup, dan "ujian buku tertutup" benar-benar dapat mengevaluasi kemampuan model.

Selain itu, ada evaluasi model besar dari skor tahan kuas, seperti LLM-3 yang diluncurkan oleh Laboratorium NLP Universitas Fudan, yang mengadopsi mode evaluasi baru, yaitu mode "pemeriksaan bank soal". Dalam LLM-3, setiap sistem yang berpartisipasi perlu menyelesaikan sampel acak 1.000 pertanyaan dari total bank soal, terhadap model lembaga yang sama, untuk memastikan bahwa setiap pertanyaan penilaian tidak diduplikasi. Proses evaluasi akan dilakukan secara online, dan pengiriman pertanyaan dalam satu putaran evaluasi akan dilakukan secara berurutan, yaitu, pengiriman pertanyaan berikutnya akan tergantung pada jawaban atas pertanyaan sebelumnya untuk menghindari perayapan berbahaya.

Karena model besar melibatkan berbagai bidang dan aplikasi, indikator dan metode evaluasi yang perlu diperhatikan oleh model besar di berbagai bidang dan aplikasi berbeda. Oleh karena itu, lembaga dan organisasi yang berbeda dapat mengusulkan kriteria dan metode evaluasi yang berbeda untuk area dan kebutuhan aplikasi tertentu. "Meskipun tidak ada standar yang seragam, pentingnya evaluasi adalah untuk menyediakan cara untuk mengevaluasi dan membandingkan kinerja dan efektivitas model besar yang berbeda, dan membantu pengguna memilih model besar yang sesuai dengan kebutuhan mereka."

Bagaimana membuat evaluasi model besar yang benar-benar komprehensif dan komprehensif juga "bingung" di garis depan akademisi dan industri. Meski begitu, lembaga otoritatif harus memperkuat penelitian, membentuk konsensus sesegera mungkin, dan mempromosikan kemajuan teknologi dan pengembangan industri.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1White House Crypto Report
76944 Popularitas
2CandyDrop Airdrop Event 6.0
88349 Popularitas
3Join Alpha RION Airdrop to Earn $40
62311 Popularitas
4Alpha Points System Opens
14667 Popularitas
5Crypto Market Rebound
143285 Popularitas

Sematkan

peta situs