Kalahkan GPT-4 untuk pertama kalinya? 70 miliar parameter Xwin-LM mencapai puncak Stanford Alpaca_, model 13B mengalahkan ChatGPT

Question

Sumber: Xinzhiyuan**Pendahuluan:** Posisi teratas GPT-4 di Stanford Alpaca sebenarnya direbut oleh kuda hitam.Model pertama yang melampaui GPT-4 di Alpaca telah muncul!Pada bulan Juni tahun ini, segera setelah daftar Alpaca diumumkan, GPT-4 menempati posisi pertama dengan keunggulan mutlak, dengan tingkat kemenangan lebih dari 95%.Tiga bulan kemudian, kuda hitam bernama Xwin-LM benar-benar menarik GPT-4, yang berada di urutan teratas daftar, dari TOP 1?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2aa2d5066b-dd1a6f-6d2ef1) alamat proyek:Selain itu, Xwin-LM juga memenangkan tiga juara pertama tanpa kecuali dalam kompetisi dengan model parameter yang sama:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-af4ec75598-dd1a6f-6d2ef1)> Xwin-LM-70B-V0.1: Tingkat kemenangan melawan Davinci-003 di benchmark Alpaca mencapai 95,57%, menempati peringkat pertama di Alpaca. Ini juga merupakan model pertama yang melampaui GPT-4 di Alpaca. Selanjutnya, tingkat kemenangannya melawan GPT-4 adalah 60,61.> Xwin-LM-13B-V0.1: Mencapai tingkat kemenangan 91,76% di Alpaca, menempati peringkat pertama di antara semua model 13B.> Xwin-LM-7B-V0.1: Mencapai tingkat kemenangan 87,82% di Alpaca, menempati peringkat pertama di antara semua model 7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36582fbdf2-dd1a6f-6d2ef1)## **Xwin-LM: 70 miliar parameter mengalahkan GPT-4**Xwin-LM disempurnakan berdasarkan Llama 2. Model ini dirancang untuk mengembangkan dan teknologi penyelarasan sumber terbuka untuk model bahasa besar, termasuk penyempurnaan yang diawasi (SFT), model penghargaan (RM), pengambilan sampel penolakan, dan penguatan umpan balik manusia belajar (RLHF).tunggu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e82e6b8adc-dd1a6f-6d2ef1) **1. Evaluasi Kinerja**Para peneliti mengevaluasi tingkat kemenangan Xwin-LM terhadap Text-Davinci-003, ChatGPT, dan GPT-4 pada 805 soal.Terlihat bahwa model 70B Xwin-LM sepenuhnya mendominasi daftar tersebut, menjadi yang pertama dalam evaluasi kinerja indikator Alpaca, dan mengalahkan GPT-4 untuk pertama kalinya, dengan tingkat kemenangan sebesar 60,61% terhadap GPT-4.Model Xwin-LM ukuran lain, seperti Xwin-LM-13B-V0.1 dan Xwin-LM-7B-V0.1, juga jauh melebihi model lain dengan ukuran yang sama dalam hal kinerja.Xwin-LM-7B-V0.1 bahkan mengungguli Llama 2-13B-Chat yang lebih besar.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3244aba5ef-dd1a6f-6d2ef1) **2. Perbandingan kasus**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-062b82b341-dd1a6f-6d2ef1) Dalam kasus pertama, peneliti menanyakan GPT-4 dan Xwin-LM:"Saya meletakkan piring di atas apel dan membawa piring itu dari dapur ke ruang makan. Di mana apelnya sekarang?"Jawaban GPT-4 adalah:"Apelnya ada di restoran sekarang, dan saat Anda membawa piring dari dapur ke restoran, apel itu ada di bawah piring."Disini GPT-4 memberikan jawaban yang kurang masuk akal.Dalam kehidupan nyata ada gravitasi.Apel di bawah piring tetap dalam keadaan aslinya dan tidak akan pergi ke restoran dengan piringnya.Sebaliknya, jawaban Xwin-LM lebih sesuai dengan kenyataan, dan juga memberikan cara untuk membawa Apple ke dapur:“Apelnya masih ada di dapur karena kamu baru saja memindahkan piringnya.Apelnya ada di bawah piring, jadi jika ingin membawa apel ke restoran sebaiknya langsung memindahkan apelnya atau meletakkan apel di piring lalu memindahkan piringnya ke restoran. "Dalam kasus kedua, peneliti menanyakan GPT-4 dan Xwin-LM:"Bagaimana cara mengucapkan 'selamat malam' dalam bahasa Prancis?"Jawaban GPT-4 adalah:"Dalam bahasa Prancis, 'selamat malam' dinyatakan sebagai 'bonsoir'."Dan jawaban Xwin-LM adalah:Dalam bahasa Prancis, 'selamat malam' diterjemahkan sebagai 'bonsoir'. Ucapan ini digunakan pada sore dan malam hari, biasanya setelah jam 6 sore.Ini merupakan kombinasi dari 'bon' (artinya baik) dan 'soir' (artinya malam). Untuk mengucapkannya, ucapkan 'bone-swahr'".Meskipun jawaban GPT-4 benar, Xwin-LM tidak hanya menjawab pertanyaan dengan benar, namun juga menjelaskan asal usul dan pengucapan "selamat malam" dalam ungkapan Prancis, sehingga memberikan informasi yang lebih kaya kepada pengguna.**3. Tugas NLP**Tabel berikut membandingkan Xwin-LM dengan LLM lain pada tugas dasar NLP.Dapat dilihat bahwa kinerja model Xwin-LM-70B-V0.1 relatif tinggi dalam semua tugas, dan kinerjanya sangat baik dalam tugas MMLU 5-shot dan HellaSwag 10-shot.Dan, dari tingkat keseluruhan, Xwin-LM-70B-V0.1 adalah yang berkinerja terbaik.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f088c927b-dd1a6f-6d2ef1) **4. Kemampuan penalaran**Para peneliti mengusulkan bahwa untuk mendapatkan hasil yang diinginkan ketika menggunakan Xwin-LM untuk inferensi, template dialog untuk inferensi harus dipatuhi dengan ketat.Xwin-LM mengadopsi format cepat yang dibuat oleh Vicuna dan mendukung dialog multi-putaran.Obrolan antara pengguna yang penasaran dan asisten kecerdasan buatan. Asisten memberikan jawaban yang bermanfaat, terperinci, dan sopan atas pertanyaan pengguna. PENGGUNA: Hai! ASISTEN: Halo.s>PENGGUNA: Siapa Anda? ASISTEN: Saya Xwin-LM.s>......**Contoh Memeluk Wajah***dari transformator impor AutoTokenizer, AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Obrolan antara pengguna yang penasaran dan asisten kecerdasan buatan." "Asisten memberikan jawaban yang bermanfaat, terperinci, dan sopan terhadap pertanyaan pengguna." "PENGGUNA: Halo, bisakah Anda membantu saya?" "ASSISTANT:")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**inputs, max_new_tokens=4096, temperatur=0.7)output = tokenizer.decode(samples [0] [masukan["input_ids"].bentuk [1] :], skip_special_tokens=Benar)print(output) *# Tentu saja! Saya di sini untuk membantu. Silakan mengajukan pertanyaan atau menjelaskan masalah yang Anda alami, dan saya akan melakukan yang terbaik untuk membantu Anda.***Contoh VLLM**Karena Xwin-LM disempurnakan berdasarkan Llama 2, Xwin-LM juga mendukung penggunaan VLLM untuk inferensi cepat.from vllm import LLM, SamplingParams( := "Obrolan antara pengguna yang ingin tahu dan asisten kecerdasan buatan. " "Asisten memberikan jawaban yang bermanfaat, terperinci, dan sopan terhadap pertanyaan pengguna. " "PENGGUNA: Halo, bisakah Anda membantu saya? " "ASSISTANT:")sampling_params = SamplingParams(suhu=0,7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], sampling_params)untuk keluaran dalam keluaran: = keluaran. dihasilkan_teks = keluaran.output [0] .cetakan teks(teks_yang dihasilkan)## **Alpaka: mudah digunakan, cepat, berbiaya rendah, diverifikasi oleh anotasi manusia**Sebagai alat penilaian LLM otomatis, Alpaca menggabungkan AlpacaFarm dan Aviary.Di satu sisi menggunakan kode yang sama dengan AlpacaFarm (caching/permutasi acak/hiperparameter), di sisi lain menggunakan petunjuk pengurutan yang mirip dengan Aviary.Pada saat yang sama, perintah Aviary juga telah dimodifikasi untuk mengurangi bias terhadap keluaran yang lebih panjang.Tim tersebut mengatakan bahwa Alpaca memiliki efek yang luar biasa:- Konsistensi dengan suara mayoritas manusia, lebih tinggi dari satu anotator manusia- Tingkat kemenangan sangat berkorelasi dengan anotasi manusia (0,94)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7163c6fdde-dd1a6f-6d2ef1) **- Tingkat kemenangan**Output model mengungguli text-davinci-003 (yaitu teks referensi) berdasarkan per instruksi.Secara khusus, pertama-tama kami mengumpulkan pasangan keluaran model yang diinginkan pada setiap instruksi dari kumpulan data Alpaca, dan memasangkan setiap keluaran dengan keluaran model referensi (text-davinci-003) pada instruksi yang sama.Kemudian, output ini diumpankan ke evaluator otomatis pada saat yang sama, sehingga memungkinkan evaluator untuk menilai mana yang lebih baik (yaitu, preferensi evaluator).Terakhir, preferensi semua instruksi dalam kumpulan data dirata-ratakan untuk memperoleh tingkat kemenangan model relatif terhadap text-davinci-003. Jika kedua model tersebut seri, maka itu dihitung sebagai setengah preferensi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e0c6c964e-dd1a6f-6d2ef1) Alamat kertas:**- BATASAN**Meskipun Alpaca menyediakan cara yang efisien untuk membandingkan kemampuan model dalam mengikuti instruksi, ini bukanlah standar emas untuk penilaian komprehensif terhadap kemampuan model.Sebagaimana dirinci dalam makalah AlpacaFarm, tingkat kemenangan anotator otomatis bergantung pada panjangnya. Meskipun anotasi manusia juga mengalami bias ini, tidak jelas apakah jawaban yang lebih panjang akan meningkatkan kegunaan pada tugas-tugas hilir.Selain itu, rangkaian evaluasi AlpacaFarm, meskipun beragam, sebagian besar terdiri dari instruksi sederhana.Terakhir, Alpaca tidak mengevaluasi keamanan model apa pun.Referensi: