GPT-4'ü ilk kez yenin? 70 milyar parametre Xwin-LM, Stanford Alpaca'nın zirvesine ulaştı, 13B modeli ChatGPT'yi yendi

Question

Kaynak: Xinzhiyuan**Giriş:** GPT-4'ün Stanford Alpaka'daki en üst noktası aslında kara bir at tarafından kapıldı.Alpaka'da GPT-4'ü geçen ilk model ortaya çıktı!Bu yılın haziran ayında Alpaka listesi açıklanır açıklanmaz GPT-4 %95'in üzerinde kazanma oranıyla mutlak bir farkla ilk sırayı aldı.Üç ay sonra, Xwin-LM adlı karanlık bir at aslında listenin en başında yer alan GPT-4'ü İLK 1'den çıkardı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2aa2d5066b-dd1a6f-6d2ef1) proje adresi:Üstelik Xwin-LM aynı parametre modelleriyle yarışmada istisnasız üç birincilik elde etti:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-af4ec75598-dd1a6f-6d2ef1)> Xwin-LM-70B-V0.1: Alpaka değerlendirmesinde Davinci-003'e karşı kazanma oranı %95,57'ye ulaşarak Alpaka'da birinci oldu. Aynı zamanda Alpaka'da GPT-4'ü geçen ilk modeldir. Ayrıca GPT-4'e karşı kazanma oranı 60,61'dir.> Xwin-LM-13B-V0.1: Alpaka'da %91,76 kazanma oranı elde ederek tüm 13B modelleri arasında birinci sırada yer aldı.> Xwin-LM-7B-V0.1: Alpaca'da %87,82 kazanma oranı elde ederek tüm 7B modelleri arasında birinci oldu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36582fbdf2-dd1a6f-6d2ef1)## **Xwin-LM: 70 milyar parametre GPT-4'ü geçti**Xwin-LM, Llama 2'ye dayalı olarak ince ayarlıdır. Bu model, denetimli ince ayar (SFT), ödül modeli (RM), reddetme örneklemesi ve insan geri bildirimini güçlendirme dahil olmak üzere büyük dil modelleri için kaynak hizalama teknolojilerini geliştirmek ve açmak üzere tasarlanmıştır. öğreniliyor (RLHF).bekleyin.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e82e6b8adc-dd1a6f-6d2ef1) **1. Performans Değerlendirmesi**Araştırmacılar, Xwin-LM'nin 805 problem üzerinde Text-Davinci-003, ChatGPT ve GPT-4'e karşı kazanma oranını değerlendirdi.Alpaka göstergeleri performans değerlendirmesinde Xwin-LM'nin 70B modelinin listeyi tamamen domine ederek birinci olduğu ve GPT-4'e karşı %60,61'lik galibiyet oranıyla GPT-4'ü ilk kez mağlup ettiği görülüyor.Xwin-LM-13B-V0.1 ve Xwin-LM-7B-V0.1 gibi diğer boyutlardaki Xwin-LM modelleri de performans açısından aynı boyuttaki diğer modelleri çok aşıyor.Xwin-LM-7B-V0.1, daha büyük Llama 2-13B-Chat'ten bile daha iyi performans gösteriyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3244aba5ef-dd1a6f-6d2ef1) **2. Vaka karşılaştırması**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-062b82b341-dd1a6f-6d2ef1) İlk durumda araştırmacılar GPT-4 ve Xwin-LM'ye şunları sordu:"Elmaların üzerine bir tabak koydum ve tabağı mutfaktan yemek odasına götürdüm. Elmalar şimdi nerede?"GPT-4'ün cevabı:"Elma artık restorandadır ve tabağı mutfaktan restorana götürdüğünüzde tabağın altındadır."Burada GPT-4 sağduyudan uzak bir cevap verdi: Gerçek hayatta yer çekimi vardır. Tabağın altındaki elma orijinal halinde kalır ve tabakla birlikte restorana gitmez.Buna karşılık, Xwin-LM'nin cevabı gerçeklikle daha uyumlu ve aynı zamanda Apple'ı mutfağa getirmenin bir yolunu da sunuyor:"Elma hâlâ mutfakta çünkü az önce tabağı kaydırdın.Elmalar tabağın altındadır, bu nedenle elmaları restorana götürmek istiyorsanız elmaları doğrudan hareket ettirmelisiniz veya elmaları tabağa koyup ardından tabağı restorana taşımalısınız. "İkinci durumda araştırmacılar GPT-4 ve Xwin-LM'ye şunları sordu:"Fransızca'da 'iyi akşamlar' nasıl denir?"GPT-4'ün cevabı:"Fransızca'da 'iyi akşamlar', 'bonsoir' olarak ifade edilir."Ve Xwin-LM'nin cevabı şu:"Fransızca'da 'iyi akşamlar', 'bonsoir' olarak tercüme edilir. Bu selamlama akşamları ve geceleri, genellikle akşam 6'dan sonra kullanılır.'Bon' (iyi anlamına gelir) ve 'soir' (akşam anlamına gelir) kelimelerinin birleşimidir. Bunu telaffuz etmek için 'bone-swahr' deyin."GPT-4'ün cevabı doğru olmasına rağmen, Xwin-LM sadece soruyu doğru cevaplamakla kalmadı, aynı zamanda Fransızca ifadedeki "iyi akşamlar" kelimesinin kökenini ve telaffuzunu da açıklayarak kullanıcıya daha zengin bilgi sağladı.**3. NLP görevleri**Aşağıdaki tablo, Xwin-LM'yi temel NLP görevlerindeki diğer LLM'lerle karşılaştırmaktadır.Xwin-LM-70B-V0.1 modelinin performansının tüm görevlerde nispeten yüksek olduğu, özellikle MMLU 5 atış ve HellaSwag 10 atış görevlerinde iyi performans gösterdiği görülüyor.Ve genel anlamda Xwin-LM-70B-V0.1 en iyi performansı sergileyen ürün.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f088c927b-dd1a6f-6d2ef1) **4. Muhakeme yeteneği**Araştırmacılar, Xwin-LM'yi çıkarım için kullanırken istenen sonuçları elde etmek için çıkarım için diyalog şablonuna sıkı sıkıya bağlı kalınması gerektiğini öne sürdüler.Xwin-LM, Vicuna tarafından oluşturulan hızlı formatı benimser ve çok turlu diyaloğu destekler.Meraklı bir kullanıcı ile yapay zeka asistanının sohbeti. Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar yanıtlar verir. KULLANICI: Merhaba! ASİSTAN: Merhabalar>KULLANICI: Sen kimsin? ASİSTAN: Ben Xwin-LM.s>......**Sarılma Yüz Örneği***transformatörlerden AutoTokenizer, AutoModelForCausalLM'yi içe aktarınmodel = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Bir sohbet meraklı bir kullanıcı ile yapay zeka asistanı arasında. " "Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar cevaplar veriyor. " "KULLANICI: Merhaba, bana yardımcı olabilir misiniz?" "ASSISTANT:")inputs = tokenizer(, return_tensors) ="pt")samples = model.generate(**inputs, max_new_tokens=4096, sıcaklık=0,7)output = tokenizer.decode(samples [0] [girişler["giriş_kimlikleri"].şekil [1] :], skip_special_tokens=True)print(output) *# Elbette! Yardım etmek için buradayım. Lütfen sorunuzu sormaktan veya yaşadığınız sorunu açıklamaktan çekinmeyin; size yardımcı olmak için elimden geleni yapacağım.***VLLM Örneği**Xwin-LM, Llama 2'ye dayalı olarak ince ayar yapıldığından hızlı çıkarım için VLLM kullanımını da destekler.from vllm import LLM, SamplingParams( := "Meraklı bir kullanıcı ile yapay zeka asistanı arasındaki sohbet. " "Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar cevaplar veriyor. " "KULLANICI: Merhaba, bana yardımcı olabilir misiniz? " "ASSISTANT:")sampling_params = SamplingParams(temperature=0,7, max_tokens=4096)llm = LLM(model = "Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], örnekleme_paramları)çıkışlardaki çıkış için: = çıkış. oluşturulan_metin = çıktı.çıktılar [0] .text yazdırma(generate_text)## **Alpaka: kullanımı kolay, hızlı, düşük maliyetli, insan açıklamasıyla doğrulandı**Otomatik bir Yüksek Lisans değerlendirme aracı olarak Alpaca, AlpacaFarm ve Aviary'yi birleştirir.Bir yandan AlpacaFarm ile aynı kodu kullanıyor (önbelleğe alma/rastgele permütasyonlar/hiperparametreler), diğer yandan Aviary'e benzer bir sıralama ipucu kullanıyor.Aynı zamanda, Aviary'nin istemleri de daha uzun çıktıya yönelik eğilimi azaltacak şekilde değiştirildi.Ekip, Alpaka'nın olağanüstü etkileri olduğunu söyledi:- Tek bir insan yorumcudan daha yüksek, insan çoğunluğunun oyuyla tutarlılık- Kazanma oranı, insan notuyla yüksek oranda ilişkilidir (0,94)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7163c6fdde-dd1a6f-6d2ef1) **- Kazanma oranı**Modelin çıktısı, talimat bazında text-davinci-003'ten (yani referans metni) daha iyi performans gösteriyor.Spesifik olarak, ilk önce Alpaka veri setindeki her talimattaki istenen modelin çıktı çiftlerini topladık ve her çıktıyı aynı talimattaki referans modelin (text-davinci-003) çıktısıyla eşleştirdik.Daha sonra bu çıktılar aynı anda otomatik değerlendiriciye iletilerek hangisinin daha iyi olduğuna (yani değerlendiricinin tercihine) karar vermesi sağlanır.Son olarak, modelin text-davinci-003'e göre kazanma oranını elde etmek için veri setindeki tüm talimatların tercihlerinin ortalaması alınır. İki modelin eşitliği halinde yarı tercih sayılır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e0c6c964e-dd1a6f-6d2ef1) Kağıt adresi:**- SINIRLAMALAR**Alpaka, bir modelin talimatları takip etme yeteneğini karşılaştırmak için etkili bir yol sağlarken, bir modelin yeteneğinin kapsamlı bir değerlendirmesi için altın standart değildir.AlpacaFarm makalesinde ayrıntılı olarak açıklandığı gibi, otomatik açıklayıcıların kazanma oranı uzunluğa bağlıdır. İnsan açıklaması da bu önyargıdan muzdarip olsa da, daha uzun yanıtların alt görevlerde faydayı artırıp artırmayacağı belirsizdir.Ayrıca AlpacaFarm'ın değerlendirme seti her ne kadar çeşitli olsa da temel olarak basit talimatlardan oluşuyor.Son olarak Alpaca hiçbir modelin güvenliğini değerlendirmemektedir.Referanslar: