Giriş: GPT-4'ün Stanford Alpaka'daki en üst noktası aslında kara bir at tarafından kapıldı.
Alpaka'da GPT-4'ü geçen ilk model ortaya çıktı!
Bu yılın haziran ayında Alpaka listesi açıklanır açıklanmaz GPT-4 %95'in üzerinde kazanma oranıyla mutlak bir farkla ilk sırayı aldı.
Üç ay sonra, Xwin-LM adlı karanlık bir at aslında listenin en başında yer alan GPT-4'ü İLK 1'den çıkardı.
proje adresi:
Üstelik Xwin-LM aynı parametre modelleriyle yarışmada istisnasız üç birincilik elde etti:
Xwin-LM-70B-V0.1: Alpaka değerlendirmesinde Davinci-003'e karşı kazanma oranı %95,57'ye ulaşarak Alpaka'da birinci oldu. Aynı zamanda Alpaka'da GPT-4'ü geçen ilk modeldir. Ayrıca GPT-4'e karşı kazanma oranı 60,61'dir.
Xwin-LM-13B-V0.1: Alpaka'da %91,76 kazanma oranı elde ederek tüm 13B modelleri arasında birinci sırada yer aldı.
Xwin-LM-7B-V0.1: Alpaca'da %87,82 kazanma oranı elde ederek tüm 7B modelleri arasında birinci oldu.
Xwin-LM: 70 milyar parametre GPT-4'ü geçti
Xwin-LM, Llama 2'ye dayalı olarak ince ayarlıdır. Bu model, denetimli ince ayar (SFT), ödül modeli (RM), reddetme örneklemesi ve insan geri bildirimini güçlendirme dahil olmak üzere büyük dil modelleri için kaynak hizalama teknolojilerini geliştirmek ve açmak üzere tasarlanmıştır. öğreniliyor (RLHF).bekleyin.
1. Performans Değerlendirmesi
Araştırmacılar, Xwin-LM'nin 805 problem üzerinde Text-Davinci-003, ChatGPT ve GPT-4'e karşı kazanma oranını değerlendirdi.
Alpaka göstergeleri performans değerlendirmesinde Xwin-LM'nin 70B modelinin listeyi tamamen domine ederek birinci olduğu ve GPT-4'e karşı %60,61'lik galibiyet oranıyla GPT-4'ü ilk kez mağlup ettiği görülüyor.
Xwin-LM-13B-V0.1 ve Xwin-LM-7B-V0.1 gibi diğer boyutlardaki Xwin-LM modelleri de performans açısından aynı boyuttaki diğer modelleri çok aşıyor.
Xwin-LM-7B-V0.1, daha büyük Llama 2-13B-Chat'ten bile daha iyi performans gösteriyor.
2. Vaka karşılaştırması
İlk durumda araştırmacılar GPT-4 ve Xwin-LM'ye şunları sordu:
"Elmaların üzerine bir tabak koydum ve tabağı mutfaktan yemek odasına götürdüm. Elmalar şimdi nerede?"
GPT-4'ün cevabı:
"Elma artık restorandadır ve tabağı mutfaktan restorana götürdüğünüzde tabağın altındadır."
Burada GPT-4 sağduyudan uzak bir cevap verdi: Gerçek hayatta yer çekimi vardır. Tabağın altındaki elma orijinal halinde kalır ve tabakla birlikte restorana gitmez.
Buna karşılık, Xwin-LM'nin cevabı gerçeklikle daha uyumlu ve aynı zamanda Apple'ı mutfağa getirmenin bir yolunu da sunuyor:
"Elma hâlâ mutfakta çünkü az önce tabağı kaydırdın.
Elmalar tabağın altındadır, bu nedenle elmaları restorana götürmek istiyorsanız elmaları doğrudan hareket ettirmelisiniz veya elmaları tabağa koyup ardından tabağı restorana taşımalısınız. "
İkinci durumda araştırmacılar GPT-4 ve Xwin-LM'ye şunları sordu:
"Fransızca'da 'iyi akşamlar' nasıl denir?"
GPT-4'ün cevabı:
"Fransızca'da 'iyi akşamlar', 'bonsoir' olarak ifade edilir."
Ve Xwin-LM'nin cevabı şu:
"Fransızca'da 'iyi akşamlar', 'bonsoir' olarak tercüme edilir. Bu selamlama akşamları ve geceleri, genellikle akşam 6'dan sonra kullanılır.
'Bon' (iyi anlamına gelir) ve 'soir' (akşam anlamına gelir) kelimelerinin birleşimidir. Bunu telaffuz etmek için 'bone-swahr' deyin."
GPT-4'ün cevabı doğru olmasına rağmen, Xwin-LM sadece soruyu doğru cevaplamakla kalmadı, aynı zamanda Fransızca ifadedeki "iyi akşamlar" kelimesinin kökenini ve telaffuzunu da açıklayarak kullanıcıya daha zengin bilgi sağladı.
3. NLP görevleri
Aşağıdaki tablo, Xwin-LM'yi temel NLP görevlerindeki diğer LLM'lerle karşılaştırmaktadır.
Xwin-LM-70B-V0.1 modelinin performansının tüm görevlerde nispeten yüksek olduğu, özellikle MMLU 5 atış ve HellaSwag 10 atış görevlerinde iyi performans gösterdiği görülüyor.
Ve genel anlamda Xwin-LM-70B-V0.1 en iyi performansı sergileyen ürün.
4. Muhakeme yeteneği
Araştırmacılar, Xwin-LM'yi çıkarım için kullanırken istenen sonuçları elde etmek için çıkarım için diyalog şablonuna sıkı sıkıya bağlı kalınması gerektiğini öne sürdüler.
Xwin-LM, Vicuna tarafından oluşturulan hızlı formatı benimser ve çok turlu diyaloğu destekler.
Meraklı bir kullanıcı ile yapay zeka asistanının sohbeti. Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar yanıtlar verir. KULLANICI: Merhaba! ASİSTAN: Merhabalar>KULLANICI: Sen kimsin? ASİSTAN: Ben Xwin-LM.s>......
Sarılma Yüz Örneği
transformatörlerden AutoTokenizer, AutoModelForCausalLM'yi içe aktarın
model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Bir sohbet meraklı bir kullanıcı ile yapay zeka asistanı arasında. " "Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar cevaplar veriyor. " "KULLANICI: Merhaba, bana yardımcı olabilir misiniz?" "ASSISTANT:")inputs = tokenizer(, return_tensors) ="pt")samples = model.generate(**inputs, max_new_tokens=4096, sıcaklık=0,7)output = tokenizer.decode(samples [0] [girişler["giriş_kimlikleri"].şekil [1] :], skip_special_tokens=True)print(output) # Elbette! Yardım etmek için buradayım. Lütfen sorunuzu sormaktan veya yaşadığınız sorunu açıklamaktan çekinmeyin; size yardımcı olmak için elimden geleni yapacağım.VLLM Örneği
Xwin-LM, Llama 2'ye dayalı olarak ince ayar yapıldığından hızlı çıkarım için VLLM kullanımını da destekler.
from vllm import LLM, SamplingParams( := "Meraklı bir kullanıcı ile yapay zeka asistanı arasındaki sohbet. " "Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar cevaplar veriyor. " "KULLANICI: Merhaba, bana yardımcı olabilir misiniz? " "ASSISTANT:")sampling_params = SamplingParams(temperature=0,7, max_tokens=4096)llm = LLM(model = "Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], örnekleme_paramları)
çıkışlardaki çıkış için: = çıkış. oluşturulan_metin = çıktı.çıktılar [0] .text yazdırma(generate_text)
Alpaka: kullanımı kolay, hızlı, düşük maliyetli, insan açıklamasıyla doğrulandı
Otomatik bir Yüksek Lisans değerlendirme aracı olarak Alpaca, AlpacaFarm ve Aviary'yi birleştirir.
Bir yandan AlpacaFarm ile aynı kodu kullanıyor (önbelleğe alma/rastgele permütasyonlar/hiperparametreler), diğer yandan Aviary'e benzer bir sıralama ipucu kullanıyor.
Aynı zamanda, Aviary'nin istemleri de daha uzun çıktıya yönelik eğilimi azaltacak şekilde değiştirildi.
Ekip, Alpaka'nın olağanüstü etkileri olduğunu söyledi:
Tek bir insan yorumcudan daha yüksek, insan çoğunluğunun oyuyla tutarlılık
Kazanma oranı, insan notuyla yüksek oranda ilişkilidir (0,94)
- Kazanma oranı
Modelin çıktısı, talimat bazında text-davinci-003'ten (yani referans metni) daha iyi performans gösteriyor.
Spesifik olarak, ilk önce Alpaka veri setindeki her talimattaki istenen modelin çıktı çiftlerini topladık ve her çıktıyı aynı talimattaki referans modelin (text-davinci-003) çıktısıyla eşleştirdik.
Daha sonra bu çıktılar aynı anda otomatik değerlendiriciye iletilerek hangisinin daha iyi olduğuna (yani değerlendiricinin tercihine) karar vermesi sağlanır.
Son olarak, modelin text-davinci-003'e göre kazanma oranını elde etmek için veri setindeki tüm talimatların tercihlerinin ortalaması alınır. İki modelin eşitliği halinde yarı tercih sayılır.
Kağıt adresi:
- SINIRLAMALAR
Alpaka, bir modelin talimatları takip etme yeteneğini karşılaştırmak için etkili bir yol sağlarken, bir modelin yeteneğinin kapsamlı bir değerlendirmesi için altın standart değildir.
AlpacaFarm makalesinde ayrıntılı olarak açıklandığı gibi, otomatik açıklayıcıların kazanma oranı uzunluğa bağlıdır. İnsan açıklaması da bu önyargıdan muzdarip olsa da, daha uzun yanıtların alt görevlerde faydayı artırıp artırmayacağı belirsizdir.
Ayrıca AlpacaFarm'ın değerlendirme seti her ne kadar çeşitli olsa da temel olarak basit talimatlardan oluşuyor.
Son olarak Alpaca hiçbir modelin güvenliğini değerlendirmemektedir.
Referanslar:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
GPT-4'ü ilk kez yenin? 70 milyar parametre Xwin-LM, Stanford Alpaca'nın zirvesine ulaştı, 13B modeli ChatGPT'yi yendi
Kaynak: Xinzhiyuan
Giriş: GPT-4'ün Stanford Alpaka'daki en üst noktası aslında kara bir at tarafından kapıldı.
Alpaka'da GPT-4'ü geçen ilk model ortaya çıktı!
Bu yılın haziran ayında Alpaka listesi açıklanır açıklanmaz GPT-4 %95'in üzerinde kazanma oranıyla mutlak bir farkla ilk sırayı aldı.
Üç ay sonra, Xwin-LM adlı karanlık bir at aslında listenin en başında yer alan GPT-4'ü İLK 1'den çıkardı.
Üstelik Xwin-LM aynı parametre modelleriyle yarışmada istisnasız üç birincilik elde etti:
Xwin-LM: 70 milyar parametre GPT-4'ü geçti
Xwin-LM, Llama 2'ye dayalı olarak ince ayarlıdır. Bu model, denetimli ince ayar (SFT), ödül modeli (RM), reddetme örneklemesi ve insan geri bildirimini güçlendirme dahil olmak üzere büyük dil modelleri için kaynak hizalama teknolojilerini geliştirmek ve açmak üzere tasarlanmıştır. öğreniliyor (RLHF).bekleyin.
Araştırmacılar, Xwin-LM'nin 805 problem üzerinde Text-Davinci-003, ChatGPT ve GPT-4'e karşı kazanma oranını değerlendirdi.
Alpaka göstergeleri performans değerlendirmesinde Xwin-LM'nin 70B modelinin listeyi tamamen domine ederek birinci olduğu ve GPT-4'e karşı %60,61'lik galibiyet oranıyla GPT-4'ü ilk kez mağlup ettiği görülüyor.
Xwin-LM-13B-V0.1 ve Xwin-LM-7B-V0.1 gibi diğer boyutlardaki Xwin-LM modelleri de performans açısından aynı boyuttaki diğer modelleri çok aşıyor.
Xwin-LM-7B-V0.1, daha büyük Llama 2-13B-Chat'ten bile daha iyi performans gösteriyor.
"Elmaların üzerine bir tabak koydum ve tabağı mutfaktan yemek odasına götürdüm. Elmalar şimdi nerede?"
GPT-4'ün cevabı:
"Elma artık restorandadır ve tabağı mutfaktan restorana götürdüğünüzde tabağın altındadır."
Burada GPT-4 sağduyudan uzak bir cevap verdi: Gerçek hayatta yer çekimi vardır. Tabağın altındaki elma orijinal halinde kalır ve tabakla birlikte restorana gitmez.
Buna karşılık, Xwin-LM'nin cevabı gerçeklikle daha uyumlu ve aynı zamanda Apple'ı mutfağa getirmenin bir yolunu da sunuyor:
"Elma hâlâ mutfakta çünkü az önce tabağı kaydırdın.
Elmalar tabağın altındadır, bu nedenle elmaları restorana götürmek istiyorsanız elmaları doğrudan hareket ettirmelisiniz veya elmaları tabağa koyup ardından tabağı restorana taşımalısınız. "
İkinci durumda araştırmacılar GPT-4 ve Xwin-LM'ye şunları sordu:
"Fransızca'da 'iyi akşamlar' nasıl denir?"
GPT-4'ün cevabı:
"Fransızca'da 'iyi akşamlar', 'bonsoir' olarak ifade edilir."
Ve Xwin-LM'nin cevabı şu:
"Fransızca'da 'iyi akşamlar', 'bonsoir' olarak tercüme edilir. Bu selamlama akşamları ve geceleri, genellikle akşam 6'dan sonra kullanılır.
'Bon' (iyi anlamına gelir) ve 'soir' (akşam anlamına gelir) kelimelerinin birleşimidir. Bunu telaffuz etmek için 'bone-swahr' deyin."
GPT-4'ün cevabı doğru olmasına rağmen, Xwin-LM sadece soruyu doğru cevaplamakla kalmadı, aynı zamanda Fransızca ifadedeki "iyi akşamlar" kelimesinin kökenini ve telaffuzunu da açıklayarak kullanıcıya daha zengin bilgi sağladı.
3. NLP görevleri
Aşağıdaki tablo, Xwin-LM'yi temel NLP görevlerindeki diğer LLM'lerle karşılaştırmaktadır.
Xwin-LM-70B-V0.1 modelinin performansının tüm görevlerde nispeten yüksek olduğu, özellikle MMLU 5 atış ve HellaSwag 10 atış görevlerinde iyi performans gösterdiği görülüyor.
Ve genel anlamda Xwin-LM-70B-V0.1 en iyi performansı sergileyen ürün.
Araştırmacılar, Xwin-LM'yi çıkarım için kullanırken istenen sonuçları elde etmek için çıkarım için diyalog şablonuna sıkı sıkıya bağlı kalınması gerektiğini öne sürdüler.
Xwin-LM, Vicuna tarafından oluşturulan hızlı formatı benimser ve çok turlu diyaloğu destekler.
Meraklı bir kullanıcı ile yapay zeka asistanının sohbeti. Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar yanıtlar verir. KULLANICI: Merhaba! ASİSTAN: Merhabalar>KULLANICI: Sen kimsin? ASİSTAN: Ben Xwin-LM.s>......
Sarılma Yüz Örneği
transformatörlerden AutoTokenizer, AutoModelForCausalLM'yi içe aktarın model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Bir sohbet meraklı bir kullanıcı ile yapay zeka asistanı arasında. " "Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar cevaplar veriyor. " "KULLANICI: Merhaba, bana yardımcı olabilir misiniz?" "ASSISTANT:")inputs = tokenizer(, return_tensors) ="pt")samples = model.generate(**inputs, max_new_tokens=4096, sıcaklık=0,7)output = tokenizer.decode(samples [0] [girişler["giriş_kimlikleri"].şekil [1] :], skip_special_tokens=True)print(output) # Elbette! Yardım etmek için buradayım. Lütfen sorunuzu sormaktan veya yaşadığınız sorunu açıklamaktan çekinmeyin; size yardımcı olmak için elimden geleni yapacağım. VLLM Örneği
Xwin-LM, Llama 2'ye dayalı olarak ince ayar yapıldığından hızlı çıkarım için VLLM kullanımını da destekler.
from vllm import LLM, SamplingParams( := "Meraklı bir kullanıcı ile yapay zeka asistanı arasındaki sohbet. " "Asistan, kullanıcının sorularına yararlı, ayrıntılı ve kibar cevaplar veriyor. " "KULLANICI: Merhaba, bana yardımcı olabilir misiniz? " "ASSISTANT:")sampling_params = SamplingParams(temperature=0,7, max_tokens=4096)llm = LLM(model = "Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], örnekleme_paramları) çıkışlardaki çıkış için: = çıkış. oluşturulan_metin = çıktı.çıktılar [0] .text yazdırma(generate_text)
Alpaka: kullanımı kolay, hızlı, düşük maliyetli, insan açıklamasıyla doğrulandı
Otomatik bir Yüksek Lisans değerlendirme aracı olarak Alpaca, AlpacaFarm ve Aviary'yi birleştirir.
Bir yandan AlpacaFarm ile aynı kodu kullanıyor (önbelleğe alma/rastgele permütasyonlar/hiperparametreler), diğer yandan Aviary'e benzer bir sıralama ipucu kullanıyor.
Aynı zamanda, Aviary'nin istemleri de daha uzun çıktıya yönelik eğilimi azaltacak şekilde değiştirildi.
Ekip, Alpaka'nın olağanüstü etkileri olduğunu söyledi:
Tek bir insan yorumcudan daha yüksek, insan çoğunluğunun oyuyla tutarlılık
Kazanma oranı, insan notuyla yüksek oranda ilişkilidir (0,94)
Modelin çıktısı, talimat bazında text-davinci-003'ten (yani referans metni) daha iyi performans gösteriyor.
Spesifik olarak, ilk önce Alpaka veri setindeki her talimattaki istenen modelin çıktı çiftlerini topladık ve her çıktıyı aynı talimattaki referans modelin (text-davinci-003) çıktısıyla eşleştirdik.
Daha sonra bu çıktılar aynı anda otomatik değerlendiriciye iletilerek hangisinin daha iyi olduğuna (yani değerlendiricinin tercihine) karar vermesi sağlanır.
Son olarak, modelin text-davinci-003'e göre kazanma oranını elde etmek için veri setindeki tüm talimatların tercihlerinin ortalaması alınır. İki modelin eşitliği halinde yarı tercih sayılır.
- SINIRLAMALAR
Alpaka, bir modelin talimatları takip etme yeteneğini karşılaştırmak için etkili bir yol sağlarken, bir modelin yeteneğinin kapsamlı bir değerlendirmesi için altın standart değildir.
AlpacaFarm makalesinde ayrıntılı olarak açıklandığı gibi, otomatik açıklayıcıların kazanma oranı uzunluğa bağlıdır. İnsan açıklaması da bu önyargıdan muzdarip olsa da, daha uzun yanıtların alt görevlerde faydayı artırıp artırmayacağı belirsizdir.
Ayrıca AlpacaFarm'ın değerlendirme seti her ne kadar çeşitli olsa da temel olarak basit talimatlardan oluşuyor.
Son olarak Alpaca hiçbir modelin güvenliğini değerlendirmemektedir.
Referanslar: