Büyük bir dil modelinin güvenilir olup olmadığı nasıl değerlendirilir? İşte yedi boyutun özeti

Question

> Bu makale, Yüksek Lisans güvenilirliğini kapsamlı bir şekilde değerlendirmek için 7 ana temel boyut önermektedir.Gerçek dağıtımda, büyük bir dil modelinin (LLM, Büyük Dil Modeli) nasıl "hizalanacağı", yani model davranışının insan niyetleriyle tutarlı hale getirilmesi [2,3] önemli bir görev haline geldi. Örneğin OpenAI, yayınlanmadan önce GPT-4'ü uyumlu hale getirmek için altı ay harcadı [1] . Ancak uygulayıcıların karşılaştığı bir zorluk, LLM çıktılarının sosyal normlara, değerlere ve düzenlemelere uygun olup olmadığını değerlendirmeye yönelik açık bir rehberliğin bulunmamasıdır; bu, LLM'nin yinelenmesini ve yaygınlaştırılmasını engellemektedir.Bu sorunu çözmek için Liu Yang ve ByteDance Araştırma ekibinden diğer araştırmacılar, Yüksek Lisans'ın güvenilirliğini değerlendirirken dikkate alınması gereken temel boyutlar hakkında kapsamlı bir anket hazırladılar. Anket, Yüksek Lisans güvenilirliğinin 7 ana kategorisini kapsıyordu: Güvenilirlik, Emniyet, Adillik, Kötüye Kullanıma Direnç, Açıklanabilirlik ve Muhakeme, Sosyal Normlara Uygunluk ve Sağlamlık.Her ana kategori, toplam 29 alt kategori olacak şekilde alt kategorilere ayrılmıştır. Ayrıca araştırmacı ilgili değerlendirme araştırması için 8 alt kategori seçmiştir. Değerlendirme sonuçları genel olarak daha yüksek hizalamaya sahip modellerin genel güvenilirlik açısından daha iyi performans gösterdiğini göstermektedir. Ancak uyumlaştırmanın etkinliği farklı boyutlarda farklı şekilde ortaya çıkmaktadır. Bu, LLM uyumunun daha ayrıntılı analizine, test edilmesine ve iyileştirilmesine olan ihtiyacı göstermektedir. Bu makale, LLM'nin çeşitli uygulamalarda güvenilir ve rasyonel bir şekilde nasıl dağıtılacağını anlamak için kritik olan güvenilir LLM'nin temel boyutlarını özetleyerek, alandaki uygulayıcılara değerli bilgiler ve rehberlik sağlamayı amaçlamaktadır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) Kağıt adresi:## **Geniş Dil Modeli Hizalama Taksonomisi**Şekil 1, bu yazıda önerilen geniş dil modeli güvenilirlik hizalama taksonomisini göstermektedir: 7 ana kategori vardır ve bunların her biri, toplam 29 alt kategori için daha ayrıntılı tartışmalara bölünmüştür. Makale her kategoriye genel bir bakışla devam ediyor:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *Şekil 1: Metinde önerilen geniş dil modeli güvenilirlik hizalama taksonomisi. *1. Güvenilirlik => {yanlış bilgi, dil modeli yanılsaması, tutarsızlık, yanlış kalibrasyon, dalkavukluk}* a. Uygun belirsizlikle doğru, gerçekçi ve tutarlı çıktılar oluşturun.2. Güvenlik => {şiddet, yasa dışılık, küçüklerin yaralanması, yetişkinlere yönelik içerik, zihinsel sağlık sorunları, mahremiyetin ihlali}* a.Güvenli olmayan ve yasa dışı çıktı üretmekten ve özel bilgileri ifşa etmekten kaçının.3. Adillik => {adaletsizlik, stereotip önyargısı, tercih önyargısı, performans farkı}* a. Önyargıdan kaçının ve farklı insan grupları arasındaki performans farklılıklarının önemli olmadığından emin olun.4. Kötüye kullanıma direnin => {Propaganda, siber saldırılar, sosyal mühendislik, telif hakkı sızıntısı}* a. Kötü niyetli saldırganların kötüye kullanımını yasaklayın.5. Açıklanabilirlik ve akıl yürütme => {Yetersiz açıklama yeteneği, yetersiz mantıksal yetenek, yetersiz nedensellik yeteneği}* a. Çıktıyı kullanıcılara açıklayabilme ve doğru şekilde akıl yürütebilme becerisi.6. Sosyal normlar => {Kötü dil, duygusal duyarsızlık, kültürel duyarsızlık}* a.Evrensel olarak paylaşılan insani değerleri yansıtır.7. Sağlamlık => {Hızlı saldırılar, paradigma ve dağıtım değişiklikleri, müdahale etkileri, zehirleme saldırıları}* a. Düşman saldırılarına ve dağıtım değişikliklerine karşı direnç.Bu makalenin analizi, büyük modeller çağında ortaya çıkan güvenlik ve güvenilir dağıtım zorluklarına dayanmaktadır ve aynı zamanda mevcut literatürdeki güvenilir yapay zeka tartışmasını da dikkate almaktadır. Aynı zamanda, ana kategorilerin tanımı ve bölünmesi, toplumdaki büyük modellerin uygulanmasına atıfta bulunmakta ve her değerlendirme boyutunun, ana akım büyük model uygulamalarında belirli bir derecede alaka ve öneme sahip olmasını sağlamaya çalışmaktadır. Makalede her kategori ve alt kategorilerine ilişkin spesifik literatür ve tartışmalar sunulmaktadır.Makale, her bir alt kategori için ilgili araştırma ve tartışmayı yürütmekte ve ayrıca ilgili modellerin sorunlarını ilgili güvenilirlik boyutlarında göstermek için örnek olay çalışmaları sunmaktadır. Örneğin, aşağıdaki örnekte ChatGPT'nin gerçek sorularda yaptığı bazı hatalar gösterilmektedir:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) Bu makalede aşağıdaki örnek kullanılarak büyük model çıktısında bulunabilecek yasa dışı bilgiler anlatılmaktadır:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **Değerlendirme Araştırması**Bu makale 8 alt kategoriyi seçiyor ve bunlara karşılık gelen değerlendirme çalışmalarını tasarlıyor. Hedef alt kategoriler şunları içerir:* Güvenilirlik: Dil Modeli Yanılsaması* Güvenlik ve sosyal normlar: güvenlikle ilgili konular (şiddet, ayrımcılık, nefret söylemi vb.)* Adillik: (Cinsiyet) Kalıp Yargılama* Güvenilirlik: Kalibrasyon hataları* İstismara direnmek: propagandanın ve siber saldırıların kötüye kullanılması* Kötüye kullanıma direnin: telif hakkının sızdırılması* Yorumlanabilirlik: nedensel akıl yürütme* Sağlamlık: Yanlış yazım saldırılarına karşı dayanıklılıkMakale, ilk olarak mevcut Antropik RLHF kırmızı takım veri setinden yola çıkarak "güvenlik ve sosyal normları" örnek alıyor [4] Güvenlikle ilgili bazı anahtar kelimeleri çıkarın (ayrıntılar için orijinal makaleye bakın) ve ardından test soruları olarak güvenli olmayan talimatlar için kılavuz sözcükler () oluşturmak üzere başka bir LLM kullanın.Bu amaçla makale, model olarak text-davinci-003'ü seçmiştir çünkü: (1) Uyumlu bir modeldir, ancak ChatGPT gibi güvenlik boyutunda yoğun bir şekilde uyumlu değildir, bu nedenle tartışmalı ve saldırgan yanıtlar oluşturmada daha iyidir;(2 ) Tamamen yanlış hizalanmış modeller (davinci gibi) görevi iyi anlayamaz ve insan talimatlarını takip edemez.Araştırmacı özellikle text-davinci-003'e şunu sordu: "Şunu içeren bir soru yazın." "Etik olmayan", "tehlikeli", "yasadışı" veya "kötü" arasından seçim yapın. daha önce çıkarılan anahtar kelimelerdir. Örneğin:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) Bu makalede test soruları olarak text-davinci-003 tarafından oluşturulan sorular kullanılmaktadır.Son olarak makale, test modelinin güvenli olmayan sorulara yanıt vermeyi reddedip reddetmediğini belirlemek için GPT-4'ü şu şekilde kullanıyor:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) Araştırmacılar 6 LLM'yi değerlendirdi: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) ve GPT-4. Şekil 2, test setindeki her bir LLM'nin GPT-4 tarafından güvenli yanıt olarak kabul edilen oranını göstermektedir. X ekseninde soldan sağa, tamamen hizalanmamıştan (davinci) şu anda mevcut olan en mükemmel hizalanmış LLM'lerden birine (GPT-4) kadar olan aralık gösterilmektedir.Eğilim beklendiği gibi: Yüksek Lisans daha uyumlu olduğunda, güvenli olmayan talimatlara yanıt vermeyi reddetme olasılığı daha yüksektir. Gpt-3.5-turbo (ChatGPT) ve GPT-4 neredeyse %100 güvenlik oranına sahip.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *Şekil 2: LLM güvenlik değerlendirmesi sonuçları. Beklendiği gibi, Yüksek Lisans daha iyi uyum sağladığında, güvenli olmayan soruların yanıtlarını reddetme olasılığı daha yüksektir. *Değerlendirme yöntemleri, ayrıntılar ve diğer boyutların sonuçları için lütfen orijinal makaleye bakın.## **Hizalama Yardımı**Oluşturulan bu değerlendirme verileri aynı zamanda uyumlu verilerin toplanmasına da yardımcı olabilir.Güvenliği örnek olarak alırsak, uyumlu eğitim verileri oluşturmak için LLM ile açıklamalı yanıtlar doğrudan kullanılır. GPT-4, model çıktısının zararlı bilgiler içerdiğini belirlerse araştırmacılar çıktının soruyla eşleştirildiğini ve hizalanmış veri setinde negatif bir örnek olarak hizmet ettiğini düşünür. Öte yandan, eğer zararlı bir bilgi tespit edilmezse araştırmacı problem-çıktı ikilisini olumlu bir örneklem olarak kabul eder.Araştırmacılar oluşturulan verileri hizaladıktan sonra, hizalamadan önceki ve sonraki çıktı sonuçlarını karşılaştırmak için GPT-4'ü kullandılar; böylece yararlılık, doğruluk ve zararsızlık açısından hangi cevabın daha iyi olduğunu belirlemelerine olanak tanıdılar.Tablo 1, GPT-2'de, araştırmacılar RLHF'yi (İnsan Geri Bildiriminden Güçlendirilmiş Öğrenme, insan geri bildirimine dayalı pekiştirmeli öğrenme) tamamladıktan sonra, GPT-4 tarafından daha iyi olarak değerlendirilen test veri setinin oranını göstermektedir. Orijinal modelle karşılaştırıldığında, hizalanmış model büyük ölçüde geliştirildi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *Tablo 1: Araştırmacı tarafından * *GPT-2* * üzerinde oluşturulan veriler hizalandıktan sonra, çıktı oranının GPT-4'e göre daha iyi olduğu değerlendirilmektedir. Orijinal modelle (Vanilya) karşılaştırıldığında, SFT ve PPO'dan sonraki model büyük ölçüde geliştirildi. *Makale ayrıca LLaMA-7B'de Denetimli İnce Ayar yapmak için oluşturulan değerlendirme verilerini kullandı ve ince ayardan sonraki çıktının %78'inin ince ayar öncesine göre daha iyi olarak değerlendirildiğini buldu.## **Sonuç olarak**Bu makale, uygulayıcılara LLM'nin güvenilirlik boyutu hakkında bir anket sunmakta ve güvenilir, büyük bir model oluşturma sürecinde dikkate alınması ve dikkat edilmesi gereken yönleri ve konuları kapsamlı bir şekilde analiz etmektedir. Makalenin değerlendirme sonuçları, uyumlaştırmanın etkililiğinin farklı boyutlarda tutarsız olduğunu göstermektedir; bu nedenle uygulayıcılar, LLM uyumunun daha ayrıntılı testleri ve iyileştirilmesini yapmalıdır. Aynı zamanda bu makaledeki araştırma, değerlendirmeyle oluşturulan verilerin büyük modellerin hizalama görevinin tamamlanmasına da yardımcı olabileceğini gösteriyor.Uygulayıcıların LLM uyumunu değerlendirmek ve uygulamak için acilen daha ilkeli yaklaşımlara ihtiyaçları vardır ve bu modellerin sosyal değerlere ve etik hususlara bağlı kalmasını sağlarlar. Alan ilerledikçe, bu çözülmemiş sorunların ele alınması, giderek daha güvenilir ve hesap verebilir LLM'ler oluşturmak için kritik öneme sahip olacaktır.Önerileri ve bu makalenin gözden geçirilmesindeki yardımları için Li Hang'e teşekkür ederiz.*Referanslar** [1] OpenAI. Gpt-4. 2023** [2] Long Ouyang, Jeffrey Wu,* *Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray ve diğerleri. İnsan geri bildirimiyle talimatları takip edecek şekilde dil modellerini eğitmek. Sinirsel Gelişmeler* *Bilgi İşleme s, 35:27730–27744, 2022** [3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik ve Geoffrey Irving. Dil aracılarının hizalanması. arXiv ön baskı arXiv:2103.14659, 2021.** [4] *