Büyük modelin yorumlanabilirliğini çözebilir misiniz? İnceleme burada, sorularınızı cevaplayacak bir makale

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-78b1269849-dd1a6f-6d2ef1) Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuşturBüyük ölçekli dil modelleri, doğal dil işlemede şaşırtıcı akıl yürütme yetenekleri sergiliyor, ancak bunların altında yatan mekanizmalar henüz net değil. Büyük ölçekli dil modellerinin yaygın olarak uygulanmasıyla birlikte modellerin çalışma mekanizmalarının açıklanması, uygulama güvenliği, performans sınırlamaları ve kontrol edilebilir sosyal etkiler açısından kritik öneme sahiptir.Son zamanlarda, Çin ve Amerika Birleşik Devletleri'ndeki birçok araştırma kurumu (New Jersey Teknoloji Enstitüsü, Johns Hopkins Üniversitesi, Wake Forest Üniversitesi, Georgia Üniversitesi, Shanghai Jiao Tong Üniversitesi, Baidu, vb.) ortaklaşa büyük model yorumlanabilirlik teknolojisine ilişkin bir inceleme yayınladı. Geleneksel ince ayar modellerinin ve ing tabanlı çok büyük modellerin yorumlanabilirlik teknikleri kapsamlı bir şekilde gözden geçirilmekte ve model yorumlamanın değerlendirme kriterleri ve gelecekteki araştırma zorlukları tartışılmaktadır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-229d52bfe3-dd1a6f-6d2ef1) * Kağıt bağlantısı:*Github bağlantısı:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a108bc518-dd1a6f-6d2ef1) **Büyük modellerin yorumlanmasında zorluklar nelerdir? **Büyük modelleri yorumlamak neden bu kadar zor? Büyük dil modellerinin doğal dil işleme görevlerindeki şaşırtıcı performansı toplumdan büyük ilgi gördü. Aynı zamanda, büyük modellerin görevler genelindeki çarpıcı performansının nasıl açıklanacağı, akademik çevrenin karşı karşıya olduğu acil zorluklardan biridir. Geleneksel makine öğrenimi veya derin öğrenme modellerinden farklı olarak ultra büyük model mimarisi ve devasa öğrenme materyalleri, büyük modellerin güçlü akıl yürütme ve genelleme yeteneklerine sahip olmasını sağlar. Büyük dil modelleri (LLM'ler) için yorumlanabilirlik sağlamadaki bazı önemli zorluklar şunları içerir:* Model karmaşıklığı yüksektir. Yüksek Lisans dönemi öncesindeki derin öğrenme modellerinden veya geleneksel istatistiksel makine öğrenme modellerinden farklı olarak, Yüksek Lisans modelleri çok büyük ölçeklidir ve milyarlarca parametre içerir.İçsel temsil ve muhakeme süreçleri çok karmaşıktır ve spesifik çıktılarını açıklamak zordur.* Güçlü veri bağımlılığı. LLM'ler eğitim sürecinde geniş ölçekli metin külliyatına güvenir.Bu eğitim verilerindeki önyargılar, hatalar vb. modeli etkileyebilir ancak eğitim verilerinin kalitesinin model üzerindeki etkisini tam olarak değerlendirmek zordur.* Kara kutu doğası. Llama-2 gibi açık kaynaklı modeller için bile LLM'leri genellikle kara kutu modelleri olarak düşünürüz. İç akıl yürütme zincirini ve karar verme sürecini açıkça yargılamak bizim için zor, sadece girdi ve çıktıya dayalı olarak analiz edebiliyoruz, bu da yorumlanabilirliği zorlaştırıyor.* Çıkış belirsizliği. Yüksek Lisans çıktılarının çoğu zaman belirsiz olması ve aynı girdi için farklı çıktılar üretilebilmesi, yorumlanabilirliğin zorluğunu da arttırmaktadır.* Yetersiz değerlendirme göstergeleri. Diyalog sistemlerinin mevcut otomatik değerlendirme göstergeleri, modelin yorumlanabilirliğini tam olarak yansıtmak için yeterli değildir ve insan anlayışını dikkate alan daha fazla değerlendirme göstergesine ihtiyaç vardır.**Büyük modeller için eğitim paradigması**Büyük modellerin yorumlanabilirliğini daha iyi özetlemek için, BERT ve üzeri seviyelerdeki büyük modellerin eğitim paradigmalarını iki türe ayırıyoruz: 1) geleneksel ince ayar paradigması; 2) ing tabanlı paradigma.**Geleneksel ince ayar paradigması**Geleneksel ince ayar paradigması için, temel bir dil modeli ilk önce daha büyük bir etiketsiz metin kitaplığında önceden eğitilir ve ardından belirli bir alandaki etiketli veri kümeleri aracılığıyla ince ayar yapılır. Bu tür yaygın modeller arasında BERT, RoBERTa, ELECTRA, DeBERTa vb. bulunur.**ing tabanlı paradigma**Ing tabanlı paradigma, s'yi kullanarak sıfır atışlı veya birkaç atışlı öğrenmeyi uygular. Geleneksel ince ayar paradigması gibi, temel modelin de önceden eğitilmesi gerekir. Bununla birlikte, ing paradigmasına dayalı ince ayar genellikle talimat ayarlama ve insan geri bildiriminden (RLHF) takviyeli öğrenme yoluyla uygulanır. Bu tür yaygın modeller arasında GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna vb. bulunur. Eğitim süreci aşağıdaki gibidir:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-643c1f15c1-dd1a6f-6d2ef1) **Geleneksel ince ayar paradigmasına dayanan model açıklaması**Geleneksel ince ayar paradigmasına dayanan model açıklaması, bireysel tahminlerin açıklamasını (yerel açıklama) ve nöronlar, ağ katmanları vb. gibi model yapısal düzey bileşenlerinin açıklamasını (küresel açıklama) içerir.**Kısmi açıklama**Yerel açıklama, tek örnek tahminlerini açıklar. Açıklama yöntemleri; özellik yükleme, dikkat temelli açıklama, örnek temelli açıklama ve doğal dil açıklamasını içerir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-884d4dcaef-dd1a6f-6d2ef1) 1. Özellik ilişkilendirme, her bir girdi özelliğinin (örneğin kelime, kelime öbeği, metin aralığı) model tahminleriyle ilişkisini ölçmeyi amaçlar. Özellik ilişkilendirme yöntemleri şu şekilde sınıflandırılabilir:* Pertürbasyon yorumuna dayanarak, belirli giriş özelliklerini değiştirerek çıktı sonuçları üzerindeki etkiyi gözlemleyin;* Gradyan yorumuna dayalı olarak, çıktının girdiye olan kısmi farkı, karşılık gelen girdinin önem indeksi olarak kullanılır;* Alternatif modeller, her bir girdinin önemini elde etmek için karmaşık modellerin bireysel çıktılarına uyacak şekilde basit, insan tarafından anlaşılabilen modeller kullanan;* Özellik korelasyon puanlarını doğrusal olarak ayrıştırmayı amaçlayan ayrıştırmaya dayalı teknikler.2. Dikkate dayalı açıklama: Dikkat genellikle girdinin en ilgili kısımlarına odaklanmanın bir yolu olarak kullanılır; böylece dikkat, tahminleri açıklamak için kullanılabilecek ilgili bilgileri öğrenebilir. Dikkatle ilgili yaygın açıklamalar şunları içerir:* Farklı ölçeklerdeki dikkat puanlarındaki değişiklikleri sezgisel olarak gözlemlemek için dikkat görselleştirme teknolojisi;* Dikkate karşı çıktının kısmi türevi gibi fonksiyona dayalı yorumlama. Ancak dikkatin bir araştırma perspektifi olarak kullanılması akademik camiada tartışmalı olmaya devam ediyor.3. Örneğe dayalı açıklama, modeli bireysel vakaların perspektifinden tespit eder ve açıklar; bu esas olarak ikiye ayrılır: karşıt örnekler ve karşıt olgusal örnekler.* Çekişmeli örnekler, modelin küçük değişikliklere karşı çok hassas olan özelliklerine göre oluşturulan verilerdir.Doğal dil işlemede genellikle metin değiştirilerek elde edilir.İnsanların ayırt etmesi zor olan metin dönüşümleri genellikle farklı tahminlere yol açar. modeli.* Karşıolgusal örnekler, genellikle modelin nedensel çıkarım yeteneğinin bir testi olan olumsuzlama gibi metnin deforme edilmesiyle elde edilir.4. Doğal dil açıklaması, model eğitimi için orijinal metni ve manuel olarak etiketlenmiş açıklamaları kullanır, böylece model, doğal dil açıklama modelinin karar verme sürecini oluşturabilir.**Genel açıklama**Küresel açıklama, büyük bir modelin çalışma mekanizmasının nöronlar, gizli katmanlar ve daha büyük bloklar dahil olmak üzere model seviyesinden daha üst düzey bir açıklamasını sağlamayı amaçlamaktadır. Esas olarak farklı ağ bileşenlerinde öğrenilen anlamsal bilgiyi araştırır.* Prob tabanlı yorumlama Prob yorumlama teknolojisi temel olarak sınıflandırıcı tespitine dayanır. Sığ bir sınıflandırıcıyı önceden eğitilmiş bir model veya ince ayarlı bir model üzerinde eğiterek ve ardından onu bir tutma veri seti üzerinde değerlendirerek, sınıflandırıcı dil özelliklerini tanımlayabilir. veya muhakeme yeteneği.* Nöron aktivasyonu Geleneksel nöron aktivasyon analizi, önemli nöronların yalnızca bir kısmını dikkate alır ve ardından nöronlar ile anlamsal özellikler arasındaki ilişkiyi öğrenir. Son zamanlarda GPT-4 nöronları açıklamak için de kullanılıyor, açıklama için bazı nöronları seçmek yerine GPT-4 tüm nöronları açıklamak için kullanılabiliyor.* Kavrama dayalı yorumlama, girdileri bir dizi kavramla eşleştirir ve ardından kavramların tahminler açısından önemini ölçerek modeli açıklar.**İng paradigmasına dayalı model açıklaması**Ining paradigmasına dayalı model açıklaması, iki modelin yeteneklerini ayırt etmek ve model öğrenme yolunu keşfetmek için temel model ve yardımcı modelin ayrı açıklamalarını gerektirir. Araştırılan konular temel olarak şunları içerir: birkaç adımlı öğrenme modelleri için açıklamalar sağlamanın yararları; birkaç adımlı öğrenmenin kökenini anlamak ve düşünme zinciri yetenekleri.**Temel model açıklaması*** Model öğrenimi için açıklamaların faydaları Birkaç adımlı öğrenme bağlamında açıklamaların model öğrenimi için yararlı olup olmadığını keşfedin.* Durumlu öğrenme, büyük modellerdeki durumsal öğrenmenin mekanizmasını araştırır ve büyük modeller ile orta modeller arasındaki durumsal öğrenme arasındaki farkı ayırt eder.* Düşünce zincirleme Düşünce zincirlemenin modelin performansını iyileştirmesinin nedenlerini keşfedin.**Yardımcı Model Açıklaması*** İnce ayarlı rol asistanı modelleri genellikle genel anlamsal bilgi edinmek ve ardından denetimli öğrenme ve takviyeli öğrenme yoluyla alan bilgisi edinmek için önceden eğitilir. Asistan modelinin bilgisinin esas olarak hangi aşamadan geldiği henüz araştırılmayı beklemektedir.* Halüsinasyonlar ve belirsizliklere ilişkin büyük model tahminlerinin doğruluğu ve güvenilirliği mevcut araştırmalarda hala önemli konulardır. Büyük modellerin güçlü çıkarım yeteneklerine rağmen sonuçları sıklıkla yanlış bilgi ve halüsinasyonlardan olumsuz etkileniyor. Tahmindeki bu belirsizlik, yaygın uygulanmasında büyük zorluklara neden oluyor.**Model Açıklamalarının Değerlendirilmesi**Model açıklamasına yönelik değerlendirme göstergeleri inandırıcılık, doğruluk, istikrar, sağlamlık vb. içerir. Makale esas olarak geniş çapta endişe duyulan iki boyuttan bahsediyor: 1) insanlara yönelik rasyonellik; 2) modelin iç mantığına sadakat.Geleneksel ince ayar modeli açıklamalarına ilişkin değerlendirmeler ağırlıklı olarak yerel açıklamalara odaklanmıştır. Olasılık genellikle model yorumlarının, tasarlanmış standartlara göre insan tarafından yapılan açıklamalı yorumlara karşı ölçüm değerlendirmesini gerektirir. Aslına uygunluk, niceliksel göstergelerin performansına daha fazla önem verir. Farklı göstergeler, modelin veya verilerin farklı yönlerine odaklandığından, aslına uygunluğu ölçmek için hâlâ birleşik standartların eksikliği vardır. Model yorumuna dayalı değerlendirme daha fazla araştırmayı gerektirir.**Gelecekteki Araştırma Zorlukları****1. Etkili ve doğru açıklamanın olmayışı. **Zorluk iki açıdan kaynaklanmaktadır: 1) etkili açıklamalar tasarlamaya yönelik standartların eksikliği; 2) etkili açıklamaların eksikliği, açıklamaların değerlendirilmesi için destek eksikliğine yol açmaktadır.**2. Ortaya çıkma olgusunun kökeni bilinmemektedir. **Büyük modellerin ortaya çıkma yeteneğinin araştırılması sırasıyla model ve veri perspektifinden gerçekleştirilebilir: Model perspektifinden bakıldığında, 1) ortaya çıkma olgusuna neden olan model yapısı; 2) minimum model ölçeği ve diller arası görevlerde üstün performansa sahip karmaşıklık. Veri perspektifinden bakıldığında, 1) belirli bir tahmini belirleyen veri alt kümesi; 2) ortaya çıkan yetenek ile model eğitimi ve veri kontaminasyonu arasındaki ilişki; 3) eğitim verilerinin nitelik ve niceliğinin, ön hazırlıkların ilgili etkileri üzerindeki etkisi. eğitim ve ince ayar.**3. İnce ayar paradigması ile tasarım paradigması arasındaki fark. **İki dağıtım içi ve dağıtım dışının farklı performansları, farklı akıl yürütme yolları anlamına gelir. 1) Veriler dağıtım halindeyken akıl yürütme paradigmalarındaki farklılıklar; 2) Veriler farklı şekilde dağıtıldığında model sağlamlığındaki farklılıkların kaynakları.**4. Büyük modeller için kısayol öğrenme problemi. **İki paradigma altında modelin kısayol öğrenme sorunu farklı yönlerde mevcuttur. Büyük modeller bol miktarda veri kaynağına sahip olmasına rağmen, kısayol öğrenme sorunu nispeten hafifletilmiştir. Kısayol öğrenmenin oluşum mekanizmasının aydınlatılması ve çözüm önerilerinin getirilmesi modelin genelleştirilmesi açısından önemini korumaktadır.**5. Dikkat fazlalığı. **Dikkat modüllerinin artıklık sorunu her iki paradigmada da yaygın olarak mevcuttur.Dikkat artıklığı çalışması, model sıkıştırma teknolojisi için bir çözüm sağlayabilir.**6. Güvenlik ve etik. **Büyük modellerin yorumlanabilirliği, modelin kontrol edilmesi ve modelin olumsuz etkisinin sınırlandırılması açısından kritik öneme sahiptir. Önyargı, adaletsizlik, bilgi kirliliği, sosyal manipülasyon ve diğer konular gibi. Açıklanabilir yapay zeka modelleri oluşturmak, yukarıdaki sorunları etkili bir şekilde önleyebilir ve etik yapay zeka sistemleri oluşturabilir.