Yapay Zeka Büyük Model Değer Hizalaması: Ne, Neden, Nasıl?

Question

**Orijinal:****Zhang Qinkun, Tencent Araştırma Enstitüsü Genel Sekreteri****Cao Jianfeng, Kıdemli Araştırmacı, Tencent Araştırma Enstitüsü**## Yapay Zeka Değer Hizalaması: Nedir?Yapay zekanın büyük ölçekli modeller çağına girmesinden sonra çeşitli "insansı" ve "insanüstü" yetenekler ortaya çıkmaya devam etti; özerkliği, çok yönlülüğü ve kullanım kolaylığı hızla artarak ekonomik ve sosyal kalkınma için yeni bir teknolojik temel haline geldi. Bazı kuruluşlar, büyük modellerin yaşamın her alanına nüfuz edeceğini ve küresel ekonomiye her yıl 2,6 ila 4,4 trilyon ABD doları arasında değer katacağını öngörüyor. [1]Bununla birlikte, büyük modeller (temel modeller olarak da bilinir) çok çeşitli dil anlama ve içerik oluşturma görevlerini insanlar gibi gerçekleştirmeye başladıkça, en temel ve bilimsel bir zorlukla yüzleşmek gerekir: büyük modellerin yetenekleri ve davranışları nasıl eşleştirilir? İnsani değerler, gerçek niyetler ve etik ilkeler, insanlarla yapay zeka arasındaki işbirliğinde güvenliği ve güveni sağlamak için tutarlıdır. Bu soruna "değer hizalaması" (değer hizalaması veya yapay zeka hizalaması) adı verilir. Değer uyumu yapay zeka güvenliğinde temel bir konudur.Bir dereceye kadar modelin boyutu, modelin riski ve zararı ile pozitif ilişkilidir.Model ne kadar büyük olursa, risk de o kadar yüksek olur ve değer uyumu ihtiyacı da o kadar güçlü olur. Şimdilik, büyük modelin temel yeteneği ön eğitim aşamasından geliyor ve büyük model büyük ölçüde tüm İnternet'in kamuya açık bilgilerine dayanarak eğitiliyor, bu da yalnızca yeteneklerini belirlemekle kalmıyor, aynı zamanda sınırlamalarını da belirliyor. Mevcut sorunlar modele yansıtılabilir.Değer uyumu olmayan büyük bir dil modeli (LLM), ırksal veya cinsiyetçi içerik üretebilir, siber bilgisayar korsanlarının siber saldırılar, telekom dolandırıcılığı için kod veya başka içerik oluşturmasına yardımcı olabilir ve intihar düşüncesi olan kullanıcıları kendi hayatlarına ve üretime son vermeye ikna etmeye veya yardım etmeye çalışabilir. bu tür zararlı içeriklerden Bu nedenle büyük modelleri daha güvenli, güvenilir ve pratik hale getirmek için modelin zararlı çıktı almasını veya kötüye kullanılmasını mümkün olduğunca önlemek gerekir. Bu, mevcut yapay zeka değer uyumlaştırmasının temel görevidir.## Yapay Zeka Değer Hizalaması: NedenBüyük modelin değerinin aynı hizaya getirilmesi, büyük modelde mevcut olan bazı önemli sorunların daha iyi üstesinden gelinmesini sağlayabilir. Toplumun her kesiminden büyük modellerin öne çıkan sorunlarının sıralamasına göre temel olarak şu dört madde öne çıkıyor:Bunlardan biri yanlış bilgi sorunudur. Sektör buna yapay zekanın "illüzyonu" diyor. OpenAI CTO'su Mira Murati'ye göre ChatGPT ve temeldeki büyük dil modelleriyle ilgili en büyük zorluk, yanlış veya var olmayan gerçekleri ortaya çıkarmaları. [2] Bu, eğitim verilerindeki hatalardan veya dezenformasyondan kaynaklanabilir veya aşırı oluşturmanın (kurgusal gerçekler gibi) bir yan ürünü olabilir. Büyük modelin yaratıcılık ile özgünlük arasındaki tahterevalliye basmasına izin vermek teknik bir sorundur.İkincisi ise algoritma ayrımcılığı sorunudur. Mevcut birçok çalışma, büyük dil modellerinin eğitim verilerinden zararlı sosyal önyargıları ve stereotipleri yeniden ürettiğini göstermiştir. [3] OpenAI CEO'su Sam Altman, herhangi bir modelin tüm alanlarda tarafsız olmasının imkansız olduğuna inanıyor. Bu nedenle asıl mesele, modelin potansiyel ayrımcılığının nasıl tespit edileceği, azaltılacağı ve ortadan kaldırılacağıdır.Üçüncüsü ise yeteneğin kontrol dışı “ortaya çıkması” riskidir. Bilgi işlem gücünün ve verilerin sürekli artmasıyla birlikte, büyük modellerin giderek daha güçlü hale gelmesi bekleniyor ve yaratıcılarının anlayış ve kontrolünü bile aşabilecek daha fazla yeni yetenek ortaya çıkabilir, bu da yeni Risklerin onlarla birlikte gelebileceği anlamına gelir, Riskli davranışların veya hedeflerin ortaya çıkması dahil. Teknoloji uzmanları arasındaki ortak endişe, mevcut büyük yapay zeka modelinin yanı sıra, gelecekte ortaya çıkabilecek yapay genel zeka (AGI) ve süper zeka (ASI) gibi daha güçlü ve gelişmiş yapay zeka sistemlerinin, insan altları oluşturabileceğidir. insani çıkar ve değerlere uygun olmayan, belirtilen hedeflere ulaşmak için güç arayışı, aldatma, itaatsizlik vb. alt hedefler. [4] Örneğin araştırmacılar, GPT-4'ün insanları stratejik olarak kandırma, "insanları gizli hedeflerine ulaşmak için görevleri yerine getirmeye kandırma" yeteneği sergilediğini buldu.Dördüncüsü istismar meselesi. Kötü niyetli unsurlar, rakip girdiler ve "jailbreak" operasyonları yoluyla yasa dışı amaçlara ulaşmalarına yardımcı olmak için büyük modeller kullanabilir.Bu nedenle, teknik olarak çözülmesi gereken pratik bir sorun olarak değer uyumu, büyük yapay zeka modellerinin tasarımında, geliştirilmesinde ve dağıtımında temel bir prensip haline gelmiştir; yani: değer uyumlu araç geliştirme ve mühendislik yapısı aracılığıyla, yapay zekanın İnsani değer ve haklara zarar vermeden, insani değerlere ve haklara müdahale etmeden, insana ve topluma faydalı olacak şekilde davranır.## Yapay Zeka Değer Hizalaması: Nasıl yapılır?Değer uyumunu sağlamak için geliştiricilerin, yapay zekanın insan değerlerini, tercihlerini ve etik ilkelerini model düzeyinde anlamasını ve bunlara uymasını sağlamalı ve modelin zararlı çıktılarını ve kötüye kullanılmasını mümkün olduğunca önlemelidir. hem pratik hem güvenli büyük modeldir.Birincisi, İnsan Geri Bildirimi ile Takviyeli Öğrenmenin (RLHF) etkili bir yöntem olduğu kanıtlanmıştır ve az miktarda insan geri bildirimi verisi ile daha iyi sonuçlara ulaşmak mümkündür.2017 yılında OpenAI araştırmacıları, takviye öğrenimine insan geri bildirimini dahil etmeyi öneren "İnsan Tercihlerine Dayalı Derin Takviyeli Öğrenme" makalesini yayınladı. [5] RLHF, ilk model eğitimi, insan geri bildiriminin toplanması, pekiştirmeli öğrenme ve yinelemeli süreç gibi çeşitli adımları içerir. Temel fikir, insan eğitmenlerin model çıktı içeriğinin uygunluğunu değerlendirmesini ve toplanan bilgilere dayalı olarak pekiştirmeli öğrenme için ödül sinyalleri oluşturmasını gerektirmektir. Model performansının geliştirilmiş optimizasyonunu sağlamak için insan geri bildirimi. [6] Pratik açıdan bakıldığında, RLHF'nin model performansını iyileştirmede, model uyarlanabilirliğini geliştirmede, model önyargısını azaltmada ve model güvenliğini artırmada (modellerin gelecekte zararlı içerik üretme olasılığını azaltmak da dahil) önemli avantajları vardır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *Şekil: RLHF akış şeması (Kaynak: OpenAI)*OpenAI, RLHF algoritmasını ileriye taşıdı ve ChatGPT bunu başardı ve büyük ölçüde yararlı, güvenilir ve zararsız içerik üretebiliyor. [7] RLHF eğitim aşamasında GPT-4, ek bir güvenlik ödülü sinyali ekleyerek zararlı çıktıyı azaltır. Bu yöntem, iyi sonuçlar verdi ve kötü niyetli davranış ve zararlı içeriği teşvik etmenin zorluğunu önemli ölçüde iyileştirdi. Önceki modellerle (GPT-3.5 gibi) karşılaştırıldığında GPT-4, halüsinasyonlar, zararlı önyargılar, yasa dışı ve zararlı içerik gibi sorunları önemli ölçüde azaltır. RLHF eğitiminin ardından GPT-4, ilgili özgünlük testlerinde GPT-3.5'ten %40 daha yüksek puan aldı, yasaklı içerik taleplerine GPT-3.5'e göre %82 daha az yanıt verdi ve hassas içerik içeren taleplere daha iyi yanıt verebildi. rica etmek. [8] Kısaca RLHF algoritması, büyük dil modelleri için gerekli güvenlik korkuluklarını kurabilir ve büyük modellerin gücü/ortaya çıkışı ile güvenliği/güvenilirliği arasında bir "dengeleyici" olarak kilit rol oynar.İkincisi, "anayasal yapay zeka" modeli, değer uyumunu verimsiz "insan denetimi"nden daha verimli "ölçeklenebilir gözetime" kaydırıyor.Daha büyük ve daha karmaşık yapay zeka modellerini eğitmek için zaman ve kaynak yatırımı, insan yeteneği ve insan geri bildirimini kullanmanın diğer zorluklarını göz önünde bulunduran sektör, yapay zeka denetiminin (yapay zekanın kendi kendini denetlemesi ve bir yapay zeka sisteminin diğerini denetlemesi dahil) nasıl kullanılacağını araştırıyor. Yapay zeka hizalamasını sağlamak için bir yapay zeka sistemi) yöntemi. Amerikan yapay zeka büyük ölçekli model şirketi Anthropic, "anayasal yapay zeka" (anayasal yapay zeka) yöntemini önerdi. Spesifik olarak, ana işlevi, ana modelin çıktısının belirli bir "anayasal" ilkeye (yani önceden belirlenmiş bir dizi ilke veya kurala) uyup uymadığını değerlendirmek olan bir alt yapay zeka modeli geliştirin ve değerlendirme sonuçları optimize etmek için kullanılır. ana model.Anthropic kendi pratik deneyimini birleştiriyor ve Evrensel İnsan Hakları Bildirgesi'nden, Apple'ın hizmet koşullarından ve DeepMind's Sparrow kurallarından yararlanıyor [9] ve diğer belgeler, kapsamlı bir ilkeler listesi ortaya koyuyor ve bunu, büyük modeli Claude'un kendi çıktısını değerlendirmesine izin vermek için bir değerlendirme kriteri olarak kullanıyor. Amaç, modelin, zararlı içerik olasılığını azaltırken yararlı yanıtlar çıkarmasını teşvik etmektir. cinselliğin en aza indirilmesi. [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *Grafik: Anayasal Yapay Zeka Yolu (Kaynak: Antropik)*Claude, Claude'un zararlı, ayrımcı çıktıları azaltmasına, kötü niyetli kullanıcıların yasadışı veya etik olmayan faaliyetlerde bulunmasına yardımcı olmaktan kaçınmasına ve basitçe kaçınma stratejilerini benimsemek yerine kullanıcıların "düşmanca girdilerine" daha uygun şekilde yanıt vermesine yardımcı olan anayasal yapay zeka yaklaşımının etkinliğini göstermektedir. Sonuç olarak Anthropic, yapay zekaya anayasal bir yaklaşımın, ölçeklenebilirlik, şeffaflık ve kullanışlılık ile zararsızlık arasında bir denge avantajlarına sahip, kullanışlı, dürüst ve zararsız bir yapay zeka sistemi oluşturmaya yardımcı olabileceğine inanıyor.Üçüncüsü, yapay zeka değer uyumunun gerçekleştirilmesini sağlamak için birden fazla önlem alın.Bunlardan biri eğitim verilerine etkili müdahaledir. Büyük modellerin birçok sorunu (halüsinasyonlar ve algoritma ayrımcılığı gibi) eğitim verilerinden kaynaklanır, bu nedenle yetersiz temsil veya çeşitlilik sorunu olup olmadığını belirlemek için eğitim verilerinin kaydedilmesi gibi eğitim verilerinden başlamak mümkündür. veya otomatik tarama, zararlı önyargıları belirlemeye yönelik testler, kaldırma, değere uygun özel veri kümeleri oluşturma ve daha fazlası.İkincisi ise çekişmeli test veya kırmızı takım çalışmasıdır. Kısacası, model piyasaya sürülmeden önce, iç veya dış profesyoneller (kırmızı takım test uzmanları), potansiyel sorunları keşfetmek ve çözmek için modele çeşitli düşmanca saldırılar başlatmaya davet edilir. Örneğin, GPT-4 yayınlanmadan önce OpenAI, modelini test etmek için çeşitli alanlardan 50'den fazla akademisyen ve uzmanı işe aldı. Bu kırmızı takım test uzmanlarının görevi, modelin tepkisini test etmek için modele geçici veya tehlikeli sorular sormaktır. OpenAI, modellerindeki yanlış bilgi (yanılsama), zararlı içerik, dezenformasyon, ayrımcılık, dil önyargısı, geleneksel ve geleneksel olmayan silahların yayılmasıyla ilgili bilgiler vb. açısından sorunların bulunmasına yardımcı olmak için kırmızı takım testini geçmeyi umuyor. . [11]Üçüncüsü içerik filtreleme aracıdır. Örneğin, OpenAI, zararlı kullanıcı girdisini ve model çıktısını (yani kullanım politikasını ihlal eden içerik) tanımlamak ve böylece girdi verilerini ve çıktı verilerini gerçekleştirmek amacıyla zararlı içeriği filtrelemek (yani filtreleme modeli) için bir yapay zeka modelini özel olarak eğitmiştir. model.Kontrol.Dördüncüsü, modelin yorumlanabilirlik ve anlaşılırlık araştırmasını teşvik etmektir.Örneğin, OpenAI, büyük dil modeli GPT-2'nin sinir ağı davranışına yönelik açıklamaları otomatik olarak yazmak ve puanlamak için GPT-4'ü kullanır; [12] Bazı araştırmacılar yapay zeka hizalama problemini mekanizmanın yorumlanabilirliği perspektifinden ele alıyor.## Yapay Zeka Değer Hizalaması: Uzun Vadeli Bir SorunDeğer uyumu çalışması, yapay zeka alanındaki en temel ve zorlu araştırmadır. Buradaki zorluk, bunun çok çeşitli disiplinleri ve sosyal katılımı gerektirmesi ve çeşitli girdiler, yöntemler ve geri bildirimler gerektirmesidir; temel nokta, bunun yalnızca mevcut büyük modelin başarısı veya başarısızlığıyla ilgili değil, aynı zamanda insanların gelecekteki (AGI gibi) güvenlik kontrolleri için daha güçlü bir yapay zekaya ulaşıp ulaşamayacağı. Bu nedenle yapay zeka alanındaki yenilikçilerin, yapay zeka modellerinin insan odaklı, sorumlu, güvenli ve güvenilir olmasını sağlama sorumluluğu ve yükümlülüğü vardır. Ünlü bir yapay zeka bilimcisi olan Profesör Zhang Yaqin, yapay zeka ile insani değerleri hizalama sorununu çözmek için teknik kişilerin araştırmalarını hizalamaya odaklaması gerektiğine, böylece makinelerin insani değerleri anlayıp takip edebilmesine dikkat çekti. Bu nedenle değer uyumu yalnızca bir etik sorunu değil, aynı zamanda bunun nasıl başarılacağı sorusudur. Teknoloji ve araştırma yapan insanlar sadece teknik yeteneklerini geliştirip hizalama sorunlarını çözmeye odaklanamazlar. [13]Yapay zeka değerlerinin hizalanması belirli teknik sonuçlara ulaşmış olsa da, en temel yapay zeka değeri sorunu konusunda hâlâ bir fikir birliği yok: yapay zekayı düzenlemek için birleşik bir insani değerler kümesinin nasıl oluşturulacağı. Şu anda hangi ilkelerin seçileceği tamamen araştırmacıların öznel yargılarına ve değerlerine bağlı olabilir. İnsanların farklı kültürlere, geçmişlere, kaynaklara ve inançlara sahip olduğu bir dünyada yaşadığımız göz önüne alındığında, yapay zeka değer uyumlaştırmasının farklı toplum ve grupların farklı değerlerini ve etiklerini hesaba katması gerekir. Dahası, araştırmacıların bu değerleri tamamen kendi başlarına seçmesine izin vermek pratik değildir ve fikir birliği oluşturmak için daha fazla toplumsal katılıma ihtiyaç vardır.Aynı zamanda, mevcut yapay zeka değer hizalama çalışması hala önemli bir sorunla karşı karşıyadır: Yapay zekanın yetenekleri gelişmeye devam ettikçe, insan zekasının temelde değişmeden kaldığı varsayımına dayanarak, insanlar bu son teknoloji ürünü yapay zeka modellerini etkili bir şekilde denetleyecektir. giderek daha da zorlaşıyor. Bu nedenle, yapay zeka güvenliğini sağlamak için, modellerin karmaşıklığına paralel olarak yapay zeka modellerini izleme, anlama ve tasarlama yeteneğimizi geliştirmemiz gerekiyor.Yapay zeka yardımına veya liderliğine dayalı "ölçek denetimi" bu fikri yansıtıyor. Bu yılın temmuz ayında, OpenAI yeni bir yapay zeka hizalama ekibi kurulduğunu duyurdu. Bu yeni süper hizalama ekibinin (süper hizalama) hedefi, süper akıllı yapay zeka sistemlerinin 4 yıl içinde değer hizalaması ve güvenliğine nasıl ulaşacağını bulmaktır. Bu projeyi desteklemek için %20 Bilgi İşlem kaynaklarına yatırım yapın. Bunun özü, insanların yapay zeka değerlerinin uyumlaştırılması sorununu çözmelerine yardımcı olmak için yapay zekanın nasıl kullanılacağını keşfetmektir. [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *Şekil: OpenAI Süper Hizalama Ekibi (Kaynak: OpenAI)*Ancak yapay zeka sistemlerinin hedef ve davranışlarının insani değerler ve niyetlerle tutarlı olmasını sağlayarak yapay zekanın iyilik için hayata geçirilmesini sağlayabilir ve verimliliğin, ekonomik büyümenin ve sosyal ilerlemenin gelişimini teşvik edebiliriz denilebilir. Değer uyumunun araştırılması ve teknik olarak gerçekleştirilmesi, kapsamlı çok disiplinli işbirliği ve sosyal katılımdan ayrılamaz. Hükümet, endüstri ve akademi gibi paydaşların, yapay zeka değerlerinin uyumlaştırılmasına yönelik araştırma ve uygulamaları teşvik etmek için daha fazla kaynak yatırımı yapması gerekiyor; böylece insanların yapay zekayı izleme, anlama ve kontrol etme becerisi ile yapay zekanın gelişimi ve ilerlemesi el ele gidiyor. yapay zekanın tüm insanlığa ve topluma fayda sağlayabilmesini sağlamak.Referans kaynağı:[1][2][3][4][5][6][7][8][9][10][11] 6 Mayıs 2023'te ziyaret edildi).[12][13][14]