Büyük dil modelini daha mükemmel hale getirme hedefi, hayatımda ilk kez bu kadar çok akıllı insanın aynı anda ortak bir amaç için canla başla çalıştığını gördüm. Endüstri ve akademi dünyasından birçok insanla iletişim kurduktan sonra on temel araştırma yönünün ortaya çıktığını fark ettim. Şu anda en çok dikkat çeken iki yön Halüsinasyonlar (çıkış halüsinasyonları) ve Bağlam Öğrenmedir.
Kendi adıma en ilginç olanları aşağıda listelenen 3. yön (Çok modlu çok modlu veri modu), 5. yön (Yeni mimari) ve 6. yön (GPU alternatiflerinin GPU alternatiflerinin geliştirilmesi) çözümüdür.
LLM araştırmasında ilk 10 açık zorluk
Çıktıyı azaltın ve değerlendirin (kurgusal bilgi)
Bağlam uzunluğunu ve bağlam yapısını optimize edin
Diğer veri formlarını entegre edin
Dil modeli hızını ve maliyet etkinliğini artırın
Yeni model mimarisini tasarlayın
Alternatif GPU çözümlerinin geliştirilmesi
Aracıların kullanılabilirliğini iyileştirin (yapay zeka)
İnsan tercihlerinden öğrenme yeteneği geliştirildi
Sohbet arayüzünün verimliliğini artırın
İngilizce dışındaki diller için dil modelleri oluşturun
1. Halüsinasyonların azaltılması ve değerlendirilmesi
Çıktı ortamı çok tartışılan bir konudur, bu yüzden burada kısa tutacağım. Yapay zeka modelleri bir şeyler uydurduğunda halüsinasyonlar ortaya çıkıyor. Birçok yaratıcı kullanım durumunda illüzyon bir tür özelliktir. Ancak çoğu uygulamada halüsinasyon bir hatadır. Geçtiğimiz günlerde Dropbox, Langchain, Elastics ve Anthropic'ten uzmanların katılımıyla LLM üzerine bir sempozyuma katıldım. Onlara göre işletmelerin gerçek üretimde LLM uygularken aşması gereken ilk engel fantom çıktıdır.
Modellerin halüsinasyon çıktısını azaltmak ve halüsinasyon çıktısını değerlendirmek için ölçümler geliştirmek hızla gelişen bir araştırma konusudur ve birçok yeni girişim şu anda bu soruna odaklanmaktadır. Ayrıca, halüsinasyon çıktısı olasılığını azaltmak için işaret sözcüklerine daha fazla bağlam eklemek, CoT, kendi kendine tutarlılık veya modelin yanıtlarının kısa ve öz olması için özel gereksinimler gibi püf noktaları da vardır.
Aşağıda halüsinasyon çıktısı üzerine bir dizi makale ve referans materyali bulunmaktadır:
Doğal Dil Üretiminde Halüsinasyon Araştırması(Ji ve diğerleri, 2022)
Dil Modeli Halüsinasyonları Nasıl Kartopu Olabilir(Zhang ve diğerleri, 2023)
Akıl Yürütme, Halüsinasyon ve Etkileşim Üzerine ChatGPT'nin Çok Görevli, Çok Dilli, Çok Modlu Kullanımı (Bang ve diğerleri, 2023)
Karşılaştırmalı Öğrenme Konuşmalardaki Halüsinasyonu Azaltır(Sun ve diğerleri, 2022)
Öz Tutarlılık, Dil Modellerinde Düşünce Muhakeme Zincirini Geliştirir(Wang ve diğerleri, 2022)
SelfCheckGPT: Üretken Büyük Dil Modelleri için Sıfır Kaynaklı Kara Kutu Halüsinasyon Tespiti(Manakul ve diğerleri, 2023)
NVIDIA NeMo-Guardrails'in basit bir doğrulama ve halüsinasyon örneği
2. Bağlam uzunluğunu ve bağlam yapısını optimize edin
Çoğu soru bağlam gerektirir. Örneğin, ChatGPT'ye "Hangi Vietnam restoranı en iyi?" diye sorarsak gerekli bağlam "Bu restoran tam olarak nereye bağlı?" olacaktır çünkü Vietnam'daki en iyi Vietnam restoranı, Amerika Birleşik Devletleri'ndeki en iyi Vietnam restoranıyla aynıdır. Restoranlarda sorunun kapsamı farklıdır.
Aşağıdaki harika makale "SITUATEDQA: Dil Dışı Bağlamları QA'ya Dahil Etmek" (Zhang ve Choi, 2021)'ye göre, bilgi arama sorularına verilen yanıtların önemli bir kısmı bağlama bağlıdır, örneğin Doğal Sorular NQ-Open veri kümesinde yaklaşık 16.5 %.
(NQ-Açık:
Ben şahsen işletmelerin karşılaştığı fiili durumlarda bu oranın daha yüksek olacağını düşünüyorum. Örneğin, bir şirketin müşteri desteği için bir sohbet robotu geliştirdiğini varsayalım. Bu sohbet robotunun, müşterinin herhangi bir ürünle ilgili herhangi bir sorusunu yanıtlaması için, ihtiyaç duyulan bağlam muhtemelen o müşterinin geçmişi veya o ürünle ilgili bilgiler olacaktır. Dil modeli kendisine sağlanan bağlamdan "öğrendiği" için bu sürece bağlam öğrenimi de denir.
Müşteri desteği sorguları için gereken bağlamı hayal edin
Bağlam uzunluğu RAG (Retrieval Augmentation Generation) için çok önemlidir ve RAG, büyük dil modeli endüstrisindeki uygulama senaryoları için ana mod haline gelmiştir. Spesifik olarak, geri alma geliştirmesi oluşturma esas olarak iki aşamaya ayrılır:
**Aşama 1: Parçalama (dizin oluşturma olarak da bilinir)**parçalama (dizin oluşturma olarak da bilinir)
LLM tarafından kullanılan tüm belgeleri toplayın, bu belgeleri, yerleştirmeler oluşturmak için daha büyük bir modele beslenebilecek parçalara bölün ve bu yerleştirmeleri bir vektör veritabanında saklayın.
2. Aşama: Sorgulama
Bir kullanıcı "sigorta poliçem belirli bir X ilacını kapsıyor mu" gibi bir sorgu gönderdiğinde, büyük dil modeli bu sorguyu QUERY_EMBEDDING adını verdiğimiz bir yerleştirmeye dönüştürecektir. Vektör veritabanı, gömülmesi QUERY_EMBEDDING'e en çok benzeyen bloğu elde edecektir.
Bağlam uzunluğu ne kadar uzun olursa, bağlama o kadar çok parça sığdırabiliriz. Bir model ne kadar çok bilgi alırsa, çıktısının ve yanıtlarının kalitesi de o kadar yüksek olur, değil mi?
Her zaman değil. Bir modelin ne kadar bağlam kullanabileceği ve modelin bağlamı ne kadar verimli kullanabileceği iki farklı konudur. Model bağlamının uzunluğunu artırmaya çalışırken aynı zamanda bağlamın verimliliğini de artırmaya çalışıyoruz. Bazıları buna "mühendislik" veya "inşaat" diyor. Örneğin, yakın zamanda yayınlanan bir makale, modellerin yalnızca ortadaki bilgilerden ziyade dizinlerin başlangıcını ve sonunu nasıl daha iyi anlayabileceğinden bahsediyor - Ortada Kayıp: Dil Modelleri Uzun Bağlamları Nasıl Kullanıyor (Liu ve diğerleri, 2023).
3. Diğer veri modlarının entegrasyonu (çok modlu)
Bana göre multimodalite çok güçlü ama aynı zamanda da hafife alınıyor. Multimodalite uygulamasının nedenlerinin bir açıklaması:
İlk olarak, pek çok özel uygulama senaryosu, özellikle sağlık hizmetleri, robot teknolojisi, e-ticaret, perakende, oyunlar ve eğlence gibi karma veri yöntemlerine sahip sektörlerde çok modlu veriler gerektirir. Örneğin:
Tıbbi testler sıklıkla metin (örneğin doktor notları, hasta anketleri) ve görüntüler (örneğin CT, röntgen, MRI taramaları) gerektirir.
Ürün meta verileri genellikle resimler, videolar, açıklamalar ve hatta tablo halindeki verileri (üretim tarihi, ağırlık, renk gibi) içerir; çünkü talep açısından bakıldığında, kullanıcı yorumlarına veya ürün fotoğraflarına dayalı olarak eksik ürün bilgilerini otomatik olarak doldurmanız gerekebilir veya Kullanıcıların şekil veya renk gibi görsel bilgileri kullanarak ürün araması yapmalarını sağlamak isteyebilirsiniz.
İkincisi, çok modluluk model performansını önemli ölçüde artırmayı vaat ediyor. Hem metni hem de görselleri anlayan bir modelin, metni anlayan tek bir modelden daha iyi performans göstermesi gerekmez mi? Metin tabanlı modeller o kadar çok metin gerektiriyor ki, yakında metin tabanlı modelleri eğitmek için İnternet verilerimizin tükeneceğinden korkuyoruz. Metin tükendikten sonra diğer veri şemalarından yararlanmamız gerekir.
Özellikle heyecanlandığım bir kullanım durumu, multimodal teknolojinin görme engelli kişilerin hem internette hem de gerçek dünyada gezinmesine olanak sağlamasıdır.
Aşağıda çok yöntemlilikle ilgili bir dizi makale ve referans materyali yer almaktadır:
[CLIP] Doğal Dil Denetiminden Aktarılabilir Görsel Modellerin Öğrenilmesi(OpenAI, 2021)
Flamingo: Birkaç Adımda Öğrenme için Görsel Dil Modeli(DeepMind, 2022)
BLIP-2: Dondurulmuş Görüntü Kodlayıcılar ve Büyük Dil Modelleriyle Önyükleme Dil-Görüntü Ön Eğitimi (Salesforce, 2023)
KOSMOS-1: İhtiyacınız Olan Tek Şey Dil Değil: Algıyı Dil Modelleriyle Hizalamak(Microsoft, 2023)
PaLM-E: Somutlaştırılmış çok modlu bir dil modeli(Google, 2023)
LLaVA: Görsel Talimat Ayarlama (Liu ve diğerleri, 2023)
NeVA: NeMo Vizyon ve Dil Asistanı (NVIDIA, 2023)
4. LLM'yi daha hızlı ve daha ucuz hale getirin
GPT-3.5, Kasım 2022'nin sonunda ilk kez piyasaya sürüldüğünde birçok kişi, onu üretimde kullanmanın getireceği gecikmeler ve maliyetlerle ilgili endişelerini dile getirdi. Ancak gecikme/maliyet analizi o zamandan bu yana hızla değişti. Altı aydan kısa bir süre içinde topluluk, GPT-3.5'e çok yakın performans gösteren ancak GPT-3.5'in bellek ayak izinin yalnızca %2'sini gerektiren bir model oluşturmanın bir yolunu buldu.
Buradan çıkarılacak sonuç şudur: Yeterince iyi bir şey yaratırsanız, insanlar bunu hızlı ve uygun maliyetli hale getirmenin bir yolunu bulacaktır.
Aşağıda "Guanco" makalesindeki rapora göre "Guanaco 7B"nin ChatGPT GPT-3.5 ve GPT-4'ün performansıyla karşılaştırıldığında performans verileri yer almaktadır. Lütfen unutmayın: Genel olarak, aşağıdaki performans karşılaştırmaları mükemmel olmaktan uzaktır ve LLM'nin değerlendirilmesi çok çok zordur.
Guanaco 7B'nin ChatGPT GPT-3.5 ve GPT-4 ile performans karşılaştırması:
Dört yıl önce, Makine Öğrenim Sistemleri Tasarlama kitabının "Model Sıkıştırma" bölümü olacak bölüm için notlar yazmaya başladığımda, model optimizasyonu/sıkıştırma için dört ana teknik hakkında yazmıştım:
Niceleme: Şu ana kadarki en genel model optimizasyon yöntemi. Niceleme, parametrelerini temsil etmek için daha az bit kullanarak bir modelin boyutunu azaltır; örneğin, kayan nokta sayılarını temsil etmek için 32 bit kullanmak yerine 16 bit ve hatta 4 bit kullanılabilir.
Bilgi damıtma: Büyük bir modeli veya model koleksiyonunu taklit etmek için küçük modelleri eğitme yöntemi.
Düşük dereceli çarpanlara ayırma: Buradaki ana fikir, parametre sayısını azaltmak için yüksek boyutlu tensörleri düşük boyutlu tensörlerle değiştirmektir. Örneğin, 3x3'lük bir tensörü 3x1 ve 1x3'lük bir tensörün çarpımına ayırabilirsiniz, böylece 9 parametre yerine yalnızca 6 parametreye ihtiyacınız olur.
Budama
Yukarıdaki tekniklerin dördü de günümüzde hala geçerli ve popülerdir. Alpaca, eğitim için Bilgi damıtma yöntemini kullanıyor. QLoRA, Düşük dereceli çarpanlara ayırma ve nicelemenin bir kombinasyonunu kullanır.
5. Yeni bir model mimarisi tasarlayın
2012'deki AlexNet'ten bu yana, LSTM, seq2seq vb. dahil olmak üzere birçok mimarinin yükselişini ve düşüşünü gördük. Bunlarla karşılaştırıldığında Transformer'ın etkisi inanılmaz. Transformers 2017'den beri ortalıkta ve bu mimarinin ne kadar süre popüler kalacağı açık bir soru.
Transformer'ı geride bırakacak yeni bir mimari geliştirmek kolay değil. Transformer son 6 yılda pek çok optimizasyondan geçti ve bu yeni mimarinin insanların halihazırda önemsediği donanım üzerinde ve şu anda önemsedikleri ölçekte çalışması gerekiyor.
Not: Google, Transformer'ı başlangıçta TPU'da hızlı çalışacak şekilde tasarladı ve daha sonra GPU'da optimize etti.
2021'de Chris Ré'nin laboratuvarının S4'ü büyük ilgi gördü; ayrıntılar için bkz. "Yapılandırılmış Durum Uzaylarıyla Uzun Dizileri Verimli Bir Şekilde Modellemek" (Gu ve diğerleri, 2021). Chris Ré'nin laboratuvarı hâlâ güçlü bir şekilde yeni mimariler geliştiriyor; bunlardan biri yakın zamanda Together adlı startup ile işbirliği içinde geliştirilen Monarch Mixer (Fu, 2023)'tir.
Ana fikirleri, mevcut Transformer mimarisi için dikkatin karmaşıklığının dizi uzunluğunun ikinci dereceden değeri olduğu, MLP'nin karmaşıklığının ise model boyutunun ikinci dereceden olduğudur. İkinci dereceden karmaşıklığa sahip mimariler daha verimli olacaktır.
Monarch Mikser
6. GPU alternatifleri geliştirin
GPU'lar, 2012'deki AlexNet'ten bu yana derin öğrenmede baskın donanım olmuştur. Aslında AlexNet'in popülaritesinin genel olarak kabul edilen nedenlerinden biri, bunun bir sinir ağını eğitmek için GPU'ları başarıyla kullanan ilk makale olmasıdır. GPU'ların ortaya çıkmasından önce, AlexNet ölçeğinde bir model eğitmek istiyorsanız Google'ın AlexNet'ten birkaç ay önce piyasaya sürdüğü gibi binlerce CPU kullanmanız gerekirdi. Birkaç GPU, doktora öğrencileri ve araştırmacılar için binlerce CPU'dan daha erişilebilir hale geldi ve derin öğrenme araştırmalarında bir patlamaya yol açtı.
Geçtiğimiz on yılda, hem büyük işletmeler hem de yeni kurulan şirketler olmak üzere birçok şirket, yapay zeka için yeni donanımlar yaratmaya çalıştı. En dikkate değer girişimler arasında Google'ın TPU'su, Graphcore'un IPU'su (IPU nasıl gidiyor?) ve Cerebras yer alıyor. SambaNova, yeni yapay zeka çipleri geliştirmek için bir milyar dolardan fazla para topladı, ancak üretken bir yapay zeka platformu olma yolunda ilerlemiş görünüyor.
Bir süredir kuantum hesaplamaya yönelik büyük beklentiler vardı ve önemli aktörler arasında şunlar yer alıyordu:
IBM'in QPU'su
*Google'ın kuantum bilgisayarı bu yılın başlarında Nature dergisinde kuantum hatalarının azaltılmasında önemli bir kilometre taşı olduğunu bildirdi. Kuantum sanal makinesine Google Colab aracılığıyla herkesin erişimi mümkündür. *
*MIT Kuantum Mühendisliği Merkezi, Max Planck Kuantum Optik Enstitüsü, Chicago Quantum Exchange, Oakridge Ulusal Laboratuvarı vb. gibi araştırma laboratuvarları. *
Aynı derecede heyecan verici bir diğer yön ise fotonik çiplerdir. Bu alanda çok az bilgim var, bu yüzden yanılıyorsam lütfen beni düzeltin. Mevcut çipler verileri iletmek için elektrik kullanıyor, bu da büyük miktarda enerji tüketiyor ve gecikme yaratıyor. Öte yandan fotonik çipler, verileri iletmek için fotonları kullanıyor ve daha hızlı ve daha verimli hesaplamalar için ışık hızından yararlanıyor. Lightmatter (270 milyon dolar), Ayar Labs (220 milyon dolar), Lightelligence (200 milyon doların üzerinde) ve Luminous Computing (115 milyon dolar) dahil olmak üzere bu alandaki çeşitli girişimler yüz milyonlarca dolar topladı.
Aşağıda, "Fotonik matris çarpımı fotonik hızlandırıcıyı ve ötesini aydınlatır" (Zhou, Nature 2022) makalesinden alınan, foton matris hesaplamasının üç ana yönteminin ilerleme zaman çizelgesi yer almaktadır. Üç farklı yaklaşım, Düzlemsel Işık Anahtarlaması (PLC), Mach-Zehnder Girişimölçeri (MZI) ve Dalga Boyu Bölmeli Çoğullamadır (WDM).
7. Temsilcilerin kullanılabilirliğini iyileştirin
Temsilci, internette gezinmek, e-posta göndermek, rezervasyon yapmak vb. gibi eylemleri gerçekleştirebilen (sizin adınıza çeşitli görevleri tamamlayabilen temsilciler olarak anlaşılabilir, dolayısıyla Temsilci olarak anılır) geniş bir dil modelini ifade eder. Bu muhtemelen bu makaledeki diğer araştırma yönleriyle karşılaştırıldığında en yeni yönlerden biridir. İnsanlar, yenilikleri ve büyük potansiyelleri nedeniyle Ajanlar konusunda heveslidir. Auto-GPT artık GitHub'daki yıldız sayısıyla en popüler 25. repo. GPT-Engineering başka bir popüler depodur.
Bu yöndeki heyecana rağmen, büyük dil modellerinin güvenilir ve harekete geçmeye yetecek kadar performanslı olup olmadığı konusunda şüpheler devam ediyor. Bununla birlikte, küçük bir üretken Etmen kümesinin ortaya çıkan sosyal davranışlar ürettiğini gösteren ünlü Stanford deneyi gibi, Etmenlerin sosyal araştırma için kullanıldığı bir uygulama senaryosu ortaya çıktı: örneğin, kullanıcı tarafından belirlenen bir fikirden başlayarak, bir Aracı İstiyor Bir Sevgililer Günü partisi düzenlemek için Ajan, sonraki iki gün içinde partiye otomatik olarak davetiye yayar, yeni arkadaşlar edinir ve birbirlerini partiye davet eder... (Generative Agents: Interactive Simulacra of Human Behavior, Park ve diğerleri, 2023),
Belki de bu alandaki en dikkate değer girişim, iki eski Transformer ortak yazarı ve eski bir OpenAI Başkan Yardımcısı tarafından kurulan ve bugüne kadar yaklaşık 500 milyon dolar toplayan Adept'tir. Geçen yıl temsilcilerinin internette nasıl gezinebileceğini ve Salesforce'a nasıl yeni hesap ekleneceğini gösterdiler.
8. RLHF'yi yineleyin
RLHF (İnsan Geri Bildiriminden Takviyeli Öğrenme) harika ama biraz zor. İnsanların LLM'yi eğitmenin daha iyi yollarını bulmaları şaşırtıcı olmazdı. Bununla birlikte, RLHF'de hâlâ çözülmemiş pek çok sorun bulunmaktadır, örneğin:
①İnsan tercihleri matematiksel olarak nasıl ifade edilir?
Şu anda insanın tercihi karşılaştırma yoluyla belirleniyor: Bir insan açıklamacı, A yanıtının B yanıtından daha iyi olup olmadığını belirliyor. Ancak A yanıtının B yanıtına göre ne kadar daha iyi olduğunu hesaba katmaz.
②İnsanın tercihi nedir?
Anthropic, modellerinin kalitesini çıktıya göre üç alanda ölçtü: yararlı, dürüst ve zararsız. Bkz. Anayasal Yapay Zeka: Yapay Zeka Geri Bildiriminden Zararsızlık (Bai ve diğerleri, 2022).
DeepMind insanların çoğunluğunu memnun edecek yanıtlar üretmeye çalışır. Farklı tercihlere sahip insanlar arasında anlaşma sağlamak için dil modellerine ince ayar yapma konusuna bakın (Bakker ve diğerleri, 2022).
Ayrıca, bir duruş sergileyebilen yapay zekayı mı, yoksa potansiyel olarak tartışmalı konulardan uzak duran geleneksel yapay zekayı mı istiyoruz?
③"İnsan" tercihleri kimin tercihleridir? Kültür, din, siyasi eğilimler vb. farklılıklar dikkate alınmalı mıdır? Tüm potansiyel kullanıcıları yeterince temsil eden eğitim verilerinin elde edilmesinde birçok zorluk vardır.
Örneğin, OpenAI'nin InstructGPT verileri için 65 yaşın üzerinde hiçbir açıklayıcı yoktur. Açıklama yapanlar çoğunlukla Filipinliler ve Bangladeşlidir. Bkz. InstructGPT: İnsan geri bildirimiyle talimatları takip etmek için dil modellerini eğitmek (Ouyang ve diğerleri, 2022).
Topluluğun öncülük ettiği çabalar niyetleri açısından övgüye değer olsa da, taraflı verilere yol açabilirler. Örneğin, OpenAssistant veri kümesi için 222 katılımcıdan 201'i (%90,5) kendini erkek olarak tanımladı. Jeremy Howard'ın Twitter'da güzel bir Konusu var:
9. Sohbet arayüzünün verimliliğini artırın
ChatGPT'den beri insanlar sohbetin çeşitli görevlere uygun bir arayüz olup olmadığını tartışıyorlar.
Görmek:
Doğal dil tembel kullanıcı arayüzüdür(Austin Z. Henley, 2023)
Chatbotlar Neden Gelecek Değil(Amelia Wattenberger, 2023)
Ne Tür Soruların Cevaplanması Konuşmayı Gerektirir? AskReddit Sorularına İlişkin Bir Örnek Olay İncelemesi(Huang ve diğerleri, 2023)
Yapay zeka sohbet arayüzleri, belgeleri okumak için birincil kullanıcı arayüzü haline gelebilir(Tom Johnson, 2023)
Minimum Sohbet ile Yüksek Lisans'larla Etkileşim (Eugene Yan, 2023)
Ancak bu yeni bir konu değil. Pek çok ülkede, özellikle de Asya'da, sohbet, yaklaşık on yıldır süper uygulamalar için bir arayüz olarak kullanılıyor ve Dan Grover, 2014'te bu konuda bir makale yazdı.
2016'da birçok uygulamanın öldüğü ve geleceğin chatbotlar olduğu düşünüldüğünde tartışma yeniden alevlendi:
Arayüz olarak sohbette(Alistair Croll, 2016)
Chatbot Trendi Büyük Bir Yanlış Anlama mı?(Will Knight, 2016)
Botlar uygulamaların yerini almaz. Daha iyi uygulamalar uygulamaların yerini alacak (Dan Grover, 2016)
Kişisel olarak sohbet arayüzünü aşağıdaki nedenlerden dolayı seviyorum:
①Sohbet arayüzü, herkesin, hatta daha önce bilgisayarlarla veya internetle bağlantısı olmayanların bile, kullanmayı hızlı bir şekilde öğrenebileceği bir arayüzdür (evrensellik). 2010'ların başında, Kenya'nın düşük gelirli bir mahallesinde gönüllü olarak çalışırken, oradaki herkesin telefonlarından kısa mesaj yoluyla bankacılık işlemleri yapmaya ne kadar aşina olduğunu fark ettim. O toplulukta hiç kimsenin bilgisayarı yoktu.
② Sohbet arayüzüne erişim kolaydır. Elleriniz başka şeylerle meşgulse metin yerine ses kullanın.
③ Sohbet aynı zamanda çok güçlü bir arayüzdür; herhangi bir istekte bulunabilirsiniz ve yanıt mükemmel olmasa bile yanıt verecektir.
Ancak yazar, sohbet arayüzünün bazı yönlerden geliştirilmeye devam edilebileceğine inanıyor:
①Bir defada birden fazla mesaj gönderilip alınabilir
Şu anda temel olarak değişim başına yalnızca tek bir mesaj turu varsayıyoruz. Ama arkadaşlarımla bu şekilde mesajlaşmıyorum. Genellikle düşüncemi tamamlamak için birden fazla mesaja ihtiyacım var çünkü farklı veriler (resimler, konumlar, bağlantılar gibi) eklemem gerekiyor, önceki mesajda bir şeyi kaçırmış olabilirim veya her şeyi tek bir mesaja koymak istemiyorum büyük paragraf.
②Çok modlu giriş
Multimodal uygulamalar alanında, çabaların çoğu daha iyi modeller oluşturmaya, daha az çaba ise daha iyi arayüzler oluşturmaya harcanmaktadır. Örneğin Nvidia'nın NeVA chatbot'unu ele alalım. Kullanıcı deneyimi uzmanı değilim, ancak burada iyileştirmeye yer olabileceğini düşünüyorum.
Yan Not: Burada NeVA ekibinden bahsettiğim için özür dilerim, buna rağmen hala harika işler yapıyorsunuz!
③Üretken yapay zekayı iş akışına entegre edin
Linus Lee, "Sohbetlerin ötesinde Üretken Yapay Zeka Arayüzü" adlı paylaşımında bunu iyi bir şekilde ele alıyor. Örneğin, üzerinde çalıştığınız grafikteki bir sütun hakkında soru sormak istiyorsanız, o sütunu işaret edip sorabilmeniz gerekir.
④ Mesaj düzenleme ve silme
Kullanıcı girişinin düzenlenmesi veya silinmesi, sohbet robotuyla görüşmenin akışını nasıl değiştirir?
10. İngilizce dışındaki diller için Yüksek Lisans (LLM) oluşturun
Mevcut İngilizce birinci dil Yüksek Lisans'larının performans, gecikme ve hız açısından diğer birçok dille iyi ölçeklenmediğini biliyoruz. Görmek:
ChatGPT İngilizcenin Ötesinde: Çok Dilli Öğrenmede Büyük Dil Modellerinin Kapsamlı Bir Kullanımına Doğru(Lai ve diğerleri, 2023)
Tüm diller eşit şekilde oluşturulmamıştır (belirteç haline getirilmemiştir) (Yennie Jun, 2023)
Yalnızca Vietnamlıları eğitmeye yönelik girişimlerden haberdarım (Symato topluluğu girişimi gibi), ancak bu makalenin ilk okuyucularından birkaçı bana aşağıdaki nedenlerden dolayı bu yönlendirmeyi dahil etmem gerektiğini düşünmediklerini söyledi:
Bu bir araştırma sorusundan ziyade bir lojistik sorusudur. Bunu nasıl yapacağımızı zaten biliyoruz, sadece para ve enerji yatırımı yapacak birine ihtiyacımız var. Ancak bu tamamen doğru değil. Çoğu dil, düşük kaynaklı diller olarak kabul edilir ve örneğin İngilizce veya Çince ile karşılaştırıldığında birçok dil için çok daha az yüksek kaliteli veri vardır, bu nedenle büyük dil modellerini eğitmek için farklı teknikler gerekebilir. Görmek:
Düşük Kaynaklı Diller: Geçmiş Çalışmaların ve Gelecekteki Zorlukların Gözden Geçirilmesi(Magueresse ve diğerleri, 2020)
JW300: Düşük Kaynaklı Diller için Geniş Kapsamlı Paralel Derlem (Agić ve diğerleri, 2019)
Daha karamsar olanlar ise gelecekte birçok dilin yok olacağına ve İnternet'in iki dilden oluşan iki evrenden oluşacağına inanıyor: İngilizce ve Çince. Bu trend yeni değil; Esperanto'yu hatırlayan var mı?
Makine çevirisi ve sohbet robotları gibi yapay zeka araçlarının dil öğrenimi üzerindeki etkisi belirsizliğini koruyor. İnsanların yeni dilleri daha hızlı öğrenmesine mi yardımcı olacaklar yoksa yeni dil öğrenme ihtiyacını tamamen ortadan mı kaldıracaklar?
Sonuç olarak
Bu makalede atladığım herhangi bir şey varsa bana bildirin ve ek bakış açıları için lütfen bu kapsamlı makaleye bakın: Zorluklar ve Büyük Dil Modellerinin Uygulamaları (Kaddour ve diğerleri, 2023).
Yukarıdaki sorular diğerlerinden daha zordur. Örneğin, İngilizce dışında bir dilde yüksek lisans yapmakla ilgili yukarıdaki 10. sorunun, yeterli zaman ve kaynak verildiğinde nispeten basit olacağını düşünüyorum.
Yukarıdaki ilk sorun, halüsinasyon çıktısını azaltmaktır; bu çok daha zor olacaktır çünkü halüsinasyonlar sadece LLM'nin olasılıksal şeyler yapmasıdır.
Dördüncüsü, LLM'yi daha hızlı ve daha ucuz hale getirmek hiçbir zaman tamamen çözülemez. Bu alanda büyük ilerleme kaydedildi ve gelecekte daha da ilerleme olacak, ancak bu yöndeki gelişmeler devam edecek.
ve 6. maddeler, yani yeni mimari ve yeni donanım oldukça zorludur ancak zamanla kaçınılmaz hale gelirler. Mimari ve donanım arasındaki simbiyotik ilişki nedeniyle yeni mimarinin ortak donanım için optimize edilmesi gerekiyor ve donanımın ortak mimariyi desteklemesi gerekiyor; bunlar muhtemelen aynı şirket tarafından yapılacak.
Bazı problemler yalnızca teknik bilgiyle çözülemez. Örneğin, insan tercihlerinden öğrenme yöntemlerinin iyileştirilmesine ilişkin Soru 8, teknik bir meseleden çok bir politika meselesi olabilir. 9. Sorun, daha çok bir kullanıcı deneyimi sorunu olan sohbet arayüzünün verimliliğini artırmaktır. Bu konularda bizimle çalışacak, teknik olmayan geçmişi olan daha fazla kişiye ihtiyacımız var.
En çok hangi araştırma yönü ile ilgileniyorsunuz? Sizce bu sorunlara en umut verici çözüm nedir? Fikrinizi duymayı çok isterim.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
6.000 kelime yorumlama: Mevcut geniş dil modeli Yüksek Lisans araştırmasında 10 büyük zorluk
Yazar: Chip Huyen
**Çeviri:**Alfa Tavşanı
Kaynak bağlantısı:
Büyük dil modelini daha mükemmel hale getirme hedefi, hayatımda ilk kez bu kadar çok akıllı insanın aynı anda ortak bir amaç için canla başla çalıştığını gördüm. Endüstri ve akademi dünyasından birçok insanla iletişim kurduktan sonra on temel araştırma yönünün ortaya çıktığını fark ettim. Şu anda en çok dikkat çeken iki yön Halüsinasyonlar (çıkış halüsinasyonları) ve Bağlam Öğrenmedir.
Kendi adıma en ilginç olanları aşağıda listelenen 3. yön (Çok modlu çok modlu veri modu), 5. yön (Yeni mimari) ve 6. yön (GPU alternatiflerinin GPU alternatiflerinin geliştirilmesi) çözümüdür.
1. Halüsinasyonların azaltılması ve değerlendirilmesi
Çıktı ortamı çok tartışılan bir konudur, bu yüzden burada kısa tutacağım. Yapay zeka modelleri bir şeyler uydurduğunda halüsinasyonlar ortaya çıkıyor. Birçok yaratıcı kullanım durumunda illüzyon bir tür özelliktir. Ancak çoğu uygulamada halüsinasyon bir hatadır. Geçtiğimiz günlerde Dropbox, Langchain, Elastics ve Anthropic'ten uzmanların katılımıyla LLM üzerine bir sempozyuma katıldım. Onlara göre işletmelerin gerçek üretimde LLM uygularken aşması gereken ilk engel fantom çıktıdır.
Modellerin halüsinasyon çıktısını azaltmak ve halüsinasyon çıktısını değerlendirmek için ölçümler geliştirmek hızla gelişen bir araştırma konusudur ve birçok yeni girişim şu anda bu soruna odaklanmaktadır. Ayrıca, halüsinasyon çıktısı olasılığını azaltmak için işaret sözcüklerine daha fazla bağlam eklemek, CoT, kendi kendine tutarlılık veya modelin yanıtlarının kısa ve öz olması için özel gereksinimler gibi püf noktaları da vardır.
Aşağıda halüsinasyon çıktısı üzerine bir dizi makale ve referans materyali bulunmaktadır:
Doğal Dil Üretiminde Halüsinasyon Araştırması(Ji ve diğerleri, 2022)
Dil Modeli Halüsinasyonları Nasıl Kartopu Olabilir(Zhang ve diğerleri, 2023)
Akıl Yürütme, Halüsinasyon ve Etkileşim Üzerine ChatGPT'nin Çok Görevli, Çok Dilli, Çok Modlu Kullanımı (Bang ve diğerleri, 2023)
Karşılaştırmalı Öğrenme Konuşmalardaki Halüsinasyonu Azaltır(Sun ve diğerleri, 2022)
Öz Tutarlılık, Dil Modellerinde Düşünce Muhakeme Zincirini Geliştirir(Wang ve diğerleri, 2022)
SelfCheckGPT: Üretken Büyük Dil Modelleri için Sıfır Kaynaklı Kara Kutu Halüsinasyon Tespiti(Manakul ve diğerleri, 2023)
NVIDIA NeMo-Guardrails'in basit bir doğrulama ve halüsinasyon örneği
2. Bağlam uzunluğunu ve bağlam yapısını optimize edin
Çoğu soru bağlam gerektirir. Örneğin, ChatGPT'ye "Hangi Vietnam restoranı en iyi?" diye sorarsak gerekli bağlam "Bu restoran tam olarak nereye bağlı?" olacaktır çünkü Vietnam'daki en iyi Vietnam restoranı, Amerika Birleşik Devletleri'ndeki en iyi Vietnam restoranıyla aynıdır. Restoranlarda sorunun kapsamı farklıdır.
Aşağıdaki harika makale "SITUATEDQA: Dil Dışı Bağlamları QA'ya Dahil Etmek" (Zhang ve Choi, 2021)'ye göre, bilgi arama sorularına verilen yanıtların önemli bir kısmı bağlama bağlıdır, örneğin Doğal Sorular NQ-Open veri kümesinde yaklaşık 16.5 %.
(NQ-Açık:
Ben şahsen işletmelerin karşılaştığı fiili durumlarda bu oranın daha yüksek olacağını düşünüyorum. Örneğin, bir şirketin müşteri desteği için bir sohbet robotu geliştirdiğini varsayalım. Bu sohbet robotunun, müşterinin herhangi bir ürünle ilgili herhangi bir sorusunu yanıtlaması için, ihtiyaç duyulan bağlam muhtemelen o müşterinin geçmişi veya o ürünle ilgili bilgiler olacaktır. Dil modeli kendisine sağlanan bağlamdan "öğrendiği" için bu sürece bağlam öğrenimi de denir.
Müşteri desteği sorguları için gereken bağlamı hayal edin
Bağlam uzunluğu RAG (Retrieval Augmentation Generation) için çok önemlidir ve RAG, büyük dil modeli endüstrisindeki uygulama senaryoları için ana mod haline gelmiştir. Spesifik olarak, geri alma geliştirmesi oluşturma esas olarak iki aşamaya ayrılır:
**Aşama 1: Parçalama (dizin oluşturma olarak da bilinir)**parçalama (dizin oluşturma olarak da bilinir)
LLM tarafından kullanılan tüm belgeleri toplayın, bu belgeleri, yerleştirmeler oluşturmak için daha büyük bir modele beslenebilecek parçalara bölün ve bu yerleştirmeleri bir vektör veritabanında saklayın.
2. Aşama: Sorgulama
Bir kullanıcı "sigorta poliçem belirli bir X ilacını kapsıyor mu" gibi bir sorgu gönderdiğinde, büyük dil modeli bu sorguyu QUERY_EMBEDDING adını verdiğimiz bir yerleştirmeye dönüştürecektir. Vektör veritabanı, gömülmesi QUERY_EMBEDDING'e en çok benzeyen bloğu elde edecektir.
Her zaman değil. Bir modelin ne kadar bağlam kullanabileceği ve modelin bağlamı ne kadar verimli kullanabileceği iki farklı konudur. Model bağlamının uzunluğunu artırmaya çalışırken aynı zamanda bağlamın verimliliğini de artırmaya çalışıyoruz. Bazıları buna "mühendislik" veya "inşaat" diyor. Örneğin, yakın zamanda yayınlanan bir makale, modellerin yalnızca ortadaki bilgilerden ziyade dizinlerin başlangıcını ve sonunu nasıl daha iyi anlayabileceğinden bahsediyor - Ortada Kayıp: Dil Modelleri Uzun Bağlamları Nasıl Kullanıyor (Liu ve diğerleri, 2023).
3. Diğer veri modlarının entegrasyonu (çok modlu)
Bana göre multimodalite çok güçlü ama aynı zamanda da hafife alınıyor. Multimodalite uygulamasının nedenlerinin bir açıklaması:
İlk olarak, pek çok özel uygulama senaryosu, özellikle sağlık hizmetleri, robot teknolojisi, e-ticaret, perakende, oyunlar ve eğlence gibi karma veri yöntemlerine sahip sektörlerde çok modlu veriler gerektirir. Örneğin:
Tıbbi testler sıklıkla metin (örneğin doktor notları, hasta anketleri) ve görüntüler (örneğin CT, röntgen, MRI taramaları) gerektirir.
Ürün meta verileri genellikle resimler, videolar, açıklamalar ve hatta tablo halindeki verileri (üretim tarihi, ağırlık, renk gibi) içerir; çünkü talep açısından bakıldığında, kullanıcı yorumlarına veya ürün fotoğraflarına dayalı olarak eksik ürün bilgilerini otomatik olarak doldurmanız gerekebilir veya Kullanıcıların şekil veya renk gibi görsel bilgileri kullanarak ürün araması yapmalarını sağlamak isteyebilirsiniz.
İkincisi, çok modluluk model performansını önemli ölçüde artırmayı vaat ediyor. Hem metni hem de görselleri anlayan bir modelin, metni anlayan tek bir modelden daha iyi performans göstermesi gerekmez mi? Metin tabanlı modeller o kadar çok metin gerektiriyor ki, yakında metin tabanlı modelleri eğitmek için İnternet verilerimizin tükeneceğinden korkuyoruz. Metin tükendikten sonra diğer veri şemalarından yararlanmamız gerekir.
Aşağıda çok yöntemlilikle ilgili bir dizi makale ve referans materyali yer almaktadır:
[CLIP] Doğal Dil Denetiminden Aktarılabilir Görsel Modellerin Öğrenilmesi(OpenAI, 2021)
Flamingo: Birkaç Adımda Öğrenme için Görsel Dil Modeli(DeepMind, 2022)
BLIP-2: Dondurulmuş Görüntü Kodlayıcılar ve Büyük Dil Modelleriyle Önyükleme Dil-Görüntü Ön Eğitimi (Salesforce, 2023)
KOSMOS-1: İhtiyacınız Olan Tek Şey Dil Değil: Algıyı Dil Modelleriyle Hizalamak(Microsoft, 2023)
PaLM-E: Somutlaştırılmış çok modlu bir dil modeli(Google, 2023)
LLaVA: Görsel Talimat Ayarlama (Liu ve diğerleri, 2023)
NeVA: NeMo Vizyon ve Dil Asistanı (NVIDIA, 2023)
4. LLM'yi daha hızlı ve daha ucuz hale getirin
GPT-3.5, Kasım 2022'nin sonunda ilk kez piyasaya sürüldüğünde birçok kişi, onu üretimde kullanmanın getireceği gecikmeler ve maliyetlerle ilgili endişelerini dile getirdi. Ancak gecikme/maliyet analizi o zamandan bu yana hızla değişti. Altı aydan kısa bir süre içinde topluluk, GPT-3.5'e çok yakın performans gösteren ancak GPT-3.5'in bellek ayak izinin yalnızca %2'sini gerektiren bir model oluşturmanın bir yolunu buldu.
Buradan çıkarılacak sonuç şudur: Yeterince iyi bir şey yaratırsanız, insanlar bunu hızlı ve uygun maliyetli hale getirmenin bir yolunu bulacaktır.
Guanaco 7B'nin ChatGPT GPT-3.5 ve GPT-4 ile performans karşılaştırması:
5. Yeni bir model mimarisi tasarlayın
2012'deki AlexNet'ten bu yana, LSTM, seq2seq vb. dahil olmak üzere birçok mimarinin yükselişini ve düşüşünü gördük. Bunlarla karşılaştırıldığında Transformer'ın etkisi inanılmaz. Transformers 2017'den beri ortalıkta ve bu mimarinin ne kadar süre popüler kalacağı açık bir soru.
Transformer'ı geride bırakacak yeni bir mimari geliştirmek kolay değil. Transformer son 6 yılda pek çok optimizasyondan geçti ve bu yeni mimarinin insanların halihazırda önemsediği donanım üzerinde ve şu anda önemsedikleri ölçekte çalışması gerekiyor.
Not: Google, Transformer'ı başlangıçta TPU'da hızlı çalışacak şekilde tasarladı ve daha sonra GPU'da optimize etti.
2021'de Chris Ré'nin laboratuvarının S4'ü büyük ilgi gördü; ayrıntılar için bkz. "Yapılandırılmış Durum Uzaylarıyla Uzun Dizileri Verimli Bir Şekilde Modellemek" (Gu ve diğerleri, 2021). Chris Ré'nin laboratuvarı hâlâ güçlü bir şekilde yeni mimariler geliştiriyor; bunlardan biri yakın zamanda Together adlı startup ile işbirliği içinde geliştirilen Monarch Mixer (Fu, 2023)'tir.
Ana fikirleri, mevcut Transformer mimarisi için dikkatin karmaşıklığının dizi uzunluğunun ikinci dereceden değeri olduğu, MLP'nin karmaşıklığının ise model boyutunun ikinci dereceden olduğudur. İkinci dereceden karmaşıklığa sahip mimariler daha verimli olacaktır.
6. GPU alternatifleri geliştirin
GPU'lar, 2012'deki AlexNet'ten bu yana derin öğrenmede baskın donanım olmuştur. Aslında AlexNet'in popülaritesinin genel olarak kabul edilen nedenlerinden biri, bunun bir sinir ağını eğitmek için GPU'ları başarıyla kullanan ilk makale olmasıdır. GPU'ların ortaya çıkmasından önce, AlexNet ölçeğinde bir model eğitmek istiyorsanız Google'ın AlexNet'ten birkaç ay önce piyasaya sürdüğü gibi binlerce CPU kullanmanız gerekirdi. Birkaç GPU, doktora öğrencileri ve araştırmacılar için binlerce CPU'dan daha erişilebilir hale geldi ve derin öğrenme araştırmalarında bir patlamaya yol açtı.
Geçtiğimiz on yılda, hem büyük işletmeler hem de yeni kurulan şirketler olmak üzere birçok şirket, yapay zeka için yeni donanımlar yaratmaya çalıştı. En dikkate değer girişimler arasında Google'ın TPU'su, Graphcore'un IPU'su (IPU nasıl gidiyor?) ve Cerebras yer alıyor. SambaNova, yeni yapay zeka çipleri geliştirmek için bir milyar dolardan fazla para topladı, ancak üretken bir yapay zeka platformu olma yolunda ilerlemiş görünüyor.
Bir süredir kuantum hesaplamaya yönelik büyük beklentiler vardı ve önemli aktörler arasında şunlar yer alıyordu:
Aynı derecede heyecan verici bir diğer yön ise fotonik çiplerdir. Bu alanda çok az bilgim var, bu yüzden yanılıyorsam lütfen beni düzeltin. Mevcut çipler verileri iletmek için elektrik kullanıyor, bu da büyük miktarda enerji tüketiyor ve gecikme yaratıyor. Öte yandan fotonik çipler, verileri iletmek için fotonları kullanıyor ve daha hızlı ve daha verimli hesaplamalar için ışık hızından yararlanıyor. Lightmatter (270 milyon dolar), Ayar Labs (220 milyon dolar), Lightelligence (200 milyon doların üzerinde) ve Luminous Computing (115 milyon dolar) dahil olmak üzere bu alandaki çeşitli girişimler yüz milyonlarca dolar topladı.
Aşağıda, "Fotonik matris çarpımı fotonik hızlandırıcıyı ve ötesini aydınlatır" (Zhou, Nature 2022) makalesinden alınan, foton matris hesaplamasının üç ana yönteminin ilerleme zaman çizelgesi yer almaktadır. Üç farklı yaklaşım, Düzlemsel Işık Anahtarlaması (PLC), Mach-Zehnder Girişimölçeri (MZI) ve Dalga Boyu Bölmeli Çoğullamadır (WDM).
7. Temsilcilerin kullanılabilirliğini iyileştirin
Temsilci, internette gezinmek, e-posta göndermek, rezervasyon yapmak vb. gibi eylemleri gerçekleştirebilen (sizin adınıza çeşitli görevleri tamamlayabilen temsilciler olarak anlaşılabilir, dolayısıyla Temsilci olarak anılır) geniş bir dil modelini ifade eder. Bu muhtemelen bu makaledeki diğer araştırma yönleriyle karşılaştırıldığında en yeni yönlerden biridir. İnsanlar, yenilikleri ve büyük potansiyelleri nedeniyle Ajanlar konusunda heveslidir. Auto-GPT artık GitHub'daki yıldız sayısıyla en popüler 25. repo. GPT-Engineering başka bir popüler depodur.
Bu yöndeki heyecana rağmen, büyük dil modellerinin güvenilir ve harekete geçmeye yetecek kadar performanslı olup olmadığı konusunda şüpheler devam ediyor. Bununla birlikte, küçük bir üretken Etmen kümesinin ortaya çıkan sosyal davranışlar ürettiğini gösteren ünlü Stanford deneyi gibi, Etmenlerin sosyal araştırma için kullanıldığı bir uygulama senaryosu ortaya çıktı: örneğin, kullanıcı tarafından belirlenen bir fikirden başlayarak, bir Aracı İstiyor Bir Sevgililer Günü partisi düzenlemek için Ajan, sonraki iki gün içinde partiye otomatik olarak davetiye yayar, yeni arkadaşlar edinir ve birbirlerini partiye davet eder... (Generative Agents: Interactive Simulacra of Human Behavior, Park ve diğerleri, 2023),
Belki de bu alandaki en dikkate değer girişim, iki eski Transformer ortak yazarı ve eski bir OpenAI Başkan Yardımcısı tarafından kurulan ve bugüne kadar yaklaşık 500 milyon dolar toplayan Adept'tir. Geçen yıl temsilcilerinin internette nasıl gezinebileceğini ve Salesforce'a nasıl yeni hesap ekleneceğini gösterdiler.
8. RLHF'yi yineleyin
RLHF (İnsan Geri Bildiriminden Takviyeli Öğrenme) harika ama biraz zor. İnsanların LLM'yi eğitmenin daha iyi yollarını bulmaları şaşırtıcı olmazdı. Bununla birlikte, RLHF'de hâlâ çözülmemiş pek çok sorun bulunmaktadır, örneğin:
①İnsan tercihleri matematiksel olarak nasıl ifade edilir?
Şu anda insanın tercihi karşılaştırma yoluyla belirleniyor: Bir insan açıklamacı, A yanıtının B yanıtından daha iyi olup olmadığını belirliyor. Ancak A yanıtının B yanıtına göre ne kadar daha iyi olduğunu hesaba katmaz.
②İnsanın tercihi nedir?
Anthropic, modellerinin kalitesini çıktıya göre üç alanda ölçtü: yararlı, dürüst ve zararsız. Bkz. Anayasal Yapay Zeka: Yapay Zeka Geri Bildiriminden Zararsızlık (Bai ve diğerleri, 2022).
DeepMind insanların çoğunluğunu memnun edecek yanıtlar üretmeye çalışır. Farklı tercihlere sahip insanlar arasında anlaşma sağlamak için dil modellerine ince ayar yapma konusuna bakın (Bakker ve diğerleri, 2022).
Ayrıca, bir duruş sergileyebilen yapay zekayı mı, yoksa potansiyel olarak tartışmalı konulardan uzak duran geleneksel yapay zekayı mı istiyoruz?
③"İnsan" tercihleri kimin tercihleridir? Kültür, din, siyasi eğilimler vb. farklılıklar dikkate alınmalı mıdır? Tüm potansiyel kullanıcıları yeterince temsil eden eğitim verilerinin elde edilmesinde birçok zorluk vardır.
Örneğin, OpenAI'nin InstructGPT verileri için 65 yaşın üzerinde hiçbir açıklayıcı yoktur. Açıklama yapanlar çoğunlukla Filipinliler ve Bangladeşlidir. Bkz. InstructGPT: İnsan geri bildirimiyle talimatları takip etmek için dil modellerini eğitmek (Ouyang ve diğerleri, 2022).
Topluluğun öncülük ettiği çabalar niyetleri açısından övgüye değer olsa da, taraflı verilere yol açabilirler. Örneğin, OpenAssistant veri kümesi için 222 katılımcıdan 201'i (%90,5) kendini erkek olarak tanımladı. Jeremy Howard'ın Twitter'da güzel bir Konusu var:
9. Sohbet arayüzünün verimliliğini artırın
ChatGPT'den beri insanlar sohbetin çeşitli görevlere uygun bir arayüz olup olmadığını tartışıyorlar.
Görmek:
Doğal dil tembel kullanıcı arayüzüdür(Austin Z. Henley, 2023)
Chatbotlar Neden Gelecek Değil(Amelia Wattenberger, 2023)
Ne Tür Soruların Cevaplanması Konuşmayı Gerektirir? AskReddit Sorularına İlişkin Bir Örnek Olay İncelemesi(Huang ve diğerleri, 2023)
Yapay zeka sohbet arayüzleri, belgeleri okumak için birincil kullanıcı arayüzü haline gelebilir(Tom Johnson, 2023)
Minimum Sohbet ile Yüksek Lisans'larla Etkileşim (Eugene Yan, 2023)
Ancak bu yeni bir konu değil. Pek çok ülkede, özellikle de Asya'da, sohbet, yaklaşık on yıldır süper uygulamalar için bir arayüz olarak kullanılıyor ve Dan Grover, 2014'te bu konuda bir makale yazdı.
Arayüz olarak sohbette(Alistair Croll, 2016)
Chatbot Trendi Büyük Bir Yanlış Anlama mı?(Will Knight, 2016)
Botlar uygulamaların yerini almaz. Daha iyi uygulamalar uygulamaların yerini alacak (Dan Grover, 2016)
Kişisel olarak sohbet arayüzünü aşağıdaki nedenlerden dolayı seviyorum:
①Sohbet arayüzü, herkesin, hatta daha önce bilgisayarlarla veya internetle bağlantısı olmayanların bile, kullanmayı hızlı bir şekilde öğrenebileceği bir arayüzdür (evrensellik). 2010'ların başında, Kenya'nın düşük gelirli bir mahallesinde gönüllü olarak çalışırken, oradaki herkesin telefonlarından kısa mesaj yoluyla bankacılık işlemleri yapmaya ne kadar aşina olduğunu fark ettim. O toplulukta hiç kimsenin bilgisayarı yoktu.
② Sohbet arayüzüne erişim kolaydır. Elleriniz başka şeylerle meşgulse metin yerine ses kullanın.
③ Sohbet aynı zamanda çok güçlü bir arayüzdür; herhangi bir istekte bulunabilirsiniz ve yanıt mükemmel olmasa bile yanıt verecektir.
Ancak yazar, sohbet arayüzünün bazı yönlerden geliştirilmeye devam edilebileceğine inanıyor:
①Bir defada birden fazla mesaj gönderilip alınabilir
Şu anda temel olarak değişim başına yalnızca tek bir mesaj turu varsayıyoruz. Ama arkadaşlarımla bu şekilde mesajlaşmıyorum. Genellikle düşüncemi tamamlamak için birden fazla mesaja ihtiyacım var çünkü farklı veriler (resimler, konumlar, bağlantılar gibi) eklemem gerekiyor, önceki mesajda bir şeyi kaçırmış olabilirim veya her şeyi tek bir mesaja koymak istemiyorum büyük paragraf.
②Çok modlu giriş
Multimodal uygulamalar alanında, çabaların çoğu daha iyi modeller oluşturmaya, daha az çaba ise daha iyi arayüzler oluşturmaya harcanmaktadır. Örneğin Nvidia'nın NeVA chatbot'unu ele alalım. Kullanıcı deneyimi uzmanı değilim, ancak burada iyileştirmeye yer olabileceğini düşünüyorum.
Yan Not: Burada NeVA ekibinden bahsettiğim için özür dilerim, buna rağmen hala harika işler yapıyorsunuz!
Linus Lee, "Sohbetlerin ötesinde Üretken Yapay Zeka Arayüzü" adlı paylaşımında bunu iyi bir şekilde ele alıyor. Örneğin, üzerinde çalıştığınız grafikteki bir sütun hakkında soru sormak istiyorsanız, o sütunu işaret edip sorabilmeniz gerekir.
④ Mesaj düzenleme ve silme
Kullanıcı girişinin düzenlenmesi veya silinmesi, sohbet robotuyla görüşmenin akışını nasıl değiştirir?
10. İngilizce dışındaki diller için Yüksek Lisans (LLM) oluşturun
Mevcut İngilizce birinci dil Yüksek Lisans'larının performans, gecikme ve hız açısından diğer birçok dille iyi ölçeklenmediğini biliyoruz. Görmek:
ChatGPT İngilizcenin Ötesinde: Çok Dilli Öğrenmede Büyük Dil Modellerinin Kapsamlı Bir Kullanımına Doğru(Lai ve diğerleri, 2023)
Tüm diller eşit şekilde oluşturulmamıştır (belirteç haline getirilmemiştir) (Yennie Jun, 2023)
Bu bir araştırma sorusundan ziyade bir lojistik sorusudur. Bunu nasıl yapacağımızı zaten biliyoruz, sadece para ve enerji yatırımı yapacak birine ihtiyacımız var. Ancak bu tamamen doğru değil. Çoğu dil, düşük kaynaklı diller olarak kabul edilir ve örneğin İngilizce veya Çince ile karşılaştırıldığında birçok dil için çok daha az yüksek kaliteli veri vardır, bu nedenle büyük dil modellerini eğitmek için farklı teknikler gerekebilir. Görmek:
Düşük Kaynaklı Diller: Geçmiş Çalışmaların ve Gelecekteki Zorlukların Gözden Geçirilmesi(Magueresse ve diğerleri, 2020)
JW300: Düşük Kaynaklı Diller için Geniş Kapsamlı Paralel Derlem (Agić ve diğerleri, 2019)
Daha karamsar olanlar ise gelecekte birçok dilin yok olacağına ve İnternet'in iki dilden oluşan iki evrenden oluşacağına inanıyor: İngilizce ve Çince. Bu trend yeni değil; Esperanto'yu hatırlayan var mı?
Makine çevirisi ve sohbet robotları gibi yapay zeka araçlarının dil öğrenimi üzerindeki etkisi belirsizliğini koruyor. İnsanların yeni dilleri daha hızlı öğrenmesine mi yardımcı olacaklar yoksa yeni dil öğrenme ihtiyacını tamamen ortadan mı kaldıracaklar?
Sonuç olarak
Bu makalede atladığım herhangi bir şey varsa bana bildirin ve ek bakış açıları için lütfen bu kapsamlı makaleye bakın: Zorluklar ve Büyük Dil Modellerinin Uygulamaları (Kaddour ve diğerleri, 2023).
Yukarıdaki sorular diğerlerinden daha zordur. Örneğin, İngilizce dışında bir dilde yüksek lisans yapmakla ilgili yukarıdaki 10. sorunun, yeterli zaman ve kaynak verildiğinde nispeten basit olacağını düşünüyorum.
Yukarıdaki ilk sorun, halüsinasyon çıktısını azaltmaktır; bu çok daha zor olacaktır çünkü halüsinasyonlar sadece LLM'nin olasılıksal şeyler yapmasıdır.
Dördüncüsü, LLM'yi daha hızlı ve daha ucuz hale getirmek hiçbir zaman tamamen çözülemez. Bu alanda büyük ilerleme kaydedildi ve gelecekte daha da ilerleme olacak, ancak bu yöndeki gelişmeler devam edecek.
Bazı problemler yalnızca teknik bilgiyle çözülemez. Örneğin, insan tercihlerinden öğrenme yöntemlerinin iyileştirilmesine ilişkin Soru 8, teknik bir meseleden çok bir politika meselesi olabilir. 9. Sorun, daha çok bir kullanıcı deneyimi sorunu olan sohbet arayüzünün verimliliğini artırmaktır. Bu konularda bizimle çalışacak, teknik olmayan geçmişi olan daha fazla kişiye ihtiyacımız var.
En çok hangi araştırma yönü ile ilgileniyorsunuz? Sizce bu sorunlara en umut verici çözüm nedir? Fikrinizi duymayı çok isterim.