Büyük model neden bu kadar yavaş? Görünüşe göre çok fazla düşünüyorum: Yeni yön, insanlarla aynı düşünme algoritması.

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

İnsan sezgisi, yapay zeka araştırmacıları tarafından sıklıkla gözden kaçırılan bir yetenektir, ancak o kadar incelikli ki biz bile onu tam olarak anlamıyoruz. Virginia Tech ve Microsoft'tan bir araştırma ekibi yakın zamanda yayınlanan bir makalede, LLM performansını garanti ederken maliyetlerden büyük ölçüde tasarruf etmek için sezgiyi ve algoritmik yöntemlerin düzenliliğini birleştiren Düşünme Algoritmasını (AoT) önerdi.

Büyük ölçekli dil modelleri son zamanlarda hızlı bir şekilde gelişiyor ve genel problemleri çözme, kod üretme ve talimatları takip etme konusunda olağanüstü yetenekler sergiliyor.

İlk modeller doğrudan yanıt stratejilerine dayanırken, mevcut araştırmalar, çözümleri keşfetmek için sorunu alt görevlere ayırarak veya token üretimini değiştirmek için dış mekanizmalardan yararlanacak şekilde bağlamı değiştirerek doğrusal bir akıl yürütme yoluna doğru ilerliyor.

İnsan bilişine benzer şekilde, ilk LLM stratejileri, dürtüsel karar verme ile karakterize edilen anlık 1'i (hızlı tepkiler) taklit ediyor gibi görünüyordu. Buna karşılık, Düşünce Zinciri (CoT) ve en azdan çoğuna (L2M) gibi daha yeni yöntemler, 2'nin (yavaş düşünme) içebakışsal doğasını yansıtır. LLM'nin aritmetik akıl yürütme yeteneğinin, ara akıl yürütme adımlarının entegre edilmesiyle geliştirilebileceğini belirtmekte fayda var.

Ancak görev daha derin planlama ve daha geniş zihinsel araştırma gerektiriyorsa bu yöntemlerin sınırlamaları ortaya çıkar. Entegre kendi kendine tutarlı CoT (CoT-SC), fikir birliği sonuçlarına ulaşmak için birden fazla LLM çıktısı kullanabilse de, ayrıntılı değerlendirmenin olmaması modelin yanlış yöne gitmesine neden olabilir. 2023 yılında ortaya çıkan Düşünce Ağacı (ToT) dikkate değer bir çözümdür. Bir Yüksek Lisans, fikir üretmek için kullanılır ve başka bir Yüksek Lisans, bu fikirlerin değerini değerlendirmek için kullanılır ve ardından bir "duraklat-değerlendir-devam et" döngüsü gelir. Ağaç aramaya dayalı bu yinelemeli süreç, özellikle uzun devamı olan görevler için açıkça etkilidir. Araştırmacılar, bu gelişmenin, insanların kendi çalışma hafızasının sınırlamalarını aşmak için araçlar kullanmasına benzer şekilde LLM'yi geliştirmek için harici araçların kullanılması olduğuna inanıyor.

Öte yandan, bu gelişmiş LLM yönteminin de eksiklikleri yok değil. Açık bir dezavantaj, sorgu sayısının ve hesaplama gereksinimlerinin aniden artmasıdır. GPT-4 gibi çevrimiçi bir LLM API'sine yapılan her sorgu, önemli miktarda parasal harcamaya neden olur ve gecikmeyi artırır; bu, özellikle gerçek zamanlı uygulamalar için kritik olan bir sınırlamadır. Bu sorguların birikmiş gecikmesi senaryonun genel verimliliğine zarar verebilir. Altyapı açısından sürekli etkileşimler sistem üzerinde baskı oluşturabilir, bu da bant genişliğini sınırlayabilir ve model kullanılabilirliğini azaltabilir. Ayrıca çevre üzerindeki etkisi de göz ardı edilemez.Sürekli sorgulamalar, halihazırda enerji yoğun olan veri merkezinin enerji tüketimini artıracak ve karbon ayak izini daha da artıracaktır.

Bu değerlendirmelere dayanarak, araştırmacıların optimizasyon hedefi, mevcut çoklu sorgu çıkarım yöntemleri tarafından kullanılan sorgu sayısını önemli ölçüde azaltırken, modelin dünya bilgisinin ustaca kullanılmasını gerektiren görevlerle başa çıkabilmesi için yeterli performansı koruyarak insanlara yol göstermektir. daha sorumlu ve yetkin olmak Yapay zeka kaynaklarını verimli bir şekilde kullanın.

LLM'nin 1'den 2'ye evrimi düşünüldüğünde, önemli bir faktörün ortaya çıktığı görülebilir: algoritmalar. Algoritmalar yapılandırılmıştır ve insanların sorunlu alanları keşfetmesine, strateji geliştirmesine ve çözümler oluşturmasına yardımcı olacak bir yol sağlar. Her ne kadar ana akım literatürün çoğu algoritmaları LLM'nin harici araçları olarak ele alsa da, LLM'nin doğasında olan üretken tekrarlanabilirliği göz önünde bulundurarak, bir algoritmayı LLM'ye içselleştirmek için bu yinelemeli mantığı yönlendirebilir miyiz?

Virginia Tech ve Microsoft'tan bir araştırma ekibi, iki yönü birleştirerek Yüksek Lisans içindeki akıl yürütmeyi geliştirmek amacıyla insan muhakemesinin karmaşıklığını ve algoritmik yöntemlerin metodik kesinliğini bir araya getirdi.

Mevcut araştırmalar, insanların karmaşık sorunları çözerken tek bir ayrıntıya dar bir şekilde odaklanmak yerine bütünsel düşünmelerini sağlamak için içgüdüsel olarak geçmiş deneyimlerden yararlandıklarını vurguluyor. LLM oluşturma aralığı yalnızca belirteç sınırıyla sınırlıdır ve insanın işleyen belleğinin engellerini aşması kaçınılmaz gibi görünüyor.

Bu gözlemden ilham alan araştırmacılar, LLM'nin, fikirlerin benzer hiyerarşik bir şekilde keşfedilmesini sağlayıp sağlayamayacağını, önceki ara adımlara atıfta bulunarak mümkün olmayan seçenekleri filtreleyip eleyemeyeceğini araştırdılar; bunların tümü LLM'nin üretim döngüsü içindeydi. İnsanlar sezgi ve keskinlikte iyiyken, algoritmalar organize ve sistematik keşifte iyidir. CoT gibi mevcut teknolojiler bu sinerjik potansiyelden uzak durma ve LLM'nin saha doğruluğuna çok fazla odaklanma eğilimindedir. Araştırmacılar, LLM'nin özyinelemeli yeteneklerinden yararlanarak insan-algoritmik hibrit bir yaklaşım oluşturdular. Bu, ilk adaylardan kanıtlanmış çözümlere kadar araştırmanın özünü yakalayan algoritmik örneklerin kullanılmasıyla gerçekleştirilir.

Bu gözlemlere dayanarak araştırmacılar Düşünce Algoritmasını (AoT) önerdiler.

kağıt:

Daha geniş ölçekte, bu yeni yaklaşımın yeni bir bağlamsal öğrenme paradigmasına öncülük etmesi bekleniyor. Geleneksel denetimli öğrenme modeli olan [soru, cevap] veya [soru, cevabı elde etmek için sonraki adımlar] kullanmak yerine, bu yeni yaklaşım yeni bir modeli [soru, arama süreci, cevap] benimser. Doğal olarak, Yüksek Lisans'a talimatlar aracılığıyla bir algoritma kullanmasını söylediğimizde, genellikle Yüksek Lisans'ın algoritmanın yinelemeli düşünmesini taklit etmesini bekleriz. Ancak ilginç olan LLM'nin kendi "sezgisini" enjekte etme, hatta aramasını algoritmanın kendisinden daha verimli hale getirme yeteneğine sahip olmasıdır.

Düşünme Algoritması

Araştırmacılar, araştırma stratejilerinin temelinin mevcut bağlamsal öğrenme paradigmasının temel eksikliklerini tanımak olduğunu söylüyor. CoT zihinsel bağlantıların tutarlılığını artırabilse de zaman zaman ters gidebilir ve yanlış ara adımlar verebilir.

Bu olguyu açıklamak için araştırmacılar bir deney tasarladılar. Text-davinci-003'ü bir aritmetik görevle sorgularken (11 − 2 = gibi), araştırmacı önüne aynı çıktı sonucunu alacak birden fazla bağlam denklemi ekleyecektir (15 − 5 = 10, 8 + 2 = 10 gibi) ).

Doğruluğun hızlı bir şekilde düştüğü tespit edildi; bu durum, bağlamda doğru akıl yürütmenin basit bir şekilde LLM'nin temel aritmetik yeteneklerini istemeden bozabileceğini düşündürmektedir.

Bu önyargıyı azaltmak için örnekleri daha çeşitli hale getirmek geçerli bir çözüm olabilir, ancak bu, çıktının dağılımını biraz değiştirebilir. Basitçe birkaç başarısız deneme eklemek (rastgele arama gibi), modeli sorunu gerçekten çözmeden istemeden yeniden denemeye teşvik edebilir. Algoritmik davranışın gerçek doğasını anlamak (başarısız aramalar ve sonraki kurtarmaların önemli olduğu ve bu girişimlerden öğrenmenin önemli olduğu durumlarda), araştırmacıların bağlamsal örnekleri birleştirme yöntemi, arama algoritmalarının, özellikle de derinlik öncelikli aramanın (DFS) modelini takip etmektir. Genişlik Öncelikli Arama (BFS). Şekil 1'de bir örnek verilmektedir.

Bu makale ağaç arama problemlerine benzer geniş bir görev sınıfına odaklanmaktadır.

Bu tür bir görev, ana sorunun parçalanmasını, her parça için uygun bir çözüm oluşturulmasını ve daha büyük potansiyele sahip parçaları yeniden değerlendirme seçeneğiyle birlikte belirli yolları benimsemeye veya terk etmeye karar vermeyi gerektirir.

Her alt küme için ayrı sorgular vermek yerine araştırmacılar, bunları birleşik bir üretken taramada çözmek için LLM'nin yinelemeli yeteneklerinden yararlandı. Kendini yalnızca bir veya iki LLM etkileşimiyle sınırlayan yaklaşım, doğal olarak önceki bağlamsal adaylardan elde edilen içgörüleri entegre edebilir ve çözüm alanının derinlemesine araştırılmasını gerektiren karmaşık sorunları çözebilir. Araştırmacılar ayrıca bu düşüncelerin ne kadar büyük olması gerektiği ve token verimliliğini artırmak için LLM'ye ne tür bağlamsal örneklerin sağlanması gerektiği konusunda kendi içgörülerini de verdiler. Ağaç arama algoritmasının temel bileşenleri ve bunların yeni çerçevede temsili aşağıda verilmiştir.

**1. Alt problemlere ayrıştırın. **Bir problem göz önüne alındığında, uygun akıl yürütme yollarını açıklayan bir arama ağacı oluşturmak, problemin asıl çözüm yönüne bakmadan bile zaten göz korkutucu bir iştir. Herhangi bir ayrıştırma yalnızca alt görevler arasındaki karşılıklı ilişkileri değil aynı zamanda her bir problemin çözüm kolaylığını da dikkate almalıdır.

Örneğin, basit çok basamaklı toplama işlemini ele alalım: Bilgisayarların sayısal değerleri ikili sayılara dönüştürmesi verimli olmasına rağmen, insanlar genellikle ondalık sayıları daha sezgisel bulurlar. Ayrıca alt problemler aynı olsa bile yürütme yöntemleri farklı olabilir. Sezgi, çözüme giden adımlar arasında kısayollar bulabilir ve sezgi olmadan daha ayrıntılı adımlar gerekli olabilir.

Doğru (yani bağlamsal algoritma örnekleri) oluşturmak için bu incelikler önemlidir ve LLM'nin güvenilir performans için ihtiyaç duyduğu minimum token sayısını belirler. Bu sadece LLM'nin bağlam üzerindeki kısıtlamalarını karşılamakla kalmıyor, aynı zamanda LLM'nin yeteneği açısından da önemlidir, çünkü LLM'nin kendi bağlamıyla örtüşen sorunları çözmek için benzer miktarda jeton kullanabileceğini umuyoruz.

**2. Alt probleme bir çözüm önerin. **Mevcut ana yöntemlerden biri, LLM token çıktı olasılığının doğrudan örneklenmesini içerir. Bu yöntem tek seferlik yanıtlar için etkili olsa da (belirli sınırlamalarla), örnek dizisinin takibe entegre edilmesi veya takipte değerlendirilmesi gerektiği gibi bazı senaryolarla da baş edemez. Model sorgularını en aza indirmek için araştırmacılar, kesintisiz bir çözüm oluşturma süreci kullandı. Yani ana alt problemlere üretim duraksaması olmadan doğrudan ve sürekli çözüm üretmek.

Bu yaklaşımın birçok faydası vardır. İlk olarak, oluşturulan tüm çözümler aynı paylaşılan bağlamdadır ve her bir çözümü değerlendirmek için ayrı model sorguları oluşturma ihtiyacını ortadan kaldırır. İkincisi, ilk başta mantığa aykırı görünse de, izole edilmiş tokenlar veya token gruplandırma olasılıkları her zaman anlamlı seçimlere yol açmayabilir. Şekil 4'te basit bir şematik diyagram verilmektedir.

**3. Alt problemlerin olasılığını ölçün. **Yukarıda belirtildiği gibi, mevcut teknikler, keşif yönleriyle ilgili kararların alınmasına yardımcı olmak amacıyla ağaç düğümlerinin potansiyelini belirlemek için ek ipuçlarına dayanır. Gözlemlerimiz, Yüksek Lisans'ın doğası gereği gelecek vaat eden adaylara, eğer bağlamsal örneklerle özetlenebiliyorsa, öncelik verme eğiliminde olduğunu göstermektedir. Bu, karmaşık mühendisliğe olan ihtiyacı azaltır ve ister sezgisel ister bilgi odaklı olsun, karmaşık buluşsal yöntemlerin entegrasyonuna olanak tanır. Aynı şekilde, oluşturulan aynı sonuçlar dahilinde aday fizibilitesinin anında değerlendirilmesine olanak tanıyan yeni yaklaşımda da herhangi bir kopukluk yok.

**4. Daha iyi bir düğüme geri dönün. **Sonra hangi düğümün keşfedileceğine karar vermek (önceki düğümlere geri izleme dahil) esasen seçilen ağaç arama algoritmasına bağlıdır. Her ne kadar önceki araştırmalar, arama süreci için kodlama mekanizmaları gibi harici yöntemler kullanmış olsa da, bu, arama sürecinin daha geniş çekiciliğini sınırlayacak ve ek özelleştirme gerektirecektir. Bu yazıda önerilen yeni tasarım esas olarak budama ile desteklenen DFS yöntemini benimser. Amaç, aynı ana düğüme sahip alt düğümler arasındaki yakınlığı korumak, böylece LLM'nin yerel özelliklere uzak özelliklere göre öncelik vermesini teşvik etmektir. Ayrıca araştırmacılar BFS tabanlı AoT yönteminin performans göstergelerini de önerdiler. Araştırmacılar, modelin bağlamsal örneklerden içgörü toplama konusundaki doğal yeteneğinden yararlanılarak ek kişiselleştirme mekanizmalarına olan ihtiyacın ortadan kaldırılabileceğini söylüyor.

deney

Araştırmacılar 24 noktalı ve 5x5 mini bulmaca oyunları üzerinde deneyler yaptılar ve sonuçlar AoT yönteminin üstünlüğünü gösterdi; performansı tek bir yöntemden kaynaklanıyordu (standart yöntem, CoT, CoT-SC gibi) ve aynı zamanda dış mekanizma yöntemlerinin (ToT gibi) kullanılmasıyla karşılaştırılabilir.

Tablo 1'de CoT/CoT-SC'yi içeren standart tasarım yönteminin LLM aracılığıyla kullanılan ağaç arama yönteminin açıkça gerisinde kaldığı açıkça görülmektedir.

Tablo 3, çeşitli tekniklerin kullanıldığı önceki yöntemleri aşan kelime doldurma başarı oranıyla AoT'nin mini kelime doldurma görevi üzerindeki etkinliğini vurgulamaktadır.

Ancak ToT'den daha kötü. Önemli bir gözlem, ToT tarafından kullanılan sorgu hacminin çok büyük olması ve AoT'yi yüz kattan fazla aşmasıdır. AoT'yi ToT'den daha düşük kılan bir diğer faktör de algoritma örneklerinin doğasında bulunan geri izleme yeteneklerinin tam olarak etkinleştirilmemiş olmasıdır. Bu yeteneğin kilidi tamamen açılabilirse, bu, önemli ölçüde daha uzun bir üretim aşamasıyla sonuçlanacaktır. Buna karşılık ToT, geri izleme için harici bellek kullanma avantajına sahiptir.

tartışmak

AoT taklit ettiği DFS'yi geçebilir mi?

Şekil 5'te gösterildiği gibi AoT, genel olarak DFS sürümüne göre daha az düğüm kullanır. DFS, daha sonra keşfedilecek alt ağaçları seçerken birleşik bir strateji benimserken, AoT'nin LLM'si kendi buluşsal yöntemini entegre eder. Temel algoritmanın bu şekilde güçlendirilmesi, LLM'nin özyinelemeli akıl yürütme yeteneklerinin avantajını yansıtmaktadır.

Algoritma seçimi AoT performansını nasıl etkiler?

Tablo 5 deneysel bulguları vermektedir ve üç AoT varyantının tamamının tek sorgulu CoT'den daha iyi performans gösterdiği görülebilir.

Bu sonuç beklenen bir sonuçtur, çünkü algoritma ne olursa olsun, rastgele arama değişkenindeki rastgele denemeler veya DFS veya BFS yapılandırmalarındaki geri izleme yoluyla olası hataları arar ve yeniden ziyaret eder. Yapılandırılmış aramanın her iki versiyonu olan AoT (DFS) ve AoT'nin (BFS), çözüm keşfinde algoritmik içgörülerin avantajlarını vurgulayan AoT'den (Random) daha verimli olduğunu belirtmekte fayda var. Ancak AoT (BFS), AoT'nin (DFS) gerisinde kalıyor. AoT (BFS) hatalarını daha ayrıntılı analiz eden araştırmacılar, AoT (DFS) ile karşılaştırıldığında AoT'nin (BFS) optimal operasyonları tanımlamanın daha zor olduğunu buldu.

Peki algoritma örneğindeki arama adımlarının sayısı AoT'nin davranışını nasıl ayarlıyor?

Şekil 6, toplam arama adımı sayısının etkisini göstermektedir. Bunlar arasında, AoT (Uzun) ve AoT (Kısa), orijinal AoT'ye göre oluşturulan sonuçların sırasıyla daha uzun ve daha kısa versiyonlarıdır.

Sonuçlar, arama adımlarının sayısının LLM'nin arama hızına örtülü bir önyargı getirdiğini göstermektedir. Yanlış adımlar atarken bile potansiyeli olan yönleri keşfetmeyi vurgulamanın önemli olduğunu unutmamak önemlidir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)