Büyük dil modeli diyaloğunun sınırlamalarını çözmek için iki satır kod! Hong Kong Çinli Jia Jiaya'nın ekibi ve MIT, ultra uzun metin uzatma teknolojisini piyasaya sürdü

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Yarı yolda kaybolan model tembeldir, bağlam ne kadar uzun olursa, model o kadar aptallaşır... Büyük dil modeli ürünlerini deneyimlediyseniz, kullanıcılar metin giriş uzunluğunun sınırlamasını bir dereceye kadar hissedeceklerdir, örneğin büyük modelle biraz daha uzun içeriği tartışmak istediğinizde, girişi bölmeniz gerekir ve önceki girişin ana noktaları yakında büyük model tarafından unutulacaktır.

Bu tipik bir büyük dil modeli diyalog hatasıdır! Dikkat eksikliği ile doğan çocuklar gibi, yeni bir kitabı bitirmeye konsantre olmak zordur. Kusurun anahtarı, modelin uzun metin işleme yeteneklerinden yoksun olmasıdır. Bu şimdi kırıldı.

Son zamanlarda, Jia Jiaya'nın ekibi ve MIT tarafından piyasaya sürülen yeni teknolojiler ve yeni modeller, büyük açık kaynaklı web sitelerinin sıcak listelerinde sessizce yer aldı: önce yüze sarılma sıcak listesi, önce paperwithcode sıcak, Github tüm python projesi sıcak beşinci, GitHub yıldızları bir haftada 1.000'i aştı ve Twitter'daki ilgili teknik gönderiler yaklaşık 180.000 görüntülendi...

GitHub Stars 1.3K'ya ulaştı

Twitter'daki ilgili teknoloji gönderileri yaklaşık 180.000 görüntüleme aldı

LongLoRA adı verilen teknoloji pratik ama şaşırtıcı derecede basit: sadece iki satır kod ve 8 kartlı bir A100 makinesi ile 7B modelinin metin uzunluğu 100 bin jetona kadar uzatılabilir ve 70B modelinin metin uzunluğu 32 bin jetona kadar uzatılabilir; Aynı zamanda araştırma ekibi, 70B parametreli ilk uzun metin diyaloglu büyük dil modeli olan LongAlpaca'yı da piyasaya sürdü.

Dünyanın ilk 70B uzun metin büyük dil modeli piyasaya sürüldü

LongLoRA'nın önerisi, küresel büyük dil modelinin diyalog kusurlarını ilk kez çözdü ve o zamandan beri onlarca sayfa makale, yüzlerce sayfa rapor ve devasa kitaplar artık büyük modellerin kör noktası haline gelmedi.

Bu bağlamda, bazı profesyoneller heyecanla LongLoRA'nın büyük dil modellerinin labirentinde bir umut lambası olduğunu söyledi! Endüstrinin uzun metin büyük dil modellerine yönelik yeniden düşünmesini ve dikkatini temsil eder, büyük dil modellerinin bağlam penceresini etkili bir şekilde genişletir, modelin uzun metin dizilerini dikkate almasına ve işlemesine olanak tanır ve büyük dil modellerinin yenilikçi bir buluşudur.

Teknolojik yeniliklere ek olarak, büyük dil modellerinin uzun metin problemleriyle başa çıkmadaki zorluklarından biri de halka açık uzun metin diyalog verilerinin eksikliğidir.

Bu amaçla, araştırma ekibi, ünlü kitaplar, makaleler, derinlemesine raporlar ve hatta mali tablolar hakkında çeşitli Soru-Cevaplar da dahil olmak üzere 9K uzunluğunda Soru-Cevap derlem çiftlerini özel olarak topladı.

Uzun soruları cevaplamak yeterli olmadı, ekip eğitim için 9K uzun soru-cevap derlemi ile karıştırılmış 3K kısa soru-cevap derlemi seçti, böylece uzun metin büyük modeli aynı zamanda kısa metin diyalog yeteneklerine sahip oldu. LongAlpaca-12k adı verilen bu eksiksiz veri kümesi şu anda açık kaynak kodludur.

Araştırma ekibi, LongAlpaca-12k veri setine dayanarak, farklı parametre boyutları 7B, 13B, 70B ve LongAlpaca-7B, LongAlpaca-13B ve LongAlpaca-70B dahil olmak üzere açık kaynaklı modelleri eğitti ve değerlendirdi.

Roman okumak, kağıt değiştirmek ve ekonomiye dikkat çekmek çok yönlü kraldır

Lafı daha fazla uzatmadan, 12K soru-cevap külliyatı üzerine bindirilmiş LongLoRA teknolojisini uygulayan büyük bir modelin LongAlpaca etkisini görmek için körü körüne birkaç demo seçin.

让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率。LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , daha geniş uygulama ve gelecekteki yön, temel katkılara ve etkilere odaklanmak ve makalenin kabul edilme şansı artacaktır.

Şimdi, sistemin iki yeni farklı makale okumasına izin verin ve LongAlpaca'nın ICLR ve CVPR konferansları arasındaki üslup farklılıklarını özetlemesine izin verin. LongAlpaca, CVPR makalelerinin pratiklik ve tekniğe odaklanarak daha yapılandırılmış ve deneysel olma eğiliminde olduğu sonucuna varıyor. Öte yandan, ICLR'nin makale stili daha esnektir ve standart formatlardan ziyade temel teorik analizlere ve matematiksel türevlere odaklanır.

Eğitimli LongAlpaca modelinin yeni uzun biçimli akademik makaleleri kolayca kabul edebildiği ve akademik olarak ilgili soruları yanıtlamada oldukça doğru olduğu görülebilir.

Daha sonra, LongAlpaka modelinin ekonomik alandaki yorumuna yüksek bir okuma ve anlama eşiği ile bakalım.

IMF'nin 2012'den 2023'e kadar küresel ekonomik beklentilere ilişkin genel bakış koleksiyonuna dayanarak, ekonomik durumu yıldan yıla özetliyor ve gelecekteki ekonomik eğilimleri tahmin ediyor. LongAlpaca, 2023'teki küresel ekonomik durumun belirsiz olduğunu ve büyümenin 2022'ye kıyasla yavaşlamasının beklendiğini söyledi; Önümüzdeki yıllarda, küresel ekonomik genişleme ılımlı ve beklenenden daha düşük olacak, jeopolitik gerilimler ve finansal piyasa oynaklığı gibi büyük zorluklar devam ediyor ve çok taraflı işbirliği ve yapısal reformlar yoluyla dikkatli bir şekilde ele alınması gerekiyor.

LongAlpaka ayrıca yeni romanlar okuyabilir ve okuduktan sonra içeriğini analiz edebilir. Aşağıda seçilen karşılaştırma modelleri, 13B parametrelerine sahip LongAlpaca ve Llama2'dir ve ilgili performanslarına bakar.

Ünlü "Batıya Yolculuk" kitabında, Sun Wukong Cennet Sarayı'nda sorun çıkardığında neden çok güçlüydü, ancak kutsal yazıları elde etme yolunda defalarca hüsrana uğradı? LongAlpaca, kabaca "Monkey King'in toyluğu, güçlü rakipleri, sınırlı gücü, düşman aldatmacası, başlangıçtaki yoldaş eksikliği ve diğer faktörler yolculukta başarısız olmasına neden oldu" şeklinde özetlenebilecek 5 neden verdi. Ancak zamanla, en zorlu düşmanlarını yenmesini sağlayan bilgelik, deneyim ve yoldaşlar kazandı. "

Llama2'nin cevabı daha basit. "Cennet Sarayı hakkında yaygara koparsa da, yenilmez bir gücü temsil ettiğini söylemek doğru değil. Aslında, sonunda Batıya Yolculuk'ta güçlü Tang Sanzang tarafından yenildi. Llama2 doğru cevabı vermedi ve ayrıca daha fazla içerik bilgisine olan ihtiyacı artırdı.

Bu sefer, sistemin "Üç Cisim Problemi"ni tekrar okumasına izin verin ve ardından Ye Wenjie'nin neden ilk bölümde uzaylılarla temasa geçtiğini ve sonraki aşamada neden pişman olduğunu sorun. Long Alpaka, Ye Wenjie'nin uzaylılarla ilk temasının idealizm ve intikam tarafından motive edildiğine inanıyor, ancak zamanla insanlığa bakışı değişti, tüm insanlığa getirebileceği tehlikeyi fark etti ve pişmanlığı her geçen gün arttı. Cevap çok açıktı.

Llama2'nin cevabı, "Uzaylılarla etkileşime girerek, evrenin doğası ve içindeki yeri hakkında daha derin bir anlayış kazanmayı umuyor" oldu. Ye Wenjie yavaş yavaş uzaylıların ve teknolojilerinin sorununu çözemeyeceğini fark etti. Cevap geneldi ve sonra roman hakkında bir bütün olarak yorum yapmaya başladı ve soru sormadı.

Modellerin verdiği cevaplardan, Llama2 gibi bazı modellerin [2] Romanı ön eğitim sürecinde görmüş olabilirsiniz, ancak sadece romanın konusuna dayalı kısa metinli bir soru sorarsanız, cevap ideal değildir.

İki modelin cevapları zıttır ve yüksek ve düşük yüksektir. LongAlpaca, akademik makaleleri değiştirmede, küresel ekonomik eğilimler hakkında yorum yapmada ve roman okumada iyi bir eldir ve Llama2'yi yener.

İki satır kod ve üç temel sonuç

Llama2, AI topluluğundaki tartışmasız en güçlü açık kaynak modellerinden biridir ve sektöre öncülük etmektedir ve LongAlpaca gerçekten kazanabilir. Arkasındaki LongLoRA teknolojisi netizenlerin dikkatini başarıyla çekti, bunu nasıl yaptı?

Uzun metinlerin büyük dil modellerinde işlenmesi sürecinde, hesaplamanın ana maliyetinin kendi kendine dikkat mekanizmasında yoğunlaştığı ve ek yükünün metnin uzunluğu ile karesi haline geldiği ortaya çıktı.

Bu soruna yanıt olarak, araştırma ekibi LongLoRA teknolojisini önerdi ve gruplama ve dengeleme yoluyla küresel kendi kendine dikkat mekanizmasını simüle etti.

Basitçe söylemek gerekirse, uzun metne karşılık gelen belirteçleri farklı gruplara ayırmak, her grup içinde kendi kendine dikkat hesaplamaları yapmak ve gruplandırma şeklinin farklı dikkat başlıklarından dengelenmesidir. Bu yöntem sadece hesaplama miktarından büyük ölçüde tasarruf sağlamakla kalmaz, aynı zamanda küresel alıcı alanın iletimini de sürdürür.

Ve bu uygulama yöntemi de çok özlüdür, sadece iki satır kod tamamlanabilir!

[5]LongLoRA ayrıca düşük rütbelerde antrenman yapmanın yollarını da araştırıyor. Orijinal düşük dereceli eğitim yöntemleri, LoRA gibi , metin uzunluğu geçişinde iyi sonuçlar elde etmez. Düşük dereceli eğitim temelinde, LongLoRA, tam ince ayar etkisini elde etmek için ince ayar için gömme katmanları (Gömme katmanı ve Normalizasyon katmanları) sunar.

Farklı uzunluklarda metin genişletme ve eğitim gerçekleştirirken, LongLoRA'nın belirli etkileri, LoRA ve tüm parametreler ince ayar teknikleri üç boyutlu olarak ifade edilebilir:

Şaşkınlık-şaşkınlık açısından, orijinal LoRA yönteminin performansı kötüleşirken, LongLoRA ve tüm parametre ince ayarı, çeşitli metin uzunlukları altında iyi sonuçlar sağlayabilir.

Bellek tüketimi açısından, LongLoRA ve orijinal LoRA, tam parametre ince ayarına kıyasla önemli tasarruflara sahiptir. Örneğin, 8k uzunluğundaki model eğitimi için LongLoRA, tam parametreli ince ayara kıyasla bellek tüketimini 46,3 GB'tan 25,6 GB'a düşürür.

Eğitim süresi açısından, 64k uzunluktaki model eğitimi için, geleneksel LoRA ile karşılaştırıldığında, LongLoRA eğitim süresini yaklaşık 90~100 saatten 52.4 saate indirgerken, tam parametre ince ayarı aşıyor 1000 saat.

Minimalist eğitim yöntemi, minimum bilgi işlem kaynakları ve zaman tüketimi ve mükemmel doğruluk, LongLoRA'yı büyük ölçekte mümkün kılar. Şu anda, ilgili teknolojilerin ve modellerin tümü açık kaynak olmuştur ve ilgilenen kullanıcılar kendi deneyimlerini dağıtabilir.

Bunun, 9 Ağustos'ta piyasaya sürülen "her şeyi bölebilen" çok modlu büyük model LISA'nın ardından Jajaya ekibinin bir başka şaheseri olduğunu belirtmekte fayda var. Sadece iki ay arayla, bu araştırmanın hızının ve yeteneğinin LongLoRA kadar şaşırtıcı olduğu söylenmelidir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)