1 komut + 5 dolar + 20 dakika, küçük bir profesyonel modeli eğitebilirsiniz, öğrenmek için _2Model

2023-08-31 06:31:53

CMU ve Tsinghua araştırmacıları, kullanıcı tarafından sağlanan bilgilere dayanarak küçük bir profesyonel modeli hızlı bir şekilde eğitebilen 2Model çerçevesini ortaklaşa yayınladı. Veri toplamaya yalnızca 5 dolarlık bir yatırım ve 20 dakikalık eğitim süresiyle, ChatGPT'nin ortalamasını %20 aşan küçük bir model elde edilebilirken, model parametrelerinin boyutu da 700 kat azaltılabilir.

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Büyük Ölçekli Dil Modelleme (LLM), kullanıcıların ipuçları ve bağlamsal öğrenme yardımıyla güçlü doğal dil işleme sistemleri oluşturmasına olanak tanır. Ancak başka bir perspektiften bakıldığında, LLM'nin belirli doğal dil işleme görevlerindeki performansı belirli gerilemelerden olumsuz etkilenmektedir: bu modellerin dağıtımı büyük miktarda bilgi işlem kaynağı gerektirir ve modellerle API'ler aracılığıyla etkileşim kurmak potansiyel gizlilik sorunlarına neden olabilir.

Bu sorunların üstesinden gelmek için Carnegie Mellon Üniversitesi (CMU) ve Tsinghua Üniversitesi'nden araştırmacılar ortaklaşa 2Model çerçevesini başlattı. Bu çerçevenin amacı, yukarıdaki zorlukların üstesinden gelmek için LLM tabanlı veri oluşturma ve alma yöntemlerini birleştirmektir. 2Model çerçevesini kullanarak, kullanıcıların otomatik olarak veri toplamak ve belirli görevlere uygun küçük özel modelleri verimli bir şekilde eğitmek için LLM ile aynı istemleri sağlaması yeterlidir.

Araştırmacılar üç doğal dil işleme alt görevi üzerinde deneyler yaptılar. Girdi olarak az sayıda örnek bilgi istemi kullanan, veri toplamak ve 20 dakikalık eğitim için yalnızca 5 ABD doları harcayan 2Model çerçevesi tarafından oluşturulan model, güçlü LLM modeli gpt-3.5-turbo ile karşılaştırıldığında %20 performans artışı gösterir. Aynı zamanda modelin boyutu da 700 kata kadar küçültüldü. Araştırmacılar ayrıca bu verilerin gerçek senaryolarda model performansı üzerindeki etkisini doğrulayarak model geliştiricilerin dağıtımdan önce modelin güvenilirliğini tahmin etmelerine olanak tanıdı. Çerçeve zaten açık kaynak olarak mevcuttur:

* Çerçevenin GitHub depo adresi:

Çerçeve demo video bağlantısı:
Çerçeveyle ilgili makalelere bağlantılar:

arka plan

Belirli bir doğal dil işleme görevi için sıfırdan bir sistem oluşturmak genellikle oldukça karmaşıktır. Sistemi kuran kişinin görevin kapsamını açıkça tanımlaması, belirli bir veri seti elde etmesi, uygun bir model mimarisi seçmesi, model eğitimi ve değerlendirmesi yapması ve ardından bunu pratik uygulama için dağıtması gerekir.

GPT-3 gibi Büyük Ölçekli Dil Modelleri (LLM'ler) bu sürece daha kolay bir çözüm sağlar. Kullanıcıların yalnızca görev istemleri (talimatlar) ve bazı örnekler (örnekler) sağlaması gerekir ve LLM ilgili metin çıktısını oluşturabilir. Ancak ipuçlarından metin üretmek hesaplama açısından yoğun olabilir ve ipuçlarını kullanmak özel olarak eğitilmiş bir model kadar istikrarlı değildir. Ayrıca LLM'nin kullanılabilirliği maliyet, hız ve gizlilik ile sınırlıdır.

Bu sorunların üstesinden gelmek için araştırmacılar 2Model çerçevesini geliştirdiler. Bu çerçeve, yukarıda belirtilen sınırlamaları gidermek için LLM tabanlı veri üretimini erişim teknikleriyle birleştirir. Sistem ilk önce önemli bilgileri çıkarır, ardından eğitim verilerini oluşturup alır ve son olarak uygulamaya hazır özel bir model üretir.

2Model çerçevesi aşağıdaki temel adımları otomatikleştirir:

Veri kümesi ve model alımı: İlgili veri kümelerini ve önceden eğitilmiş modelleri toplayın.
Veri kümesi oluşturma: Sözde etiketli veri kümeleri oluşturmak için LLM'yi kullanın.
Modelin ince ayarı: Alınan verilerle oluşturulan verileri karıştırarak modele ince ayar yapın.
Model testi: Modeli, test veri seti ve kullanıcı tarafından sağlanan gerçek veri seti üzerinde test edin.

Birden fazla farklı görevin ampirik değerlendirmesinden sonra 2Model'in maliyeti önemli ölçüde azalır ve modelin boyutu da büyük ölçüde azalır, ancak performans gpt-3.5-turbo'yu aşar. 2Model çerçevesi yalnızca doğal dil işleme sistemlerini verimli bir şekilde oluşturmak için bir araç olarak hizmet vermekle kalmaz, aynı zamanda model topluluğu eğitim tekniklerini keşfetmek için bir platform olarak da hizmet eder.

çerçeve

2Model çerçevesinin temel özelliği yüksek derecede otomasyondur. Süreci, yukarıdaki şekilde gösterildiği gibi veri toplama, model eğitimi, değerlendirme ve devreye alma gibi birden fazla bağlantıyı kapsar. Bunlar arasında, veri seti alımı ve LLM tabanlı veri üretimi yoluyla kullanıcı ihtiyaçlarıyla yakından ilgili verileri elde eden otomatik veri toplama sistemi önemli bir rol oynamaktadır. Sistem daha sonra önceden eğitilmiş modeli alır ve elde edilen veri kümesi üzerinde ince ayar yapar. Son olarak sistem, test seti üzerinde eğitilen modeli değerlendirir ve modelle etkileşim kurmak için bir web kullanıcı arayüzü (UI) oluşturur.

2Model çerçevesinin temel özellikleri şunları içerir:

Sürücü: 2Model'in temel fikri onu bir sürücü olarak kullanmaktır.Kullanıcılar, makine öğreniminin belirli uygulama ayrıntılarına girmeden gerekli görevleri doğrudan tanımlayabilir.
Otomatik veri toplama: Çerçeve, kullanıcının görevlerine son derece uygun verileri elde etmek için veri seti alma ve oluşturma teknolojisini kullanır ve böylece eğitim için gerekli veri setlerini oluşturur.
Önceden eğitilmiş modeller: Çerçeve, önceden eğitilmiş modelleri kullanır ve bunlara ince ayar yapar, böylece büyük miktarda eğitim maliyeti ve zamandan tasarruf sağlar.
Etki değerlendirmesi: 2Model, gerçek veri kümeleri üzerinde model testini ve değerlendirmeyi destekler, modeli dağıtmadan önce ön tahmin ve performans değerlendirmesine olanak tanır, böylece modelin güvenilirliğini artırır.

Bu özellikler, 2Model çerçevesini, doğal dil işleme sistemlerinin yapım sürecini verimli bir şekilde tamamlayabilen ve otomatik veri toplama, model değerlendirme ve kullanıcı etkileşimi arayüzlerinin oluşturulması gibi gelişmiş işlevler sağlayan güçlü bir araç haline getirir.

Deneyler ve Sonuçlar

Deneysel tasarım açısından araştırmacılar 2Model sisteminin performansını değerlendirmek için üç farklı görev seçtiler:

Makine Okuma QA'sı: Gerçek değerlendirme veri kümesi olarak SQuAD'i kullanın.
Japonca NL'den Kod'a: gerçek değerlendirme veri kümesi olarak MCoNaLa kullanılıyor.
Geçici İfade Normalleştirmesi: Gerçek değerlendirme veri kümesi olarak Geçici veri kümesini kullanın.

Ayrıca araştırmacılar karşılaştırma için referans model olarak GPT-3.5-turbo'yu da seçtiler. Deneysel sonuçlar aşağıdaki sonuçlara yol açmaktadır:

Kod oluşturma görevi dışındaki tüm görevlerde, 2Model sistemi tarafından oluşturulan model, temel model GPT-3.5-turbo'dan önemli ölçüde daha iyidir, ancak oluşturulan modelin parametre boyutu GPT-3.5-turbo'nunkinden çok daha küçüktür.
Alınan veri setini eğitim için oluşturulan veri seti ile karıştırarak, doğrudan gerçek veri seti ile eğitime benzer bir etki elde etmek mümkündür. Bu, 2Model çerçevesinin manuel açıklama maliyetini büyük ölçüde azaltabildiğini doğrular.
Veri oluşturucu tarafından oluşturulan test veri seti, farklı modellerin gerçek veri setleri üzerindeki performansını etkili bir şekilde ayırt edebilir. Bu durum, oluşturulan verilerin yüksek kalitede olduğunu ve model eğitiminde yeterli etkinliğe sahip olduğunu göstermektedir.
Japoncadan koda dönüştürme görevinde 2Model sistemi GPT-3.5-turbo kadar iyi performans göstermiyor.

Bunun nedeni, oluşturulan veri setlerinin kalitesinin düşük olması ve uygun önceden eğitilmiş modellerin bulunmaması gibi nedenlerden kaynaklanabilir.

Birlikte ele alındığında, 2Model sistemi birden fazla görevde yüksek kaliteli küçük modelleri başarıyla oluşturarak verilere manuel açıklama ekleme ihtiyacını büyük ölçüde azaltır. Ancak bazı görevlerde hâlâ daha fazla iyileştirmeye ihtiyaç var.

Özetle

Araştırma ekibi tarafından başlatılan 2Model çerçevesi, göreve özel modelleri yalnızca doğal dil komutları aracılığıyla otomatik olarak oluşturma işlevini gerçekleştiriyor. Bu yenilik, özelleştirilmiş doğal dil işleme modelleri oluşturma eşiğini önemli ölçüde azaltır ve NLP teknolojisinin uygulama kapsamını daha da genişletir.

Doğrulama deneyi sonuçları, 2Model çerçevesi tarafından oluşturulan modelin büyük dil modelinden önemli ölçüde daha küçük olduğunu ve birçok görevde GPT-3.5-turbo gibi modellerden daha iyi performans gösterdiğini gösteriyor. Aynı zamanda bu çerçeveyle oluşturulan değerlendirme veri setinin, farklı modellerin gerçek veri setleri üzerindeki performansını değerlendirmede de etkili olduğu kanıtlanmıştır. Bu, modelin nihai dağıtımına rehberlik etmede önemli bir değer sağlar.

2Model çerçevesi, sektöre ve geniş bir kullanıcı kitlesine, belirli ihtiyaçları karşılayan NLP modellerini elde etme konusunda düşük maliyetli, kullanımı kolay bir yaklaşım sağlar. Bu, NLP teknolojisinin geniş çapta uygulanmasını teşvik etmek açısından büyük önem taşımaktadır. Gelecekteki çalışmalar çerçevenin performansının daha da optimize edilmesine odaklanmaya devam edecektir.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
ETH Breaks $3600
39k Popularity
Gate Derivatives Volume Hits New High
19k Popularity
CPI Data Incoming
62k Popularity
4Join Gate VIP to Win MacBook
31k Popularity
5MicroStrategy Buys More Bitcoin
4k Popularity
6BTC Hits New High
97k Popularity
7My Gate Moments
29k Popularity
8VIP Exclusive Airdrop Carnival
27k Popularity
9Fed June Meeting Minutes
7k Popularity
10Trump Tariff Hikes
18k Popularity

sitemap