Yerli sesli diyaloğun geniş modeli burada: Li Kaifu, Zero One ve All Things Participate, Çince-İngilizce iki dilli çok modlu, açık kaynak ve ticari olarak mevcut
İlk Çince-İngilizce iki dilli sesli diyalog açık kaynak modeli burada!
Geçtiğimiz günlerde arXiv'de konuşma metni multimodal büyük ölçekli model üzerine bir makale yayınlandı ve imzalanan şirkette Kai-Fu Lee yönetimindeki büyük ölçekli model şirketi 01.ai'nin adı ortaya çıktı.
Bu makale, hem kaydı hem de metin girişini destekleyen, Çince-İngilizce iki dilli ticari olarak mevcut diyalog modeli LLaSM'yi önermektedir. "Karışık çiftler" ile ilgili bir sorun yoktur:
Makale, "sesli sohbet"in yapay zeka ile insanlar arasında yalnızca metin girişi yoluyla değil, daha rahat ve doğal bir etkileşim yolu olduğuna inanıyor.
Büyük bir model kullanan bazı netizenler şimdiden "uzanıp konuşurken kod yazma" sahnesini hayal ediyorlar.
Bu araştırma LinkSoul.AI, Pekin Üniversitesi ve 01Wanwu'dan geliyor. Açık kaynaklıdır ve doğrudan Hugging Face'te de deneyebilirsiniz.
Nasıl çalıştığını görelim.
Metin ve ses girişi desteği, cep telefonu da oynatılabilir
Araştırmacılara göre LLaSM, Çince ve İngilizce dillerinde iki dilli konuşma metni çok modlu diyaloğu destekleyen ilk açık kaynaklı ve ticari olarak mevcut diyalog modelidir.
Şimdi sesli metin girişi ve Çince ve İngilizce iki dilli yeteneklerine bir göz atalım.
Öncelikle Çince ve İngilizce arasında kültürel bir karşılaştırma yapalım ve Li Bai'yi İngilizce olarak değerlendirelim:
Sorun değil, Li Bai'nin hanedanı doğru bir şekilde belirtildi. İngilizce'yi anlamıyorsanız, doğrudan Çince'ye çevirmeniz sorun değil:
Daha sonra, Çince-İngilizce karışık bir soru deneyin ve Çince "kızarmış yiyecek" ekleyin; model çıktısı da iyidir:
Modeli tekrar deneyelim ve bazı değerlendirmeler yaparak hangisinin daha güçlü olduğunu, Li Bai'nin mi yoksa Du Fu'nun mu olduğunu görelim.
Modelin bir süre düşündükten sonra oldukça tarafsız bir değerlendirme verdiği ve aynı zamanda büyük modellerin (manuel köpek kafası) temel "su taşıma sağduyusuna" sahip olduğu görülebilir.
Elbette sadece bilgisayarlar değil cep telefonları da oynayabiliyor.
ses ile "Bana bir tarif öner" yazmayı deneyelim:
Modelin "Patlıcan Peyniri" tarifini doğru bir şekilde çıkardığı görülüyor ancak bunun iyi olup olmadığını bilmiyorum.
Ancak denediğimizde bu modelde de bazen hatalar olduğunu gördük.
Örneğin bazen "insan konuşmasını pek iyi anlayamıyor".
Karışık Çince ve İngilizce içeriğin çıktısını alması istendiğinde, anlamamış gibi davranacak ve İngilizce çıktısını alacaktır:
Ve Çince-İngilizce karışık soru "Taylor Swift's Red"i duymak istediğinde, model doğrudan büyük bir hata yaşadı, defalarca bir cümle çıkardı ve hatta duramadı...
Genel olarak konuşursak, Çince ve İngilizce'nin karışık olduğu sorular veya gereksinimlerle karşılaşıldığında, modelin çıktı yeteneği hala yeterince iyi değildir.
Ancak ayrı ayrı hem Çinceyi hem de İngilizceyi ifade etme yeteneği oldukça iyidir.
Peki böyle bir model nasıl hayata geçirilir?
**Hangi yeni modeli yaptınız? **
Deneme oyununa bakılırsa, LLaSM'nin iki ana özelliği vardır: Biri Çince ve İngilizce girişi destekler, diğeri ise çift ses ve metin girişidir.
Bu iki noktaya ulaşmak için sırasıyla mimaride ve eğitim verilerinde bazı ayarlamalar yapılması gerekmektedir.
Mimari, LLaSM mevcut konuşma tanıma modelini ve büyük dil modelini entegre eder.
LLaSM, otomatik konuşma tanıma modeli Whisper, modalite adaptörü ve büyük model LLaMA dahil olmak üzere üç bölümden oluşur.
Bunlar arasında Whisper, orijinal konuşma girdisini almaktan ve konuşma özelliklerinin vektör temsilini çıkarmaktan sorumludur; modal adaptör, konuşma ve metin yerleştirmelerini hizalamaktan sorumludur; LLaMA, konuşma ve metin girişi talimatlarını anlamaktan ve yanıtlar üretmekten sorumludur.
Modelin eğitimi iki aşamaya ayrılmıştır: İlk aşama modalite adaptörünü eğitir, kodlayıcıyı ve büyük modeli dondurur, yani ses ve metin hizalamasını öğrenmesini sağlar; ikinci aşama kodlayıcıyı dondurur, modalite adaptörünü eğitir ve Çok modlu diyalog yeteneklerini öğrenmek için büyük model.
Eğitim verileriyle araştırmacılar, 199.000 diyalog ve 508.000 konuşma metni örneği içeren bir LLaSM-Audio-Talimatlar veri seti derlediler.
508.000 konuşma metni örneği arasında 80.000 Çince konuşma örneği ve 428.000 İngilizce konuşma örneği bulunmaktadır.
WizardLM, ShareGPT ve GPT-4-LLM gibi veri kümelerini temel alan araştırmacılar, bu veri kümeleri için ses paketleri oluşturmak ve geçersiz konuşmaları filtrelemek amacıyla metinden konuşmaya teknolojisini kullanıyor.
Bu aynı zamanda şu anda veri setini takip eden en büyük Çince ve İngilizce konuşma metni talimatıdır, ancak hala çözülme aşamasındadır.Araştırmacılara göre, çözüldükten sonra açık kaynaklı olacaktır.
Ancak makale, çıktısını şimdilik diğer konuşma modelleri veya metin modelleriyle karşılaştırmamaktadır.
yazar hakkında
Bu makale LinkSoul.AI, Pekin Üniversitesi ve Zero One Thing'den alınmıştır.
Ortak yazarlar Yu Shu ve Siwei Dong, LinkSoul.AI'den geliyorlar ve daha önce Pekin Zhiyuan Yapay Zeka Araştırma Enstitüsü'nde çalışıyorlardı.
LinkSoul.AI, daha önce ilk açık kaynaklı Llama 2 büyük Çince dil modelini piyasaya süren bir yapay zeka start-up şirketidir.
Kai-Fu Lee'nin sahibi olduğu büyük bir model şirket olan Zero One World de bu araştırmaya katkıda bulundu. Yazar Wenhao Huang'ın Hugging Face sayfası onun Fudan Üniversitesi'nden mezun olduğunu gösteriyor.
Kağıt adresi:
Demo sitesi:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Yerli sesli diyaloğun geniş modeli burada: Li Kaifu, Zero One ve All Things Participate, Çince-İngilizce iki dilli çok modlu, açık kaynak ve ticari olarak mevcut
Kaynak: Qubit
İlk Çince-İngilizce iki dilli sesli diyalog açık kaynak modeli burada!
Geçtiğimiz günlerde arXiv'de konuşma metni multimodal büyük ölçekli model üzerine bir makale yayınlandı ve imzalanan şirkette Kai-Fu Lee yönetimindeki büyük ölçekli model şirketi 01.ai'nin adı ortaya çıktı.
Metin ve ses girişi desteği, cep telefonu da oynatılabilir
Araştırmacılara göre LLaSM, Çince ve İngilizce dillerinde iki dilli konuşma metni çok modlu diyaloğu destekleyen ilk açık kaynaklı ve ticari olarak mevcut diyalog modelidir.
Şimdi sesli metin girişi ve Çince ve İngilizce iki dilli yeteneklerine bir göz atalım.
Öncelikle Çince ve İngilizce arasında kültürel bir karşılaştırma yapalım ve Li Bai'yi İngilizce olarak değerlendirelim:
Modelin bir süre düşündükten sonra oldukça tarafsız bir değerlendirme verdiği ve aynı zamanda büyük modellerin (manuel köpek kafası) temel "su taşıma sağduyusuna" sahip olduğu görülebilir.
ses ile "Bana bir tarif öner" yazmayı deneyelim:
Modelin "Patlıcan Peyniri" tarifini doğru bir şekilde çıkardığı görülüyor ancak bunun iyi olup olmadığını bilmiyorum.
Ancak denediğimizde bu modelde de bazen hatalar olduğunu gördük.
Örneğin bazen "insan konuşmasını pek iyi anlayamıyor".
Karışık Çince ve İngilizce içeriğin çıktısını alması istendiğinde, anlamamış gibi davranacak ve İngilizce çıktısını alacaktır:
Ancak ayrı ayrı hem Çinceyi hem de İngilizceyi ifade etme yeteneği oldukça iyidir.
Peki böyle bir model nasıl hayata geçirilir?
**Hangi yeni modeli yaptınız? **
Deneme oyununa bakılırsa, LLaSM'nin iki ana özelliği vardır: Biri Çince ve İngilizce girişi destekler, diğeri ise çift ses ve metin girişidir.
Bu iki noktaya ulaşmak için sırasıyla mimaride ve eğitim verilerinde bazı ayarlamalar yapılması gerekmektedir.
Mimari, LLaSM mevcut konuşma tanıma modelini ve büyük dil modelini entegre eder.
LLaSM, otomatik konuşma tanıma modeli Whisper, modalite adaptörü ve büyük model LLaMA dahil olmak üzere üç bölümden oluşur.
Bunlar arasında Whisper, orijinal konuşma girdisini almaktan ve konuşma özelliklerinin vektör temsilini çıkarmaktan sorumludur; modal adaptör, konuşma ve metin yerleştirmelerini hizalamaktan sorumludur; LLaMA, konuşma ve metin girişi talimatlarını anlamaktan ve yanıtlar üretmekten sorumludur.
Eğitim verileriyle araştırmacılar, 199.000 diyalog ve 508.000 konuşma metni örneği içeren bir LLaSM-Audio-Talimatlar veri seti derlediler.
508.000 konuşma metni örneği arasında 80.000 Çince konuşma örneği ve 428.000 İngilizce konuşma örneği bulunmaktadır.
WizardLM, ShareGPT ve GPT-4-LLM gibi veri kümelerini temel alan araştırmacılar, bu veri kümeleri için ses paketleri oluşturmak ve geçersiz konuşmaları filtrelemek amacıyla metinden konuşmaya teknolojisini kullanıyor.
Ancak makale, çıktısını şimdilik diğer konuşma modelleri veya metin modelleriyle karşılaştırmamaktadır.
yazar hakkında
Bu makale LinkSoul.AI, Pekin Üniversitesi ve Zero One Thing'den alınmıştır.
Ortak yazarlar Yu Shu ve Siwei Dong, LinkSoul.AI'den geliyorlar ve daha önce Pekin Zhiyuan Yapay Zeka Araştırma Enstitüsü'nde çalışıyorlardı.
LinkSoul.AI, daha önce ilk açık kaynaklı Llama 2 büyük Çince dil modelini piyasaya süren bir yapay zeka start-up şirketidir.
Demo sitesi: