ChatGPT gibi yapay zeka araçlarının kullanımı giderek daha yaygın hale geliyor. Yapay zeka ile etkileşimde bulunurken giriş istemi sözcüklerindeki farklılıkların çıktı sonuçlarını etkileyeceğini biliyoruz. Peki aynı anlama gelen hızlı kelimeler farklı dillerde ifade edilirse sonuçlar önemli ölçüde farklı mı olacak? Ayrıca, istem sözcüklerinin girişi ve çıkışı doğrudan modelin arkasındaki hesaplama miktarına bağlıdır. Bu nedenle farklı diller arasında yapay zeka çıktısı ve maliyet tüketimi açısından doğal farklılıklar veya "haksızlık" var mı? Bu "haksızlık" nasıl ortaya çıkıyor?
Uyarı sözcüğünün aslında metne değil, bir simgeye karşılık geldiği anlaşılmaktadır. Kullanıcı tarafından girilen istem sözcüklerini aldıktan sonra model, girdiyi işleme ve tahmin için bir belirteç listesine dönüştürecek ve aynı zamanda tahmin edilen belirteçleri çıktıda gördüğümüz sözcüklere dönüştürecektir. Yani token, dil modellerinin metin veya kod işlemesi ve üretmesi için temel birimdir. Her üreticinin, desteklenen kelime sayısı veya Çince karakter sayısından ziyade, modelinin desteklediği token sayısını bildireceği belirtilmelidir.
Token hesaplamasını etkileyen faktörler
Öncelikle belirteç İngilizce bir kelimeye veya Çince bir karaktere karşılık gelmez ve belirteç ile sözcük arasında belirli bir dönüşüm ilişkisi yoktur. Örneğin OpenAI tarafından yayınlanan token hesaplama aracına göre hamburger kelimesi jambon, bur ve ger olarak ayrılıyor ve toplamda 3 token bulunuyor. Ayrıca aynı kelimenin iki cümlede farklı yapılara sahip olması durumunda farklı sayıda belirteç olarak kaydedilecektir.
Belirli bir tokenın nasıl hesaplanacağı esas olarak üreticinin kullandığı tokenizasyon yöntemine bağlıdır. Belirteçleştirme, giriş ve çıkış metnini bir dil modeli tarafından işlenebilecek belirteçlere bölme işlemidir. Bu süreç, modelin farklı dilleri, sözcük dağarcıklarını ve formatları ele almasına yardımcı olur. ChatGPT'nin arkasında "Bayt Çifti Kodlama" (BPE) adı verilen bir tokenleştirme yöntemi bulunur.
Günümüzde bir kelimenin kaç parçaya ayrıştırıldığı, onun telaffuzu ve cümledeki yapısıyla alakalıdır. Diller arasındaki hesaplama farklılıkları daha büyük görünüyor.
Örnek olarak "hamburger"e karşılık gelen Çince "hamburger"i ele alalım. Bu üç Çince karakter 8 jeton olarak sayılır, yani 8 parçaya bölünürler.
Kaynak: OpenAI resmi web sitesinin ekran görüntüsü
Çince ve İngilizce jeton hesaplamalarının "haksızlığını" karşılaştırmak için başka bir paragraf alın.
Aşağıda OpenAI resmi web sitesinden bir cümle yer almaktadır: Bir metin parçasının API tarafından nasıl tokenleştirileceğini ve o metin parçasındaki toplam token sayısını anlamak için aşağıdaki aracı kullanabilirsiniz. Bu cümlede toplam 33 adet bulunmaktadır. jetonlar.
Kaynak: OpenAI resmi web sitesinin ekran görüntüsü
İlgili Çince şu şekildedir: API'nin bir metin parçasını nasıl simgeleştirdiğini ve bu metin parçasındaki toplam simge sayısını anlamak için aşağıdaki araçları kullanabilirsiniz. Toplam 76 jeton.
Kaynak: OpenAI resmi web sitesinin ekran görüntüsü
Çince ve İngilizce dilleri yapay zeka açısından doğal olarak "haksız"
Aynı anlama gelen Çin jetonlarının sayısının İngilizcenin iki katından fazla olduğu görülüyor. Eğitim ve muhakemede Çince ve İngilizce arasındaki "haksızlık", Çince'deki tek bir kelimenin birden fazla anlamı ifade edebilmesi ve dil kompozisyonunun nispeten esnek olması nedeniyle olabilir. Çince'nin ayrıca derin kültürel çağrışımları ve zengin bağlamsal anlamları vardır. son derece Dilin belirsizliğini ve işlemleme zorluğunu büyük ölçüde artırır; İngilizce, bazı doğal dil görevlerinde İngilizcenin Çinceye göre işlenmesini ve anlaşılmasını daha kolay hale getiren nispeten basit bir dilbilgisi yapısına sahiptir.
Çinlilerin daha fazla token işlemesi gerekiyor, model ne kadar fazla bellek ve bilgi işlem kaynağı tüketirse ve elbette maliyet de o kadar yüksek olur.
Aynı zamanda ChatGPT, Çince de dahil olmak üzere birden fazla dili tanıyabilse de eğitim için kullandığı veri setlerinin çoğu İngilizce metinlerdir.İngilizce olmayan dillerle uğraşırken dil yapısı ve dilbilgisi konusunda zorluklarla karşılaşabilir ve bu durum sizi etkileyecektir. çıkış etkisi. "Çok dilli dil modelleri İngilizce'de daha iyi performans gösteriyor mu?" başlıklı yeni bir makale. "(Çok Dilli Dil Modelleri İngilizcede Daha İyi Düşünür mü?) makalesi, İngilizce olmayan bir dil İngilizceye çevrildiğinde, çıktı sonucunun İngilizce olmayan bir dili doğrudan ipucu sözcüğü olarak kullanmanın sonucundan daha iyi olduğunu belirtti.
Çinli kullanıcılar için önce Çinceyi İngilizceye çevirmek ve ardından yapay zeka ile etkileşime geçmek daha etkili ve daha uygun maliyetli görünüyor. Sonuçta, OpenAI'nin GPT-4 model API'sini kullandığınızda, her 1.000 jeton girişi için en az 0,03 ABD doları ücretlendirileceksiniz.
Çince dilinin karmaşıklığı nedeniyle yapay zeka modelleri, doğru eğitim ve muhakeme için Çince verilerinin kullanılmasında zorluklarla karşılaşabilir ve Çince modellerin uygulanması ve sürdürülmesinin zorluğunu artırabilir. Aynı zamanda, büyük modeller geliştiren şirketler için, Çin'in büyük modellerini yapmak, ek kaynak gerektirdiğinden daha büyük maliyetlere katlanmak zorunda kalabilir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Çin'in büyük modelleri İngiliz modellerinden daha pahalı, bu aslında yapay zekanın temel ilkeleri tarafından mı belirleniyor?
Kaynak: Geleceğin Teknoloji Gücü
Yazar: Li Xinshuai
ChatGPT gibi yapay zeka araçlarının kullanımı giderek daha yaygın hale geliyor. Yapay zeka ile etkileşimde bulunurken giriş istemi sözcüklerindeki farklılıkların çıktı sonuçlarını etkileyeceğini biliyoruz. Peki aynı anlama gelen hızlı kelimeler farklı dillerde ifade edilirse sonuçlar önemli ölçüde farklı mı olacak? Ayrıca, istem sözcüklerinin girişi ve çıkışı doğrudan modelin arkasındaki hesaplama miktarına bağlıdır. Bu nedenle farklı diller arasında yapay zeka çıktısı ve maliyet tüketimi açısından doğal farklılıklar veya "haksızlık" var mı? Bu "haksızlık" nasıl ortaya çıkıyor?
Uyarı sözcüğünün aslında metne değil, bir simgeye karşılık geldiği anlaşılmaktadır. Kullanıcı tarafından girilen istem sözcüklerini aldıktan sonra model, girdiyi işleme ve tahmin için bir belirteç listesine dönüştürecek ve aynı zamanda tahmin edilen belirteçleri çıktıda gördüğümüz sözcüklere dönüştürecektir. Yani token, dil modellerinin metin veya kod işlemesi ve üretmesi için temel birimdir. Her üreticinin, desteklenen kelime sayısı veya Çince karakter sayısından ziyade, modelinin desteklediği token sayısını bildireceği belirtilmelidir.
Token hesaplamasını etkileyen faktörler
Öncelikle belirteç İngilizce bir kelimeye veya Çince bir karaktere karşılık gelmez ve belirteç ile sözcük arasında belirli bir dönüşüm ilişkisi yoktur. Örneğin OpenAI tarafından yayınlanan token hesaplama aracına göre hamburger kelimesi jambon, bur ve ger olarak ayrılıyor ve toplamda 3 token bulunuyor. Ayrıca aynı kelimenin iki cümlede farklı yapılara sahip olması durumunda farklı sayıda belirteç olarak kaydedilecektir.
Belirli bir tokenın nasıl hesaplanacağı esas olarak üreticinin kullandığı tokenizasyon yöntemine bağlıdır. Belirteçleştirme, giriş ve çıkış metnini bir dil modeli tarafından işlenebilecek belirteçlere bölme işlemidir. Bu süreç, modelin farklı dilleri, sözcük dağarcıklarını ve formatları ele almasına yardımcı olur. ChatGPT'nin arkasında "Bayt Çifti Kodlama" (BPE) adı verilen bir tokenleştirme yöntemi bulunur.
Günümüzde bir kelimenin kaç parçaya ayrıştırıldığı, onun telaffuzu ve cümledeki yapısıyla alakalıdır. Diller arasındaki hesaplama farklılıkları daha büyük görünüyor.
Örnek olarak "hamburger"e karşılık gelen Çince "hamburger"i ele alalım. Bu üç Çince karakter 8 jeton olarak sayılır, yani 8 parçaya bölünürler.
Çince ve İngilizce jeton hesaplamalarının "haksızlığını" karşılaştırmak için başka bir paragraf alın.
Aşağıda OpenAI resmi web sitesinden bir cümle yer almaktadır: Bir metin parçasının API tarafından nasıl tokenleştirileceğini ve o metin parçasındaki toplam token sayısını anlamak için aşağıdaki aracı kullanabilirsiniz. Bu cümlede toplam 33 adet bulunmaktadır. jetonlar.
İlgili Çince şu şekildedir: API'nin bir metin parçasını nasıl simgeleştirdiğini ve bu metin parçasındaki toplam simge sayısını anlamak için aşağıdaki araçları kullanabilirsiniz. Toplam 76 jeton.
Çince ve İngilizce dilleri yapay zeka açısından doğal olarak "haksız"
Aynı anlama gelen Çin jetonlarının sayısının İngilizcenin iki katından fazla olduğu görülüyor. Eğitim ve muhakemede Çince ve İngilizce arasındaki "haksızlık", Çince'deki tek bir kelimenin birden fazla anlamı ifade edebilmesi ve dil kompozisyonunun nispeten esnek olması nedeniyle olabilir. Çince'nin ayrıca derin kültürel çağrışımları ve zengin bağlamsal anlamları vardır. son derece Dilin belirsizliğini ve işlemleme zorluğunu büyük ölçüde artırır; İngilizce, bazı doğal dil görevlerinde İngilizcenin Çinceye göre işlenmesini ve anlaşılmasını daha kolay hale getiren nispeten basit bir dilbilgisi yapısına sahiptir.
Çinlilerin daha fazla token işlemesi gerekiyor, model ne kadar fazla bellek ve bilgi işlem kaynağı tüketirse ve elbette maliyet de o kadar yüksek olur.
Aynı zamanda ChatGPT, Çince de dahil olmak üzere birden fazla dili tanıyabilse de eğitim için kullandığı veri setlerinin çoğu İngilizce metinlerdir.İngilizce olmayan dillerle uğraşırken dil yapısı ve dilbilgisi konusunda zorluklarla karşılaşabilir ve bu durum sizi etkileyecektir. çıkış etkisi. "Çok dilli dil modelleri İngilizce'de daha iyi performans gösteriyor mu?" başlıklı yeni bir makale. "(Çok Dilli Dil Modelleri İngilizcede Daha İyi Düşünür mü?) makalesi, İngilizce olmayan bir dil İngilizceye çevrildiğinde, çıktı sonucunun İngilizce olmayan bir dili doğrudan ipucu sözcüğü olarak kullanmanın sonucundan daha iyi olduğunu belirtti.
Çinli kullanıcılar için önce Çinceyi İngilizceye çevirmek ve ardından yapay zeka ile etkileşime geçmek daha etkili ve daha uygun maliyetli görünüyor. Sonuçta, OpenAI'nin GPT-4 model API'sini kullandığınızda, her 1.000 jeton girişi için en az 0,03 ABD doları ücretlendirileceksiniz.
Çince dilinin karmaşıklığı nedeniyle yapay zeka modelleri, doğru eğitim ve muhakeme için Çince verilerinin kullanılmasında zorluklarla karşılaşabilir ve Çince modellerin uygulanması ve sürdürülmesinin zorluğunu artırabilir. Aynı zamanda, büyük modeller geliştiren şirketler için, Çin'in büyük modellerini yapmak, ek kaynak gerektirdiğinden daha büyük maliyetlere katlanmak zorunda kalabilir.