Ketimpangan dalam model AI: biaya pelatihan bahasa Mandarin dua kali lipat dari bahasa Inggris!

2023-08-03 05:55:41

Sumber: Ifanr

Pengarang: Mo Chongyu

Baru-baru ini, pengguna X (sebelumnya Twitter) @Dylan Patel menunjukkan sebuah studi dari Universitas Oxford: Dengan mempelajari bahasa GPT-4 dan sebagian besar LLM umum lainnya, studi tersebut menemukan bahwa biaya inferensi LLM (Large Language Model) sangat berbeda. besar.

Di antara mereka, input dan output bahasa Inggris jauh lebih murah daripada bahasa lain. Biaya bahasa Mandarin Sederhana sekitar 2 kali lipat dari bahasa Inggris, biaya bahasa Spanyol 1,5 kali lipat dari bahasa Inggris, dan biaya Burma Shan 15 kali lipat dari bahasa Inggris .

Prinsip tersebut dapat ditelusuri kembali ke sebuah makalah yang diterbitkan oleh Universitas Oxford di arXiv pada bulan Mei tahun ini.

Leksikal adalah proses mengubah teks bahasa alami menjadi urutan token, yang merupakan langkah pertama dalam pemrosesan teks model bahasa. Dalam perhitungan biaya daya komputasi LLM, semakin banyak token, semakin tinggi biaya daya komputasi.

Tidak diragukan lagi, di bawah tren komersialisasi AI generatif, biaya daya komputasi juga akan dibebankan kepada pengguna.Banyak layanan AI saat ini ditagih sesuai dengan jumlah kata yang perlu diproses.

Makalah tersebut menunjukkan bahwa setelah menganalisis 17 metode lemmatisasi, para peneliti menemukan bahwa panjang teks yang sama diubah menjadi urutan lemma dalam bahasa yang berbeda.

Misalnya, menurut tokenizer GPT3 OpenAI, jika Anda membuat token "cinta Anda", hanya dua token yang diperlukan dalam bahasa Inggris, sedangkan delapan token diperlukan dalam Bahasa Cina Sederhana. Meskipun teks Cina Sederhana hanya memiliki 4 karakter dan teks bahasa Inggris memiliki 14 karakter.

Dari gambar yang dipaparkan oleh pengguna X @Dylan Patel, juga terlihat secara intuitif bahwa dibutuhkan 17 token (token) untuk LLM untuk memproses satu kalimat bahasa Inggris, dan 198 token (token) untuk LLM untuk memproses satu kalimat bahasa Burma dengan arti yang sama. Ini berarti bahasa Burma akan 11 kali lebih mahal untuk diproses daripada bahasa Inggris.

Ada banyak situasi serupa. Situs web Aleksandar Petrov menyediakan banyak ikon dan data terkait. Teman yang tertarik mungkin ingin mengeklik "Masuk untuk melihat perbedaan antar bahasa.

Ada juga halaman serupa di situs web resmi OpenAI, yang menjelaskan bagaimana API lemmatisasi sepotong teks, dan menampilkan jumlah total token dalam teks. Situs web resmi juga menyebutkan bahwa sebuah lemma biasanya terdiri dari sekitar 4 karakter dalam teks bahasa Inggris, dan 100 lemma sama dengan sekitar 75 kata.

Berkat urutan leksikal bahasa Inggris yang pendek, bahasa Inggris adalah pemenang terbesar dalam efektivitas biaya pra-pelatihan kecerdasan buatan generatif, meninggalkan pengguna bahasa lain jauh di belakang, secara tidak langsung menciptakan situasi yang tidak adil.

Antara lain, perbedaan panjang urutan token ini dapat menyebabkan latensi pemrosesan yang tidak adil (beberapa bahasa membutuhkan lebih banyak waktu untuk memproses konten yang sama) dan pemodelan ketergantungan urutan panjang yang tidak adil (beberapa bahasa hanya dapat memproses teks yang lebih pendek).

Sederhananya, pengguna bahasa tertentu perlu membayar biaya yang lebih tinggi, mengalami penundaan yang lebih besar, dan mendapatkan kinerja yang lebih buruk, sehingga mengurangi akses mereka yang adil ke peluang teknologi bahasa, yang secara tidak langsung mengarah ke pengguna berbahasa Inggris dan AI membagi formulir antara sisa penggunaan bahasa dunia.

Dari biaya output saja, biaya bahasa Mandarin Sederhana dua kali lipat dari bahasa Inggris. Dengan pengembangan bidang AI yang mendalam, Bahasa Mandarin Sederhana, yang selalu "selangkah lagi", jelas tidak bersahabat. Di bawah keseimbangan faktor-faktor yang dilapiskan seperti biaya, negara-negara yang tidak berbahasa Inggris juga mencoba mengembangkan model bahasa asli mereka sendiri.

Mengambil China sebagai contoh, sebagai salah satu raksasa domestik pertama yang mengeksplorasi AI, pada 20 Maret 2023, Baidu secara resmi meluncurkan AI generatif Wenxin Yiyan.

Selanjutnya, kumpulan model skala besar yang sangat baik, seperti model skala besar Tongyi Qianwen Alibaba dan model skala besar Huawei Pangu, muncul satu demi satu.

Di antaranya, model besar NLP dalam model besar Pangu Huawei adalah model besar China pertama di industri dengan 100 miliar parameter, yang memiliki 110 miliar parameter padat dan dilatih dengan data masif 40TB.

Seperti yang pernah diperingatkan oleh Wakil Sekretaris Jenderal Perserikatan Bangsa-Bangsa, Amina Mohamed, di Majelis Umum PBB, jika komunitas internasional tidak bertindak tegas, kesenjangan digital akan menjadi "wajah baru ketidaksetaraan".

Dengan cara yang sama, dengan pesatnya perkembangan AI generatif, kesenjangan AI kemungkinan besar akan menjadi babak baru "wajah baru ketidaksetaraan" yang patut diperhatikan.

Untungnya, raksasa teknologi dalam negeri yang biasanya "jijik" sudah mengambil tindakan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
Gate 2025 Q2 Report Released
3k Popularitas
Gate Derivatives Volume Hits New High
5k Popularitas
CPI Data Incoming
33k Popularitas
4Join Gate VIP to Win MacBook
30k Popularitas
5MicroStrategy Buys More Bitcoin
496 Popularitas
6BTC Hits New High
112k Popularitas
7My Gate Moments
27k Popularitas
8VIP Exclusive Airdrop Carnival
26k Popularitas
9Fed June Meeting Minutes
7k Popularitas
10Gate Alpha Trading Share
14k Popularitas

Sematkan

peta situs