Penggunaan alat AI seperti ChatGPT menjadi semakin umum. Saat berinteraksi dengan AI, kita mengetahui bahwa perbedaan kata-kata perintah masukan akan berdampak pada hasil keluaran. Lalu, jika kata-kata cepat yang maknanya sama diungkapkan dalam bahasa yang berbeda, apakah hasilnya jauh berbeda? Selain itu, masukan dan keluaran kata-kata cepat terkait langsung dengan jumlah penghitungan di balik model. Oleh karena itu, apakah ada perbedaan alami atau "ketidakadilan" dalam hal keluaran AI dan konsumsi biaya antar bahasa yang berbeda? Bagaimana “ketidakadilan” ini bisa terjadi?
Dapat dipahami bahwa kata petunjuk sebenarnya tidak sesuai dengan teks, tetapi dengan sebuah token. Setelah menerima masukan kata-kata cepat dari pengguna, model akan mengubah masukan tersebut menjadi daftar token untuk diproses dan diprediksi, dan pada saat yang sama mengubah token yang diprediksi menjadi kata-kata yang kita lihat di keluaran. Artinya, token adalah unit dasar model bahasa untuk memproses dan menghasilkan teks atau kode. Perlu dicatat bahwa setiap produsen akan menyatakan konteks berapa banyak token yang didukung modelnya, bukan jumlah kata atau karakter Cina yang didukung.
Faktor yang mempengaruhi perhitungan Token
Pertama-tama, token tidak sesuai dengan kata bahasa Inggris atau karakter Cina, dan tidak ada hubungan konversi khusus antara token dan kata tersebut. Misalnya menurut alat penghitungan token yang dirilis oleh OpenAI, kata hamburger didekomposisi menjadi ham, bur dan ger, dengan total 3 token. Selain itu, jika kata yang sama memiliki struktur yang berbeda dalam dua kalimat, maka akan dicatat sebagai jumlah token yang berbeda.
Cara penghitungan token tertentu terutama bergantung pada metode tokenisasi yang digunakan oleh produsen. Tokenisasi adalah proses pemisahan teks input dan output menjadi token yang dapat diproses oleh model bahasa. Proses ini membantu model menangani berbagai bahasa, kosakata, dan format. Di balik ChatGPT terdapat metode tokenisasi yang disebut "Byte-Pair Encoding" (BPE).
Saat ini, jumlah token yang menguraikan suatu kata terkait dengan pengucapan dan struktur kalimatnya. Dan perbedaan penghitungan antara berbagai bahasa tampaknya besar.
Ambil contoh "hamburger" Cina yang berhubungan dengan "hamburger", ketiga karakter Cina ini dihitung sebagai 8 token, yaitu dipecah menjadi 8 bagian.
Sumber: Tangkapan layar situs resmi OpenAI
Ambil paragraf lain untuk membandingkan "ketidakadilan" perhitungan token bahasa Cina dan Inggris.
Berikut ini adalah kalimat dari situs resmi OpenAI: Anda dapat menggunakan alat di bawah ini untuk memahami bagaimana sebuah teks akan diberi token oleh API, dan jumlah total token dalam teks tersebut. Kalimat ini memiliki total 33 token.
Sumber: Tangkapan layar situs resmi OpenAI
Bahasa Mandarin yang sesuai adalah: Anda dapat menggunakan alat di bawah ini untuk memahami bagaimana API memberi token pada sepotong teks dan jumlah total token dalam sepotong teks. Sebanyak 76 token.
Sumber: Tangkapan layar situs resmi OpenAI
Bahasa Cina dan Inggris secara alami "tidak adil" di AI
Terlihat bahwa jumlah token Cina dengan arti yang sama lebih dari dua kali lipat jumlah token Inggris. "Ketidakadilan" antara bahasa Mandarin dan Inggris dalam pelatihan dan penalaran mungkin disebabkan oleh fakta bahwa satu kata dalam bahasa Mandarin biasanya dapat mengungkapkan banyak arti, dan komposisi bahasanya relatif fleksibel. Bahasa Mandarin juga memiliki konotasi budaya yang mendalam dan makna kontekstual yang kaya, yaitu sangat penting. Ini sangat meningkatkan ambiguitas dan kesulitan pemrosesan bahasa; Bahasa Inggris memiliki struktur tata bahasa yang relatif sederhana, yang membuat bahasa Inggris lebih mudah untuk diproses dan dipahami daripada bahasa Mandarin dalam beberapa tugas bahasa alami.
Orang Tiongkok perlu memproses lebih banyak token, dan model tersebut menghabiskan lebih banyak memori dan sumber daya komputasi, dan tentu saja semakin besar biayanya.
Pada saat yang sama, meskipun ChatGPT dapat mengenali berbagai bahasa termasuk bahasa Mandarin, sebagian besar kumpulan data yang digunakan untuk pelatihan adalah teks bahasa Inggris. Ketika berhadapan dengan bahasa non-Inggris, ChatGPT mungkin menghadapi tantangan dalam struktur bahasa dan tata bahasa, yang akan mempengaruhi efek keluarannya. Artikel terbaru berjudul "Apakah model bahasa multibahasa berkinerja lebih baik dalam bahasa Inggris?" Makalah (Do Multilingual Language Models Think Better in English?) menyebutkan bahwa ketika bahasa non-Inggris diterjemahkan ke dalam bahasa Inggris, hasil keluarannya lebih baik daripada hasil penggunaan langsung bahasa non-Inggris sebagai kata cepatnya.
Bagi pengguna Tiongkok, tampaknya menerjemahkan bahasa Mandarin ke bahasa Inggris terlebih dahulu, lalu berinteraksi dengan AI tampaknya lebih efektif dan hemat biaya. Lagi pula, penggunaan API model GPT-4 OpenAI memerlukan biaya setidaknya $0,03 untuk setiap 1.000 input token.
Karena kompleksitas bahasa Tiongkok, model AI mungkin menghadapi tantangan dalam menggunakan data Tiongkok untuk pelatihan dan inferensi yang akurat, dan meningkatkan kesulitan dalam menerapkan dan memelihara model Tiongkok. Pada saat yang sama, bagi perusahaan yang mengembangkan model besar, pembuatan model besar Tiongkok mungkin harus menanggung biaya lebih besar karena memerlukan sumber daya tambahan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model besar Tiongkok memerlukan biaya lebih besar dibandingkan model Inggris. Apakah hal ini ditentukan oleh prinsip dasar AI?
Sumber: Kekuatan Teknologi Masa Depan
Penulis: Li Xinshuai
Penggunaan alat AI seperti ChatGPT menjadi semakin umum. Saat berinteraksi dengan AI, kita mengetahui bahwa perbedaan kata-kata perintah masukan akan berdampak pada hasil keluaran. Lalu, jika kata-kata cepat yang maknanya sama diungkapkan dalam bahasa yang berbeda, apakah hasilnya jauh berbeda? Selain itu, masukan dan keluaran kata-kata cepat terkait langsung dengan jumlah penghitungan di balik model. Oleh karena itu, apakah ada perbedaan alami atau "ketidakadilan" dalam hal keluaran AI dan konsumsi biaya antar bahasa yang berbeda? Bagaimana “ketidakadilan” ini bisa terjadi?
Dapat dipahami bahwa kata petunjuk sebenarnya tidak sesuai dengan teks, tetapi dengan sebuah token. Setelah menerima masukan kata-kata cepat dari pengguna, model akan mengubah masukan tersebut menjadi daftar token untuk diproses dan diprediksi, dan pada saat yang sama mengubah token yang diprediksi menjadi kata-kata yang kita lihat di keluaran. Artinya, token adalah unit dasar model bahasa untuk memproses dan menghasilkan teks atau kode. Perlu dicatat bahwa setiap produsen akan menyatakan konteks berapa banyak token yang didukung modelnya, bukan jumlah kata atau karakter Cina yang didukung.
Faktor yang mempengaruhi perhitungan Token
Pertama-tama, token tidak sesuai dengan kata bahasa Inggris atau karakter Cina, dan tidak ada hubungan konversi khusus antara token dan kata tersebut. Misalnya menurut alat penghitungan token yang dirilis oleh OpenAI, kata hamburger didekomposisi menjadi ham, bur dan ger, dengan total 3 token. Selain itu, jika kata yang sama memiliki struktur yang berbeda dalam dua kalimat, maka akan dicatat sebagai jumlah token yang berbeda.
Cara penghitungan token tertentu terutama bergantung pada metode tokenisasi yang digunakan oleh produsen. Tokenisasi adalah proses pemisahan teks input dan output menjadi token yang dapat diproses oleh model bahasa. Proses ini membantu model menangani berbagai bahasa, kosakata, dan format. Di balik ChatGPT terdapat metode tokenisasi yang disebut "Byte-Pair Encoding" (BPE).
Saat ini, jumlah token yang menguraikan suatu kata terkait dengan pengucapan dan struktur kalimatnya. Dan perbedaan penghitungan antara berbagai bahasa tampaknya besar.
Ambil contoh "hamburger" Cina yang berhubungan dengan "hamburger", ketiga karakter Cina ini dihitung sebagai 8 token, yaitu dipecah menjadi 8 bagian.
Ambil paragraf lain untuk membandingkan "ketidakadilan" perhitungan token bahasa Cina dan Inggris.
Berikut ini adalah kalimat dari situs resmi OpenAI: Anda dapat menggunakan alat di bawah ini untuk memahami bagaimana sebuah teks akan diberi token oleh API, dan jumlah total token dalam teks tersebut. Kalimat ini memiliki total 33 token.
Bahasa Mandarin yang sesuai adalah: Anda dapat menggunakan alat di bawah ini untuk memahami bagaimana API memberi token pada sepotong teks dan jumlah total token dalam sepotong teks. Sebanyak 76 token.
Bahasa Cina dan Inggris secara alami "tidak adil" di AI
Terlihat bahwa jumlah token Cina dengan arti yang sama lebih dari dua kali lipat jumlah token Inggris. "Ketidakadilan" antara bahasa Mandarin dan Inggris dalam pelatihan dan penalaran mungkin disebabkan oleh fakta bahwa satu kata dalam bahasa Mandarin biasanya dapat mengungkapkan banyak arti, dan komposisi bahasanya relatif fleksibel. Bahasa Mandarin juga memiliki konotasi budaya yang mendalam dan makna kontekstual yang kaya, yaitu sangat penting. Ini sangat meningkatkan ambiguitas dan kesulitan pemrosesan bahasa; Bahasa Inggris memiliki struktur tata bahasa yang relatif sederhana, yang membuat bahasa Inggris lebih mudah untuk diproses dan dipahami daripada bahasa Mandarin dalam beberapa tugas bahasa alami.
Orang Tiongkok perlu memproses lebih banyak token, dan model tersebut menghabiskan lebih banyak memori dan sumber daya komputasi, dan tentu saja semakin besar biayanya.
Pada saat yang sama, meskipun ChatGPT dapat mengenali berbagai bahasa termasuk bahasa Mandarin, sebagian besar kumpulan data yang digunakan untuk pelatihan adalah teks bahasa Inggris. Ketika berhadapan dengan bahasa non-Inggris, ChatGPT mungkin menghadapi tantangan dalam struktur bahasa dan tata bahasa, yang akan mempengaruhi efek keluarannya. Artikel terbaru berjudul "Apakah model bahasa multibahasa berkinerja lebih baik dalam bahasa Inggris?" Makalah (Do Multilingual Language Models Think Better in English?) menyebutkan bahwa ketika bahasa non-Inggris diterjemahkan ke dalam bahasa Inggris, hasil keluarannya lebih baik daripada hasil penggunaan langsung bahasa non-Inggris sebagai kata cepatnya.
Bagi pengguna Tiongkok, tampaknya menerjemahkan bahasa Mandarin ke bahasa Inggris terlebih dahulu, lalu berinteraksi dengan AI tampaknya lebih efektif dan hemat biaya. Lagi pula, penggunaan API model GPT-4 OpenAI memerlukan biaya setidaknya $0,03 untuk setiap 1.000 input token.
Karena kompleksitas bahasa Tiongkok, model AI mungkin menghadapi tantangan dalam menggunakan data Tiongkok untuk pelatihan dan inferensi yang akurat, dan meningkatkan kesulitan dalam menerapkan dan memelihara model Tiongkok. Pada saat yang sama, bagi perusahaan yang mengembangkan model besar, pembuatan model besar Tiongkok mungkin harus menanggung biaya lebih besar karena memerlukan sumber daya tambahan.