Interpretasi 6.000 kata: 10 tantangan penelitian LLM model bahasa besar saat ini

2023-08-30 06:34:52

Penulis: Chip Huyen

Terjemahan: Kelinci Alfa

Tautan sumber:

Tujuan membuat model bahasa besar menjadi lebih lengkap adalah pertama kalinya dalam hidup saya melihat begitu banyak orang pintar bekerja untuk mencapai tujuan bersama pada saat yang bersamaan. Setelah berkomunikasi dengan banyak orang di industri dan akademisi, saya melihat sepuluh arah penelitian telah muncul. Dua arah yang paling banyak mendapat perhatian saat ini adalah Halusinasi (ilusi keluaran) dan Pembelajaran Konteks.

Bagi saya sendiri, saya paling tertarik pada arah ketiga yang tercantum di bawah ini (Mode data multimodalitas multi-modal), arah kelima (Arsitektur baru arsitektur baru) dan arah keenam (Pengembangan alternatif GPU Solusi alternatif GPU)

Sepuluh tantangan terbuka untuk penelitian LLM Mengurangi dan mengevaluasi keluaran keluaran (informasi fiktif) Optimalkan panjang konteks dan konstruksi konteks Integrasikan formulir data lainnya Meningkatkan kecepatan model bahasa dan efektivitas biaya Rancang arsitektur model baru Kembangkan solusi GPU alternatif Meningkatkan kegunaan agen (kecerdasan buatan) Peningkatan kemampuan untuk belajar dari preferensi manusia Meningkatkan efisiensi antarmuka obrolan Membangun model bahasa untuk bahasa non-Inggris

1. Mengurangi dan mengevaluasi halusinasi

Lingkungan keluaran adalah topik yang telah banyak dibahas, jadi saya akan membahasnya secara singkat di sini. Halusinasi terjadi ketika model AI mengada-ada. Bagi banyak kasus penggunaan kreatif, ilusi adalah salah satu jenis fitur. Namun, untuk sebagian besar aplikasi, halusinasi adalah sebuah kesalahan. Baru-baru ini saya berpartisipasi dalam simposium tentang LLM dengan para ahli dari Dropbox, Langchain, Elastics, dan Anthropic. Dalam pandangan mereka, kendala pertama yang perlu diatasi oleh perusahaan ketika menerapkan LLM dalam produksi aktual adalah output bayangan.

Mengurangi keluaran halusinasi model dan mengembangkan metrik untuk mengevaluasi keluaran halusinasi adalah topik penelitian yang sedang booming, dan banyak perusahaan rintisan saat ini berfokus pada masalah ini. Ada juga trik untuk mengurangi kemungkinan keluaran berhalusinasi, seperti menambahkan lebih banyak konteks pada kata isyarat, CoT, konsistensi diri, atau persyaratan khusus agar respons model menjadi ringkas.

Berikut rangkaian makalah dan referensi keluaran halusinasi:

Survei Halusinasi pada Generasi Bahasa Alami (Ji et al., 2022)

Bagaimana Halusinasi Model Bahasa Bisa Menjadi Bola Salju (Zhang et al., 2023)

Uasi ChatGPT Multitugas, Multibahasa, Multimodal tentang Penalaran, Halusinasi, dan Interaktivitas (Bang et al., 2023)

Pembelajaran Kontrastif Mengurangi Halusinasi dalam Percakapan (Sun et al., 2022)

Konsistensi Diri Meningkatkan Penalaran Rantai Pemikiran dalam Model Bahasa (Wang et al., 2022)

SelfCheckGPT: Deteksi Halusinasi Kotak Hitam Tanpa Sumber Daya untuk Model Bahasa Besar Generatif (Manakul et al., 2023)

Contoh sederhana pengecekan fakta dan halusinasi oleh NeMo-Guardrails dari NVIDIA

2. Optimalkan panjang konteks dan konstruksi konteks

Kebanyakan pertanyaan memerlukan konteks. Misalnya, jika kita bertanya kepada ChatGPT: "Restoran Vietnam mana yang terbaik?" konteks yang diperlukan adalah "Di mana tepatnya restoran ini berada?" karena restoran Vietnam terbaik di Vietnam sama dengan restoran Vietnam terbaik di Amerika Serikat .Restoran, ruang lingkup masalahnya berbeda-beda.

Menurut makalah keren berikut "SITUATEDQA: Memasukkan Konteks Ekstra-Linguistik ke dalam QA" (Zhang & Choi, 2021), sebagian besar jawaban atas pertanyaan pencarian informasi bergantung pada konteks, misalnya dalam kumpulan data Natural Questions NQ-Open sekitar 16.5 %.

（NQ-Terbuka:

Secara pribadi, menurut saya persentasenya akan lebih tinggi pada kasus-kasus yang benar-benar dihadapi oleh perusahaan. Misalnya, sebuah perusahaan membuat chatbot untuk dukungan pelanggan. Agar chatbot ini dapat menjawab pertanyaan apa pun yang dimiliki pelanggan tentang produk apa pun, konteks yang diperlukan kemungkinan besar adalah riwayat pelanggan atau informasi tentang produk tersebut. Karena model bahasa “belajar” dari konteks yang diberikan padanya, proses ini disebut juga pembelajaran kontekstual.

Konteks yang diperlukan gambar untuk pertanyaan dukungan pelanggan

Panjang konteks sangat penting untuk RAG (Retrieval Augmentation Generation), dan RAG telah menjadi mode utama untuk skenario aplikasi dalam industri model bahasa besar. Secara khusus, pembuatan peningkatan pengambilan terutama dibagi menjadi dua tahap:

**Fase 1: Chunking (juga dikenal sebagai pengindeksan)**chunking (juga dikenal sebagai pengindeksan)

Kumpulkan semua dokumen yang digunakan oleh LLM, pisahkan dokumen-dokumen ini menjadi beberapa bagian yang dapat dimasukkan ke dalam model yang lebih besar untuk menghasilkan penyematan, dan simpan penyematan ini dalam database vektor.

Tahap 2: Kueri

Saat pengguna mengirimkan kueri, seperti "Apakah polis asuransi saya mencakup obat X?" model bahasa besar akan mengubah kueri ini menjadi penyematan, yang kami sebut QUERY_EMBEDDING. Basis data vektor akan memperoleh blok yang penyematannya paling mirip dengan QUERY_EMBEDDING.

Semakin panjang konteksnya, semakin banyak potongan yang dapat kita masukkan ke dalam konteksnya. Semakin banyak informasi yang diperoleh suatu model, semakin tinggi kualitas keluaran dan responsnya, bukan?

Tidak selalu. Seberapa banyak konteks yang dapat digunakan model dan seberapa efisien model menggunakan konteks merupakan dua permasalahan yang berbeda. Selain berupaya meningkatkan panjang konteks model, kami juga berupaya meningkatkan efisiensi konteks. Ada yang menyebutnya "rekayasa cepat" atau "konstruksi". Misalnya, makalah baru-baru ini membahas tentang bagaimana model dapat memahami awal dan akhir indeks dengan lebih baik, bukan hanya informasi di tengah - Hilang di Tengah: Bagaimana Model Bahasa Menggunakan Konteks Panjang (Liu et al., 2023).

3. Integrasi mode data lainnya (multi-modal)

Menurut pendapat saya, multimodalitas sangat bermanfaat, namun juga diremehkan. Berikut penjelasan alasan penerapan multimodalitas:

Pertama, banyak skenario aplikasi spesifik yang memerlukan data multi-modal, terutama di industri dengan modalitas data campuran seperti layanan kesehatan, robotika, e-commerce, ritel, game, dan hiburan. Misalnya:

Pengujian medis sering kali memerlukan teks (misalnya catatan dokter, kuesioner pasien) dan gambar (misalnya CT, rontgen, pemindaian MRI).

Metadata produk biasanya berisi gambar, video, deskripsi, dan bahkan data tabel (seperti tanggal produksi, berat, warna), karena dari perspektif permintaan, Anda mungkin perlu secara otomatis mengisi informasi produk yang hilang berdasarkan komentar pengguna atau foto produk, atau Anda mungkin ingin Memungkinkan pengguna melakukan penelusuran produk menggunakan informasi visual seperti bentuk atau warna.

Kedua, multimodalitas menjanjikan peningkatan kinerja model secara signifikan. Bukankah seharusnya model yang memahami teks dan gambar memiliki performa lebih baik dibandingkan model tunggal yang memahami teks? Model berbasis teks memerlukan begitu banyak teks sehingga kami khawatir akan segera kehabisan data Internet untuk melatih model berbasis teks. Setelah teksnya habis, kita perlu memanfaatkan skema data lainnya.

Salah satu kasus penggunaan yang sangat menarik bagi saya adalah ketika teknologi multimoda memungkinkan penyandang tunanetra untuk menjelajahi internet dan dunia nyata.

Berikut rangkaian makalah dan bahan referensi terkait multimodalitas:

[CLIP] Mempelajari Model Visual yang Dapat Dipindahtangankan Dari Pengawasan Bahasa Alami (OpenAI, 2021)

Flamingo: Model Bahasa Visual untuk Pembelajaran Sedikit Sekali (DeepMind, 2022)

BLIP-2: Pra-pelatihan Gambar-Bahasa Bootstrapping dengan Frozen Image Encoder dan Model Bahasa Besar (Salesforce, 2023)

KOSMOS-1: Bukan Hanya Bahasa yang Anda Butuhkan: Menyelaraskan Persepsi dengan Model Bahasa (Microsoft, 2023)

PaLM-E: Model bahasa multimodal yang diwujudkan (Google, 2023)

LLaVA: Penyetelan Instruksi Visual (Liu et al., 2023)

NeVA: Asisten Penglihatan dan Bahasa NeMo (NVIDIA, 2023)

4. Jadikan LLM lebih cepat dan murah

Saat GPT-3.5 pertama kali dirilis pada akhir November 2022, banyak orang menyatakan kekhawatirannya mengenai penundaan dan biaya penggunaannya dalam produksi. Namun, analisis latensi/biaya telah berubah dengan cepat sejak saat itu. Dalam waktu kurang dari setengah tahun, komunitas telah menemukan cara untuk membuat model yang performanya hampir sama dengan GPT-3.5, namun hanya memerlukan sekitar 2% dari jejak memori GPT-3.5.

Pelajarannya adalah: jika Anda menciptakan sesuatu yang cukup baik, orang akan menemukan cara untuk membuatnya cepat dan hemat biaya.

Di bawah ini adalah data kinerja Guanaco 7B, dibandingkan dengan kinerja ChatGPT GPT-3.5 dan GPT-4, seperti yang dilaporkan dalam makalah Guanco. Harap diperhatikan: Secara keseluruhan, perbandingan kinerja berikut ini jauh dari sempurna, dan LLM sangat, sangat sulit untuk dievaluasi.

Perbandingan kinerja Guanaco 7B dengan ChatGPT GPT-3.5 dan GPT-4:

Empat tahun lalu, ketika saya mulai menulis catatan untuk bagian "Kompresi Model" di buku Merancang Sistem Pembelajaran Mesin, saya menulis tentang empat teknik utama untuk pengoptimalan/kompresi model:

Kuantisasi: Metode pengoptimalan model yang paling serbaguna hingga saat ini. Kuantisasi mengurangi ukuran model dengan menggunakan lebih sedikit bit untuk mewakili parameternya, misalnya, daripada menggunakan 32 bit, 16 bit atau bahkan 4 bit dapat digunakan untuk mewakili angka floating point.

Penyulingan pengetahuan: Metode meniru model besar atau kumpulan model dengan melatih model kecil.

Faktorisasi peringkat rendah: Ide utama di sini adalah mengganti tensor berdimensi tinggi dengan tensor berdimensi rendah untuk mengurangi jumlah parameter. Misalnya, Anda dapat menguraikan tensor 3x3 menjadi hasil kali tensor 3x1 dan 1x3, sehingga alih-alih 9 parameter, Anda hanya memerlukan 6 parameter.

Pemangkasan Keempat teknik di atas masih relevan dan populer hingga saat ini. Alpaca menggunakan penyulingan Pengetahuan untuk pelatihan. QLoRA menggunakan kombinasi faktorisasi dan kuantisasi peringkat rendah.

5. Rancang arsitektur model baru

Sejak AlexNet pada tahun 2012, kita telah melihat naik turunnya banyak arsitektur, termasuk LSTM, seq2seq, dll. Dibandingkan dengan ini, dampak Transformer sungguh luar biasa. Transformer telah ada sejak tahun 2017, dan berapa lama arsitektur ini akan tetap populer masih menjadi pertanyaan terbuka.

Tidak mudah untuk mengembangkan arsitektur baru untuk mengungguli Transformer. Transformer telah mengalami banyak optimasi dalam 6 tahun terakhir, dan arsitektur baru ini harus berjalan pada perangkat keras yang saat ini menjadi perhatian banyak orang dan pada skala yang mereka pedulikan saat ini.

Catatan: Transformer awalnya dirancang oleh Google untuk berjalan cepat di TPU, dan kemudian dioptimalkan untuk GPU.

Pada tahun 2021, S4 lab Chris Ré telah menarik perhatian luas, lihat "Memodelkan Barisan Panjang Secara Efisien dengan Ruang Keadaan Terstruktur" (Gu dkk., 2021) untuk detailnya). Laboratorium Chris Ré masih giat mengembangkan arsitektur baru, yang terbaru adalah Monarch Mixer (Fu, 2023), yang dikembangkan bekerja sama dengan startup Together, adalah salah satunya.

Ide utama mereka adalah bahwa untuk arsitektur Transformer yang ada, kompleksitas perhatian adalah kuadrat dari panjang urutan, sedangkan kompleksitas MLP adalah kuadrat dari dimensi model. Arsitektur dengan kompleksitas subkuadrat akan lebih efisien.

Pencampur Raja

6. Kembangkan alternatif GPU

Sejak AlexNet pada tahun 2012, GPU telah menjadi perangkat keras dominan untuk pembelajaran mendalam. Faktanya, salah satu alasan popularitas AlexNet yang diakui secara umum adalah karena AlexNet merupakan makalah pertama yang berhasil menggunakan GPU untuk melatih jaringan saraf. Sebelum munculnya GPU, jika Anda ingin melatih model pada skala AlexNet, Anda perlu menggunakan ribuan CPU, seperti yang dirilis Google beberapa bulan sebelum AlexNet. Dibandingkan dengan ribuan CPU, beberapa GPU lebih mudah diakses oleh mahasiswa PhD dan peneliti, sehingga memicu lonjakan penelitian pembelajaran mendalam.

Selama dekade terakhir, banyak perusahaan, baik perusahaan besar maupun startup, berupaya menciptakan perangkat keras baru untuk kecerdasan buatan. Upaya yang paling menonjol termasuk TPU Google, IPU Graphcore (bagaimana perkembangan IPUnya?), dan Cerebras. SambaNova mengumpulkan lebih dari satu miliar dolar untuk mengembangkan chip AI baru, namun tampaknya telah berubah menjadi platform AI generatif.

Untuk sementara waktu, terdapat ekspektasi besar terhadap komputasi kuantum, dengan pemain kuncinya antara lain:

QPU IBM

*Komputer kuantum Google melaporkan pencapaian besar dalam pengurangan kesalahan kuantum awal tahun ini di jurnal Nature. Mesin virtual kuantumnya dapat diakses publik melalui Google Colab. *

*Laboratorium penelitian seperti MIT Quantum Engineering Center, Max Planck Institute for Quantum Optics, Chicago Quantum Exchange Center, Oakridge National Laboratory, dll. *

Arah lain yang sama menariknya adalah chip fotonik. Saya hanya memiliki sedikit pengetahuan di bidang ini, jadi mohon koreksi saya jika saya salah. Chip yang ada menggunakan listrik untuk mengirimkan data, yang menghabiskan banyak energi dan menimbulkan latensi. Chip fotonik, di sisi lain, menggunakan foton untuk mengirimkan data, memanfaatkan kecepatan cahaya untuk perhitungan yang lebih cepat dan efisien. Berbagai startup di bidang ini telah mengumpulkan ratusan juta dolar, termasuk Lightmatter ($270 juta), Ayar Labs ($220 juta), Lightelligence ($200 juta+), dan Luminous Computing ($115 juta).

Berikut ini adalah garis waktu kemajuan dari tiga metode utama penghitungan matriks foton, dikutip dari makalah "Perkalian matriks fotonik menerangi akselerator fotonik dan seterusnya" (Zhou, Nature 2022). Tiga metode berbeda tersebut adalah Planar Light Conversion (PLC), Mach-Zehnder Interferometer (MZI) dan Wavelength Division Multiplexing (WDM).

7. Meningkatkan kegunaan agen

Agen mengacu pada model bahasa besar yang dapat melakukan tindakan (dapat dipahami sebagai agen yang dapat menyelesaikan berbagai tugas alih-alih Anda, sehingga disebut Agen), seperti menjelajahi Internet, mengirim email, memesan, dll. Dibandingkan dengan arahan penelitian lain dalam makalah ini, ini mungkin salah satu arahan terbaru. Karena kebaruan dan potensi besar dari Agen itu sendiri, masyarakat sangat antusias terhadap Agen. Dan Auto-GPT sekarang menjadi repo terpopuler ke-25 di GitHub berdasarkan jumlah bintang. GPT-Engineering adalah repo populer lainnya.

Meskipun tren ini menarik, masih ada keraguan mengenai apakah model bahasa besar cukup andal dan berkinerja untuk diberdayakan dalam bertindak. Namun, skenario penerapan telah muncul ketika agen digunakan dalam penelitian sosial, seperti eksperimen Stanford yang terkenal yang menunjukkan perilaku sosial yang muncul dari sekelompok kecil agen generatif: misalnya, dimulai dari ide yang ditentukan pengguna, agen Ingin mengadakan Pesta Hari Valentine, Agen akan secara otomatis menyebarkan undangan ke pesta dalam dua hari ke depan, mendapatkan teman baru, dan saling mengundang ke pesta... (Agen Generatif: Simulacra Interaktif Perilaku Manusia, Park et al., 2023 ),

Mungkin startup yang paling penting di bidang ini adalah Adept, yang didirikan oleh dua mantan rekan penulis Transformer dan mantan VP OpenAI, dan hingga saat ini telah mengumpulkan hampir $500 juta. Tahun lalu, mereka menunjukkan bagaimana agen mereka dapat menjelajahi Internet dan cara menambahkan akun baru ke Salesforce.

8. Ulangi RLHF

RLHF (Reinforcement Learning from Human Feedback) memang keren, tapi agak rumit. Tidak mengherankan jika orang menemukan cara yang lebih baik untuk melatih LLM. Namun masih banyak permasalahan yang belum terselesaikan di RLHF, seperti:

① Bagaimana cara mengekspresikan preferensi manusia secara matematis?

Saat ini, preferensi manusia ditentukan oleh perbandingan: anotator manusia menentukan apakah respons A lebih baik daripada respons B. Namun, hal ini tidak memperhitungkan seberapa baik respons A dibandingkan respons B.

②Apa yang dimaksud dengan preferensi manusia?

Anthropic mengukur kualitas modelnya berdasarkan keluaran dalam tiga dimensi: bermanfaat, jujur, dan tidak berbahaya. Lihat AI Konstitusional: Tidak Berbahaya dari Umpan Balik AI (Bai dkk., 2022).

DeepMind berupaya menghasilkan respons yang menyenangkan sebagian besar orang. Lihat Menyempurnakan model bahasa untuk menemukan kesepakatan di antara manusia dengan beragam preferensi, (Bakker et al., 2022).

Selain itu, apakah kita menginginkan AI yang mampu mengambil sikap, atau AI tradisional yang menghindari topik yang berpotensi kontroversial?

③ Preferensi “manusia” siapa? Apakah perbedaan budaya, agama, orientasi politik, dll. harus diperhitungkan? Ada banyak tantangan dalam memperoleh data pelatihan yang cukup mewakili semua pengguna potensial.

Misalnya, untuk data InstructGPT OpenAI, tidak ada anotator yang berusia di atas 65 tahun. Para anotator sebagian besar adalah orang Filipina dan Bangladesh. Lihat InstructGPT: Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia (Ouyang et al., 2022).

Statistik kewarganegaraan anotator InstructGPT

Meskipun upaya yang dilakukan oleh masyarakat patut dipuji, hal ini dapat menghasilkan data yang bias. Misalnya, untuk kumpulan data OpenAssistant, 201 dari 222 (90,5%) responden mengidentifikasi dirinya sebagai laki-laki. Jeremy Howard memiliki Thread yang bagus di Twitter:

9. Meningkatkan efisiensi antarmuka obrolan

Sejak ChatGPT, terdapat diskusi tentang apakah chat merupakan antarmuka yang cocok untuk berbagai tugas.

Untuk detailnya, lihat:

Bahasa alami adalah antarmuka pengguna yang malas (Austin Z. Henley, 2023)

Mengapa Chatbots Bukan Masa Depan (Amelia Wattenberger, 2023)

Jenis Pertanyaan Apa yang Perlu Dijawab dengan Percakapan? Studi Kasus Pertanyaan AskReddit (Huang et al., 2023)

Antarmuka obrolan AI dapat menjadi antarmuka pengguna utama untuk membaca dokumentasi (Tom Johnson, 2023)

Berinteraksi dengan LLM dengan Obrolan Minimal (Eugene Yan, 2023)

Namun, ini bukanlah topik baru. Di banyak negara, khususnya di Asia, obrolan telah digunakan sebagai antarmuka aplikasi super selama sekitar sepuluh tahun, seperti yang ditulis Dan Grover pada tahun 2014.

Pada tahun 2016, ketika banyak orang berpikir bahwa aplikasi sudah mati dan chatbots adalah masa depan, diskusi kembali memanas:

Pada obrolan sebagai antarmuka (Alistair Croll, 2016)

Apakah Tren Chatbot Merupakan Kesalahpahaman Besar? (Will Knight, 2016)

Bot tidak akan menggantikan aplikasi. Aplikasi yang lebih baik akan menggantikan aplikasi (Dan Grover, 2016)

Saya pribadi menyukai antarmuka obrolan karena alasan berikut:

①Antarmuka obrolan adalah antarmuka yang dapat dipelajari dengan cepat oleh semua orang, bahkan mereka yang belum pernah berhubungan dengan komputer atau Internet sebelumnya (universal). Pada awal tahun 2010-an, ketika saya menjadi sukarelawan di lingkungan berpenghasilan rendah di Kenya, saya kagum melihat betapa akrabnya semua orang di sana dengan perbankan melalui ponsel mereka, melalui pesan teks. Tidak ada seorang pun di komunitas itu yang memiliki komputer.

② Antarmuka obrolan mudah diakses. Jika tangan Anda sibuk dengan hal lain, gunakan suara alih-alih teks.

③ Obrolan juga merupakan antarmuka yang sangat canggih - Anda dapat membuat permintaan apa pun padanya, dan obrolan akan membalas, meskipun balasannya belum tentu sempurna

Namun, penulis yakin bahwa antarmuka obrolan dapat terus ditingkatkan dalam beberapa aspek:

① Beberapa pesan dapat dipertukarkan sekaligus

Saat ini, pada dasarnya kami hanya mengasumsikan satu putaran pesan per pertukaran. Tapi bukan itu caraku mengirim pesan kepada teman-temanku. Seringkali, saya memerlukan banyak pesan untuk melengkapi pemikiran saya karena saya perlu memasukkan data yang berbeda (misalnya gambar, lokasi, tautan), saya mungkin melewatkan sesuatu di pesan sebelumnya, atau hanya tidak ingin memasukkan semuanya ke dalam satu pesan besar. gugus kalimat.

②Masukan multimodal

Di bidang aplikasi multimodal, sebagian besar upaya dihabiskan untuk membangun model yang lebih baik dan lebih sedikit untuk membangun antarmuka yang lebih baik. Ambil contoh chatbot NeVA Nvidia. Saya bukan ahli pengalaman pengguna, tapi menurut saya mungkin ada ruang untuk perbaikan di sini.

PS: Maaf saya menyebut tim NeVA di sini, meski begitu, karya Anda masih cukup keren!

③Integrasikan AI generatif ke dalam alur kerja

Linus Lee membahas hal ini dengan sangat baik dalam bagiannya "Antarmuka AI generatif di luar obrolan." Misalnya, jika Anda ingin mengajukan pertanyaan tentang kolom tertentu dalam bagan yang sedang Anda kerjakan, Anda cukup menunjuk ke kolom tersebut dan bertanya.

④ Pengeditan dan penghapusan pesan

Bagaimana pengeditan atau penghapusan masukan pengguna akan mengubah alur percakapan dengan chatbot?

10. Buat LLM untuk bahasa non-Inggris

Kita tahu bahwa LLM berbahasa Inggris saat ini tidak memiliki skala yang baik dibandingkan banyak bahasa lain dalam hal kinerja, latensi, dan kecepatan. Melihat:

ChatGPT Beyond English: Menuju Uasi Komprehensif Model Bahasa Besar dalam Pembelajaran Multibahasa (Lai et al., 2023)

Semua bahasa TIDAK diciptakan (diberi token) sama (Yennie Jun, 2023)

Saya hanya mengetahui upaya untuk melatih bahasa Vietnam (seperti upaya komunitas Symato), namun, beberapa pembaca awal artikel ini mengatakan kepada saya bahwa mereka tidak berpikir saya harus memasukkan arahan ini karena alasan berikut:

Ini bukanlah pertanyaan penelitian, melainkan pertanyaan logistik. Kami sudah tahu bagaimana melakukannya, kami hanya membutuhkan seseorang untuk menginvestasikan uang dan tenaga. Namun, hal ini tidak sepenuhnya benar. Sebagian besar bahasa dianggap sebagai bahasa dengan sumber daya rendah, dan data berkualitas tinggi untuk banyak bahasa jauh lebih sedikit dibandingkan dengan bahasa Inggris atau Cina, misalnya, sehingga teknik yang berbeda mungkin diperlukan untuk melatih model bahasa yang besar. Lihat juga:

Bahasa dengan sumber daya rendah: Tinjauan Pekerjaan Masa Lalu dan Tantangan Masa Depan (Magueresse dkk., 2020)

JW300: Korpus Paralel Cakupan Luas untuk Bahasa dengan Sumber Daya Rendah (Agić dkk., 2019)

Mereka yang lebih pesimistis percaya bahwa di masa depan, banyak bahasa akan hilang dan Internet akan terdiri dari dua jagat dua bahasa: Inggris dan Cina. Tren ini bukanlah hal baru - adakah yang ingat bahasa Esperanto?

Dampak alat kecerdasan buatan, seperti terjemahan mesin dan chatbot, terhadap pembelajaran bahasa masih belum jelas. Apakah mereka akan membantu orang mempelajari bahasa baru dengan lebih cepat, atau akankah mereka menghilangkan kebutuhan untuk mempelajari bahasa baru sama sekali.

Kesimpulannya

Tolong beri tahu saya jika saya melewatkan sesuatu dalam artikel ini, dan untuk perspektif tambahan, lihat makalah komprehensif Tantangan dan Penerapan Model Bahasa Besar (Kaddour et al., 2023).

Soal-soal di atas lebih sulit dibandingkan soal-soal lainnya. Misalnya, menurut saya pertanyaan 10 di atas, menyiapkan LLM dalam bahasa non-Inggris, akan relatif sederhana mengingat waktu dan sumber daya yang cukup.

Masalah pertama di atas adalah mengurangi keluaran halusinasi yang akan jauh lebih sulit, karena halusinasi hanyalah LLM yang melakukan hal-hal yang bersifat probabilistik.

Nomor 4, menjadikan LLM lebih cepat dan lebih murah tidak akan pernah terselesaikan sepenuhnya. Banyak kemajuan telah dicapai dalam bidang ini, dan akan ada lebih banyak kemajuan di masa depan, namun perbaikan dalam arah ini akan terus berlanjut.

Butir 5 dan 6, arsitektur baru dan perangkat keras baru, sangat menantang, namun tidak bisa dihindari seiring berjalannya waktu. Karena hubungan simbiosis antara arsitektur dan perangkat keras—arsitektur baru perlu dioptimalkan untuk perangkat keras tujuan umum, dan perangkat keras perlu mendukung arsitektur tujuan umum—kemungkinan besar hal tersebut akan dilakukan oleh perusahaan yang sama.

Beberapa masalah tidak dapat diselesaikan hanya dengan pengetahuan teknis. Misalnya, masalah #8, yaitu meningkatkan metode pembelajaran berdasarkan preferensi manusia, mungkin lebih merupakan masalah kebijakan dibandingkan masalah teknis. Pertanyaan ke-9 adalah meningkatkan efisiensi antarmuka obrolan, yang lebih merupakan pertanyaan pengalaman pengguna. Kami membutuhkan lebih banyak orang dengan latar belakang non-teknis untuk bekerja bersama kami dalam masalah ini.

Arah penelitian apa yang paling Anda minati? Menurut Anda, solusi apa yang paling menjanjikan untuk mengatasi permasalahan ini? Ingin sekali mendengar pendapat Anda.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
ETH Breaks $3600
31k Popularitas
Gate Derivatives Volume Hits New High
20k Popularitas
CPI Data Incoming
33k Popularitas
4Join Gate VIP to Win MacBook
31k Popularitas
5MicroStrategy Buys More Bitcoin
4k Popularitas
6BTC Hits New High
113k Popularitas
7My Gate Moments
29k Popularitas
8VIP Exclusive Airdrop Carnival
28k Popularitas
9Fed June Meeting Minutes
7k Popularitas
10Trump Tariff Hikes
18k Popularitas

Sematkan

peta situs