**Catatan Editor: Artikel ini mengeksplorasi sepuluh tantangan terbesar dalam penelitian model bahasa besar (LLM). Penulisnya adalah Chip Huyen, lulusan Universitas Stanford dan kini menjadi pendiri Claypot AI, sebuah platform pembelajaran mesin real-time. Dia sebelumnya di NVIDIA, Snorkel AI, Netflix, dan Primer mengembangkan alat pembelajaran mesin. **
Saya menyaksikan situasi yang belum pernah terjadi sebelumnya: begitu banyak pemikir terkemuka dunia kini mengabdikan diri pada tujuan terpadu yaitu "membuat model bahasa (LLM) lebih baik."
Setelah berbincang dengan banyak rekan di industri dan akademisi, saya mencoba merangkum sepuluh arah penelitian utama yang sedang booming:
1. Mengurangi dan mengukur halusinasi (Catatan Editor: halusinasi, halusinasi AI, yaitu bagian keluaran AI yang salah atau tidak berarti, meskipun keluaran tersebut masuk akal secara sintaksis)
2. Mengoptimalkan panjang konteks dan konstruksi konteks
3. Integrasikan mode data lainnya
4. Meningkatkan kecepatan dan mengurangi biaya LLM
5. Rancang arsitektur model baru
6. Mengembangkan alternatif GPU
7. Meningkatkan ketersediaan agen
8. Peningkatan kemampuan untuk belajar dari preferensi manusia
9. Meningkatkan efisiensi antarmuka obrolan
10. Membangun LLM untuk bahasa non-Inggris
Diantaranya, dua arah pertama, yaitu mengurangi “ilusi” dan “pembelajaran kontekstual”, mungkin merupakan arah yang paling populer saat ini. Secara pribadi, saya paling tertarik pada item 3 (multimodalitas), 5 (arsitektur baru), dan 6 (alternatif GPU).
01 Mengurangi dan mengukur ilusi
Ini mengacu pada fenomena yang terjadi ketika model AI membuat konten palsu.
Ilusi adalah kualitas yang tidak bisa dihindari dalam banyak situasi yang membutuhkan kreativitas. Namun, untuk sebagian besar skenario aplikasi lainnya, ini merupakan kelemahan.
Saya baru-baru ini berpartisipasi dalam grup diskusi tentang LLM dan berbicara dengan orang-orang dari perusahaan seperti Dropbox, Langchain, Elastics, dan Anthropic, dan mereka percaya bahwa perusahaan berskala besar adopsi Hambatan terbesar bagi produksi komersial LLM adalah masalah ilusi.
Mengurangi fenomena halusinasi dan mengembangkan metrik untuk mengukurnya adalah topik penelitian yang sedang booming, dengan banyak startup yang berfokus pada penyelesaian masalah ini.
Saat ini ada beberapa metode sementara untuk mengurangi halusinasi, seperti menambahkan lebih banyak konteks, rantai pemikiran, konsistensi diri pada perintah, atau mengharuskan keluaran model tetap ringkas.
Berikut pidato terkait yang bisa Anda rujuk
·Survei Halusinasi pada Generasi Bahasa Alami (Ji et al., 2022)·Bagaimana Halusinasi Model Bahasa Dapat Menjadi Bola Salju (Zhang et al., 2023)·Uasi Multitask, Multilingual, Multimodal dari ChatGPT pada Penalaran, Halusinasi, dan Interaktivitas (Bang et al., 2023)·Pembelajaran Kontrastif Mengurangi Halusinasi dalam Percakapan (Sun et al., 2022)·Konsistensi Diri Meningkatkan Penalaran Rantai Pemikiran dalam Model Bahasa (Wang et al., 2022)·SelfCheckGPT: Zero-Resource Black-Box Deteksi Halusinasi untuk Model Bahasa Besar Generatif (Manakul et al., 2023)
02 Optimalkan panjang konteks dan konstruksi konteks
Sebagian besar masalah yang dihadapi AI memerlukan konteks.
Misalnya, jika kita menanyakan ChatGPT: "Restoran Vietnam manakah yang terbaik?", konteks yang diperlukan mungkin adalah "di mana" karena restoran terbaik di Vietnam mungkin berbeda dengan restoran Vietnam terbaik di Amerika Serikat.
Menurut makalah menarik "SituatedQA" (Zhang & Choi, 2021), sebagian besar pertanyaan pencarian informasi memiliki jawaban yang bergantung pada konteks. Misalnya, sekitar 16,5% pertanyaan dalam kumpulan data NQ-Open adalah jenis ini. .
Menurut saya pribadi, untuk skenario aplikasi perusahaan, rasio ini mungkin lebih tinggi. Misalkan sebuah perusahaan membuat chatbot untuk pelanggan. Jika robot tersebut ingin menjawab pertanyaan pelanggan tentang produk apa pun, konteks yang diperlukan mungkin berupa riwayat pelanggan atau informasi tentang produk tersebut.
Karena model “belajar” dari konteks yang diberikan padanya, proses ini disebut juga pembelajaran kontekstual.
Untuk pengambilan yang ditingkatkan (RAG, yang juga merupakan metode utama dalam arah aplikasi industri LLM), panjang konteks sangat penting.
RAG secara sederhana dapat dibagi menjadi dua tahap:
Fase 1: Chunking (juga disebut pengindeksan)
Kumpulkan semua dokumen yang akan digunakan oleh LLM, pisahkan dokumen-dokumen ini menjadi beberapa bagian yang dapat dimasukkan ke dalam LLM untuk menghasilkan penyematan, dan simpan penyematan ini dalam database vektor.
Tahap kedua: kueri
Saat pengguna mengirimkan pertanyaan, seperti “Apakah polis asuransi saya akan menanggung obat ini
Gambar: Tangkapan layar dari pidato Jerry Liu di LlamaIndex (2023)
Semakin panjang konteksnya, semakin banyak blok yang dapat kita masukkan ke dalam konteksnya. Namun apakah semakin banyak informasi yang dapat diakses oleh suatu model, semakin baik responsnya?
Hal ini tidak selalu terjadi. Seberapa banyak konteks yang dapat digunakan suatu model dan seberapa efisien model tersebut akan digunakan adalah dua pertanyaan berbeda. Sama pentingnya dengan menambah panjang konteks model adalah pembelajaran konteks yang lebih efisien, yang juga disebut "rekayasa petunjuk".
Makalah yang beredar luas baru-baru ini menunjukkan bahwa model berkinerja jauh lebih baik dalam memahami informasi dari awal dan akhir indeks dibandingkan dari tengah: Hilang di Tengah: Bagaimana Model Bahasa Menggunakan Konteks Panjang (Liu et al., 2023).
03Integrasikan mode data lainnya
Menurut pendapat saya, multimodalitas sangat kuat namun sering diremehkan.
Pertama-tama, banyak skenario aplikasi kehidupan nyata memerlukan pemrosesan data multi-modal dalam jumlah besar, seperti layanan kesehatan, robotika, e-commerce, ritel, game, hiburan, dll. Prediksi medis memerlukan penggunaan teks (seperti catatan dokter, kuesioner pasien) dan gambar (seperti CT, X-ray, pemindaian MRI); data produk sering kali mencakup gambar, video, deskripsi, dan bahkan data tabel (seperti produksi tanggal, berat, warna).
Kedua, multimodalitas menjanjikan peningkatan besar dalam kinerja model. Bukankah model yang dapat memahami teks dan gambar akan berperforma lebih baik dibandingkan model yang hanya dapat memahami teks? Model berbasis teks memerlukan data teks dalam jumlah besar, dan sekarang kami sangat khawatir akan kehabisan data internet untuk melatih model berbasis teks. Setelah teksnya habis, kita perlu memanfaatkan modalitas data lainnya.
Salah satu arah penerapan yang sangat menarik bagi saya baru-baru ini adalah bahwa teknologi multimoda dapat membantu orang-orang tunanetra menjelajahi Internet dan menjelajahi dunia nyata.
Berikut ini adalah beberapa perkembangan penelitian multimodal yang luar biasa:· [CLIP] Mempelajari Model Visual yang Dapat Dipindahtangankan Dari Pengawasan Bahasa Alami (OpenAI, 2021)·Flamingo: Model Bahasa Visual untuk Pembelajaran Beberapa Kali (DeepMind, 2022)·BLIP-2: Pra-pelatihan Bootstrap Bahasa-Gambar dengan Frozen Image Encoder dan Model Bahasa Besar (Salesforce, 2023)·KOSMOS-1: Bukan Hanya Bahasa yang Anda Butuhkan: Menyelaraskan Persepsi dengan Model Bahasa (Microsoft, 2023)·PaLM-E: Model bahasa multimodal yang diwujudkan (Google, 2023)·LLaVA: Penyetelan Instruksi Visual (Liu dkk., 2023)·NeVA: Asisten Penglihatan dan Bahasa NeMo (NVIDIA, 2023)
04Meningkatkan kecepatan dan mengurangi biaya LLM
Saat GPT-3.5 pertama kali diluncurkan pada akhir November 2022, banyak orang menyatakan kekhawatirannya tentang penundaan dan biaya penggunaan model tersebut dalam produksi.
Kini, analisis penundaan/biaya yang disebabkan oleh penggunaan GPT-3.5 telah mengambil arah baru. Dalam waktu setengah tahun, seluruh komunitas pemodelan menemukan cara baru untuk membuat model yang hampir mendekati GPT-3.5 dalam hal performa, namun dengan jejak memori kurang dari 2%.
Salah satu poin saya dari sini adalah: jika Anda menciptakan sesuatu yang cukup baik, orang lain akan menemukan cara untuk membuatnya cepat dan hemat biaya.
Berikut ini berdasarkan data yang dilaporkan dalam makalah Guanaco yang membandingkan kinerja Guanaco 7B dengan ChatGPT GPT-3.5 dan GPT-4.
Penting untuk dicatat bahwa, secara keseluruhan, kinerja model-model ini jauh dari sempurna. Bagi LLM, masih sangat sulit untuk meningkatkan kinerja secara signifikan.
Saya ingat empat tahun lalu, ketika saya mulai menulis catatan untuk bagian "Kompresi Model" di buku "Merancang Sistem Pembelajaran Mesin", ada empat teknik pengoptimalan/kompresi model utama di industri:
Kuantifikasi: sejauh ini merupakan metode optimasi model yang paling umum. Kuantisasi mengurangi ukuran model dengan menggunakan lebih sedikit bit untuk mewakili parameter model. Misalnya, alih-alih menggunakan 32 bit untuk mewakili angka floating point, hanya 16 bit atau bahkan 4 bit yang digunakan.
Penyulingan pengetahuan: yaitu melatih model kecil (model siswa), yang dapat meniru model atau kumpulan model yang lebih besar (model guru).
Dekomposisi peringkat rendah: Ide utamanya adalah menggunakan tensor berdimensi rendah untuk menggantikan tensor berdimensi tinggi guna mengurangi jumlah parameter. Misalnya, tensor 3x3 dapat didekomposisi menjadi hasil kali tensor 3x1 dan tensor 1x3, sehingga bukannya 9 parameter, yang ada hanya 6 parameter.
Pemangkasan: mengacu pada pengurangan ukuran model dengan menghilangkan bobot atau sambungan dalam model yang memberikan kontribusi lebih kecil terhadap kinerja keseluruhan.
Keempat teknik ini masih populer hingga saat ini. Alpaca dilatih melalui penyulingan pengetahuan, sedangkan QLoRA menggunakan kombinasi dekomposisi dan kuantisasi tingkat rendah.
05Rancang arsitektur model baru
Sejak AlexNet pada tahun 2012, kami telah melihat banyak arsitektur datang dan pergi, termasuk LSTM, seq2seq, dll.
Dibandingkan dengan arsitektur tersebut, Transformer yang diluncurkan pada tahun 2017 sangat stabil, meski tidak jelas sampai kapan arsitektur ini akan populer.
Tidak mudah untuk mengembangkan arsitektur baru yang dapat mengungguli Transformer. Dalam 6 tahun terakhir, Transformer telah mengalami banyak pengoptimalan. Pada perangkat keras yang sesuai, skala dan efek model ini dapat mencapai hasil yang luar biasa (PS: Transformer pertama kali dirancang oleh Google untuk berjalan cepat di TPU, dan kemudian dioptimalkan di TPU GPU).
Pada tahun 2021, penelitian "Pemodelan Urutan Panjang yang Efisien dengan Ruang Keadaan Terstruktur" (Gu et al., 2021) yang dilakukan oleh laboratorium Chris Ré memicu banyak diskusi di industri. Saya tidak yakin apa yang terjadi selanjutnya. Namun Chris Ré Labs masih aktif mengembangkan arsitektur baru, dan baru-baru ini mereka meluncurkan arsitektur bernama Monarch Mixer bekerja sama dengan startup Together.
Ide utama mereka adalah bahwa untuk arsitektur Transformer yang ada, kompleksitas perhatian sebanding dengan kuadrat panjang rangkaian, dan kompleksitas MLP sebanding dengan kuadrat dimensi model. Arsitektur dengan kompleksitas subkuadrat akan lebih efisien.
Saya yakin banyak laboratorium lain yang mengeksplorasi ide ini, meskipun saya tidak mengetahui adanya penelitian yang telah mencobanya secara publik. Jika Anda mengetahui perkembangannya, silakan hubungi saya!
06Mengembangkan Alternatif GPU
Sejak munculnya AlexNet pada tahun 2012, GPU telah menjadi perangkat keras utama untuk pembelajaran mendalam.
Faktanya, salah satu alasan popularitas AlexNet yang diketahui secara umum adalah karena AlexNet merupakan makalah pertama yang berhasil menggunakan GPU untuk melatih jaringan saraf. Sebelum GPU, jika Anda ingin melatih model seukuran AlexNet, Anda memerlukan ribuan CPU, seperti server yang dirilis Google beberapa bulan sebelum AlexNet.
Dibandingkan dengan ribuan CPU, beberapa GPU lebih mudah diakses oleh mahasiswa PhD dan peneliti, sehingga memicu lonjakan penelitian pembelajaran mendalam.
Selama dekade terakhir, banyak perusahaan, baik besar maupun baru, berupaya menciptakan perangkat keras baru untuk kecerdasan buatan. Upaya yang paling penting termasuk TPU Google, IPU Graphcore, dan Cerebras. SambaNova juga telah mengumpulkan lebih dari $1 miliar untuk mengembangkan chip AI baru, namun tampaknya telah berubah menjadi platform AI generatif.
Selama periode ini, komputasi kuantum juga menimbulkan banyak ekspektasi, di antaranya pemain utamanya adalah:
·Prosesor kuantum IBM
·Komputer kuantum Google. Sebuah tonggak penting dalam pengurangan kesalahan kuantum dilaporkan di Nature awal tahun ini. Mesin virtual kuantumnya dapat diakses publik melalui Google Colab.
·Laboratorium penelitian di universitas, seperti MIT Quantum Engineering Center, Max Planck Institute for Quantum Optics, Chicago Quantum Exchange Center, dll.
Arah lain yang sama menariknya adalah chip fotonik. Ini arah yang paling sedikit saya ketahui, jika ada kesalahan mohon dikoreksi.
Chip yang ada menggunakan listrik untuk mengirimkan data, yang menghabiskan banyak energi dan menimbulkan latensi. Chip fotonik menggunakan foton untuk mengirimkan data, memanfaatkan kecepatan cahaya untuk komputasi yang lebih cepat dan efisien. Berbagai startup di bidang ini telah mengumpulkan ratusan juta dolar, termasuk Lightmatter ($270 juta), Ayar Labs ($220 juta), Lightelligence ($200 juta+), dan Luminous Computing ($115 juta).
Berikut ini adalah garis waktu kemajuan dari tiga metode utama perhitungan matriks foton, dikutip dari Perkalian matriks fotonik menyalakan akselerator fotonik dan seterusnya (Zhou et al., Nature 2022). Tiga metode berbeda tersebut adalah Planar Light Conversion (PLC), Mach-Zehnder Interferometer (MZI) dan Wavelength Division Multiplexing (WDM).
07Meningkatkan ketersediaan agen
Agen dapat dianggap sebagai LLM yang dapat mengambil tindakan, seperti menjelajahi Internet, mengirim email, dll. Dibandingkan dengan arahan penelitian lain dalam artikel ini, ini mungkin merupakan arahan termuda.
Ada minat yang besar terhadap agen karena kebaruan dan potensinya yang besar. Auto-GPT kini menjadi perpustakaan terpopuler ke-25 berdasarkan jumlah bintang di GitHub. GPT-Engineering juga merupakan perpustakaan populer lainnya.
Meskipun demikian, masih terdapat keraguan apakah LLM cukup andal, berkinerja cukup baik, dan memiliki kemampuan operasional tertentu.
Kini ada arah penerapan yang menarik, yaitu menggunakan agen untuk penelitian sosial. Eksperimen Stanford menunjukkan bahwa sekelompok kecil agen generatif menghasilkan perilaku sosial yang muncul: dimulai dengan hanya satu ide yang ditentukan pengguna, bahwa satu agen ingin mengadakan pesta Hari Valentine, sejumlah agen lain menyebarkannya secara mandiri selama dua hari berikutnya. Undangan ke pesta, mencari teman baru, saling mengundang ke pesta...(Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023).
Mungkin startup yang paling penting dalam bidang ini adalah Adept, yang didirikan oleh dua penulis Transformer (walaupun keduanya sudah keluar) dan mantan VP OpenAI, dan hingga saat ini telah mengumpulkan hampir $500 juta Dollar. Tahun lalu, mereka menunjukkan bagaimana agen mereka dapat menjelajahi internet dan menambahkan akun baru di Salesforce. Saya menantikan untuk melihat demo baru mereka 🙂.
08 Meningkatkan kemampuan belajar dari preferensi manusia
RLHF (Reinforcement Learning from Human Preference) memang keren, tapi agak membosankan.
Saya tidak terkejut bahwa orang akan menemukan cara yang lebih baik untuk melatih LLM. Ada banyak pertanyaan terbuka mengenai RLHF, seperti:
·Bagaimana cara merepresentasikan preferensi manusia secara matematis?
Saat ini, preferensi manusia ditentukan melalui perbandingan: anotator manusia menentukan apakah jawaban A lebih baik daripada jawaban B. Namun, hal ini tidak memperhitungkan sejauh mana jawaban A lebih baik atau lebih buruk daripada jawaban B.
·Apa preferensi manusia?
Antropik mengukur kualitas respons model dalam tiga dimensi: membantu, jujur, dan tidak berbahaya. Makalah referensi: AI Konstitusional: Tidak Berbahaya dari Umpan Balik AI (Bai et al., 2022).
DeepMind mencoba menghasilkan jawaban yang paling menyenangkan sebagian besar orang. Makalah referensi: Menyempurnakan model bahasa untuk menemukan kesepakatan di antara manusia dengan beragam preferensi, (Bakker et al., 2022).
Selain itu, apakah kita menginginkan AI yang dapat mengambil sikap, atau AI generik yang menghindari pembicaraan mengenai topik yang berpotensi kontroversial?
·Preferensi siapa yang merupakan preferensi “manusia”, dengan mempertimbangkan perbedaan budaya, agama, kecenderungan politik, dll.?
Ada banyak tantangan dalam memperoleh data pelatihan yang cukup mewakili seluruh calon pengguna.
Misalnya, data InstructGPT OpenAI tidak memiliki anotator yang berusia lebih dari 65 tahun. Para pemberi tag sebagian besar adalah warga Filipina dan Bangladesh. Makalah referensi: InstructGPT: Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia (Ouyang et al., 2022).
Meskipun niat awal dari upaya yang dipimpin komunitas AI dalam beberapa tahun terakhir cukup mengagumkan, bias data masih tetap ada. Misalnya, dalam kumpulan data OpenAssistant, 201 dari 222 responden (90,5%) melaporkan dirinya sebagai laki-laki. Jeremy Howard memposting serangkaian tweet tentang masalah ini di Twitter.
09Meningkatkan efisiensi antarmuka obrolan
Sejak diperkenalkannya ChatGPT, terdapat diskusi berkelanjutan mengenai apakah chat cocok untuk berbagai tugas. Misalnya:
·Bahasa alami adalah antarmuka pengguna yang malas (Austin Z. Henley, 2023)
·Mengapa Chatbots Bukan Masa Depan (Amelia Wattenberger, 2023)
·Jenis Pertanyaan Apa yang Perlu Dijawab dengan Percakapan? Studi Kasus Pertanyaan AskReddit (Huang et al., 2023)
·Antarmuka obrolan AI dapat menjadi antarmuka pengguna utama untuk membaca dokumentasi (Tom Johnson, 2023)
·Berinteraksi dengan LLM dengan Obrolan Minimal (Eugene Yan, 2023)
Namun, ini bukanlah pembahasan baru. Di banyak negara, terutama di Asia, chat telah digunakan sebagai antarmuka super app selama sekitar satu dekade. Dan Grover membahas fenomena ini pada tahun 2014.
Diskusi seperti ini kembali memanas pada tahun 2016, dengan banyak orang yang berpandangan bahwa jenis aplikasi yang ada sudah ketinggalan zaman dan chatbots adalah masa depan. Misalnya saja penelitian berikut ini:
·Pada obrolan sebagai antarmuka (Alistair Croll, 2016)
·Apakah Tren Chatbot Merupakan Kesalahpahaman Besar? (Akankah Ksatria, 2016)
·Bot tidak akan menggantikan aplikasi. Aplikasi yang lebih baik akan menggantikan aplikasi (Dan Grover, 2016)
Secara pribadi, saya menyukai antarmuka obrolan karena alasan berikut:
Antarmuka obrolan adalah antarmuka yang dapat dipelajari dengan cepat oleh semua orang (bahkan orang yang tidak memiliki pengalaman sebelumnya dengan komputer atau Internet).
Ketika saya menjadi sukarelawan di lingkungan berpenghasilan rendah di Kenya pada awal tahun 2010-an, saya terkejut melihat betapa nyamannya semua orang di sana dengan perbankan melalui pesan teks di telepon mereka. Meskipun tidak ada seorang pun di komunitas tersebut yang memiliki komputer.
Antarmuka obrolan umumnya mudah diakses. Kita juga bisa menggunakan ucapan sebagai pengganti teks jika tangan kita sibuk dengan hal lain.
Antarmuka obrolan juga merupakan antarmuka yang sangat kuat dan akan merespons setiap permintaan yang dibuat oleh pengguna, meskipun beberapa responsnya tidak terlalu baik.
Namun, menurut saya ada beberapa area di mana antarmuka obrolan dapat ditingkatkan:
·Beberapa pesan dalam satu putaran
Saat ini, kami berasumsi hanya ada satu pesan dalam satu waktu. Namun ketika saya dan teman mengirim SMS, sering kali diperlukan beberapa pesan untuk menyelesaikan obrolan karena saya perlu memasukkan data yang berbeda (misalnya gambar, lokasi, tautan), saya lupa sesuatu dari pesan sebelumnya, atau saya hanya tidak ingin memasukkannya semuanya menjadi satu paragraf besar.
·Masukan multimoda
Di bidang aplikasi multimodal, sebagian besar upaya dihabiskan untuk membangun model yang lebih baik dan lebih sedikit untuk membangun antarmuka yang lebih baik. Ambil chatbot NeVA NVIDIA sebagai contoh. Saya bukan ahli pengalaman pengguna, tapi menurut saya mungkin ada ruang untuk perbaikan di sini.
PS Maaf, tim NeVA, karena telah menyebutkan nama Anda. Tetap saja, pekerjaanmu luar biasa!
Gambar: antarmuka NeVA NVIDIA
·Integrasikan AI generatif ke dalam alur kerja
Linus Lee membahas hal ini dengan sangat baik dalam ceramahnya "Antarmuka AI generatif di luar obrolan". Misalnya, jika Anda ingin mengajukan pertanyaan tentang kolom bagan yang sedang Anda kerjakan, Anda cukup menunjuk ke kolom tersebut dan bertanya.
·Mengedit dan menghapus pesan
Bagaimana cara mengedit atau menghapus masukan pengguna mengubah alur percakapan dengan chatbot?
10 Membangun LLM untuk bahasa non-Inggris
Kita tahu bahwa LLM berbahasa Inggris saat ini berkinerja buruk di banyak bahasa lain, baik dalam hal kinerja, latensi, atau kecepatan.
Berikut penelitian relevan yang dapat Anda rujuk:
·ChatGPT Beyond English: Menuju Uasi Komprehensif Model Bahasa Besar dalam Pembelajaran Multibahasa (Lai et al., 2023)
·Semua bahasa TIDAK dibuat (diberi token) sama (Yennie Jun, 2023)
Beberapa pembaca mengatakan kepada saya bahwa menurut mereka saya tidak harus mengambil arah ini karena dua alasan.
Ini lebih merupakan pertanyaan “logistik” daripada pertanyaan penelitian. Kami sudah tahu bagaimana melakukannya. Seseorang hanya perlu mengeluarkan uang dan tenaga.
Hal ini tidak sepenuhnya benar. Sebagian besar bahasa dianggap bahasa dengan sumber daya rendah, karena mereka memiliki data berkualitas tinggi yang jauh lebih sedikit dibandingkan bahasa Inggris atau Cina, misalnya, dan mungkin memerlukan teknik berbeda untuk melatih model bahasa yang besar.
Berikut penelitian relevan yang dapat Anda rujuk:
·Bahasa dengan sumber daya rendah: Tinjauan Pekerjaan Masa Lalu dan Tantangan Masa Depan (Magueresse et al., 2020)
·JW300: Korpus Paralel Cakupan Luas untuk Bahasa dengan Sumber Daya Rendah (Agić et al., 2019)
Mereka yang lebih pesimis percaya bahwa di masa depan, banyak bahasa akan punah dan Internet akan menjadi dua dunia yang terdiri dari dua bahasa: Inggris dan Cina. Cara berpikir seperti ini bukanlah hal baru. Ada yang ingat bahasa Esperanto?
Dampak alat AI, seperti terjemahan mesin dan chatbot, terhadap pembelajaran bahasa masih belum jelas. Akankah mereka membantu orang mempelajari bahasa baru dengan lebih cepat, atau akankah mereka menghilangkan kebutuhan untuk mempelajari bahasa baru sama sekali?
Kesimpulannya
Dari 10 tantangan yang disebutkan di atas, ada yang memang lebih sulit dibandingkan yang lain.
Misalnya, menurut saya butir 10, Membangun LLM untuk bahasa non-Inggris, lebih langsung menunjuk pada waktu dan sumber daya yang memadai.
Butir 1, mengurangi halusinasi, akan lebih sulit karena halusinasi hanyalah LLM yang melakukan tugas probabilistiknya.
Butir 4, membuat LLM lebih cepat dan lebih murah, tidak akan pernah mencapai keadaan terselesaikan sepenuhnya. Banyak kemajuan yang telah dicapai dalam bidang ini dan masih banyak lagi kemajuan yang akan datang, namun kami tidak akan pernah berhenti berkembang.
Butir 5 dan 6, arsitektur baru dan perangkat keras baru, sangat menantang dan tidak bisa dihindari. Karena hubungan simbiosis antara arsitektur dan perangkat keras, arsitektur baru perlu dioptimalkan untuk perangkat keras umum, dan perangkat keras perlu mendukung arsitektur umum. Mereka mungkin diselesaikan oleh perusahaan yang sama.
Beberapa permasalahan ini dapat diselesaikan dengan lebih dari sekedar pengetahuan teknis. Misalnya, Butir 8, Meningkatkan Pembelajaran dari Preferensi Manusia, mungkin lebih merupakan isu strategi dibandingkan isu teknis.
Butir 9, meningkatkan efisiensi antarmuka obrolan, lebih merupakan masalah pengalaman pengguna. Kita membutuhkan lebih banyak orang dengan latar belakang non-teknis yang bekerja sama untuk memecahkan masalah ini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Talenta model bahasa terkemuka hanya peduli pada 10 tantangan ini
Sumber: Balap Kelinci Silikon
Penulis: Lin Ju Editor: Man Manzhou
**Catatan Editor: Artikel ini mengeksplorasi sepuluh tantangan terbesar dalam penelitian model bahasa besar (LLM). Penulisnya adalah Chip Huyen, lulusan Universitas Stanford dan kini menjadi pendiri Claypot AI, sebuah platform pembelajaran mesin real-time. Dia sebelumnya di NVIDIA, Snorkel AI, Netflix, dan Primer mengembangkan alat pembelajaran mesin. **
Saya menyaksikan situasi yang belum pernah terjadi sebelumnya: begitu banyak pemikir terkemuka dunia kini mengabdikan diri pada tujuan terpadu yaitu "membuat model bahasa (LLM) lebih baik."
Setelah berbincang dengan banyak rekan di industri dan akademisi, saya mencoba merangkum sepuluh arah penelitian utama yang sedang booming:
1. Mengurangi dan mengukur halusinasi (Catatan Editor: halusinasi, halusinasi AI, yaitu bagian keluaran AI yang salah atau tidak berarti, meskipun keluaran tersebut masuk akal secara sintaksis)
2. Mengoptimalkan panjang konteks dan konstruksi konteks
3. Integrasikan mode data lainnya
4. Meningkatkan kecepatan dan mengurangi biaya LLM
5. Rancang arsitektur model baru
6. Mengembangkan alternatif GPU
7. Meningkatkan ketersediaan agen
8. Peningkatan kemampuan untuk belajar dari preferensi manusia
9. Meningkatkan efisiensi antarmuka obrolan
10. Membangun LLM untuk bahasa non-Inggris
Diantaranya, dua arah pertama, yaitu mengurangi “ilusi” dan “pembelajaran kontekstual”, mungkin merupakan arah yang paling populer saat ini. Secara pribadi, saya paling tertarik pada item 3 (multimodalitas), 5 (arsitektur baru), dan 6 (alternatif GPU).
01 Mengurangi dan mengukur ilusi
Ini mengacu pada fenomena yang terjadi ketika model AI membuat konten palsu.
Ilusi adalah kualitas yang tidak bisa dihindari dalam banyak situasi yang membutuhkan kreativitas. Namun, untuk sebagian besar skenario aplikasi lainnya, ini merupakan kelemahan.
Saya baru-baru ini berpartisipasi dalam grup diskusi tentang LLM dan berbicara dengan orang-orang dari perusahaan seperti Dropbox, Langchain, Elastics, dan Anthropic, dan mereka percaya bahwa perusahaan berskala besar adopsi Hambatan terbesar bagi produksi komersial LLM adalah masalah ilusi.
Mengurangi fenomena halusinasi dan mengembangkan metrik untuk mengukurnya adalah topik penelitian yang sedang booming, dengan banyak startup yang berfokus pada penyelesaian masalah ini.
Saat ini ada beberapa metode sementara untuk mengurangi halusinasi, seperti menambahkan lebih banyak konteks, rantai pemikiran, konsistensi diri pada perintah, atau mengharuskan keluaran model tetap ringkas.
Berikut pidato terkait yang bisa Anda rujuk
·Survei Halusinasi pada Generasi Bahasa Alami (Ji et al., 2022)·Bagaimana Halusinasi Model Bahasa Dapat Menjadi Bola Salju (Zhang et al., 2023)·Uasi Multitask, Multilingual, Multimodal dari ChatGPT pada Penalaran, Halusinasi, dan Interaktivitas (Bang et al., 2023)·Pembelajaran Kontrastif Mengurangi Halusinasi dalam Percakapan (Sun et al., 2022)·Konsistensi Diri Meningkatkan Penalaran Rantai Pemikiran dalam Model Bahasa (Wang et al., 2022)·SelfCheckGPT: Zero-Resource Black-Box Deteksi Halusinasi untuk Model Bahasa Besar Generatif (Manakul et al., 2023)
02 Optimalkan panjang konteks dan konstruksi konteks
Sebagian besar masalah yang dihadapi AI memerlukan konteks.
Misalnya, jika kita menanyakan ChatGPT: "Restoran Vietnam manakah yang terbaik?", konteks yang diperlukan mungkin adalah "di mana" karena restoran terbaik di Vietnam mungkin berbeda dengan restoran Vietnam terbaik di Amerika Serikat.
Menurut makalah menarik "SituatedQA" (Zhang & Choi, 2021), sebagian besar pertanyaan pencarian informasi memiliki jawaban yang bergantung pada konteks. Misalnya, sekitar 16,5% pertanyaan dalam kumpulan data NQ-Open adalah jenis ini. .
Menurut saya pribadi, untuk skenario aplikasi perusahaan, rasio ini mungkin lebih tinggi. Misalkan sebuah perusahaan membuat chatbot untuk pelanggan. Jika robot tersebut ingin menjawab pertanyaan pelanggan tentang produk apa pun, konteks yang diperlukan mungkin berupa riwayat pelanggan atau informasi tentang produk tersebut.
Karena model “belajar” dari konteks yang diberikan padanya, proses ini disebut juga pembelajaran kontekstual.
RAG secara sederhana dapat dibagi menjadi dua tahap:
Fase 1: Chunking (juga disebut pengindeksan)
Kumpulkan semua dokumen yang akan digunakan oleh LLM, pisahkan dokumen-dokumen ini menjadi beberapa bagian yang dapat dimasukkan ke dalam LLM untuk menghasilkan penyematan, dan simpan penyematan ini dalam database vektor.
Tahap kedua: kueri
Saat pengguna mengirimkan pertanyaan, seperti “Apakah polis asuransi saya akan menanggung obat ini
Semakin panjang konteksnya, semakin banyak blok yang dapat kita masukkan ke dalam konteksnya. Namun apakah semakin banyak informasi yang dapat diakses oleh suatu model, semakin baik responsnya?
Hal ini tidak selalu terjadi. Seberapa banyak konteks yang dapat digunakan suatu model dan seberapa efisien model tersebut akan digunakan adalah dua pertanyaan berbeda. Sama pentingnya dengan menambah panjang konteks model adalah pembelajaran konteks yang lebih efisien, yang juga disebut "rekayasa petunjuk".
Makalah yang beredar luas baru-baru ini menunjukkan bahwa model berkinerja jauh lebih baik dalam memahami informasi dari awal dan akhir indeks dibandingkan dari tengah: Hilang di Tengah: Bagaimana Model Bahasa Menggunakan Konteks Panjang (Liu et al., 2023).
03Integrasikan mode data lainnya
Menurut pendapat saya, multimodalitas sangat kuat namun sering diremehkan.
Pertama-tama, banyak skenario aplikasi kehidupan nyata memerlukan pemrosesan data multi-modal dalam jumlah besar, seperti layanan kesehatan, robotika, e-commerce, ritel, game, hiburan, dll. Prediksi medis memerlukan penggunaan teks (seperti catatan dokter, kuesioner pasien) dan gambar (seperti CT, X-ray, pemindaian MRI); data produk sering kali mencakup gambar, video, deskripsi, dan bahkan data tabel (seperti produksi tanggal, berat, warna).
Kedua, multimodalitas menjanjikan peningkatan besar dalam kinerja model. Bukankah model yang dapat memahami teks dan gambar akan berperforma lebih baik dibandingkan model yang hanya dapat memahami teks? Model berbasis teks memerlukan data teks dalam jumlah besar, dan sekarang kami sangat khawatir akan kehabisan data internet untuk melatih model berbasis teks. Setelah teksnya habis, kita perlu memanfaatkan modalitas data lainnya.
Berikut ini adalah beberapa perkembangan penelitian multimodal yang luar biasa:· [CLIP] Mempelajari Model Visual yang Dapat Dipindahtangankan Dari Pengawasan Bahasa Alami (OpenAI, 2021)·Flamingo: Model Bahasa Visual untuk Pembelajaran Beberapa Kali (DeepMind, 2022)·BLIP-2: Pra-pelatihan Bootstrap Bahasa-Gambar dengan Frozen Image Encoder dan Model Bahasa Besar (Salesforce, 2023)·KOSMOS-1: Bukan Hanya Bahasa yang Anda Butuhkan: Menyelaraskan Persepsi dengan Model Bahasa (Microsoft, 2023)·PaLM-E: Model bahasa multimodal yang diwujudkan (Google, 2023)·LLaVA: Penyetelan Instruksi Visual (Liu dkk., 2023)·NeVA: Asisten Penglihatan dan Bahasa NeMo (NVIDIA, 2023)
04Meningkatkan kecepatan dan mengurangi biaya LLM
Saat GPT-3.5 pertama kali diluncurkan pada akhir November 2022, banyak orang menyatakan kekhawatirannya tentang penundaan dan biaya penggunaan model tersebut dalam produksi.
Kini, analisis penundaan/biaya yang disebabkan oleh penggunaan GPT-3.5 telah mengambil arah baru. Dalam waktu setengah tahun, seluruh komunitas pemodelan menemukan cara baru untuk membuat model yang hampir mendekati GPT-3.5 dalam hal performa, namun dengan jejak memori kurang dari 2%.
Salah satu poin saya dari sini adalah: jika Anda menciptakan sesuatu yang cukup baik, orang lain akan menemukan cara untuk membuatnya cepat dan hemat biaya.
Penting untuk dicatat bahwa, secara keseluruhan, kinerja model-model ini jauh dari sempurna. Bagi LLM, masih sangat sulit untuk meningkatkan kinerja secara signifikan.
Saya ingat empat tahun lalu, ketika saya mulai menulis catatan untuk bagian "Kompresi Model" di buku "Merancang Sistem Pembelajaran Mesin", ada empat teknik pengoptimalan/kompresi model utama di industri:
Kuantifikasi: sejauh ini merupakan metode optimasi model yang paling umum. Kuantisasi mengurangi ukuran model dengan menggunakan lebih sedikit bit untuk mewakili parameter model. Misalnya, alih-alih menggunakan 32 bit untuk mewakili angka floating point, hanya 16 bit atau bahkan 4 bit yang digunakan.
Penyulingan pengetahuan: yaitu melatih model kecil (model siswa), yang dapat meniru model atau kumpulan model yang lebih besar (model guru).
Dekomposisi peringkat rendah: Ide utamanya adalah menggunakan tensor berdimensi rendah untuk menggantikan tensor berdimensi tinggi guna mengurangi jumlah parameter. Misalnya, tensor 3x3 dapat didekomposisi menjadi hasil kali tensor 3x1 dan tensor 1x3, sehingga bukannya 9 parameter, yang ada hanya 6 parameter.
Pemangkasan: mengacu pada pengurangan ukuran model dengan menghilangkan bobot atau sambungan dalam model yang memberikan kontribusi lebih kecil terhadap kinerja keseluruhan.
Keempat teknik ini masih populer hingga saat ini. Alpaca dilatih melalui penyulingan pengetahuan, sedangkan QLoRA menggunakan kombinasi dekomposisi dan kuantisasi tingkat rendah.
05Rancang arsitektur model baru
Sejak AlexNet pada tahun 2012, kami telah melihat banyak arsitektur datang dan pergi, termasuk LSTM, seq2seq, dll.
Dibandingkan dengan arsitektur tersebut, Transformer yang diluncurkan pada tahun 2017 sangat stabil, meski tidak jelas sampai kapan arsitektur ini akan populer.
Tidak mudah untuk mengembangkan arsitektur baru yang dapat mengungguli Transformer. Dalam 6 tahun terakhir, Transformer telah mengalami banyak pengoptimalan. Pada perangkat keras yang sesuai, skala dan efek model ini dapat mencapai hasil yang luar biasa (PS: Transformer pertama kali dirancang oleh Google untuk berjalan cepat di TPU, dan kemudian dioptimalkan di TPU GPU).
Pada tahun 2021, penelitian "Pemodelan Urutan Panjang yang Efisien dengan Ruang Keadaan Terstruktur" (Gu et al., 2021) yang dilakukan oleh laboratorium Chris Ré memicu banyak diskusi di industri. Saya tidak yakin apa yang terjadi selanjutnya. Namun Chris Ré Labs masih aktif mengembangkan arsitektur baru, dan baru-baru ini mereka meluncurkan arsitektur bernama Monarch Mixer bekerja sama dengan startup Together.
Ide utama mereka adalah bahwa untuk arsitektur Transformer yang ada, kompleksitas perhatian sebanding dengan kuadrat panjang rangkaian, dan kompleksitas MLP sebanding dengan kuadrat dimensi model. Arsitektur dengan kompleksitas subkuadrat akan lebih efisien.
06Mengembangkan Alternatif GPU
Sejak munculnya AlexNet pada tahun 2012, GPU telah menjadi perangkat keras utama untuk pembelajaran mendalam.
Faktanya, salah satu alasan popularitas AlexNet yang diketahui secara umum adalah karena AlexNet merupakan makalah pertama yang berhasil menggunakan GPU untuk melatih jaringan saraf. Sebelum GPU, jika Anda ingin melatih model seukuran AlexNet, Anda memerlukan ribuan CPU, seperti server yang dirilis Google beberapa bulan sebelum AlexNet.
Dibandingkan dengan ribuan CPU, beberapa GPU lebih mudah diakses oleh mahasiswa PhD dan peneliti, sehingga memicu lonjakan penelitian pembelajaran mendalam.
Selama dekade terakhir, banyak perusahaan, baik besar maupun baru, berupaya menciptakan perangkat keras baru untuk kecerdasan buatan. Upaya yang paling penting termasuk TPU Google, IPU Graphcore, dan Cerebras. SambaNova juga telah mengumpulkan lebih dari $1 miliar untuk mengembangkan chip AI baru, namun tampaknya telah berubah menjadi platform AI generatif.
Selama periode ini, komputasi kuantum juga menimbulkan banyak ekspektasi, di antaranya pemain utamanya adalah:
·Prosesor kuantum IBM
·Komputer kuantum Google. Sebuah tonggak penting dalam pengurangan kesalahan kuantum dilaporkan di Nature awal tahun ini. Mesin virtual kuantumnya dapat diakses publik melalui Google Colab.
·Laboratorium penelitian di universitas, seperti MIT Quantum Engineering Center, Max Planck Institute for Quantum Optics, Chicago Quantum Exchange Center, dll.
Arah lain yang sama menariknya adalah chip fotonik. Ini arah yang paling sedikit saya ketahui, jika ada kesalahan mohon dikoreksi.
Chip yang ada menggunakan listrik untuk mengirimkan data, yang menghabiskan banyak energi dan menimbulkan latensi. Chip fotonik menggunakan foton untuk mengirimkan data, memanfaatkan kecepatan cahaya untuk komputasi yang lebih cepat dan efisien. Berbagai startup di bidang ini telah mengumpulkan ratusan juta dolar, termasuk Lightmatter ($270 juta), Ayar Labs ($220 juta), Lightelligence ($200 juta+), dan Luminous Computing ($115 juta).
Berikut ini adalah garis waktu kemajuan dari tiga metode utama perhitungan matriks foton, dikutip dari Perkalian matriks fotonik menyalakan akselerator fotonik dan seterusnya (Zhou et al., Nature 2022). Tiga metode berbeda tersebut adalah Planar Light Conversion (PLC), Mach-Zehnder Interferometer (MZI) dan Wavelength Division Multiplexing (WDM).
07Meningkatkan ketersediaan agen
Agen dapat dianggap sebagai LLM yang dapat mengambil tindakan, seperti menjelajahi Internet, mengirim email, dll. Dibandingkan dengan arahan penelitian lain dalam artikel ini, ini mungkin merupakan arahan termuda.
Ada minat yang besar terhadap agen karena kebaruan dan potensinya yang besar. Auto-GPT kini menjadi perpustakaan terpopuler ke-25 berdasarkan jumlah bintang di GitHub. GPT-Engineering juga merupakan perpustakaan populer lainnya.
Meskipun demikian, masih terdapat keraguan apakah LLM cukup andal, berkinerja cukup baik, dan memiliki kemampuan operasional tertentu.
Kini ada arah penerapan yang menarik, yaitu menggunakan agen untuk penelitian sosial. Eksperimen Stanford menunjukkan bahwa sekelompok kecil agen generatif menghasilkan perilaku sosial yang muncul: dimulai dengan hanya satu ide yang ditentukan pengguna, bahwa satu agen ingin mengadakan pesta Hari Valentine, sejumlah agen lain menyebarkannya secara mandiri selama dua hari berikutnya. Undangan ke pesta, mencari teman baru, saling mengundang ke pesta...(Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023).
Mungkin startup yang paling penting dalam bidang ini adalah Adept, yang didirikan oleh dua penulis Transformer (walaupun keduanya sudah keluar) dan mantan VP OpenAI, dan hingga saat ini telah mengumpulkan hampir $500 juta Dollar. Tahun lalu, mereka menunjukkan bagaimana agen mereka dapat menjelajahi internet dan menambahkan akun baru di Salesforce. Saya menantikan untuk melihat demo baru mereka 🙂.
08 Meningkatkan kemampuan belajar dari preferensi manusia
RLHF (Reinforcement Learning from Human Preference) memang keren, tapi agak membosankan.
Saya tidak terkejut bahwa orang akan menemukan cara yang lebih baik untuk melatih LLM. Ada banyak pertanyaan terbuka mengenai RLHF, seperti:
·Bagaimana cara merepresentasikan preferensi manusia secara matematis?
Saat ini, preferensi manusia ditentukan melalui perbandingan: anotator manusia menentukan apakah jawaban A lebih baik daripada jawaban B. Namun, hal ini tidak memperhitungkan sejauh mana jawaban A lebih baik atau lebih buruk daripada jawaban B.
·Apa preferensi manusia?
Antropik mengukur kualitas respons model dalam tiga dimensi: membantu, jujur, dan tidak berbahaya. Makalah referensi: AI Konstitusional: Tidak Berbahaya dari Umpan Balik AI (Bai et al., 2022).
DeepMind mencoba menghasilkan jawaban yang paling menyenangkan sebagian besar orang. Makalah referensi: Menyempurnakan model bahasa untuk menemukan kesepakatan di antara manusia dengan beragam preferensi, (Bakker et al., 2022).
Selain itu, apakah kita menginginkan AI yang dapat mengambil sikap, atau AI generik yang menghindari pembicaraan mengenai topik yang berpotensi kontroversial?
·Preferensi siapa yang merupakan preferensi “manusia”, dengan mempertimbangkan perbedaan budaya, agama, kecenderungan politik, dll.?
Ada banyak tantangan dalam memperoleh data pelatihan yang cukup mewakili seluruh calon pengguna.
Misalnya, data InstructGPT OpenAI tidak memiliki anotator yang berusia lebih dari 65 tahun. Para pemberi tag sebagian besar adalah warga Filipina dan Bangladesh. Makalah referensi: InstructGPT: Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia (Ouyang et al., 2022).
09Meningkatkan efisiensi antarmuka obrolan
Sejak diperkenalkannya ChatGPT, terdapat diskusi berkelanjutan mengenai apakah chat cocok untuk berbagai tugas. Misalnya:
·Bahasa alami adalah antarmuka pengguna yang malas (Austin Z. Henley, 2023)
·Mengapa Chatbots Bukan Masa Depan (Amelia Wattenberger, 2023)
·Jenis Pertanyaan Apa yang Perlu Dijawab dengan Percakapan? Studi Kasus Pertanyaan AskReddit (Huang et al., 2023)
·Antarmuka obrolan AI dapat menjadi antarmuka pengguna utama untuk membaca dokumentasi (Tom Johnson, 2023)
·Berinteraksi dengan LLM dengan Obrolan Minimal (Eugene Yan, 2023)
Namun, ini bukanlah pembahasan baru. Di banyak negara, terutama di Asia, chat telah digunakan sebagai antarmuka super app selama sekitar satu dekade. Dan Grover membahas fenomena ini pada tahun 2014.
·Pada obrolan sebagai antarmuka (Alistair Croll, 2016)
·Apakah Tren Chatbot Merupakan Kesalahpahaman Besar? (Akankah Ksatria, 2016)
·Bot tidak akan menggantikan aplikasi. Aplikasi yang lebih baik akan menggantikan aplikasi (Dan Grover, 2016)
Secara pribadi, saya menyukai antarmuka obrolan karena alasan berikut:
Antarmuka obrolan adalah antarmuka yang dapat dipelajari dengan cepat oleh semua orang (bahkan orang yang tidak memiliki pengalaman sebelumnya dengan komputer atau Internet).
Ketika saya menjadi sukarelawan di lingkungan berpenghasilan rendah di Kenya pada awal tahun 2010-an, saya terkejut melihat betapa nyamannya semua orang di sana dengan perbankan melalui pesan teks di telepon mereka. Meskipun tidak ada seorang pun di komunitas tersebut yang memiliki komputer.
Antarmuka obrolan umumnya mudah diakses. Kita juga bisa menggunakan ucapan sebagai pengganti teks jika tangan kita sibuk dengan hal lain.
Antarmuka obrolan juga merupakan antarmuka yang sangat kuat dan akan merespons setiap permintaan yang dibuat oleh pengguna, meskipun beberapa responsnya tidak terlalu baik.
Namun, menurut saya ada beberapa area di mana antarmuka obrolan dapat ditingkatkan:
·Beberapa pesan dalam satu putaran
Saat ini, kami berasumsi hanya ada satu pesan dalam satu waktu. Namun ketika saya dan teman mengirim SMS, sering kali diperlukan beberapa pesan untuk menyelesaikan obrolan karena saya perlu memasukkan data yang berbeda (misalnya gambar, lokasi, tautan), saya lupa sesuatu dari pesan sebelumnya, atau saya hanya tidak ingin memasukkannya semuanya menjadi satu paragraf besar.
·Masukan multimoda
Di bidang aplikasi multimodal, sebagian besar upaya dihabiskan untuk membangun model yang lebih baik dan lebih sedikit untuk membangun antarmuka yang lebih baik. Ambil chatbot NeVA NVIDIA sebagai contoh. Saya bukan ahli pengalaman pengguna, tapi menurut saya mungkin ada ruang untuk perbaikan di sini.
PS Maaf, tim NeVA, karena telah menyebutkan nama Anda. Tetap saja, pekerjaanmu luar biasa!
·Integrasikan AI generatif ke dalam alur kerja
Linus Lee membahas hal ini dengan sangat baik dalam ceramahnya "Antarmuka AI generatif di luar obrolan". Misalnya, jika Anda ingin mengajukan pertanyaan tentang kolom bagan yang sedang Anda kerjakan, Anda cukup menunjuk ke kolom tersebut dan bertanya.
·Mengedit dan menghapus pesan
Bagaimana cara mengedit atau menghapus masukan pengguna mengubah alur percakapan dengan chatbot?
10 Membangun LLM untuk bahasa non-Inggris
Kita tahu bahwa LLM berbahasa Inggris saat ini berkinerja buruk di banyak bahasa lain, baik dalam hal kinerja, latensi, atau kecepatan.
Berikut penelitian relevan yang dapat Anda rujuk:
·ChatGPT Beyond English: Menuju Uasi Komprehensif Model Bahasa Besar dalam Pembelajaran Multibahasa (Lai et al., 2023)
·Semua bahasa TIDAK dibuat (diberi token) sama (Yennie Jun, 2023)
Ini lebih merupakan pertanyaan “logistik” daripada pertanyaan penelitian. Kami sudah tahu bagaimana melakukannya. Seseorang hanya perlu mengeluarkan uang dan tenaga.
Hal ini tidak sepenuhnya benar. Sebagian besar bahasa dianggap bahasa dengan sumber daya rendah, karena mereka memiliki data berkualitas tinggi yang jauh lebih sedikit dibandingkan bahasa Inggris atau Cina, misalnya, dan mungkin memerlukan teknik berbeda untuk melatih model bahasa yang besar.
Berikut penelitian relevan yang dapat Anda rujuk:
·Bahasa dengan sumber daya rendah: Tinjauan Pekerjaan Masa Lalu dan Tantangan Masa Depan (Magueresse et al., 2020)
·JW300: Korpus Paralel Cakupan Luas untuk Bahasa dengan Sumber Daya Rendah (Agić et al., 2019)
Mereka yang lebih pesimis percaya bahwa di masa depan, banyak bahasa akan punah dan Internet akan menjadi dua dunia yang terdiri dari dua bahasa: Inggris dan Cina. Cara berpikir seperti ini bukanlah hal baru. Ada yang ingat bahasa Esperanto?
Dampak alat AI, seperti terjemahan mesin dan chatbot, terhadap pembelajaran bahasa masih belum jelas. Akankah mereka membantu orang mempelajari bahasa baru dengan lebih cepat, atau akankah mereka menghilangkan kebutuhan untuk mempelajari bahasa baru sama sekali?
Kesimpulannya
Dari 10 tantangan yang disebutkan di atas, ada yang memang lebih sulit dibandingkan yang lain.
Misalnya, menurut saya butir 10, Membangun LLM untuk bahasa non-Inggris, lebih langsung menunjuk pada waktu dan sumber daya yang memadai.
Butir 1, mengurangi halusinasi, akan lebih sulit karena halusinasi hanyalah LLM yang melakukan tugas probabilistiknya.
Butir 4, membuat LLM lebih cepat dan lebih murah, tidak akan pernah mencapai keadaan terselesaikan sepenuhnya. Banyak kemajuan yang telah dicapai dalam bidang ini dan masih banyak lagi kemajuan yang akan datang, namun kami tidak akan pernah berhenti berkembang.
Butir 5 dan 6, arsitektur baru dan perangkat keras baru, sangat menantang dan tidak bisa dihindari. Karena hubungan simbiosis antara arsitektur dan perangkat keras, arsitektur baru perlu dioptimalkan untuk perangkat keras umum, dan perangkat keras perlu mendukung arsitektur umum. Mereka mungkin diselesaikan oleh perusahaan yang sama.
Beberapa permasalahan ini dapat diselesaikan dengan lebih dari sekedar pengetahuan teknis. Misalnya, Butir 8, Meningkatkan Pembelajaran dari Preferensi Manusia, mungkin lebih merupakan isu strategi dibandingkan isu teknis.
Butir 9, meningkatkan efisiensi antarmuka obrolan, lebih merupakan masalah pengalaman pengguna. Kita membutuhkan lebih banyak orang dengan latar belakang non-teknis yang bekerja sama untuk memecahkan masalah ini.