Sumber gambar: dihasilkan oleh alat AI Tanpa Batas
Model bahasa mampu menghasilkan teks yang koheren dan kontekstual, merevolusi cara kita berkomunikasi dengan komputer. Model bahasa skala besar (LLM) telah menjadi yang terdepan dalam kemajuan ini, mempelajari pola dan nuansa bahasa manusia dengan melatih data tekstual dalam jumlah besar. Sebagai pionir revolusi LLM, ChatGPT sangat populer di kalangan orang-orang dari berbagai disiplin ilmu.
Kemampuan LLM yang luas membuat berbagai tugas lebih mudah ditangani. Kami menggunakannya untuk meringkas teks, menulis email, mengotomatiskan tugas pemrograman, menafsirkan dokumen, dan banyak lagi. Semua tugas ini, yang setahun lalu memakan waktu, kini dapat diselesaikan hanya dalam beberapa menit.
Namun, dengan meningkatnya kebutuhan akan pemahaman multi-modal, model perlu memproses dan menghasilkan konten dalam berbagai modalitas seperti teks, gambar, dan bahkan video, sehingga kebutuhan akan model bahasa besar multi-modal (MLLM) pun muncul. MLLM menggabungkan kekuatan model bahasa dengan pemahaman visual, memungkinkan mesin memahami dan menghasilkan konten dengan cara yang lebih komprehensif dan sadar konteks.
Setelah kegilaan ChatGPT sedikit mereda, MLLM mengambil alih bidang kecerdasan buatan, memungkinkan mesin memahami dan menghasilkan konten dalam mode berbeda seperti teks dan gambar. Model ini bekerja dengan baik dalam tugas-tugas seperti pengenalan gambar, dasar-dasar penglihatan, dan pemahaman instruksi. Namun, cara melatih model-model ini secara efektif masih menjadi tantangan. Tantangan terbesarnya adalah ketika MLLM menghadapi adegan yang benar-benar asing, dimana gambar dan labelnya tidak diketahui.
Selain itu, MLLM cenderung "tersesat" ketika memproses konteks yang lebih panjang. Model-model ini sangat bergantung pada posisi awal dan tengah, itulah sebabnya seiring bertambahnya jumlah sampel, keakuratannya akan stabil (jeda sementara atau penurunan dalam proses pembelajaran atau pembentukan keterampilan). Oleh karena itu, MLLM kesulitan dengan input yang lebih panjang.
Sekarang, mari berkenalan dengan pembelajaran link-context (LCL) untuk menyelesaikan berbagai tantangan di MLLM.
*Usulan Link - Dialog Demonstrasi Pembelajaran Kontekstual; Sumber: *
Di MLLM, ada dua strategi pelatihan utama. Penyetelan Perintah Multimodal (M-PT) dan Penyetelan Instruksi Multimodal (M-IT). M-PT hanya menyempurnakan sebagian kecil parameter model, membiarkan parameter lainnya tidak berubah. Pendekatan ini membantu mencapai hasil yang serupa dengan penyempurnaan penuh sekaligus meminimalkan sumber daya komputasi. M-IT, di sisi lain, meningkatkan kemampuan zero-shot MLLM dengan menyempurnakan MLLM pada kumpulan data yang berisi deskripsi instruksi. Strategi ini meningkatkan kemampuan model untuk memahami dan mengatasi tugas-tugas baru tanpa memerlukan pelatihan sebelumnya. Semua metode ini efektif, tetapi semuanya memerlukan pengorbanan.
Perbedaan antara pembelajaran konteks dan pembelajaran konteks terkait. Sumber: https://arxiv.org/abs/2308.07891
LCL mengeksplorasi strategi pelatihan yang berbeda: strategi campuran, strategi dua arah, strategi stokastik dua arah, dan strategi tertimbang dua arah. Fitur luar biasa dari strategi hibrid adalah strategi ini dapat meningkatkan akurasi nol sampel secara signifikan, dan mencapai hasil yang mengesankan ketika jumlah sampel mencapai 6. Namun pada 16 sampel, kinerjanya sedikit menurun. Sebaliknya, keakuratan strategi dua arah secara bertahap meningkat dari 2 sampel menjadi 16 sampel, yang menunjukkan bahwa strategi tersebut lebih dekat dengan pola pelatihan.
Berbeda dari pembelajaran kontekstual tradisional, LCL melangkah lebih jauh dengan memberikan model kemampuan untuk membuat pemetaan antara sumber dan target, sehingga meningkatkan kinerjanya secara keseluruhan. Dengan memberikan demonstrasi hubungan sebab akibat, LCL memungkinkan MLLM untuk mengidentifikasi tidak hanya analogi tetapi juga potensi hubungan sebab akibat antara titik data, sehingga lebih efektif dalam mengidentifikasi gambar yang tidak terlihat dan memahami konsep baru.
Selain itu, LCL juga memperkenalkan dataset ISEKAI, sebuah dataset baru dan komprehensif yang dirancang khusus untuk mengevaluasi kemampuan MLLM. Dataset ISEKAI terdiri dari gambar-gambar yang dihasilkan sepenuhnya dan konsep-konsep yang dibuat. Ini menantang MLLM untuk menyerap konsep-konsep baru dari percakapan yang sedang berlangsung dan mempertahankan pengetahuan ini untuk menjawab pertanyaan secara akurat.
Singkatnya, LCL memberikan wawasan berharga tentang strategi pelatihan yang digunakan oleh model bahasa multimodal. Strategi hibrid dan strategi dua arah menawarkan pendekatan berbeda untuk meningkatkan kinerja model bahasa multimodal, yang masing-masing memiliki kekuatan dan keterbatasannya sendiri. Analisis kontekstual menyoroti tantangan yang dihadapi model bahasa multimodal saat memproses masukan yang lebih panjang, dan juga menyoroti pentingnya penelitian lebih lanjut di bidang ini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Pelajari tentang LCL dalam satu artikel: Kemampuan pembelajaran model besar multi-modal dapat ditingkatkan melalui "penalaran kausal"
Namanya: Ekrem Chetinkaya
Sumber: MarkTechPost
Model bahasa mampu menghasilkan teks yang koheren dan kontekstual, merevolusi cara kita berkomunikasi dengan komputer. Model bahasa skala besar (LLM) telah menjadi yang terdepan dalam kemajuan ini, mempelajari pola dan nuansa bahasa manusia dengan melatih data tekstual dalam jumlah besar. Sebagai pionir revolusi LLM, ChatGPT sangat populer di kalangan orang-orang dari berbagai disiplin ilmu.
Kemampuan LLM yang luas membuat berbagai tugas lebih mudah ditangani. Kami menggunakannya untuk meringkas teks, menulis email, mengotomatiskan tugas pemrograman, menafsirkan dokumen, dan banyak lagi. Semua tugas ini, yang setahun lalu memakan waktu, kini dapat diselesaikan hanya dalam beberapa menit.
Namun, dengan meningkatnya kebutuhan akan pemahaman multi-modal, model perlu memproses dan menghasilkan konten dalam berbagai modalitas seperti teks, gambar, dan bahkan video, sehingga kebutuhan akan model bahasa besar multi-modal (MLLM) pun muncul. MLLM menggabungkan kekuatan model bahasa dengan pemahaman visual, memungkinkan mesin memahami dan menghasilkan konten dengan cara yang lebih komprehensif dan sadar konteks.
Setelah kegilaan ChatGPT sedikit mereda, MLLM mengambil alih bidang kecerdasan buatan, memungkinkan mesin memahami dan menghasilkan konten dalam mode berbeda seperti teks dan gambar. Model ini bekerja dengan baik dalam tugas-tugas seperti pengenalan gambar, dasar-dasar penglihatan, dan pemahaman instruksi. Namun, cara melatih model-model ini secara efektif masih menjadi tantangan. Tantangan terbesarnya adalah ketika MLLM menghadapi adegan yang benar-benar asing, dimana gambar dan labelnya tidak diketahui.
Selain itu, MLLM cenderung "tersesat" ketika memproses konteks yang lebih panjang. Model-model ini sangat bergantung pada posisi awal dan tengah, itulah sebabnya seiring bertambahnya jumlah sampel, keakuratannya akan stabil (jeda sementara atau penurunan dalam proses pembelajaran atau pembentukan keterampilan). Oleh karena itu, MLLM kesulitan dengan input yang lebih panjang.
Sekarang, mari berkenalan dengan pembelajaran link-context (LCL) untuk menyelesaikan berbagai tantangan di MLLM.
Di MLLM, ada dua strategi pelatihan utama. Penyetelan Perintah Multimodal (M-PT) dan Penyetelan Instruksi Multimodal (M-IT). M-PT hanya menyempurnakan sebagian kecil parameter model, membiarkan parameter lainnya tidak berubah. Pendekatan ini membantu mencapai hasil yang serupa dengan penyempurnaan penuh sekaligus meminimalkan sumber daya komputasi. M-IT, di sisi lain, meningkatkan kemampuan zero-shot MLLM dengan menyempurnakan MLLM pada kumpulan data yang berisi deskripsi instruksi. Strategi ini meningkatkan kemampuan model untuk memahami dan mengatasi tugas-tugas baru tanpa memerlukan pelatihan sebelumnya. Semua metode ini efektif, tetapi semuanya memerlukan pengorbanan.
LCL mengeksplorasi strategi pelatihan yang berbeda: strategi campuran, strategi dua arah, strategi stokastik dua arah, dan strategi tertimbang dua arah. Fitur luar biasa dari strategi hibrid adalah strategi ini dapat meningkatkan akurasi nol sampel secara signifikan, dan mencapai hasil yang mengesankan ketika jumlah sampel mencapai 6. Namun pada 16 sampel, kinerjanya sedikit menurun. Sebaliknya, keakuratan strategi dua arah secara bertahap meningkat dari 2 sampel menjadi 16 sampel, yang menunjukkan bahwa strategi tersebut lebih dekat dengan pola pelatihan.
Berbeda dari pembelajaran kontekstual tradisional, LCL melangkah lebih jauh dengan memberikan model kemampuan untuk membuat pemetaan antara sumber dan target, sehingga meningkatkan kinerjanya secara keseluruhan. Dengan memberikan demonstrasi hubungan sebab akibat, LCL memungkinkan MLLM untuk mengidentifikasi tidak hanya analogi tetapi juga potensi hubungan sebab akibat antara titik data, sehingga lebih efektif dalam mengidentifikasi gambar yang tidak terlihat dan memahami konsep baru.
Selain itu, LCL juga memperkenalkan dataset ISEKAI, sebuah dataset baru dan komprehensif yang dirancang khusus untuk mengevaluasi kemampuan MLLM. Dataset ISEKAI terdiri dari gambar-gambar yang dihasilkan sepenuhnya dan konsep-konsep yang dibuat. Ini menantang MLLM untuk menyerap konsep-konsep baru dari percakapan yang sedang berlangsung dan mempertahankan pengetahuan ini untuk menjawab pertanyaan secara akurat.
Singkatnya, LCL memberikan wawasan berharga tentang strategi pelatihan yang digunakan oleh model bahasa multimodal. Strategi hibrid dan strategi dua arah menawarkan pendekatan berbeda untuk meningkatkan kinerja model bahasa multimodal, yang masing-masing memiliki kekuatan dan keterbatasannya sendiri. Analisis kontekstual menyoroti tantangan yang dihadapi model bahasa multimodal saat memproses masukan yang lebih panjang, dan juga menyoroti pentingnya penelitian lebih lanjut di bidang ini.