Intuisi manusia adalah kemampuan yang sering diabaikan oleh peneliti AI, namun begitu halus sehingga kita sendiri tidak sepenuhnya memahaminya. Sebuah tim peneliti dari Virginia Tech dan Microsoft mengusulkan Algorithm of Thinking (AoT) dalam makalah terbarunya, yang menggabungkan intuisi dan keteraturan metode algoritmik untuk menghemat biaya sekaligus memastikan kinerja LLM.
Model bahasa skala besar telah berkembang pesat akhir-akhir ini, menunjukkan kemampuan luar biasa dalam memecahkan masalah umum, menghasilkan kode, dan mengikuti instruksi.
Meskipun model awal mengandalkan strategi jawaban langsung, penelitian saat ini telah bergerak menuju jalur penalaran linier dengan menguraikan masalah menjadi beberapa subtugas untuk menemukan solusi, atau dengan memodifikasi konteks untuk memanfaatkan mekanisme eksternal untuk mengubah pembuatan token.
Mirip dengan kognisi manusia, strategi LLM awal tampaknya meniru reaksi langsung (reaksi cepat), yang ditandai dengan pengambilan keputusan impulsif. Sebaliknya, metode yang lebih baru seperti Chain of Thoughts (CoT) dan less-to-mosting (L2M) mencerminkan sifat introspektif dari 2 (berpikir lambat). Perlu dicatat bahwa kemampuan penalaran aritmatika LLM dapat ditingkatkan dengan mengintegrasikan langkah-langkah penalaran perantara.
Namun, jika tugas tersebut memerlukan perencanaan yang lebih dalam dan eksplorasi mental yang lebih luas, keterbatasan metode ini menjadi jelas. Meskipun CoT yang konsisten dan terintegrasi (CoT-SC) dapat menggunakan berbagai keluaran LLM untuk mencapai hasil konsensus, kurangnya evaluasi yang terperinci dapat menyebabkan model tersebut mengarah ke arah yang salah. Tree of Thinking (ToT) yang muncul pada tahun 2023 merupakan solusi yang patut diperhatikan. Satu LLM digunakan untuk menghasilkan ide, dan LLM lainnya digunakan untuk mengevaluasi manfaat dari ide tersebut, diikuti dengan siklus "jeda-evaluasi-lanjutkan". Proses berulang berdasarkan pencarian pohon ini jelas efektif, terutama untuk tugas-tugas dengan kelanjutan yang panjang. Para peneliti percaya bahwa perkembangan ini adalah penggunaan alat eksternal untuk meningkatkan LLM, serupa dengan manusia yang menggunakan alat untuk menghindari keterbatasan memori kerja mereka sendiri.
Di sisi lain, metode LLM yang disempurnakan ini bukannya tanpa kekurangan. Salah satu kelemahan yang jelas adalah jumlah kueri dan kebutuhan komputasi dapat meroket. Setiap kueri ke API LLM online seperti GPT-4 menimbulkan biaya moneter yang besar dan meningkatkan latensi, sebuah batasan yang sangat penting untuk aplikasi real-time. Akumulasi latensi dari kueri ini dapat mengganggu efisiensi skenario secara keseluruhan. Dari segi infrastruktur, interaksi yang konstan dapat memberikan tekanan pada sistem, yang dapat membatasi bandwidth dan mengurangi ketersediaan model. Selain itu, dampak terhadap lingkungan tidak dapat diabaikan. Permintaan yang terus-menerus akan meningkatkan konsumsi energi pusat data yang sudah boros energi, sehingga semakin meningkatkan jejak karbon.
Berdasarkan pertimbangan ini, tujuan pengoptimalan para peneliti adalah untuk secara signifikan mengurangi jumlah kueri yang digunakan oleh metode inferensi multi-kueri saat ini, sambil mempertahankan kinerja yang memadai untuk memungkinkan model mengatasi tugas-tugas yang memerlukan penggunaan pengetahuan dunia yang terampil, sehingga memandu orang-orang menjadi lebih bertanggung jawab dan mahir. Gunakan sumber daya AI secara efisien.
Dengan memikirkan evolusi LLM dari 1 ke 2, kita dapat melihat munculnya faktor kunci: algoritma. Algoritma terstruktur dan menyediakan cara untuk membantu orang mengeksplorasi ruang masalah, mengembangkan strategi, dan membangun solusi. Meskipun sebagian besar literatur arus utama memperlakukan algoritme sebagai alat eksternal untuk LLM, mengingat kemampuan reproduksi generatif yang melekat pada LLM, dapatkah kita memandu logika berulang ini untuk menginternalisasi algoritme ke dalam LLM?
Sebuah tim peneliti di Virginia Tech dan Microsoft telah menyatukan kecanggihan penalaran manusia dan ketepatan metodologi metode algoritmik dalam upaya untuk meningkatkan penalaran dalam LLM dengan menggabungkan kedua aspek tersebut.
Penelitian yang ada menekankan bahwa manusia secara naluriah memanfaatkan pengalaman masa lalu ketika memecahkan masalah yang kompleks untuk memastikan bahwa mereka berpikir secara holistik dan tidak fokus secara sempit pada satu detail. Kisaran generasi LLM hanya dibatasi oleh batas tokennya, dan tampaknya ditakdirkan untuk menembus hambatan memori kerja manusia.
Terinspirasi oleh pengamatan ini, para peneliti mengeksplorasi apakah LLM dapat memungkinkan eksplorasi ide secara hierarkis, menyaring opsi-opsi yang tidak layak dengan mengacu pada langkah-langkah perantara sebelumnya—semuanya dalam siklus generasi LLM. Meskipun manusia pandai dalam intuisi dan ketajaman, algoritma pandai dalam eksplorasi yang terorganisir dan sistematis. Teknologi saat ini seperti CoT cenderung menghindari potensi sinergis ini dan terlalu fokus pada akurasi lapangan LLM. Dengan memanfaatkan kemampuan rekursif LLM, para peneliti membangun pendekatan hibrida algoritmik manusia. Hal ini dilakukan melalui penggunaan contoh algoritmik yang menangkap esensi eksplorasi—mulai dari kandidat awal hingga solusi yang terbukti.
Berdasarkan pengamatan tersebut, peneliti mengusulkan Algorithm of Thoughts (AoT).
kertas:
Dalam skala yang lebih luas, pendekatan baru ini diharapkan dapat mengantarkan paradigma baru pembelajaran kontekstual. Alih-alih menggunakan model pembelajaran tradisional yang diawasi yaitu [tanya jawab, jawaban] atau [pertanyaan, langkah selanjutnya untuk memperoleh jawaban], pendekatan baru ini mengadopsi model baru [pertanyaan, proses pencarian, jawaban]. Tentu saja, ketika kita memberitahu LLM untuk menggunakan suatu algoritma melalui instruksi, kita biasanya berharap bahwa LLM hanya akan meniru pemikiran berulang dari algoritma tersebut. Namun yang menarik adalah LLM mempunyai kemampuan untuk menyuntikkan “intuisinya” sendiri, bahkan membuat pencariannya lebih efisien dibandingkan algoritma itu sendiri.
Algoritma Berpikir
Para peneliti mengatakan bahwa inti dari strategi penelitian mereka adalah untuk mengenali kelemahan inti dari paradigma pembelajaran kontekstual saat ini. Meskipun CoT dapat meningkatkan konsistensi hubungan mental, terkadang CoT bisa salah dan memberikan langkah perantara yang salah.
Untuk menggambarkan fenomena ini, peneliti merancang sebuah eksperimen. Saat menanyakan teks-davinci-003 dengan tugas aritmatika (seperti 11 − 2 =), peneliti akan menambahkan beberapa persamaan konteks di depan yang akan mendapatkan hasil keluaran yang sama (seperti 15 − 5 = 10, 8 + 2 = 10 ).
Akurasi ditemukan menurun drastis, menunjukkan bahwa memberikan alasan yang benar dalam konteks dapat secara tidak sengaja merusak kemampuan aritmatika yang mendasari LLM.
Untuk mengurangi bias ini, membuat contoh lebih beragam mungkin merupakan solusi yang tepat, namun hal ini mungkin sedikit mengubah distribusi keluaran. Menambahkan beberapa upaya yang gagal (seperti penelusuran acak) mungkin secara tidak sengaja mendorong model untuk mencoba lagi tanpa benar-benar menyelesaikan masalah. Memahami sifat sebenarnya dari perilaku algoritmik (dimana pencarian yang gagal dan pemulihan selanjutnya adalah hal yang penting, serta belajar dari upaya ini), cara peneliti memasukkan contoh kontekstual adalah dengan mengikuti pola algoritma pencarian, terutama pencarian depth-first (DFS) dan Pencarian Pertama Luas (BFS). Gambar 1 memberikan contoh.
Makalah ini berfokus pada sejumlah besar tugas yang mirip dengan masalah pencarian pohon.
Jenis tugas ini memerlukan perincian masalah utama, membangun solusi yang layak untuk setiap bagian, dan memutuskan untuk mengadopsi atau meninggalkan jalur tertentu, dengan pilihan untuk mengevaluasi kembali bagian-bagian yang memiliki potensi lebih besar.
Daripada memberikan pertanyaan terpisah untuk setiap subset, para peneliti memanfaatkan kemampuan berulang LLM untuk menyelesaikannya dalam pemindaian generatif terpadu. Dengan membatasi diri hanya pada satu atau dua interaksi LLM, pendekatan ini secara alami dapat mengintegrasikan wawasan dari kandidat kontekstual sebelumnya dan memecahkan masalah kompleks yang memerlukan eksplorasi mendalam pada domain solusi. Para peneliti juga telah memberikan wawasan mereka sendiri tentang seberapa besar pemikiran ini seharusnya dan jenis contoh kontekstual apa yang harus diberikan kepada LLM untuk meningkatkan efisiensi token. Komponen kunci dari algoritma pencarian pohon dan representasinya dalam kerangka baru diberikan di bawah ini.
**1. Uraikan menjadi submasalah. **Mengingat suatu masalah, membangun pohon pencarian yang menggambarkan jalur penalaran yang layak sudah merupakan tugas yang menakutkan, bahkan tanpa melihat aspek pemecahan masalah yang sebenarnya. Dekomposisi apa pun harus mempertimbangkan tidak hanya keterkaitan antar subtugas, tetapi juga kemudahan penyelesaian setiap masalah.
Ambil contoh penjumlahan multi-digit sederhana: Meskipun komputer efisien untuk mengubah nilai numerik menjadi bilangan biner, manusia sering kali menganggap bilangan desimal lebih intuitif. Selain itu, meskipun submasalahnya sama, metode eksekusinya mungkin berbeda. Intuisi dapat menemukan jalan pintas di antara langkah-langkah menuju suatu solusi, dan tanpa intuisi, langkah-langkah yang lebih rinci mungkin diperlukan.
Untuk membuat yang benar (yaitu, contoh algoritme kontekstual), kehalusan ini penting dan menentukan jumlah minimum token yang diperlukan oleh LLM untuk kinerja yang andal. Hal ini tidak hanya memenuhi batasan konteks LLM, namun juga penting untuk kemampuan LLM, karena kami berharap LLM dapat menggunakan jumlah token yang sama untuk memecahkan masalah yang sesuai dengan konteksnya.
**2. Mengusulkan solusi untuk sub-masalah tersebut. **Salah satu metode utama saat ini melibatkan pengambilan sampel langsung probabilitas keluaran token LLM. Meskipun metode ini efektif untuk jawaban satu kali (dengan batasan tertentu), metode ini juga tidak mampu mengatasi beberapa skenario, seperti ketika urutan sampel perlu diintegrasikan ke dalam tindak lanjut atau dievaluasi dalam tindak lanjut. Untuk meminimalkan kueri model, para peneliti menggunakan proses pembuatan solusi tanpa henti. Artinya, secara langsung dan terus menerus menghasilkan solusi terhadap sub-masalah utama tanpa ada jeda generasi.
Ada banyak manfaat dari pendekatan ini. Pertama, semua solusi yang dihasilkan berada dalam konteks bersama yang sama, sehingga menghilangkan kebutuhan untuk menghasilkan kueri model terpisah untuk mengevaluasi setiap solusi. Kedua, meskipun mungkin tampak berlawanan dengan intuisi pada awalnya, token yang terisolasi atau probabilitas pengelompokan token mungkin tidak selalu mengarah pada pilihan yang bermakna. Gambar 4 memberikan diagram skema sederhana.
**3. Mengukur prospek submasalah. **Seperti disebutkan di atas, teknik yang ada mengandalkan petunjuk tambahan untuk mengidentifikasi potensi simpul pohon guna membantu mengambil keputusan tentang arah eksplorasi. Pengamatan kami menunjukkan bahwa LLM secara inheren cenderung memprioritaskan kandidat yang menjanjikan jika mereka dapat dirangkum dalam contoh kontekstual. Hal ini mengurangi kebutuhan akan rekayasa yang rumit dan memungkinkan integrasi heuristik yang canggih, baik yang bersifat intuitif maupun berbasis pengetahuan. Demikian pula, tidak ada keterputusan dalam pendekatan baru ini, yang memungkinkan penilaian langsung terhadap kelayakan kandidat dalam hasil yang sama.
**4. Mundur ke node yang lebih baik. **Memutuskan node mana yang akan dijelajahi selanjutnya (termasuk menelusuri kembali ke node sebelumnya) pada dasarnya bergantung pada algoritma pencarian pohon yang dipilih. Meskipun penelitian sebelumnya telah menggunakan metode eksternal seperti mekanisme pengkodean untuk proses pencarian, hal ini akan membatasi daya tariknya yang lebih luas dan memerlukan penyesuaian tambahan. Desain baru yang diusulkan dalam makalah ini sebagian besar mengadopsi metode DFS yang dilengkapi dengan pemangkasan. Tujuannya adalah untuk menjaga kedekatan antara node anak dengan node induk yang sama, sehingga mendorong LLM untuk memprioritaskan fitur lokal dibandingkan fitur jarak jauh. Selain itu, peneliti juga mengusulkan indikator kinerja metode AoT berbasis BFS. Para peneliti mengatakan bahwa kebutuhan akan mekanisme penyesuaian tambahan dapat dihilangkan dengan memanfaatkan kemampuan bawaan model untuk mendapatkan wawasan dari contoh-contoh kontekstual.
percobaan
Para peneliti melakukan percobaan pada permainan teka-teki silang mini 24 poin dan 5x5, dan hasilnya menunjukkan keunggulan metode AoT - kinerjanya disebabkan oleh metode tunggal (seperti metode standar, CoT, CoT-SC), dan juga sebanding dengan menggunakan metode mekanisme eksternal (seperti ToT).
Terlihat jelas dari Tabel 1 bahwa metode desain standar yang menggabungkan CoT/CoT-SC jelas tertinggal dibandingkan metode pencarian pohon yang digunakan melalui LLM.
Tabel 3 menyoroti efektivitas AoT pada tugas pengisian kata mini, dengan tingkat keberhasilan pengisian kata melebihi metode sebelumnya yang menggunakan berbagai teknik.
Namun, ini lebih buruk daripada ToT. Pengamatan penting adalah bahwa volume kueri yang digunakan oleh ToT sangat besar, melebihi AoT lebih dari seratus kali lipat. Faktor lain yang membuat AoT kalah dengan ToT adalah kemampuan backtracking yang melekat pada contoh algoritma tidak sepenuhnya diaktifkan. Jika kemampuan ini dapat dibuka sepenuhnya, fase generasi akan jauh lebih lama. Sebaliknya, ToT memiliki keuntungan menggunakan memori eksternal untuk backtracking.
membahas
Bisakah AoT melampaui DFS yang ditirunya?
Seperti yang ditunjukkan pada Gambar 5, AoT menggunakan lebih sedikit node secara keseluruhan dibandingkan versi DFS. DFS mengadopsi strategi terpadu ketika memilih subpohon untuk dieksplorasi selanjutnya, sementara LLM AoT mengintegrasikan heuristik bawaannya. Amplifikasi algoritma dasar ini mencerminkan keunggulan kemampuan penalaran rekursif LLM.
Bagaimana pilihan algoritma mempengaruhi kinerja AoT?
Tabel 5 menyajikan temuan eksperimental, dan dapat dilihat bahwa ketiga varian AoT mengungguli CoT kueri tunggal.
Hasil ini diharapkan, karena apa pun algoritmanya, ia mencari dan meninjau kembali potensi kesalahan - baik melalui upaya acak dalam varian pencarian acak, atau melalui penelusuran balik dalam konfigurasi DFS atau BFS. Perlu dicatat bahwa kedua versi pencarian terstruktur, AoT (DFS) dan AoT (BFS), lebih efisien daripada AoT (Random), yang menyoroti keunggulan wawasan algoritmik dalam penemuan solusi. Namun, AoT (BFS) tertinggal dari AoT (DFS). Dengan menganalisis lebih lanjut kesalahan AoT (BFS), para peneliti menemukan bahwa dibandingkan dengan AoT (DFS), AoT (BFS) lebih sulit untuk mengidentifikasi operasi yang optimal.
Jadi, bagaimana jumlah langkah pencarian dalam contoh algoritma menyesuaikan perilaku AoT?
Gambar 6 menunjukkan dampak dari jumlah langkah pencarian. Diantaranya, AoT (Long) dan AoT (Short) masing-masing merupakan versi yang lebih panjang dan lebih pendek dari hasil yang dihasilkan dibandingkan dengan AoT asli.
Hasilnya menunjukkan bahwa jumlah langkah pencarian menimbulkan bias implisit pada kecepatan pencarian LLM. Penting untuk dicatat bahwa meskipun mengambil langkah yang salah, penting untuk menekankan eksplorasi arah yang berpotensi.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Mengapa model besar lambat sekali? Ternyata saya terlalu banyak berpikir: arah baru adalah algoritma berpikir yang sama dengan manusia
Intuisi manusia adalah kemampuan yang sering diabaikan oleh peneliti AI, namun begitu halus sehingga kita sendiri tidak sepenuhnya memahaminya. Sebuah tim peneliti dari Virginia Tech dan Microsoft mengusulkan Algorithm of Thinking (AoT) dalam makalah terbarunya, yang menggabungkan intuisi dan keteraturan metode algoritmik untuk menghemat biaya sekaligus memastikan kinerja LLM.
Model bahasa skala besar telah berkembang pesat akhir-akhir ini, menunjukkan kemampuan luar biasa dalam memecahkan masalah umum, menghasilkan kode, dan mengikuti instruksi.
Meskipun model awal mengandalkan strategi jawaban langsung, penelitian saat ini telah bergerak menuju jalur penalaran linier dengan menguraikan masalah menjadi beberapa subtugas untuk menemukan solusi, atau dengan memodifikasi konteks untuk memanfaatkan mekanisme eksternal untuk mengubah pembuatan token.
Mirip dengan kognisi manusia, strategi LLM awal tampaknya meniru reaksi langsung (reaksi cepat), yang ditandai dengan pengambilan keputusan impulsif. Sebaliknya, metode yang lebih baru seperti Chain of Thoughts (CoT) dan less-to-mosting (L2M) mencerminkan sifat introspektif dari 2 (berpikir lambat). Perlu dicatat bahwa kemampuan penalaran aritmatika LLM dapat ditingkatkan dengan mengintegrasikan langkah-langkah penalaran perantara.
Di sisi lain, metode LLM yang disempurnakan ini bukannya tanpa kekurangan. Salah satu kelemahan yang jelas adalah jumlah kueri dan kebutuhan komputasi dapat meroket. Setiap kueri ke API LLM online seperti GPT-4 menimbulkan biaya moneter yang besar dan meningkatkan latensi, sebuah batasan yang sangat penting untuk aplikasi real-time. Akumulasi latensi dari kueri ini dapat mengganggu efisiensi skenario secara keseluruhan. Dari segi infrastruktur, interaksi yang konstan dapat memberikan tekanan pada sistem, yang dapat membatasi bandwidth dan mengurangi ketersediaan model. Selain itu, dampak terhadap lingkungan tidak dapat diabaikan. Permintaan yang terus-menerus akan meningkatkan konsumsi energi pusat data yang sudah boros energi, sehingga semakin meningkatkan jejak karbon.
Berdasarkan pertimbangan ini, tujuan pengoptimalan para peneliti adalah untuk secara signifikan mengurangi jumlah kueri yang digunakan oleh metode inferensi multi-kueri saat ini, sambil mempertahankan kinerja yang memadai untuk memungkinkan model mengatasi tugas-tugas yang memerlukan penggunaan pengetahuan dunia yang terampil, sehingga memandu orang-orang menjadi lebih bertanggung jawab dan mahir. Gunakan sumber daya AI secara efisien.
Dengan memikirkan evolusi LLM dari 1 ke 2, kita dapat melihat munculnya faktor kunci: algoritma. Algoritma terstruktur dan menyediakan cara untuk membantu orang mengeksplorasi ruang masalah, mengembangkan strategi, dan membangun solusi. Meskipun sebagian besar literatur arus utama memperlakukan algoritme sebagai alat eksternal untuk LLM, mengingat kemampuan reproduksi generatif yang melekat pada LLM, dapatkah kita memandu logika berulang ini untuk menginternalisasi algoritme ke dalam LLM?
Sebuah tim peneliti di Virginia Tech dan Microsoft telah menyatukan kecanggihan penalaran manusia dan ketepatan metodologi metode algoritmik dalam upaya untuk meningkatkan penalaran dalam LLM dengan menggabungkan kedua aspek tersebut.
Penelitian yang ada menekankan bahwa manusia secara naluriah memanfaatkan pengalaman masa lalu ketika memecahkan masalah yang kompleks untuk memastikan bahwa mereka berpikir secara holistik dan tidak fokus secara sempit pada satu detail. Kisaran generasi LLM hanya dibatasi oleh batas tokennya, dan tampaknya ditakdirkan untuk menembus hambatan memori kerja manusia.
Terinspirasi oleh pengamatan ini, para peneliti mengeksplorasi apakah LLM dapat memungkinkan eksplorasi ide secara hierarkis, menyaring opsi-opsi yang tidak layak dengan mengacu pada langkah-langkah perantara sebelumnya—semuanya dalam siklus generasi LLM. Meskipun manusia pandai dalam intuisi dan ketajaman, algoritma pandai dalam eksplorasi yang terorganisir dan sistematis. Teknologi saat ini seperti CoT cenderung menghindari potensi sinergis ini dan terlalu fokus pada akurasi lapangan LLM. Dengan memanfaatkan kemampuan rekursif LLM, para peneliti membangun pendekatan hibrida algoritmik manusia. Hal ini dilakukan melalui penggunaan contoh algoritmik yang menangkap esensi eksplorasi—mulai dari kandidat awal hingga solusi yang terbukti.
Berdasarkan pengamatan tersebut, peneliti mengusulkan Algorithm of Thoughts (AoT).
Algoritma Berpikir
Para peneliti mengatakan bahwa inti dari strategi penelitian mereka adalah untuk mengenali kelemahan inti dari paradigma pembelajaran kontekstual saat ini. Meskipun CoT dapat meningkatkan konsistensi hubungan mental, terkadang CoT bisa salah dan memberikan langkah perantara yang salah.
Untuk menggambarkan fenomena ini, peneliti merancang sebuah eksperimen. Saat menanyakan teks-davinci-003 dengan tugas aritmatika (seperti 11 − 2 =), peneliti akan menambahkan beberapa persamaan konteks di depan yang akan mendapatkan hasil keluaran yang sama (seperti 15 − 5 = 10, 8 + 2 = 10 ).
Untuk mengurangi bias ini, membuat contoh lebih beragam mungkin merupakan solusi yang tepat, namun hal ini mungkin sedikit mengubah distribusi keluaran. Menambahkan beberapa upaya yang gagal (seperti penelusuran acak) mungkin secara tidak sengaja mendorong model untuk mencoba lagi tanpa benar-benar menyelesaikan masalah. Memahami sifat sebenarnya dari perilaku algoritmik (dimana pencarian yang gagal dan pemulihan selanjutnya adalah hal yang penting, serta belajar dari upaya ini), cara peneliti memasukkan contoh kontekstual adalah dengan mengikuti pola algoritma pencarian, terutama pencarian depth-first (DFS) dan Pencarian Pertama Luas (BFS). Gambar 1 memberikan contoh.
Makalah ini berfokus pada sejumlah besar tugas yang mirip dengan masalah pencarian pohon.
Jenis tugas ini memerlukan perincian masalah utama, membangun solusi yang layak untuk setiap bagian, dan memutuskan untuk mengadopsi atau meninggalkan jalur tertentu, dengan pilihan untuk mengevaluasi kembali bagian-bagian yang memiliki potensi lebih besar.
Daripada memberikan pertanyaan terpisah untuk setiap subset, para peneliti memanfaatkan kemampuan berulang LLM untuk menyelesaikannya dalam pemindaian generatif terpadu. Dengan membatasi diri hanya pada satu atau dua interaksi LLM, pendekatan ini secara alami dapat mengintegrasikan wawasan dari kandidat kontekstual sebelumnya dan memecahkan masalah kompleks yang memerlukan eksplorasi mendalam pada domain solusi. Para peneliti juga telah memberikan wawasan mereka sendiri tentang seberapa besar pemikiran ini seharusnya dan jenis contoh kontekstual apa yang harus diberikan kepada LLM untuk meningkatkan efisiensi token. Komponen kunci dari algoritma pencarian pohon dan representasinya dalam kerangka baru diberikan di bawah ini.
**1. Uraikan menjadi submasalah. **Mengingat suatu masalah, membangun pohon pencarian yang menggambarkan jalur penalaran yang layak sudah merupakan tugas yang menakutkan, bahkan tanpa melihat aspek pemecahan masalah yang sebenarnya. Dekomposisi apa pun harus mempertimbangkan tidak hanya keterkaitan antar subtugas, tetapi juga kemudahan penyelesaian setiap masalah.
Ambil contoh penjumlahan multi-digit sederhana: Meskipun komputer efisien untuk mengubah nilai numerik menjadi bilangan biner, manusia sering kali menganggap bilangan desimal lebih intuitif. Selain itu, meskipun submasalahnya sama, metode eksekusinya mungkin berbeda. Intuisi dapat menemukan jalan pintas di antara langkah-langkah menuju suatu solusi, dan tanpa intuisi, langkah-langkah yang lebih rinci mungkin diperlukan.
Untuk membuat yang benar (yaitu, contoh algoritme kontekstual), kehalusan ini penting dan menentukan jumlah minimum token yang diperlukan oleh LLM untuk kinerja yang andal. Hal ini tidak hanya memenuhi batasan konteks LLM, namun juga penting untuk kemampuan LLM, karena kami berharap LLM dapat menggunakan jumlah token yang sama untuk memecahkan masalah yang sesuai dengan konteksnya.
**2. Mengusulkan solusi untuk sub-masalah tersebut. **Salah satu metode utama saat ini melibatkan pengambilan sampel langsung probabilitas keluaran token LLM. Meskipun metode ini efektif untuk jawaban satu kali (dengan batasan tertentu), metode ini juga tidak mampu mengatasi beberapa skenario, seperti ketika urutan sampel perlu diintegrasikan ke dalam tindak lanjut atau dievaluasi dalam tindak lanjut. Untuk meminimalkan kueri model, para peneliti menggunakan proses pembuatan solusi tanpa henti. Artinya, secara langsung dan terus menerus menghasilkan solusi terhadap sub-masalah utama tanpa ada jeda generasi.
Ada banyak manfaat dari pendekatan ini. Pertama, semua solusi yang dihasilkan berada dalam konteks bersama yang sama, sehingga menghilangkan kebutuhan untuk menghasilkan kueri model terpisah untuk mengevaluasi setiap solusi. Kedua, meskipun mungkin tampak berlawanan dengan intuisi pada awalnya, token yang terisolasi atau probabilitas pengelompokan token mungkin tidak selalu mengarah pada pilihan yang bermakna. Gambar 4 memberikan diagram skema sederhana.
**4. Mundur ke node yang lebih baik. **Memutuskan node mana yang akan dijelajahi selanjutnya (termasuk menelusuri kembali ke node sebelumnya) pada dasarnya bergantung pada algoritma pencarian pohon yang dipilih. Meskipun penelitian sebelumnya telah menggunakan metode eksternal seperti mekanisme pengkodean untuk proses pencarian, hal ini akan membatasi daya tariknya yang lebih luas dan memerlukan penyesuaian tambahan. Desain baru yang diusulkan dalam makalah ini sebagian besar mengadopsi metode DFS yang dilengkapi dengan pemangkasan. Tujuannya adalah untuk menjaga kedekatan antara node anak dengan node induk yang sama, sehingga mendorong LLM untuk memprioritaskan fitur lokal dibandingkan fitur jarak jauh. Selain itu, peneliti juga mengusulkan indikator kinerja metode AoT berbasis BFS. Para peneliti mengatakan bahwa kebutuhan akan mekanisme penyesuaian tambahan dapat dihilangkan dengan memanfaatkan kemampuan bawaan model untuk mendapatkan wawasan dari contoh-contoh kontekstual.
percobaan
Para peneliti melakukan percobaan pada permainan teka-teki silang mini 24 poin dan 5x5, dan hasilnya menunjukkan keunggulan metode AoT - kinerjanya disebabkan oleh metode tunggal (seperti metode standar, CoT, CoT-SC), dan juga sebanding dengan menggunakan metode mekanisme eksternal (seperti ToT).
Terlihat jelas dari Tabel 1 bahwa metode desain standar yang menggabungkan CoT/CoT-SC jelas tertinggal dibandingkan metode pencarian pohon yang digunakan melalui LLM.
membahas
Bisakah AoT melampaui DFS yang ditirunya?
Seperti yang ditunjukkan pada Gambar 5, AoT menggunakan lebih sedikit node secara keseluruhan dibandingkan versi DFS. DFS mengadopsi strategi terpadu ketika memilih subpohon untuk dieksplorasi selanjutnya, sementara LLM AoT mengintegrasikan heuristik bawaannya. Amplifikasi algoritma dasar ini mencerminkan keunggulan kemampuan penalaran rekursif LLM.
Tabel 5 menyajikan temuan eksperimental, dan dapat dilihat bahwa ketiga varian AoT mengungguli CoT kueri tunggal.
Jadi, bagaimana jumlah langkah pencarian dalam contoh algoritma menyesuaikan perilaku AoT?
Gambar 6 menunjukkan dampak dari jumlah langkah pencarian. Diantaranya, AoT (Long) dan AoT (Short) masing-masing merupakan versi yang lebih panjang dan lebih pendek dari hasil yang dihasilkan dibandingkan dengan AoT asli.