Agen AI, atau agen cerdas otonom, tidak hanya asisten super manusia dalam film fiksi ilmiah seperti Jarvis, tetapi juga telah menjadi hotspot penelitian di bidang AI di dunia nyata. Secara khusus, kemunculan model besar AI yang diwakili oleh GPT-4 telah mendorong konsep agen AI ke garis depan teknologi.
Di "kota virtual" Stanford yang sebelumnya populer, 25 agen AI tumbuh dengan bebas di kota virtual dan mengadakan pesta Hari Valentine; model agen yang diwujudkan Voyager yang diusulkan oleh Nvidia dan yang lainnya juga belajar di "My World" Berbagai keterampilan bertahan hidup telah menciptakannya sendiri dunia; selain itu, AutoGPT, BabyAGI dan AgentGPT yang dapat menyelesaikan tugas secara mandiri juga telah membangkitkan minat yang luas dan diskusi yang hangat di kalangan masyarakat.
Bahkan Andrej Karpathy, mantan direktur AI Tesla dan kembali ke OpenAI, mengungkapkan di acara pengembang bahwa setiap kali ada makalah agen AI baru, OpenAI akan sangat tertarik dan berdiskusi dengan serius**.
Meskipun penelitian agen AI saat ini sangat panas, Saat ini, industri AI tidak memiliki tolok ukur yang sistematis dan standar untuk mengevaluasi tingkat kecerdasan LLM sebagai agen.
Untuk itu, tim peneliti dari Tsinghua University, Ohio State University, dan University of California, Berkeley mengusulkan tes tolok ukur sistematis pertama - AgentBench, untuk mengevaluasi LLM sebagai agen dalam berbagai tantangan dan Kinerja dunia nyata (seperti keterampilan penalaran dan pengambilan keputusan) di 8 lingkungan yang berbeda.
Hasilnya menunjukkan bahwa Model bahasa komersial teratas seperti GPT-4 bekerja dengan baik di lingkungan yang kompleks, dengan keunggulan yang signifikan di antara model open source. Untuk tujuan ini, tim peneliti menyarankan bahwa diperlukan upaya lebih lanjut untuk meningkatkan kemampuan pembelajaran LLM sumber terbuka.
Makalah penelitian terkait berjudul "AgentBench: uating LLMs as Agents" telah diterbitkan di situs pracetak arXiv. Selain itu, Dataset terkait, lingkungan, dan paket evaluasi terintegrasi juga telah dipublikasikan di GitHub.
Tolok Ukur Sistematis Pertama
Dalam penelitian dan praktik sebelumnya, lingkungan permainan berbasis teks telah digunakan untuk penilaian agensi bahasa. Namun, mereka sering dibatasi oleh ruang tindakan diskrit tertutup, dan fokus mereka terutama pada kemampuan model berbasis akal sehat.
Beberapa upaya terbaru pada agen yang diwujudkan menggunakan simulator multimodal yang kompleks berdasarkan permainan, antarmuka pengguna grafis (GUI), dan pemandangan dalam ruangan. Namun, terlepas dari kompleksitas simulator ini, mereka tidak dapat secara akurat mencerminkan penggunaan LLM dalam kasus penggunaan dunia nyata, dan sifat multimoda mereka juga menimbulkan hambatan untuk evaluasi cepat LLM teks biasa.
Selain itu, sebagian besar tolok ukur agen difokuskan pada satu lingkungan, yang membatasi kemampuan mereka untuk memberikan gambaran menyeluruh tentang LLM dalam skenario aplikasi yang berbeda.
Dalam pekerjaan ini, tim peneliti mengerjakan sistem operasi (OS), basis data (DB), grafik pengetahuan (KG), permainan kartu (DCG), tebak skenario (LTP), perabot rumah tangga (Alfworld), belanja online (WebShop). dan penjelajahan web (Mind2Web) ** 25 model bahasa yang berbeda (baik model berbasis API maupun sumber terbuka) dievaluasi secara komprehensif menggunakan AgentBench dalam 8 tugas lingkungan yang berbeda.
Hasil pengujian menunjukkan bahwa model canggih seperti GPT-4 mampu menangani berbagai macam tugas di dunia nyata, sementara sebagian besar LLM sumber terbuka berperforma jauh lebih buruk daripada LLM berbasis API di AgentBench; bahkan, yang paling mampu Ada juga perbedaan kinerja yang signifikan antara model open source openchat-13b-v3.2 dan gpt-3.5-turbo.
Meskipun melalui pelatihan penyelarasan yang ekstensif, LLM tidak hanya dapat menguasai tugas-tugas NLP tradisional seperti menjawab pertanyaan, penalaran bahasa alami, dan peringkasan teks, tetapi juga menunjukkan kemampuan untuk memahami maksud manusia dan menjalankan instruksi, mereka bekerja dengan buruk pada tugas-tugas AgentBench seperti Efektivitas tindakan , konteks panjang, konsistensi multi-bulat, dan pelatihan kode) kinerjanya relatif tertinggal.
Menurut tim peneliti, lebih banyak pekerjaan diperlukan di masa depan untuk melakukan penilaian yang lebih ketat dan sistematis, dan untuk menyediakan alat sumber terbuka yang kuat untuk memfasilitasi penilaian tersebut, seperti terus meningkatkan AgentBench agar lebih komprehensif dan inklusif, dan membangun sistem evaluasi yang lebih sistematis untuk LLM, dll.
Perlombaan menuju agen AI "otonom" menyapu Silicon Valley
Evolusi berkelanjutan dari model besar AI telah menyebabkan lahirnya asisten baru. Perlombaan untuk agen AI "otonom" saat ini memicu kegilaan di Silicon Valley. Tidak hanya menarik pengembang individu, tetapi perusahaan raksasa seperti Microsoft dan Alphabet, perusahaan induk Google, serta banyak perusahaan baru juga berpartisipasi aktif.
Ambil startup Infleksi AI, yang salah satu pendiri Reid Hoffman dan Mustafa Suleyman mengatakan dalam podcast bahwa mereka sedang mengembangkan asisten pribadi yang dapat bertindak sebagai mentor dan menangani tugas-tugas seperti mengatur kredit penerbangan dan urusan hotel.
Pengembang perusahaan MultiOn Div Garg mengatakan tujuannya adalah untuk mengembangkannya menjadi teman AI pribadi, mirip dengan asisten virtual "Jarvis". Mereka ingin proxy ini dapat terhubung ke layanan individual.
CEO General Intelligent Kanjun Qiu berkata: "Hal-hal yang mudah bagi manusia masih sangat sulit bagi komputer, seperti menjadwalkan pertemuan bos dengan sekelompok pelanggan penting. Ini membutuhkan kemampuan penalaran yang sangat kompleks, melibatkan akses ke preferensi semua orang, menyelesaikan konflik, sekaligus bernuansa saat bekerja dengan klien.”
Qiu dan empat pengembang agensi lainnya memperkirakan bahwa sistem pertama yang dapat melakukan tugas multi-langkah secara andal dengan otonomi tertentu akan tersedia dalam waktu satu tahun, dengan fokus pada vertikal seperti pengkodean dan pemasaran.
CEO Microsoft Satya Nadella pernah berkata dalam sebuah wawancara dengan Financial Times: "Apakah itu Cortana milik Microsoft, Alexa milik Amazon, Asisten Google, atau Siri milik Apple, mereka tidak cukup pintar untuk memenuhi ekspektasi awal."
** Mengesampingkan kekhawatiran yang ada, agen AI telah menunjukkan potensi dan pasar yang besar. **Meskipun kami mungkin menghadapi beberapa tantangan dalam proses eksplorasi dan aplikasi, seperti banyak inovasi dalam sejarah, seiring berjalannya waktu, kami diharapkan untuk menyaksikan agen AI ini membawa manfaat positif dan positif bagi masyarakat manusia melalui pengoptimalan dan peningkatan berkelanjutan. pengaruh yang mendalam.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Dipimpin oleh tim Tsinghua, uji benchmark sistematis agen AI pertama keluar
Agen AI, atau agen cerdas otonom, tidak hanya asisten super manusia dalam film fiksi ilmiah seperti Jarvis, tetapi juga telah menjadi hotspot penelitian di bidang AI di dunia nyata. Secara khusus, kemunculan model besar AI yang diwakili oleh GPT-4 telah mendorong konsep agen AI ke garis depan teknologi.
Di "kota virtual" Stanford yang sebelumnya populer, 25 agen AI tumbuh dengan bebas di kota virtual dan mengadakan pesta Hari Valentine; model agen yang diwujudkan Voyager yang diusulkan oleh Nvidia dan yang lainnya juga belajar di "My World" Berbagai keterampilan bertahan hidup telah menciptakannya sendiri dunia; selain itu, AutoGPT, BabyAGI dan AgentGPT yang dapat menyelesaikan tugas secara mandiri juga telah membangkitkan minat yang luas dan diskusi yang hangat di kalangan masyarakat.
Bahkan Andrej Karpathy, mantan direktur AI Tesla dan kembali ke OpenAI, mengungkapkan di acara pengembang bahwa setiap kali ada makalah agen AI baru, OpenAI akan sangat tertarik dan berdiskusi dengan serius**.
Meskipun penelitian agen AI saat ini sangat panas, Saat ini, industri AI tidak memiliki tolok ukur yang sistematis dan standar untuk mengevaluasi tingkat kecerdasan LLM sebagai agen.
Untuk itu, tim peneliti dari Tsinghua University, Ohio State University, dan University of California, Berkeley mengusulkan tes tolok ukur sistematis pertama - AgentBench, untuk mengevaluasi LLM sebagai agen dalam berbagai tantangan dan Kinerja dunia nyata (seperti keterampilan penalaran dan pengambilan keputusan) di 8 lingkungan yang berbeda.
Makalah penelitian terkait berjudul "AgentBench: uating LLMs as Agents" telah diterbitkan di situs pracetak arXiv. Selain itu, Dataset terkait, lingkungan, dan paket evaluasi terintegrasi juga telah dipublikasikan di GitHub.
Tolok Ukur Sistematis Pertama
Dalam penelitian dan praktik sebelumnya, lingkungan permainan berbasis teks telah digunakan untuk penilaian agensi bahasa. Namun, mereka sering dibatasi oleh ruang tindakan diskrit tertutup, dan fokus mereka terutama pada kemampuan model berbasis akal sehat.
Beberapa upaya terbaru pada agen yang diwujudkan menggunakan simulator multimodal yang kompleks berdasarkan permainan, antarmuka pengguna grafis (GUI), dan pemandangan dalam ruangan. Namun, terlepas dari kompleksitas simulator ini, mereka tidak dapat secara akurat mencerminkan penggunaan LLM dalam kasus penggunaan dunia nyata, dan sifat multimoda mereka juga menimbulkan hambatan untuk evaluasi cepat LLM teks biasa.
Selain itu, sebagian besar tolok ukur agen difokuskan pada satu lingkungan, yang membatasi kemampuan mereka untuk memberikan gambaran menyeluruh tentang LLM dalam skenario aplikasi yang berbeda.
Dalam pekerjaan ini, tim peneliti mengerjakan sistem operasi (OS), basis data (DB), grafik pengetahuan (KG), permainan kartu (DCG), tebak skenario (LTP), perabot rumah tangga (Alfworld), belanja online (WebShop). dan penjelajahan web (Mind2Web) ** 25 model bahasa yang berbeda (baik model berbasis API maupun sumber terbuka) dievaluasi secara komprehensif menggunakan AgentBench dalam 8 tugas lingkungan yang berbeda.
Hasil pengujian menunjukkan bahwa model canggih seperti GPT-4 mampu menangani berbagai macam tugas di dunia nyata, sementara sebagian besar LLM sumber terbuka berperforma jauh lebih buruk daripada LLM berbasis API di AgentBench; bahkan, yang paling mampu Ada juga perbedaan kinerja yang signifikan antara model open source openchat-13b-v3.2 dan gpt-3.5-turbo.
Menurut tim peneliti, lebih banyak pekerjaan diperlukan di masa depan untuk melakukan penilaian yang lebih ketat dan sistematis, dan untuk menyediakan alat sumber terbuka yang kuat untuk memfasilitasi penilaian tersebut, seperti terus meningkatkan AgentBench agar lebih komprehensif dan inklusif, dan membangun sistem evaluasi yang lebih sistematis untuk LLM, dll.
Perlombaan menuju agen AI "otonom" menyapu Silicon Valley
Evolusi berkelanjutan dari model besar AI telah menyebabkan lahirnya asisten baru. Perlombaan untuk agen AI "otonom" saat ini memicu kegilaan di Silicon Valley. Tidak hanya menarik pengembang individu, tetapi perusahaan raksasa seperti Microsoft dan Alphabet, perusahaan induk Google, serta banyak perusahaan baru juga berpartisipasi aktif.
Ambil startup Infleksi AI, yang salah satu pendiri Reid Hoffman dan Mustafa Suleyman mengatakan dalam podcast bahwa mereka sedang mengembangkan asisten pribadi yang dapat bertindak sebagai mentor dan menangani tugas-tugas seperti mengatur kredit penerbangan dan urusan hotel.
Pengembang perusahaan MultiOn Div Garg mengatakan tujuannya adalah untuk mengembangkannya menjadi teman AI pribadi, mirip dengan asisten virtual "Jarvis". Mereka ingin proxy ini dapat terhubung ke layanan individual.
CEO General Intelligent Kanjun Qiu berkata: "Hal-hal yang mudah bagi manusia masih sangat sulit bagi komputer, seperti menjadwalkan pertemuan bos dengan sekelompok pelanggan penting. Ini membutuhkan kemampuan penalaran yang sangat kompleks, melibatkan akses ke preferensi semua orang, menyelesaikan konflik, sekaligus bernuansa saat bekerja dengan klien.”
Qiu dan empat pengembang agensi lainnya memperkirakan bahwa sistem pertama yang dapat melakukan tugas multi-langkah secara andal dengan otonomi tertentu akan tersedia dalam waktu satu tahun, dengan fokus pada vertikal seperti pengkodean dan pemasaran.
CEO Microsoft Satya Nadella pernah berkata dalam sebuah wawancara dengan Financial Times: "Apakah itu Cortana milik Microsoft, Alexa milik Amazon, Asisten Google, atau Siri milik Apple, mereka tidak cukup pintar untuk memenuhi ekspektasi awal."
** Mengesampingkan kekhawatiran yang ada, agen AI telah menunjukkan potensi dan pasar yang besar. **Meskipun kami mungkin menghadapi beberapa tantangan dalam proses eksplorasi dan aplikasi, seperti banyak inovasi dalam sejarah, seiring berjalannya waktu, kami diharapkan untuk menyaksikan agen AI ini membawa manfaat positif dan positif bagi masyarakat manusia melalui pengoptimalan dan peningkatan berkelanjutan. pengaruh yang mendalam.