AI ajanları veya otonom akıllı ajanlar, Jarvis gibi bilim kurgu filmlerinde yalnızca insan süper yardımcıları değil, aynı zamanda gerçek dünyada AI alanında bir araştırma noktası olmuştur. Özellikle, GPT-4 tarafından temsil edilen yapay zeka büyük modellerinin ortaya çıkışı, yapay zeka aracıları kavramını teknolojinin ön saflarına taşımıştır.
Daha önce popüler olan Stanford "sanal kasabasında", 25 yapay zeka ajanı sanal kasabada özgürce büyüdü ve bir Sevgililer Günü partisi düzenledi; Nvidia ve diğerleri tarafından önerilen somutlaştırılmış ajan modeli Voyager ve diğerleri de "My World"de öğrendi Çeşitli hayatta kalma becerileri kendi Ayrıca bağımsız olarak görev yapabilen AutoGPT, BabyAGI ve AgentGPT de kamuoyunda büyük ilgi ve hararetli tartışmalara neden oldu.
Eski Tesla AI direktörü ve OpenAI'ye geri dönen Andrej Karpathy bile, bir geliştirici etkinliğinde, ne zaman yeni bir AI ajan makalesi olsa, OpenAI'nin çok ilgileneceğini ve ciddi bir şekilde tartışacağını açıkladı**.
Mevcut AI ajan araştırması son derece sıcak olmasına rağmen, Şu anda AI endüstrisi, LLM'lerin ajanlar olarak zeka seviyesini değerlendirmek için sistematik ve standartlaştırılmış bir kıyaslamadan yoksundur.
Bu amaçla, Tsinghua Üniversitesi, Ohio Eyalet Üniversitesi ve California Üniversitesi, Berkeley'den bir araştırma ekibi, LLM'leri çeşitli gerçek dünya zorluklarında ve Performansta (örneğin, muhakeme ve karar verme becerileri) 8 farklı ortamda.
Sonuçlar, GPT-4 gibi en iyi ticari dil modellerinin, açık kaynak modeller arasında önemli bir avantajla birlikte karmaşık ortamlarda iyi performans gösterdiğini göstermektedir. Bu amaçla, araştırma ekibi, açık kaynaklı LLM'lerin öğrenme yeteneklerini geliştirmek için daha fazla çaba gösterilmesi gerektiğini önermektedir.
Ön baskı web sitesi arXiv'de "AgentBench: uating LLMs as Agents" başlıklı ilgili bir araştırma makalesi yayınlandı. Ayrıca İlgili veri kümeleri, ortamlar ve entegre değerlendirme paketleri de GitHub'da yayınlandı.
İlk Sistematik Karşılaştırma
Daha önceki araştırma ve uygulamalarda, dil aracılığının değerlendirilmesi için metin tabanlı oyun ortamları kullanılmıştır. Bununla birlikte, genellikle kapalı ayrık eylem alanlarıyla sınırlıdırlar ve temel olarak modellerin sağduyuya dayalı yeteneklerine odaklanırlar.
Somutlaştırılmış ajanlara yönelik bazı yeni girişimler, oyunlara, grafik kullanıcı arayüzlerine (GUI'ler) ve iç mekan sahnelerine dayalı karmaşık çok modlu simülatörler kullanır. Bununla birlikte, bu simülatörlerin karmaşıklığına rağmen, LLM'lerin gerçek dünyadaki kullanım durumlarındaki kullanımını doğru bir şekilde yansıtamazlar ve çok modlu yapıları da düz metin LLM'lerin hızlı değerlendirilmesine engel teşkil eder.
Ayrıca, aracı kıyaslamalarının çoğu, farklı uygulama senaryolarında LLM'lere kapsamlı bir genel bakış sağlama yeteneklerini sınırlayan tek bir ortama odaklanır.
Bu çalışmada araştırma ekibi işletim sistemi (OS), veri tabanı (DB), bilgi grafiği (KG), kart oyunu (DCG), senaryo tahmini (LTP), ev mobilyası (Alfworld), online alışveriş (WebShop) üzerinde çalıştı. ve web tarama (Mind2Web) ** 25 farklı dil modeli (hem API tabanlı hem de açık kaynak modeller), 8 farklı ortam görevinde AgentBench kullanılarak kapsamlı bir şekilde değerlendirilmiştir.
Test sonuçları, GPT-4 gibi son teknoloji modellerin çok çeşitli gerçek dünya görevlerini yerine getirebildiğini gösterirken, açık kaynaklı LLM'lerin çoğu AgentBench'teki API tabanlı LLM'lerden çok daha kötü performans gösteriyor; Hatta en yetenekli açık kaynak model olan openchat-13b-v3.2 ile gpt-3.5-turbo arasında da ciddi bir performans farkı bulunuyor.
Kapsamlı hizalama eğitimi yoluyla, LLM'ler yalnızca soru yanıtlama, doğal dil muhakemesi ve metin özetleme gibi geleneksel NLP görevlerinde ustalaşmakla kalmaz, aynı zamanda insan niyetlerini anlama ve talimatları yürütme becerisini de gösterseler de, eylem Etkinliği gibi AgentBench görevlerinde zayıf performans gösterirler. , uzun bağlam, çok aşamalı tutarlılık ve kod eğitimi) performansı nispeten geride kalıyor.
Araştırma ekibine göre daha titiz ve sistematik değerlendirmeler yapmak ve bu tür değerlendirmeleri kolaylaştıracak güçlü açık kaynak araçları sağlamak için gelecekte daha fazla çalışmaya ihtiyaç var, örneğin AgentBench'i daha kapsamlı ve kapsayıcı hale getirmek için sürekli iyileştirmek, ve LLM'ler vb. için daha sistematik bir değerlendirme sistemi oluşturmak.
Yapay zeka büyük modellerinin sürekli gelişimi, yeni asistanların doğmasına yol açtı. "Özerk" AI ajanları için yarış şu anda Silikon Vadisi'nde bir çılgınlığı körüklüyor. Bireysel geliştiricilerin ilgisini çekmesinin yanı sıra Microsoft ve Google'ın ana şirketi Alphabet gibi dev şirketler ile birçok start-up da aktif olarak katıldı.
Kurucu ortakları Reid Hoffman ve Mustafa Suleyman'ın bir podcast'te akıl hocası olarak hareket edebilecek ve uçuş kredisi ve otel işleri düzenleme gibi görevleri yerine getirebilecek kişisel bir asistan geliştirdiklerini söyledikleri Inflection AI girişimini ele alalım.
MultiOn şirket geliştiricisi Div Garg, amacın onu sanal asistan "Jarvis"e benzer bir kişisel AI arkadaşına dönüştürmek olduğunu söyledi. Bu proxy'nin bireysel hizmetlere bağlanabilmesini istiyorlar.
General Intelligent CEO'su Kanjun Qiu şunları söyledi: "Bir grup önemli müşteriyle patron için bir toplantı ayarlamak gibi, insanlar için kolay olan şeyler bilgisayarlar için hala çok zor. çatışmalar, aynı zamanda müşterilerle çalışırken incelikli olmak.
Qiu ve diğer dört ajans geliştiricisi, kodlama ve pazarlama gibi sektörlere odaklanarak, çok adımlı görevleri biraz özerklikle güvenilir bir şekilde gerçekleştirebilen ilk sistemlerin bir yıl içinde kullanıma sunulacağını tahmin ediyor.
Microsoft CEO'su Satya Nadella bir keresinde Financial Times'a verdiği bir röportajda şöyle demişti: "Microsoft'un kendi Cortana'sı, Amazon'un Alexa'sı, Google Assistant veya Apple'ın Siri'si olsun, ilk beklentileri karşılayacak kadar akıllı değiller."
**Mevcut endişeler bir yana, yapay zeka aracıları büyük bir potansiyel ve pazar gösterdi. **Tıpkı tarihteki birçok yenilik gibi, keşif ve uygulama sürecinde bazı zorluklarla karşılaşabilsek de, zaman geçtikçe bu AI aracılarının sürekli optimizasyon ve iyileştirme yoluyla insan toplumuna olumlu ve olumlu faydalar sağladığına tanık olmamız bekleniyor. derin etki.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Tsinghua ekibi liderliğindeki ilk yapay zeka ajanı sistematik kıyaslama testi çıktı
AI ajanları veya otonom akıllı ajanlar, Jarvis gibi bilim kurgu filmlerinde yalnızca insan süper yardımcıları değil, aynı zamanda gerçek dünyada AI alanında bir araştırma noktası olmuştur. Özellikle, GPT-4 tarafından temsil edilen yapay zeka büyük modellerinin ortaya çıkışı, yapay zeka aracıları kavramını teknolojinin ön saflarına taşımıştır.
Daha önce popüler olan Stanford "sanal kasabasında", 25 yapay zeka ajanı sanal kasabada özgürce büyüdü ve bir Sevgililer Günü partisi düzenledi; Nvidia ve diğerleri tarafından önerilen somutlaştırılmış ajan modeli Voyager ve diğerleri de "My World"de öğrendi Çeşitli hayatta kalma becerileri kendi Ayrıca bağımsız olarak görev yapabilen AutoGPT, BabyAGI ve AgentGPT de kamuoyunda büyük ilgi ve hararetli tartışmalara neden oldu.
Eski Tesla AI direktörü ve OpenAI'ye geri dönen Andrej Karpathy bile, bir geliştirici etkinliğinde, ne zaman yeni bir AI ajan makalesi olsa, OpenAI'nin çok ilgileneceğini ve ciddi bir şekilde tartışacağını açıkladı**.
Mevcut AI ajan araştırması son derece sıcak olmasına rağmen, Şu anda AI endüstrisi, LLM'lerin ajanlar olarak zeka seviyesini değerlendirmek için sistematik ve standartlaştırılmış bir kıyaslamadan yoksundur.
Bu amaçla, Tsinghua Üniversitesi, Ohio Eyalet Üniversitesi ve California Üniversitesi, Berkeley'den bir araştırma ekibi, LLM'leri çeşitli gerçek dünya zorluklarında ve Performansta (örneğin, muhakeme ve karar verme becerileri) 8 farklı ortamda.
Ön baskı web sitesi arXiv'de "AgentBench: uating LLMs as Agents" başlıklı ilgili bir araştırma makalesi yayınlandı. Ayrıca İlgili veri kümeleri, ortamlar ve entegre değerlendirme paketleri de GitHub'da yayınlandı.
İlk Sistematik Karşılaştırma
Daha önceki araştırma ve uygulamalarda, dil aracılığının değerlendirilmesi için metin tabanlı oyun ortamları kullanılmıştır. Bununla birlikte, genellikle kapalı ayrık eylem alanlarıyla sınırlıdırlar ve temel olarak modellerin sağduyuya dayalı yeteneklerine odaklanırlar.
Somutlaştırılmış ajanlara yönelik bazı yeni girişimler, oyunlara, grafik kullanıcı arayüzlerine (GUI'ler) ve iç mekan sahnelerine dayalı karmaşık çok modlu simülatörler kullanır. Bununla birlikte, bu simülatörlerin karmaşıklığına rağmen, LLM'lerin gerçek dünyadaki kullanım durumlarındaki kullanımını doğru bir şekilde yansıtamazlar ve çok modlu yapıları da düz metin LLM'lerin hızlı değerlendirilmesine engel teşkil eder.
Ayrıca, aracı kıyaslamalarının çoğu, farklı uygulama senaryolarında LLM'lere kapsamlı bir genel bakış sağlama yeteneklerini sınırlayan tek bir ortama odaklanır.
Bu çalışmada araştırma ekibi işletim sistemi (OS), veri tabanı (DB), bilgi grafiği (KG), kart oyunu (DCG), senaryo tahmini (LTP), ev mobilyası (Alfworld), online alışveriş (WebShop) üzerinde çalıştı. ve web tarama (Mind2Web) ** 25 farklı dil modeli (hem API tabanlı hem de açık kaynak modeller), 8 farklı ortam görevinde AgentBench kullanılarak kapsamlı bir şekilde değerlendirilmiştir.
Test sonuçları, GPT-4 gibi son teknoloji modellerin çok çeşitli gerçek dünya görevlerini yerine getirebildiğini gösterirken, açık kaynaklı LLM'lerin çoğu AgentBench'teki API tabanlı LLM'lerden çok daha kötü performans gösteriyor; Hatta en yetenekli açık kaynak model olan openchat-13b-v3.2 ile gpt-3.5-turbo arasında da ciddi bir performans farkı bulunuyor.
Araştırma ekibine göre daha titiz ve sistematik değerlendirmeler yapmak ve bu tür değerlendirmeleri kolaylaştıracak güçlü açık kaynak araçları sağlamak için gelecekte daha fazla çalışmaya ihtiyaç var, örneğin AgentBench'i daha kapsamlı ve kapsayıcı hale getirmek için sürekli iyileştirmek, ve LLM'ler vb. için daha sistematik bir değerlendirme sistemi oluşturmak.
"Özerk" yapay zeka ajanları yarışı Silikon Vadisi'ni kasıp kavuruyor
Yapay zeka büyük modellerinin sürekli gelişimi, yeni asistanların doğmasına yol açtı. "Özerk" AI ajanları için yarış şu anda Silikon Vadisi'nde bir çılgınlığı körüklüyor. Bireysel geliştiricilerin ilgisini çekmesinin yanı sıra Microsoft ve Google'ın ana şirketi Alphabet gibi dev şirketler ile birçok start-up da aktif olarak katıldı.
Kurucu ortakları Reid Hoffman ve Mustafa Suleyman'ın bir podcast'te akıl hocası olarak hareket edebilecek ve uçuş kredisi ve otel işleri düzenleme gibi görevleri yerine getirebilecek kişisel bir asistan geliştirdiklerini söyledikleri Inflection AI girişimini ele alalım.
MultiOn şirket geliştiricisi Div Garg, amacın onu sanal asistan "Jarvis"e benzer bir kişisel AI arkadaşına dönüştürmek olduğunu söyledi. Bu proxy'nin bireysel hizmetlere bağlanabilmesini istiyorlar.
General Intelligent CEO'su Kanjun Qiu şunları söyledi: "Bir grup önemli müşteriyle patron için bir toplantı ayarlamak gibi, insanlar için kolay olan şeyler bilgisayarlar için hala çok zor. çatışmalar, aynı zamanda müşterilerle çalışırken incelikli olmak.
Qiu ve diğer dört ajans geliştiricisi, kodlama ve pazarlama gibi sektörlere odaklanarak, çok adımlı görevleri biraz özerklikle güvenilir bir şekilde gerçekleştirebilen ilk sistemlerin bir yıl içinde kullanıma sunulacağını tahmin ediyor.
Microsoft CEO'su Satya Nadella bir keresinde Financial Times'a verdiği bir röportajda şöyle demişti: "Microsoft'un kendi Cortana'sı, Amazon'un Alexa'sı, Google Assistant veya Apple'ın Siri'si olsun, ilk beklentileri karşılayacak kadar akıllı değiller."
**Mevcut endişeler bir yana, yapay zeka aracıları büyük bir potansiyel ve pazar gösterdi. **Tıpkı tarihteki birçok yenilik gibi, keşif ve uygulama sürecinde bazı zorluklarla karşılaşabilsek de, zaman geçtikçe bu AI aracılarının sürekli optimizasyon ve iyileştirme yoluyla insan toplumuna olumlu ve olumlu faydalar sağladığına tanık olmamız bekleniyor. derin etki.