Được dẫn dắt bởi nhóm Thanh Hoa, bài kiểm tra điểm chuẩn hệ thống tác nhân AI đầu tiên đã xuất hiện

2023-08-09 02:18:36

Các tác nhân AI, hay các tác nhân thông minh tự trị, không chỉ là trợ lý siêu hạng của con người trong các bộ phim khoa học viễn tưởng như Jarvis, mà còn là điểm nóng nghiên cứu về lĩnh vực AI trong thế giới thực. Đặc biệt, sự xuất hiện của các mô hình AI lớn mà đại diện là GPT-4 đã đẩy khái niệm tác nhân AI lên hàng đầu trong công nghệ.

Trong "thị trấn ảo" nổi tiếng trước đây của Stanford, 25 đặc vụ AI đã phát triển tự do trong thị trấn ảo và tổ chức tiệc Ngày lễ tình nhân; mô hình đặc vụ hiện thân Du hành do Nvidia và những người khác đề xuất cũng học được trong "Thế giới của tôi" Nhiều kỹ năng sinh tồn khác nhau đã tạo ra của riêng họ thế giới; ngoài ra, AutoGPT, BabyAGI và AgentGPT, có thể hoàn thành nhiệm vụ một cách độc lập, cũng đã thu hút sự quan tâm rộng rãi và thảo luận sôi nổi trong cộng đồng.

Ngay cả Andrej Karpathy, cựu giám đốc AI của Tesla và đang quay trở lại OpenAI, đã tiết lộ tại một sự kiện dành cho nhà phát triển rằng bất cứ khi nào có bài báo về tác nhân AI mới, OpenAI sẽ rất quan tâm và nghiêm túc thảo luận**.

Mặc dù nghiên cứu về tác nhân AI hiện nay đang cực kỳ hot, Hiện tại, ngành AI đang thiếu một tiêu chuẩn chuẩn hóa và có hệ thống để đánh giá mức độ thông minh của các LLM làm tác nhân.

Để đạt được mục tiêu này, một nhóm nghiên cứu từ Đại học Tsinghua, Đại học bang Ohio và Đại học California, Berkeley đã đề xuất bài kiểm tra điểm chuẩn có hệ thống đầu tiên - AgentBench, để đánh giá LLM với tư cách là tác nhân trong các thử thách và Hiệu suất trong thế giới thực khác nhau (chẳng hạn như kỹ năng lập luận và ra quyết định) trong 8 môi trường khác nhau.

Kết quả cho thấy Các mô hình ngôn ngữ thương mại hàng đầu như GPT-4 hoạt động tốt trong các môi trường phức tạp, với lợi thế đáng kể giữa các mô hình nguồn mở. Để đạt được mục tiêu này, nhóm nghiên cứu gợi ý rằng cần có những nỗ lực hơn nữa để cải thiện khả năng học tập của các LLM nguồn mở.

Một bài báo nghiên cứu có liên quan có tiêu đề "AgentBench: đánh giá các LLM là Đại lý" đã được xuất bản trên trang web in sẵn arXiv. Ngoài ra, Bộ dữ liệu, môi trường và gói đánh giá tích hợp có liên quan cũng đã được xuất bản trên GitHub.

Điểm chuẩn hệ thống đầu tiên

Trong nghiên cứu và thực hành trước đây, môi trường trò chơi dựa trên văn bản đã được sử dụng để đánh giá cơ quan ngôn ngữ. Tuy nhiên, chúng thường bị giới hạn bởi các không gian hành động rời rạc khép kín và trọng tâm của chúng chủ yếu là vào các khả năng dựa trên lẽ thường của các mô hình.

Một số nỗ lực gần đây đối với các tác nhân hiện thân sử dụng các trình giả lập đa phương thức phức tạp dựa trên trò chơi, giao diện người dùng đồ họa (GUIs) và cảnh trong nhà. Tuy nhiên, bất chấp sự phức tạp của các trình mô phỏng này, chúng không thể phản ánh chính xác việc sử dụng LLM trong các trường hợp sử dụng trong thế giới thực và bản chất đa phương thức của chúng cũng đặt ra những trở ngại cho việc đánh giá nhanh các LLM văn bản thuần túy.

Hơn nữa, hầu hết các điểm chuẩn của đại lý đều tập trung vào một môi trường duy nhất, điều này hạn chế khả năng cung cấp tổng quan toàn diện về LLM của họ trong các tình huống ứng dụng khác nhau.

Trong công trình này, nhóm nghiên cứu đã làm việc trên hệ điều hành (OS), cơ sở dữ liệu (DB), biểu đồ tri thức (KG), trò chơi bài (DCG), đoán kịch bản (LTP), trang trí nội thất (Alfworld), mua sắm trực tuyến (WebShop) ) và trình duyệt web (Mind2Web) ** 25 mô hình ngôn ngữ khác nhau (cả mô hình dựa trên API và mã nguồn mở) đã được đánh giá toàn diện bằng cách sử dụng AgentBench trong 8 tác vụ môi trường khác nhau.

Kết quả kiểm tra cho thấy các mô hình tiên tiến nhất như GPT-4 có khả năng xử lý nhiều tác vụ khác nhau trong thế giới thực, trong khi hầu hết các LLM nguồn mở hoạt động kém hơn nhiều so với các LLM dựa trên API trong AgentBench; thậm chí, có khả năng cao nhất Ngoài ra còn có một khoảng cách hiệu suất đáng kể giữa mô hình mã nguồn mở openchat-13b-v3.2 và gpt-3.5-turbo.

Mặc dù thông qua đào tạo căn chỉnh rộng rãi, các LLM không chỉ có thể thành thạo các nhiệm vụ NLP truyền thống như trả lời câu hỏi, lý luận ngôn ngữ tự nhiên và tóm tắt văn bản mà còn thể hiện khả năng hiểu ý định của con người và thực hiện các hướng dẫn, họ thực hiện kém các nhiệm vụ của AgentBench như hiệu quả hành động , ngữ cảnh dài, tính nhất quán nhiều vòng và đào tạo mã) tương đối tụt lại phía sau.

Theo nhóm nghiên cứu, cần nhiều công việc hơn nữa trong tương lai để tiến hành các đánh giá nghiêm ngặt và có hệ thống hơn, đồng thời cung cấp các công cụ nguồn mở mạnh mẽ để tạo điều kiện thuận lợi cho các đánh giá đó, chẳng hạn như liên tục cải tiến AgentBench để làm cho nó toàn diện và toàn diện hơn, và thiết lập một hệ thống đánh giá có hệ thống hơn cho các LLM, v.v.

Cuộc chạy đua giành các tác nhân AI "tự trị" đang càn quét Thung lũng Silicon

Sự phát triển liên tục của các mô hình AI lớn đã dẫn đến sự ra đời của các trợ lý mới. Cuộc chạy đua giành các tác nhân AI "tự trị" hiện đang gây ra một cơn sốt điên cuồng ở Thung lũng Silicon. Nó không chỉ thu hút các nhà phát triển đơn lẻ mà các công ty khổng lồ như Microsoft và Alphabet, công ty mẹ của Google, cũng như nhiều công ty khởi nghiệp cũng tích cực tham gia.

Lấy công ty khởi nghiệp Inflection AI, người đồng sáng lập Reid Hoffman và Mustafa Suleyman cho biết trong một podcast rằng họ đang phát triển một trợ lý cá nhân có thể đóng vai trò là người cố vấn và xử lý các nhiệm vụ như sắp xếp tín dụng chuyến bay và khách sạn.

Nhà phát triển Div Garg của công ty MultiOn cho biết mục tiêu là phát triển nó thành một người bạn AI cá nhân, tương tự như trợ lý ảo "Jarvis". Họ muốn proxy này có thể kết nối với các dịch vụ riêng lẻ.

Giám đốc điều hành General Intelligent Kanjun Qiu cho biết: "Những việc dễ dàng với con người vẫn rất khó khăn với máy tính, chẳng hạn như lên lịch gặp mặt cho sếp với một nhóm khách hàng quan trọng. Điều này đòi hỏi khả năng suy luận rất phức tạp, liên quan đến việc tiếp cận sở thích của mọi người, giải quyết xung đột, đồng thời cũng mang sắc thái riêng khi làm việc với khách hàng.”

Qiu và bốn nhà phát triển đại lý khác dự đoán rằng các hệ thống đầu tiên có thể thực hiện các nhiệm vụ nhiều bước một cách đáng tin cậy với một số quyền tự chủ sẽ ra mắt trong vòng một năm, tập trung vào các ngành dọc như viết mã và tiếp thị.

Giám đốc điều hành Microsoft Satya Nadella từng nói trong một cuộc phỏng vấn với Financial Times: "Cho dù đó là Cortana của Microsoft, Alexa của Amazon, Trợ lý Google hay Siri của Apple, chúng đều không đủ thông minh để đáp ứng những kỳ vọng ban đầu."

** Bỏ qua những lo ngại hiện tại, các tác nhân AI đã cho thấy tiềm năng và thị trường lớn. **Mặc dù chúng ta có thể gặp phải một số thách thức trong quá trình khám phá và ứng dụng, nhưng giống như nhiều đổi mới trong lịch sử, khi thời gian trôi qua, chúng ta kỳ vọng sẽ chứng kiến những tác nhân AI này mang lại lợi ích tích cực và tích cực cho xã hội loài người thông qua việc tối ưu hóa và cải tiến liên tục. ảnh hưởng sâu sắc.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Gate 2025 Q2 Report Released
9k Phổ biến
Gate Derivatives Volume Hits New High
12k Phổ biến
CPI Data Incoming
41k Phổ biến
4Join Gate VIP to Win MacBook
30k Phổ biến
5MicroStrategy Buys More Bitcoin
672 Phổ biến
6BTC Hits New High
98k Phổ biến
7My Gate Moments
28k Phổ biến
8VIP Exclusive Airdrop Carnival
26k Phổ biến
9Fed June Meeting Minutes
7k Phổ biến
10Gate Alpha Trading Share
15k Phổ biến

Ghim

sơ đồ trang web