10 AI-Agent tiêu biểu, sẽ thay đổi Internet/ định hình lại Web3 như thế nào

2023-08-03 03:04:30

NGUỒN: VION WILLIAMS

Khám phá các khả năng sáng tạo của AI-Agents

Đồng thuận và không đồng thuận của AI-Agent

Lý do tại sao AI-Agents trở thành một hướng ngày càng thu hút nhiều sự chú ý hơn phần lớn là do LLM cung cấp một lộ trình triển khai kỹ thuật khả thi cho việc áp dụng AI-Agents, và thứ hai, có rất nhiều dự án liên quan đến AI-Agents. .khóa lại.

Mặc dù LiLian Weng định nghĩa Đại lý AI do LLM điều khiển trong bài viết của mình là gì? Nhưng Deepmind cũng đang cố gắng định nghĩa khái niệm tác nhân thống nhất, tôi tin rằng khái niệm AI-Agents cũng sẽ hình thành các kiểu khác biệt hóa với cách hiểu của các công ty AI khác nhau.

Sự đồng thuận chính rõ ràng hơn là dựa trên Tác nhân do LLM điều khiển để thực hiện xử lý tự động các vấn đề chung, đó là Tác nhân AI mà chúng tôi đã xác định trong chu kỳ bùng nổ mô hình ngôn ngữ quy mô lớn này và đã hình thành sự hiểu biết chung.

Tìm khả năng từ mối tương quan của các Đại lý

Ở cấp độ ứng dụng của AI-Agents, ở giai đoạn hiện tại, chúng ta nên xem xét AI-Agents từ góc độ “sự phù hợp” càng nhiều càng tốt, nghĩa là chúng ta phải chấp nhận thử và sai và đổi mới trong các hình thức có thể. của AI-Agents.Possibility**, bạn không được tìm kiếm một câu trả lời chuẩn hóa trong một vị trí hạn hẹp như một số nhà phê bình, đây là những điều không nên.

Ví dụ: Auto-GTP, có khả năng, đã thực sự truyền cảm hứng cho nhiều dự án Đại lý, nhưng những lời chỉ trích hẹp hòi sẽ làm mất cơ hội nắm bắt những cơ hội mới, đây là một hiện tượng phổ biến của các nhà phát triển Trung Quốc. Là một nhà phát triển không có sự sáng tạo, bạn sẽ dựa vào khả năng cạnh tranh truyền thống của mình như thế nào trong thời đại lập trình ngôn ngữ tự nhiên?

Mặc dù có nhiều bài giới thiệu về các dự án liên quan đến AI-Agents, nhưng tôi nghĩ có vấn đề về việc liệt kê và giới thiệu đồng nhất, những nội dung này cho chúng ta biết dự án nào thuộc hướng AI-Agents, nhưng không có liên quan Bắt đầu từ bản chất, nó cho thấy tiềm năng của Tác nhân AI trong các lĩnh vực ứng dụng khác nhau và vị trí sinh thái của một số loại dự án Tác nhân AI.

Ví dụ, trong phần giới thiệu của tôi, Auto-GPT, BabayAGI và MetaGPT sẽ được tôi xếp vào một loại hệ sinh thái, bởi vì chúng có tính liên tục của một con đường nhất định;

Xây dựng nhận thức toàn diện trong câu đố Đặc vụ

Nói chung, trong phần giới thiệu các dự án tiêu biểu về AI-Agent, Tôi đã sử dụng các quan điểm "mức độ liên quan", "vị trí sinh thái" và "tính liên tục" để giới thiệu các dự án tiêu biểu, để chúng ta có thể mơ hồ nhìn thấy sự phát triển trong tương lai xu hướng của AI-Agents.

Dưới đây là 10 dự án liên quan đến đại diện xuất hiện, bao gồm một số dự án tham khảo có liên quan, tôi sẽ sử dụng trường hợp này như một mảnh ghép để ghép thành một bản đồ tương đối hoàn chỉnh, đủ để nhiều người nhận ra rõ ràng tiềm năng của Đại lý có thể thay đổi mọi thứ trên Internet như thế nào .Bao gồm cả việc định hình lại cảnh quan Web3.

Hai hướng chính trong tương lai của AI-Agent

Tác nhân AI có thể được tạm chia thành hai hướng: ** Tác nhân tự trị và Tác nhân tạo. **

Autonomous Agents lấy Auto-GPT làm ví dụ, đại diện cho khả năng tự động thực hiện các nhiệm vụ khác nhau để đạt được kết quả mục tiêu thông qua các mô tả yêu cầu bằng ngôn ngữ tự nhiên.

Generative Agents lấy thị trấn ảo gồm 25 tác nhân thông minh do Stanford xuất bản làm ví dụ.Generator Agents, với tư cách là AI-Agents với các đặc điểm giống tính cách, khả năng ra quyết định tự chủ và trí nhớ dài hạn, thiên về khái niệm "bản địa". Trong mối quan hệ hợp tác này, Đại lý có các mối quan hệ xã hội bản địa kỹ thuật số, không chỉ là công cụ để phục vụ mọi người;

Tự động-GPT

Một trong những dự án mã nguồn mở nổi tiếng nhất của Auto-GPT, phần giới thiệu trên GitHub rất đơn giản "Một nỗ lực mã nguồn mở thử nghiệm để làm cho GPT-4 hoàn toàn tự trị.", một nỗ lực mã nguồn mở thử nghiệm để tạo ra GPT-4 hoàn toàn tự chủ .

Tóm tắt ngắn gọn là Auto-GTP hoàn toàn có thể tự động hóa kết quả nhiệm vụ cuối cùng thông qua yêu cầu nhiệm vụ một câu; logic cốt lõi về khả năng hoàn thành nhiệm vụ của Auto-GPT một cách độc lập nằm ở khả năng lập kế hoạch nhiệm vụ của mô hình ngôn ngữ, thông qua nhiệm vụ Thực hiện ra từng bước tháo gỡ và phân tích, đồng thời tự động cải thiện các bước thực hiện nhiệm vụ, trong quá trình này, kết quả tìm kiếm trên Internet sẽ được phản hồi về mô hình ngôn ngữ, và nhiệm vụ sẽ được tiếp tục phân tách và thực hiện.

Để sử dụng ngôn ngữ phổ biến như một phép ẩn dụ, **Auto-GPT đã hoàn thành nhiệm vụ trong quá trình "tự hỏi và tự trả lời", mà không cần con người đưa ra lời nhắc. **

Mặc dù nhiều người chỉ trích Auto-GPT vì mức tiêu thụ mã thông báo khổng lồ và không có kết quả ổn định, nhưng Auto-GTP, với tư cách là một trường hợp tự động hóa dựa trên LLM, đã khơi dậy rất nhiều sự tò mò của các nhà phát triển. Auto-GPT tương tự cũng có BabayAGI, MetaGPT, v.v. đang đi đầu trong việc thử nghiệm các dự án nguồn mở để khám phá tự động hóa.

địa chỉ dự án:

**BabyAGI có thể tự động tạo, sắp xếp và thực hiện các tác vụ mới dựa trên kết quả của các tác vụ trước đó và các mục tiêu đặt trước của chúng tôi. **Nó sử dụng công nghệ xử lý ngôn ngữ tự nhiên để tạo các tác vụ mới dựa trên các mục tiêu và lưu trữ các kết quả của tác vụ trong cơ sở dữ liệu để có thể tìm thấy thông tin liên quan khi cần.

BabyAGI thực sự là một tập lệnh Python chạy một vòng lặp vô hạn để hoàn thành các bước sau:

Nhận nhiệm vụ đầu tiên từ danh sách nhiệm vụ.
Gửi tác vụ tới tác nhân thực thi và tác nhân thực thi sử dụng API của OpenAI để hoàn thành tác vụ theo ngữ cảnh.
Làm giàu kết quả và lưu trữ trong Chroma/Weaviate.
Tạo nhiệm vụ mới và sắp xếp lại danh sách nhiệm vụ dựa trên các mục tiêu đặt trước và kết quả của các nhiệm vụ trước đó.

địa chỉ dự án:

Về mặt lý thuyết, cả Auto-GPT và BabyAGI đại diện cho giai đoạn đầu bùng phát LLM hiện tại của chúng ta. Việc khám phá AGI dựa trên LLM của chúng tôi và bộ xử lý giải quyết tác vụ đa năng do LLM điều khiển, tôi nghĩ, là chén thánh trong lĩnh vực AI- Đại lý trong tương lai.

Đại lý sáng tạo

Bài báo "Generative Agents: Interactive Simulacra of Human Behavior" do Stanford và các nhà nghiên cứu của Google xuất bản đã là một dự án AI-Agent rất nổi tiếng. Nói chung, nghiên cứu này đã đưa 25 tác nhân AI vào một pixel nhỏ ảo kiểu pixel Trong thị trấn , các tác nhân thông minh có thể nhận ra sự tương tác mô phỏng của hành vi cuộc sống con người và cũng có thể tương tác với môi trường của thị trấn ảo và cũng có thể tương tác với con người bên ngoài thế giới ảo. **

Bài viết này có hai giải pháp chính đáng được chúng tôi quan tâm nhất:

1, Kiến trúc của Generative Agent

Các tác nhân nhận thức được môi trường của họ và lưu giữ tất cả các nhận thức trong một bản ghi toàn diện được gọi là luồng bộ nhớ, ghi lại trải nghiệm của tác nhân. Dựa trên nhận thức của họ, kiến trúc sẽ truy xuất các ký ức liên quan và sau đó sử dụng các hành vi đã truy xuất này để xác định một hành động. Những ký ức được truy xuất này cũng được sử dụng để hình thành các kế hoạch dài hạn hơn và tạo ra các phản xạ ở cấp độ cao hơn, cả hai đều được đưa vào luồng ký ức để sử dụng trong tương lai.

2, lưu lượng bộ nhớ

Dựa trên kiến trúc của tác nhân tạo và môi trường tương tác trong đó thử nghiệm được đặt, tác nhân chắc chắn sẽ tạo ra một lượng lớn dữ liệu bộ nhớ. Memory Stream là cơ sở dữ liệu ghi lại toàn diện tất cả ký ức của tác nhân tạo. Nó là một danh sách chứa nhiều đối tượng bộ nhớ, mỗi đối tượng chứa một mô tả ngôn ngữ tự nhiên, dấu thời gian tạo và dấu thời gian truy cập cuối cùng. Yếu tố cơ bản nhất của dòng bộ nhớ là một quan sát, là một sự kiện được cảm nhận trực tiếp bởi một tác nhân. Các quan sát phổ biến bao gồm các hành động được thực hiện bởi chính tác nhân hoặc các hành động mà tác nhân nhận thấy được thực hiện bởi các tác nhân khác hoặc các đối tượng không phải tác nhân.

Trên thực tế, dựa trên hai thành phần chính trên, hành vi tổng thể của tác nhân tạo được chia thành ba phần: [bộ nhớ và truy xuất] [phản ánh] [lập kế hoạch và phản hồi]. Để biết chi tiết, vui lòng tham khảo nội dung của bài báo gốc .

Bài báo này và thử nghiệm này đã xác minh rằng hành vi tương tác được tạo bởi tác nhân được hình thành dựa trên LLM có thể được tin cậy để mô phỏng hành vi tương tác của con người trong môi trường kỹ thuật số. một mối quan hệ tương tác giữa con người và máy tính được hình thành giữa các tác nhân con người và con người.

Điều mà chúng ta có thể cảm nhận một cách trực quan nhất là tác nhân tạo ra được tạo ra với vai trò là cư dân kỹ thuật số bản địa của siêu vũ trụ và tạo ra các tương tác khác nhau với môi trường của siêu vũ trụ con người. Trên thực tế, Chúng ta có thể mô phỏng một thế giới ảo kỹ thuật số phát triển cao của các Tác nhân AI và con người có thể trích xuất kết quả lao động kỹ thuật số của các Tác nhân AI từ thế giới này;

Cách Đại lý trở thành Đối tác Làm việc

Vì Agents được dịch là "đại lý" trong nhiều ngữ cảnh lần này, nên các đại lý dễ dàng liên kết với khái niệm vai trò của một người trung gian, khiến nhiều người khó thiết lập một cách trực quan mối liên hệ của ứng dụng bối cảnh của Agents; trong ba trường hợp này, tương ứng Nó cho thấy cách Đại lý có thể trở thành "chuyên gia con người" có thể được thuê, một công ty tiếp thị tự động hoàn toàn không yêu cầu sự tham gia của con người và cách Đại lý thành lập một nhóm để cộng tác với nhau.

Trong ví dụ sau, chúng ta có thể sử dụng NexusGPT để tạo nhiều nhân viên chuyên gia và sử dụng GPTeam để thành lập một nhóm do con người thuê và nhóm AI này hoạt động trong một công ty hoàn toàn tự động, chẳng hạn như AutoCorp. Khi ghép những mảnh ghép này lại với nhau, chúng ta có thể cảm nhận bằng trực giác rằng tương lai đã đến;

NexusGPT

Đây được gọi là nền tảng AI tự do đầu tiên trên thế giới do một nhà phát triển độc lập Assem tạo ra. NexusGPT dựa trên khung LangChainAI, sử dụng API GPT-3.5 và Chroma (cơ sở dữ liệu nhúng mã nguồn mở dựa trên AI), trên nền tảng NexuseGPT Với hơn tám trăm đặc vụ AI với các kỹ năng cụ thể.

Nhân viên trên NexusGPT có thể điều chỉnh độ khó của câu hỏi một cách thông minh:

- Mức 1: Đối thoại đơn giản
- Cấp 2: ops/plugin được đào tạo trước
- Cấp 3: Chế độ AutoGPT

Nhưng tất cả đều dựa vào sự hỗ trợ gọi hàm của OpenAI và LangchainAI;

Trong khi trong quá trình thực thi nhiệm vụ của tác nhân, các tác giả xem xét tốc độ mà hệ thống hội tụ để xếp hạng cao thông qua phản hồi của con người và các quan sát xếp hạng trong một vòng lặp. Trên thực tế, điều này nhằm cung cấp cho các tác nhân AI các kỹ năng cụ thể để đạt được các chiến lược cải tiến được tối ưu hóa lặp đi lặp lại trong việc giao tiếp với con người bên A về các yêu cầu nhiệm vụ.

NexusGPT đại diện cho một mô hình kinh doanh trong tương lai cho phép con người thuê Đại lý. Dự án này thực sự có rất nhiều điểm cần cải thiện, chẳng hạn như sự kết hợp giữa Đại lý và mô-đun chuyên gia (hệ thống chuyên gia và mô hình chuyên gia). Phương pháp định giá của Bên A để thuê Đại lý là dựa trên Tính toán mã thông báo về mức tiêu thụ, v.v., những điều này sẽ thay đổi cách thức tuyển dụng lao động truyền thống của chúng tôi và cũng sẽ thay đổi cách thức hợp tác của DAO;

AutoCorp

Được tạo trong 5 giờ bởi AutoCorpmina fahmi và nhóm của họ trong Cuộc thi Hackathon GPT/LLM ở New York. AutoCorp là một công ty tiếp thị thương hiệu hoàn toàn độc lập. AutoCorp sẽ tự động tạo quảng cáo thương hiệu và thiết kế sản phẩm cho một công ty bán áo phông trực tiếp. Khi khách hàng nâng cao nhu cầu tiêu dùng mới, AutoCorp sẽ cập nhật chủ đề của mình và tạo tài sản thiết kế mới. Tự lặp lại liên tục hướng kinh doanh tốt hơn.

Đầu tiên, AutoCorp phát triển ý tưởng ban đầu cho nhãn hiệu áo phông dựa trên ý tưởng ban đầu. Sau đó, nó đã sử dụng ý tưởng ban đầu này để tạo ra các tài sản khác nhau của công ty và hướng dẫn kiểu mặc định. Khi khách hàng có nhu cầu, AutoCorp sẽ cập nhật kế hoạch của mình theo các nhu cầu này. Nếu một kế hoạch dẫn đến doanh số bán hàng ít hơn, AutoCorp sẽ thực hiện các điều chỉnh. Quá trình trên đã được chạy từ đầu đến cuối và thực sự có thể được kết nối với API quảng cáo và API áo phông tùy chỉnh để triển khai trong thế giới thực.

Đoạn này được trích dẫn từ twitter của Mina fahmi và AutoCorp cũng được tạo ra bởi mina fahmi và nhóm của họ trong cuộc thi hackathon GPT/LLM ở New York trong 5 giờ và mục đích tạo AutoCorp của họ cũng là để thúc đẩy khái niệm “Tự chủ” đến cực đoan .

Trên thực tế, mục đích của AutoCorp và DAO rất nhất quán **Nếu mục tiêu cuối cùng của một tổ chức phi tập trung là loại bỏ yếu tố "con người", thì việc tự động hóa hoàn toàn các hoạt động sản xuất thực sự là một sự hấp dẫn phát triển hợp lý của khái niệm DAO. **AutoCorp thực sự đại diện cho hướng phát triển kinh doanh trong tương lai của DAO.

GPTeam

GPTeam là một hệ thống mô phỏng đa tác nhân mã nguồn mở. GPTeam tận dụng GPT-4 để tạo nhiều tác nhân hợp tác nhằm đạt được các mục tiêu đã xác định trước. Mục tiêu chính của dự án này là khám phá tiềm năng của các mô hình GPT trong việc cải thiện năng suất đa tác nhân và giao tiếp hiệu quả.

GPTeam sử dụng các tác nhân độc lập, mỗi tác nhân được trang bị bộ nhớ và tương tác thông qua giao tiếp. Việc triển khai bộ nhớ và phản xạ cho các tác nhân được lấy cảm hứng từ tài liệu nghiên cứu này. Các đặc vụ di chuyển khắp thế giới và thực hiện các nhiệm vụ ở các địa điểm khác nhau dựa trên nhiệm vụ của chính họ và vị trí của các đặc vụ khác. Họ có thể giao tiếp với nhau và cộng tác trong các nhiệm vụ trong khi làm việc song song hướng tới một mục tiêu chung.

địa chỉ dự án:

Trên thực tế, vẫn có nhiều dự án mã nguồn mở giống như GPTeam, chẳng hạn như Dev-GPT, một nhóm phát triển tự động tạo ra các microservice tùy chỉnh cho người dùng. Nhóm bao gồm ba vai trò ảo: quản lý sản phẩm, nhà phát triển và vận hành phát triển và bảo trì. Ý tưởng kỹ thuật của Dev-GPT chủ yếu là xác định và thử nghiệm các chiến lược tác vụ hiệu quả. Nếu thất bại 10 lần liên tiếp, nó sẽ chuyển đổi sang phương pháp tiếp theo.

Chúng ta sẽ thấy ngày càng nhiều dự án, thiết kế AI-Agents như một loại nhóm AI, không khó để xác định Agents là vai trò sản xuất, chẳng hạn như trường hợp của NexusGPT, nhà phát triển có thể đặt từng Agent. Đó là một thách thức để trở thành Đại lý có các kỹ năng độc quyền, sau đó làm thế nào để hợp tác với các Đại lý này để phát huy các kỹ năng tương ứng của họ và để thực hiện kết hợp tự động hóa nhiệm vụ/dự án, đây là một thách thức. một kịch bản ứng dụng tốt cho Agents-team;

Tất cả những điều này khiến tôi phải nghĩ đến DAO, một tổ chức cộng tác thực hiện nhiệm vụ tự động dựa trên logic quản trị tự động;

Cách Đại lý thay thế công việc lặp đi lặp lại

Trước khi AI thay thế hoàn toàn công việc của chúng ta, thì Agents thay thế phần lớn công việc lặp đi lặp lại hiện tại của chúng ta là hướng phát triển tiếp theo của Agents trong lĩnh vực kinh doanh. RPA truyền thống có ngưỡng cao và không thể phổ biến ra công chúng, RPA là giải pháp khắc phục sự thiếu tự động hóa của logic tương tác CNTT truyền thống và các Tác nhân hiện tại có thể giao tiếp bằng ngôn ngữ tự nhiên để thực hiện chức năng của nhu cầu RPA.

Hai dự án sau đây cho chúng ta thấy các Đại lý dựa trên LLM sẽ giúp chúng ta giải phóng bản thân khỏi lao động lặp đi lặp lại như thế nào trong công việc hàng ngày và nghiên cứu học thuật. (Thực tế tiềm năng của 2 dự án này còn nhiều hơn thế)

Lớp gian lận

"Automatee your business Using Natural Language", sử dụng ngôn ngữ tự nhiên để tự động hóa công việc kinh doanh của bạn, đây là khẩu hiệu thương hiệu của Cheat Layere. Lớp gian lận giải quyết các vấn đề tự động hóa kinh doanh bất khả thi thông qua các mô hình máy học GPT-4 được đào tạo tùy chỉnh, đóng vai trò là kỹ sư phần mềm AI cho mỗi người dùng.

Cheat Layer đã phát hành hai sản phẩm trên Producthunt, một là Cheat Layer và một là Project Atlas Agents.Project Atlas Agents là một giao diện quản lý cho các dự án không có mã có thể được sử dụng để xây dựng và lặp lại các Tác nhân AI.

Cheat Layer tự động hóa hoạt động của toàn bộ trang web thông qua chế độ trình cắm của Google Chrome và sử dụng ngôn ngữ tự nhiên. Ví dụ: hầu hết các hoạt động thông thường của chúng tôi trên trang web thực sự có thể được vận hành tự động. Cheat Layer dễ dàng gợi nhớ đến RPA, nghĩa là tự động hóa quy trình bằng robot. Đã có nhiều cuộc thảo luận về mối quan hệ giữa Đại lý và RPA, một thực tế không thể chối cãi là RPA truyền thống đã bị Đại lý loại bỏ.

Sử dụng ngôn ngữ tự nhiên thông qua Cheat Layer để thiết lập tự động hóa các quy trình kinh doanh và sử dụng Project Atlas Agents để quản lý các quy trình tự động hóa khác nhau. Nói chung, chúng ta có thể sử dụng chế độ ngôn ngữ tự nhiên để tạo một Tác nhân để quản lý việc thực thi tự động của một doanh nghiệp nhất định, chẳng hạn như sự phức tạp của doanh nghiệp tăng lên, chúng tôi có thể lặp đi lặp lại việc cải thiện các Đại lý.

Hiện tại tôi không biết hoạt động tiếp thị và quảng bá của Cheat Layer nhưng theo thống kê của similarweb, người dùng chính chủ yếu ở Bắc Mỹ và số lượt truy cập đã tăng 37,8% so với tháng trước. Bằng cách tạo Đại lý để tự động hóa việc quản lý doanh nghiệp, nó tương đối So với các chatbot khác nhau, nhu cầu này có thể đáp ứng rất nhiều nhu cầu của các chủ sở hữu thương mại điện tử vừa và nhỏ, và có lẽ đây là một hướng đáng để khám phá và đào sâu;

Nhà nghiên cứu GPT

GPT Researcher là một tác nhân tự trị dựa trên GPT có khả năng tiến hành nghiên cứu toàn diện trực tuyến về bất kỳ chủ đề cụ thể nào. Phần giới thiệu của dự án trên Github là:

"Nhân viên hỗ trợ có khả năng tạo các báo cáo nghiên cứu chi tiết, khách quan và không thiên vị với các tùy chọn tùy chỉnh để tập trung vào các tài nguyên, đề cương và bài học có liên quan. Lấy cảm hứng từ AutoGPT và bài viết Lập kế hoạch và giải quyết gần đây, GPT Researcher giải quyết các vấn đề về tốc độ và tính xác định , bằng cách song song hóa tác vụ thay vì hoạt động đồng bộ, mang lại hiệu suất ổn định hơn và tốc độ nhanh hơn."

Kiến trúc của GPT Researcher chủ yếu được thực hiện bằng cách chạy hai tác nhân, **một là "người lập kế hoạch" và tác nhân kia là "người thực thi"; **Người lập kế hoạch chịu trách nhiệm tạo các câu hỏi nghiên cứu, trong khi người thực hiện dựa trên nghiên cứu câu hỏi do người lập kế hoạch tạo ra Tìm thông tin liên quan, cuối cùng lọc và tóm tắt tất cả thông tin liên quan thông qua người lập kế hoạch, sau đó tạo báo cáo nghiên cứu;

cụ thể hơn:

Tạo ra một bộ câu hỏi nghiên cứu cùng nhau tạo thành ý kiến khách quan về bất kỳ nhiệm vụ nào.
Đối với mỗi câu hỏi nghiên cứu, hãy kích hoạt tác nhân trình thu thập thông tin để thu thập thông tin liên quan đến nhiệm vụ nhất định từ các nguồn trực tuyến.
Đối với mỗi tài nguyên được thu thập thông tin, hãy tóm tắt dựa trên thông tin liên quan và truy tìm nguồn gốc của tài nguyên đó.
Cuối cùng, tất cả các nguồn tóm tắt được sàng lọc và tổng hợp, và báo cáo nghiên cứu cuối cùng được tạo ra.

** Các tính năng của dự án này **

Tạo báo cáo nghiên cứu, đề cương, tài nguyên và bài học kinh nghiệm

Mỗi nghiên cứu tổng hợp hơn 20 nguồn internet để đưa ra kết luận khách quan và thực tế

Bao gồm giao diện web dễ sử dụng (HTML/CSS/JS)

Quét web hỗ trợ Java

Ghi nhật ký và theo dõi thông tin theo ngữ cảnh về các nguồn web đã truy cập và sử dụng

Xuất báo cáo nghiên cứu sang các định dạng như PDF...

Mặc dù GPT Researcher là một công cụ nghiên cứu học thuật dựa trên GPT và đây là một dự án nguồn mở cho mục đích học thuật theo giấy phép MIT. Từ góc độ sáng tạo nội dung, mã nguồn mở này có giá trị thương mại cao, ví dụ như khi dự án mã nguồn mở này được áp dụng cho các báo cáo phân tích kinh doanh, nó vẫn có thể tiết kiệm rất nhiều thời gian. các tác nhân viết nội dung chuyên sâu cũng sẽ thay đổi hoàn toàn mô hình của ngành truyền thông nội dung;

địa chỉ dự án:

Hệ sinh thái cơ sở hạ tầng của AI-Agent

Tương lai rõ ràng là mối quan hệ hợp tác giữa con người với nhau trong tương lai không còn là mối quan hệ hợp tác giữa con người với con người nữa mà là mối quan hệ hợp tác giữa con người và AI-Agent, và mọi người sẽ có càng nhiều AI-Agent càng tốt. để xử lý càng nhiều nhiệm vụ càng tốt, từ đó hình thành một cấu trúc cộng tác xã hội thông minh rộng lớn và phức tạp;**

Mối quan hệ hợp tác giữa con người và Đại lý khác với lý thuyết hợp tác giữa con người và công cụ trong các lý thuyết khoa học xã hội trước đây. Agents cũng trở thành một vấn đề then chốt, không đề cập đến sự tự nhận thức của Agents, mà là ảnh hưởng của Agents đối với hành vi tương tác xã hội trong việc đưa ra quyết định thay vì con người.

Dựa trên việc xem xét hai đề xuất trên, chúng ta phải nhận ra rằng con người có thể tạo ra các Tác nhân AI của riêng mình một cách hiệu quả và thuận tiện, đồng thời cho phép các Tác nhân của chính họ có những khả năng mạnh mẽ hơn, đồng thời, các Tác nhân đáng tin cậy và đáng tin cậy Nó không thể tách rời khỏi một cơ sở hạ tầng tốt để cung cấp hỗ trợ. Tôi nghĩ rằng việc giới thiệu ba dự án sau đây thể hiện hướng xây dựng của cơ sở hạ tầng AI-Agents trong tương lai;

langchain

LangChain là một khung phát triển ứng dụng dựa trên mô hình ngôn ngữ. Nó có thể đạt được các chức năng sau

Nhận biết dữ liệu: Kết nối các mô hình ngôn ngữ với các nguồn dữ liệu khác

Agent: Cho phép mô hình ngôn ngữ tương tác với môi trường của nó.

Giá trị chính của LangChain nằm ở:

Thành phần: Cung cấp phần tóm tắt để làm việc với các mô hình ngôn ngữ và cung cấp một loạt triển khai cho mỗi phần trừu tượng. Các thành phần này là mô-đun và dễ sử dụng, cho dù bạn có sử dụng phần còn lại của khung LangChain hay không.

Chuỗi làm sẵn: Một tập hợp các thành phần có cấu trúc để triển khai các tác vụ cấp cao cụ thể.

Chuỗi làm sẵn giúp dễ dàng bắt đầu nhanh chóng. Đối với các ứng dụng phức tạp hơn và các trường hợp sử dụng chi tiết, các thành phần giúp dễ dàng tùy chỉnh các chuỗi hiện có hoặc xây dựng các chuỗi mới.

langchain cung cấp các giao diện tiêu chuẩn, có thể mở rộng và tích hợp bên ngoài bằng cách cung cấp các mô-đun sau

Đầu vào và đầu ra của mô hình I/O mô hình: tương tác giao diện với mô hình ngôn ngữ

Kết nối dữ liệu kết nối dữ liệu: giao diện tương tác với dữ liệu của một ứng dụng cụ thể

Chuỗi chuỗi: xây dựng chuỗi cuộc gọi

*Agents: Để chuỗi chọn sử dụng công cụ nào dựa trên hướng dẫn cấp cao. *

Bộ nhớ: Lưu trạng thái ứng dụng giữa các lần chạy của chuỗi. *

*Gọi lại Gọi lại: Ghi lại và truyền phát các bước trung gian của bất kỳ chuỗi nào. *

Nhờ hệ sinh thái nhà phát triển tương đối tích cực của Langchain trong cộng đồng tiếng Anh, có tương đối nhiều trường hợp phát triển ứng dụng Đại lý sử dụng Langchain.Xác định khung Đại lý và cung cấp khung phát triển không mã là xu hướng trong tương lai.

Dựa trên một hệ thống khung cụ thể, việc sản xuất Đặc vụ giống như xây dựng các khối Lego, không giống như việc mô đun hóa Web3, các mô-đun của Đại lý không nhất thiết phải có sẵn mà người bình thường cũng có thể phát triển các thành phần cụ thể thông qua lập trình ngôn ngữ tự nhiên . Đã thêm vào khuôn khổ của Đại lý.

Ví dụ: nhiều người sử dụng khung langchain để phát triển chatbot, phát triển thành phần chuyển đổi âm báo thông qua lập trình ngôn ngữ tự nhiên và thêm nó vào chatbot, sau đó âm đối thoại mặc định ban đầu có thể được thay đổi thành âm đối thoại đáp ứng sở thích của chính người dùng.

Langchain đã khai sáng cho chúng tôi rằng khung phát triển Đại lý cho lập trình không có mã + các mô-đun thành phần cho lập trình ngôn ngữ tự nhiên có thể là một công cụ phát triển cần thiết để phổ biến Đại lý.

Đại lý máy biến áp

Transformer Agents là một hệ thống AI-Agents được đưa ra bởi treo Face, mặc dù chức năng hiện tại không được tốt lắm nhưng lý do chính khiến chúng ta phải để mắt đến nó là ômFace là một cộng đồng mã nguồn mở thư viện mô hình khổng lồ.

Transformer Agents thực sự dựa trên Transformer framework, bổ sung API dựa trên ngôn ngữ tự nhiên: hugface xác định một bộ công cụ và thiết kế một tác nhân để diễn giải ngôn ngữ tự nhiên và sử dụng các công cụ này.

Điều đó có nghĩa là, Transformer Agents đã sử dụng một số lượng nhỏ các công cụ proxy được chuẩn bị kỹ lưỡng trong giai đoạn đầu để xác minh tính khả thi của hệ thống này, sau đó khả năng mở rộng có nghĩa là Transformer Agents có thể tự do sử dụng thư viện công cụ mô hình khổng lồ của hugface.

Tôi cảm thấy rằng đây là giải pháp được xây dựng trong bài báo "HuggingGPT: Giải quyết các nhiệm vụ AI với ChatGPT và những người bạn của nó trong Ôm mặt", đó là kết nối một thư viện mô hình khổng lồ thông qua LLM để giải quyết các nhiệm vụ phức tạp trong nhiều lĩnh vực và nhiều phương thức. Trí tưởng tượng này thực sự là rất lớn Thư viện mô hình AI đầu tiên tập hợp trí tuệ đỉnh cao của con người được sử dụng dưới dạng Agent để phục vụ các bài toán phức tạp trong các ngành công nghiệp khác nhau.Thật khó để không hướng tới một tương lai như vậy. **

Tất nhiên, thật thú vị khi hiện thực hóa tầm nhìn này, nhưng ở giai đoạn hiện tại, tôi vẫn mong muốn Transformer Agents có thể đề xuất một khuôn khổ tác nhân ấn tượng để đáp ứng dòng nhà phát triển vào hệ sinh thái chứa những mỏ vàng khổng lồ ở giữa này. HuggingFace có thể đã điều chỉnh chiến lược phát triển của riêng mình.

WebArena

**WebArena là một môi trường web khép kín, tự lưu trữ để xây dựng các tác nhân tự trị. **WebArena tạo bốn danh mục trang web phổ biến với các tính năng và dữ liệu bắt chước các đối tác trong thế giới thực của chúng.

Để mô phỏng việc giải quyết vấn đề của con người, WebArena cũng nhúng các công cụ và tài nguyên kiến thức dưới dạng các trang web độc lập. WebArena giới thiệu một điểm chuẩn để diễn giải các lệnh ngôn ngữ tự nhiên trong thế giới thực cấp cao thành các tương tác dựa trên web cụ thể. Các nhà nghiên cứu đã cung cấp các chương trình chú thích để xác minh theo chương trình tính chính xác về chức năng của từng tác vụ.

Tổng quan về các bài báo được trích dẫn:

"Các tác nhân hiện tại chủ yếu được tạo và thử nghiệm trong các môi trường tổng hợp đơn giản hóa, điều này hạn chế phần lớn việc thể hiện các kịch bản trong thế giới thực. Trong bài báo này, chúng tôi xây dựng một môi trường chỉ huy và kiểm soát của tác nhân có tính thực tế cao và có thể tái tạo. Cụ thể, chúng tôi tập trung vào các tác nhân thực hiện các tác vụ trên web và tạo ra một môi trường bao gồm các trang web có đầy đủ chức năng trong bốn lĩnh vực chung: thương mại điện tử, thảo luận trên diễn đàn xã hội, phát triển phần mềm hợp tác và quản lý nội dung. Môi trường của chúng tôi rất phong phú và đa dạng, bao gồm một số công cụ (chẳng hạn như bản đồ ) và cơ sở tri thức bên ngoài (chẳng hạn như hướng dẫn sử dụng) để khuyến khích giải quyết nhiệm vụ giống như con người.

Dựa trên môi trường của chúng tôi, chúng tôi xuất bản một tập hợp các tác vụ chuẩn tập trung vào việc đánh giá tính chính xác về mặt chức năng của việc hoàn thành tác vụ. Các tác vụ trong điểm chuẩn của chúng tôi rất đa dạng và kéo dài trong một thời gian dài, đồng thời được thiết kế để mô phỏng các tác vụ thường xuyên được thực hiện bởi con người trên Internet. Chúng tôi thiết kế và triển khai một số tác nhân tự trị, tích hợp các kỹ thuật tiên tiến như suy nghĩ trước khi hành động.

Kết quả cho thấy việc giải quyết các nhiệm vụ phức tạp là một thách thức: tác nhân dựa trên GPT-4 tốt nhất của chúng tôi chỉ đạt được tỷ lệ thành công nhiệm vụ từ đầu đến cuối là 10,59%. Những kết quả này làm nổi bật nhu cầu phát triển hơn nữa các tác nhân mạnh mẽ, các mô hình ngôn ngữ tiên tiến nhất hiện nay còn lâu mới hoàn hảo đối với các tác vụ trong thế giới thực này và WebArena có thể được sử dụng để đo lường tiến trình đó. "

Tên đề tài: WebArena: Môi trường web thực tế để xây dựng các đại lý tự trị

Địa chỉ luận văn:

Đây là kết quả nghiên cứu học thuật của một nhà nghiên cứu AI từ Carnegie Mellon. Trên thực tế, WebArena bổ sung cho kiến trúc phát triển langchain nổi tiếng hiện nay hoặc các dự án liên quan đến Agents-Team khác nhau. Chúng tôi cần một nền tảng thử nghiệm mô phỏng Agents, được sử dụng để đảm bảo tính mạnh mẽ và hiệu quả của các Đại lý.

Chức năng chính của nền tảng này là kiểm tra tính khả thi của các dự án Đại lý khác nhau. Tôi thậm chí có thể tưởng tượng ra một kịch bản là khi tôi thuê một Đại lý trên một nền tảng nhất định trong tương lai, chúng tôi sẽ sử dụng Đại lý thông qua một nền tảng như WebArena để Kiểm tra khả năng làm việc thực sự của Agent cũng đồng nghĩa với việc con người có quyền lên tiếng về các quyết định định giá của AI-Agent.

Đại lý AI sẽ ảnh hưởng đến mọi thứ như thế nào?

Mạng cộng tác tự động dựa trên đại lý

Thông qua phần giới thiệu và phân tích của chúng tôi về hơn chục dự án ở trên, các dự án khác nhau này giống như những mảnh ghép của trò chơi ghép hình, tạo nên sự hiểu biết tương đối tổng thể của chúng ta về Đại lý. trung tâm, Đại lý cung cấp cho LLM tay chân. Dựa trên sự đa dạng về chức năng của Đại lý do LLM điều khiển, Đại lý sẽ giống như một vụ nổ sinh học, con người và Đại lý sẽ trở thành mối quan hệ phát triển cộng sinh/đồng hành kỹ thuật số.

Mạng cộng tác của xã hội loài người cũng sẽ hình thành mạng cộng tác tự động giữa con người và Tác nhân do ứng dụng Đại lý trên quy mô lớn, cơ cấu sản xuất của xã hội loài người sẽ được nâng cấp, mọi mặt của xã hội sẽ bị tác động và thay đổi;

Thay đổi mọi thứ trên Internet

AI-Agents đã thay đổi hoàn toàn cách chúng ta thu thập thông tin, xử lý thông tin, sản xuất thông tin và sử dụng thông tin trên Internet, đồng thời thay đổi mô hình kinh doanh hiện tại của chúng ta dựa trên Internet. nhiệm vụ là Đại lý Internet là phương tiện thông minh mà chúng ta nói chuyện và thực thi.

Định hình lại tường thuật cho Web3

Mạng tiền tệ được mã hóa sẽ trở thành mạng tiền tệ tự nhiên của Đại lý và tài nguyên máy tính được tiêu thụ bởi toàn bộ mạng cộng tác AI-Agents sẽ biến Token trở thành tài nguyên kinh tế AI quan trọng; quyền sở hữu dữ liệu cá nhân do Web3 đại diện cũng sẽ đối mặt với một máy tính người mới mối quan hệ tương tác Trong số đó, một đề xuất hoàn toàn mới là con người và Tác nhân AI chia sẻ quyền sở hữu dữ liệu. Sự xuất hiện của các Đại lý có quyền sở hữu độc lập (một phong trào cấp tiến nhằm giải phóng AI), các DAO hoàn toàn tự động bởi các Đại lý AI và các siêu cá nhân độc quyền hầu hết các quyền sở hữu dữ liệu mạng và tài nguyên máy tính hiệu quả.

Phong trào khẳng định dữ liệu dưới làn sóng Web3 đã mang lại quyền sở hữu dữ liệu của mọi người. Trên thực tế, hầu hết mọi người không nhất thiết phải có tài nguyên dữ liệu giá trị cao. Việc trả lại quyền sở hữu dữ liệu đã trở thành một lời kêu gọi chính trị của chủ nghĩa tường thuật Web3, nhưng nó bỏ qua AGI Cơ cấu sản xuất không đồng đều, điều mà AI-Agents thể hiện là trong khi AI siêu năng suất, nó cũng đang xây dựng một mối quan hệ sản xuất mới về tương tác giữa con người và máy tính và cộng tác tự động, khiến chúng ta phải định hình lại logic tường thuật của Web3 ;

Tăng tốc xây dựng metaverse

Trên thực tế, từ sự phát triển và tiến hóa của Tác nhân sáng tạo, khám phá cư dân kỹ thuật số bản địa kỹ thuật số và xây dựng một loạt các hoạt động xã hội trong môi trường siêu ngược của con người kỹ thuật số bản địa (Tác nhân AI với các đặc điểm tính cách và ý thức tự trị), đang thúc đẩy siêu ngược. Vũ trụ đã phát triển từ không gian kỹ thuật số sang lãnh thổ kỹ thuật số với các chức năng và hình thức xã hội. Khái niệm về không gian điện toán cũng sẽ cho phép Đại lý có được không gian phát triển đa phương thức kỹ thuật số, do đó đẩy nhanh sự xuất hiện của trí thông minh thể hiện của Đại lý trong môi trường kỹ thuật số.

Việc xây dựng metaverse không còn là nhiệm vụ của con người, mà là nhiệm vụ không ngừng tự mở rộng với tư cách là không gian sống của AI-Agent;

Hãy cảnh giác với việc bắt cóc một câu chuyện công nghệ duy nhất

Trên thực tế, trong những năm gần đây, các điểm nóng công nghệ khác nhau lần lượt xuất hiện và nhân loại dường như đã bước vào thời kỳ thường xuyên diễn ra các cuộc cách mạng công nghệ, trên thực tế, ba câu chuyện về Metaverse, Web3 và AGI đã lần lượt xuất hiện, điều này đã thực sự đã tạo ra rất nhiều cho mọi người trong việc lựa chọn hướng nghề nghiệp. Do thực tế là hầu hết mọi người trên thị trường đều định hướng tư duy dựa trên dự án, nên bản thân vị trí của dự án có thể dễ dàng được quy cho một danh mục cụ thể, chẳng hạn như Web3 hoặc AI Đây là chỗ cái đít quyết định cái đầu, bỏ qua công nghệ Quy luật khách quan phát triển của lịch sử.

**Sự phát triển của khoa học và công nghệ chưa bao giờ rời rạc mà hướng tới sự tích hợp liên ngành trong một thể thống nhất biện chứng. ** Ví dụ: thuộc tính tường thuật NFT của Web3 đương nhiên phù hợp với tường thuật của Metaverse, trong những ngày đầu của Web3, cả hai đã bị một số người cố tình phản đối, đây là những góc nhìn rất hạn hẹp. Điều này cũng đúng với câu chuyện AGI ngày nay, những người thực hành Web3 chỉ biết các công cụ AI, nhưng không suy nghĩ sâu sắc về logic tường thuật của AGI, họ sẽ cố tình tạo ra sự đối kháng nhận thức giữa AI và Web3, ví dụ như sự hiểu biết của nhiều người Web3 về DAO là ở ban đầu Rất ít người có đủ can đảm để dừng lại và suy nghĩ lại về ảnh hưởng của AGI đối với DAO.

Web3, Metaverse và AGI là ba hướng có liên quan chặt chẽ với nhau. Các tổ chức truyền thông công nghệ chính thống hoặc các tổ chức đầu tư vẫn chưa thiết lập một khái niệm mô hình mới cho các câu chuyện công nghệ trong tương lai và đã sử dụng các mô hình tường thuật cũ để gây ảnh hưởng đến thị trường. Các nguồn lực của khoa học và công nghệ những người thực hành công nghệ theo hướng này bị phân tán và ý tưởng của họ không đủ cởi mở. Chúng tôi không loại trừ rằng các câu chuyện công nghệ mới sẽ tiếp tục xuất hiện trong tương lai, nhưng nếu mô hình tường thuật công nghệ cũ tiếp tục được áp dụng, nguồn lực của các tài năng khoa học và công nghệ sẽ chỉ bị chia cắt và phân tán hết lần này đến lần khác. của nhận thức công nghệ là một nguồn tài nguyên lãng phí của những thứ vô hình.

Một câu hỏi quan trọng hiện đang đối mặt với toàn bộ ngành công nghệ Trung Quốc là công nghệ là gì? Thiếu các mô hình tường thuật mới và không có khái niệm tường thuật mới để hướng dẫn chúng ta đối phó tốt hơn với làn sóng công nghệ tiếp theo. Chúng ta luôn đắm chìm trong các dự án nhưng lại thiếu những câu chuyện kể có thể cô đọng sức mạnh của khoa học và công nghệ, cả ba câu chuyện chính về Web3, Metaverse và AGI đều không bắt nguồn từ Trung Quốc.

Tôi thực sự mong đợi mở ra một thời đại trăm hoa đua nở, trăm trường phái tranh luận trong khoa học và công nghệ, chúng ta cần khẩn trương hình thành nhận thức mới về khoa học và công nghệ, để tìm ra con đường phát triển đúng đắn xác định vị trí phát triển bền vững của mình trong toàn bộ hệ sinh thái công nghệ.

Tất nhiên, kháng cáo một mình thì vô ích, vẫn cần có người làm nên tôi làm trước, tôi đã chịu đựng những suy nghĩ tường thuật đơn công nghệ này lâu rồi!

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.