A16Z: Kiến trúc mới nổi cho các ứng dụng mô hình lớn

Lưu ý của biên tập viên: Sự bùng nổ của trí tuệ nhân tạo có khả năng tạo ra sự đột phá trong nhiều ngành công nghiệp, một trong số đó là ngành công nghiệp phần mềm. Sự trỗi dậy của mô hình ngôn ngữ lớn (LLM) đã mở ra sự bùng nổ của các ứng dụng liên quan. Các gã khổng lồ công nghệ và các công ty khởi nghiệp đã tung ra nhiều ứng dụng LLM. Vậy những ứng dụng này sử dụng loại công cụ và mẫu thiết kế nào? Bài viết này tóm tắt. Bài viết là từ tổng hợp.

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Các mô hình ngôn ngữ lớn (LLM) là những nguyên mẫu mới mạnh mẽ để phát triển phần mềm. Nhưng vì LLM quá mới và hoạt động rất khác so với các tài nguyên máy tính thông thường nên không phải lúc nào cách sử dụng LLM cũng rõ ràng.

Trong bài viết này, chúng tôi sẽ chia sẻ kiến trúc tham chiếu cho ngăn xếp ứng dụng LLM mới nổi. Kiến trúc sẽ giới thiệu các hệ thống, công cụ và mẫu thiết kế phổ biến nhất mà chúng tôi đã thấy được sử dụng bởi các công ty khởi nghiệp AI và các công ty công nghệ hàng đầu. Ngăn xếp công nghệ này vẫn còn tương đối thô sơ và có thể trải qua những thay đổi lớn khi công nghệ cơ bản tiến bộ, nhưng chúng tôi hy vọng nó có thể cung cấp tài liệu tham khảo hữu ích cho các nhà phát triển đang làm việc về phát triển LLM ngày nay.

Công việc này dựa trên các cuộc trò chuyện với những người sáng lập và kỹ sư của các công ty khởi nghiệp về AI. Đặc biệt, chúng tôi dựa vào ý kiến đóng góp của những người bao gồm Ted Benson, Harrison Chase, Ben Firshman, Ali Ghodsi, Raza Habib, Andrej Karpathy, Greg Kogan, Jerry Liu, Moin Nadeem, Diego Oppenheimer, Shreya Rajpal, Ion Stoica, Dennis Xu, Matei Zaharia và Jared Zoneraich. Cảm ơn bạn đã giúp đỡ!

Ngăn xếp công nghệ LLM

Phiên bản hiện tại của ngăn xếp ứng dụng LLM trông như thế này:

Các hộp màu xám là các thành phần chính và các hộp có mũi tên biểu thị các luồng dữ liệu khác nhau: đường chấm màu đen là dữ liệu ngữ cảnh do nhà phát triển ứng dụng cung cấp để giới hạn đầu ra, đường liền màu đen là lời nhắc và một vài ví dụ mẫu được chuyển đến LLM và đường liền màu xanh là Truy vấn của người dùng, đường liền màu đỏ là kết quả trả về cho người dùng

Dưới đây là danh sách các liên kết đến từng mục để tham khảo nhanh:

, các công cụ/hệ thống phổ biến cho từng thành phần chính của ngăn xếp ứng dụng

Có nhiều cách để phát triển với LLM, bao gồm đào tạo các mô hình từ đầu, tinh chỉnh các mô hình nguồn mở hoặc tận dụng các API được quản lý. Ngăn xếp công nghệ mà chúng tôi trình bày ở đây dựa trên học tập trong ngữ cảnh, một mẫu thiết kế mà chúng tôi quan sát thấy rằng hầu hết các nhà phát triển đang bắt đầu tận dụng (và hiện chỉ có thể thực hiện được với các mẫu cơ sở).

Phần tiếp theo giải thích ngắn gọn về mẫu thiết kế này.

Mẫu thiết kế: Học theo ngữ cảnh

Ý tưởng cốt lõi của học theo ngữ cảnh là tận dụng các LLM có sẵn (nghĩa là không có bất kỳ tinh chỉnh nào), sau đó kiểm soát hành vi của chúng thông qua các gợi ý thông minh và điều chỉnh dữ liệu "bối cảnh" riêng tư.

Ví dụ: giả sử bạn đang phát triển một chatbot để trả lời các câu hỏi về một loạt văn bản pháp luật. Cách đơn giản, bạn có thể dán tất cả các tài liệu vào lời nhắc ChatGPT hoặc GPT-4, sau đó đặt câu hỏi liên quan. Điều này có thể hoạt động đối với các tập dữ liệu rất nhỏ, nhưng nó không mở rộng quy mô. Các mẫu GPT-4 lớn nhất chỉ có thể xử lý khoảng 50 trang văn bản đầu vào và hiệu suất (được đo bằng thời gian suy luận và độ chính xác) giảm sút nghiêm trọng khi đạt đến cái gọi là giới hạn cửa sổ ngữ cảnh này.

Học theo ngữ cảnh giải quyết vấn đề này bằng một mẹo nhỏ: thay vì gửi tất cả tài liệu mỗi khi nhập dấu nhắc LLM, nó chỉ gửi một số tài liệu phù hợp nhất. Ai sẽ giúp quyết định đâu là tài liệu phù hợp nhất? Bạn đoán nó ... LLM.

Ở cấp độ rất cao, quy trình công việc này có thể được chia thành ba giai đoạn:

  • Tiền xử lý/nhúng dữ liệu: Giai đoạn này lưu trữ dữ liệu riêng tư (trong trường hợp này là tài liệu pháp lý) để truy xuất sau này. Nói chung, các tài liệu được chia thành nhiều phần, được chuyển đến mô hình nhúng và được lưu trữ trong một cơ sở dữ liệu đặc biệt gọi là cơ sở dữ liệu vectơ.
  • Xây dựng/truy xuất nhanh: Khi người dùng gửi truy vấn (trong trường hợp này là câu hỏi pháp lý), ứng dụng sẽ tạo một loạt lời nhắc, sau đó các lời nhắc này sẽ được gửi tới mô hình ngôn ngữ. Các gợi ý đã biên dịch thường được kết hợp với các mẫu gợi ý do nhà phát triển mã hóa cứng; các ví dụ về đầu ra hợp lệ được gọi là các ví dụ ngắn gọn; mọi thông tin cần thiết đều được truy xuất thông qua API bên ngoài; và một bộ tài liệu liên quan được truy xuất từ cơ sở dữ liệu vectơ.
  • Thực thi/suy luận gợi ý: Sau khi các gợi ý được biên dịch, chúng sẽ được gửi tới các LLM được đào tạo trước để suy luận, bao gồm các API mô hình độc quyền cũng như các mô hình mã nguồn mở hoặc tự đào tạo. Trong giai đoạn này, một số nhà phát triển cũng thêm các hệ thống vận hành như ghi nhật ký, bộ nhớ đệm và xác thực.

Những điều này có vẻ tốn nhiều công sức, nhưng chúng thường dễ thực hiện hơn các giải pháp thay thế: đào tạo LLM hoặc tinh chỉnh bản thân LLM thực sự khó hơn. Bạn không cần một nhóm kỹ sư máy học chuyên dụng để thực hiện học tập theo ngữ cảnh. Bạn cũng không cần lưu trữ cơ sở hạ tầng của riêng mình hoặc mua các phiên bản chuyên dụng đắt tiền từ OpenAI. Mô hình này làm giảm hiệu quả các vấn đề AI thành các vấn đề kỹ thuật dữ liệu mà hầu hết các công ty khởi nghiệp cũng như các tập đoàn lớn đã biết cách giải quyết. Nó cũng có xu hướng hiệu quả hơn việc tinh chỉnh đối với các tập dữ liệu tương đối nhỏ, vì thông tin cụ thể cần phải xuất hiện ít nhất khoảng 10 lần trong tập huấn luyện trước khi LLM có thể được tinh chỉnh để ghi nhớ thông tin cụ thể và việc học theo ngữ cảnh cũng có thể kết hợp thông tin mới trong thời gian gần thực.data.

Một trong những câu hỏi lớn nhất trong học ngữ cảnh là: điều gì xảy ra nếu chúng ta chỉ thay đổi mô hình cơ bản để tăng cửa sổ ngữ cảnh? Nó thực sự có thể, và nó là một lĩnh vực nghiên cứu tích cực. Nhưng điều này đi kèm với một số sự đánh đổi - chủ yếu là chi phí và thời gian suy luận tỷ lệ bậc hai với độ dài của gợi ý. Ngày nay, thậm chí tỷ lệ tuyến tính (kết quả lý thuyết tốt nhất) là quá tốn kém đối với nhiều ứng dụng. Với tốc độ API hiện tại, một truy vấn GPT-4 trên 10.000 trang sẽ có giá hàng trăm đô la. Do đó, chúng tôi không thấy trước các thay đổi quy mô lớn đối với ngăn xếp dựa trên các cửa sổ ngữ cảnh mở rộng, nhưng chúng tôi sẽ giải thích thêm về vấn đề này sau.

Trong phần còn lại của bài viết này, chúng ta sẽ xem qua ngăn xếp công nghệ này bằng cách sử dụng quy trình làm việc ở trên làm hướng dẫn.

Xử lý/nhúng dữ liệu

Phần xử lý/nhúng dữ liệu: chuyển dữ liệu đến mô hình nhúng thông qua đường dẫn dữ liệu để vector hóa, sau đó lưu trữ dữ liệu trong cơ sở dữ liệu vector

Dữ liệu ngữ cảnh cho các ứng dụng LLM bao gồm tài liệu văn bản, PDF và thậm chí cả các định dạng có cấu trúc như bảng CSV hoặc SQL. Các giải pháp tải và chuyển đổi dữ liệu (ETL) được sử dụng bởi các nhà phát triển mà chúng tôi đã phỏng vấn rất đa dạng. Hầu hết sử dụng các công cụ ETL truyền thống, chẳng hạn như Databricks hoặc Airflow. Một số cũng tận dụng các trình tải tài liệu được tích hợp trong khung điều phối, chẳng hạn như LangChain (do Unstructed cung cấp) và LlamaIndex (do Llama Hub cung cấp). Tuy nhiên, chúng tôi tin rằng phần này của ngăn xếp công nghệ tương đối kém phát triển và có cơ hội phát triển giải pháp sao chép dữ liệu dành riêng cho các ứng dụng LLM.

Đối với embedding, hầu hết các nhà phát triển đều sử dụng OpenAI API, đặc biệt là mô hình text-embedding-ada-002. Mô hình này dễ sử dụng (đặc biệt nếu bạn đang sử dụng các API OpenAI khác), mang lại kết quả khá tốt và ngày càng rẻ hơn. Một số doanh nghiệp lớn hơn cũng đang khám phá Cohere, công việc sản phẩm của họ tập trung hơn vào việc nhúng và có hiệu suất tốt hơn trong một số tình huống. Đối với các nhà phát triển thích nguồn mở, thư viện Máy biến áp câu của Ôm mặt là tiêu chuẩn. Cũng có thể tạo các loại nhúng khác nhau tùy thuộc vào trường hợp sử dụng, đây là một phương pháp tương đối thích hợp ngày nay, nhưng là một lĩnh vực nghiên cứu đầy hứa hẹn.

Từ quan điểm hệ thống, phần quan trọng nhất của quy trình tiền xử lý là cơ sở dữ liệu vectơ. Cơ sở dữ liệu vectơ chịu trách nhiệm lưu trữ, so sánh và truy xuất hiệu quả tới hàng tỷ lượt nhúng (còn gọi là vectơ). Tùy chọn phổ biến nhất mà chúng tôi thấy trên thị trường là Pinecone. Đó là mặc định, thật dễ dàng để bắt đầu vì nó được lưu trữ hoàn toàn trên đám mây và có nhiều tính năng mà các doanh nghiệp lớn cần trong quá trình sản xuất (ví dụ: hiệu suất tốt trên quy mô lớn, đăng nhập một lần và SLA thời gian hoạt động).

Tuy nhiên, cũng có một số lượng lớn cơ sở dữ liệu vector có sẵn. Những người đáng chú ý bao gồm:

  • Các hệ thống nguồn mở như Weaviate, Vespa và Qdrant: Các hệ thống này thường có hiệu suất một nút tuyệt vời và có thể được tùy chỉnh cho các ứng dụng cụ thể, khiến chúng trở nên phổ biến với các nhóm AI có kinh nghiệm muốn phát triển các nền tảng tùy chỉnh.
  • Faiss và cộng sự Thư viện quản lý Vector gốc: Những thư viện này có nhiều kinh nghiệm dành cho nhà phát triển và dễ dàng bắt đầu cho các ứng dụng nhỏ và thử nghiệm phát triển. Nhưng những thứ này không nhất thiết phải thay thế toàn bộ cơ sở dữ liệu trên quy mô lớn.
  • Tiện ích mở rộng OLTP như pgvector: Tuyệt vời cho các nhà phát triển nhìn thấy các lỗ hổng trong mọi hình dạng cơ sở dữ liệu và cố gắng cắm vào Postgres hoặc các doanh nghiệp mua hầu hết cơ sở hạ tầng dữ liệu của họ từ một nhà cung cấp đám mây duy nhất. Giải pháp hỗ trợ Nice vector. Không rõ ràng rằng khối lượng công việc vectơ liên kết chặt chẽ với khối lượng công việc vô hướng có ý nghĩa trong thời gian dài hay không.

Trong tương lai, hầu hết các công ty cơ sở dữ liệu vectơ nguồn mở đang phát triển các sản phẩm đám mây. Nghiên cứu của chúng tôi cho thấy rằng việc đạt được hiệu suất mạnh mẽ trên đám mây là một vấn đề rất khó khăn trong không gian thiết kế rộng lớn của các trường hợp sử dụng khả thi. Vì vậy, bộ tùy chọn có thể không thay đổi đáng kể trong thời gian ngắn, nhưng về lâu dài thì có thể. Câu hỏi quan trọng là liệu cơ sở dữ liệu vectơ sẽ được hợp nhất xung quanh một hoặc hai hệ thống phổ biến tương tự như cơ sở dữ liệu OLTP và OLAP hay không.

Ngoài ra còn có câu hỏi mở về cách cơ sở dữ liệu nhúng và vectơ sẽ phát triển như thế nào khi cửa sổ ngữ cảnh có sẵn cho hầu hết các mô hình mở rộng. Bạn có thể dễ dàng lập luận rằng việc nhúng trở nên ít quan trọng hơn vì dữ liệu theo ngữ cảnh có thể được đưa trực tiếp vào lời nhắc. Tuy nhiên, phản hồi từ các chuyên gia về chủ đề này cho thấy trường hợp ngược lại — rằng các quy trình nhúng có thể trở nên quan trọng hơn theo thời gian. Các cửa sổ ngữ cảnh lớn thực sự là những công cụ mạnh mẽ, nhưng cũng đòi hỏi chi phí tính toán đáng kể. Do đó, bắt buộc phải tận dụng hiệu quả cửa sổ này. Chúng ta có thể bắt đầu thấy các loại mô hình nhúng khác nhau trở nên phổ biến, đào tạo trực tiếp về mức độ liên quan của mô hình và cơ sở dữ liệu vectơ đang nổi lên được thiết kế để kích hoạt và tận dụng điều này.

Nhắc xây dựng và nhận

Nhanh chóng xây dựng và nhận

Các chiến lược thúc đẩy LLM và kết hợp dữ liệu theo ngữ cảnh ngày càng trở nên phức tạp hơn và cũng được sử dụng như một nguồn tạo ra sự khác biệt cho sản phẩm và vai trò của chúng ngày càng trở nên quan trọng. Hầu hết các nhà phát triển bắt đầu các dự án mới bằng cách thử nghiệm các gợi ý đơn giản bao gồm các hướng dẫn trực tiếp (gợi ý không có cảnh quay) hoặc đầu ra có thể chứa một số ví dụ (gợi ý vài cảnh quay). Những gợi ý này thường tạo ra kết quả tốt, nhưng không phải là mức độ chính xác cần thiết cho việc triển khai sản xuất.

Cấp độ tiếp theo của thủ thuật gợi ý là dựa trên các phản hồi của mô hình dựa trên một số nguồn sự thật và cung cấp bối cảnh bên ngoài mà mô hình không được đào tạo. Hướng dẫn Kỹ thuật Cue liệt kê không ít hơn một chục (!) chiến lược gợi ý nâng cao hơn, bao gồm chuỗi suy nghĩ, kiến thức tự nhất quán, tổng quát, cây suy nghĩ, kích thích định hướng, v.v. Các chiến lược này có thể được kết hợp để hỗ trợ các trường hợp sử dụng LLM khác nhau, chẳng hạn như hỏi đáp về tài liệu, chatbot, v.v.

Đây là nơi các khung điều phối như LangChain và Llama Index xuất hiện. Các khung này trừu tượng hóa nhiều chi tiết của chuỗi gợi ý; tương tác với các API bên ngoài (bao gồm cả việc xác định thời điểm yêu cầu lệnh gọi API); truy xuất dữ liệu ngữ cảnh từ cơ sở dữ liệu vectơ; và duy trì bộ nhớ qua các lệnh gọi trên nhiều LLM. Họ cũng cung cấp các mẫu cho nhiều ứng dụng phổ biến được đề cập ở trên. Đầu ra của nó là một gợi ý hoặc một loạt gợi ý được gửi tới mô hình ngôn ngữ. Các khung này được sử dụng rộng rãi bởi những người có sở thích cũng như các công ty khởi nghiệp muốn phát triển ứng dụng, với LangChain là người dẫn đầu.

LangChain vẫn là một dự án tương đối mới (hiện tại là phiên bản 0.0.201), nhưng chúng tôi đã bắt đầu thấy các ứng dụng được phát triển cùng với nó đi vào sản xuất. Một số nhà phát triển, đặc biệt là những người sớm sử dụng LLM, thích chuyển sang Python thô trong quá trình sản xuất để loại bỏ các phần phụ thuộc bổ sung. Nhưng chúng tôi hy vọng cách tiếp cận tự làm này sẽ giảm bớt đối với hầu hết các trường hợp sử dụng, giống như với các ngăn xếp ứng dụng web truyền thống.

Những độc giả tinh mắt sẽ nhận thấy một mục trông lạ trong hộp bố cục: ChatGPT. Trong các trường hợp bình thường, ChatGPT là một ứng dụng, không phải công cụ dành cho nhà phát triển. Nhưng nó cũng có thể được truy cập dưới dạng API. Và, nếu bạn quan sát kỹ, nó thực hiện một số chức năng giống như các khung điều phối khác, chẳng hạn như: trừu tượng hóa nhu cầu về gợi ý tùy chỉnh; duy trì trạng thái; truy xuất dữ liệu theo ngữ cảnh thông qua plugin, API hoặc các nguồn khác. Mặc dù ChatGPT không phải là đối thủ cạnh tranh trực tiếp với các công cụ khác được liệt kê ở đây, nhưng nó có thể được coi là một giải pháp thay thế và cuối cùng có thể trở thành một giải pháp thay thế khả thi, dễ dàng để xây dựng nhanh chóng.

Thực hiện/lập luận gợi ý

Gợi ý thực hiện/lập luận

Ngày nay, OpenAI là công ty hàng đầu trong lĩnh vực mô hình ngôn ngữ. Hầu hết mọi nhà phát triển mà chúng tôi phỏng vấn đều đã khởi chạy ứng dụng LLM mới bằng API OpenAI, thông thường họ sử dụng mô hình gpt-4 hoặc gpt-4-32k. Điều này cung cấp kịch bản trường hợp sử dụng tốt nhất cho hiệu suất ứng dụng và dễ sử dụng vì nó có thể sử dụng nhiều miền đầu vào và thường không yêu cầu tinh chỉnh hoặc tự lưu trữ.

Sau khi một dự án đi vào sản xuất và bắt đầu mở rộng quy mô, một loạt các tùy chọn có thể phát huy tác dụng. Một số câu hỏi phổ biến chúng tôi nghe bao gồm:

  • Chuyển sang gpt-3.5-turbo: rẻ hơn khoảng 50 lần so với GPT-4 và nhanh hơn đáng kể. Nhiều ứng dụng không cần độ chính xác ở mức GPT-4, nhưng cần nó để suy luận có độ trễ thấp và hỗ trợ hiệu quả về chi phí cho người dùng miễn phí. *Đã thử nghiệm với các nhà cung cấp độc quyền khác (đặc biệt là mô hình Claude của Anthropic): Claude cung cấp khả năng suy luận nhanh, độ chính xác ở mức GPT-3.5, nhiều tùy chọn tùy chỉnh hơn cho các máy khách lớn và cửa sổ ngữ cảnh lên tới 100k (mặc dù chúng tôi thấy rằng độ chính xác giảm khi độ dài đầu vào tăng) .
  • Phân loại các yêu cầu một phần cho các mô hình nguồn mở: Điều này đặc biệt hiệu quả đối với các trường hợp sử dụng B2C khối lượng lớn như tìm kiếm hoặc trò chuyện, trong đó độ phức tạp của truy vấn rất khác nhau và người dùng miễn phí cần được phục vụ với giá rẻ:
  1. Điều này thường có ý nghĩa nhất khi kết hợp với tinh chỉnh mô hình cơ sở nguồn mở. Chúng tôi sẽ không đi sâu vào ngăn xếp công cụ này trong bài viết này, nhưng các nền tảng như Databricks, Anyscale, Mosaic, Modal và RunPod đang ngày càng được các nhóm kỹ sư sử dụng nhiều hơn.

  2. Các mô hình nguồn mở có thể sử dụng nhiều tùy chọn suy luận, bao gồm giao diện API đơn giản của Hugging Face và Replicate; tài nguyên điện toán thô từ các nhà cung cấp đám mây lớn; và các sản phẩm đám mây (đám mây có ý kiến) với các tùy chọn rõ ràng hơn như những sản phẩm được liệt kê ở trên.

Hiện tại, mô hình nguồn mở tụt hậu so với các sản phẩm độc quyền, nhưng khoảng cách đang bắt đầu được thu hẹp. Mô hình LLaMa của Meta đặt ra các tiêu chuẩn mới về độ chính xác của nguồn mở và tạo ra một loạt các biến thể. Vì LLaMa chỉ được cấp phép sử dụng trong nghiên cứu nên nhiều nhà cung cấp mới đã bắt đầu đào tạo các mô hình cơ sở thay thế (ví dụ: Together, Mosaic, Falcon, Mistral). Meta vẫn đang thảo luận về việc có nên khởi chạy phiên bản mã nguồn mở thực sự của LLaMa 2 hay không.

Khi (không phải nếu) LLM nguồn mở đạt đến mức độ chính xác tương đương với GPT-3.5, chúng tôi hy vọng sẽ thấy văn bản cũng có thời điểm Phổ biến ổn định của riêng nó, với các mô hình thử nghiệm, chia sẻ và tinh chỉnh quy mô lớn sẽ được đưa vào sản xuất. Các công ty cung cấp dịch vụ lưu trữ như Replicate đã bắt đầu thêm các công cụ để giúp các nhà phát triển phần mềm dễ tiếp cận hơn với các mô hình này. Các nhà phát triển ngày càng tin rằng các mô hình nhỏ hơn, được tinh chỉnh có thể đạt được độ chính xác hiện đại cho một phạm vi trường hợp sử dụng hẹp.

Hầu hết các nhà phát triển mà chúng tôi đã phỏng vấn không có hiểu biết sâu sắc về các công cụ hoạt động của LLM. Bộ nhớ đệm tương đối phổ biến (thường dựa trên Redis), vì điều này giúp cải thiện thời gian phản hồi của ứng dụng và giảm chi phí. Các công cụ như Trọng số & Xu hướng với MLflow (được chuyển từ máy học truyền thống) hoặc Lớp với Helicone (được xây dựng cho LLM) cũng được sử dụng khá rộng rãi. Các công cụ này có thể ghi lại, theo dõi và đánh giá đầu ra của LLM, thường nhằm mục đích cải thiện việc xây dựng đầu tip, điều chỉnh đường ống hoặc chọn mô hình. Ngoài ra còn có nhiều công cụ mới đang được phát triển để xác thực đầu ra LLM (ví dụ: Guardrails) hoặc phát hiện các cuộc tấn công tiêm gợi ý (ví dụ: Rebuff). Hầu hết các công cụ vận hành này khuyến khích các máy khách Python của riêng chúng thực hiện các lệnh gọi LLM, vì vậy sẽ rất thú vị khi xem các giải pháp này cùng tồn tại như thế nào theo thời gian.

Cuối cùng, phần tĩnh của ứng dụng LLM (nghĩa là mọi thứ khác ngoài mô hình) cũng cần được lưu trữ ở đâu đó. Cho đến nay, các giải pháp phổ biến nhất mà chúng tôi thấy là các tùy chọn tiêu chuẩn như Vercel hoặc các nhà cung cấp đám mây lớn. Tuy nhiên, hai loại mới đang nổi lên. Các công ty khởi nghiệp như Steamship cung cấp dịch vụ lưu trữ đầu cuối cho các ứng dụng LLM, bao gồm điều phối (LangChain), ngữ cảnh dữ liệu nhiều bên thuê, tác vụ không đồng bộ, lưu trữ véc tơ và quản lý khóa. Các công ty như Anyscale và Modal cho phép các nhà phát triển lưu trữ các mô hình và mã Python ở một nơi.

Thế còn proxy thì sao?

Một trong những thành phần quan trọng nhất bị thiếu trong kiến trúc tham chiếu này là khung tác nhân trí tuệ nhân tạo. AutoGPT đã được mô tả là "một nỗ lực nguồn mở thử nghiệm để tự động hóa hoàn toàn GPT-4" và vào mùa xuân này, nó đã trở thành kho lưu trữ Github phát triển nhanh nhất trong lịch sử và gần như mọi dự án AI hoặc công ty khởi nghiệp ngày nay đều kết hợp một số dạng Tác nhân đi vào .

Hầu hết các nhà phát triển mà chúng tôi đã nói chuyện đều rất hào hứng với tiềm năng của proxy. Mô hình học tập theo ngữ cảnh mà chúng tôi mô tả trong bài báo này có thể giải quyết hiệu quả các vấn đề về ảo giác và làm mới dữ liệu, do đó hỗ trợ tốt hơn các tác vụ tạo nội dung. Mặt khác, các tác nhân cung cấp một bộ khả năng hoàn toàn mới cho các ứng dụng AI: giải quyết các vấn đề phức tạp, hành động trên thế giới bên ngoài và học hỏi kinh nghiệm sau khi triển khai. Điều này được thực hiện thông qua sự kết hợp của lập luận/lập kế hoạch nâng cao, sử dụng công cụ và trí nhớ/đệ quy/tư duy tự phản ánh.

Như vậy, các tác nhân có tiềm năng trở thành một phần cốt lõi của kiến trúc ứng dụng LLM (hoặc thậm chí tiếp quản toàn bộ ngăn xếp công nghệ, nếu bạn tin vào khả năng tự cải thiện đệ quy). Các khuôn khổ hiện có như LangChain đã kết hợp một phần của khái niệm proxy. Chỉ có một vấn đề: Proxy vẫn chưa thực sự hoạt động. Hầu hết các khung đại lý ngày nay vẫn đang trong giai đoạn chứng minh khái niệm, cung cấp các bản trình diễn đáng kinh ngạc nhưng không thực hiện các nhiệm vụ một cách đáng tin cậy và lặp lại. Chúng tôi đang theo dõi sát sao proxy sẽ phát triển như thế nào trong tương lai gần.

Nhìn về tương lai

Các mô hình AI được đào tạo trước đại diện cho sự thay đổi quan trọng nhất trong kiến trúc phần mềm kể từ khi có Internet. Chúng cho phép các nhà phát triển riêng lẻ tạo ra các ứng dụng AI đáng kinh ngạc trong vài ngày, vượt qua cả các dự án máy học được giám sát mà trước đây phải mất hàng tháng để phát triển bởi các nhóm lớn.

Các công cụ và mẫu chúng tôi liệt kê ở đây có thể là điểm khởi đầu để tích hợp LLM, không phải là trạng thái kết thúc. Chúng tôi cũng cập nhật khi có những thay đổi đột phá (ví dụ: chuyển sang đào tạo mô hình) và xuất bản các kiến trúc tham chiếu mới khi phù hợp.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)