Meta Princeton đề xuất giải pháp tối ưu cho bối cảnh LLM! Hãy để mô hình trở thành một tác nhân tự trị và tự đọc cây nút ngữ cảnh

Nguồn gốc: Shin Ji Yuan

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Giải pháp tối ưu cho các mô hình bối cảnh dài LLM là gì?

Một giải pháp được đề xuất gần đây bởi các nhà nghiên cứu tại Đại học Princeton và Meta AI là nghĩ về LLM như một tác nhân tương tác cho phép nó quyết định cách đọc văn bản thông qua các lời nhắc lặp lại.

Địa chỉ giấy:

Họ đã thiết kế một hệ thống gọi là MemWalker có thể xử lý các bối cảnh dài thành một cây các nút tóm tắt.

Khi nhận được truy vấn, mô hình có thể truy xuất cây nút này để tìm thông tin liên quan và phản hồi khi nó đã thu thập đủ thông tin. Trong các tác vụ trả lời câu hỏi văn bản dài, phương pháp này tốt hơn đáng kể so với phương pháp cơ sở sử dụng các cửa sổ ngữ cảnh dài, đệ quy và truy xuất.

LeCun cũng tweet ủng hộ nghiên cứu của họ.

MemWalker bao gồm hai phần chính:

Trước tiên, bạn cần xây dựng cây bộ nhớ:

Cắt văn bản dài thành các nút tóm tắt. Các nút tổng hợp được tóm tắt thêm thành các nút cấp cao hơn và cuối cùng đạt đến gốc.

Phần thứ hai là Điều hướng:

Sau khi chấp nhận truy vấn, LLM điều hướng qua cây để tìm thông tin liên quan và phản hồi thích hợp. LLM hoàn thành quá trình này thông qua lý luận - có lẽ làm việc để tìm câu trả lời, chọn đi xa hơn trên một con đường hoặc thấy mình sai lầm và lùi lại theo cùng một cách.

Quá trình điều hướng này có thể được thực hiện với lời nhắc không mẫu và dễ dàng thích ứng với bất kỳ mô hình ngôn ngữ lớn nào được chỉ định.

Nhóm nghiên cứu đã chỉ ra rằng bằng cách đọc tương tác cây bộ nhớ được xây dựng bởi mô hình này, MemWalker vượt trội hơn các đường cơ sở ngữ cảnh dài khác và các biến thể truy xuất và vòng lặp, đặc biệt là đối với các ví dụ dài hơn.

Hiệu quả của MemWalker phụ thuộc vào hai phần chính:

  1. Kích thước bộ nhớ làm việc - LLM có khả năng ngữ cảnh toàn cầu tốt hơn khi cho phép LLM có được nhiều thông tin hơn dọc theo đường dẫn mà nó truy xuất.

2) Khả năng suy luận của LLM - Khi LLM đạt đến ngưỡng suy luận, MemWalker có hiệu quả. Khi khả năng suy luận dưới ngưỡng, tỷ lệ lỗi trong quá trình điều hướng cao.

MEMWALKER: MỘT TRÌNH ĐỌC TƯƠNG TÁC **

Nhóm nghiên cứu điều tra các nhiệm vụ liên quan đến trả lời câu hỏi ngữ cảnh dài - với văn bản dài x và truy vấn q, mục tiêu của mô hình là tạo ra phản hồi r.

MEMWALKER LÀM THEO HAI BƯỚC:

  1. Xây dựng cây bộ nhớ, trong đó các bối cảnh dài được chia thành các cấu trúc dữ liệu hình cây. Việc xây dựng này không dựa vào các truy vấn, vì vậy nếu có dữ liệu trình tự trước, nó có thể được tính toán trước.

  2. Điều hướng, trong đó mô hình điều hướng cấu trúc này khi nhận được truy vấn, thu thập thông tin để xây dựng phản hồi thích hợp.

MEMWALKER giả định quyền truy cập vào LLM cơ bản và thực hiện xây dựng và điều hướng bằng cách lặp lại lời nhắc LLM.

Menu

Sau khi nhận được truy vấn Q, mô hình ngôn ngữ sẽ bị xóa khỏi nút gốc

Bắt đầu điều hướng cây để tạo phản hồi.

Nút đi qua trong LLM

, nó quan sát cấp độ tiếp theo của các nút

Tóm tắt tệp .

LLM quyết định trong

+ Chọn một trong 1 hành động - Chọn nút con để kiểm tra thêm hoặc quay lại nút cha.

Trong nút lá

LLM có thể quyết định một trong hai hành động: gửi nút lá và trả lời truy vấn hoặc nếu nút lá chứa thông tin

(tức là

) là không đủ, quay trở lại nút cha

Để đưa ra quyết định điều hướng, nhóm nghiên cứu cũng có thể yêu cầu LLM trước tiên tạo ra sự biện minh bằng ngôn ngữ tự nhiên bằng cách nhắc nhở hành động, tiếp theo là chính lựa chọn hành động.

Cụ thể, tại mỗi nút, mô hình tạo ra phản hồi r ∼ LLM (r | s, q), trong đó phản hồi là một trong hai bộ bộ: 1) r = (lý luận, hành động, câu trả lời) khi LLM nằm trong nút lá hoặc 2) r = (lý luận, hành động) khi LLM nằm trong nút không lá.

** Thiết kế mẹo điều hướng **

Nhóm nghiên cứu đã bật điều hướng LLM với lời nhắc không mẫu. Có hai loại mẹo bạn cần:

  1. Mẹo phân loại và 2) đầu lá (được đánh dấu trong bảng bên dưới).

Dấu nhắc phân loại chứa truy vấn, tóm tắt các nút con và hướng dẫn mà LLM nên tuân theo. Mẹo phân loại được sử dụng cho các nút không phải lá.

Dấu nhắc lá chứa nội dung đoạn văn, truy vấn (và tùy chọn) và hướng dẫn yêu cầu LLM tạo câu trả lời hoặc quay lại nút mẹ.

Cả mẹo phân loại và mẹo lá đều chỉ định định dạng đầu ra mà LLM cần tuân theo. Việc không tuân thủ định dạng dẫn đến các hành động không hợp lệ và LLM cần được tạo lại. Nếu LLM không tạo ra đầu ra có thể giải quyết ba lần liên tiếp, điều hướng sẽ chấm dứt và trả về "Không có câu trả lời".

Bộ nhớ làm việc

Khi LLM hoàn tất việc truy xuất cây, nó có thể giữ thông tin trong đường dẫn điều hướng và thêm nó vào ngữ cảnh.

Nói chính xác, LLM tạo ra phản hồi r ∼ LLM (r | s, q, m) với bộ nhớ làm việc bổ sung

Trống hoặc chứa nội dung từ các nút đã truy cập trước đó.

Nhóm nghiên cứu đã cắt ngắn bộ nhớ làm việc để nó có thể phù hợp với cửa sổ ngữ cảnh của LLM.

BẢNG TRÊN CŨNG CHO THẤY CÁCH THÊM BỘ NHỚ LÀM VIỆC VÀO LỜI NHẮC THÔNG QUA BỘ NHỚ LÀM VIỆC.

Cấu hình thử nghiệm

Bộ dữ liệu và đánh giá

Nhóm nghiên cứu đã sử dụng ba bộ dữ liệu: QuALITY, SummScreenFD và GovReport, đến từ điểm chuẩn SCROLLS. Nhóm nghiên cứu đã chứng minh tính chính xác của tất cả các bộ dữ liệu.

Chất lượng

QuALITY là một tập dữ liệu câu hỏi và câu trả lời trắc nghiệm.

Bộ dữ liệu chứa các câu chuyện dài từ Dự án Gutenberg và các câu hỏi được chú thích bởi các nhà chú thích con người. Nhóm nghiên cứu đã thử nghiệm bằng cách sử dụng một tập hợp con gồm 187 ví dụ.

SummScreenFD

SummScreenFD là một bộ dữ liệu gồm các kịch bản truyền hình và phim ban đầu được thiết kế để tóm tắt.

Những kịch bản này được trình bày dưới dạng đối thoại giữa các diễn viên. Nhóm nghiên cứu đã chuyển đổi bộ dữ liệu này thành một nhiệm vụ hỏi đáp, trong đó văn bản tóm tắt trung thực cơ bản được cung cấp thô được sử dụng để tạo ra câu hỏi "ai" bằng cách sử dụng Stable Beluga 2, sau đó được kiểm tra bởi một chuyên gia con người.

Câu hỏi được ghép nối với văn bản dài ban đầu đã trở thành 306 ví dụ về các nhiệm vụ QA được định vị lại.

Báo cáo chính phủ

Bộ dữ liệu GovReport tập hợp các tài liệu từ Dịch vụ Nghiên cứu Quốc hội và Văn phòng Trách nhiệm Chính phủ Hoa Kỳ, cũng như các bản tóm tắt do các chuyên gia cung cấp.

Nhóm nghiên cứu đã chuyển đổi tập dữ liệu này thành bộ dữ liệu câu hỏi và câu trả lời với 101 ví dụ giống như SummScreenFD.

Cả ba bộ dữ liệu đều được đặc trưng bởi các bối cảnh dài có độ dài khác nhau, một số ví dụ ngắn hơn và một số chuỗi dài hơn.

Do đó, nhóm nghiên cứu đã trình bày kết quả trên cả tập dữ liệu gốc và trên một tập hợp con của các chuỗi dài hơn có trong mỗi nhiệm vụ để đánh giá tốt hơn việc truy cập bộ nhớ trong các tình huống bối cảnh khó khăn hơn và dài hơn.

Các ngưỡng là 8.000 token của QuALITY, 6.000 token của SummScreenFD và 12.000 token của GovReport.

Mẫu

Nhóm nghiên cứu đã sử dụng Stable Beluga 2 làm LLM cơ bản trong hầu hết các thí nghiệm của họ vì nó cung cấp hiệu suất hiện đại so với một số biến thể LLM khác, mà nhóm nghiên cứu sẽ chứng minh.

Beluga 2 ổn định là mô hình điều chỉnh hướng dẫn dựa trên LLaMA-2 70B, trong đó tinh chỉnh không trùng lặp với nhiệm vụ đánh giá của nhóm nghiên cứu.

Nó có độ dài ngữ cảnh tối đa là 4.096 mã thông báo. Nhóm nghiên cứu đã sử dụng mô hình theo cách zero-shot mà không cần tinh chỉnh thêm hoặc cung cấp một số lượng nhỏ các ví dụ về nhiệm vụ của nhóm nghiên cứu trong bối cảnh.

Nhóm nghiên cứu đã sử dụng lấy mẫu p hàng đầu để xây dựng cây nhớ cũng như các hành động và suy luận để tạo điều hướng.

Nhóm nghiên cứu đặt số lượng nút tối đa cho QuALITY, SummScreenFD và GovReport, maxt Mt = 8, 5, 8 và kích thước phân đoạn | c |, tương ứng = 1000, 1000, 1200。

Chuẩn

Nhóm nghiên cứu đã so sánh ba công nghệ bộ nhớ dựa trên cùng một LLM cơ bản với Stable Beluga 2:

  1. Cửa sổ ngữ cảnh đầy đủ

  2. Đệ quy

  3. Truy xuất

Đường cơ sở cửa sổ ngữ cảnh đầy đủ sử dụng tất cả 4.096 mã thông báo để xử lý văn bản đầu vào dài và tạo. Bởi vì các trường hợp trong tập dữ liệu thường vượt quá giới hạn ngữ cảnh, nhóm nghiên cứu đã cắt ngắn độ dài, lấy bên phải (gần nhất) hoặc bên trái (ít gần nhất) của văn bản làm đầu vào và đánh giá cả hai phương pháp.

Đối với việc tìm kiếm, nhóm nghiên cứu đã sử dụng Contriever (Izacard et al., 2022) để chọn các đoạn văn từ các ngữ cảnh dài dựa trên các truy vấn. Các đoạn văn có điểm số cao nhất được nối vào ngữ cảnh đầu vào của LLM cho đến khi chúng lấp đầy ngữ cảnh.

Cuối cùng, nhóm nghiên cứu đã thực hiện một đường cơ sở lặp qua bản tóm tắt đến đoạn thông tin hiện tại từ các mã thông báo đoạn trước, trong đó mỗi đoạn là 2.500 mã thông báo và kích thước trừu tượng tối đa là 500 mã thông báo.

Kết quả &; Phân tích

Kết quả chính

Bảng 2 dưới đây cho thấy sự so sánh giữa MEMWALKER và các đường cơ sở khác.

MEMWALKER VƯỢT QUÁ ĐÁNG KỂ ĐƯỜNG CƠ SỞ ĐỆ QUY TRONG TẤT CẢ CÁC NHIỆM VỤ.

Điều này cho thấy giới hạn của đệ quy, trong đó thông tin liên quan cho truy vấn bị mất sau một vài bước.

MEMWALKER CŨNG VƯỢT RA NGOÀI VIỆC TÌM KIẾM, NƠI CÁC ĐOẠN VĂN ĐẾN TỪ MỘT CÂU CHUYỆN DÀI MẠCH LẠC HƠN LÀ MỘT TÀI LIỆU RIÊNG BIỆT.

Trong các tác vụ này, đường cơ sở ngữ cảnh đầy đủ có thể hoạt động tốt trong cài đặt tác vụ "thô", có thể chứa các chuỗi tương đối ngắn, mặc dù việc chọn cắt ngắn sang trái hoặc phải để có hiệu suất tốt nhất dường như phụ thuộc vào tập dữ liệu.

Tuy nhiên, ngoại trừ biến hold-right trên QuALITY và biến hold-left trên GovReport, MEMWALKER đạt được hiệu suất cao hơn trong thiết lập ban đầu so với đường cơ sở đầy đủ ngữ cảnh, có thể là do thiên vị vị trí trong tập dữ liệu, trong đó các đoạn có liên quan thường xuất hiện ở đầu hoặc cuối văn bản.

TUY NHIÊN, TRÊN CÁC PHIÊN BẢN DÀI CỦA CẢ BA TÁC VỤ, MEMWALKER ĐÃ VƯỢT QUÁ TẤT CẢ CÁC ĐƯỜNG CƠ SỞ, TỨC LÀ NÓ CHO THẤY HIỆU SUẤT MẠNH MẼ KHI TRUY CẬP BỘ NHỚ TRỞ NÊN QUAN TRỌNG HƠN.

MEMWALKER cũng vượt qua các mô hình có sẵn công khai khác, bao gồm LongChat và MPT.

MEMWALKER cải thiện hiệu suất trên các chuỗi dài. Nhóm nghiên cứu đã cung cấp bảng phân tích hiệu suất về độ dài trình tự đầu vào cho từng nhiệm vụ trong Hình 2 ở trên.

KHI ĐỘ DÀI VĂN BẢN NGẮN HƠN, MEMWALKER KÉM HƠN ĐƯỜNG CƠ SỞ ĐẦY ĐỦ NGỮ CẢNH (CẮT NGẮN TRÁI HOẶC PHẢI), NHƯNG VƯỢT TRỘI HƠN CẢ HAI LOẠI CẮT NGẮN TRÊN CÁC CHUỖI DÀI HƠN CHO TẤT CẢ CÁC TÁC VỤ.

Lợi ích của việc đọc tương tác là sự gia tăng thích hợp về độ dài văn bản trở nên rõ ràng, tức là hiệu suất tốt hơn được hiển thị khi độ dài chuỗi lớn hơn đáng kể so với độ dài ngữ cảnh 4.096 LLM.

Suy luận là điều cần thiết cho việc điều hướng cây bộ nhớ.

HIỆU QUẢ CỦA MEMWALKER PHỤ THUỘC NHIỀU VÀO KHẢ NĂNG SUY LUẬN CỦA LLM CƠ BẢN. Đối với mỗi quyết định điều hướng, nhóm nghiên cứu đã sử dụng một lời nhắc LLM yêu cầu LLM trước tiên tạo ra một lời biện minh bằng ngôn ngữ tự nhiên để biện minh cho hành động dự đoán tiếp theo, như thể hiện trong Bảng 1 dưới đây.

Nhóm nghiên cứu cho thấy trong Bảng 3 dưới đây lý luận ảnh hưởng đến hiệu suất như thế nào bằng cách so sánh Llama 2 Chat (các biến thể tham số 13B và 70B) với Beluga ổn định 2 (70B) và bằng cách loại bỏ dòng "Cung cấp lý do trước khi đưa ra quyết định ..." khỏi lời nhắc.

Đối với các mô hình nhỏ hơn, ít khả năng hơn (13B), hiệu suất tụt hậu đáng kể so với các mô hình 70B do không thể làm theo hướng dẫn. Trên thực tế, yêu cầu biện minh suy luận cho các mô hình yếu hơn có thể làm giảm hiệu suất, có lẽ vì chúng không thể tạo ra và tận dụng những biện minh đó.

Beluga 2 ổn định vượt trội hơn Llama 2 Chat có cùng kích thước LLM và cũng cho thấy khả năng suy luận nâng cao.

Đối với Stable Beluga 2, yêu cầu biện minh lý luận trong tất cả các nhiệm vụ sẽ cải thiện hiệu suất. ĐIỀU NÀY LÀM NỔI BẬT TÍNH NĂNG CHÍNH CỦA MEMWALKER: NẾU LLM VƯỢT QUA NGƯỠNG KHẢ NĂNG SUY LUẬN QUAN TRỌNG, NÓ CÓ THỂ LÝ LUẬN VỀ ĐẦU VÀO DÀI QUA NHIỀU VÒNG MÀ KHÔNG NHANH CHÓNG TẠO RA LỖI GIỮA CÁC VÒNG.

Đối với các LLM yếu không đưa ra quyết định điều hướng tốt, lỗi có thể tích lũy và hiệu suất tổng thể bị suy giảm.

KHI KHẢ NĂNG SUY LUẬN CỦA LLM TIẾP TỤC ĐƯỢC CẢI THIỆN TRONG NHỮNG NĂM TỚI, NHÓM NGHIÊN CỨU HY VỌNG CÁC PHƯƠNG PHÁP NHƯ MEMWALKER SẼ TRỞ NÊN HIỆU QUẢ HƠN.

Cần có bộ nhớ làm việc để điều hướng cây bộ nhớ. KHI MEMWALKER ĐƯA RA QUYẾT ĐỊNH ĐI QUA CÂY BỘ NHỚ VÀ ĐỌC CÁC ĐOẠN LIÊN QUAN, NÓ CÓ THỂ MẤT KIẾN THỨC VỀ BỐI CẢNH TỔNG THỂ.

Do đó, mô hình mang thông tin từ nút dọc theo đường dẫn điều hướng dưới dạng bộ nhớ làm việc, nơi nội dung của bộ nhớ làm việc được cập nhật khi mô hình chọn đường dẫn tiếp theo.

NHÓM NGHIÊN CỨU ĐÃ ĐÁNH GIÁ HIỆU SUẤT CỦA MEMWALKER CÓ HOẶC KHÔNG CÓ BỘ NHỚ LÀM VIỆC VÀ KẾT QUẢ ĐƯỢC THỂ HIỆN TRONG HÌNH 3 DƯỚI ĐÂY.

Nhóm nghiên cứu phát hiện ra rằng sự cạn kiệt bộ nhớ làm việc dẫn đến giảm đáng kể hiệu suất trên tất cả các tác vụ, với độ chính xác giảm 5-13%, chứng tỏ tầm quan trọng của thành phần này.

MEMWALKER có thể phục hồi từ con đường sai.

KHI MEMWALKER ĐIỀU HƯỚNG CÂY BỘ NHỚ, NÓ KHÔNG CHỈ CẦN TÌM ĐƯỜNG DẪN ĐẾN CÁC ĐOẠN CÓ LIÊN QUAN NHẤT MÀ CÒN CÓ THỂ CẦN KHÔI PHỤC TỪ TẤT CẢ CÁC LỖI TRUY XUẤT.

Nhóm nghiên cứu trình bày số liệu thống kê phục hồi trong Bảng 4 dưới đây. MEMWALKER thực hiện các hoạt động điều hướng phục hồi (và do đó thay đổi đường dẫn) trên khoảng 15% - 20% mẫu, nhưng trong các ví dụ này, có thể khôi phục và lấy chúng chính xác trong QuALITY, 60% cho SummScreenFD và ∼ 80% cho GovReport.

MEMWALKER cho phép đọc hiệu quả. VÌ MEMWALKER XÁC ĐỊNH PHẦN NÀO CỦA VĂN BẢN DÀI CẦN ĐƯỢC ĐỌC, TẢI TRỌNG CẦN ĐỌC CÓ THỂ NHỎ HƠN TOÀN BỘ CHUỖI.

Nhóm nghiên cứu cho thấy tỷ lệ phần trăm trung bình của các lần đọc ngữ cảnh dài cho tất cả các ví dụ, như thể hiện trong Hình 4 bên dưới cho mỗi nhiệm vụ trong ba nhiệm vụ. Nhóm nghiên cứu phát hiện ra rằng, trung bình, chỉ có 63-69% văn bản cần được đọc để trả lời các câu hỏi, bao gồm cả nội dung của các nút cây.

Trên con đường dẫn đến thành công, việc đọc yêu cầu tiếp tục giảm xuống còn 59% - 64%.

Đánh đổi để xây dựng cây nhớ

Khi nhóm nghiên cứu xây dựng cây bộ nhớ, một sự đánh đổi cơ bản phát sinh - tóm tắt các đoạn lớn hơn thành các nút để giảm độ sâu của cây, nhưng có khả năng làm mất độ chính xác của nội dung.

Tương tự, kết nối nhiều nút cấp thấp hơn với các nút ở trên có thể giúp làm phẳng cây, nhưng có thể làm cho các tác vụ điều hướng LLM trên mỗi nút trở nên khó khăn hơn.

Hình 5 dưới đây cho thấy hiệu suất của các cấu hình khác nhau của cây bộ nhớ trên QuALITY. Tóm tắt các đoạn văn lớn hơn thường có lợi hơn so với tóm tắt các đoạn nhỏ hơn và kết nối nhiều nút con hơn với nút cha.

Tuy nhiên, hiệu suất ổn định khi số lượng nút tối đa tăng lên, cho thấy sự đánh đổi về lượng thông tin có thể được đóng gói vào các nút trong quá trình xây dựng cây bộ nhớ.

Tài nguyên:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)