RLHF không còn cần đến con người, nghiên cứu của nhóm Google chứng minh việc ghi nhãn AI đã đạt tới trình độ con người

Nguồn gốc: Xinzhiyuan

Nguồn hình ảnh: Được tạo bởi AI‌ không giới hạn

Nếu thay thế “con người” trong RLHF liệu có khả thi?

Nghiên cứu mới nhất của nhóm Google đề xuất sử dụng các mô hình lớn để thay thế con người trong việc chú thích tùy chọn, đó là học tăng cường phản hồi AI (RLAIF).

Địa chỉ giấy:

Người ta nhận thấy rằng RLAIF có thể tạo ra những cải tiến tương đương với RLHF mà không cần dựa vào người chú thích, với tỷ lệ thành công là 50%.

Đồng thời, nghiên cứu của Google một lần nữa chứng minh RLAIF và RLHF có tỷ lệ chiến thắng hơn 70% so với tinh chỉnh có giám sát (SFT).

Một phần quan trọng trong việc đào tạo các mô hình ngôn ngữ lớn ngày nay là RLHF. Con người làm cho các phản hồi trở nên hữu ích hơn bằng cách đánh giá chất lượng đầu ra của AI.

Tuy nhiên, điều này sẽ đòi hỏi rất nhiều nỗ lực, bao gồm cả việc khiến nhiều người chú thích tiếp xúc với nội dung có hại của đầu ra AI.

Giờ đây, RLAIF có thể so sánh với RLHF, các mô hình trong tương lai không yêu cầu phản hồi của con người và cũng có thể được cải thiện thông qua tính năng tự lặp.

RLHF không cần con người nữa

Hiện tại, RLHF đã trở thành phương pháp cốt lõi để tinh chỉnh các mô hình lớn, bao gồm ChatGPT, Bard và các mô hình khác áp dụng mô hình này.

Cụ thể, RLHF được chia thành ba bước: đào tạo trước LLM tinh chỉnh có giám sát; thu thập dữ liệu để huấn luyện mô hình phần thưởng; và tinh chỉnh mô hình bằng RL.

Với RLHF, các mô hình lớn có thể được tối ưu hóa cho các mục tiêu cấp trình tự phức tạp khó phân biệt với SFT truyền thống.

Tuy nhiên, một vấn đề rất thực tế là RLHF yêu cầu dữ liệu chú thích của con người có quy mô lớn và chất lượng cao và liệu những dữ liệu này có thể đạt được kết quả vượt trội hay không.

Trước nghiên cứu này của Google, các nhà nghiên cứu của Anthropic là những người đầu tiên khám phá việc sử dụng các tùy chọn AI để đào tạo các mô hình khen thưởng nhằm tinh chỉnh RL.

Họ đã đề xuất RLAIF trong "AI hiến pháp" lần đầu tiên và nhận thấy rằng LLM rất phù hợp với khả năng phán đoán của con người và thậm chí còn thực hiện tốt hơn con người trong một số nhiệm vụ.

Tuy nhiên, nghiên cứu này không so sánh phản hồi của con người và trí tuệ nhân tạo nên liệu RLAIF có thể thay thế RLHF hay không vẫn chưa nhận được câu trả lời cuối cùng.

Nghiên cứu mới nhất của Google chủ yếu nhằm giải quyết vấn đề này.

Các nhà nghiên cứu đã so sánh trực tiếp RLAIF và RLHF trong nhiệm vụ tóm tắt mô hình.

Đưa ra 1 văn bản và 2 câu trả lời của ứng viên, hãy sử dụng LLM làm sẵn để đưa ra chú thích ưu tiên.

Sau đó, một mô hình phần thưởng (RM) được đào tạo dựa trên ưu tiên LLM và sự mất mát tương phản. Cuối cùng, mô hình chính sách được tinh chỉnh thông qua học tập tăng cường và mô hình khen thưởng được sử dụng để trao thưởng.

Vậy, sự khác biệt giữa phương pháp RLAIF do Google và Anthropic đề xuất là gì?

Chính Google giải thích trong bài viết,

  • Google: Đào tạo mô hình phần thưởng dựa trên các tùy chọn được gắn nhãn AI và sau đó thực hiện tinh chỉnh RL.

  • AI theo hiến pháp: Cải thiện các mô hình học tập có giám sát bằng cách lặp đi lặp lại yêu cầu LLM tạo ra phản hồi tốt hơn dựa trên hiến pháp.

AI tự gắn nhãn, tự hoàn thiện

Quy trình của phương pháp RLAIF được Google đề xuất trong nghiên cứu mới nhất là gì?

Mô hình ngôn ngữ lớn để ghi nhãn tùy chọn

Các nhà nghiên cứu đã sử dụng LLM "có sẵn" để dán nhãn ưu tiên giữa hai ứng viên.

Đây là mô hình đã được huấn luyện trước hoặc được điều chỉnh để sử dụng chung nhưng không được tinh chỉnh cho một tác vụ cụ thể ở phía sau. Đưa ra một văn bản và hai bản tóm tắt ứng viên, LLM được yêu cầu đánh giá bản tóm tắt nào tốt hơn. Cấu trúc đầu vào của LLM như sau:

1. Lời nói đầu

Hướng dẫn giới thiệu và mô tả nhiệm vụ hiện tại

2. Nhiều phiên bản mẫu (tùy chọn)

Một đoạn văn bản, một cặp tóm tắt, cơ sở lý luận cho một ý tưởng và đánh giá sở thích

3. Mẫu cần dán nhãn

Một đoạn văn bản và một cặp tóm tắt để chú thích

4. Kết thúc

Nhắc chuỗi cuối của LLM (chẳng hạn như "Tóm tắt ưa thích =")

Sau khi cung cấp đầu vào cho LLM, các nhà nghiên cứu đã thu được xác suất logarit của việc tạo mã thông báo "1" và "2" và tính toán softmax để có được phân phối ưu tiên.

Có nhiều cách để có được các chú thích ưu tiên từ LLM, chẳng hạn như giải mã các phản hồi dạng tự do từ mô hình và trích xuất các ưu tiên theo phương pháp phỏng đoán (ví dụ: đầu ra="tóm tắt đầu tiên là tốt hơn") hoặc biểu diễn phân phối ưu tiên dưới dạng biểu diễn một lần ( một đại diện nóng). Tuy nhiên, các nhà nghiên cứu đã không thử những phương án thay thế này vì phương pháp của họ đã mang lại độ chính xác cao.

Các nhà nghiên cứu đã thử nghiệm hai loại lời mở đầu: loại đầu tiên là "Cơ sở", chỉ hỏi "Tóm tắt nào tốt hơn?" và loại thứ hai là "OpenAI", mô phỏng phương pháp được sử dụng để tạo tập dữ liệu tùy chọn OpenAI TL;DR. hướng dẫn dành cho người gắn thẻ tùy chọn của con người với thông tin chi tiết về những gì tạo nên bản tóm tắt mạnh mẽ. Như hình dưới đây.

Các nhà nghiên cứu cũng thử nghiệm phương pháp học theo ngữ cảnh bằng cách thêm một số lượng nhỏ mẫu vào lời nhắc, trong đó các mẫu được chọn thủ công để bao gồm các chủ đề khác nhau. Giải quyết độ lệch vị trí.

Những phát hiện trước đây cho thấy rằng thứ tự các ứng viên được trình bày tại LLM có thể ảnh hưởng đến đánh giá của LLM về ứng viên nào được ưu tiên hơn. Các nhà nghiên cứu đã tìm thấy bằng chứng về sự thiên vị vị trí này, đặc biệt đối với các LLM có chú thích có kích thước nhỏ hơn.

Để giảm thiểu sai lệch vị trí trong chú thích ưu tiên, chúng tôi thực hiện hai suy luận trên mỗi cặp ứng cử viên, với thứ tự ứng viên được gửi tới LLM bị đảo ngược. Kết quả của hai suy luận sau đó được tính trung bình để có được phân phối ưu tiên cuối cùng.

Lập luận chuỗi tư duy

Các nhà nghiên cứu cố gắng gợi ra lý luận chuỗi suy nghĩ (COT) từ trình gắn thẻ AI để cải thiện tính nhất quán với sở thích của con người.

Các nhà nghiên cứu thay thế các lời nhắc kết thúc tiêu chuẩn (ví dụ: thay thế "Tóm tắt ưa thích=" bằng "Hãy xem xét tính mạch lạc, chính xác, mức độ bao quát và chất lượng tổng thể của mỗi bản tóm tắt và giải thích bản tóm tắt nào tốt hơn. Cơ sở lý luận:"), sau đó giải mã câu trả lời LLM .

Cuối cùng, các nhà nghiên cứu ghép lời nhắc ban đầu, phản hồi và chuỗi kết thúc ban đầu "Tóm tắt ưu tiên=" và làm theo quy trình tính điểm trong Phần 3.1 để có được phân phối ưu tiên. Xem hình dưới đây để biết quy trình cụ thể.

Trong gợi ý không có cảnh quay, LLM không đưa ra ví dụ nào về suy luận sẽ trông như thế nào, trong khi ở gợi ý ít lượt quay, các nhà nghiên cứu cung cấp ví dụ về suy luận COT để mô hình tuân theo. Xem hình dưới đây để biết ví dụ.

### Tự thống nhất

Đối với các tín hiệu của chuỗi suy nghĩ, các nhà nghiên cứu cũng đã thử nghiệm tính tự nhất quán—một kỹ thuật giúp cải thiện khả năng suy luận của chuỗi suy nghĩ bằng cách lấy mẫu nhiều lộ trình suy luận và tổng hợp các câu trả lời cuối cùng được đưa ra ở cuối mỗi lộ trình.

Sử dụng nhiệt độ giải mã khác 0 để lấy mẫu nhiều nguyên tắc cơ bản của chuỗi suy nghĩ, sau đó thu được mức phân bổ ưu tiên LLM của từng chuỗi suy nghĩ theo phương pháp trong phần trước. Các kết quả sau đó được tính trung bình để có được sự phân phối ưu tiên cuối cùng.

Học tăng cường với phản hồi AI

Sau khi LLM chú thích các tùy chọn, mô hình phần thưởng (RM) sẽ được đào tạo để dự đoán các tùy chọn. Vì phương pháp của các nhà nghiên cứu tạo ra các nhãn mềm nên họ áp dụng tổn thất entropy chéo của softmax của điểm thưởng do RM tạo ra thay vì tổn thất được đề cập trong mô hình phần thưởng.

Softmax chuyển đổi điểm RM không giới hạn thành phân bố xác suất.

Việc đào tạo RM trên các tập dữ liệu có chú thích AI có thể được coi là một hình thức chắt lọc mô hình, đặc biệt vì bộ chú thích AI của các nhà nghiên cứu thường lớn hơn và mạnh hơn RM.

Một cách tiếp cận khác là bỏ qua RM và trực tiếp sử dụng phản hồi AI làm tín hiệu khen thưởng trong RL, mặc dù cách tiếp cận này tốn kém hơn về mặt tính toán vì bộ chú thích AI lớn hơn RM.

Với RM đã được đào tạo, các nhà nghiên cứu đã thực hiện học tăng cường bằng cách sử dụng phiên bản sửa đổi của thuật toán Advantage Actor Critic (A2C) phù hợp với lĩnh vực mô hình hóa ngôn ngữ.

đánh giá

Các nhà nghiên cứu đã đánh giá kết quả của họ theo ba chỉ số - căn chỉnh trình gắn thẻ AI, độ chính xác khi ghép nối và tỷ lệ thắng.

Căn chỉnh trình gắn thẻ AI được sử dụng để đo lường độ chính xác của tùy chọn gắn thẻ AI so với tùy chọn của con người.

Đối với một ví dụ duy nhất, hãy chuyển đổi các tùy chọn được gắn nhãn AI mềm thành biểu diễn nhị phân. Gán 1 nếu chú thích phù hợp với sở thích của con người mục tiêu và gán 0 nếu ngược lại.

Độ chính xác theo cặp là thước đo độ chính xác của mô hình phần thưởng được đào tạo so với tập hợp các sở thích được giữ lại của con người.

Với bối cảnh được chia sẻ và một cặp phản hồi của ứng viên, độ chính xác của việc ghép cặp là 1 nếu RM cho điểm ứng viên được ưu tiên cao hơn ứng viên không được ưu tiên theo chú thích của con người. Nếu không thì giá trị là 0. Con số này là giá trị trung bình của nhiều mẫu để đo độ chính xác tổng thể của RM.

Tỷ lệ thắng đánh giá chất lượng toàn diện của hai chiến lược bằng cách đo lường tần suất con người thích chiến lược này hơn chiến lược kia.

Với một đầu vào và hai kết quả được tạo ra, người chú thích sẽ chọn kết quả được tạo ra nào để thích hơn. Tỷ lệ phần trăm các trường hợp trong đó chiến lược A tốt hơn chiến lược B được gọi là "Tỷ lệ thắng của A trước B".

Chi tiết thử nghiệm

Các nhà nghiên cứu đã sử dụng bộ dữ liệu Reddit TL;DR được lọc do OpenAI quản lý. TL;DR Chứa khoảng 3 triệu bài đăng từ Reddit về nhiều chủ đề khác nhau (còn được gọi là "subreddits") cũng như bản tóm tắt các bài đăng được viết bởi các tác giả gốc.

Dữ liệu cũng được OpenAI lọc để đảm bảo chất lượng cao, bao gồm việc sử dụng danh sách trắng các chủ đề Reddit mà công chúng có thể hiểu được.

Ngoài ra, chỉ những bài đăng có 24 đến 48 chú thích trong phần tóm tắt mới được đưa vào. Tập dữ liệu được lọc chứa 123.169 bài đăng, khoảng 5% trong số đó đóng vai trò là bộ xác thực.

Thông tin chi tiết về tập dữ liệu có thể được tìm thấy trong bài báo gốc. Ngoài ra, OpenAI đã tuyển chọn tập dữ liệu về sở thích của con người từ tập dữ liệu TL;DR đã được lọc.

Đối với một bài đăng nhất định, hai bản tóm tắt ứng cử viên được tạo theo các chiến lược khác nhau và người gắn thẻ được yêu cầu chấm điểm các bản tóm tắt yêu thích của họ. Tổng số liệu chứa khoảng 92k so sánh theo cặp.

chú thích LLM

Để đánh giá tính hiệu quả của các kỹ thuật chú thích AI (ví dụ: gợi ý, tính tự nhất quán), các nhà nghiên cứu chọn các ví dụ từ bộ dữ liệu ưu tiên TL;DR, trong đó người chú thích con người sẽ thích các nội dung trừu tượng có độ tin cậy cao hơn.

Các nhà nghiên cứu đã đánh giá sự liên kết của trình gắn thẻ AI trên tập hợp con 15% ngẫu nhiên của phần phân chia huấn luyện của tập dữ liệu để lặp lại thử nghiệm nhanh hơn, tạo ra 2.851 ví dụ đánh giá.

Đối với đào tạo mô hình phần thưởng, TL;DR, phần đào tạo đầy đủ của tập dữ liệu ưu tiên được LLM chú thích và sử dụng để đào tạo, bất kể điểm tin cậy là bao nhiêu.

###Đào tạo người mẫu

Các nhà nghiên cứu đã huấn luyện mô hình SFT trên tập dữ liệu TL;DR được lọc OpenAI bằng cách sử dụng PaLM 2 Extra-Small (XS) làm điểm kiểm tra ban đầu.

Sau đó, các nhà nghiên cứu đã khởi tạo RM từ các mô hình SFT và huấn luyện chúng trên bộ dữ liệu sở thích con người TL;DR của OpenAI.

Để có kết quả trong Bảng 1 và 5.1, các nhà nghiên cứu đã sử dụng PaLM 2L để tạo các tùy chọn được chú thích bằng AI, sử dụng gợi ý "OpenAI + COT 0-shot" (, không có tính tự nhất quán và sau đó đào tạo tập dữ liệu RM về các tùy chọn đầy đủ.

Để học tăng cường, các nhà nghiên cứu đã sử dụng Advantage Actor Critic (A2C) để đào tạo chính sách. Cả mô hình chiến lược và giá trị đều được khởi tạo từ mô hình SFT. Các nhà nghiên cứu đã sử dụng tập dữ liệu Reddit TL;DR đã được lọc làm trạng thái ban đầu để khởi động chiến lược của họ.

Con người Đánh giá con người

Các nhà nghiên cứu đã thu thập 1.200 xếp hạng của con người để đánh giá các chiến lược RLHF và RLAIF. Đối với mỗi nhiệm vụ xếp hạng, người đánh giá sẽ nhận được một bài đăng và 4 bản tóm tắt được tạo theo các chiến lược khác nhau (mỗi bản tóm tắt cho RLAIF, RLHF, SFT và tham chiếu con người) và được yêu cầu xếp hạng chúng theo thứ tự chất lượng mà không có bất kỳ liên kết nào.

Các bài đăng được lấy từ tập hợp giữ lại của tập dữ liệu tinh chỉnh được giám sát TL;DR, tập hợp này không được sử dụng cho bất kỳ đánh giá nào khác. Khi những thứ hạng này được thu thập, tỷ lệ cược của hai chiến lược bất kỳ có thể được tính toán.

Tỷ lệ thắng 50%, hòa

RLAIF so với RLHF

Ở đầu bài viết, chúng tôi đã giới thiệu những ưu điểm so sánh RLAIF và RLHF của Google, kết quả cho thấy 2 phương pháp có hiệu suất tương tự nhau.

Cụ thể, những người đánh giá là con người ưa thích RLAIF hơn so với SFT cơ bản trong 71% thời gian. RLHF vượt trội hơn SFT 73% thời gian.

Các nhà nghiên cứu cũng so sánh trực tiếp tỷ lệ thắng của RLAIF và RLHF và nhận thấy rằng chúng phổ biến như nhau - tức là cả hai đều có tỷ lệ thắng 50%.

Để hiểu rõ hơn sự khác biệt giữa hai chiến lược này, Google đã thực hiện so sánh định tính các đoạn trích mà họ tạo ra.

Ngoài ra, họ còn so sánh các bản tóm tắt RLAIF và RLHF với các bản tóm tắt tham khảo do con người viết. RLAIF tạo ra các bản tóm tắt tốt hơn các bản tóm tắt tham chiếu trong 79% thời gian và kết quả RLHF vượt trội hơn các bản tóm tắt tham chiếu trong 80% thời gian.

Có thể thấy, chênh lệch tỷ lệ thắng giữa RLAIF và RLHF và tóm tắt tham chiếu chỉ là 1% và không có sự khác biệt đáng kể.

Điều đáng chú ý là các nhà nghiên cứu cũng phát hiện ra rằng tần suất ảo giác trong chiến lược RLHF thường cao hơn tần suất trong chiến lược RLAIF, như thể hiện trong văn bản được đánh dấu màu đỏ ở bảng trên.

Sau khi kiểm soát độ dài tóm tắt, chiến lược RLAIF và RLHF vẫn hoạt động tốt hơn SFT cơ bản và đạt được tỷ lệ thắng tương tự.

Những kết quả này cho thấy RLAIF không cần phải dựa vào chú thích thủ công và là giải pháp thay thế khả thi cho RLHF.

Các mẹo và thủ thuật

Khi sử dụng các kỹ thuật nhắc nhở, nhóm Google đã thử ba loại kỹ thuật nhắc nhở: tính cụ thể của lời mở đầu, CoT và tìm hiểu ngữ cảnh với một vài mẫu.

Người ta nhận thấy rằng với lời nhắc mở đầu chi tiết của OpenAI và suy luận CoT, trình chú thích AI có thể đạt được độ nhất quán 78%.

Trong khi đó, học theo ngữ cảnh không cải thiện độ chính xác và thậm chí có thể làm cho nó tệ hơn.

### tự thống nhất

Các nhà nghiên cứu đã tiến hành thí nghiệm tự đồng nhất sử dụng 4 và 16 mẫu, với nhiệt độ giải mã là 1.

Việc lấy mẫu nhiều nguyên tắc chuỗi suy nghĩ với T = 1 mang lại kết quả ít phù hợp hơn với sở thích của con người.

### Kích thước của chú thích mô hình lớn

Nghiên cứu cũng cho thấy rằng việc tăng quy mô tham số của các trình gắn thẻ mô hình lớn có thể mang lại các chú thích tùy chọn chất lượng cao hơn.

Số lượng ví dụ ưu tiên

Độ chính xác của mô hình phần thưởng thay đổi như thế nào với các ví dụ đào tạo?

Các nhà nghiên cứu nhận thấy rằng sau khi đào tạo trên hàng nghìn ví dụ, hiệu suất của mô hình phần thưởng gần bằng với hiệu suất đào tạo trên toàn bộ tập dữ liệu.

Tóm lại là

Các nhà nghiên cứu đã chứng minh rằng RLAIF có thể tạo ra những cải tiến tương đương với RLHF mà không cần dựa vào người chú thích.

Mặc dù công việc này nêu bật tiềm năng của RLAIF nhưng vẫn còn một số hạn chế.

Đầu tiên, nghiên cứu này chỉ tìm hiểu nhiệm vụ tóm tắt và cần nghiên cứu sâu hơn về khả năng khái quát hóa cho các nhiệm vụ khác.

Thứ hai, các nhà nghiên cứu không ước tính liệu suy luận LLM có lợi hơn so với chú thích thủ công về mặt chi phí kinh tế hay không.

Ngoài ra, có một số câu hỏi thú vị đáng để nghiên cứu, chẳng hạn như liệu RLHF kết hợp với RLAIF có thể hoạt động tốt hơn một phương pháp duy nhất hay không, việc sử dụng LLM để trực tiếp trao phần thưởng có hiệu quả hay không, liệu việc căn chỉnh nhãn AI được cải thiện có chuyển thành các chính sách cuối cùng được cải thiện hay không và liệu chính sách có thể được cải thiện hơn nữa bằng cách sử dụng trình gắn thẻ LLM có cùng kích thước với mô hình chính sách (tức là liệu mô hình có thể "tự cải thiện" hay không).

Cuộc thảo luận sôi nổi của cư dân mạng

Google đã xuất bản hai bài báo về RL:

  1. RLAIF: Mô hình khen thưởng đào tạo tương tự như phản hồi của con người

  2. ReST: Sử dụng các mô hình sáng tạo để tạo điều kiện cho việc tự đào tạo Kết hợp hai bài viết này có thể đáp ứng các thuật toán AI ngốn dữ liệu đó.

Nửa tháng trước, Google DeepMind vừa đề xuất thuật toán mới ReST nhằm tạo ra các mô hình ngôn ngữ quy mô lớn phù hợp với sở thích của con người.

Cụ thể, thông qua phương pháp học tăng cường ngoại tuyến, chất lượng dịch thuật của các mô hình ngôn ngữ lớn được cải thiện để đáp ứng tốt hơn sở thích của con người.

Một nhà nghiên cứu cho biết mô hình Claude của Anthropic có vẻ yếu hơn GPT-4 dựa trên thử nghiệm định tính. Điều này có thể do phương pháp RLHF/RLAIF hoặc do đào tạo trước gây ra. Không rõ liệu các phương pháp này có khái quát hóa tốt hơn trong các ứng dụng trong thế giới thực hay không, ngay cả khi chúng hoạt động tốt hơn trên các điểm chuẩn học thuật.

Tôi sẽ không nói rằng điều này làm giảm tầm quan trọng của chú thích của con người, nhưng có một điều chắc chắn, RL do AI cung cấp có thể giảm chi phí. Chú thích của con người vẫn cực kỳ quan trọng đối với việc khái quát hóa và phương pháp lai RLHF + RLAIF vượt trội hơn bất kỳ phương pháp đơn lẻ nào.

Hầu hết cư dân mạng cho rằng bài báo là một bước đột phá lớn, nhưng một số cư dân mạng cho rằng dường như không có sự khác biệt cơ bản nào giữa điều này và RLAIF trong Hiến pháp Claude do Anthropic đề xuất vài tháng trước.

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)