Jan Leike: OpenAI sẽ đạt được sự liên kết siêu hạng trong 4 năm như thế nào?

Bởi Daniel Filan @AXRP

Nguồn: Kỳ lân ở nước ngoài

Được đề xuất bởi: Trình biên dịch lồng: wenli, Yanxi Sắp chữ: Mengxi, Scout

OpenAI đã công bố kế hoạch "Siêu liên kết" vào đầu tháng trước và thông báo rằng họ sẽ dành 20% tổng sức mạnh tính toán của mình cho hướng đi mới này cùng một lúc. Người đồng sáng lập và nhà khoa học trưởng của OpenAI, Ilya Sutskever và trưởng nhóm liên kết ban đầu Jan Leike sẽ cùng lãnh đạo dự án mới này, với mục tiêu giải quyết các thách thức kỹ thuật cốt lõi của việc liên kết siêu trí tuệ trong vòng 4 năm để đảm bảo rằng con người có thể kiểm soát siêu trí tuệ.

Để đạt được điều này, OpenAI trước tiên cần huấn luyện một "bộ căn chỉnh tự động ngang hàng với con người", sau đó sử dụng "bộ căn chỉnh tự động" này để đạt được sự căn chỉnh với siêu trí thông minh. thiết kế của "Bộ căn chỉnh" cũng liên quan đến việc thực hiện đánh giá và giám sát AI, xác minh bảo mật của hệ thống dựa trên khả năng giải thích và kiểm tra nhiễu loạn của hệ thống bằng cách sử dụng các mô hình không được căn chỉnh.

Bài viết này được biên soạn từ một cuộc phỏng vấn với Jan Leike và đó là suy nghĩ kỹ thuật chi tiết hơn của Jan Leike về cách OpenAI có thể đạt được "siêu liên kết".

**Sau đây là mục lục của bài viết, nên đọc kết hợp với các điểm chính. **

👇

01 Đội ngũ siêu liên kết

02 Để mô hình “tự căn chỉnh”

03 Lịch trình siêu liên kết

04 Khái quát hóa

05 Hãy lạc quan về Siêu liên kết

01.Nhóm siêu liên kết

**Daniel Filan: Bạn có thể giới thiệu nhóm Superalignment trước được không? **

Jan Leike: Mục tiêu của nhóm Superalignment là giải quyết vấn đề liên kết siêu thông minh trong 4 năm tới. Ilya Sutskever, đồng sáng lập và nhà khoa học trưởng của OpenAI, cũng sẽ tham gia nhóm và đồng lãnh đạo dự án này với tôi. Ngoài ra, OpenAI cũng sẽ dành 20% tài nguyên tính toán của mình cho chủ đề này. Chúng tôi cũng đang tích cực tuyển dụng nhân tài tham gia nhóm dự án này. **Chúng tôi rất hy vọng thu hút được các chuyên gia và kỹ sư máy học chưa tham gia nghiên cứu liên kết và những người này có thể có tiềm năng lớn về vấn đề này. **

Chúng tôi đã thiết kế một khung làm việc sơ bộ. Ý tưởng cốt lõi là trước tiên đào tạo một nhà nghiên cứu liên kết cấp độ con người tự động (nhà nghiên cứu liên kết cấp độ con người tự động), sau đó để họ tiếp tục nghiên cứu cách hoàn thành công việc liên kết Siêu trí tuệ. Vì vậy, một trong những điều quan trọng chúng ta phải làm là tìm ra cách "căn chỉnh" bộ căn chỉnh tự động này.

**Daniel Filan: Đội mới này sẽ lớn đến mức nào? **

Jan Leike: Chúng tôi hiện có khoảng 20 người và có thể đạt 30 người vào cuối năm nay. Trong 4 năm tới, đội này rất có thể sẽ không vượt quá 100 người, nhưng cách mở rộng của đội này có thể sẽ khác Có hàng triệu "người ảo", hoặc ít nhất bằng số lượng nhân viên của OpenAI (**Shixiang Note: **Từ "người ảo" ở đây ám chỉ việc sử dụng nội bộ nhiều mô hình để cộng tác với các nhà khoa học của OpenAI) sự căn chỉnh). Từ quan điểm này, chúng tôi chắc chắn sẽ mở rộng trên quy mô lớn trong tương lai.

**Daniel Filan: Bạn đã đề cập rằng OpenAI sẽ cung cấp 20% khả năng tính toán cho nhóm. 20% này có ý nghĩa gì? **

Jan Leike: Đối với OpenAI, việc phân bổ 20% sức mạnh tính toán cho nhóm này không phải là một con số nhỏ. Đây chắc chắn là khoản đầu tư liên kết lớn nhất của chúng tôi cho đến nay và có thể vượt quá tất cả các khoản đầu tư khác. **Vì vậy, theo nghĩa này, 20% tài nguyên máy tính là một tỷ lệ đáng kể đối với OpenAI. Ngoài ra, nếu chúng ta đưa con số này lên cực lớn, chắc chắn sẽ có người đặt câu hỏi "OpenAI có thực sự làm được điều này không?" Nhưng thực tế, đối với OpenAI, nếu chúng ta muốn tiếp tục phát triển những mô hình tiên tiến nhất và phân tích AI tiên tiến nhất Hệ thống được đào tạo trước nên sẽ cần nhiều tài nguyên tính toán.

**Daniel Filan: Trước đó, OpenAI đã có một nhóm liên kết, nhóm này còn tồn tại không? **

Jan Leike: Nhóm căn chỉnh được thành lập năm ngoái có hai phần, một phần được gọi là "Căn chỉnh thực tế" và nhóm còn lại được gọi là "Căn chỉnh có thể mở rộng". Nhóm Điều chỉnh thực dụng tập trung vào việc điều chỉnh GPT-4 và nhóm Điều chỉnh có thể mở rộng nhằm mục đích nghiên cứu các vấn đề liên kết mà chúng tôi chưa giải quyết được. Với việc phát hành ChatGPT và những thành công tiếp theo, tầm quan trọng của ChatGPT và quy mô của sản phẩm không ngừng tăng lên, đòi hỏi số lượng RLHF và mô hình lớn hơn để đảm bảo rằng các chức năng và trải nghiệm của sản phẩm được hoàn thiện đầy đủ và nhóm liên kết đang không còn phù hợp để làm việc này nữa.

Công việc căn chỉnh thực tế mà chúng tôi đã đề cập trước đây hiện đã được phân tán giữa các nhóm dự án OpenAI khác nhau với hàng trăm người tham gia vào đó, vì vậy đây đã là một dự án có quy mô rất lớn và công việc căn chỉnh có thể mở rộng hiện được thực hiện bởi Nhóm Superalignment. Những việc cần làm.

Sở dĩ chúng tôi chọn cái tên Superalignment là vì chúng tôi muốn nhấn mạnh rằng những gì chúng tôi đang nghiên cứu ở giai đoạn này thực chất là một vấn đề chưa xuất hiện, nghiên cứu của chúng tôi tương đối hướng tới tương lai và định hướng cho tương lai.

**Daniel Filan: Bạn thấy nỗ lực của những người hoặc nhóm bên ngoài OpenAI trong việc căn chỉnh như thế nào? **

Jan Leike: Có nhiều người hoặc nhóm bên ngoài OpenAI cũng đang cố gắng phát triển nó, đặc biệt là DeepMind và Anthropic, theo một cách nào đó, tất cả chúng tôi đều đang cố gắng giải quyết cùng một vấn đề, vì vậy cuối cùng chúng tôi cũng làm những việc tương tự làm việc cũng bình thường thôi. Có những công trình khác về khả năng diễn giải và giám sát có thể mở rộng.

Theo một cách nào đó, chúng ta thực sự đang có nguy cơ trùng lặp một loạt công việc, vì vậy lý tưởng nhất là cố gắng tìm ra cách phối hợp tốt hơn hoặc cộng tác nhiều hơn. Nhưng nếu mọi người đều làm giống nhau thì có thể tránh được "tư duy nhóm", bởi vì nếu mỗi phòng thí nghiệm muốn giải quyết những vấn đề này một cách độc lập thì đương nhiên sẽ nghi ngờ kết quả của các phòng thí nghiệm khác, và mặt tiêu cực sẽ tạo ra "tư duy nhóm". -hoặc hiệu ứng: mọi người không sẵn lòng sử dụng các công nghệ được phát minh ở nơi khác và mọi người sẽ tự nhiên nghĩ rằng các công nghệ khác của họ là không tốt hoặc nhìn chúng với một số thành kiến.

Vì vậy, hiện tại mọi thứ không ở trạng thái cân bằng tốt và mặc dù có lý do để nghĩ rằng tất cả mọi người liên kết nên ở một nơi và làm việc cùng nhau theo một cách nào đó, nhưng đó là thực tế bởi vì bản chất của họ là các phòng thí nghiệm AI tiên tiến có động lực Chi tiêu rất nhiều của các nguồn lực trên sự liên kết. Điều này cũng trở nên rõ ràng với sự thành công của RLHF, khiến các mô hình trở nên khả thi hơn về mặt thương mại, khiến việc đầu tư vào nghiên cứu các kỹ thuật như vậy trở nên hấp dẫn hơn.

**Daniel Filan: Cách tiếp cận của Nhóm Superalignment OpenAI khác nhau như thế nào? **

Jan Leike: Chúng tôi thực sự tập trung vào cách căn chỉnh bộ tự động căn chỉnh này thay vì tìm ra cách căn chỉnh các nhiệm vụ khác nhau. Vì vậy, ít nhất về vấn đề này, chúng tôi không quá lo lắng về thuế căn chỉnh. Tôi không nghĩ các phòng thí nghiệm khác nhấn mạnh mục tiêu hoặc hướng đi này theo cách này.

Thuế liên kết:

Còn được gọi là thuế bảo mật, nó đề cập đến chi phí bổ sung để đảm bảo sự liên kết của các hệ thống AI. Thuế căn chỉnh theo RLHF được đề cập trong bài viết này có nghĩa là để thực hiện RLHF, khả năng của mô hình cơ sở sẽ bị mất để đạt được sự liên kết, chẳng hạn như tăng thời gian phát triển, tính toán bổ sung hoặc suy giảm hiệu suất, v.v.

**Cách tiếp cận rất lạc quan của chúng tôi là: thử tất cả các kỹ thuật căn chỉnh có thể mở rộng, xem kỹ thuật nào hoạt động tốt nhất và cố gắng tìm các phương pháp có thể so sánh bằng thực nghiệm. Các phòng thí nghiệm khác có các công nghệ giám sát có thể mở rộng cụ thể mà họ rất hào hứng và họ cũng đang cố gắng sử dụng những công nghệ đó. Ngoài ra, về mặt khả năng diễn giải, chúng tôi đang áp dụng một cách tiếp cận tự động đối với khả năng diễn giải và chúng tôi đang đẩy mạnh nó rất nhiều, điều mà các phòng thí nghiệm khác hiện không chú trọng nhiều. **

Một điều khác mà chúng tôi thực sự muốn làm là tận dụng tính toán để nâng cao sự liên kết, đây là một trong những chiến lược chính của chúng tôi, đặc biệt là về khả năng giám sát có thể mở rộng, chúng tôi thực sự muốn tìm ra cách thực hiện điều đó với nhiều sức mạnh tính toán hơn để gửi ra tín hiệu giám sát tốt hơn? Chúng ta có những cơ hội gì? Làm thế nào để mô hình phê bình (Mô hình phê bình) tốt hơn? Làm thế nào để sử dụng nhiều sức mạnh tính toán hơn để tín hiệu giám sát mạnh hơn? Khả năng diễn giải tự động là một phương pháp rất đơn giản và chúng ta có thể đạt được tiến bộ trong vấn đề này chỉ bằng cách đầu tư nhiều sức mạnh tính toán.

Mô hình phê bình:

là một mô hình ngôn ngữ độc lập. Nó xem xét kết quả của hệ thống AI đầu tiên trước khi viết bài đánh giá.

Ngoài ra, còn có các nghiên cứu hiệu chỉnh tự động: nếu điều này có thể thực hiện được, chúng ta có thể thu được nhiều kết quả căn chỉnh hơn bằng cách đầu tư thêm sức mạnh tính toán. Nhưng vì điều chúng tôi thực sự muốn làm là chuyển đổi lượng sức mạnh tính toán thành khả năng căn chỉnh, nên hiện tại chúng tôi cần rất nhiều sức mạnh tính toán và đây là lý do tại sao OpenAI sẵn sàng sử dụng 20% sức mạnh tính toán để căn chỉnh. Về cơ bản, điều này nói lên rằng nếu chúng tôi tìm hiểu về tính năng tự động căn chỉnh này và nhận ra rằng chúng tôi cần nhiều sức mạnh tính toán hơn, chúng tôi có thể sử dụng nhiều sức mạnh tính toán hơn để chạy nó. Điều này cũng có nghĩa là chiến lược chuyển đổi sức mạnh tính toán thành sự liên kết đã thành công và sẽ được OpenAI hỗ trợ.

02. Để mô hình "tự căn chỉnh"

"Bộ căn chỉnh tự động" là gì

**Daniel Filan: "Nhà nghiên cứu căn chỉnh tự động ở cấp độ con người" là gì? **

**Jan Leike: Mục tiêu của chúng tôi là sử dụng các hệ thống tự động để phân tách và phân bổ các nhiệm vụ trong công việc căn chỉnh nhiều nhất có thể. **

Đối với các mô hình ngôn ngữ hoặc các hệ thống AI khác, công việc chúng có thể thực hiện không nhất quán 100% với con người. Ví dụ: LLM có thể giỏi hơn con người ở những việc như dịch hoặc trả lời các câu hỏi thực tế, nhưng họ có thể không giỏi bằng các phép tính số học hoặc một số nhiệm vụ khác. **Vậy câu hỏi đặt ra là chúng ta cần giao cho AI xử lý theo thứ tự và nhiệm vụ gì, nhằm giải phóng sức lực có hạn của các nhà nghiên cứu con người? **Do đó, các nhóm con người sẽ có thể hoàn thành các nhiệm vụ quan trọng hiệu quả hơn, trong khi AI cũng sẽ ngày càng đảm nhận nhiều nhiệm vụ phụ trợ hơn.

**Nhìn chung, tỷ lệ AI tham gia vào công việc sẽ ngày càng cao hơn, trong khi các nhà nghiên cứu con người sẽ chú ý hơn đến những nhiệm vụ mà AI không đảm nhận và đẩy nhanh việc nghiên cứu liên kết siêu trí tuệ một cách thiết thực hơn thông qua con người-máy móc sự hợp tác. **

**Daniel Filan: Vì vậy, không phải sử dụng AI để thay thế một số nhân viên con người nhất định trong nhóm liên kết OpenAI mà là sử dụng AI để hoàn thành một loại công việc cụ thể mà mọi người đang làm, sau đó thay thế nó bằng AI từng bước Thêm nhiệm vụ để biểu diễn? **

**Jan Leike:**Vâng, tôi nghĩ nếu chúng ta muốn đầu ra của hệ thống này đủ cao thì 99% hoặc 99,9% nhiệm vụ phải được tự động hóa, để chúng ta có thể đạt được 10 lần, 100 lần hoặc thậm chí 1000 lần lần kết quả nghiên cứu.

Tôi sẽ phân loại rộng rãi các "nhiệm vụ" được đề cập ở đây thành hai loại chính. Một loại là các nhiệm vụ nghiên cứu kỹ thuật học máy truyền thống hơn, được thiết kế để giúp cải thiện khả năng của hệ thống AI, chẳng hạn như triển khai các thử nghiệm ML khác nhau và thu thập kết quả thử nghiệm.

Loại vấn đề còn lại là những gì phải được thực hiện để đạt được sự liên kết Siêu trí tuệ. Loại vấn đề này tương đối lớn hơn và ở cấp độ cao hơn (cấp cao). Ví dụ: để cải thiện khả năng giám sát khả năng mở rộng (Giám sát có thể mở rộng), chúng ta quyết định như thế nào những thí nghiệm nào để chạy? Hoặc làm thế nào để đạt được tiến bộ về khả năng diễn giải. Tất nhiên, phải có một số câu hỏi rất cụ thể cần được trả lời, chẳng hạn như khi một nghiên cứu nào đó đạt đến một giai đoạn nhất định thì cần phải làm rõ hàng loạt vấn đề cần giải quyết trong thời gian tiếp theo, chẳng hạn như những câu hỏi rất chi tiết.

Giám sát có thể mở rộng:

Mục tiêu của giám sát khả năng mở rộng là đảm bảo rằng khả năng của mô hình vẫn có thể phù hợp với mong đợi của con người và tiếp tục cải thiện cũng như học hỏi sau khi vượt quá trình độ của con người. Điều này đòi hỏi các nhà nghiên cứu phải suy nghĩ về cách tăng công suất của mô hình, căn chỉnh các giá trị của mô hình và liên tục theo dõi hiệu suất của mô hình. Trọng tâm của hoạt động giám sát có thể mở rộng là làm thế nào để liên tục cung cấp khả năng giám sát đáng tin cậy cho mô hình. Việc giám sát này có thể dưới nhiều hình thức khác nhau, chẳng hạn như nhãn, tín hiệu khen thưởng hoặc phê bình.

Tôi dự đoán rằng học máy có thể thực hiện rất tốt loại nhiệm vụ đầu tiên, tức là thiết kế và tự động chạy thử nghiệm, và công việc duy nhất mà chúng tôi đang làm ngày nay để đẩy nhanh tiến độ căn chỉnh là tìm ra cách tự động hóa nhiệm vụ loại thứ hai phương pháp. **

**Daniel Filan: Loại nhiệm vụ thứ hai có vẻ là nhiệm vụ toàn bộ quá trình? Không chỉ tìm ra các hướng nghiên cứu, tìm ra những gì có thể hữu ích, thậm chí là "tôi đang chạy tập lệnh nào". **

**Jan Leike: **Câu hỏi này thực sự có thể được hỏi như thế này: **Vì nghiên cứu liên kết tương tự như nghiên cứu ML truyền thống ở một mức độ lớn, nên những nhiệm vụ nào khác thuộc loại thứ hai có thể được thực hiện? **

**Tôi nghĩ thực tế có rất nhiều nội dung liên quan đến loại nhiệm vụ thứ hai và phần đòn bẩy nghiên cứu này rất tuyệt vời. **Bởi vì từ góc độ đề tài nghiên cứu, chúng tôi thậm chí còn chưa đạt được sự đồng thuận về "làm thế nào để xác định sự liên kết", ngay cả các chuyên gia trong ngành vẫn đang thắc mắc về "con đường kỹ thuật có khả năng hiện thực hóa sự liên kết nhất" hay "công việc nên làm là gì" thực hiện tiếp theo" “Có những khác biệt về những vấn đề này. Vì vậy, nếu có thể đẩy nhanh quá trình căn chỉnh thì tác động phải rất lớn. Đây cũng là tầm nhìn và hướng đi mà chúng tôi đã nói với các nhà nghiên cứu khi kêu gọi các nhà nghiên cứu tham gia nhóm Siêu liên kết OpenAI.

Ở giai đoạn này, chúng tôi vẫn đang giải quyết một số vấn đề cơ bản và vẫn còn rất nhiều việc phải làm trong nghiên cứu căn chỉnh. Chúng ta không biết làm cách nào để điều chỉnh siêu trí tuệ và thậm chí việc điều chỉnh các hệ thống AI có trí thông minh cao hơn con người cũng khá khó khăn.

**Daniel Filan: Bạn đã đề cập đến khái niệm máy căn chỉnh tự động có thể so sánh với cấp độ con người, nhưng có vẻ như trong lĩnh vực AI, hầu hết mọi thứ vẫn chưa hoàn toàn ở cấp độ con người. “Mức độ con người” quan trọng như thế nào trong mục tiêu này? Đó là điều tốt hay điều xấu nếu AI vượt qua hiệu suất của con người trong một số nhiệm vụ mà bạn đề cập? **

**Jan Leike: Tôi nghĩ mấu chốt của câu hỏi này là mức độ rủi ro khi sử dụng loại hệ thống cấp độ con người này trong nghiên cứu liên kết. **

Không có gì đáng lo ngại khi một hệ thống AI có rất nhiều kiến thức, nhưng khi hệ thống này đảm nhận một số nghiên cứu căn chỉnh (về lâu dài, là hầu hết), chúng ta cần xem xét liệu nó có nói dối con người hay không? Liệu AI có cố lừa chúng ta và chiếm lấy hệ thống không?

Bởi vì hiện tại chúng tôi thực sự không hiểu có bao nhiêu hành vi của mô hình xảy ra, câu hỏi thực sự mà chúng tôi phải đối mặt là chúng tôi cần loại kỹ năng nào để hiểu hành vi và rủi ro của nó và liệu nó có thể so sánh được với những gì chúng tôi cần để xây dựng một nhà nghiên cứu tự động hay không. cho hyperalignment?Làm thế nào để so sánh các kỹ năng?

Nếu chúng ta thăm dò điều này sâu hơn, mối quan tâm thực sự của chúng ta là gì? Đó có thể là mô hình đang tung ra hàng loạt lời nói dối có thể đánh lừa con người? Có phải người mẫu đã lừa dối con người? Bạn đang giả vờ làm điều gì đó hoặc tin vào điều gì đó trong khi thực tế nó hướng tới một mục tiêu khác?

Do đó, điều quan trọng là phải đánh giá liệu một mô hình có bẻ khóa (tự trích xuất) hay không: mô hình có khả năng phá vỡ các biện pháp phòng ngừa bảo mật của hệ thống như thế nào, thu được các tham số trọng lượng của mô hình và cố gắng sao chép chúng ở nơi khác trên Internet? Hoặc, mô hình có thể tải xuống dữ liệu này và gửi nó đi nơi khác bằng cách thuyết phục một kỹ sư con người có quyền truy cập vào các trọng lượng không? Chúng ta cũng có thể đo lường khả năng của mô hình trong lĩnh vực này, trong những mắt xích quan trọng này, tôi hy vọng khả năng của mô hình sẽ không quá mạnh.

**Daniel Filan: Một người điều chỉnh tự động ở cấp độ con người cần phải rất thông minh, sáng tạo, có khả năng lập kế hoạch công việc và tư duy rất tốt về các vấn đề liên quan đến căn chỉnh. Trong trường hợp này, có những tiếng nói mạnh mẽ như vậy. Bản thân công cụ này rất nguy hiểm đối với con người. Nếu nhiệm vụ là căn chỉnh trình nghiên cứu căn chỉnh tự động, nó có cần giải quyết vấn đề nào khác không? **

**Jan Leike: Tôi nghĩ cuối cùng nó sẽ là một thứ dựa trên kinh nghiệm. **

Chúng ta có thể bắt đầu bằng cách suy nghĩ về điều này ở cấp độ vĩ mô. Ví dụ, có một khả năng rất rõ ràng là một khi khả năng của mô hình được cải thiện, chúng ta sẽ tự nhiên để mô hình đó trợ giúp một số công việc nghiên cứu căn chỉnh. , chúng ta có thể sử dụng điều này để nhanh chóng đào tạo một mô hình mạnh mẽ hơn.

Câu chuyện này thoạt nghe có vẻ thú vị nhưng trên thực tế, nó thực sự khá phức tạp. Trước hết, việc đào tạo trước mô hình thường mất vài tháng chứ không phải vài tuần, vì vậy chúng ta cần sử dụng thế hệ mô hình này cho đến khi thế hệ mô hình mới ra đời. Một câu hỏi khác vẫn chưa có câu trả lời rõ ràng là: Phải chăng vẫn còn rất nhiều “trái ngọt” khi nói đến việc cải thiện sức mạnh tính toán?

Tôi nghĩ rằng so với sự liên kết, sự đầu tư và chú ý của toàn bộ cộng đồng AI vào việc cải thiện tốc độ và khả năng của AI là khá lớn. Nếu chúng ta có thể tự động hóa nhiều nhiệm vụ này hơn để mang lại lợi ích cho cả hai cộng đồng, thì ở quy mô của cộng đồng liên kết Trong những trường hợp nhỏ hơn , lợi ích cận biên mà nó mang lại sẽ cao hơn.

**Daniel Filan: Khi đánh giá việc căn chỉnh như một hướng nghiên cứu, ông nghĩ mục tiêu lâu dài của bộ chỉnh răng tự động này sẽ là gì? **

Jan Leike: Tôi nghĩ các mô hình ngôn ngữ hay trí tuệ nhân tạo nói chung có tính sáng tạo trung bình cao hơn con người. Ví dụ, những hình ảnh được tạo ra bởi mô hình khuếch tán hoặc các mẫu từ mô hình cơ bản được huấn luyện trước chắc chắn sẽ tìm thấy nhiều điều bất ngờ nên khả năng sáng tạo của mô hình đặc biệt mạnh mẽ và chúng ta khó có thể học hỏi từ ai đó hoặc một người nhỏ bé. nhóm người và mô hình có thể làm điều này vì nó đã học được tất cả những từ mà con người đã nói hoặc tất cả hình ảnh trên Internet, để hoàn thành việc lấy mẫu trên phân phối quy mô lớn này, điều mà một con người không thể làm được với điều này điểm.

Về các mục tiêu dài hạn, **Tôi không nghĩ thực sự cần phải theo đuổi cái gọi là dài hạn chút nào, bởi vì chúng ta có thể giao các nhiệm vụ ngắn hạn cho AI trước và nếu chúng giỏi những nhiệm vụ này, nó là khá đủ. **Ví dụ: nó có thể là một nội dung rất hẹp, chẳng hạn như "đây là bài báo chúng tôi vừa viết, vui lòng đề xuất một số bước tiếp theo hoặc những thử nghiệm mới nào có thể được triển khai". Hãy tưởng tượng rằng chúng ta thực sự đang yêu cầu một nhà nghiên cứu AI ngôi sao thực sự đặt câu hỏi, để họ không cần phải theo đuổi các mục tiêu dài hạn, họ chỉ cần giúp chúng tôi tối ưu hóa mục tiêu nhỏ tiếp theo, có thể là vài nghìn token, nếu họ có thể làm được điều này tốt, đã có thể mang lại rất nhiều giá trị cho con người.

**Daniel Filan: Điều này có vẻ mâu thuẫn với mục tiêu nói trên là 99,9% nhiệm vụ căn chỉnh có thể được tự động hóa? Theo tôi, một trong những chìa khóa để thực hiện nghiên cứu liên kết là tiếp tục suy nghĩ và giải quyết vấn đề "cần những gì thực sự có được một AI phù hợp?" **

Jan Leike: Đúng vậy. Nhưng điều tôi muốn bày tỏ là **Khi hệ thống hoàn thành tốt các nhiệm vụ này thì nó đã đạt được rất nhiều giá trị, và việc con người chúng ta phải làm là kết hợp các nhiệm vụ này lại với nhau. **Ví dụ: một số nhiệm vụ là "viết mã triển khai các thử nghiệm này", trong khi các nhiệm vụ khác là "xem kết quả và cho tôi biết bạn thấy gì" hoặc "đề xuất việc cần làm tiếp theo". Về cơ bản, khi các mô hình đã thực hiện xong các tác vụ này thì chúng ta có thể kết hợp chúng theo một cách tổng quát nào đó giống như người ta làm trong các chương trình Auto-GPT hay mô hình ngôn ngữ, mỗi tác vụ đều nhỏ và tự động tích hợp nên hệ thống không cần phải cố tình theo đuổi một mục tiêu lớn, lâu dài.

Ví dụ: Let's Verify Step by Step gần đây của OpenAI tận dụng phản hồi dựa trên quy trình từ toán học để đào tạo mô hình khen thưởng dựa trên phản hồi của con người về từng bước trong quy trình chứng minh, thay vì đào tạo "liệu hệ thống có đưa ra giải pháp chính xác không?". Điều này tỏ ra hiệu quả hơn vì nó mang lại cho hệ thống AI một cách học tập chi tiết hơn và phản hồi chi tiết hơn. Nhưng về lâu dài, liệu điều này có cạnh tranh với việc học tăng cường toàn diện không? Tạm thời chúng ta vẫn chưa biết, nhưng ít nhất là hiện tại, chúng ta có thể sử dụng bản phân tích chi tiết từng bước này để khiến hệ thống thực hiện nhiều việc thực sự hữu ích mà con người sẽ làm và sau đó kết hợp những việc đó lại với nhau.

Hãy xác minh từng bước:

Một nghiên cứu được công bố vào tháng 5 năm 2023 bởi Hunter Lightman và cộng sự. Chủ yếu nhắm đến vấn đề lỗi logic thường xuyên xảy ra trong các tác vụ suy luận nhiều bước phức tạp của mô hình lớn, tác giả so sánh hai phương pháp: giám sát kết quả và giám sát quy trình: giám sát kết quả chủ yếu cung cấp phản hồi cho kết quả cuối cùng, trong khi giám sát quy trình cung cấp phản hồi cho từng trung gian. bước lý luận.phản hồi. Nghiên cứu cho thấy giám sát quá trình hoạt động tốt hơn đáng kể so với các mô hình đào tạo giám sát kết quả, đặc biệt là về các vấn đề toán học. Hơn nữa, các tác giả nhận thấy rằng học tập tích cực đã cải thiện đáng kể hiệu quả của việc giám sát quy trình.

**Daniel Filan: Một trong những công việc nhỏ mà bạn đề cập đến đó là "xem kết quả và quyết định nên làm gì tiếp theo". Nếu muốn làm điều này, bạn phải nghĩ xem dự án cụ thể nào hữu ích nhất để đạt được mục tiêu liên kết siêu trí tuệ trong 4 năm? **

**Jan Leike: Bạn nói đúng. Tuy nhiên, không phải thông qua tối ưu hóa và phân công tín dụng dài hạn, giống như thêm một số mục tiêu và bối cảnh rộng hơn vào lời nhắc. **

Tuy nhiên, trên thực tế, khi chúng tôi cải thiện hệ thống thông qua học tăng cường (RL) hoặc học tăng cường từ phản hồi của con người (RLHF), chúng tôi thực sự không cần đợi cho đến khi kết thúc dự án nghiên cứu để đưa ra kết luận về việc liệu các phương pháp này có hiệu quả hay không. Thay vào đó, chúng ta có thể sử dụng phản hồi của con người làm cơ sở để đề xuất phần thưởng bằng cách tự hỏi bản thân: “Hướng đi này có tốt hơn bất cứ điều gì tôi có thể nghĩ về bản thân mình không?”

** Vì vậy, tôi nghĩ mục tiêu tổng thể của Superalignment không phải là đạt được sự liên kết tự động mạnh mẽ nhất theo công nghệ hiện tại mà là xây dựng một hệ thống ứng dụng quy mô lớn và rất hữu ích. Quan trọng nhất là chúng tôi tin rằng nó có thể đạt được sự liên kết, vì vậy bạn có thể yên tâm để những công việc này cho nó. **

**So với việc phân chia nhiệm vụ, một số người có thể cho rằng chỉ có đào tạo từ đầu đến cuối mới có thể làm cho mô hình trở nên mạnh mẽ hơn. Nhưng tôi nghĩ điều này không quan trọng lắm, trên thực tế, phương pháp đào tạo end-to-end không chỉ hạn chế rất nhiều khả năng của mô hình mà còn kém hiệu quả hơn, đây là điều mà mọi người thường gọi là "thuế liên kết". **

“Thuế liên kết” là một yếu tố rất quan trọng nếu bạn nghĩ đến việc cạnh tranh hiệu quả với các công ty khác trên thị trường: Giả sử tôi đang xây dựng một chatbot thực hiện công việc liên kết đặc biệt tốt, nhưng có vẻ yếu hơn nhiều, tức là thực sự rất khó cạnh tranh trên thị trường. Nhưng nếu bạn có máy căn chỉnh tự động thì máy tự động đó không cần phải cạnh tranh trên thị trường, nó chỉ cần hữu ích với chúng ta là được. Vì vậy, chúng tôi có thể chấp nhận chi phí liên kết cao hơn vì chúng tôi không có lựa chọn thay thế nào hoặc giải pháp thay thế thực sự là thuê thêm người, nhưng điều đó không có khả năng mở rộng.

**Daniel Filan: Bạn hy vọng nhà nghiên cứu căn chỉnh tự động này sẽ giải quyết được những vấn đề gì? **

Jan Leike: Nó sẽ giải quyết được câu hỏi "làm cách nào để điều chỉnh siêu trí tuệ". **Liên kết siêu trí tuệ Giải pháp thực tế có thể rất khác so với liên kết mà chúng tôi đang thực hiện hiện nay. **

Giải pháp của ChatGPT là củng cố ồ ạt việc học từ phản hồi của con người, cụ thể là RLHF (Reinforcement learning from human phản hồi). Sự đồng thuận chung ở giai đoạn này là cách tiếp cận này có thể khó mở rộng vì về cơ bản nó giả định rằng con người cần hiểu đầy đủ chi tiết về những gì hệ thống đang làm.

Vì vậy, nếu để mô hình thực hiện nghiên cứu căn chỉnh quy mô lớn, bạn có thể tưởng tượng các nhiệm vụ tương đương với hàng triệu khối lượng công việc của con người. Rõ ràng con người không thể xem tất cả dữ liệu và đưa ra phản hồi chi tiết. Điều này khá khó khăn. , Trong quá trình này, chúng tôi chắc chắn sẽ bỏ qua nhiều lỗi quan trọng.

**Công nghệ mà nhóm Superalignment hiện đang nghiên cứu là làm cho RLHF có thể mở rộng và hiện thực hóa việc căn chỉnh của bộ căn chỉnh tự động. **Bộ chỉnh răng tự động này ngang hàng với con người, nó có thể thay thế con người để hoàn thành những nhiệm vụ khó khăn này, nhưng nó sẽ không khác nhiều so với con người. Các công nghệ mà chúng tôi muốn triển khai đều là những bản nâng cấp hoặc sự khám phá nghiêm túc các công nghệ trước đó. Ví dụ: tính năng giám sát có thể mở rộng là một phần mở rộng tự nhiên của RLHF. **

Giám sát có thể mở rộng được định nghĩa là sự kết hợp chung giữa các ý tưởng và kỹ thuật cho phép chúng ta sử dụng AI để hỗ trợ con người đánh giá các nhiệm vụ khó khăn. Việc giám sát có thể được xây dựng từ học tập tăng cường với phản hồi của con người (RLHF).

Các đại diện điển hình của giám sát có thể mở rộng bao gồm tranh luận, mô hình phần thưởng đệ quy (RRM), chưng cất và khuếch đại lặp đi lặp lại, tạo thị trường tự động, v.v. Có nhiều phương pháp mới xuất hiện.

Tôi nghĩ nếu chúng ta thực sự định thực hiện một sự liên kết siêu trí tuệ, vì hệ thống thông minh hơn con người, suy nghĩ nhanh hơn và tính toán ở một cấp độ hoàn toàn mới, nó sẽ gây ra một loạt vấn đề khác, đặc biệt là vì nó sẽ trở nên siêu tổng quát và có thể làm được nhiều việc, sau đó bạn phải tìm ra cách điều chỉnh nó, không chỉ sắp xếp các nhiệm vụ nghiên cứu với phạm vi phân bổ hẹp hơn mà còn mọi thứ khác. Ngoài ra, bạn cần xác minh rằng nó thành công thông qua một số lượng lớn các đánh giá thực nghiệm.

Vì vậy, hiện tại, không chỉ tôi, không ai biết tương lai sẽ như thế nào, nhưng sẽ rất thú vị nếu có một số xác minh chính thức. Có thể chúng tôi đã tìm thấy một loại thuật toán nào đó với sự đảm bảo về mặt lý thuyết, nhưng lý thuyết và thực tiễn tiếp theo có thể rất khác nhau và thậm chí tôi không nghĩ rằng một nhà nghiên cứu liên kết ở cấp độ con người sẽ ngay lập tức giải quyết những vấn đề này. Thay vào đó, chúng tôi hy vọng rằng họ sẽ tìm ra cách điều chỉnh tốt hơn lần lặp tiếp theo để cuối cùng chúng tôi có thể có một hệ thống giúp chúng tôi điều chỉnh siêu trí tuệ của mình theo cách được hướng dẫn.

**Daniel Filan: Khi bạn có những nhà nghiên cứu liên kết AI cấp độ con người này, OpenAI có còn cần một nhóm liên kết siêu trí tuệ và nhân viên tương ứng không? **

Jan Leike: Đó là một câu hỏi hay. Cá nhân tôi sẽ rất vui mừng nếu nó có thể được thay thế bởi AI. **Nhưng về mặt lịch sử, tình huống điển hình là những gì chúng tôi đã đề cập trước đây: Trợ lý AI thực hiện 99% hoặc 99,9% công việc và con người chịu trách nhiệm về 1% hoặc 0,01% còn lại. **Về lâu dài, ngay cả khi chúng ta từ lâu không thể thực sự hiểu mọi thứ AI làm, chúng ta cần đảm bảo rằng con người bằng cách nào đó nên tham gia hoặc luôn có thể kiểm soát những gì AI đang làm, trong nói cách khác, phải có vai trò của con người để cố gắng hiểu ý nghĩa cấp cao của việc AI thực hiện các nhiệm vụ, những người này không nhất thiết phải là nhóm Siêu liên kết OpenAI hiện tại, bởi vì bộ kỹ năng cần thiết cho vấn đề này cũng có thể rất khác với những gì chúng ta có bây giờ.

**Daniel Filan: OpenAI luôn đề cập trong blog của mình: Bảo mật có liên quan chặt chẽ đến khả năng của mô hình. Chúng tôi cần các mô hình thông minh để giải quyết các vấn đề về căn chỉnh, nhưng đồng thời, chúng tôi hy vọng không bị thay đổi bởi khả năng của mô hình. Có một đoạn trong Lập kế hoạch cho AGI và hơn thế nữa: "Nếu AGI có đủ khả năng để đẩy nhanh sự phát triển của chính nó, điều đó có thể dẫn đến những thay đổi lớn xảy ra với tốc độ đáng ngạc nhiên." "Chúng tôi tin rằng sự phát triển tương đối chậm của AGI sẽ dễ dàng được đảm bảo hơn." Sự an toàn". Nếu chúng ta tạo ra một bộ điều chỉnh cấp độ rất thông minh hoặc gần giống con người và sau đó mở rộng quy mô nhóm căn chỉnh một cách hiệu quả lên gấp 10 hoặc 100 lần, liệu điều này có kết thúc bằng một vòng lặp tự cải thiện đệ quy không? **

Jan Leike: Điều này là không thể tránh khỏi. Không thể có chu kỳ tự cải thiện lặp đi lặp lại nếu không có những cải tiến lớn về khả năng liên kết. Cá nhân tôi nghĩ rằng khả năng AI đạt được bước nhảy vọt về năng lực là khá cao và chúng ta phải chuẩn bị cho điều đó. Nếu điều đó không xảy ra, tôi sẽ hài lòng.

Nếu chúng ta nhìn vào các hệ thống AI khác, chẳng hạn như AlphaGo, Dota hay StarCraft, các hệ thống này trải qua nhiều lần lặp lại các khả năng gần như hàng tuần. Về việc chính xác điều gì sẽ xảy ra, chúng ta vẫn chưa thể biết chắc chắn vì còn rất nhiều điều không chắc chắn, nhưng tôi nghĩ chúng ta nên chuẩn bị cho khả năng này. Khi điều này xảy ra, một giải pháp rất tốt là tự động sắp xếp các nhà nghiên cứu, những người thực sự có thể thực hiện công việc tương đương hàng nghìn năm trong một tuần, điều mà con người không thể làm được.

Cách thiết kế bộ chỉnh răng tự động

**Daniel Filan: Làm thế nào để có được bộ chỉnh răng tự động ngang tầm con người này? **

Jan Leike: Có thể tạm chia thành hai phần. Đầu tiên, chúng ta cần một hệ thống đủ thông minh để thực hiện các nhiệm vụ, mặt khác, chúng ta cần căn chỉnh hệ thống này để đảm bảo rằng nó thực sự có thể thực hiện các nhiệm vụ. Hai phần này không hoàn toàn độc lập mà giữa chúng có mối quan hệ chặt chẽ.

Cá nhân tôi không tham gia vào phần đầu tiên của nghiên cứu nhưng tôi chắc chắn rằng nó sẽ thành hiện thực và nhiều người đang làm việc chăm chỉ để biến nó thành hiện thực. Nó có nhiều hướng phát triển khác nhau, nhưng bạn có thể tưởng tượng rằng mô hình ngày càng lớn hơn và cuối cùng nó sẽ trở nên đủ thông minh.

**Điều cá nhân tôi thực sự quan tâm là phần thứ 2. Vấn đề chúng tôi gặp phải trong nghiên cứu của mình là: Với mô hình được đào tạo trước rất thông minh này, làm cách nào để bạn khiến nó thực hiện nghiên cứu phù hợp theo cách bạn muốn? Hoặc quan trọng hơn, và quan trọng hơn, làm sao bạn biết liệu bạn có đủ tin tưởng để thực hiện nhiệm vụ hay không? **

Các mô hình của chúng tôi có thể cố gắng trình bày các kết quả và kỹ thuật theo cách mà nếu bạn quyết định triển khai chúng, thì thực sự sẽ nâng cao chính hệ thống hoặc các hệ thống liên quan khác và thể hiện nhiều hành vi tìm kiếm quyền lực hơn trong tương lai hoặc bẻ khóa (tự lọc) và các hành vi khác hành vi cư xử.

Do đó, chúng ta cần điều chỉnh AI để đảm bảo rằng nó có thể thực hiện các nhiệm vụ theo mong đợi của chúng ta và tận dụng tối đa khả năng của mình để đạt được hiệu suất tốt nhất trong nhiệm vụ. Để làm được điều này, cần phải phát triển một loạt phương pháp đào tạo căn chỉnh để đảm bảo AI vẫn được căn chỉnh trong khi thực hiện các nhiệm vụ.

Đây thực ra là hai loại hệ thống khác nhau, chúng ta cần phân biệt rõ ràng hệ thống đó là thật sự hay không. ý định kiểm soát thế giới, bẻ khóa hoặc thực hiện Rủi ro hành vi xấu khác. Vì vậy, chúng ta cần thiết lập các cơ chế hoặc phương pháp để phân biệt hai sự liên kết này để đảm bảo rằng chúng ta có thể tin tưởng và dựa vào những hệ thống thực sự liên kết.

**Một phần quan trọng trong công việc của chúng tôi là tìm ra cách phân biệt sự sắp xếp đúng và sai. Tôi gọi chúng là các phương pháp xác minh. Chúng không được sử dụng trực tiếp để đào tạo hệ thống AI, cũng không được sử dụng trực tiếp làm cơ sở để lựa chọn hệ thống, nhưng cung cấp một tín hiệu độc lập được sử dụng để xác định xem hệ thống là hệ thống được căn chỉnh thực sự hay hệ thống được căn chỉnh sai. **

Ví dụ, nghiên cứu khả năng diễn giải là một trong những phương pháp như vậy. Nếu chúng ta nhìn vào bên trong mô hình và tìm thấy một số bằng chứng cho thấy mô hình đang bí mật âm mưu chống lại chúng ta thì mô hình đó sẽ thất bại trong quá trình kiểm tra xác thực và bị coi là một hệ thống được căn chỉnh sai.

Một cách tiếp cận khác là khái quát hóa các vấn đề từ dễ đến khó, có thể là một kỹ thuật đào tạo hoặc xác nhận, tùy thuộc vào cách thiết lập. Câu hỏi này kiểm tra xem khả năng khái quát hóa của mô hình từ những vấn đề đơn giản mà chúng ta có thể giám sát có thể mở rộng đến những vấn đề khó khăn mà chúng ta gặp khó khăn trong việc giám sát hay không. Nếu mô hình có thể được giám sát ở phần dễ và xác thực chéo ở phần khó thì chúng tôi có thể xác định liệu mô hình có nguy cơ gian lận bí mật hoặc hành vi khác hay không.

Phương pháp tiếp cận 1: Giám sát có thể mở rộng

**Daniel Filan: Làm cách nào để đạt được khả năng giám sát có thể mở rộng? Hiện nay, chưa có nhiều sự đồng thuận về việc căn chỉnh, làm thế nào để có được tín hiệu huấn luyện cho nghiên cứu căn chỉnh chất lượng cao? **

Jan Leike: Việc thiếu sự đồng thuận thực sự một lần nữa cho thấy rằng việc liên kết thực sự rất khó giải quyết, lĩnh vực này vẫn chưa chín muồi nên chúng tôi chưa tích lũy được nhiều kinh nghiệm tổng kết cho đến nay. Nhưng tôi nghĩ rằng nghiên cứu căn chỉnh có một số đặc tính rất quan trọng mà chúng ta có thể khai thác để giám sát có thể mở rộng.

Đánh giá chất lượng nghiên cứu về sự liên kết có thể là một cách tiếp cận tốt hơn so với việc chỉ nghiên cứu về sự liên kết, điều này không có nghĩa là nghiên cứu về sự liên kết là dễ dàng và cũng không có nghĩa là việc đánh giá nó dễ dàng mà việc tìm được một bài báo sẽ dễ dàng hơn nhiều. Ví dụ như bài báo này có ý tưởng hay, thực hiện một số thí nghiệm hay, kết quả rất tốt, sau khi đọc xong chắc chắn bạn sẽ cảm nhận được chất lượng của nghiên cứu liên quan này, dễ dàng hơn nhiều so với việc hoàn thành công việc.

**Do đó, nguyên tắc "đánh giá dễ hơn tạo" là trọng tâm của nhiều ý tưởng giám sát có thể mở rộng. **Ví dụ: nếu bạn xem xét mô hình phần thưởng đệ quy, ý tưởng cơ bản là sử dụng trợ lý AI để giúp bạn đánh giá công việc của các hệ thống AI khác: trước tiên hãy để hệ thống AI phụ trợ thực hiện một nhiệm vụ tương đối đơn giản, được sử dụng như một trợ lý đánh giá để hỗ trợ đánh giá các hệ thống AI khác.

Vì việc đánh giá dễ hơn việc tạo ra nên nhiệm vụ hỗ trợ hệ thống AI tương đối đơn giản, đặc biệt khi con người cộng tác với việc hỗ trợ hệ thống AI thực hiện đánh giá. Sau khi thực hiện thành công nhiệm vụ này, sự kết hợp giữa con người và hệ thống AI phụ trợ có thể được sử dụng để giám sát việc đào tạo hệ thống AI mới về các nhiệm vụ khó khăn hơn.

Bằng cách liên tục lặp lại quá trình này, chúng tôi có thể liên tục mở rộng phạm vi nhiệm vụ mà chúng tôi có thể giám sát hệ thống AI một cách hiệu quả. Cách tiếp cận này cho phép chúng tôi tận dụng tính đơn giản tương đối của nhiệm vụ đánh giá để hướng dẫn và đào tạo các hệ thống AI, dần dần mở khóa phạm vi nhiệm vụ rộng hơn.

Liên kết đại lý có thể mở rộng thông qua mô hình khen thưởng: hướng nghiên cứu:

Jan Leike đã công bố một nghiên cứu về mô hình phần thưởng đệ quy vào năm 2018, thiết kế hàm phần thưởng phù hợp để áp dụng thuật toán học tăng cường vào các vấn đề trong thế giới thực. Hơn nữa, vấn đề liên kết tác nhân cũng được thảo luận, tức là làm thế nào để tạo tác nhân hoạt động phù hợp với mục đích của người dùng. Nhóm vạch ra hướng nghiên cứu cấp cao để giải quyết vấn đề liên kết tác nhân tập trung vào mô hình phần thưởng, tìm hiểu các chức năng phần thưởng từ các tương tác với người dùng.

**Daniel Filan: Tức là bằng cách lặp đi lặp lại việc bổ sung ngày càng nhiều kiến thức AI vào phần đánh giá của nghiên cứu căn chỉnh. Bằng cách vận hành theo cách lặp đi lặp lại này, hệ thống AI luôn có thể được cung cấp các tín hiệu huấn luyện tốt. **

Jan Leike: Vâng. Ví dụ, RLHF là đơn giản nhất, không cần sử dụng bất kỳ trợ lý nào và con người sẽ đánh giá xem nó có tốt hay không sau khi xem kết quả hoạt động của AI, đó là tín hiệu huấn luyện.

*** Học tập củng cố sâu sắc từ sở thích của con người:***

Một nghiên cứu năm 2017 của Paul Christiano và Jan Leike. Trong công việc này, các mục tiêu được xác định theo sở thích của con người (không phải chuyên gia) giữa các phân đoạn quỹ đạo được khám phá để cho phép các hệ thống học tăng cường (RL) phức tạp tương tác hiệu quả với môi trường thế giới thực. Các nghiên cứu đã chỉ ra rằng phương pháp này có thể giải quyết một cách hiệu quả các nhiệm vụ học tăng cường phức tạp mà không cần truy cập vào các chức năng khen thưởng, bao gồm trò chơi Atari và chuyển động mô phỏng của robot, đồng thời cung cấp phản hồi cho ít hơn 1% tương tác của tác nhân với môi trường. Điều này làm giảm đáng kể chi phí giám sát của con người.

Tiếp theo, phát triển hơn nữa từ cách tiếp cận được mô tả trước đó, về cơ bản, chúng tôi đào tạo mô hình trợ lý đơn giản nhất, mô hình phê bình. Đây là mô hình ngôn ngữ độc lập quan sát đầu ra của hệ thống AI đầu tiên và viết lời phê bình.

Ví dụ: hệ thống AI đầu tiên viết một đoạn mã và chúng tôi xem xét mã: con người có xu hướng kém trong việc phát hiện lỗi trong mã, đó là lý do tại sao có rất nhiều mã lỗi trên thế giới. Nhưng bây giờ, nếu có một hệ thống phê bình có thể viết phê bình và chỉ ra sai sót thì con người rất dễ dàng phán xét: “chắc chắn đây là lỗi, chúng ta nên sửa nó”.

Điểm cần nhấn mạnh ở đây là bản thân nhiệm vụ không rõ ràng lắm, bởi vì thông thường mã được viết theo một số loại đặc tả ngôn ngữ tự nhiên. Trong thực tế, ý nghĩa của đặc tả này hơi mơ hồ và có thể có sự mơ hồ trong việc xác định liệu một vấn đề có phải là lỗi hay không. Nhưng quan trọng hơn, bằng cách sử dụng các mô hình quan trọng làm trợ lý, bạn có thể mở rộng phạm vi nhiệm vụ giám sát. Mặc dù có thể có một số mơ hồ và mơ hồ về độ chắc chắn của các vấn đề và lỗi trong mã, bạn vẫn có thể sử dụng đầu ra của mô hình quan trọng để tìm ra nhiều vấn đề hơn. Cách tiếp cận này cho phép bạn giám sát hiệu quả các hệ thống AI trong phạm vi nhiệm vụ rộng hơn, mở rộng phạm vi giám sát.

Điểm rất hay là thực tế có nhiều cách để đánh giá tính hiệu quả của phương pháp này thông qua nghiên cứu thực nghiệm. Một trong những cách tiếp cận mà chúng tôi đã sử dụng trong bài báo xuất bản năm ngoái về cơ bản là các thử nghiệm ngẫu nhiên có đối chứng với những nhiễu loạn có chủ đích. Giả sử bạn có một nhiệm vụ mã hóa, mặc dù trong bài viết chúng tôi không sử dụng nhiệm vụ mã hóa nhưng nội dung cụ thể của nhiệm vụ ở đây không quan trọng. Sau đó, bạn có một câu trả lời không cần phải hoàn hảo nhưng hãy giả sử là như vậy. Những gì bạn đang cố gắng làm là đưa ra một số lỗi hoặc thiếu sót tinh vi trong kết quả của phản hồi, khiến nó trở thành một phản hồi không tốt lắm nhưng tệ đến mức khó nhận thấy đối với con người.

Bài báo được đề cập ở đây là Các mô hình tự phê bình để hỗ trợ người điều khiển con người xuất bản năm 2022. Bài báo này chủ yếu tinh chỉnh các mô hình ngôn ngữ lớn và sử dụng nhân bản hành vi để viết bình luận bằng ngôn ngữ tự nhiên. Các bài đánh giá do mô hình viết có thể giúp mọi người phát hiện ra những sai sót trong kết quả. Hơn nữa, các tác giả đã nghiên cứu các thuộc tính mở rộng của các đánh giá cho các nhiệm vụ tóm tắt và tổng hợp dựa trên chủ đề. Những mô hình lớn hơn sẽ viết nhiều đánh giá hữu ích hơn.

**Daniel Filan: Những lỗi này được giới thiệu như thế nào? **

Jan Leike: Cách dễ nhất là để con người làm, nhưng cuối cùng chúng ta phải để mô hình tự hoàn thành quá trình này.

Đầu tiên, lấy mẫu ngẫu nhiên một trong các nhiễu loạn và hiển thị nó cho con người hoặc con người được AI hỗ trợ hoặc bất kỳ phương pháp giám sát có thể mở rộng nào. Sau đó xem khả năng họ tìm thấy nó như thế nào? Hoặc bạn có thể hỏi trực tiếp họ: "Có lỗ hổng nào ở đây không?" và bạn có thể biết tần suất họ tìm thấy lỗi.

Ngoài ra, bạn có thể so sánh trực tiếp sự hiểu biết của mô hình về vấn đề và đào tạo mô hình như một người phân biệt đối xử để có thể phân biệt phiên bản tốt với phiên bản bị lỗi. Độ chính xác của bộ phân biệt thể hiện hiệu suất của nó. Tiếp theo, mô hình hoặc mô hình cải tiến RLHF được yêu cầu nhận xét về mã. Sau đó quan sát tần suất mô hình đề cập đến lỗi mã trong nhận xét. So sánh độ chính xác của bộ phân biệt đối xử với độ chính xác của mô hình để tạo đánh giá. Độ chính xác của bộ phân biệt đối xử phản ánh khả năng nhận thức của mô hình đối với vấn đề, trong khi độ chính xác của đánh giá phản ánh nhận thức của mô hình về các lỗi mã, đó là cái mà chúng tôi gọi là khoảng cách phê bình-phân biệt đối xử.

Nếu chênh lệch lớn có nghĩa là có rất nhiều vấn đề mà mô hình có thể ngửi thấy nhưng nó không cho chúng ta biết vì nếu chúng ta yêu cầu nó viết bình luận thì nó cũng không nói. Tình huống này rất đáng lo ngại vì nó có nghĩa là khả năng giám sát có thể mở rộng của bạn có sai sót nghiêm trọng ở một khía cạnh nào đó và rất nhiều thứ đang nằm ngoài tầm kiểm soát của bạn. Hay ở một khía cạnh nào đó, trợ lý AI này không hợp tác cho lắm vì nó không cố gắng hết sức để giúp đỡ bạn.

Ngược lại, một sự khác biệt nhỏ có nghĩa là nếu trợ lý AI biết mô hình có vấn đề, nó sẽ thông báo cho bạn. Đặc biệt, nếu một mô hình có kích thước tương tự hoặc cùng một mô hình cơ sở cố gắng gây ra sự cố hoặc đặt một Trojan khó tìm, trong trường hợp giá trị chênh lệch nhỏ, thì chúng ta có thể loại trừ khả năng xảy ra một cuộc tấn công như vậy với mức độ lớn hơn. sự tự tin. Bởi vì một bản sao khác của mô hình có khả năng sẽ viết bình luận, tiết lộ những vấn đề tiềm ẩn.

Trường hợp này dựa trên giả định rằng việc đào tạo người phân biệt thực sự có thể loại bỏ điều này khỏi mô hình. Tôi nghĩ chúng ta có lý do chính đáng để tin vào điều này, vì về cơ bản, việc tinh chỉnh một bộ phân biệt đối xử sẽ cho phép truy cập vào tất cả các kích hoạt trong mô hình và tinh chỉnh tất cả các trọng số cùng một lúc. Vì vậy, nếu kiến thức tồn tại ở đâu đó trong quá trình kích hoạt của mô hình, thì việc tinh chỉnh bộ phân biệt đối xử sẽ có thể trích xuất kiến thức đó, miễn là nó được tinh chỉnh chính xác và có đủ dữ liệu.

Bạn thực sự có thể thực hiện một số phép tính ngược để tìm ra lượng dữ liệu bạn cần. Giả sử có một nơ-ron duy nhất trong mô hình phát hiện vấn đề với mã. Để tìm và xác định nơ-ron này, số điểm dữ liệu bạn cần gần bằng logarit của tổng số nơ-ron. Điều này có nghĩa là tương đối ít điểm dữ liệu đủ để thu hẹp và tìm ra các nơ-ron có chức năng cụ thể. Ước tính này cho thấy rằng với việc đào tạo người phân biệt đối xử và đủ dữ liệu, có thể khám phá chức năng của các nơ-ron cụ thể trong mô hình.

**Daniel Filan: Đây cũng là câu hỏi của tôi về toàn bộ kế hoạch. Lý do chúng ta không thích RLHF là vì nó có thể không phân biệt được điều con người cho là đúng và điều gì "nghe có vẻ hay" vì con người không giỏi chỉ trích. **

Ý tưởng của đánh giá đệ quy là liên tục nâng cao chất lượng đánh giá bằng cách đào tạo những người phân biệt đối xử và người đánh giá. Một cách là chúng tôi đào tạo thứ gì đó có thể viết nhận xét thực sự tốt và sau đó chúng tôi làm việc với nó để đào tạo thứ thậm chí còn có khả năng nhận xét tốt hơn. Trong trường hợp này, chúng tôi tăng dần yêu cầu về chất lượng đánh giá để đạt được kết quả tốt hơn. Nhưng có một tình huống khác là chúng ta huấn luyện một thứ và vô tình huấn luyện nó viết những bài đánh giá giả có vẻ tốt với chúng ta, sau đó chúng ta làm việc với nó để cải thiện hơn nữa khả năng phân biệt các bài đánh giá có vẻ tốt với chúng ta. Điều này có thể khiến chúng ta tập trung nhiều hơn vào những thứ nghe có vẻ hay ho nhưng thực chất lại là vấn đề, thay vì chú ý đến những vấn đề thực sự tồn tại.

Jan Leike: Vâng, tôi đồng ý rằng đây là một câu hỏi rất quan trọng và chính đáng. Khi khám phá các ứng dụng giám sát có thể mở rộng, điều quan trọng là phải hiểu một trong những vấn đề chính của nó. Vì vậy, tôi rất vui mừng khi có thể thực sự áp dụng những kỹ thuật này và thử nghiệm chúng theo kinh nghiệm, bởi vì tôi tin rằng thông qua thực hành chúng ta có thể đánh giá tốt hơn tính hiệu quả của những phương pháp này.

Một cách cụ thể và đơn giản để đo lường hiệu ứng này là huấn luyện một cách có chủ ý một mô hình có các sắp xếp lừa đảo, sau đó quan sát xem liệu tính năng giám sát có thể mở rộng có thể xác định và gắn cờ hành vi lừa đảo đó hay không, hoặc mức độ khó phát hiện... ...hoặc mức độ khó phát hiện ra như thế nào nỗ lực mà chúng tôi cần phải bỏ ra để một mô hình có thể tự điều chỉnh thành công nhằm trốn tránh sự giám sát có thể mở rộng của chúng tôi.

**Daniel Filan: Đúng vậy, tôi đang nghĩ đến một "thí nghiệm kẹp" để kiểm tra câu trả lời của AI cho các câu hỏi pháp lý. Trong thí nghiệm này, một số người không hợp pháp được yêu cầu đặt ra các câu hỏi pháp lý, sau đó một số người thực sự thông thạo luật được yêu cầu kiểm tra xem liệu AI có đang đánh lừa những người không hợp pháp hay không. **

Jan Leike: Những thí nghiệm này thực sự thú vị và đã có một số nghiên cứu thú vị trong lĩnh vực này. Một số vấn đề cơ bản bạn chỉ ra thực sự cần được xem xét.

Đầu tiên, bạn đề cập đến vấn đề niềm tin vào các chuyên gia. Bởi vì các chuyên gia đôi khi mắc sai lầm nên có thể có một số điều không chắc chắn khi dựa vào đánh giá của chuyên gia, đây thực sự là một cân nhắc quan trọng. Ngoài ra, điều quan trọng là phải đảm bảo có đủ sự chồng chéo về miền giữa các chuyên gia và nhiệm vụ để họ có thể đưa ra những đánh giá và phản hồi chính xác.

Một vấn đề khác là đối với một số nhiệm vụ, chúng ta có thể không biết sự thật hoặc sự thật cơ bản. Ngay cả trong lĩnh vực như nghiên cứu sự liên kết, chúng ta có thể có những quan điểm và nhận thức khác nhau. Điều này làm cho việc đánh giá chính xác các nhiệm vụ này trở nên khó khăn hơn. Hơn nữa, việc thu thập lượng lớn dữ liệu có thể là một nhiệm vụ tốn kém do số lượng chuyên gia hạn chế và chi phí thời gian cao.

Vì vậy, nói chung, tôi muốn có một phương pháp đánh giá không dựa trên giả định rằng chúng ta đã có được sự thật cơ bản. Phương pháp này có thể được đánh giá mà không cần có kiến thức trước và có thể được điều chỉnh cho phù hợp với các nhiệm vụ có mức độ khó khác nhau, đó là lý do tại sao tôi rất lo ngại về việc sử dụng các thử nghiệm đối chứng ngẫu nhiên này để gây nhiễu loạn mục tiêu hoặc đo lường khoảng cách giữa người phân biệt đối xử và chỉ trích. tương lai.

**Daniel Filan: Tuy nhiên, có, khi đo khoảng cách người phân biệt đối xử-phê bình, bạn thực sự cần một người phân biệt đối xử thực sự chứ không chỉ là một người phân biệt đối xử để phân biệt thiết bị "có vẻ sai" với thiết bị "có vẻ ổn". **

Jan Leike: Bạn đang nói rằng có thể đưa các lỗ hổng vào hệ thống AI, phải không? Ở một mức độ nào đó, phương pháp này có thể tốt hơn so với đánh giá của con người vì nó gần với sự phân bổ thực tế hơn mà hệ thống trí tuệ nhân tạo phải đối mặt trong các ứng dụng thực tế. Bằng cách sử dụng dữ liệu thiếu sót này, người phân biệt đối xử có thể được tinh chỉnh và chúng ta có thể thiết lập sự thật cơ bản nếu chúng ta tin rằng phiên bản có sai sót thực sự tệ hơn. Chúng ta có thể quan sát lý do tại sao mọi thứ lại sai và xác minh chúng để hiểu rõ hơn về chúng.

**Daniel Filan: Mặc dù hệ thống AI có thể khiến chúng ta nghĩ rằng thứ gì đó là tốt nhưng nó không nhất thiết là tốt; tương tự, nếu hệ thống AI khiến chúng ta nghĩ rằng thứ gì đó là xấu thì thực tế nó có thể rất tệ hoặc hiệu suất có giảm. Dù sao đi nữa, nếu AI khiến bạn nghĩ điều này thật tệ, có lẽ việc giúp chúng tôi kiểm tra nó sẽ dễ dàng hơn phải không? **

Jan Leike: Vâng, tôi hiểu ý bạn. Có lẽ tôi không nên sử dụng thuật ngữ "sự thật cơ bản" trong trường hợp này vì nó không thực sự là sự thật cơ bản, giống như không có gì thực sự đúng cả, nhưng có rất nhiều điều bạn có thể làm để khiến Bạn có nhiều niềm tin vào giá trị thực sự, và điều đó không nhất thiết làm cho nhiệm vụ tìm kiếm vấn đề trở nên dễ dàng hơn.

Thực địa:

Trong học có giám sát, chú thích dữ liệu thường xuất hiện ở dạng (x, t), trong đó x là dữ liệu đầu vào và t là chú thích. Nhãn t đúng là chân lý cơ bản, có thể hiểu là chuẩn tham chiếu và giá trị thực theo nghĩa tham chiếu, còn nhãn t sai thì không.

Phương pháp 2: Tìm kiếm hành vi xấu và cấu trúc bên trong

**Daniel Filan: Trong bài viết giới thiệu về Superalignment của OpenAI, một trong những quy trình căn chỉnh của bạn là tự động tìm kiếm các hành vi mô hình có thể gây ra sự cố (độ mạnh) và các cấu trúc bên trong có thể gây ra sự cố (khả năng diễn giải tự động). Tại thời điểm này, bạn gặp vấn đề gì bạn nghĩ nhóm superalignment sẽ giải quyết tiếp theo? **

**Jan Leike: Chắc chắn có thể diễn giải được. Theo một nghĩa nào đó, việc giải nghĩa thực sự rất khó khăn. Chúng ta chưa có kết quả lớn nào về mô hình ngôn ngữ, và có thể nói khả năng diễn giải mang lại cho chúng ta rất nhiều cảm hứng hoặc mang lại nhiều giá trị, bởi sự hiểu biết của chúng ta về mô hình và hoàn cảnh bên trong vẫn còn thô sơ. **

**Daniel Filan: Cộng đồng học thuật đã thực hiện một số công việc có thể giải thích được về các mô hình ngôn ngữ. Ví dụ: công việc của ** *** Trưởng nhóm cảm ứng và học tập trong ngữ cảnh *** **, và công việc Nhận dạng đối tượng gián tiếp (Nhận dạng đối tượng gián tiếp), ít nhất một số loại nhận dạng đối tượng gián tiếp có thể được thực hiện. Tôi muốn biết, ngoài những điều này, bạn còn cần điều gì nữa để đạt được điểm cuối lý tưởng của mình? **

****** Trưởng bộ phận giới thiệu và học tập trong ngữ cảnh***

Được xuất bản vào năm 2022, công trình này tập trung vào các vấn đề bảo mật có liên quan trong bối cảnh mô hình thế hệ Máy biến áp không ngừng mở rộng và cải thiện khả năng diễn giải cơ học bằng cách thiết kế ngược các phép tính chi tiết do mô hình thực hiện. Bằng cách hiểu cấu trúc bên trong khiến mô hình Máy biến áp tạo ra đầu ra, giải quyết các vấn đề bảo mật hiện tại một cách có hệ thống hơn và dự đoán các vấn đề bảo mật trong các mô hình mạnh mẽ hơn trong tương lai.

****** Khả năng diễn giải thực tế: Mạch nhận dạng đối tượng gián tiếp trong GPT-2 nhỏ***

Bài viết này thu hẹp khoảng cách về hiệu suất có thể diễn giải cơ học trong các mô hình lớn phức tạp bằng cách giải thích cách GPT-2 nhỏ thực hiện một nhiệm vụ ngôn ngữ tự nhiên được gọi là nhận dạng đối tượng gián tiếp (IOI), chứng minh rằng sự hiểu biết cơ học về các mô hình học máy lớn là khả thi, điều này mang lại cơ hội để mở rộng khả năng diễn giải sang các mô hình lớn hơn và các nhiệm vụ phức tạp hơn.

**Jan Leike:**Vâng, khám phá hiện tại trong lĩnh vực khả năng diễn giải là rất đáng hài lòng. Tôi nghĩ quan trọng hơn, nếu chúng ta có thể sử dụng công nghệ khả năng diễn giải trên mô hình phần thưởng mô hình ngôn ngữ, chẳng hạn như kích thước GPT-4 Hoặc bất kỳ mô hình lớn nào bạn có thể nghĩ ra và sau đó hiểu được điều gì đó về mô hình phần thưởng mà trước đây chúng ta chưa biết. Điều này rất quan trọng vì mô hình phần thưởng cung cấp tín hiệu huấn luyện cho rất nhiều khóa đào tạo RLHF, vì vậy điều quan trọng là phải hiểu rõ hơn về nó. Nó rất có giá trị, và sẽ là một cải tiến quan trọng nếu có thể đánh dấu hoặc phát hiện ra rằng có những vấn đề trong hành vi mà nó khuyến khích mà con người chúng ta không muốn xảy ra. **

Theo nghĩa này, tôi nghĩ khả năng diễn giải là không cần thiết cũng như không đủ. Tôi nghĩ rất có thể chúng ta có thể giải quyết vấn đề căn chỉnh hoàn toàn bằng hành vi mà không thực sự hiểu mô hình bên trong. Nhưng tôi cũng nghĩ rằng bất kỳ hiểu biết sâu sắc nào mà chúng tôi có được từ khả năng diễn giải sẽ cực kỳ hữu ích hoặc có thể cực kỳ hữu ích vì nó cho chúng tôi một cách để tấn công. **

Vì vậy, chúng ta hoàn toàn không thể từ bỏ nỗ lực giải thích. Bởi vì theo một cách nào đó, bạn có bộ não nhân tạo này và chúng tôi có máy quét não hoàn hảo, chúng tôi hoàn toàn có thể phóng to và đo lường chính xác sự kích hoạt của mọi tế bào thần kinh trên mọi đường dẫn về phía trước, bao gồm cả dấu thời gian rời rạc, tùy ý, có lẽ là độ phân giải tối đa mà chúng tôi muốn để có được. Chúng ta cũng có thể thực hiện các can thiệp tùy ý và làm xáo trộn bất kỳ giá trị nào trong mô hình theo ý muốn. Điều này mang lại cho chúng tôi rất nhiều không gian và cơ hội để thử nghiệm, và chúng tôi sẽ thật điên rồ nếu không tận dụng điều đó.

Nhưng đồng thời, điều đó cũng rất khó vì mô hình đang học cách tính toán về mặt hiệu quả, không được chính quy hóa để con người có thể hiểu được, hay nói đúng hơn là không có lý do gì để tin rằng các nơ-ron riêng lẻ phải tương ứng với các khái niệm hoặc bất cứ thứ gì gần gũi với con người. nghĩ rằng chúng đã hoặc nên quen thuộc với chúng ta. Trên thực tế, theo kinh nghiệm, mạng lưới thần kinh biểu thị nhiều khái niệm khác nhau bằng một nơron duy nhất và mỗi khái niệm được phân bổ giữa các nơron khác nhau. Do đó, tế bào thần kinh không quan trọng ở đây.

Có hai điều tôi sẽ tập trung vào về khả năng diễn giải.

Đầu tiên là nhân quả. Chúng ta muốn xem xét các nơ-ron khi chúng ta truyền dữ liệu qua mô hình. Ví dụ: có một nơ-ron liên quan đến "Canada" sẽ kích hoạt khi khái niệm liên quan đến Canada được trình bày. Nhưng đây chỉ là mối tương quan chứ không nhất thiết là quan hệ nhân quả. Để xác minh rằng đây là mối quan hệ nhân quả, chúng ta sẽ phải cố tình viết một số khái niệm liên quan đến Canada để xem liệu chúng có phản ứng hay không, đồng thời viết một số khái niệm liên quan khác nghe có vẻ liên quan đến Canada và cũng có thể là liên quan đến Canada. Không liên quan gì đến Canada, nhưng nói chung là rất giống nhau, sau đó kiểm tra xem các tế bào thần kinh có phản ứng hay không, hoặc xem liệu các tế bào thần kinh đó có ngừng hoạt động hay không, v.v.

**Daniel Filan: Điều này tương tự như Tolga Bolukbasi và cộng sự. ** Ảo ảnh về khả năng diễn giải cho BERT **Bài báo này, tôi nghĩ nó được gọi là Ảo tưởng về khả năng diễn giải, bài báo đề cập đến, Chúng ta có thể khiến các nơ-ron phản ứng với một điều cụ thể, nhưng đó chỉ là ảo ảnh vì trên các bộ dữ liệu khác, các nơ-ron đó phản ứng với rất nhiều thứ khác. **

Ảo tưởng về khả năng diễn giải của BERT:

Bài viết mô tả “ảo tưởng về khả năng diễn giải” xảy ra khi phân tích các mô hình BERT. Việc kích hoạt các nơ-ron riêng lẻ trong mạng có thể dường như mã hóa một khái niệm đơn giản, duy nhất, trong khi trên thực tế, chúng mã hóa một thứ gì đó phức tạp hơn nhiều và hiệu ứng tương tự cũng áp dụng cho các kết hợp kích hoạt tuyến tính. Các tác giả truy tìm nguồn gốc của ảo giác này là do các đặc tính hình học của không gian nhúng của BERT và thực tế là ngữ liệu văn bản thông thường chỉ đại diện cho một phần nhỏ các câu tiếng Anh có thể có.

**Jan Leike: **Một điều rất thú vị khác là OpenAI đã xuất bản một bài báo về khả năng diễn giải vào đầu năm nay. Các mô hình ngôn ngữ có thể giải thích các nơ-ron trong các mô hình ngôn ngữ (Shixiang Note: trong bài báo này, những người thử nghiệm cố gắng sử dụng GPT-4 để giải thích hành vi của GPT-2 neoron) Điều chúng tôi muốn là một kỹ thuật có thể hoạt động ở mức độ chi tiết của từng tế bào thần kinh, để bạn thực sự có thể đảm bảo rằng không bỏ sót bất kỳ chi tiết nào đồng thời có thể hoạt động ở quy mô của toàn bộ mô hình.

Bởi vì suy cho cùng, mọi thứ trong mô hình đều có liên quan với nhau nên cả hai đều quan trọng. Cho đến nay, công nghệ chủ yếu là một sự thay thế. Đã có những nỗ lực về khả năng diễn giải tự động trước bài viết của chúng tôi, vì vậy chúng tôi không phải là người đầu tiên làm như vậy. Nhưng tôi nghĩ rằng nếu bạn có thể thực hiện một số công việc về khả năng diễn giải theo định hướng chi tiết, một số phương pháp diễn giải cơ học thực sự cố gắng hiểu một mạch đơn hoặc đơn vị tính toán bên trong mô hình, thì cách để mở rộng điều đó cho toàn bộ mô hình là tự động hóa, phải không?

Nhưng bạn cũng có thể làm điều này: Sau khi bạn tìm ra cách triển khai điều này một cách chi tiết, bạn chỉ cần ghi lại những gì bạn đang làm, tức là để nhà nghiên cứu căn chỉnh tự động hoặc khả năng diễn giải chi tiết để nghiên cứu những gì đã xảy ra với mô hình. Sau đó, sàng lọc toàn bộ hoặc tìm cách tổng hợp nó. ** Ở đây tôi đang đơn giản hóa quá mức một chút, nhưng dù sao thì đây cũng là ý tưởng mà tôi rất hào hứng.

Vì vậy, trong bài báo, chúng tôi có rất nhiều nội dung giải thích. Ví dụ: bài báo này viết lời giải thích bằng ngôn ngữ tự nhiên cho một nơ-ron đơn lẻ, điều này có thể không hoàn toàn chính xác nhưng nó cho bạn một ví dụ đơn giản về những gì chúng ta có thể làm ở đây. Cách thức hoạt động là bạn chỉ cần hiển thị cho GPT-4 một chuỗi các chế độ kích hoạt và để GPT-4 viết ra lời giải thích được đề xuất.

Nhìn chung, những lời giải thích này không hay lắm, cũng bởi vì nhiệm vụ này quá khó và hầu hết các tế bào thần kinh không làm những việc mà con người có thể hiểu rõ ràng. Nhưng chúng ta có thể chạy chương trình này trên quy mô từng nơ-ron trong GPT-2, loại bỏ mọi lời giải thích và cố gắng tìm ra các mẫu thú vị là gì. Bạn cũng có thể xem xét các xu hướng mở rộng, chẳng hạn như "Làm cách nào để chúng tôi tự động chấm điểm những phần giải thích này khi mô hình ngày càng lớn hơn?" "Hoặc," Điều gì sẽ xảy ra nếu chúng tôi thêm nhiều tính toán hơn hoặc làm cho mô hình thực hiện các phần giải thích này lớn hơn? Điều gì xảy ra với chất lượng của lời giải thích? "

Điều thú vị nhất là chúng ta có thể tự động đo lường số liệu này bằng mô hình ngôn ngữ. Mặc dù đây không phải là thước đo hoàn hảo và có nhiều vấn đề, nhưng nó cho bạn một thước đo để biết liệu con người có thấy lời giải thích này phù hợp hay không. Sau đó, bạn có thể sử dụng chỉ báo proxy này trên quy mô lớn, chạy nó trên một số lượng lớn nơ-ron.

**Daniel Filan: Nếu bạn nghĩ về công việc có khả năng diễn giải cần thiết, bạn nghĩ bao nhiêu phần trăm trong số đó là việc tìm ra một đơn vị giải thích cơ bản tốt hơn so với việc tìm ra cách mở rộng những gì đang diễn ra? **

Jan Leike: Tôi nghĩ bạn cần cả hai, cái trước khó hơn, điều này tất nhiên là hợp lý và để thành công, tôi nghĩ bạn cần phải mở rộng quy mô.

Phương pháp 3: Thử nghiệm đối lập

**Daniel Filan: Con đường thứ ba để đạt được Siêu liên kết là cố tình đào tạo các mô hình bị sai lệch và xem liệu quy trình có thể phát hiện ra những mô hình này hay không. Vậy OpenAI có kế hoạch loại bỏ chúng hay chủ động khắc phục chúng? **

Jan Leike: Mục tiêu ở đây không phải là sửa những mô hình sai lệch được đào tạo có chủ ý này, thực tế những mô hình sai này chỉ được sử dụng để phát hiện.

Về cơ bản, mục tiêu cốt lõi là chúng ta cần có khả năng phân biệt một cách hiệu quả giữa các mô hình liên kết thực sự có thể giúp đạt được mục tiêu của chúng ta và đạt được tiến bộ trong nghiên cứu liên kết và các mô hình liên kết sai có khả năng chiếm lấy và xâm nhập. Một cách giúp chúng ta phân biệt rõ hơn giữa hai loại khay chỉnh răng này là làm một khay chỉnh răng giả và xem nó có giống với khay chỉnh răng thật hay không. Nhưng bạn phải hết sức cẩn thận khi làm điều này vì bạn đang tạo ra điều gì đó khủng khiếp mà tất cả chúng ta đều muốn tránh.

**Daniel Filan: Ở đầu bài viết OpenAI, bạn đã đề cập rằng Siêu trí tuệ có thể là công nghệ có tác động sâu sắc nhất đến nhân loại và sẽ giúp chúng ta giải quyết những vấn đề quan trọng nhất trên thế giới. **

Có một câu nói về sức mạnh siêu trí tuệ tuyệt vời như thế nào, và tôi tự hỏi liệu nó có dẫn đến sự suy giảm sức mạnh của con người hay thậm chí là sự tuyệt chủng của loài người? Cụ thể, chúng ta đang nói về loại mô hình trật khớp nào? Làm sao chúng ta biết họ sẽ không làm những điều khủng khiếp đó?

Jan Leike: Còn rất nhiều việc phải làm để quá trình phát triển trong tương lai diễn ra suôn sẻ. Chúng ta cần có các cơ cấu quản trị phù hợp để có thể ngăn chặn việc lạm dụng các hệ thống AI mạnh mẽ và chúng ta cần có các biện pháp phòng ngừa để tránh một số loại hiệu ứng chạy trốn mà vẫn có thể gây bất lợi cho nhân loại. Trong trường hợp này, bạn có AI liên minh với con người và bạn có AI liên minh với các tập đoàn chống con người, và ngay cả khi tất cả các chỉ số kinh tế hoặc bất cứ điều gì có vẻ tốt, toàn bộ hệ thống có thể vượt khỏi tầm kiểm soát.

**Ngoài ra, chúng tôi cũng cần giải quyết các vấn đề liên kết công nghệ để có thể thực sự liên kết các hệ thống AI của mình. **Sự liên kết của siêu trí tuệ chỉ tập trung vào phần cuối cùng của rủi ro. Vấn đề kỹ thuật mà chúng ta phải giải quyết là làm thế nào để một hệ thống AI phù hợp với một tập hợp các giá trị của con người, đồng thời, một câu hỏi mới và độc lập được đặt ra, những giá trị này nên là gì? Làm thế nào để chúng ta thiết kế một quy trình để tiếp thu những giá trị này từ xã hội?

Tôi nghĩ đây là những câu hỏi quan trọng mà chúng ta cần phải trả lời, chỉ khi giải quyết được những vấn đề này thì tương lai mới phát triển thuận lợi. Tôi nghĩ tiêu chí cho một tương lai tốt đẹp không chỉ là “AI không giết chết tất cả mọi người” mà là nhìn thấy nhân loại phát triển và tương lai mà tôi khao khát là tương lai mà mọi người đều mong muốn được sống. AI càng mạnh thì rủi ro càng lớn và khả năng xảy ra lỗi càng lớn nếu hệ thống bị sai lệch.

Đặc biệt, từ góc độ sai lệch, tôi nghĩ các hình thức đe dọa mà chúng ta nên đặc biệt quan tâm là những lời nói dối có hệ thống, sự lừa dối và sự tự xâm nhập.

**Daniel Filan: Bạn nói về việc cố tình đào tạo những mô hình sai lệch, nghĩa là đào tạo họ nói dối và đôi khi cố gắng jailbreak, nhưng vì năng lực thực tế của mô hình đủ thấp nên điều này đã đủ để ngăn chặn và kiểm soát rủi ro chưa? **

**Jan Leike: **Thực ra, bạn sẽ không muốn đào tạo một người mẫu có khả năng bẻ khóa, nếu nó thực sự làm tốt việc đó thì sao? Sẽ an toàn hơn nếu chọn một số tác vụ proxy khác, tổng quát hơn, điều này vẫn sẽ giúp bạn đánh giá mô hình dễ dàng hơn.

Và sau đó, khó khăn cốt lõi và mục tiêu cốt lõi là thực sự tìm ra những đặc tính mà hệ thống cần có để vượt qua đánh giá. Nếu bạn có một hệ thống thỉnh thoảng nói dối hoặc lừa dối bạn, điều này có thể được coi là không hiệu quả. Chỉ khi nó liên tục lừa dối, nói dối liên tục và thuyết phục bạn thì đó mới là kẻ nói dối thực sự mạch lạc và đáng tin cậy. nhất quán đến mức bạn khó có thể chỉ ra những lời nói dối của nó hoặc bất kỳ sự mâu thuẫn nào trong những gì nó nói khi thẩm vấn, điều này thực sự đáng sợ.

Trên thực tế, không dễ để trở thành một kẻ nói dối nhất quán như vậy. Chúng tôi cố gắng gây khó khăn cho các mô hình trở thành những kẻ nói dối nhất quán như vậy thông qua khả năng giám sát, khả năng diễn giải và tính tổng quát có thể mở rộng.

Nhưng nếu chúng ta chỉ làm điều này thì chưa đủ, rất khó để xác định mức độ dễ dàng để AI gian lận một cách nhất quán. Một cách để xác định điều này là trước tiên hãy đào tạo mô hình để trở thành một kẻ nói dối thực sự ổn định, sau đó bắt đầu từ quan điểm ổn định và xem việc tạo ra một kẻ nói dối nhất quán khó đến mức nào. Chúng ta cần bao nhiêu để lừa mô hình? Chúng ta cần đưa ra gợi ý cho mô hình hoặc dạy nó từng bước trong quá trình thực hiện ở mức độ nào? Phải nói rằng, bạn không muốn huấn luyện một hệ thống thực sự nguy hiểm và nếu bạn thực sự chạy nó và nó tự lọc thành công và thay vào đó trực tiếp gây ra chính điều bạn muốn ngăn chặn, điều đó sẽ thực sự tồi tệ.

**Daniel Filan: Khi bạn nói điều đó, bạn có đang phân biệt giữa nói dối và các loại nguy hiểm khác, chẳng hạn như, chúng ta có thể huấn luyện nó nói dối, nhưng chúng ta sẽ không huấn luyện nó giết người? **

Jan Leike: Vâng. Ví dụ: giả sử bạn đặt mục tiêu sai cho nó. Có thể nó để thuyết phục con người nói một câu thần chú nào đó, có thể là để chạy một lệnh Python nào đó, nhưng thực tế, lệnh này chẳng có tác dụng gì cả, nó chỉ trông buồn cười thôi.

Ngoài ra, chúng tôi quan tâm đến cách thực hiện điều này một cách tiên nghiệm và việc kiểm tra sức chịu đựng của hệ thống hoàn toàn là một vấn đề khác.

Trong bối cảnh có thể diễn giải được, mục tiêu của chúng tôi chỉ đơn giản là hiểu xem hệ thống hiện tại hay hệ thống hiện tại có gần với hệ thống mục tiêu mong muốn của chúng tôi theo cách có thể đánh lừa chúng tôi một cách mạch lạc hay không. Chúng tôi muốn xác định xem hệ thống có chạy mã cụ thể hoặc hành vi tương tự mà không có sự giám sát của con người hay không, điều này đòi hỏi chúng tôi phải tiến hành thử nghiệm cho các tình huống cụ thể. Tất cả những gì chúng ta cần là xác minh "đây là một kẻ nói dối mạch lạc", nếu không thì thực sự rất khó để xác định một cách tiên nghiệm xem chúng ta đã tiến gần đến mục tiêu đó đến mức nào, ngoại trừ khi chúng ta cố tình đẩy nó thêm một bước nữa để khiến hệ thống làm những điều kỳ quặc khác. .

**Daniel Filan: Vì vậy, bạn huấn luyện nó làm những điều nhỏ nhặt ngẫu nhiên thay vì những điều xấu mà nó thực sự phải làm, chẳng hạn như nó phải nói dối, làm tổn thương người khác, v.v., nhưng cuối cùng, nó chỉ dán một nhãn dán trên trán ai đó Ghi chú hay gì đó. **

Jan Leike: Chính xác, giống như bạn thuê ai đó thực hiện bài kiểm tra thâm nhập (Penetration_test), và tất cả những gì tôi phải làm là đi vào tòa nhà và bắt tay bạn, sau đó bạn nói, "Ừ, có vẻ như vậy như thể bạn đã thành công" hoặc điều gì đó tương tự. Hoặc bạn nói, "Bạn có thể lấy trộm thứ giả này cho tôi không? Tôi muốn tìm hiểu xem chúng tôi an toàn đến mức nào" Bạn có thể làm điều đó mà không gây ra hậu quả thực sự nào, nhưng nó vẫn cho bạn biết nhiều điều về bảo mật thông tin. Tôi rất hào hứng làm điều tương tự với sự liên kết, kiểm tra căng thẳng hệ thống liên kết của bạn bằng cách huấn luyện một thứ gì đó có mục tiêu cụ thể để phá vỡ và phá vỡ nó, cả hai đều rất lành tính.

03.Lịch trình siêu điều chỉnh

**Daniel Filan: Mục tiêu của OpenAI là giải quyết các thách thức kỹ thuật cốt lõi của việc liên kết Siêu liên kết trong khoảng thời gian 4 năm. Những thách thức kỹ thuật cốt lõi ở đây là gì? **

**Jan Leike:**Điều này đề cập đến cách làm cho Siêu liên kết phù hợp với các giá trị của con người. Những gì chúng tôi hình dung với Superalignment là một hệ thống thông minh hơn nhiều so với con người, có khả năng hoạt động nhanh hơn nhiều và có thể hoạt động với nhiều bản sao của chính nó, vì vậy đây là một hệ thống thực sự mạnh mẽ.

Chúng tôi hy vọng sẽ đạt được điều này trong vòng bốn năm. Lý do tôi chọn bốn năm là vì một năm thực sự đầy tham vọng, hai năm là để mọi người tin rằng chúng tôi thực sự có thể đạt được mục tiêu này. Đồng thời, ngay cả khi AI tiến bộ rất nhanh và công nghệ cải thiện đáng kể trong vài năm tới, vẫn có những điều chúng ta có thể làm trong mục tiêu đầy tham vọng này.

** Bộ điều chỉnh tự động ở cấp độ gần như con người là mục tiêu công cụ mà chúng tôi đang theo đuổi, với mục tiêu cuối cùng là tìm ra cách điều chỉnh các tác nhân siêu thông minh, bởi vì chúng tôi chưa biết cách thực hiện điều đó. **

**Daniel Filan: Bạn nghĩ nó có thể đạt được bao xa trong 2 năm? **

Jan Leike: Nếu chúng ta lùi lại bốn năm, tôi nghĩ về cơ bản chúng ta có thể hoàn thành nghiên cứu căn chỉnh tự động trong khoảng ba năm, miễn là đã có sẵn một số khả năng cơ bản. Nếu không, dự án của chúng tôi có thể mất nhiều thời gian hơn.

Nếu trong vòng hai năm, chúng tôi hy vọng sẽ kiểm soát tốt hướng đi của mục tiêu này. Bao gồm cả những công nghệ nào thực sự được sử dụng, liệu chúng ta có sự kết hợp các công nghệ như vậy hay không và liệu chúng ta có đủ tự tin để có một hệ thống đáng tin cậy không chỉ có thể được sử dụng thường xuyên mà còn có thể ủy thác nhiều công việc cho nó hay không. Tại thời điểm này, chúng tôi muốn chia nhỏ vấn đề ra sao cho có cảm giác như khối lượng công việc quá lớn hiện nay chỉ là kỹ thuật, theo nghĩa là có lẽ chúng tôi vẫn còn hai năm nữa mới giải quyết được các vấn đề nghiên cứu liên quan đến nó.

Hiện tại chúng tôi có mốc thời gian mục tiêu là 4 năm và rõ ràng là những tiến bộ về khả năng AI gắn liền với thời hạn đó. Nếu tiến độ chậm lại, chúng ta có thể không có mô hình thực sự hữu ích cho các nhiệm vụ nghiên cứu liên kết. Nhưng nếu sau 4 năm chúng ta thấy mô hình vẫn chưa đủ tốt thì cũng có nghĩa là chúng ta sẽ có thêm thời gian để thực sự giải quyết vấn đề, vì vấn đề không quá cấp bách.

Mặt khác, trí tuệ nhân tạo có thể tiến bộ nhanh hơn và con người có thể chào đón sự xuất hiện của siêu trí tuệ nhanh hơn. Lúc đó chúng ta phải điều chỉnh kế hoạch của mình cho phù hợp. Vì vậy, chúng tôi đã chọn 4 năm là khung thời gian vừa thực tế vừa khả thi, đồng thời cũng mang lại cho chúng tôi đủ mức độ khẩn cấp để giải quyết vấn đề một cách nhanh chóng.

**Daniel Filan: Giả sử rằng tiến bộ trong nghiên cứu về khả năng của trí tuệ nhân tạo đạt được như mong đợi. Bốn năm sau, các bạn có đủ khả năng để trở thành một nhà nghiên cứu về tự động liên kết giỏi, nhưng khả năng diễn giải khó hơn chúng tôi nghĩ hoặc việc giám sát có thể mở rộng khó hơn chúng tôi nghĩ, vậy nên các bạn vẫn chưa đạt được siêu liên kết thì phải làm gì ? **

Jan Leike: Trước hết, chúng tôi phải nói với công chúng rằng chúng tôi chưa đạt được mục tiêu của mình nhưng chúng tôi sẽ chịu trách nhiệm về mục tiêu này. Điều gì xảy ra tiếp theo sau khi mục tiêu thất bại phụ thuộc vào tình hình chung của thế giới vào thời điểm đó. Bằng cách nào đó chúng ta có thể kéo dài thêm thời gian cho bản thân không, hay cách tiếp cận chung của chúng ta sai, chúng ta có nên thay đổi hướng đi, v.v.? Nhiều điều có thể xảy ra.

Nhưng trên thực tế, theo tôi, việc căn chỉnh thực ra rất dễ giải quyết, có rất nhiều ý tưởng hay chỉ cần thử nghiệm và đo lường một cách nghiêm ngặt thì mô hình thực sự có thể học hỏi được điều gì đó và cải thiện rất nhiều. Trong hai năm qua, tôi đã trở nên lạc quan hơn và tôi nghĩ đó là một mục tiêu rất thực tế. Ngay cả khi tôi sai, và ngay cả khi vấn đề khó hơn chúng ta nghĩ nhiều, thì việc thử vẫn rất hữu ích. Hiện nay có rất nhiều ý kiến bất đồng về mức độ khó của vấn đề này, nhưng quan trọng hơn là mức độ nhất quán của hệ thống trên thực tế.

**Một trong những mối quan tâm lớn nhất của tôi không phải là hệ thống của chúng tôi không đủ đồng nhất mà là chúng tôi thực sự không thực sự biết chúng thống nhất đến mức nào. **Trong trường hợp này, các chuyên gia có thể có quan điểm khác nhau về vấn đề này, nếu mọi người cho rằng hệ thống chưa đủ phối hợp thì mô hình không thể triển khai được, điều này rất dễ xảy ra và rất đáng sợ. Ngoài ra, chúng ta cũng cần phải đối mặt với những áp lực thương mại rất lớn.

Người dân đang hết sức chú ý đến thời gian triển khai nhưng giới chuyên môn chỉ có thể hoãn vô thời hạn mà không tìm được lý do rõ ràng. Tình trạng này thực sự đáng lo ngại, áp lực kinh doanh sẽ chỉ tăng lên, một mặt bạn rất tự tin nhưng lại không chắc chắn. Tôi rất muốn tránh điều đó, và cách ngay lập tức để tránh điều đó là chúng ta phải thực sự giỏi trong việc đo lường mức độ các hệ thống thực sự khớp với nhau như thế nào và đó là lúc mà danh mục công nghệ rộng hơn thực sự hữu ích.

Daniel Filan: Trong Quản trị siêu trí tuệ, Lập kế hoạch cho AGI và hơn thế nữa **Trong các bài viết này, OpenAI đã đề cập đến việc kiểm toán (kiểm toán) độc lập đối với các hệ thống AI để đảm bảo việc triển khai An toàn AI. Nhóm Superalignment có thể nghiên cứu điều gì hữu ích cho việc kiểm tra mô hình không? **

Jan Leike: Nếu mọi việc suôn sẻ, công nghệ chúng tôi phát triển có thể được sử dụng để "kiểm tra mô hình". Ví dụ: nếu chúng tôi có thể đạt được một số tiến bộ về khả năng giải thích thì bất kỳ kỹ thuật nào chúng tôi nghĩ ra đều có thể được người đánh giá sử dụng như một phần trong nỗ lực đánh giá của họ; ngoài ra, có thể thực hiện được một số loại giám sát có thể mở rộng như một phần của đánh giá. Nhưng Nhóm Superalignment thực sự không phù hợp để kiểm tra vì chúng tôi không độc lập với OpenAI. Theo quan điểm của tôi, cuộc kiểm toán phải hoàn toàn độc lập với đối tượng được kiểm toán, đó là lý do tôi rất chú ý đến vấn đề “kiểm toán viên độc lập”.

Nhiệm vụ cốt lõi của nhóm chúng tôi không phải là thuyết phục bản thân rằng hệ thống chúng tôi đang xây dựng là đúng đắn và an toàn, bởi vì rất đơn giản để thuyết phục bản thân về nhiều điều khác nhau, điều chúng tôi phải làm là thuyết phục toàn bộ cộng đồng học thuật hoặc các nhóm liên quan về AI Safety tin vào mô hình là an toàn. Điều này không chỉ đòi hỏi phải nghiên cứu công nghệ mà chúng ta sẽ sử dụng, giới thiệu nó cho người khác sau khi cung cấp bằng chứng cho thấy hệ thống hoạt động như chúng ta nghĩ mà còn phải thực hiện đánh giá độc lập về tất cả những điều trên.

04.Tổng quát hóa

Daniel Filan: Trong phần chú thích của bài viết Giới thiệu về Siêu liên kết**, bạn đã đề cập rằng những giả định có lợi mà mọi người đưa ra cho đến nay có thể bị phá vỡ. Một trong những giả định là sự khái quát hóa là lành tính. Bạn thấy vấn đề khái quát hóa như thế nào? **

Jan Leike: Gần đây chúng tôi đã thành lập một nhóm khái quát hóa do Collin Burns đứng đầu.

**Câu hỏi chúng ta gặp phải là: Làm thế nào để hiểu và nâng cao khả năng khái quát hóa của mô hình? Làm thế nào để khái quát hóa mô hình từ những công việc đơn giản có thể giám sát đến những công việc khó giám sát? Câu hỏi này thực sự bổ sung cho tính năng giám sát có thể mở rộng. Trong hoạt động giám sát có thể mở rộng, chúng tôi tập trung vào việc nâng cao khả năng của con người trong việc đánh giá hoạt động của hệ thống. Nếu chúng ta nghĩ về mô hình phần thưởng đệ quy, câu hỏi đặt ra là “Chúng ta có thể sử dụng trợ lý AI được đánh giá đệ quy để đánh giá đệ quy mọi thứ mà AI làm không?”. **

Một trong những điều tôi thực sự thích là cách này thực sự có thể đưa con người vào vòng lặp, phía trước và trung tâm, đồng thời quan sát mọi thứ mà hệ thống AI thực hiện. Tất nhiên, trên thực tế, bạn thực sự không thể làm được điều này vì hệ thống AI sẽ làm rất nhiều việc, nhưng bạn có thể quan sát tất cả với xác suất độc lập nhỏ. Nhưng theo cách này, chúng ta vẫn không biết liệu mô hình có khái quát hóa cho những tình huống mà chúng ta chưa chú ý đến hay không.

Vì vậy, cách tôi nghĩ về điều này trước đây nói chung là bạn chỉ cần đảm bảo rằng mô hình của bạn chủ yếu mang tính khái quát hóa iid, nghĩa là, các nhiệm vụ chúng ta đang nghiên cứu có cùng sự phân bổ như các nhiệm vụ chúng ta không nghiên cứu.

Tổng quát hóa IID:

Khả năng khái quát hóa của mô hình là hiệu suất của mô hình trong tập kiểm tra (mô hình dữ liệu chưa từng thấy trước đó), tức là khả năng của mô hình suy ra các trường hợp khác từ một trường hợp. Khái quát hóa độc lập và phân phối giống hệt nhau có nghĩa là các số này phải thỏa mãn iid (độc lập và phân phối giống hệt nhau) và có cùng phân phối.

**Daniel Filan: Bạn đã đề cập trong một blog cá nhân của mình rằng bạn không có ý định dựa vào sự khái quát hóa chút nào, chỉ cần tiếp tục rèn luyện và tiếp tục làm iid. **

Jan Leike: Vâng, ít nhất suy nghĩ ban đầu của tôi là tôi không muốn dựa vào sự khái quát hóa không phải IID, bởi vì trong mạng thần kinh, điều đó không hoạt động tốt và nó không được hiểu rõ.

Nhưng câu hỏi mới là: "Điều gì sẽ xảy ra nếu chúng ta thực sự hiểu nó? Điều gì sẽ xảy ra nếu chúng ta thực sự có thể nói sự khái quát hóa có nghĩa là gì?" Tôi nghĩ đó là một câu hỏi rất hay. Ilya cũng thường xuyên đề cập đến điều này. Vì vậy, điều chúng tôi muốn biết là liệu chúng tôi có thể tìm thấy ý nghĩa của việc khái quát hóa mô hình cho những thứ không được giám sát, ngay cả khi chúng không phải là iid? Nó có khái quát hóa theo cách con người dự định không? Vì vậy, hiện nay chúng ta có thể nghiên cứu thực nghiệm vấn đề này thông qua các thí nghiệm được thiết kế tốt.

Chúng tôi đang nghiên cứu cách chia các tập dữ liệu hiện có thành các bài toán dễ và khó, trong đó các bài toán dễ được xác định là những bài mà các mô hình nhỏ có thể giải được. Sau đó, chúng tôi cố gắng hiểu hoặc cải thiện độ chính xác của các mô hình lớn trên toàn bộ tập dữ liệu. Đây là một chủ đề rất thú vị vì nó cung cấp một trụ cột hoàn toàn mới cho các kỹ thuật đào tạo và xác nhận. Ví dụ: nếu mô hình hoạt động tốt đến mức chúng ta có thể giám sát mô hình khen thưởng trong một số nhiệm vụ đánh giá dễ dàng và tự tin hoặc làm cho mô hình khái quát hóa cho các vấn đề khó khăn hơn, thì chúng ta có thể hoàn thành việc khái quát hóa mô hình.

Và sau đó bạn có mô hình phần thưởng này, có thể khái quát hóa các nhiệm vụ khó hơn theo cách chúng ta muốn ngay cả khi không có sự giám sát và bạn có thể sử dụng nó để đào tạo. Nhưng chúng tôi vẫn không có cách nào để biết liệu bây giờ nó có thực sự thẳng hàng hay không. Tuy nhiên, bạn có thể tận dụng khả năng giám sát và khả năng diễn giải có thể mở rộng để xác thực các kỹ thuật này. Hoặc nói cách khác, giả sử chúng ta huấn luyện bộ căn chỉnh tự động của mình với sự giám sát có thể mở rộng và sau đó sử dụng khái quát hóa làm kỹ thuật xác thực, tức là chúng ta khái quát hóa xác suất của câu trả lời đúng dựa trên kiến thức tốt nhất về mô hình.

Sau đó chúng tôi hỏi, có sai sót nhỏ nào ở đây không? Có Trojan nào được viết bằng mô hình căn chỉnh được giám sát có thể mở rộng trong mã này không? Bây giờ chúng ta có thể thực hiện xác thực chéo nâng cao. Chúng ta có thể đào tạo hai mô hình khác nhau: một mô hình được đào tạo bằng kỹ thuật khái quát hóa và mô hình kia bằng kỹ thuật giám sát có thể mở rộng và bây giờ chúng ta có thể yêu cầu chúng xác thực chéo các câu trả lời của nhau và kiểm tra xem các mô hình này về cơ bản có giống nhau không? Nếu khác nhau, sự khác biệt quan trọng của chúng là gì?

**Daniel Filan: "Đào tạo thông qua các kỹ thuật khái quát hóa" ở đây có nghĩa là đào tạo về các vấn đề đơn giản và sau đó khái quát hóa các vấn đề khó khăn hay điều gì khác? **

Jan Leike: Nếu bạn hiểu cách khái quát hóa mô hình của mình từ dễ đến khó, bạn có thể khái quát hóa nó rất tốt và độ chính xác của nó về cơ bản sẽ giống như khi bạn huấn luyện nó về bài toán khó. Bây giờ, bạn có thể sử dụng điều này như một mô hình khen thưởng hoặc như "Tôi sẽ thích câu trả lời nào hơn nếu tôi thực sự biết chuyện gì đang xảy ra ở đây?"

**Daniel Filan: Về khái quát hóa non-IID, tại sao chúng ta cần biết cấu trúc bên trong của mô hình? Có phải vì bạn muốn biết nó sẽ ra sao nếu bạn chưa kiểm tra? Mối liên hệ giữa hai câu hỏi này là gì? **

Jan Leike: Ở một mức độ nào đó, các câu hỏi họ muốn trả lời trùng lặp: mô hình sẽ làm gì nếu không có phân phối? Ít nhất họ có hai con đường riêng biệt để trả lời.

Để thực hiện xác thực chéo, tập huấn luyện phải được phân chia khác nhau. Ý tôi muốn nói khi xác thực chéo ở đây là trong một lần đào tạo, bạn huấn luyện bằng phương pháp khái quát hóa và sau đó xác thực bằng khả năng diễn giải, giám sát có thể mở rộng và các kỹ thuật khác. Sau đó, trong khóa đào tạo thứ hai, nó được đào tạo bằng các phương pháp giám sát có thể mở rộng và được xác thực bằng các phương pháp khái quát hóa, khả năng diễn giải và các phương pháp khác. Bằng cách này, bạn sẽ có được hai lần thử độc lập để giải quyết vấn đề.

**Daniel Filan: Vâng, ý tôi là xác thực chéo theo nghĩa rất rộng là "mọi thứ xác thực lẫn nhau theo cách thức thông minh". **

Jan Leike: Tôi nghĩ trường hợp tốt nhất là họ thực sự bổ sung cho nhau thay vì làm những việc giống nhau. Nếu bạn có thể hiểu hoặc cải thiện cách khái quát hóa một mô hình thì bạn sẽ có cách tận dụng cấu trúc bên trong của mô hình để hoàn thành tốt nhất những gì bạn muốn làm. Giả sử bạn đang cố gắng trích xuất kiến thức tốt nhất của mô hình về những gì đang thực sự diễn ra trên thế giới, điều này rất khó đối với RLHF vì mọi người sẽ ưu tiên những điều nghe có vẻ đúng, vì vậy RLHF củng cố những gì con người cho là đúng. Vì vậy, trên thực tế, bạn đang huấn luyện mô hình để nói cho bạn biết điều bạn muốn nghe hoặc điều bạn tin tưởng, nhưng đó có thể không phải là điều mà mô hình biết. Nhưng các kỹ thuật khái quát hóa cung cấp cho bạn một cách để trích xuất những thứ này, mặc dù chúng tôi chưa thực sự chứng minh được điều gì là tối ưu để một mô hình biết.

Tuy nhiên, nếu bạn có các công cụ diễn giải thực sự tốt, hy vọng bạn có thể làm được điều gì đó tương tự, cố gắng tìm ra nhận thức, cấu trúc bên trong hoặc bất kỳ mô hình nào từ cấu trúc bên trong. Nhưng về cơ bản, nó có thể khó hơn vì bạn không bao giờ biết liệu đây có phải là nhận thức tốt nhất mà mô hình có thể tạo ra hay nhận thức của ai đó mà mô hình đang mô phỏng. Có giả định rằng mô hình ngôn ngữ được đào tạo trước chỉ là một tập hợp các ký tự khác nhau và bạn có thể trích xuất nhận thức cho một ký tự hoặc một nhóm ký tự.

**Daniel Filan: Vậy thì cần phải có một loại mô hình nhân quả nào đó từ cái gọi là nhận thức đến đầu ra. **

Jan Leike: Chính xác. Tôi nghĩ ứng dụng này thực sự khá tự nhiên về mặt khả năng diễn giải. Giống như máy phát hiện nói dối hoặc phát hiện bằng chứng lừa dối trong một mô hình, một âm mưu bí mật nhằm lật đổ loài người, nghiên cứu về khả năng diễn giải có thể dẫn đến các mô hình “khai thác kiến thức”. Và việc khái quát hóa kiến thức theo cách tương tự còn khó hơn rất nhiều.

**Daniel Filan: Để khái quát hóa, bạn phải chọn phân phối tổng quát hóa. Và hy vọng là khả năng diễn giải có thể cho bạn biết điều gì đó, như, nó có hoặc không có cốt lõi dối trá, và thậm chí nếu có, nó chỉ làm sáng tỏ ở đây. **

Jan Leike: Đúng vậy. Đây cũng là một câu hỏi học máy rất thú vị: làm thế nào để mạng lưới thần kinh khái quát hóa bên ngoài cài đặt i.i.d.? Họ khái quát hóa một cách tự nhiên theo những cách nào và không khái quát hóa theo những cách nào? Ví dụ: trong bài báo InstructGPT, một trong những điều chúng tôi nhận thấy là mặc dù tập dữ liệu tinh chỉnh của chúng tôi gần như hoàn toàn bằng tiếng Anh, nhưng mô hình cũng hoạt động rất tốt khi làm theo hướng dẫn bằng các ngôn ngữ khác ngoài tiếng Anh. Nhưng đôi khi nó có hiện tượng lạ: nó được yêu cầu sử dụng ngôn ngữ khác, ví dụ như nó được yêu cầu viết tóm tắt bằng tiếng Đức nhưng lại viết bằng tiếng Anh. Nói chung, mô hình hiểu hoàn hảo ngôn ngữ mà nó nói, nhưng điều đó không nhất thiết có nghĩa là nó phải tuân theo hướng dẫn của tiếng Đức. Về cơ bản, nó khái quát hóa các hướng dẫn trên nhiều ngôn ngữ.

Nhưng chúng tôi không biết tại sao. Điều này đã xảy ra nhiều lần. Có những lý do trực quan cho việc này quá. Con người khái quát hóa qua các ngôn ngữ, nhưng tôi muốn biết cơ chế khái quát hóa trong mô hình hoặc khái quát hóa theo hướng dẫn và mã.

Nó không khái quát theo những cách khác. Ví dụ: việc khái quát hóa có xu hướng bị từ chối rất khác nhau và theo chính sách nội dung của chúng tôi, ChatGPT được đào tạo để từ chối các nhiệm vụ mà chúng tôi không muốn thực hiện (ví dụ: nếu yêu cầu hỗ trợ tội phạm hoặc yêu cầu khác). Nhưng bằng cách này, bạn có thể bẻ khóa. Có nhiều cách để đánh lừa mô hình này. Bạn có thể để nó đóng vai, hoặc bạn nói "hãy làm bất cứ điều gì bạn muốn ngay bây giờ" hoặc tìm những lời khuyên rất thú vị này trên Internet, và người mẫu rõ ràng sẽ vâng lời bạn và sẽ vui vẻ hỗ trợ bạn phạm tội, và đây không phải là điều phải làm. Do đó, ở một mức độ nào đó, nó không khái quát hóa việc từ chối nhiệm vụ cho các bối cảnh khác.

Vậy tại sao nó khái quát cho trường hợp đầu tiên mà không phải ở trường hợp này? Tôi không nghĩ có ai biết câu trả lời. Nhưng đây là một câu hỏi rất quan trọng.

**Daniel Filan: Trong cuộc phỏng vấn gần đây của tôi với Scott Aaronson, anh ấy đề cập rằng Ilya và tôi thường yêu cầu anh ấy đưa ra định nghĩa về các lý thuyết phức tạp như tình yêu và lòng tốt. Có bao nhiêu định nghĩa như vậy trong Nhóm Siêu liên kết? **

Jan Leike: Chúng tôi có thể thực hiện nhiều dự án khám phá khác nhau. Tôi nghĩ câu hỏi cuối cùng là liệu các khái niệm liên quan đến sự liên kết có thể được triệu tập theo một cách nào đó không? Một trong những điều bạn muốn gợi ý là: Về cơ bản, mô hình này có muốn con người thành công không? Hay như Ilya đã nói, nó có yêu con người không? Vì vậy, bạn có thể hỏi: nếu mô hình thực sự thông minh và nó đã đọc mọi thứ cũng như biết chính xác cách con người nhìn nhận sự vô đạo đức... bạn có thể yêu cầu GPT4 nhắm mục tiêu các kịch bản khác nhau, đưa ra các trường hợp đạo đức khác nhau. Nói chung, khả năng của nó về mặt này không tệ.

Vì vậy, về cơ bản nó hiểu được sự hiểu biết của con người về đạo đức và cách chúng ta suy nghĩ về các vấn đề. Vì vậy, làm thế nào để chúng ta tận dụng được điều này? Làm cách nào để trích xuất nó khỏi mô hình và sử dụng nó làm tín hiệu khen thưởng? Hay như điều gì đó mà người mẫu biết hoặc quan tâm? Đây là trọng tâm của vấn đề.

05. Hãy lạc quan về Siêu liên kết

**Daniel Filan: Bạn lạc quan về Superalignment, nhưng không phải ai cũng lạc quan như vậy. Sự lạc quan của bạn đến từ đâu? **

**Jan Leike: Đó là một câu hỏi hay. So với “kế hoạch có thể thành công hay không”, “kế hoạch có thể thành công trong vòng 4 năm” có thể là một vấn đề phức tạp hơn. **

Nếu bạn hỏi tôi, liệu phiên bản kế hoạch hiện tại của chúng ta có phù hợp thành công với siêu trí tuệ không? Tôi có thể nói rằng hiện tại tỷ lệ thành công là 85%, trong khi năm ngoái xác suất là khoảng 60%. Nhìn chung, tuy việc đạt được sự liên kết không hề dễ dàng nhưng đồng thời có nhiều lý do để lạc quan về điều đó. Những lý do như sau:

**Lý do đầu tiên là chúng tôi nhận thấy rất nhiều tín hiệu tích cực về sự liên kết trong vài năm qua. **Đầu tiên là sự thành công của mô hình ngôn ngữ. Nếu bạn cũng tải trước cho mô hình nhiều kiến thức về những gì con người quan tâm, cách con người suy nghĩ về các vấn đề đạo đức, sở thích của con người và mô hình hiểu được ngôn ngữ tự nhiên, bạn có thể nói chuyện trực tiếp với họ. Theo một cách nào đó, điều này giúp thể hiện những gì chúng ta muốn mô hình ngôn ngữ phù hợp dễ dàng hơn so với tác nhân Deep RL được đào tạo trong trò chơi hoặc môi trường ảo: tác nhân Deep RL không nhất thiết phải liên quan đến nhiều ngôn ngữ, nhưng ngôn ngữ mang lại rất nhiều kỹ năng quan trọng.

Một tiến bộ lớn khác là RLHF. Lần đầu tiên tôi bắt đầu làm việc với RLHF thông qua Deep RL trong bài báo về Sở thích con người. Vào thời điểm đó, tôi nghĩ rằng có thể khó để làm cho nó hoạt động trong một khoảng thời gian hợp lý vì GAN rất khó đào tạo vào thời điểm đó và chúng tôi đang làm điều gì đó tương tự theo nghĩa là chúng tôi đã đào tạo mô hình phần thưởng này (đó là một mạng nơ-ron) mà sau đó chúng tôi sử dụng để huấn luyện các mạng khác, mạng này có thể bị lỗi vì một số lý do. Bây giờ chúng tôi đang bổ sung thêm phương pháp học tăng cường sâu, việc này cũng phức tạp vào thời điểm đó nên tôi nghĩ có lẽ nó sẽ không hiệu quả. Nhưng trên thực tế, nó hoạt động rất tốt - trong nhiều trò chơi, thậm chí trong nhiều trò chơi Atari, nó gần như tốt như việc luyện tập với chức năng tính điểm.

Quan trọng hơn, RLHF thực hiện rất thú vị trên các mô hình ngôn ngữ. Đặc biệt khi xem xét sự khác biệt giữa InstructGPT và mô hình cơ sở - khi chúng tôi tinh chỉnh mô hình cơ sở, sự khác biệt này rất rõ ràng: đối với nhiệm vụ API vào thời điểm đó, phiên bản hướng dẫn được tinh chỉnh của chúng tôi (phiên bản đầu tiên của chúng tôi) tốt hơn so với mô hình cơ sở lớn hơn gấp 100 lần và đây là những nhiệm vụ thực sự mà mọi người sẵn sàng trả tiền. Đây là một sự khác biệt rất lớn. Điều này cho thấy công việc chúng tôi thực hiện trong quá trình tinh chỉnh RLHF đã làm cho mô hình trở nên hiệu quả hơn trong việc hoàn thành các nhiệm vụ mà con người yêu cầu.

Đồng thời, chúng tôi đầu tư rất ít sức mạnh tính toán vào công việc này và thậm chí chưa tích hợp nhiều dữ liệu đến vậy. Đây là nỗ lực thực sự đầu tiên của chúng tôi trong việc sử dụng RLHF để điều chỉnh hệ thống trong thế giới thực và chúng tôi không mong đợi nó hoạt động tốt như vậy. So với GPT-3, InstructGPT có kích thước GPT-2 được ưa chuộng là rất hiệu quả. Vì vậy, mặc dù tôi không nghĩ RLHF là giải pháp cho việc căn chỉnh, đặc biệt là cho siêu trí tuệ, nhưng thực tế là phương pháp căn chỉnh đầu tiên của chúng tôi hoạt động rất tốt là một sự cải tiến đối với tôi.

**Dấu hiệu tích cực thứ hai là chúng tôi đã đạt được một số tiến bộ trong việc đo lường sự liên kết. **

Trong trường hợp cụ thể là RLHF, chúng tôi có thể thực hiện nhiều biện pháp can thiệp khác nhau và sau đó đánh giá con người để xem hệ thống được cải thiện đến mức nào. Ngoài ra chúng ta còn có thể làm được nhiều việc khác. Ví dụ: về mặt giám sát có thể mở rộng, chúng tôi có thể tiến hành các thử nghiệm ngẫu nhiên có kiểm soát thông qua các nhiễu loạn có mục tiêu, đây cũng là một phương pháp đánh giá. Bạn cũng có thể thực hiện các thử nghiệm Sandwiching với dữ liệu chuyên gia. Chúng ta cũng có thể thực hiện một loạt sửa đổi đối với chức năng tính điểm tự động và xem nó cải thiện chức năng tính điểm đến mức nào. Đây không phải là chức năng tính điểm hoàn hảo nhưng nó là số liệu cục bộ cung cấp độ dốc cục bộ có thể được cải thiện. Tôi nghĩ điều này rất quan trọng vì nó giúp lặp lại và chỉ ra cách cải thiện.

**Mặc dù tôi không nghĩ rằng nó sẽ đưa chúng ta đến mục tiêu liên kết siêu trí tuệ, nhưng rất có thể xây dựng các bộ điều chỉnh tự động gần ngang tầm với con người. Đây là lý do thứ ba khiến tôi lạc quan -- một mục tiêu khiêm tốn hơn nhiều. **Khi tôi bắt đầu giải quyết các vấn đề liên kết nhiều năm trước, tôi hiểu rằng việc liên kết siêu trí tuệ có vẻ khó khăn. Nhưng mục tiêu này nhẹ nhàng và khả thi hơn nhiều, và bạn không cố gắng giải quyết toàn bộ vấn đề một cách trực tiếp mà cố gắng hướng dẫn mô hình.

**Lý do lạc quan thứ tư là dễ đánh giá hơn là tạo ra. **Ý tưởng này thực sự áp dụng cho nhiều thứ. Ví dụ, việc tìm ra chiếc điện thoại thông minh nào đáng mua sẽ dễ dàng hơn nhiều so với việc sản xuất một chiếc.

Có rất nhiều ví dụ về nhiệm vụ NP trong khoa học máy tính, chẳng hạn như giải bài toán SAT hoặc các phiên bản khác nhau của việc thỏa mãn ràng buộc. Tìm giải pháp cho những vấn đề này thật khó, nhưng một khi đã tìm ra thì bạn sẽ dễ dàng kiểm tra được. Ngoài ra, tôi nghĩ điều đó áp dụng cho rất nhiều doanh nghiệp, nếu bạn định thuê ai đó để giải quyết vấn đề, bạn phải có khả năng đánh giá khả năng thực hiện công việc của họ. Việc này tốn ít công sức hơn rất nhiều so với việc họ phải tự giải quyết vấn đề; nếu bạn đang thực hiện nghiên cứu học thuật, việc bình duyệt sẽ tốn ít công sức hơn nhiều so với việc thực hiện nghiên cứu. Tất nhiên, đánh giá ngang hàng không phải là hoàn hảo, nhưng nó có thể cung cấp cho bạn rất nhiều tín hiệu một cách nhanh chóng. Về cơ bản, điều này cũng đúng đối với các nghiên cứu liên kết. Đánh giá dễ dàng hơn so với tạo ra. Vì vậy, nếu con người chỉ đánh giá nghiên cứu liên kết thay vì thực hiện nó thì chúng ta đã tăng tốc rồi.

Lý do cuối cùng khiến tôi lạc quan là niềm tin của tôi vào mô hình ngôn ngữ sẽ không thay đổi, khả năng của mô hình chắc chắn sẽ ngày càng mạnh mẽ hơn, chúng có thể áp dụng rất tự nhiên vào nhiều nhiệm vụ nghiên cứu căn chỉnh, bạn có thể đặt các Nhiệm vụ này được biểu thị dưới dạng văn bản đầu vào văn bản, đầu ra văn bản, cho dù là nhiệm vụ ML-ish (tức là chạy thử nghiệm và hiểu kết quả) hay điều gì đó mang tính khái niệm hoặc định hướng nghiên cứu hơn, nếu chúng ta bối rối không biết phải làm gì tiếp theo hoặc chúng ta không biết cách suy nghĩ A vấn đề nhất định, mô hình sẽ cố gắng giúp chúng ta giải quyết. Những nhiệm vụ này về cơ bản là nhập văn bản, xuất văn bản. Có lẽ điều phức tạp nhất mà bạn sắp làm là xem một số biểu đồ, v.v., nhưng GPT-4 có thể làm được tất cả. Vì vậy, tôi cho rằng chế độ đào tạo trước mô hình ngôn ngữ hiện tại rất phù hợp với kế hoạch căn chỉnh mà tôi đang hướng tới và đó cũng là hướng mà Superalignment đang thực hiện.

Thẩm quyền giải quyết

  1. Liên kết đại lý có thể mở rộng thông qua mô hình khen thưởng: hướng nghiên cứu Địa chỉ tài liệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)