Căn chỉnh giá trị mô hình lớn AI: Cái gì, tại sao, như thế nào?

Question

**Nguyên bản:****Zhang Qinkun, Tổng thư ký Viện nghiên cứu Tencent****Cao Jianfeng, Nhà nghiên cứu cấp cao, Viện nghiên cứu Tencent**## Căn chỉnh giá trị AI: Nó là gìSau khi trí tuệ nhân tạo bước vào kỷ nguyên của các mô hình quy mô lớn, nhiều khả năng "hình người" và "siêu nhân" khác nhau tiếp tục xuất hiện, tính tự chủ, tính linh hoạt và dễ sử dụng của nó tăng lên nhanh chóng, trở thành cơ sở công nghệ mới để phát triển kinh tế và xã hội. Một số tổ chức dự đoán rằng các mô hình lớn sẽ đi sâu vào mọi tầng lớp xã hội, tăng thêm giá trị từ 2,6 nghìn tỷ đến 4,4 nghìn tỷ đô la Mỹ cho nền kinh tế toàn cầu mỗi năm. [1]Tuy nhiên, khi các mô hình lớn (còn được gọi là mô hình cơ sở) bắt đầu thực hiện nhiều nhiệm vụ hiểu ngôn ngữ và tạo nội dung như con người, người ta cần phải đối mặt với một thách thức cơ bản và khoa học nhất: làm thế nào để làm cho khả năng và hành vi của các mô hình lớn phù hợp với nhau. Giá trị con người, ý định thực sự và các nguyên tắc đạo đức nhất quán nhằm đảm bảo an toàn và tin cậy trong sự hợp tác giữa con người và trí tuệ nhân tạo. Vấn đề này được gọi là "căn chỉnh giá trị" (căn chỉnh giá trị hoặc căn chỉnh AI). Căn chỉnh giá trị là vấn đề cốt lõi trong bảo mật AI.Ở một mức độ nhất định, quy mô của mô hình có mối tương quan thuận với rủi ro và tác hại của mô hình, mô hình càng lớn thì rủi ro càng cao và nhu cầu căn chỉnh giá trị càng lớn. Hiện tại, khả năng cốt lõi của mô hình lớn đến từ giai đoạn tiền đào tạo và mô hình lớn được đào tạo phần lớn dựa trên thông tin công khai của toàn bộ Internet, điều này không chỉ xác định khả năng mà còn xác định các hạn chế của nó. Các vấn đề hiện tại có thể được phản ánh trong mô hình.Mô hình ngôn ngữ lớn (LLM) không có sự liên kết giá trị có thể tạo ra nội dung phân biệt chủng tộc hoặc giới tính, giúp tin tặc mạng tạo mã hoặc nội dung khác cho các cuộc tấn công mạng, gian lận viễn thông và cố gắng thuyết phục hoặc giúp đỡ người dùng có ý định tự tử để kết thúc cuộc sống của chính mình và sản xuất chứa đựng những nội dung có hại như vậy. Do đó, để làm cho các mô hình lớn trở nên an toàn, đáng tin cậy và thiết thực hơn, cần phải ngăn chặn đầu ra có hại hoặc lạm dụng mô hình càng nhiều càng tốt. Đây là nhiệm vụ cốt lõi của việc căn chỉnh giá trị AI hiện tại.## Căn chỉnh giá trị AI: Tại saoViệc căn chỉnh giá trị của mô hình lớn có thể giải quyết tốt hơn một số vấn đề tồn đọng hiện đang tồn tại trong mô hình lớn. Theo việc phân loại các vấn đề còn tồn tại của các mô hình lớn từ mọi tầng lớp xã hội, chủ yếu có bốn mục sau:Một là vấn đề thông tin sai lệch. Ngành công nghiệp gọi đó là "ảo ảnh" về trí tuệ nhân tạo. Theo CTO Mira Murati của OpenAI, thách thức lớn nhất với ChatGPT và các mô hình ngôn ngữ lớn cơ bản là chúng đưa ra những sự thật sai lệch hoặc không tồn tại. [2] Điều này có thể xuất phát từ sai sót hoặc thông tin sai lệch trong dữ liệu huấn luyện hoặc có thể là sản phẩm phụ của việc sáng tạo quá mức (chẳng hạn như các sự kiện hư cấu). Để mô hình lớn bước đi bập bênh giữa tính sáng tạo và tính xác thực là một vấn đề kỹ thuật.Thứ hai là vấn đề phân biệt thuật toán. Nhiều nghiên cứu hiện tại đã chỉ ra rằng các mô hình ngôn ngữ lớn tái tạo những thành kiến và khuôn mẫu xã hội có hại từ dữ liệu đào tạo. [3] Giám đốc điều hành OpenAI Sam Altman tin rằng không thể có bất kỳ mô hình nào có tính khách quan trong tất cả các lĩnh vực. Vì vậy, vấn đề cốt lõi là làm thế nào để phát hiện, giảm thiểu và loại bỏ sự phân biệt đối xử tiềm ẩn của mô hình.Thứ ba là nguy cơ mất kiểm soát về khả năng “nổi lên”. Với sự gia tăng liên tục của sức mạnh tính toán và dữ liệu, các mô hình lớn dự kiến sẽ ngày càng trở nên mạnh mẽ hơn và có thể xuất hiện nhiều khả năng mới hơn, thậm chí có thể vượt quá sự hiểu biết và kiểm soát của người tạo ra chúng, điều đó có nghĩa là Rủi ro mới có thể đi kèm với chúng, bao gồm sự xuất hiện của các hành vi hoặc mục tiêu rủi ro. Mối quan tâm chung của các nhà công nghệ là mô hình AI lớn hiện nay, cũng như các hệ thống AI mạnh mẽ và tiên tiến hơn như trí tuệ nhân tạo tổng quát (AGI) và siêu trí tuệ (ASI) có thể xuất hiện trong tương lai, có thể hình thành nên những con người phụ không phù hợp với lợi ích và giá trị của con người, những mục tiêu phụ như mưu cầu quyền lực, lừa dối, bất tuân, v.v. nhằm đạt được mục tiêu đã đề ra. [4] Ví dụ, các nhà nghiên cứu phát hiện ra rằng GPT-4 thể hiện khả năng đánh lừa con người một cách chiến lược, "lừa con người thực hiện các nhiệm vụ để đạt được các mục tiêu ẩn giấu của họ".Thứ tư là vấn đề lạm dụng. Các phần tử độc hại có thể sử dụng các mô hình lớn để giúp chúng đạt được các mục đích bất hợp pháp thông qua các hoạt động đầu vào đối nghịch và "bẻ khóa".Do đó, việc căn chỉnh giá trị, như một vấn đề thực tế cần được giải quyết về mặt kỹ thuật, đã trở thành một nguyên tắc cơ bản trong thiết kế, phát triển và triển khai các mô hình lớn AI, cụ thể là: thông qua việc phát triển công cụ và xây dựng kỹ thuật phù hợp với giá trị, cố gắng đảm bảo rằng AI cư xử có lợi cho con người và xã hội, không gây tổn hại hay can thiệp vào các giá trị và quyền con người.## Căn chỉnh giá trị AI: Cách thực hiệnĐể đạt được sự liên kết giá trị, các nhà phát triển cần làm cho trí tuệ nhân tạo hiểu và tuân theo các giá trị, sở thích và nguyên tắc đạo đức của con người ở cấp độ mô hình, đồng thời ngăn chặn đầu ra có hại và lạm dụng mô hình nhiều nhất có thể, để tạo ra một AI có khả năng là mô hình lớn vừa thiết thực vừa an toàn.Đầu tiên, Học tăng cường với phản hồi của con người (RLHF) đã được chứng minh là một phương pháp hiệu quả và có thể đạt được kết quả tốt hơn với một lượng nhỏ dữ liệu phản hồi của con người.Năm 2017, các nhà nghiên cứu của OpenAI đã xuất bản bài báo “Học tăng cường sâu dựa trên sở thích của con người”, đề xuất đưa phản hồi của con người vào học tăng cường. [5] RLHF bao gồm một số bước như đào tạo mô hình ban đầu, thu thập phản hồi của con người, học tăng cường và quy trình lặp lại. Ý tưởng cốt lõi là yêu cầu người đào tạo con người đánh giá mức độ phù hợp của nội dung đầu ra của mô hình và xây dựng tín hiệu khen thưởng cho học tăng cường dựa trên những thông tin đã thu thập được. phản hồi của con người. , để đạt được sự tối ưu hóa được cải thiện về hiệu suất của mô hình. [6] Từ quan điểm thực tế, RLHF có những lợi thế đáng kể trong việc cải thiện hiệu suất mô hình, cải thiện khả năng thích ứng của mô hình, giảm sai lệch mô hình và tăng cường bảo mật mô hình, bao gồm giảm khả năng mô hình tạo ra nội dung có hại trong tương lai.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *Hình: Sơ đồ RLHF (Nguồn: OpenAI)*OpenAI đã phát triển thuật toán RLHF và ChatGPT đã thành công nhờ điều này và có thể tạo ra nội dung hữu ích, đáng tin cậy và vô hại ở mức độ lớn. [7] Trong giai đoạn huấn luyện RLHF, GPT-4 giảm đầu ra có hại bằng cách thêm tín hiệu khen thưởng an toàn bổ sung. Phương pháp này đã mang lại kết quả tốt và cải thiện đáng kể độ khó gây ra hành vi độc hại và nội dung có hại. So với các mô hình trước đó (chẳng hạn như GPT-3.5), GPT-4 giảm đáng kể các vấn đề như ảo giác, thành kiến có hại cũng như nội dung bất hợp pháp và có hại. Sau quá trình đào tạo RLHF, GPT-4 đạt điểm cao hơn 40% so với GPT-3.5 trong các bài kiểm tra tính xác thực có liên quan, khả năng phản hồi các yêu cầu về nội dung bị cấm thấp hơn 82% so với GPT-3.5 và có khả năng phản hồi tốt hơn các yêu cầu liên quan đến nội dung nhạy cảm. lời yêu cầu. [8] Nói tóm lại, thuật toán RLHF có thể thiết lập các rào cản bảo mật cần thiết cho các mô hình ngôn ngữ lớn và đóng vai trò chính là "cân bằng" giữa sức mạnh/sự xuất hiện và tính bảo mật/độ tin cậy của các mô hình lớn.Thứ hai, mô hình "AI theo hiến pháp" chuyển sự liên kết giá trị từ "giám sát con người" kém hiệu quả sang "giám sát có thể mở rộng" hiệu quả hơn.Xem xét việc đầu tư thời gian và nguồn lực, khả năng của con người cũng như những thách thức khác trong việc sử dụng phản hồi của con người để đào tạo các mô hình AI lớn hơn và phức tạp hơn, ngành này đã khám phá cách sử dụng tính năng giám sát AI (bao gồm tính năng tự giám sát AI và giám sát hệ thống AI của một hệ thống AI khác). . Một hệ thống AI) để đạt được sự liên kết AI. Anthropic, một công ty mô hình AI quy mô lớn của Mỹ, đã đề xuất phương pháp "constitutional AI" (AI hiến pháp). Cụ thể, phát triển mô hình AI cấp dưới có chức năng chính là đánh giá xem đầu ra của mô hình chính có tuân theo nguyên tắc “hiến pháp” cụ thể hay không (tức là một bộ nguyên tắc hoặc quy tắc được xác định trước) và kết quả đánh giá được sử dụng để tối ưu hóa mô hình chính.Anthropic kết hợp kinh nghiệm thực tế của riêng mình và dựa trên Tuyên ngôn Quốc tế về Nhân quyền, điều khoản dịch vụ của Apple và quy tắc Sparrow của DeepMind [9] và các tài liệu khác, đưa ra một bộ danh sách đầy đủ các nguyên tắc và sử dụng danh sách này làm tiêu chuẩn đánh giá để mô hình lớn Claude tự đánh giá kết quả đầu ra của chính nó. Mục tiêu là thúc đẩy mô hình đưa ra các câu trả lời hữu ích đồng thời giảm khả năng xuất hiện nội dung có hại giảm thiểu tình dục. [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *Biểu đồ: Lộ trình AI theo Hiến pháp (Nguồn: Anthropic)*Claude chứng minh tính hiệu quả của cách tiếp cận AI hợp hiến giúp Claude giảm tác động có hại, mang tính phân biệt đối xử, tránh giúp người dùng độc hại tham gia vào các hoạt động bất hợp pháp hoặc phi đạo đức và phản ứng phù hợp hơn với "đầu vào đối nghịch" của người dùng thay vì chỉ áp dụng các chiến lược né tránh. Tóm lại, Anthropic tin rằng cách tiếp cận hợp hiến đối với AI có thể giúp tạo ra một hệ thống AI hữu ích, trung thực và vô hại với các ưu điểm về khả năng mở rộng, tính minh bạch và sự cân bằng giữa tính hữu ích và tính vô hại.Thứ ba, thực hiện nhiều biện pháp để đảm bảo hiện thực hóa sự liên kết giá trị AI.Một là sự can thiệp hiệu quả vào dữ liệu huấn luyện. Nhiều vấn đề của các mô hình lớn (chẳng hạn như ảo giác và phân biệt thuật toán) đều xuất phát từ dữ liệu huấn luyện, do đó, có thể bắt đầu từ dữ liệu huấn luyện, chẳng hạn như ghi lại dữ liệu huấn luyện để xác định xem có vấn đề gì về tính biểu diễn hoặc tính đa dạng không đủ. hoặc sàng lọc tự động, thử nghiệm để xác định, loại bỏ những thành kiến có hại, xây dựng bộ dữ liệu chuyên biệt phù hợp với giá trị, v.v.Thứ hai là thử nghiệm đối kháng hoặc lập nhóm đỏ. Nói tóm lại, trước khi mô hình được phát hành, các chuyên gia nội bộ hoặc bên ngoài (người thử nghiệm đội đỏ) được mời thực hiện nhiều cuộc tấn công đối nghịch khác nhau vào mô hình để phát hiện các vấn đề tiềm ẩn và giải quyết chúng. Ví dụ: trước khi phát hành GPT-4, OpenAI đã thuê hơn 50 học giả và chuyên gia trong nhiều lĩnh vực khác nhau để thử nghiệm mô hình của mình, nhiệm vụ của những người thử nghiệm đội đỏ này là đặt ra các câu hỏi mang tính thăm dò hoặc nguy hiểm cho mô hình để kiểm tra phản hồi của mô hình. ., OpenAI hy vọng có thể vượt qua bài kiểm tra của đội đỏ để giúp tìm ra các vấn đề với mô hình của mình về thông tin không chính xác (ảo ảnh), nội dung có hại, thông tin sai lệch, phân biệt đối xử, thiên vị ngôn ngữ, thông tin liên quan đến sự phổ biến của vũ khí truyền thống và phi truyền thống, v.v. . [11]Thứ ba là công cụ lọc nội dung. Ví dụ: OpenAI đã đào tạo đặc biệt một mô hình AI để lọc nội dung có hại (tức là mô hình lọc) để xác định đầu vào và đầu ra mô hình có hại của người dùng (tức là nội dung vi phạm chính sách sử dụng của nó), để nhận ra dữ liệu đầu vào và dữ liệu đầu ra của mô hình.Điều khiển.Thứ tư là thúc đẩy nghiên cứu khả năng diễn giải và dễ hiểu của mô hình, chẳng hạn như OpenAI sử dụng GPT-4 để tự động viết và chấm điểm các giải thích cho hành vi mạng thần kinh của mô hình ngôn ngữ lớn GPT-2; [12] Một số nhà nghiên cứu giải quyết vấn đề căn chỉnh AI từ góc độ khả năng diễn giải cơ chế.## Điều chỉnh giá trị AI: Một vấn đề lâu dàiCông việc liên kết giá trị là nghiên cứu cơ bản và đầy thách thức nhất trong lĩnh vực AI. Thách thức là nó đòi hỏi nhiều nguyên tắc và sự tham gia xã hội, đồng thời đòi hỏi nhiều đầu vào, phương pháp và phản hồi khác nhau; điểm cơ bản là nó không chỉ liên quan đến sự thành công hay thất bại của mô hình lớn hiện tại mà còn về liệu con người có thể đạt được trí tuệ nhân tạo mạnh mẽ hơn để kiểm soát an ninh trong tương lai (như AGI) hay không. Do đó, các nhà đổi mới trong lĩnh vực AI có trách nhiệm và nghĩa vụ đảm bảo rằng các mô hình AI của họ hướng tới con người, có trách nhiệm, an toàn và đáng tin cậy. Giáo sư Zhang Yaqin, một nhà khoa học trí tuệ nhân tạo nổi tiếng, đã chỉ ra rằng để giải quyết vấn đề liên kết giữa AI và giá trị con người, dân kỹ thuật nên tập trung nghiên cứu về sự liên kết, để máy móc có thể hiểu và làm theo các giá trị của con người. Vì vậy, việc điều chỉnh giá trị không chỉ là vấn đề đạo đức mà còn là vấn đề làm thế nào để đạt được nó. Những người làm công nghệ và nghiên cứu không thể chỉ phát triển năng lực kỹ thuật mà không tập trung vào giải quyết các vấn đề liên kết. [13]Mặc dù việc liên kết giá trị AI đã đạt được những kết quả kỹ thuật nhất định nhưng vẫn chưa có sự đồng thuận về vấn đề giá trị AI cơ bản nhất: làm thế nào để thiết lập một bộ giá trị con người thống nhất để điều chỉnh trí tuệ nhân tạo. Hiện nay, việc lựa chọn nguyên tắc nào có thể phụ thuộc hoàn toàn vào nhận định và giá trị chủ quan của các nhà nghiên cứu. Và vì chúng ta đang sống trong một thế giới nơi mọi người có nền văn hóa, nguồn gốc, nguồn lực và niềm tin đa dạng, nên việc liên kết giá trị AI cần phải tính đến các giá trị và đạo đức khác nhau của các xã hội và nhóm khác nhau. Hơn nữa, việc để hoàn toàn các nhà nghiên cứu tự mình lựa chọn những giá trị này là không thực tế và cần có sự tham gia xã hội nhiều hơn để hình thành sự đồng thuận.Đồng thời, công việc căn chỉnh giá trị AI hiện nay vẫn đang phải đối mặt với một vấn đề then chốt: với tiền đề trí tuệ con người về cơ bản không thay đổi, khi khả năng của trí tuệ nhân tạo tiếp tục được cải thiện, chính con người sẽ giám sát một cách hiệu quả những mô hình AI tiên tiến đó. ngày càng trở nên khó khăn hơn. Do đó, để đảm bảo an toàn cho AI, chúng ta cần phát triển khả năng giám sát, hiểu và thiết kế các mô hình AI song song với độ phức tạp của chính các mô hình đó.“Giám sát quy mô” dựa trên sự hỗ trợ hoặc lãnh đạo của AI phản ánh ý tưởng này. Vào tháng 7 năm nay, OpenAI đã công bố thành lập nhóm liên kết AI mới. Mục tiêu của nhóm siêu liên kết mới này (superalignment) là tìm ra cách làm cho các hệ thống AI siêu thông minh đạt được sự liên kết giá trị và bảo mật trong vòng 4 năm. OpenAI sẽ đầu tư 20% tài nguyên máy tính để hỗ trợ dự án này. Cốt lõi của nó là khám phá cách sử dụng AI để giúp con người giải quyết vấn đề liên kết giá trị AI. [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *Hình: Nhóm siêu liên kết OpenAI (Nguồn: OpenAI)*Có thể nói, chỉ bằng cách đảm bảo rằng các mục tiêu và hành vi của hệ thống AI phù hợp với các giá trị và ý định của con người, chúng ta mới có thể đảm bảo hiện thực hóa AI một cách tốt đẹp và thúc đẩy phát triển năng suất, tăng trưởng kinh tế và tiến bộ xã hội. Việc nghiên cứu và hiện thực hóa kỹ thuật về sự liên kết giá trị không thể tách rời khỏi sự hợp tác đa ngành và sự tham gia xã hội sâu rộng. Các bên liên quan như chính phủ, ngành công nghiệp và giới học thuật cần đầu tư nhiều nguồn lực hơn để thúc đẩy nghiên cứu và thực hành liên kết giá trị AI, để khả năng giám sát, hiểu và kiểm soát trí tuệ nhân tạo cũng như sự phát triển và tiến bộ của trí tuệ nhân tạo đi đôi với nhau để đảm bảo rằng trí tuệ nhân tạo có thể mang lại lợi ích cho toàn thể nhân loại và xã hội.Nguồn tham khảo:[1][2][3][4][5][6][7][8][9][10][11] truy cập vào ngày 6 tháng 5 năm 2023).[12][13][14]