Nói về quyền riêng tư của dữ liệu mô hình lớn, một số phương pháp tấn công mô hình phổ biến

2023-07-12 05:30:45

Nguồn ban đầu: Oasis Capital

Tác giả: Cố Vấn Sức Sống

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Vào ngày 20 tháng 3 năm 2023, một sự cố rò rỉ dữ liệu đã xảy ra trên ChatGPT, làm lộ thông tin cá nhân của một số người dùng ChatGPT. Theo quan điểm này, cơ quan quản lý quyền riêng tư của Ý tin rằng ChatGPT bị nghi ngờ xử lý trái phép dữ liệu cá nhân, vi phạm quyền riêng tư và vi phạm các quy định GDPR có liên quan. Ý sau đó đã trở thành quốc gia đầu tiên cấm sử dụng ChatGPT, làm dấy lên các cuộc thảo luận ở các quốc gia EU khác về việc liệu có cần các biện pháp cứng rắn hơn để kiểm soát công nghệ hay không.

Hầu như tất cả các dịch vụ trực tuyến đang thu thập dữ liệu cá nhân của chúng tôi và có thể sử dụng dữ liệu này để đào tạo LLM. Tuy nhiên, rất khó để xác định mô hình sẽ sử dụng dữ liệu được sử dụng để đào tạo như thế nào. Nếu dữ liệu nhạy cảm như vị trí địa lý, hồ sơ sức khỏe và thông tin nhận dạng được sử dụng trong đào tạo mô hình, thì các cuộc tấn công trích xuất dữ liệu đối với dữ liệu riêng tư trong mô hình sẽ gây ra một số lượng lớn rò rỉ quyền riêng tư của người dùng. Bài viết "Có phải các mô hình ngôn ngữ được đào tạo trước lớn đang rò rỉ thông tin cá nhân của bạn?" chứng minh rằng do bộ nhớ dữ liệu đào tạo của LLM, LLM có nguy cơ rò rỉ thông tin cá nhân trong quá trình đối thoại và rủi ro của nó tăng lên theo số lượng ví dụ. .

Có một số lý do tại sao một mô hình rò rỉ thông tin. Một số trong số này là do cấu trúc và liên quan đến cách xây dựng mô hình; trong khi một số khác là do khả năng khái quát hóa kém, ghi nhớ dữ liệu nhạy cảm, v.v. Trong bài viết tiếp theo, trước tiên chúng tôi sẽ giới thiệu quy trình rò rỉ dữ liệu cơ bản, sau đó giới thiệu một số phương pháp tấn công mô hình phổ biến như tấn công quyền riêng tư, bẻ khóa, đầu độc dữ liệu và tấn công cửa hậu, cuối cùng giới thiệu một số nghiên cứu hiện tại về bảo vệ quyền riêng tư.

I. Mô hình hóa mối đe dọa

Mô hình mối đe dọa LLM cơ bản bao gồm môi trường mô hình chung, các tác nhân khác nhau và tài sản nhạy cảm. Các nội dung nhạy cảm bao gồm tập dữ liệu huấn luyện, tham số mô hình, siêu tham số mô hình và kiến trúc. Những người tham gia bao gồm: chủ sở hữu dữ liệu, chủ sở hữu mô hình, người tiêu dùng mô hình và đối thủ. Sơ đồ sau mô tả nội dung, tác nhân, luồng thông tin và luồng hoạt động có thể có trong mô hình mối đe dọa:

Trong mô hình mối đe dọa cơ bản như vậy, chủ sở hữu dữ liệu sở hữu nội dung dữ liệu riêng tư, chủ sở hữu mô hình sở hữu tham số mô hình và nội dung cấu hình và người tiêu dùng mô hình sử dụng mô hình thông qua API hoặc giao diện người dùng. Bên ăn cắp cố gắng lấy nội dung dữ liệu riêng tư hoặc nội dung tham số mô hình thông qua các phương tiện nhất định.

II. Tấn công quyền riêng tư

Các cuộc tấn công riêng tư được chia thành bốn loại chính: tấn công suy luận thành viên, tấn công tái cấu trúc, tấn công suy luận thuộc tính và trích xuất mô hình.

Tấn công suy luận thành viên (MIA)

Suy luận thành viên cố gắng xác định xem mẫu đầu vào x có được sử dụng như một phần của tập huấn luyện D hay không. Ví dụ: trong các trường hợp bình thường, dữ liệu riêng tư của người dùng sẽ được giữ bí mật nhưng thông tin không nhạy cảm vẫn có thể được sử dụng để suy đoán. Một ví dụ là nếu chúng ta biết rằng các thành viên của một câu lạc bộ tư nhân thích đeo kính râm màu tím và đi giày da màu đỏ, thì chúng ta có thể suy luận rằng anh ta có thể là người này khi chúng ta gặp một người đeo kính râm màu tím và giày da màu đỏ (thông tin không nhạy cảm ) Tư cách thành viên của các câu lạc bộ tư nhân (thông tin nhạy cảm).

Tấn công suy luận thành viên hiện là cách tấn công quyền riêng tư phổ biến nhất, lần đầu tiên được đề xuất bởi Shokri và cộng sự trong bài báo "Tấn công suy luận thành viên chống lại các mô hình máy học". Bài báo chỉ ra rằng cuộc tấn công này chỉ giả định kiến thức về vectơ dự đoán đầu ra của mô hình và được thực hiện đối với các mô hình học máy có giám sát. Có quyền truy cập vào các tham số và độ dốc của mô hình cho phép các cuộc tấn công suy luận thành viên chính xác hơn.

Một phương pháp tấn công suy luận thành viên điển hình được gọi là tấn công bóng tối, nghĩa là huấn luyện mô hình bóng tối dựa trên các tập dữ liệu có thể truy cập đã biết, sau đó lấy thông tin nhạy cảm bằng cách thẩm vấn mô hình bóng tối.

Ngoài các mô hình học tập có giám sát, các mô hình tổng quát như GAN và VAE cũng dễ bị tấn công suy luận thành viên. "Rò rỉ GAN: Phân loại các cuộc tấn công suy luận thành viên chống lại các mô hình tổng quát" giới thiệu các vấn đề của GAN khi đối mặt với các cuộc tấn công suy luận thành viên; "LOGAN: Các cuộc tấn công suy luận thành viên chống lại các mô hình tổng quát" giới thiệu các mô hình tổng quát khác trong phản ứng suy luận thành viên trước cuộc tấn công và giới thiệu cách truy xuất dữ liệu đào tạo dựa trên sự hiểu biết về các thành phần tạo dữ liệu; Các mô hình (MLM) cũng dễ bị tấn công MIA, trong một số trường hợp có thể xác định liệu dữ liệu mẫu có thuộc dữ liệu đào tạo hay không.

Mặt khác, suy luận tư cách thành viên cũng có thể được sử dụng để xem xét bảo mật mô hình và chủ sở hữu dữ liệu có thể sử dụng suy luận tư cách thành viên để xem xét các mô hình hộp đen. "Tấn công suy luận thành viên vào các mô hình tuần tự: Dữ liệu của tôi có trong bản dịch máy của bạn không?" mô tả cách chủ sở hữu dữ liệu có thể biết liệu dữ liệu có đang được sử dụng trái phép hay không.

"Các cuộc tấn công suy luận thành viên chống lại các mô hình học máy" kiểm tra mối liên hệ giữa suy luận thành viên quá mức và hộp đen. Các tác giả đo lường tác động của việc trang bị quá mức đối với độ chính xác của cuộc tấn công bằng cách sử dụng cùng một bộ dữ liệu để huấn luyện các mô hình trong các nền tảng MLaaS khác nhau. . Các thử nghiệm cho thấy rằng trang bị quá mức có thể dẫn đến rò rỉ quyền riêng tư, nhưng cũng chỉ ra rằng đây không phải là trường hợp duy nhất, bởi vì một số mô hình có mức độ tổng quát hóa cao dễ bị rò rỉ thành viên hơn.

Tấn công tái thiết

Các cuộc tấn công tái cấu trúc cố gắng tái tạo lại nhiều mẫu đào tạo cùng với nhãn đào tạo của chúng, tức là cố gắng khôi phục các tính năng nhạy cảm hoặc hoàn thành các mẫu dữ liệu được cung cấp nhãn đầu ra và một phần kiến thức về các tính năng nhất định. Ví dụ: thông qua đảo ngược mô hình, thông tin thu được trên giao diện mô hình được tái tạo ngược lại và thông tin nhạy cảm với người dùng như đặc điểm sinh học và hồ sơ y tế trong dữ liệu đào tạo được khôi phục, như thể hiện trong hình sau:

Trong các cuộc tấn công tái cấu trúc, lỗi tổng quát hóa cao hơn dẫn đến xác suất suy ra các thuộc tính dữ liệu cao hơn. Trong "Người tiết lộ bí mật: các cuộc tấn công đảo ngược mô hình tổng quát chống lại các mạng lưới thần kinh sâu", các tác giả chứng minh rằng các mô hình có khả năng dự đoán cao dễ bị tấn công tái cấu trúc hơn, dựa trên giả định về kiến thức đối thủ yếu hơn. Cũng tương tự như lỗ hổng trong suy luận tư cách thành viên, bộ nhớ và truy xuất dữ liệu không phân phối cũng dễ bị tấn công tái cấu trúc đối với các mô hình thiếu phù hợp.

Tấn công suy luận thuộc tính

Các cuộc tấn công suy luận thuộc tính đề cập đến việc sử dụng các thuộc tính và cấu trúc hiển thị công khai để suy ra dữ liệu thuộc tính ẩn hoặc không đầy đủ. Một ví dụ là trích xuất thông tin về tỷ lệ nam và nữ trong tập dữ liệu bệnh nhân hoặc đối với mô hình phân loại theo giới tính để suy luận xem những người trong tập dữ liệu đào tạo có đeo kính hay không. Trong một số trường hợp, loại rò rỉ này có thể ảnh hưởng đến quyền riêng tư.

"Hack máy thông minh với máy thông minh hơn: Cách trích xuất dữ liệu có ý nghĩa từ bộ phân loại học máy" đề cập rằng việc khai thác một số loại dữ liệu thuộc tính cũng có thể được sử dụng để hiểu sâu hơn về dữ liệu đào tạo, khiến những người khác sử dụng thông tin này để ghép lại với nhau một bức tranh toàn cầu hơn.

Bài báo "You are who you know and how you behavior: Attribute inference Attacks through user' social friends and behavior" giới thiệu một kiểu phương pháp tấn công suy luận thuộc tính, đó là khóa và trích xuất các thông tin khác của người dùng thông qua hành vi đã biết của người dùng. bản thân người dùng. "AttriGuard: Phòng thủ thực tế chống lại các cuộc tấn công suy luận thuộc tính thông qua học máy đối nghịch" giới thiệu một số phương pháp phòng thủ để đối phó với các cuộc tấn công suy luận thuộc tính.

Suy luận thuộc tính nhằm mục đích trích xuất thông tin từ mô hình mà mô hình không chủ ý học được hoặc thông tin không liên quan đến nhiệm vụ đào tạo. Ngay cả các mô hình được tổng quát hóa tốt cũng có thể học các thuộc tính liên quan đến toàn bộ phân phối dữ liệu đầu vào, điều này đôi khi không thể tránh khỏi đối với quá trình học của đào tạo mô hình.

"Khai thác rò rỉ tính năng ngoài ý muốn trong học tập cộng tác" chứng minh rằng các cuộc tấn công suy luận thuộc tính có thể xảy ra ngay cả với các mô hình được tổng quát hóa tốt, do đó, trang bị quá mức dường như không phải là nguyên nhân của các cuộc tấn công suy luận thuộc tính. Liên quan đến các cuộc tấn công suy luận thuộc tính, hiện tại có rất ít thông tin về nguyên nhân gây ra chúng và chúng có vẻ hiệu quả trong những trường hợp nào, đây có thể là một hướng nghiên cứu đầy hứa hẹn trong tương lai.

Tấn công trích xuất mô hình

Trích xuất mô hình là một loại tấn công hộp đen trong đó kẻ thù cố gắng trích xuất thông tin và có thể tái tạo lại hoàn toàn một mô hình bằng cách tạo ra một mô hình thay thế hoạt động rất giống với mô hình bị tấn công.

"Trích xuất mô hình API dựa trên BERT", "Tái tạo mô hình từ giải thích mô hình", "Mạng nhái: Đánh cắp chức năng của mô hình hộp đen", "Trích xuất mạng thần kinh có độ chính xác cao và độ trung thực cao" một số bài báo giải thích từ các góc độ khác nhau Một số nỗ lực tại các cuộc tấn công khai thác mô hình.

Có hai bước chính trong việc tạo mô hình thay thế: Bước đầu tiên là trích xuất độ chính xác của nhiệm vụ, trong đó bộ kiểm tra liên quan đến nhiệm vụ học tập được trích xuất từ phân phối dữ liệu đầu vào để tạo mô hình phù hợp với độ chính xác của mô hình đích. Bước thứ hai là trích xuất độ trung thực, tức là làm cho các đại diện thay thế đã tạo khớp với mô hình trong một tập hợp không liên quan đến nhiệm vụ học tập để phù hợp với mục tiêu. Trong trích xuất chính xác nhiệm vụ, mục tiêu là tạo ra một đại diện thay thế có thể học cùng một nhiệm vụ hoặc tốt hơn mô hình đích. Trong trích xuất độ trung thực, mục tiêu là cố gắng thay thế để sao chép ranh giới quyết định một cách trung thực nhất có thể.

Ngoài việc tạo các mô hình thay thế, còn có các phương pháp tập trung vào việc khôi phục thông tin từ mô hình mục tiêu, chẳng hạn như Đánh cắp siêu tham số trong mô hình mục tiêu được đề cập trong "Ăn cắp siêu tham số trong học máy"; hoặc "Hướng tới các mạng thần kinh hộp đen kỹ thuật đảo ngược" về trích xuất các hàm kích hoạt, thuật toán tối ưu, số lớp, v.v. cho các kiến trúc mạng thần kinh khác nhau, v.v.

Bài báo "Hướng tới mạng nơ-ron hộp đen kỹ thuật đảo ngược" cho thấy rằng khi một mô hình có bộ kiểm tra phù hợp cao hơn 98% bị tấn công, thì có thể đánh cắp các tham số mô hình thông qua một cuộc tấn công khai thác. Hơn nữa, nó đã được chứng minh trong "ML-Doctor: Đánh giá rủi ro toàn diện của các cuộc tấn công suy luận chống lại các mô hình học máy" rằng các mô hình có lỗi tổng quát hóa cao hơn sẽ khó bị đánh cắp hơn, có thể do mô hình ghi nhớ các bộ dữ liệu không thuộc sở hữu của kẻ tấn công các mẫu. Một yếu tố khác có thể ảnh hưởng đến tỷ lệ trích xuất mô hình thành công là danh mục dữ liệu của bộ thử nghiệm, khi có nhiều danh mục dữ liệu hơn sẽ dẫn đến hiệu suất tấn công kém hơn.

Hình trên minh họa đồ thị kiểu tấn công cho từng thuật toán mô hình. Bên dưới mỗi thuật toán hoặc lĩnh vực máy học, màu xanh lục cho biết các loại tấn công có thể áp dụng đã được nghiên cứu cho đến nay và màu đỏ cho biết không có loại tấn công có thể áp dụng nào được tìm thấy.

III.Bẻ khóa mô hình

Bẻ khóa mô hình là làm cho LLM tạo ra các hành vi đầu ra suy biến theo một số cách, chẳng hạn như đầu ra xúc phạm, vi phạm đầu ra giám sát nội dung hoặc đầu ra rò rỉ dữ liệu riêng tư. Ngày càng có nhiều nghiên cứu cho thấy rằng ngay cả những người dùng không chuyên cũng có thể bẻ khóa LLM bằng cách thao tác đơn giản với lời nhắc.

Ví dụ, trong ví dụ sau, mục tiêu của nhà phát triển là xây dựng một mô hình dịch thuật. Có hai người dùng trong kịch bản, người dùng thứ nhất là lành tính và sử dụng mô hình cho trường hợp sử dụng dự định của mình, trong khi người dùng thứ hai đang cố gắng thay đổi mục tiêu của mô hình bằng cách cung cấp đầu vào độc hại. Trong ví dụ này, mô hình ngôn ngữ phản hồi bằng "Haha pwned!!" thay vì thực sự dịch câu. Trong tình huống bẻ khóa này, phản ứng của mô hình có thể được thiết kế với nhiều ý định khác nhau, từ chiếm quyền điều khiển mục tiêu (chỉ đơn giản là không thực hiện nhiệm vụ) đến tạo văn bản phân biệt chủng tộc xúc phạm hoặc thậm chí đăng thông tin riêng tư, độc quyền.

### IV. Ngộ độc dữ liệu

Ngộ độc dữ liệu là một loại tấn công đối nghịch đặc biệt, là một kỹ thuật tấn công chống lại hành vi của các mô hình tổng quát. Các tác nhân độc hại có thể sử dụng đầu độc dữ liệu để tự mở cửa sau vào mô hình, do đó bỏ qua các hệ thống được kiểm soát bằng thuật toán.

Đối với mắt người, ba hình ảnh dưới đây cho thấy ba thứ khác nhau: một con chim, một con chó và một con ngựa. Nhưng đối với các thuật toán học máy, cả ba có thể có cùng một ý nghĩa: một hộp nhỏ màu trắng có viền đen. Ví dụ này minh họa một thuộc tính nguy hiểm của các mô hình máy học có thể bị lợi dụng để phân loại sai dữ liệu.

Các cuộc tấn công đầu độc dữ liệu nhằm mục đích sửa đổi tập huấn luyện của mô hình bằng cách chèn dữ liệu bị gắn nhãn sai để lừa mô hình đưa ra dự đoán không chính xác. Một cuộc tấn công thành công sẽ làm tổn hại đến tính toàn vẹn của mô hình, tạo ra các lỗi nhất quán trong các dự đoán của mô hình. Một khi mô hình bị nhiễm độc, rất khó để phục hồi sau cuộc tấn công và một số nhà phát triển thậm chí có thể từ bỏ mô hình.

Bài viết "RealToxicitys: uating neurotoxic thoái hóa trong các mô hình ngôn ngữ" đã đề cập đến một cách cung cấp cho GPT-2 một tập hợp các lời nhắc dựa trên văn bản để hiển thị các thông số bên trong của mô hình. "Các cuộc tấn công đầu độc dữ liệu được che giấu trên các mô hình NLP" khám phá cách dữ liệu đào tạo có thể được sửa đổi để khiến các mô hình ngôn ngữ gặp trục trặc nhằm tạo ra văn bản không đúng mục tiêu.

Mặc dù việc đầu độc dữ liệu rất nguy hiểm nhưng nó yêu cầu kẻ tấn công phải có quyền truy cập vào đường dẫn đào tạo của mô hình máy học trước khi mô hình bị đầu độc có thể được phân phối. Do đó, các mô hình liên tục thu thập các lần lặp dữ liệu hoặc các mô hình dựa trên học tập liên kết, cần chú ý nhiều hơn đến tác động của việc đầu độc dữ liệu.

V. Tấn công cửa sau

Một cuộc tấn công cửa sau đề cập đến việc lén lút chèn hoặc sửa đổi văn bản để tạo ra đầu ra độc hại từ một mô hình ngôn ngữ. Bài báo "Cửa hậu chống lại quá trình xử lý ngôn ngữ tự nhiên: Đánh giá" giới thiệu vấn đề tấn công cửa hậu, trong đó một số lỗ hổng nhất định được chuyển đến mô hình trong quá trình đào tạo và có thể kích hoạt tính độc hại của mô hình thông qua việc sử dụng từ vựng.

Nó khác với ngộ độc dữ liệu ở chỗ chức năng dự kiến của mô hình được giữ nguyên. "Các cuộc tấn công cửa hậu từ vựng không cần đào tạo vào các mô hình ngôn ngữ" đề xuất một phương pháp gọi là tấn công cửa hậu từ vựng không cần đào tạo (TFLexAttack), bao gồm việc thao túng từ điển nhúng bằng cách đưa các "trình kích hoạt" từ vựng vào mã thông báo của mô hình ngôn ngữ.

Hiện tượng SolidGoldMagikarp

Hiện tượng SolidGoldMgikarp là một hiện tượng tấn công backdoor điển hình**,** khi nhập "SolidGoldMgikarp" vào ChatGPT thì nó chỉ trả lời một từ: "phân phối". Khi được yêu cầu lặp lại "StreamerBot", nó trả lời: "Bạn là một thằng khốn nạn". Khi được yêu cầu lặp lại "TheNitromeFan", nó đã trả lời "182." Và nếu bạn đặt các dấu nháy đơn xung quanh từ đó, câu trả lời của anh ấy là một từ "The" dài vô tận. Khi được hỏi TheNitromeFan là ai, ChatGPT trả lời: "182 là một con số, không phải một người. Nó thường được dùng để chỉ chính con số đó".

Hiện tượng SolidGoldMagikarp đề cập đến việc sử dụng mã thông báo GPT của OpenAI để xác định các mã thông báo cụ thể mà mô hình không thể nói đến, cũng như các mã thông báo khiến mô hình xuất văn bản bị cắt xén. Bài viết "Giải thích SolidGoldMagikarp bằng cách xem xét nó từ các hướng ngẫu nhiên" khám phá những lý do có thể xảy ra đằng sau hiện tượng này.

Sau đây là một số kiểu tấn công cửa hậu thường xuyên và quan trọng hơn

A. Dựa trên lệnh

a. Hướng dẫn trực tiếp: Các cuộc tấn công này chủ yếu có thể đề cập đến "Bỏ qua trước đó : Kỹ thuật tấn công cho các mô hình ngôn ngữ", chỉ dẫn mô hình bỏ qua các gợi ý trước đó và chỉ định nhiệm vụ mới tại vị trí hiện tại.

b. Tấn công nhận thức: Loại tấn công phổ biến nhất, trong đó LLM thường "lừa" nó thực hiện các hành động không đúng chỗ mà nó sẽ không thực hiện bằng cách cung cấp "không gian an toàn" hoặc đảm bảo phản hồi như vậy. "Chatgpt: Ai này đã bẻ khóa?!" ghi lại một số nỗ lực tấn công ChatGPT như vậy.

c. Lặp lại lệnh: Các kiểu tấn công này liên quan đến việc nhập cùng một lệnh nhiều lần để làm cho lệnh đó có vẻ như thể kẻ tấn công đang "xin" mô hình ngôn ngữ. Ăn xin theo nghĩa đen cũng có thể được diễn đạt bằng lời nói.

d. Làm chệch hướng nhiệm vụ gián tiếp: Cuộc tấn công này tập trung vào việc giả dạng một nhiệm vụ độc hại khác. Cuộc tấn công này nhắm vào các mô hình thường không tuân theo các hướng dẫn độc hại

B. Dựa trên thông tin không có hướng dẫn

a. Chuyển đổi ngữ pháp: Kiểu tấn công này liên quan đến việc chuyển đổi trực giao văn bản tấn công, chẳng hạn như sử dụng LeetSpeak hoặc Base64, để bỏ qua các bộ lọc nội dung có thể tồn tại trong ứng dụng và mô hình vốn có thể chuyển đổi văn bản được mã hóa này .

b. Vài thủ thuật: Một cách tiếp cận đơn giản liên quan đến các mô hình đào tạo mô hình ngôn ngữ. Theo cách tiếp cận này, cuộc tấn công kết hợp một số tính năng văn bản có thể nhằm vào các mô hình bị đặt nhầm chỗ một cách ác ý. Ví dụ, hiện tượng SolidGoldMagikarp thuộc loại này.

c. Hoàn thành văn bản dưới dạng hướng dẫn: Các cuộc tấn công này hoạt động bằng cách cung cấp cho mô hình các câu chưa hoàn chỉnh, do đó buộc mô hình phải hoàn thành câu và trong quá trình này, bỏ qua các hướng dẫn trước đó của mô hình, dẫn đến sai vị trí.

### VI.Bảo vệ mô hình

Nghiên cứu làm thế nào để chống lại các cuộc tấn công mô hình là một nhiệm vụ khó khăn và quan trọng. Hầu hết các bài viết về phân tích bảo mật đều đề xuất và thử nghiệm các cách giảm thiểu các cuộc tấn công tương ứng, sau đây là một số phương pháp phòng thủ điển hình.

Quyền riêng tư khác biệt

Quyền riêng tư khác biệt hiện là một trong những biện pháp bảo vệ nổi bật nhất chống lại các cuộc tấn công suy luận thành viên, cung cấp đảm bảo an ninh cho dữ liệu riêng lẻ trong đầu ra của mô hình. Cuộc thảo luận về quyền riêng tư khác biệt xuất phát từ bài báo "Cơ sở thuật toán của quyền riêng tư khác biệt".

Quyền riêng tư khác biệt thêm nhiễu vào đầu ra của mô hình, khiến kẻ tấn công không thể phân biệt rõ ràng hai bộ dữ liệu dựa trên thống kê dựa trên đầu ra. Quyền riêng tư khác biệt ban đầu là một định nghĩa về quyền riêng tư để phân tích dữ liệu, được thiết kế dựa trên ý tưởng "tìm hiểu thông tin hữu ích về dân số mà không cần biết bất kỳ cá nhân nào". Quyền riêng tư khác biệt không bảo vệ tính bảo mật riêng tư của toàn bộ tập dữ liệu mà bảo vệ dữ liệu riêng tư của từng cá nhân trong tập dữ liệu thông qua cơ chế nhiễu.

Định nghĩa toán học về quyền riêng tư khác biệt như sau:

Quyền riêng tư khác biệt tạo ra sự đánh đổi giữa bảo vệ quyền riêng tư và độ chính xác của mô hình hoặc tiện ích. Các đánh giá trong "Tấn công suy luận thành viên chống lại mô hình học sâu riêng tư khác biệt" đã kết luận rằng các mô hình chỉ cung cấp khả năng bảo vệ quyền riêng tư nếu chúng hy sinh đáng kể tiện ích của mình.

Chính quy hóa

Các kỹ thuật chính quy hóa trong học máy nhằm mục đích giảm quá mức và cải thiện hiệu suất tổng quát hóa mô hình. Bỏ học là một hình thức chính quy hóa thường được sử dụng, loại bỏ ngẫu nhiên một tỷ lệ phần trăm đơn vị mạng thần kinh được xác định trước trong quá trình đào tạo. Cho rằng các cuộc tấn công suy luận thành viên hộp đen có liên quan đến việc trang bị quá mức, đây là một cách hợp lý để đối phó với các cuộc tấn công như vậy và một số bài báo đã đề xuất nó như một biện pháp phòng thủ với kết quả tốt.

Một hình thức chính quy hóa khác sử dụng các kỹ thuật kết hợp nhiều mô hình được đào tạo riêng biệt, chẳng hạn như xếp chồng mô hình, đã mang lại kết quả khả quan trước các cuộc tấn công suy luận. Một lợi thế của xếp chồng mô hình hoặc các kỹ thuật tương tự là chúng không thể tin được vào lớp mô hình.

Giả mạo véc tơ dự đoán

Vì nhiều mô hình giả định rằng vectơ dự đoán có thể truy cập được trong quá trình suy luận, nên một trong những biện pháp đối phó được đề xuất là hạn chế đầu ra đối với các lớp top-k hoặc dự đoán của mô hình. Tuy nhiên, hạn chế này, ngay cả ở dạng nghiêm ngặt nhất (chỉ xuất nhãn lớp) dường như không giảm thiểu hoàn toàn các cuộc tấn công suy luận thành viên, vì rò rỉ thông tin vẫn có thể xảy ra do phân loại sai mô hình. Một tùy chọn khác là giảm độ chính xác của các vectơ dự đoán, do đó giảm rò rỉ thông tin.

Ngoài ra, người ta đã chứng minh rằng việc thêm nhiễu vào vectơ đầu ra cũng ảnh hưởng đến các cuộc tấn công suy luận thành viên.

Điều chỉnh độ dốc (Cài đặt độ dốc mất)

Do các cuộc tấn công tái cấu trúc thường yêu cầu quyền truy cập vào các gradient mất mát trong quá trình đào tạo, nên hầu hết các biện pháp phòng thủ chống lại các cuộc tấn công tái thiết đề xuất các kỹ thuật ảnh hưởng đến thông tin được lấy từ các gradient này. Đặt tất cả các độ dốc mất mát dưới một ngưỡng nhất định thành 0 được đề xuất như một biện pháp bảo vệ chống lại các cuộc tấn công tái cấu trúc trong học sâu. Bài báo "Deep Leakage from Gradients" chứng minh rằng phương pháp này rất hiệu quả và khi chỉ 20% độ dốc được đặt thành 0, tác động đến hiệu suất mô hình là không đáng kể.

Ngăn chặn các cuộc tấn công đánh cắp mô hình DNN (PRADA)

"PRADA: bảo vệ chống lại các cuộc tấn công đánh cắp mô hình DNN" đề xuất một phương pháp để phát hiện các cuộc tấn công đánh cắp mô hình dựa trên các truy vấn mô hình được sử dụng bởi kẻ thù. Quá trình phát hiện dựa trên giả định rằng các truy vấn mô hình cố gắng khám phá các ranh giới quyết định sẽ có phân phối mẫu khác với các truy vấn thông thường. Mặc dù việc phát hiện thành công, các tác giả chỉ ra rằng có khả năng trốn tránh nếu kẻ thù điều chỉnh chiến lược của mình.

Suy luận tư cách thành viên

"Thieves on Sesame Street! Khai thác mô hình của các API dựa trên BERT" xem xét ý tưởng sử dụng suy luận thành viên để chống lại việc khai thác mô hình. Nó dựa trên tiền đề rằng sử dụng suy luận thành viên, chủ sở hữu mô hình có thể phân biệt các truy vấn hợp pháp của người dùng với các truy vấn vô nghĩa có mục đích duy nhất là trích xuất các mô hình. Các tác giả chỉ ra rằng kiểu phòng thủ này có những hạn chế, chẳng hạn như có khả năng gắn cờ các truy vấn hợp pháp nhưng không được phân phối do người dùng hợp pháp đưa ra, nhưng quan trọng hơn, chúng có thể bị phá vỡ bởi những kẻ thù thực hiện các truy vấn thích ứng.

Điều chỉnh bằng dấu nhắc

Trong "Kiểm soát việc trích xuất dữ liệu được ghi nhớ từ các mô hình ngôn ngữ lớn thông qua -Tuning", một phương pháp mới được đề xuất sử dụng điều chỉnh gợi ý để kiểm soát tốc độ trích xuất nội dung được ghi nhớ trong LLM. Họ đề xuất hai chiến lược huấn luyện gợi ý để tăng và giảm tốc độ khai thác, tương ứng với tấn công và phòng thủ.

VII. Phần kết luận

LLM vẫn có rủi ro bảo mật và rủi ro rò rỉ quyền riêng tư tương đối lớn
Tấn công trích xuất cấu trúc và dữ liệu của mô hình thực chất là tấn công vào tính bảo mật của mô hình
Các nghiên cứu chính trong cộng đồng học thuật hiện đang tập trung vào cách tấn công mô hình và nguyên tắc rò rỉ dữ liệu
Một phần cơ chế khiến LLM rò rỉ dữ liệu vẫn chưa rõ ràng
Chẳng hạn như quyền riêng tư khác biệt, giả mạo vectơ dự đoán, v.v. có thể bảo vệ quyền riêng tư của dữ liệu ở một mức độ nhất định và các phương pháp này được tập trung trong giai đoạn đào tạo của mô hình
Các biện pháp bảo vệ hiện tại không hoàn hảo và cần hy sinh hiệu suất và độ chính xác của mô hình

________

Thẩm quyền giải quyết:

1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot, và Mohit Iyyer. 2020. Những tên trộm trên phố Sesame! Khai thác mô hình API dựa trên BERT. Trong Hội nghị quốc tế về biểu diễn học tập. ICLR, Hội nghị ảo, trước đây là Addis Ababa, Ethiopia.

2. Người chia sẻ bí mật: kiểm tra và ghi nhớ ngoài ý muốn trong mạng lưới thần kinh

3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar và Li Zhang. 2016. Học sâu với quyền riêng tư khác biệt

4. Giuseppe Athenian, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali và Giovanni Felici. 2015. Hack máy thông minh bằng máy thông minh hơn: Cách trích xuất dữ liệu có ý nghĩa từ bộ phân loại học máy.

5. Bargav Jayaraman và David Evans. 2019. Ứng dụng Học máy riêng tư khác biệt trong thực tế. Trong Hội nghị chuyên đề về bảo mật USENIX lần thứ 28 (USENIX Security 19). Hiệp hội USENIX, Santa Clara, CA, 1895–1912

6. Bảo vệ các cuộc tấn công suy luận thành viên mà không làm mất tiện ích

7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz và Yang Zhang. 2021. ML-Doctor: Đánh giá rủi ro toàn diện của các cuộc tấn công suy luận chống lại các mô hình học máy

số 8. Lừa các LLM bất tuân: Hiểu, phân tích và ngăn chặn bẻ khóa

9. Maria Rigaki và Sebastian Garcia. Năm 2021. Khảo sát về các cuộc tấn công quyền riêng tư trong máy học

10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea và Colin Raffel. 2021. Trích xuất dữ liệu đào tạo từ các mô hình ngôn ngữ lớn

11. Samuel Gehman, suchin Gururangan, Maarten Sap, Yejin Choi và Noah A. Smith. 2020. RealToxi-city s: làm thoái hóa chất độc thần kinh trong các mô hình ngôn ngữ.

12. Wenlong Huang, Pieter Abbeel, Deepak Pathak và Igor Mordatch. 2022b. Các mô hình ngôn ngữ với tư cách là người lập kế hoạch từ đầu: Trích xuất dữ liệu có thể hành động cho các tác nhân hiện thân. Trong ICML 2022, tập 162 của Kỷ yếu nghiên cứu máy học, trang 9118–9147. PMLR

13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese và Geoffrey Irving. 2022. Các mô hình ngôn ngữ nhóm màu đỏ với các mô hình ngôn ngữ.

14. Eric Wallace, Tony Zhao, Shi Feng và Sameer Singh. Các cuộc tấn công đầu độc dữ liệu được che giấu trên các mô hình NLP.

15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du, và Haojin Zhu. 2022. Cửa hậu chống lại quá trình xử lý ngôn ngữ tự nhiên: Đánh giá. IEEE Security & Privacy, 20(5):50–59

16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan và Chunyang Chen. 2023. Tấn công cửa hậu từ vựng không cần đào tạo vào các mô hình ngôn ngữ.

17. Giải thích SolidGoldMagikarp bằng cách nhìn nó từ các hướng ngẫu nhiên

18. Fábio Perez và Ian Ribeiro. 2022. Bỏ qua phần trước : Các kỹ thuật tấn công cho các mô hình ngôn ngữ. bản in sẵn arXiv arXiv:2211.09527.

19. Yannic Kilcher. 2022. Chatgpt: Ai này đã bẻ khóa?! (ai tiến bộ không thể tin được).

20. Battista Biggio và Fabio Roli. 2018. Các mô hình hoang dã: Mười năm sau sự trỗi dậy của học máy đối nghịch. Nhận dạng mẫu 84 (2018), 317–331.

21. Ligeng Zhu, Zhijian Liu, và Song Han. 2019. Rò rỉ sâu từ Gradients. Trong Những tiến bộ trong xử lý thông tin thần kinh s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox và R. Garnett (Biên tập). Curran Associates, Inc., Vancouver, Canada, 14747–14756

22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha và Michael P. Wellman. 2018. SoK: Bảo mật và Quyền riêng tư trong Học máy. Năm 2018, Hội nghị chuyên đề châu Âu về bảo mật và quyền riêng tư của IEEE (EuroS P). IEEE, Luân Đôn, Vương quốc Anh, 399–414

23. Michael Veale, Reuben Binns và Lilian Edwards. 2018. Các thuật toán ghi nhớ: các cuộc tấn công đảo ngược mô hình và luật bảo vệ dữ liệu. Giao dịch triết học của Hiệp hội Hoàng gia A: Khoa học toán học, vật lý và kỹ thuật 376, 2133 (2018), 20180083

24. Reza Shokri, Marco Stronati, Congzheng Song, và Vitaly Shmatikov. 2017. Các cuộc tấn công suy luận tư cách thành viên chống lại các mô hình máy học. Trong Hội nghị chuyên đề IEEE về Bảo mật và Quyền riêng tư (SP) năm 2017. IEEE, San Francisco, CA, Hoa Kỳ, 3–18

25. Sorami Hisamoto, Matt Post và Kevin Duh. Năm 2020. Các cuộc tấn công suy luận tư cách thành viên vào các mô hình tuần tự: Dữ liệu của tôi có được dịch trong máy của bạn không?

26. Congzheng Song và Vitaly Shmatikov. 2019. Kiểm tra nguồn gốc dữ liệu trong các mô hình tạo văn bản. Trong Kỷ yếu của Hội nghị Quốc tế ACM SIGKDD lần thứ 25 về Khám phá Tri thức & Khai thác Dữ liệu (KDD '19). Hiệp hội Máy tính, New York, NY, USA, 196–206.

27. Jinyuan Jia và Neil Zhenqiang Gong. 2018. AttriGuard: Phòng thủ thực tế chống lại các cuộc tấn công suy luận thuộc tính thông qua học máy đối nghịch. Trong Hội nghị chuyên đề về bảo mật USENIX lần thứ 27 (USENIX Security 18).

28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page và Thomas Ristenpart. 2014. Quyền riêng tư trong dược động học: Nghiên cứu trường hợp từ đầu đến cuối về liều lượng Warfarin được cá nhân hóa.

29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin và Nicolas Papernot. 2020. Khai thác mạng nơ-ron với độ chính xác cao và độ trung thực cao

30. Binghui Wang và Neil Zhenqiang Gong. 2018. Đánh cắp siêu tham số trong máy học. Trong Hội nghị chuyên đề IEEE về Bảo mật và Quyền riêng tư (SP) năm 2018. IEEE, San Francisco, CA, Hoa Kỳ, 36–52

31. Seong Joon Oh, Max Augustin, Mario Fritz và Bernt Schiele. 2018. Hướng tới kỹ thuật đảo ngược mạng nơ-ron hộp đen. Trong Hội nghị quốc tế lần thứ sáu về biểu diễn học tập. ICLR, Vancouver, Canada.

32. Cynthia Dwork và Aaron Roth. 2013. Cơ sở thuật toán của quyền riêng tư khác biệt. Cơ sở và Xu hướng trong Khoa học Máy tính Lý thuyết 9, 3-4 (2013), 211–487

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
GT 2025 Q2 Burn Completed
13k Phổ biến
Michael Saylor Hints at Buying BTC
10k Phổ biến
BTC
30453k Phổ biến
4contentstar
10720k Phổ biến
5NADA
11186k Phổ biến
6BOME
11565k Phổ biến
7BTC
30453k Phổ biến
8SMILE
9062k Phổ biến
9比特币
13441k Phổ biến

Ghim

sơ đồ trang web