**Khi AI phát triển với tốc độ không tưởng, chắc chắn sẽ làm dấy lên mối lo ngại về một "lưỡi kiếm" khác của thanh kiếm AI - lòng tin. **Đầu tiên là quyền riêng tư: trong thời đại AI, làm sao con người có thể tin tưởng AI từ góc độ quyền riêng tư dữ liệu? Có lẽ tính minh bạch của mô hình AI là chìa khóa gây lo lắng: khả năng xuất hiện như một mô hình ngôn ngữ quy mô lớn tương đương với một "hộp đen" công nghệ không thể xuyên thủng đối với con người và người dùng bình thường không thể hiểu mô hình hoạt động như thế nào và kết quả của hoạt động Và làm thế nào để có được nó - điều rắc rối hơn là với tư cách là người dùng, bạn có thể không biết liệu mô hình AI do nhà cung cấp dịch vụ cung cấp có hoạt động như đã hứa hay không. Đặc biệt khi áp dụng các thuật toán và mô hình AI trên một số dữ liệu nhạy cảm như y tế, tài chính, ứng dụng Internet, v.v., mô hình AI có thiên vị (hoặc thậm chí có ý đồ xấu) hay nhà cung cấp dịch vụ chạy mô hình đó (và các yếu tố liên quan). thông số) chính xác như đã hứa, đã trở thành vấn đề được người dùng quan tâm nhất. Công nghệ bằng chứng không kiến thức có một giải pháp được nhắm mục tiêu về vấn đề này, do đó, máy học không kiến thức (ZKML) đã trở thành hướng phát triển mới nhất.
**Xem xét toàn diện về tính toàn vẹn của máy tính, tối ưu hóa kinh nghiệm và quyền riêng tư, sự kết hợp giữa bằng chứng không kiến thức và AI, máy học không kiến thức (Zero-Knowledge Machine Learning, ZKML) ra đời. **Trong thời đại mà nội dung do AI tạo ra ngày càng gần với nội dung do con người tạo ra, các đặc điểm kỹ thuật của bằng chứng bí mật không có kiến thức có thể giúp chúng tôi xác định rằng nội dung cụ thể được tạo ra thông qua một mô hình cụ thể. Để bảo vệ quyền riêng tư, công nghệ bằng chứng không kiến thức đặc biệt quan trọng, nghĩa là bằng chứng và xác minh có thể được hoàn thành mà không tiết lộ đầu vào dữ liệu người dùng hoặc chi tiết cụ thể của mô hình.
**Năm cách chứng minh không kiến thức được áp dụng cho máy học: tính toàn vẹn của máy tính, tính toàn vẹn của mô hình, xác minh, đào tạo phân tán và xác thực. **Sự phát triển nhanh chóng gần đây của các mô hình ngôn ngữ quy mô lớn (LLM) cho thấy các mô hình này ngày càng trở nên thông minh hơn và các mô hình này hoàn thiện giao diện quan trọng giữa thuật toán và con người: ngôn ngữ. Xu hướng của trí tuệ nhân tạo nói chung (AGI) đã không thể bị ngăn cản, nhưng đánh giá từ kết quả đào tạo mô hình hiện tại, AI có thể bắt chước hoàn hảo con người có năng lực cao trong các tương tác kỹ thuật số—và vượt qua con người với tốc độ không thể tưởng tượng được trong quá trình tiến hóa nhanh chóng. Trình độ của con người đã ngạc nhiên trước tốc độ tiến hóa này, và thậm chí lo lắng về việc bị AI nhanh chóng thay thế.
**Các nhà phát triển cộng đồng sử dụng ZKML để xác minh chức năng đề xuất của Twitter, đây là chức năng mang tính hướng dẫn. **Tính năng đề xuất "Dành cho bạn" của Twitter sử dụng thuật toán đề xuất AI để chắt lọc khoảng 500 triệu tweet được đăng mỗi ngày thành một số ít tweet phổ biến, những tweet này cuối cùng sẽ được hiển thị trên dòng thời gian của trang chủ của người dùng. Vào cuối tháng 3 năm 2023, Twitter đã mã nguồn mở thuật toán, nhưng do chi tiết của mô hình chưa được công khai nên người dùng vẫn không thể xác minh xem thuật toán có chạy chính xác và đầy đủ hay không. Nhà phát triển cộng đồng Daniel Kang và những người khác sử dụng các công cụ mã hóa ZK-SNARK để kiểm tra xem thuật toán đề xuất Twitter có đúng và chạy hoàn toàn mà không tiết lộ chi tiết thuật toán hay không - đây là điểm hấp dẫn nhất của bằng chứng không kiến thức, tức là không tiết lộ bất kỳ thông tin cụ thể nào về đối tượng Chứng minh độ tin cậy của thông tin dựa trên tiền đề của thông tin (không có kiến thức). Lý tưởng nhất là Twitter có thể sử dụng ZK-SNARKS để xuất bản bằng chứng về mô hình xếp hạng của mình — bằng chứng rằng khi mô hình được áp dụng cho người dùng và tweet cụ thể, nó sẽ tạo ra xếp hạng đầu ra cuối cùng cụ thể. Chứng thực này là cơ sở cho độ tin cậy của mô hình: người dùng có thể xác minh rằng việc tính toán thuật toán mẫu thực hiện như đã hứa - hoặc gửi nó cho bên thứ ba để kiểm tra. Tất cả điều này được thực hiện mà không tiết lộ chi tiết về trọng số tham số mô hình. Điều đó có nghĩa là, bằng cách sử dụng bằng chứng mô hình được công bố chính thức, người dùng sử dụng bằng chứng để xác minh rằng tweet cụ thể đang hoạt động trung thực như mô hình đã hứa đối với các tweet có vấn đề cụ thể.
1. Ý tưởng cốt lõi
Khi AI phát triển với tốc độ ngoài sức tưởng tượng, chắc chắn sẽ làm dấy lên mối lo ngại về một “lưỡi kiếm” khác của thanh kiếm AI - lòng tin. Đầu tiên là quyền riêng tư: trong thời đại của AI, làm sao con người có thể tin tưởng AI từ góc độ quyền riêng tư? Có lẽ tính minh bạch của mô hình AI là chìa khóa gây lo lắng: khả năng xuất hiện như một mô hình ngôn ngữ quy mô lớn tương đương với một "hộp đen" công nghệ không thể xuyên thủng đối với con người và người dùng bình thường không thể hiểu mô hình hoạt động như thế nào và kết quả của hoạt động Và làm thế nào để có được nó (bản thân mô hình chứa đầy những khả năng khó hiểu hoặc có thể dự đoán được) - điều rắc rối hơn là với tư cách là người dùng, bạn có thể không biết liệu mô hình AI do nhà cung cấp dịch vụ cung cấp có hoạt động như đã hứa hay không . Đặc biệt là khi áp dụng các thuật toán và mô hình AI trên một số dữ liệu nhạy cảm, chẳng hạn như chăm sóc y tế, tài chính, ứng dụng Internet, v.v., liệu mô hình AI có thiên vị (hoặc thậm chí có ý đồ xấu) hay nhà cung cấp dịch vụ có chạy mô hình đó hay không (và thông số liên quan) chính xác như cam kết đã trở thành vấn đề được người dùng quan tâm nhất.
Công nghệ bằng chứng không kiến thức có một giải pháp được nhắm mục tiêu về vấn đề này, do đó, máy học không kiến thức (ZKML) đã trở thành hướng phát triển mới nhất. Bài viết này thảo luận về các đặc điểm của công nghệ ZKML, các kịch bản ứng dụng tiềm năng và một số trường hợp truyền cảm hứng, đồng thời nghiên cứu và xây dựng hướng phát triển của ZKML cũng như tác động công nghiệp có thể có của nó.
**2. "Mặt khác" của thanh kiếm AI: làm thế nào để tin tưởng vào AI? **
Khả năng của trí tuệ nhân tạo đang nhanh chóng tiếp cận khả năng của con người và đã vượt qua con người trong nhiều lĩnh vực thích hợp. Sự phát triển nhanh chóng gần đây của các mô hình ngôn ngữ lớn (LLM) cho thấy rằng các mô hình này đang ngày càng trở nên thông minh hơn và các mô hình này tinh chỉnh một giao diện quan trọng giữa thuật toán và con người: ngôn ngữ. Xu hướng của trí tuệ nhân tạo nói chung (AGI) đã không thể bị ngăn cản, nhưng đánh giá từ kết quả đào tạo mô hình hiện tại, AI hoàn toàn có thể bắt chước con người có năng lực cao trong các tương tác kỹ thuật số—và vượt qua con người với tốc độ không thể tưởng tượng được ở cấp độ tiến hóa nhanh chóng. Gần đây, mô hình ngôn ngữ đã đạt được những tiến bộ đáng kể. Các sản phẩm do ChatGPT đại diện đã hoạt động đáng kinh ngạc, đạt hơn 20% khả năng của con người trong hầu hết các đánh giá thông thường. Khi so sánh GPT-3.5 và GPT-4, chỉ cách nhau vài tháng, Con người đã tạo ra phải kinh ngạc trước tốc độ tiến hóa này. Nhưng mặt khác là mối lo ngại về khả năng mất kiểm soát của AI.
** Đầu tiên là khía cạnh riêng tư. **Trong thời đại AI, với sự phát triển của các công nghệ như nhận diện khuôn mặt, người dùng luôn lo lắng về nguy cơ rò rỉ dữ liệu khi trải nghiệm các dịch vụ AI. Điều này đã mang lại những trở ngại nhất định cho việc thúc đẩy và phát triển AI - làm thế nào để tin tưởng AI từ góc độ quyền riêng tư?
**Có lẽ tính minh bạch của các mô hình AI là chìa khóa cần quan tâm hơn. ** Khả năng xuất hiện tương tự như các mô hình ngôn ngữ quy mô lớn tương đương với một "hộp đen" công nghệ bất khả xâm phạm đối với con người, người dùng phổ thông không thể hiểu mô hình hoạt động như thế nào và kết quả thu được như thế nào (bản thân mô hình đã chứa đầy Khả năng đó là khó hiểu hoặc dự đoán) - rắc rối hơn, vì người dùng có thể không biết liệu mô hình AI do nhà cung cấp dịch vụ cung cấp có hoạt động như đã hứa hay không. Đặc biệt là khi áp dụng các thuật toán và mô hình AI trên một số dữ liệu nhạy cảm, chẳng hạn như chăm sóc y tế, tài chính, ứng dụng Internet, v.v., liệu mô hình AI có thiên vị (hoặc thậm chí có ý đồ xấu) hay nhà cung cấp dịch vụ có chạy mô hình đó hay không (và thông số liên quan) chính xác như cam kết đã trở thành vấn đề được người dùng quan tâm nhất. Ví dụ: nền tảng ứng dụng xã hội có đưa ra các đề xuất phù hợp theo thuật toán "đối xử bình đẳng" không? Khuyến nghị từ thuật toán AI của nhà cung cấp dịch vụ tài chính có chính xác và đầy đủ như đã hứa? Có sự tiêu thụ không cần thiết trong kế hoạch dịch vụ y tế do AI khuyến nghị không? Các nhà cung cấp dịch vụ có chấp nhận kiểm toán các mô hình AI không?
Nói một cách đơn giản, một mặt người dùng không biết thực trạng của mô hình AI do nhà cung cấp dịch vụ cung cấp, đồng thời họ rất lo lắng rằng mô hình đó không “phân biệt đối xử”. được coi là bao gồm một số yếu tố thiên vị hoặc định hướng khác, sẽ mang lại sự mất mát hoặc tác động tiêu cực cho người dùng.
Mặt khác, tốc độ tự tiến hóa của AI dường như ngày càng khó đoán hơn và mô hình thuật toán AI ngày càng mạnh mẽ dường như ngày càng vượt quá khả năng kiểm soát của con người,** nên vấn đề niềm tin lại trở thành vấn đề khác. “cạnh” thanh gươm sắc bén của AI”. **
Cần phải thiết lập niềm tin của người dùng vào AI từ các khía cạnh bảo mật dữ liệu, tính minh bạch của mô hình và khả năng kiểm soát của mô hình. Người dùng cần phải lo lắng về vấn đề bảo vệ quyền riêng tư và liệu mô hình thuật toán có chạy chính xác và đầy đủ như đã hứa hay không, tuy nhiên, đây không phải là một nhiệm vụ dễ dàng. mặt khác, bản thân sự phát triển của mô hình thuật toán không dễ kiểm soát và tính không kiểm soát này cũng cần được xem xét.
Từ góc độ bảo vệ quyền riêng tư dữ liệu người dùng, chúng tôi cũng đã thực hiện rất nhiều nghiên cứu trong các báo cáo trước đây của mình như "AI và các yếu tố dữ liệu được thúc đẩy bởi Web3.0: Tính mở, bảo mật và quyền riêng tư". Một số ứng dụng của Web3.0 rất truyền cảm hứng về vấn đề này— — Tức là, việc đào tạo mô hình AI được thực hiện với tiền đề xác nhận hoàn chỉnh dữ liệu người dùng và bảo vệ quyền riêng tư của dữ liệu.
Tuy nhiên, thị trường hiện tại bị choáng ngợp bởi hiệu suất tuyệt vời của các mô hình lớn như Chatgpt và chưa xem xét các vấn đề về quyền riêng tư của chính mô hình, các vấn đề về niềm tin của mô hình (và niềm tin do không kiểm soát được) do sự phát triển mang lại. về đặc điểm “mới nổi” của thuật toán, nhưng ở một cấp độ khác, người dùng luôn hoài nghi về sự vận hành chính xác, đầy đủ và trung thực của cái gọi là mô hình thuật toán. Vì vậy, vấn đề niềm tin của AI cần được giải quyết từ ba cấp độ là người dùng, nhà cung cấp dịch vụ và tính không kiểm soát được của mô hình.
3. ZKML: Sự kết hợp giữa bằng chứng không kiến thức và AI mang lại sự tin cậy
3.1. Bằng chứng không kiến thức: zk-SNARKS, zk-STARK và các công nghệ khác đang hoàn thiện
Bằng chứng không kiến thức (Zero Knowledge Proof, ZKP) lần đầu tiên được đề xuất bởi Shafi Goldwasser và Silvio Micali của MIT trong một bài báo có tiêu đề "Sự phức tạp về kiến thức của các hệ thống bằng chứng tương tác" vào năm 1985. Tác giả đã đề cập trong bài báo rằng người chứng minh có thể thuyết phục người xác minh về tính xác thực của dữ liệu mà không cần tiết lộ dữ liệu cụ thể. Hàm công khai f(x) và giá trị đầu ra y của một hàm, Alice nói với Bob rằng cô ấy biết giá trị của x, nhưng Bob không tin điều đó. Để làm điều này, Alice sử dụng thuật toán bằng chứng không có kiến thức để tạo bằng chứng. Bob kiểm tra bằng chứng này để xác nhận xem Alice có thực sự biết x thỏa mãn hàm f hay không.
Ví dụ: bằng cách sử dụng bằng chứng không có kiến thức, bạn không cần biết điểm kiểm tra của Xiaoming, nhưng bạn có thể biết liệu điểm của anh ấy có đáp ứng yêu cầu của người dùng hay không—chẳng hạn như anh ấy có đậu hay không, tỷ lệ điền đúng vào chỗ trống có vượt quá hay không. 60%, v.v. Trong lĩnh vực AI, kết hợp với bằng chứng không kiến thức, bạn có thể có một công cụ đáng tin cậy cho các mô hình AI.
Bằng chứng không kiến thức có thể tương tác, nghĩa là người chứng minh phải chứng minh tính xác thực của dữ liệu một lần cho từng người xác minh; nó cũng có thể không tương tác, nghĩa là người chứng minh tạo ra một bằng chứng và bất kỳ ai sử dụng bằng chứng này đều có thể được xác minh.
Kiến thức bằng không được chia thành bằng chứng và xác minh. Nói chung, bằng chứng là bán tuyến tính, tức là xác minh là T*log(T).
Giả sử rằng thời gian xác minh là bình phương logarit của số lượng giao dịch, thì thời gian xác minh máy cho một khối 10.000 giao dịch là
VTime = ( )2 ~ (13.2)2 ~ 177 ms; hiện tăng kích thước khối lên hàng trăm lần (lên 1 triệu tx/khối), thời gian chạy mới của trình xác thực là VTime = (log2 1000000)2 ~ 202 ~ 400 mili giây . Do đó, chúng ta có thể thấy khả năng siêu mở rộng của nó, đó là lý do tại sao về mặt lý thuyết, tps có thể đạt đến mức không giới hạn.
**Việc xác minh diễn ra rất nhanh và tất cả khó khăn nằm ở phần tạo bằng chứng. **Miễn là tốc độ tạo bằng chứng có thể theo kịp, thì việc xác minh trên chuỗi rất đơn giản. Hiện tại có nhiều triển khai bằng chứng không kiến thức, chẳng hạn như zk-SNARKS, zk-STARKS, PLONK và Bulletproofs. Mỗi phương pháp đều có những ưu điểm và nhược điểm riêng về quy mô bằng chứng, thời gian chứng minh và thời gian xác minh.
Bằng chứng không kiến thức càng phức tạp và càng lớn thì hiệu suất càng cao và thời gian cần thiết để xác minh càng ngắn. Như thể hiện trong hình bên dưới, STARK và Bulletproofs không yêu cầu cài đặt đáng tin cậy. Khi lượng dữ liệu giao dịch tăng từ 1TX lên 10.000TX, kích thước của bằng chứng sau này thậm chí còn tăng ít hơn. Ưu điểm của Bulletproofs là kích thước của bằng chứng là phép biến đổi logarit (ngay cả khi f và x lớn), có thể lưu trữ bằng chứng trong khối, nhưng độ phức tạp tính toán của việc xác minh nó là tuyến tính. Có thể thấy rằng các thuật toán khác nhau có nhiều điểm chính cần được cân nhắc và cũng có rất nhiều chỗ để nâng cấp, tuy nhiên, trong quá trình vận hành thực tế, khó khăn trong việc tạo ra bằng chứng lớn hơn nhiều so với tưởng tượng. bây giờ cam kết giải quyết vấn đề tạo bằng chứng.
Mặc dù sự phát triển của công nghệ bằng chứng không kiến thức là không đủ để phù hợp với quy mô của một mô hình ngôn ngữ lớn (LLM), nhưng việc triển khai kỹ thuật của nó có các kịch bản ứng dụng đầy cảm hứng. Đặc biệt là trong quá trình phát triển con dao hai lưỡi của AI, bằng chứng không kiến thức cung cấp một giải pháp đáng tin cậy cho sự tin tưởng của AI.
3.2. Zero Knowledge Machine Learning (ZKML): Trí tuệ nhân tạo đáng tin cậy
Trong thời đại mà nội dung do AI tạo ra ngày càng gần với nội dung do con người tạo ra, các đặc điểm kỹ thuật của bằng chứng bí mật không có kiến thức có thể giúp chúng tôi xác định rằng nội dung cụ thể được tạo ra bằng cách áp dụng một mô hình cụ thể. Để bảo vệ quyền riêng tư, công nghệ bằng chứng không kiến thức đặc biệt quan trọng, nghĩa là bằng chứng và xác minh có thể được hoàn thành mà không tiết lộ đầu vào dữ liệu người dùng hoặc chi tiết cụ thể của mô hình. Xem xét tính toàn vẹn của điện toán, tối ưu hóa heuristic và quyền riêng tư, sự kết hợp giữa bằng chứng không kiến thức và AI, máy học không kiến thức (Zero-Knowledge Machine Learning, ZKML) ra đời.
Dưới đây là năm cách có thể áp dụng bằng chứng không kiến thức cho học máy. Ngoài các chức năng cơ bản như tính toàn vẹn của tính toán, tính toàn vẹn của mô hình và quyền riêng tư của người dùng, máy học không kiến thức cũng có thể mang lại đào tạo phân tán - điều này sẽ thúc đẩy sự tích hợp của AI và chuỗi khối cũng như nhận dạng con người trong rừng AI (Phần này có thể được tìm thấy trong báo cáo của chúng tôi "Tầm nhìn Web3 của người sáng lập OpenAI: Worldcoin tạo hộ chiếu kỹ thuật số AI").
Nhu cầu về sức mạnh tính toán của mô hình AI lớn là rõ ràng đối với tất cả mọi người, tại thời điểm này, bằng cách xen kẽ các bằng chứng ZK vào các ứng dụng AI, các yêu cầu mới được đặt ra đối với sức mạnh tính toán của phần cứng. Công nghệ hiện đại nhất đối với các hệ thống không kiến thức kết hợp với phần cứng hiệu suất cao vẫn không thể chứng minh bất cứ điều gì lớn như các mô hình ngôn ngữ lớn (LLM) hiện có, nhưng một số tiến bộ đã đạt được trong việc tạo ra các bằng chứng cho các mô hình nhỏ hơn. Theo nhóm Modulus Labs, hệ thống bằng chứng ZK hiện tại đã được thử nghiệm trên nhiều mẫu có kích cỡ khác nhau. Các hệ thống bằng chứng như plonky2 có thể chạy trong khoảng 50 giây trên máy AWS mạnh mẽ để tạo bằng chứng cho các mô hình có quy mô khoảng 18 triệu tham số.
Về phần cứng, các tùy chọn phần cứng hiện tại cho công nghệ ZK bao gồm GPU, FPGA hoặc ASIC. Cần lưu ý rằng bằng chứng không kiến thức vẫn đang trong giai đoạn phát triển ban đầu, vẫn còn ít tiêu chuẩn hóa và thuật toán liên tục được cập nhật và thay đổi. Mỗi thuật toán có những đặc điểm riêng và phù hợp với các phần cứng khác nhau, đồng thời mỗi thuật toán sẽ được cải tiến ở một mức độ nhất định theo yêu cầu phát triển của dự án nên rất khó để đánh giá cụ thể thuật toán nào là tốt nhất.
Cần lưu ý rằng về sự kết hợp giữa các mô hình lớn ZK và AI, không có nghiên cứu rõ ràng nào về việc đánh giá các hệ thống phần cứng hiện có, do đó, vẫn còn những biến số và tiềm năng lớn về yêu cầu phần cứng trong tương lai.
3.3. Trường hợp truyền cảm hứng: Xác thực thuật toán xếp hạng đề xuất Twitter
Chức năng đề xuất "Dành cho bạn" của Twitter sử dụng thuật toán đề xuất AI để tinh chỉnh khoảng 500 triệu tweet được đăng mỗi ngày thành một số ít các tweet phổ biến, cuối cùng được hiển thị trên dòng thời gian "Dành cho bạn" trên trang chủ của người dùng. Đề xuất trích xuất thông tin tiềm ẩn từ dữ liệu tweet, người dùng và tương tác để có thể cung cấp các đề xuất phù hợp hơn. Vào cuối tháng 3 năm 2023, Twitter đã mã nguồn mở thuật toán chọn và xếp hạng các bài đăng trên dòng thời gian cho tính năng đề xuất "Dành cho bạn". Quy trình đề xuất đại khái như sau:
Tạo các tính năng hành vi người dùng từ sự tương tác giữa người dùng và trang web và nhận các tweet tốt nhất từ các nguồn đề xuất khác nhau;
Sử dụng mô hình thuật toán AI để xếp hạng từng tweet;
Áp dụng phương pháp phỏng đoán và bộ lọc, chẳng hạn như lọc ra các tweet mà người dùng đã chặn và các tweet họ đã xem, v.v.
Mô-đun cốt lõi của thuật toán đề xuất là dịch vụ chịu trách nhiệm xây dựng và cung cấp dòng thời gian For You - Home Mixer. Dịch vụ hoạt động như một xương sống thuật toán kết nối các nguồn ứng viên khác nhau, chức năng tính điểm, kinh nghiệm và bộ lọc.
Chức năng đề xuất "Dành cho bạn" dự đoán và chấm điểm mức độ phù hợp của từng tweet của ứng viên dựa trên khoảng 1.500 đề xuất ứng viên có khả năng phù hợp. Trang web chính thức của Twitter nói rằng ở giai đoạn này, tất cả các tweet của ứng cử viên đều được đối xử bình đẳng. Xếp hạng cốt lõi đạt được thông qua một mạng thần kinh gồm khoảng 48 triệu tham số, được đào tạo liên tục về các tương tác tweet để tối ưu hóa. Cơ chế xếp hạng này xem xét hàng nghìn tính năng và đưa ra mười nhãn hoặc hơn để chấm điểm cho từng tweet, trong đó mỗi nhãn thể hiện xác suất tương tác, sau đó xếp hạng các tweet dựa trên những điểm số này.
Mặc dù đây là một bước quan trọng hướng tới tính minh bạch trong thuật toán đề xuất của Twitter, nhưng người dùng vẫn không thể xác minh liệu thuật toán có chạy chính xác và đầy đủ hay không—một trong những lý do chính là chi tiết trọng số cụ thể trong mô hình thuật toán được sử dụng để xếp hạng các tweet nhằm bảo vệ quyền riêng tư của người dùng. đã không được công khai. Do đó, tính minh bạch của thuật toán vẫn còn bị nghi ngờ.
Sử dụng công nghệ ZKML (Zero-Knowledge Machine Learning), Twitter có thể chứng minh liệu các chi tiết trọng số của mô hình thuật toán có chính xác và đầy đủ hay không (liệu mô hình và các tham số của nó có "bình đẳng với những người dùng khác nhau" hay không), điều này giúp bảo vệ quyền riêng tư của mô hình thuật toán và Có một sự cân bằng tốt đẹp giữa minh bạch.
Nhà phát triển cộng đồng Daniel Kang và những người khác sử dụng các công cụ mã hóa ZK-SNARK để kiểm tra xem thuật toán đề xuất Twitter có đúng và chạy hoàn toàn mà không tiết lộ chi tiết thuật toán hay không - đây là điểm hấp dẫn nhất của bằng chứng không kiến thức, tức là không tiết lộ bất kỳ thông tin cụ thể nào về đối tượng Chứng minh độ tin cậy của thông tin dựa trên tiền đề của thông tin (không có kiến thức). Lý tưởng nhất là Twitter có thể sử dụng ZK-SNARKS để xuất bản bằng chứng về mô hình xếp hạng của mình — bằng chứng rằng khi mô hình được áp dụng cho người dùng và tweet cụ thể, nó sẽ tạo ra xếp hạng đầu ra cuối cùng cụ thể. Chứng thực này là cơ sở cho độ tin cậy của mô hình: người dùng có thể xác minh rằng việc tính toán thuật toán mẫu thực hiện như đã hứa - hoặc gửi nó cho bên thứ ba để kiểm tra. Tất cả điều này được thực hiện mà không tiết lộ chi tiết về trọng số tham số mô hình. Điều đó có nghĩa là, bằng cách sử dụng bằng chứng mô hình được công bố chính thức, người dùng sử dụng bằng chứng để xác minh rằng tweet cụ thể đang hoạt động trung thực như mô hình đã hứa đối với các tweet có vấn đề cụ thể.
Giả sử một người dùng cho rằng dòng thời gian của tính năng đề xuất “Dành cho bạn” là đáng ngờ—nghĩ rằng một số tweet nhất định nên được xếp hạng cao hơn (hoặc thấp hơn). Nếu Twitter có thể khởi chạy chức năng chứng minh ZKML, người dùng có thể sử dụng bằng chứng chính thức để kiểm tra thứ hạng của tweet bị nghi ngờ so với các tweet khác trong dòng thời gian (điểm được tính tương ứng với thứ hạng). đối với những tweet cụ thể đó không hoạt động trung thực (nó bị thay đổi giả tạo ở một số thông số). Có thể hiểu rằng mặc dù quan chức không công bố chi tiết cụ thể của mô hình, nhưng theo mô hình, một cây đũa thần (bằng chứng do mô hình tạo ra) được đưa ra. Bất kỳ tweet nào sử dụng cây đũa thần này đều có thể hiển thị điểm xếp hạng có liên quan - và theo cây đũa thần này Tuy nhiên, không thể khôi phục các chi tiết riêng tư của mô hình. Do đó, các chi tiết của mô hình chính thức được kiểm tra trong khi tính riêng tư của các chi tiết được bảo toàn.
Từ góc độ của mô hình, trong khi bảo vệ quyền riêng tư của mô hình, việc sử dụng công nghệ ZKML vẫn có thể khiến mô hình được kiểm toán và tin tưởng của người dùng.
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Cách tin tưởng vào AI: học máy không kiến thức (ZKML) cung cấp những ý tưởng gì
Bản tóm tắt
**Khi AI phát triển với tốc độ không tưởng, chắc chắn sẽ làm dấy lên mối lo ngại về một "lưỡi kiếm" khác của thanh kiếm AI - lòng tin. **Đầu tiên là quyền riêng tư: trong thời đại AI, làm sao con người có thể tin tưởng AI từ góc độ quyền riêng tư dữ liệu? Có lẽ tính minh bạch của mô hình AI là chìa khóa gây lo lắng: khả năng xuất hiện như một mô hình ngôn ngữ quy mô lớn tương đương với một "hộp đen" công nghệ không thể xuyên thủng đối với con người và người dùng bình thường không thể hiểu mô hình hoạt động như thế nào và kết quả của hoạt động Và làm thế nào để có được nó - điều rắc rối hơn là với tư cách là người dùng, bạn có thể không biết liệu mô hình AI do nhà cung cấp dịch vụ cung cấp có hoạt động như đã hứa hay không. Đặc biệt khi áp dụng các thuật toán và mô hình AI trên một số dữ liệu nhạy cảm như y tế, tài chính, ứng dụng Internet, v.v., mô hình AI có thiên vị (hoặc thậm chí có ý đồ xấu) hay nhà cung cấp dịch vụ chạy mô hình đó (và các yếu tố liên quan). thông số) chính xác như đã hứa, đã trở thành vấn đề được người dùng quan tâm nhất. Công nghệ bằng chứng không kiến thức có một giải pháp được nhắm mục tiêu về vấn đề này, do đó, máy học không kiến thức (ZKML) đã trở thành hướng phát triển mới nhất.
**Xem xét toàn diện về tính toàn vẹn của máy tính, tối ưu hóa kinh nghiệm và quyền riêng tư, sự kết hợp giữa bằng chứng không kiến thức và AI, máy học không kiến thức (Zero-Knowledge Machine Learning, ZKML) ra đời. **Trong thời đại mà nội dung do AI tạo ra ngày càng gần với nội dung do con người tạo ra, các đặc điểm kỹ thuật của bằng chứng bí mật không có kiến thức có thể giúp chúng tôi xác định rằng nội dung cụ thể được tạo ra thông qua một mô hình cụ thể. Để bảo vệ quyền riêng tư, công nghệ bằng chứng không kiến thức đặc biệt quan trọng, nghĩa là bằng chứng và xác minh có thể được hoàn thành mà không tiết lộ đầu vào dữ liệu người dùng hoặc chi tiết cụ thể của mô hình.
**Năm cách chứng minh không kiến thức được áp dụng cho máy học: tính toàn vẹn của máy tính, tính toàn vẹn của mô hình, xác minh, đào tạo phân tán và xác thực. **Sự phát triển nhanh chóng gần đây của các mô hình ngôn ngữ quy mô lớn (LLM) cho thấy các mô hình này ngày càng trở nên thông minh hơn và các mô hình này hoàn thiện giao diện quan trọng giữa thuật toán và con người: ngôn ngữ. Xu hướng của trí tuệ nhân tạo nói chung (AGI) đã không thể bị ngăn cản, nhưng đánh giá từ kết quả đào tạo mô hình hiện tại, AI có thể bắt chước hoàn hảo con người có năng lực cao trong các tương tác kỹ thuật số—và vượt qua con người với tốc độ không thể tưởng tượng được trong quá trình tiến hóa nhanh chóng. Trình độ của con người đã ngạc nhiên trước tốc độ tiến hóa này, và thậm chí lo lắng về việc bị AI nhanh chóng thay thế.
**Các nhà phát triển cộng đồng sử dụng ZKML để xác minh chức năng đề xuất của Twitter, đây là chức năng mang tính hướng dẫn. **Tính năng đề xuất "Dành cho bạn" của Twitter sử dụng thuật toán đề xuất AI để chắt lọc khoảng 500 triệu tweet được đăng mỗi ngày thành một số ít tweet phổ biến, những tweet này cuối cùng sẽ được hiển thị trên dòng thời gian của trang chủ của người dùng. Vào cuối tháng 3 năm 2023, Twitter đã mã nguồn mở thuật toán, nhưng do chi tiết của mô hình chưa được công khai nên người dùng vẫn không thể xác minh xem thuật toán có chạy chính xác và đầy đủ hay không. Nhà phát triển cộng đồng Daniel Kang và những người khác sử dụng các công cụ mã hóa ZK-SNARK để kiểm tra xem thuật toán đề xuất Twitter có đúng và chạy hoàn toàn mà không tiết lộ chi tiết thuật toán hay không - đây là điểm hấp dẫn nhất của bằng chứng không kiến thức, tức là không tiết lộ bất kỳ thông tin cụ thể nào về đối tượng Chứng minh độ tin cậy của thông tin dựa trên tiền đề của thông tin (không có kiến thức). Lý tưởng nhất là Twitter có thể sử dụng ZK-SNARKS để xuất bản bằng chứng về mô hình xếp hạng của mình — bằng chứng rằng khi mô hình được áp dụng cho người dùng và tweet cụ thể, nó sẽ tạo ra xếp hạng đầu ra cuối cùng cụ thể. Chứng thực này là cơ sở cho độ tin cậy của mô hình: người dùng có thể xác minh rằng việc tính toán thuật toán mẫu thực hiện như đã hứa - hoặc gửi nó cho bên thứ ba để kiểm tra. Tất cả điều này được thực hiện mà không tiết lộ chi tiết về trọng số tham số mô hình. Điều đó có nghĩa là, bằng cách sử dụng bằng chứng mô hình được công bố chính thức, người dùng sử dụng bằng chứng để xác minh rằng tweet cụ thể đang hoạt động trung thực như mô hình đã hứa đối với các tweet có vấn đề cụ thể.
1. Ý tưởng cốt lõi
Khi AI phát triển với tốc độ ngoài sức tưởng tượng, chắc chắn sẽ làm dấy lên mối lo ngại về một “lưỡi kiếm” khác của thanh kiếm AI - lòng tin. Đầu tiên là quyền riêng tư: trong thời đại của AI, làm sao con người có thể tin tưởng AI từ góc độ quyền riêng tư? Có lẽ tính minh bạch của mô hình AI là chìa khóa gây lo lắng: khả năng xuất hiện như một mô hình ngôn ngữ quy mô lớn tương đương với một "hộp đen" công nghệ không thể xuyên thủng đối với con người và người dùng bình thường không thể hiểu mô hình hoạt động như thế nào và kết quả của hoạt động Và làm thế nào để có được nó (bản thân mô hình chứa đầy những khả năng khó hiểu hoặc có thể dự đoán được) - điều rắc rối hơn là với tư cách là người dùng, bạn có thể không biết liệu mô hình AI do nhà cung cấp dịch vụ cung cấp có hoạt động như đã hứa hay không . Đặc biệt là khi áp dụng các thuật toán và mô hình AI trên một số dữ liệu nhạy cảm, chẳng hạn như chăm sóc y tế, tài chính, ứng dụng Internet, v.v., liệu mô hình AI có thiên vị (hoặc thậm chí có ý đồ xấu) hay nhà cung cấp dịch vụ có chạy mô hình đó hay không (và thông số liên quan) chính xác như cam kết đã trở thành vấn đề được người dùng quan tâm nhất.
Công nghệ bằng chứng không kiến thức có một giải pháp được nhắm mục tiêu về vấn đề này, do đó, máy học không kiến thức (ZKML) đã trở thành hướng phát triển mới nhất. Bài viết này thảo luận về các đặc điểm của công nghệ ZKML, các kịch bản ứng dụng tiềm năng và một số trường hợp truyền cảm hứng, đồng thời nghiên cứu và xây dựng hướng phát triển của ZKML cũng như tác động công nghiệp có thể có của nó.
**2. "Mặt khác" của thanh kiếm AI: làm thế nào để tin tưởng vào AI? **
Khả năng của trí tuệ nhân tạo đang nhanh chóng tiếp cận khả năng của con người và đã vượt qua con người trong nhiều lĩnh vực thích hợp. Sự phát triển nhanh chóng gần đây của các mô hình ngôn ngữ lớn (LLM) cho thấy rằng các mô hình này đang ngày càng trở nên thông minh hơn và các mô hình này tinh chỉnh một giao diện quan trọng giữa thuật toán và con người: ngôn ngữ. Xu hướng của trí tuệ nhân tạo nói chung (AGI) đã không thể bị ngăn cản, nhưng đánh giá từ kết quả đào tạo mô hình hiện tại, AI hoàn toàn có thể bắt chước con người có năng lực cao trong các tương tác kỹ thuật số—và vượt qua con người với tốc độ không thể tưởng tượng được ở cấp độ tiến hóa nhanh chóng. Gần đây, mô hình ngôn ngữ đã đạt được những tiến bộ đáng kể. Các sản phẩm do ChatGPT đại diện đã hoạt động đáng kinh ngạc, đạt hơn 20% khả năng của con người trong hầu hết các đánh giá thông thường. Khi so sánh GPT-3.5 và GPT-4, chỉ cách nhau vài tháng, Con người đã tạo ra phải kinh ngạc trước tốc độ tiến hóa này. Nhưng mặt khác là mối lo ngại về khả năng mất kiểm soát của AI.
** Đầu tiên là khía cạnh riêng tư. **Trong thời đại AI, với sự phát triển của các công nghệ như nhận diện khuôn mặt, người dùng luôn lo lắng về nguy cơ rò rỉ dữ liệu khi trải nghiệm các dịch vụ AI. Điều này đã mang lại những trở ngại nhất định cho việc thúc đẩy và phát triển AI - làm thế nào để tin tưởng AI từ góc độ quyền riêng tư?
**Có lẽ tính minh bạch của các mô hình AI là chìa khóa cần quan tâm hơn. ** Khả năng xuất hiện tương tự như các mô hình ngôn ngữ quy mô lớn tương đương với một "hộp đen" công nghệ bất khả xâm phạm đối với con người, người dùng phổ thông không thể hiểu mô hình hoạt động như thế nào và kết quả thu được như thế nào (bản thân mô hình đã chứa đầy Khả năng đó là khó hiểu hoặc dự đoán) - rắc rối hơn, vì người dùng có thể không biết liệu mô hình AI do nhà cung cấp dịch vụ cung cấp có hoạt động như đã hứa hay không. Đặc biệt là khi áp dụng các thuật toán và mô hình AI trên một số dữ liệu nhạy cảm, chẳng hạn như chăm sóc y tế, tài chính, ứng dụng Internet, v.v., liệu mô hình AI có thiên vị (hoặc thậm chí có ý đồ xấu) hay nhà cung cấp dịch vụ có chạy mô hình đó hay không (và thông số liên quan) chính xác như cam kết đã trở thành vấn đề được người dùng quan tâm nhất. Ví dụ: nền tảng ứng dụng xã hội có đưa ra các đề xuất phù hợp theo thuật toán "đối xử bình đẳng" không? Khuyến nghị từ thuật toán AI của nhà cung cấp dịch vụ tài chính có chính xác và đầy đủ như đã hứa? Có sự tiêu thụ không cần thiết trong kế hoạch dịch vụ y tế do AI khuyến nghị không? Các nhà cung cấp dịch vụ có chấp nhận kiểm toán các mô hình AI không?
Nói một cách đơn giản, một mặt người dùng không biết thực trạng của mô hình AI do nhà cung cấp dịch vụ cung cấp, đồng thời họ rất lo lắng rằng mô hình đó không “phân biệt đối xử”. được coi là bao gồm một số yếu tố thiên vị hoặc định hướng khác, sẽ mang lại sự mất mát hoặc tác động tiêu cực cho người dùng.
Mặt khác, tốc độ tự tiến hóa của AI dường như ngày càng khó đoán hơn và mô hình thuật toán AI ngày càng mạnh mẽ dường như ngày càng vượt quá khả năng kiểm soát của con người,** nên vấn đề niềm tin lại trở thành vấn đề khác. “cạnh” thanh gươm sắc bén của AI”. **
Cần phải thiết lập niềm tin của người dùng vào AI từ các khía cạnh bảo mật dữ liệu, tính minh bạch của mô hình và khả năng kiểm soát của mô hình. Người dùng cần phải lo lắng về vấn đề bảo vệ quyền riêng tư và liệu mô hình thuật toán có chạy chính xác và đầy đủ như đã hứa hay không, tuy nhiên, đây không phải là một nhiệm vụ dễ dàng. mặt khác, bản thân sự phát triển của mô hình thuật toán không dễ kiểm soát và tính không kiểm soát này cũng cần được xem xét.
Từ góc độ bảo vệ quyền riêng tư dữ liệu người dùng, chúng tôi cũng đã thực hiện rất nhiều nghiên cứu trong các báo cáo trước đây của mình như "AI và các yếu tố dữ liệu được thúc đẩy bởi Web3.0: Tính mở, bảo mật và quyền riêng tư". Một số ứng dụng của Web3.0 rất truyền cảm hứng về vấn đề này— — Tức là, việc đào tạo mô hình AI được thực hiện với tiền đề xác nhận hoàn chỉnh dữ liệu người dùng và bảo vệ quyền riêng tư của dữ liệu.
Tuy nhiên, thị trường hiện tại bị choáng ngợp bởi hiệu suất tuyệt vời của các mô hình lớn như Chatgpt và chưa xem xét các vấn đề về quyền riêng tư của chính mô hình, các vấn đề về niềm tin của mô hình (và niềm tin do không kiểm soát được) do sự phát triển mang lại. về đặc điểm “mới nổi” của thuật toán, nhưng ở một cấp độ khác, người dùng luôn hoài nghi về sự vận hành chính xác, đầy đủ và trung thực của cái gọi là mô hình thuật toán. Vì vậy, vấn đề niềm tin của AI cần được giải quyết từ ba cấp độ là người dùng, nhà cung cấp dịch vụ và tính không kiểm soát được của mô hình.
3. ZKML: Sự kết hợp giữa bằng chứng không kiến thức và AI mang lại sự tin cậy
3.1. Bằng chứng không kiến thức: zk-SNARKS, zk-STARK và các công nghệ khác đang hoàn thiện
Bằng chứng không kiến thức (Zero Knowledge Proof, ZKP) lần đầu tiên được đề xuất bởi Shafi Goldwasser và Silvio Micali của MIT trong một bài báo có tiêu đề "Sự phức tạp về kiến thức của các hệ thống bằng chứng tương tác" vào năm 1985. Tác giả đã đề cập trong bài báo rằng người chứng minh có thể thuyết phục người xác minh về tính xác thực của dữ liệu mà không cần tiết lộ dữ liệu cụ thể. Hàm công khai f(x) và giá trị đầu ra y của một hàm, Alice nói với Bob rằng cô ấy biết giá trị của x, nhưng Bob không tin điều đó. Để làm điều này, Alice sử dụng thuật toán bằng chứng không có kiến thức để tạo bằng chứng. Bob kiểm tra bằng chứng này để xác nhận xem Alice có thực sự biết x thỏa mãn hàm f hay không.
Ví dụ: bằng cách sử dụng bằng chứng không có kiến thức, bạn không cần biết điểm kiểm tra của Xiaoming, nhưng bạn có thể biết liệu điểm của anh ấy có đáp ứng yêu cầu của người dùng hay không—chẳng hạn như anh ấy có đậu hay không, tỷ lệ điền đúng vào chỗ trống có vượt quá hay không. 60%, v.v. Trong lĩnh vực AI, kết hợp với bằng chứng không kiến thức, bạn có thể có một công cụ đáng tin cậy cho các mô hình AI.
Bằng chứng không kiến thức có thể tương tác, nghĩa là người chứng minh phải chứng minh tính xác thực của dữ liệu một lần cho từng người xác minh; nó cũng có thể không tương tác, nghĩa là người chứng minh tạo ra một bằng chứng và bất kỳ ai sử dụng bằng chứng này đều có thể được xác minh.
Kiến thức bằng không được chia thành bằng chứng và xác minh. Nói chung, bằng chứng là bán tuyến tính, tức là xác minh là T*log(T).
Giả sử rằng thời gian xác minh là bình phương logarit của số lượng giao dịch, thì thời gian xác minh máy cho một khối 10.000 giao dịch là
VTime = ( )2 ~ (13.2)2 ~ 177 ms; hiện tăng kích thước khối lên hàng trăm lần (lên 1 triệu tx/khối), thời gian chạy mới của trình xác thực là VTime = (log2 1000000)2 ~ 202 ~ 400 mili giây . Do đó, chúng ta có thể thấy khả năng siêu mở rộng của nó, đó là lý do tại sao về mặt lý thuyết, tps có thể đạt đến mức không giới hạn.
**Việc xác minh diễn ra rất nhanh và tất cả khó khăn nằm ở phần tạo bằng chứng. **Miễn là tốc độ tạo bằng chứng có thể theo kịp, thì việc xác minh trên chuỗi rất đơn giản. Hiện tại có nhiều triển khai bằng chứng không kiến thức, chẳng hạn như zk-SNARKS, zk-STARKS, PLONK và Bulletproofs. Mỗi phương pháp đều có những ưu điểm và nhược điểm riêng về quy mô bằng chứng, thời gian chứng minh và thời gian xác minh.
Bằng chứng không kiến thức càng phức tạp và càng lớn thì hiệu suất càng cao và thời gian cần thiết để xác minh càng ngắn. Như thể hiện trong hình bên dưới, STARK và Bulletproofs không yêu cầu cài đặt đáng tin cậy. Khi lượng dữ liệu giao dịch tăng từ 1TX lên 10.000TX, kích thước của bằng chứng sau này thậm chí còn tăng ít hơn. Ưu điểm của Bulletproofs là kích thước của bằng chứng là phép biến đổi logarit (ngay cả khi f và x lớn), có thể lưu trữ bằng chứng trong khối, nhưng độ phức tạp tính toán của việc xác minh nó là tuyến tính. Có thể thấy rằng các thuật toán khác nhau có nhiều điểm chính cần được cân nhắc và cũng có rất nhiều chỗ để nâng cấp, tuy nhiên, trong quá trình vận hành thực tế, khó khăn trong việc tạo ra bằng chứng lớn hơn nhiều so với tưởng tượng. bây giờ cam kết giải quyết vấn đề tạo bằng chứng.
Mặc dù sự phát triển của công nghệ bằng chứng không kiến thức là không đủ để phù hợp với quy mô của một mô hình ngôn ngữ lớn (LLM), nhưng việc triển khai kỹ thuật của nó có các kịch bản ứng dụng đầy cảm hứng. Đặc biệt là trong quá trình phát triển con dao hai lưỡi của AI, bằng chứng không kiến thức cung cấp một giải pháp đáng tin cậy cho sự tin tưởng của AI.
3.2. Zero Knowledge Machine Learning (ZKML): Trí tuệ nhân tạo đáng tin cậy
Trong thời đại mà nội dung do AI tạo ra ngày càng gần với nội dung do con người tạo ra, các đặc điểm kỹ thuật của bằng chứng bí mật không có kiến thức có thể giúp chúng tôi xác định rằng nội dung cụ thể được tạo ra bằng cách áp dụng một mô hình cụ thể. Để bảo vệ quyền riêng tư, công nghệ bằng chứng không kiến thức đặc biệt quan trọng, nghĩa là bằng chứng và xác minh có thể được hoàn thành mà không tiết lộ đầu vào dữ liệu người dùng hoặc chi tiết cụ thể của mô hình. Xem xét tính toàn vẹn của điện toán, tối ưu hóa heuristic và quyền riêng tư, sự kết hợp giữa bằng chứng không kiến thức và AI, máy học không kiến thức (Zero-Knowledge Machine Learning, ZKML) ra đời.
Dưới đây là năm cách có thể áp dụng bằng chứng không kiến thức cho học máy. Ngoài các chức năng cơ bản như tính toàn vẹn của tính toán, tính toàn vẹn của mô hình và quyền riêng tư của người dùng, máy học không kiến thức cũng có thể mang lại đào tạo phân tán - điều này sẽ thúc đẩy sự tích hợp của AI và chuỗi khối cũng như nhận dạng con người trong rừng AI (Phần này có thể được tìm thấy trong báo cáo của chúng tôi "Tầm nhìn Web3 của người sáng lập OpenAI: Worldcoin tạo hộ chiếu kỹ thuật số AI").
Nhu cầu về sức mạnh tính toán của mô hình AI lớn là rõ ràng đối với tất cả mọi người, tại thời điểm này, bằng cách xen kẽ các bằng chứng ZK vào các ứng dụng AI, các yêu cầu mới được đặt ra đối với sức mạnh tính toán của phần cứng. Công nghệ hiện đại nhất đối với các hệ thống không kiến thức kết hợp với phần cứng hiệu suất cao vẫn không thể chứng minh bất cứ điều gì lớn như các mô hình ngôn ngữ lớn (LLM) hiện có, nhưng một số tiến bộ đã đạt được trong việc tạo ra các bằng chứng cho các mô hình nhỏ hơn. Theo nhóm Modulus Labs, hệ thống bằng chứng ZK hiện tại đã được thử nghiệm trên nhiều mẫu có kích cỡ khác nhau. Các hệ thống bằng chứng như plonky2 có thể chạy trong khoảng 50 giây trên máy AWS mạnh mẽ để tạo bằng chứng cho các mô hình có quy mô khoảng 18 triệu tham số.
Về phần cứng, các tùy chọn phần cứng hiện tại cho công nghệ ZK bao gồm GPU, FPGA hoặc ASIC. Cần lưu ý rằng bằng chứng không kiến thức vẫn đang trong giai đoạn phát triển ban đầu, vẫn còn ít tiêu chuẩn hóa và thuật toán liên tục được cập nhật và thay đổi. Mỗi thuật toán có những đặc điểm riêng và phù hợp với các phần cứng khác nhau, đồng thời mỗi thuật toán sẽ được cải tiến ở một mức độ nhất định theo yêu cầu phát triển của dự án nên rất khó để đánh giá cụ thể thuật toán nào là tốt nhất.
Cần lưu ý rằng về sự kết hợp giữa các mô hình lớn ZK và AI, không có nghiên cứu rõ ràng nào về việc đánh giá các hệ thống phần cứng hiện có, do đó, vẫn còn những biến số và tiềm năng lớn về yêu cầu phần cứng trong tương lai.
3.3. Trường hợp truyền cảm hứng: Xác thực thuật toán xếp hạng đề xuất Twitter
Chức năng đề xuất "Dành cho bạn" của Twitter sử dụng thuật toán đề xuất AI để tinh chỉnh khoảng 500 triệu tweet được đăng mỗi ngày thành một số ít các tweet phổ biến, cuối cùng được hiển thị trên dòng thời gian "Dành cho bạn" trên trang chủ của người dùng. Đề xuất trích xuất thông tin tiềm ẩn từ dữ liệu tweet, người dùng và tương tác để có thể cung cấp các đề xuất phù hợp hơn. Vào cuối tháng 3 năm 2023, Twitter đã mã nguồn mở thuật toán chọn và xếp hạng các bài đăng trên dòng thời gian cho tính năng đề xuất "Dành cho bạn". Quy trình đề xuất đại khái như sau:
Tạo các tính năng hành vi người dùng từ sự tương tác giữa người dùng và trang web và nhận các tweet tốt nhất từ các nguồn đề xuất khác nhau;
Sử dụng mô hình thuật toán AI để xếp hạng từng tweet;
Áp dụng phương pháp phỏng đoán và bộ lọc, chẳng hạn như lọc ra các tweet mà người dùng đã chặn và các tweet họ đã xem, v.v.
Mô-đun cốt lõi của thuật toán đề xuất là dịch vụ chịu trách nhiệm xây dựng và cung cấp dòng thời gian For You - Home Mixer. Dịch vụ hoạt động như một xương sống thuật toán kết nối các nguồn ứng viên khác nhau, chức năng tính điểm, kinh nghiệm và bộ lọc.
Chức năng đề xuất "Dành cho bạn" dự đoán và chấm điểm mức độ phù hợp của từng tweet của ứng viên dựa trên khoảng 1.500 đề xuất ứng viên có khả năng phù hợp. Trang web chính thức của Twitter nói rằng ở giai đoạn này, tất cả các tweet của ứng cử viên đều được đối xử bình đẳng. Xếp hạng cốt lõi đạt được thông qua một mạng thần kinh gồm khoảng 48 triệu tham số, được đào tạo liên tục về các tương tác tweet để tối ưu hóa. Cơ chế xếp hạng này xem xét hàng nghìn tính năng và đưa ra mười nhãn hoặc hơn để chấm điểm cho từng tweet, trong đó mỗi nhãn thể hiện xác suất tương tác, sau đó xếp hạng các tweet dựa trên những điểm số này.
Mặc dù đây là một bước quan trọng hướng tới tính minh bạch trong thuật toán đề xuất của Twitter, nhưng người dùng vẫn không thể xác minh liệu thuật toán có chạy chính xác và đầy đủ hay không—một trong những lý do chính là chi tiết trọng số cụ thể trong mô hình thuật toán được sử dụng để xếp hạng các tweet nhằm bảo vệ quyền riêng tư của người dùng. đã không được công khai. Do đó, tính minh bạch của thuật toán vẫn còn bị nghi ngờ.
Sử dụng công nghệ ZKML (Zero-Knowledge Machine Learning), Twitter có thể chứng minh liệu các chi tiết trọng số của mô hình thuật toán có chính xác và đầy đủ hay không (liệu mô hình và các tham số của nó có "bình đẳng với những người dùng khác nhau" hay không), điều này giúp bảo vệ quyền riêng tư của mô hình thuật toán và Có một sự cân bằng tốt đẹp giữa minh bạch.
Nhà phát triển cộng đồng Daniel Kang và những người khác sử dụng các công cụ mã hóa ZK-SNARK để kiểm tra xem thuật toán đề xuất Twitter có đúng và chạy hoàn toàn mà không tiết lộ chi tiết thuật toán hay không - đây là điểm hấp dẫn nhất của bằng chứng không kiến thức, tức là không tiết lộ bất kỳ thông tin cụ thể nào về đối tượng Chứng minh độ tin cậy của thông tin dựa trên tiền đề của thông tin (không có kiến thức). Lý tưởng nhất là Twitter có thể sử dụng ZK-SNARKS để xuất bản bằng chứng về mô hình xếp hạng của mình — bằng chứng rằng khi mô hình được áp dụng cho người dùng và tweet cụ thể, nó sẽ tạo ra xếp hạng đầu ra cuối cùng cụ thể. Chứng thực này là cơ sở cho độ tin cậy của mô hình: người dùng có thể xác minh rằng việc tính toán thuật toán mẫu thực hiện như đã hứa - hoặc gửi nó cho bên thứ ba để kiểm tra. Tất cả điều này được thực hiện mà không tiết lộ chi tiết về trọng số tham số mô hình. Điều đó có nghĩa là, bằng cách sử dụng bằng chứng mô hình được công bố chính thức, người dùng sử dụng bằng chứng để xác minh rằng tweet cụ thể đang hoạt động trung thực như mô hình đã hứa đối với các tweet có vấn đề cụ thể.
Giả sử một người dùng cho rằng dòng thời gian của tính năng đề xuất “Dành cho bạn” là đáng ngờ—nghĩ rằng một số tweet nhất định nên được xếp hạng cao hơn (hoặc thấp hơn). Nếu Twitter có thể khởi chạy chức năng chứng minh ZKML, người dùng có thể sử dụng bằng chứng chính thức để kiểm tra thứ hạng của tweet bị nghi ngờ so với các tweet khác trong dòng thời gian (điểm được tính tương ứng với thứ hạng). đối với những tweet cụ thể đó không hoạt động trung thực (nó bị thay đổi giả tạo ở một số thông số). Có thể hiểu rằng mặc dù quan chức không công bố chi tiết cụ thể của mô hình, nhưng theo mô hình, một cây đũa thần (bằng chứng do mô hình tạo ra) được đưa ra. Bất kỳ tweet nào sử dụng cây đũa thần này đều có thể hiển thị điểm xếp hạng có liên quan - và theo cây đũa thần này Tuy nhiên, không thể khôi phục các chi tiết riêng tư của mô hình. Do đó, các chi tiết của mô hình chính thức được kiểm tra trong khi tính riêng tư của các chi tiết được bảo toàn.
Từ góc độ của mô hình, trong khi bảo vệ quyền riêng tư của mô hình, việc sử dụng công nghệ ZKML vẫn có thể khiến mô hình được kiểm toán và tin tưởng của người dùng.