“Làm nên kỳ tích” và “mỹ học bạo lực”, hai từ này luôn xuất hiện cùng với các cuộc thảo luận của ChatGPT. Đối với "mạnh mẽ" và "bạo lực", ngoài "sức mạnh tính toán khổng lồ", còn có lượng dữ liệu khổng lồ. Marc Andreessen, người sáng lập a16z, cũng chỉ ra tại hội nghị Data+AI rằng lượng dữ liệu khổng lồ được Internet tích lũy trong hai thập kỷ qua là một lý do quan trọng cho sự trỗi dậy của làn sóng AI mới này, bởi vì cái trước cung cấp cái sau. với dữ liệu có thể dùng để huấn luyện.
Theo OpenAI, GPT-3.5 có kho văn bản lên tới 45TB, tương đương 4,72 triệu bộ Tứ đại danh tác của Trung Quốc, trong khi GPT-4 bổ sung dữ liệu đa phương thức cho bộ dữ liệu đào tạo GPT-3 và GPT-3.5 . Vào ngày 18 tháng 7, Meta, công ty mẹ của Facebook, đã phát hành Llama2, mô hình ngôn ngữ lớn mã nguồn mở và thương mại đầu tiên, với dự kiến đào tạo trước sẽ đạt 2 nghìn tỷ mã thông báo.
Khả năng thu được lượng dữ liệu khổng lồ chất lượng cao được coi là một trong những năng lực cạnh tranh cốt lõi của các công ty mô hình quy mô lớn trong tương lai, đồng thời cũng là điều bắt buộc đối với cuộc chạy đua vũ trang AI của các đại gia lớn. Dữ liệu cũng được xem là yếu tố then chốt của sản xuất quyết định sự phát triển trong tương lai. Theo thống kê của "Báo cáo phát triển Trung Quốc kỹ thuật số (2022)", tiềm năng của nền kinh tế kỹ thuật số do các yếu tố dữ liệu giải phóng sẽ vô cùng to lớn. Sản lượng dữ liệu của nước tôi sẽ đạt 8,1ZB vào năm 2022, chiếm 10,5% toàn cầu, đứng thứ hai thế giới.Phát triển kinh tế số đi đầu.
Tuy nhiên, dữ liệu, với tư cách là một yếu tố sản xuất hoàn toàn mới, cũng đặt ra hàng loạt vấn đề cần giải quyết cấp bách: hiểu dữ liệu như thế nào? Làm thế nào để xác nhận quyền dữ liệu? Làm thế nào để khai thác giá trị của dữ liệu? Nó thực sự có thể được mua bán và lưu thông không? Dữ liệu có thực sự được đưa vào báo cáo tài chính của doanh nghiệp như một tài sản không? Bảo mật được quản lý như thế nào? Để đạt được điều này, chúng tôi đã trò chuyện với Giáo sư Zeng Xueyun, Phó Viện trưởng Viện Khoa học và Công nghệ của Đại học Bưu chính Viễn thông Bắc Kinh**, và yêu cầu cô ấy trả lời sâu các câu hỏi liên quan.
Sau đây là nội dung cuộc trò chuyện:
**Công nghệ Tencent: Người bình thường có thể lo lắng, dữ liệu để đào tạo mô hình lớn đến từ đâu? Có bất kỳ việc sử dụng dữ liệu cá nhân nào của tôi không và liệu có vấn đề gì với quyền đối với những dữ liệu này không? **
**Giáo sư Zeng Xueyun: Dữ liệu được tính toán bởi **mô hình lớn là dữ liệu cá nhân. So với dữ liệu của công ty, dữ liệu cá nhân có vấn đề về quyền sở hữu. **Về nguyên tắc, tôi là người làm chủ dữ liệu của mình. ** Ví dụ: dữ liệu được tạo trên phần mềm xã hội, về nguyên tắc, công ty sở hữu phần mềm xã hội đó không thể sử dụng dữ liệu cá nhân của tôi. được quy định bởi "Luật bảo vệ thông tin cá nhân".
Vì vậy, nếu nó được sử dụng để tính toán mô hình lớn, làm thế nào để sử dụng nó? Về mặt công nghệ, cần phải thực hiện xử lý ẩn danh, và về mặt vận hành, cũng cần có một thực thể thị trường, đó là **trao cho một công ty nào đó quyền hợp pháp để vận hành những dữ liệu này , nói cách khác, cung cấp cho những dữ liệu này Tìm một chủ đề thị trường. **Khi đối tượng định hướng thị trường có được dữ liệu, họ cần đầu tư nhân lực, thời gian, trí tuệ và vốn để tạo ra dữ liệu, mà tất cả chúng ta có thể gọi là đầu vào lao động. Sau khi lao động đầu vào, thông tin dữ liệu thuộc về cá nhân được dẫn xuất thành một loại dữ liệu tái tạo của công ty hoặc dữ liệu thứ cấp. Sau đó, dữ liệu thứ cấp tạo dữ liệu thủ tục, rồi đến các sản phẩm dữ liệu và dịch vụ dữ liệu. Lúc này, dữ liệu gốc của cá nhân với tư cách là chủ sở hữu dữ liệu của cá nhân được chuyển thành sản phẩm, dịch vụ dữ liệu cho doanh nghiệp. Đây là một quy trình sản xuất.
**Tentent Technology: Có thể hiểu rằng các công ty Internet lấy dữ liệu cá nhân thông qua ủy quyền và sau khi các công ty này xử lý quy trình, chúng có thể trở thành một loại tài sản dữ liệu nào đó của công ty không? **
Giáo sư Zeng Xueyun: Cũng có thể hiểu rằng cá nhân chúng ta tạo ra một lượng lớn dữ liệu trên Internet, giống như các nguồn tài nguyên thiên nhiên khác nhau trong tự nhiên. Ví dụ, nhiều hoa và cây có thể mọc trên đất và nhiều tài nguyên có thể phát triển. Loại tài nguyên này là loại tài nguyên công cộng, có thể khai thác và sử dụng, nhưng không thể trực tiếp mua bán. Những gì được tạo ra sau khi sử dụng và xử lý là tài sản của doanh nghiệp, điều này được cho phép và chúng ta cũng nên khuyến khích phát triển các yếu tố sản xuất dữ liệu theo cách này.
**Tencent Technology: Từ quan điểm cá nhân, làm cách nào để bảo vệ dữ liệu cá nhân của chúng ta và để chúng lưu chuyển theo cách chúng ta muốn? **
**Giáo sư Zeng Xueyun: **Trong thời đại trí tuệ nhân tạo, quyền riêng tư của con người ngày càng trở nên khó bảo vệ. Bởi vì tất cả các hành vi của mọi người đang được ghi lại, sự chuyển động của vị trí địa lý, cuộc sống, công việc, chế độ ăn uống và cuộc sống hàng ngày đều được ghi lại. Sau khi được ghi lại, thông tin ban đầu thuộc về chúng tôi không còn có thể được kiểm soát bởi thủ phạm. Do đó, tại thời điểm này, nguy cơ rò rỉ quyền riêng tư là rất cao, nhiệm vụ bảo vệ dữ liệu cũng rất nặng nề và việc bảo vệ dữ liệu cũng rất khó khăn.
Làm thế nào để mọi người bảo vệ quyền dữ liệu của họ? Trên thực tế, các quốc gia khác nhau cũng có một số phương pháp thương mại. Loại thứ nhất, như Nhật Bản, sử dụng ngân hàng dữ liệu, tức là mọi người đều có thể lưu trữ dữ liệu trong ngân hàng dữ liệu giống như gửi tiền vào ngân hàng. Ngân hàng dữ liệu là người giám sát dữ liệu, nó cũng có thể đóng vai trò là nhà phát triển giá trị dữ liệu ban đầu và các cá nhân cũng có thể nhận được một số lợi ích nhất định. Điều này có nghĩa là nó cho phép một số người sẵn sàng tiết lộ và sử dụng dữ liệu của riêng họ ở một mức độ nhất định có một mô hình kinh doanh để giải quyết các vấn đề bảo vệ dữ liệu theo cách tự chọn. Nói cách khác, xây dựng các mô hình lưu thông dữ liệu hợp pháp, phát triển và sử dụng dữ liệu hợp pháp, đây là một phần.
**Phần còn lại là cá nhân tôi không muốn nên sẽ không ủy quyền cho chủ sở hữu dữ liệu. **Trong trường hợp không được phép, quốc gia đó phải tăng cường bảo vệ dữ liệu. Nếu ai muốn phát triển trái phép phần dữ liệu này thì phải bị trừng phạt và giám sát về mặt pháp lý Công nghệ chuỗi khối có thể được sử dụng để theo dõi những hành vi như vậy. Ví dụ: dữ liệu của chúng tôi có bị rò rỉ hay không và rò rỉ ở đâu để theo dõi luồng dữ liệu. Cũng có thể theo dõi và phân tích mối quan hệ họ hàng dữ liệu, và hiện nay đã có công nghệ mối quan hệ họ hàng dữ liệu. Nói một cách đại khái, **Dữ liệu đến từ đâu và đi đâu? Phân tích dòng dữ liệu thực chất là một loại phân tích tương quan dữ liệu và truy xuất nguồn gốc dữ liệu. . Mọi thứ đang được ghi lại, vì vậy việc ghi lại dữ liệu và công nghệ của người khác cũng có thể được ghi lại, công khai và xâm nhập.
"Bộ luật Dân sự" của nước tôi đã đưa ra các quy định đặc biệt về bảo vệ thông tin cá nhân trong chương về quyền nhân thân. Điều 127 của "Bộ luật Dân sự" đặt dữ liệu cạnh tài sản ảo mạng, làm nổi bật thuộc tính tài sản của dữ liệu. Trong luật pháp địa phương, các quy định tại Điều 12 của "Quy định dữ liệu thành phố Thượng Hải" phản ánh trực tiếp mô hình phân bổ quyền của "hai bộ phận nhân lực và của cải". Bài báo này quy định: "Thành phố này bảo vệ các quyền và lợi ích nhân cách của các thể nhân liên quan đến thông tin cá nhân của họ theo quy định của pháp luật." Cũng như các quyền và lợi ích hợp pháp về tài sản có được trong các hoạt động đổi mới dữ liệu có liên quan trong quá trình phát triển kỹ thuật số. kinh tế."
Vào ngày 20 tháng 8 năm 2021, phiên họp thứ 30 của Ủy ban Thường vụ Đại hội đại biểu nhân dân toàn quốc khóa 13 đã biểu quyết thông qua "Luật bảo vệ thông tin cá nhân của nước Cộng hòa nhân dân Trung Hoa", sẽ có hiệu lực vào ngày 1 tháng 11 năm 2021. Thông tin chi tiết có thể được tìm thấy trực tuyến. Bản chất tư pháp của thông tin cá nhân trong "Luật bảo vệ thông tin cá nhân" cũng là bảo vệ quyền và lợi ích cá nhân, hầu như không liên quan đến quyền và lợi ích tài sản của thông tin cá nhân.
**Công nghệ Tencent: Loại dữ liệu chất lượng cao nào là quan trọng đối với đào tạo mô hình lớn? **
**Giáo sư Zeng Xueyun: **Dữ liệu phải là tất cả các ghi chép về các hoạt động kinh tế, xã hội, sản xuất, quản lý, thương mại và thậm chí cả quân sự của con người. Một kỷ lục như vậy được tạo ra trong các ngành, lĩnh vực và khía cạnh khác nhau. Đối với dữ liệu thô, nó có chất lượng cao và thấp. Ví dụ: báo cáo tài chính và dữ liệu tài chính của **công ty niêm yết là dữ liệu chất lượng cao và là dữ liệu có cấu trúc. ** Bởi vì loại báo cáo tài chính và thông tin tài chính này đã được xã hội kiểm toán và kiểm toán bởi các kế toán viên công được chứng nhận và Ủy ban Điều tiết Chứng khoán Trung Quốc giám sát việc tiết lộ thông tin nên đây là dữ liệu chất lượng cao. Ví dụ khác, dữ liệu giấy trong **CNKI cũng là dữ liệu chất lượng cao. **Tuy nhiên, dữ liệu được tạo trên Internet là dữ liệu phi cấu trúc và không được chuẩn hóa. Dữ liệu như vậy là loại dữ liệu gốc, lộn xộn và không được kiểm soát, cần phải làm sạch chi tiết trước khi tính toán, vì vậy dữ liệu chất lượng cao thường có quá trình chuyển đổi từ phi cấu trúc sang có cấu trúc trong quá trình xử lý. **
**Công nghệ Tencent: Vì dữ liệu chất lượng cao có thể được tạo ra liên tục, tại sao lại có câu nói rằng "dữ liệu chất lượng cao đã gần hết"? **
Giáo sư Zeng Xueyun: Tôi nghĩ rằng khả năng sản xuất và xử lý dữ liệu không thể theo kịp nhu cầu về dữ liệu của mọi người và năng suất của toàn bộ chuỗi giá trị chuỗi cung ứng để sản xuất và xử lý dữ liệu vẫn còn tương đối yếu. Vì chúng ta biết rằng dữ liệu không ngừng bùng nổ nhưng dữ liệu chất lượng cao thì ngày càng cạn kiệt, điều đó chỉ có nghĩa là trong quá trình từ dữ liệu đến dữ liệu chất lượng cao, chúng ta thiếu một loại năng suất và khả năng tích hợp. Tại thời điểm này, các nhà cung cấp dữ liệu là cần thiết. Nhiều nhà cung cấp dữ liệu hiện tại của chúng tôi chỉ sử dụng dữ liệu trực tiếp, nhưng để sản xuất và xử lý dữ liệu cũng như cách tạo ra dữ liệu chất lượng cao, khả năng của lĩnh vực này hoặc thiết kế của các mô hình kinh doanh vẫn chưa đủ.
Trên thực tế, GPT-4 của OpenAI sử dụng một lượng lớn dữ liệu do mô hình thế hệ trước GPT-3.5 tạo ra để đào tạo. Người sáng lập OpenAI cũng cho biết trong một cuộc phỏng vấn gần đây: "Dữ liệu tổng hợp là một cách hiệu quả để giải quyết tình trạng thiếu dữ liệu mô hình lớn. Điều quan trọng là có cả một hệ thống để phân biệt dữ liệu nào do AI tạo ra và dữ liệu nào không có sẵn .Và tiếp tục đưa ra phản hồi dựa trên hiệu quả của mô hình được đào tạo.” Công ty này không chỉ có khả năng huy động tiền, đơn giản như vậy còn có thể kiểm soát rất nhiều sức mạnh tính toán, và khả năng công nghệ sản phẩm của dữ liệu cũng là một trong những năng lực cạnh tranh cốt lõi của công ty này.
**Công nghệ Tencent: Để cải thiện năng suất dữ liệu chất lượng cao, các liên kết cần thiết trong kiểu dáng công nghiệp là gì? **
Giáo sư Zeng Xueyun: Về câu hỏi này, trước tiên chúng ta phải hiểu dữ liệu là gì? Chúng ta có dữ liệu gì? Và phải làm gì với dữ liệu? Điều đó có nghĩa là, để tạo ra dữ liệu chất lượng cao, không có nghĩa là có năng lực sản xuất để có dữ liệu chất lượng cao và cũng không có nghĩa là sẵn sàng tạo ra dữ liệu chất lượng cao. Nó phải hiểu dữ liệu từ nguồn Những vấn đề nào trong xã hội nên được giải quyết với dữ liệu? Đâu là nhu cầu của thị trường về dữ liệu? Sau đó, từ dữ liệu ban đầu đến bên cầu, chúng ta nên sản xuất ở giữa như thế nào? Một loạt vấn đề này đòi hỏi thiết kế công nghiệp và tư duy tổng thể hiện tại là không đủ.
**Công nghệ Tencent: Sự non nớt của ngành là một khía cạnh, phải chăng ngành này vẫn là một đại dương xanh? **
**Giáo sư Zeng Xueyun: **Một đại dương xanh rất sớm. Trong những ngày đầu, có một số trường hợp giao dịch dữ liệu trực tiếp bất hợp pháp, sau đó, luật pháp quốc gia không còn có thể trực tiếp mua và bán dữ liệu cũng như không còn giao dịch dữ liệu thô. Dữ liệu không thể được sử dụng cho các giao dịch ban đầu. Nó phải là kết quả của việc đầu tư vào sản xuất của chính mình để thực hiện các giao dịch, thay vì nói rằng tôi có một số dữ liệu và tôi trực tiếp bán dữ liệu. Điều này không được phép.
Vào năm 2022 (tháng 12), "Hai mươi điều khoản dữ liệu" đã được ban hành. "Hai mươi điều khoản dữ liệu" đưa ra các yêu cầu đối với việc tách quyền sở hữu dữ liệu và đa sở hữu quyền sở hữu dữ liệu, quyền quản lý và quyền có lợi. Bộ phận đã đề cập rằng dữ liệu nên được quản lý trong danh mục phân cấp này. Đây là thiết kế cấp cao nhất về quản trị dữ liệu và một kế hoạch chi tiết tổng thể. Cũng có thể nói rằng đó là sự khởi đầu cho sự phát triển tiêu chuẩn hóa của ngành dữ liệu trong tương lai. Lúc này, mọi người nhận ra rằng dữ liệu không phải là một tổng thể, và họ cần hiểu dữ liệu có những quyền và lợi ích gì, đây cũng là bước tiến của nghiên cứu dựa trên luật ban đầu sang nghiên cứu dựa trên kinh tế. ** Để thiết lập một thị trường dữ liệu, thị trường phải là một hành vi kinh tế. Loại hành vi kinh tế này đòi hỏi phải sử dụng nhiều công cụ kinh tế và lý thuyết kinh tế, vì vậy hiện nay từ nghiên cứu về khoa học dữ liệu, quản trị dữ liệu của nhà nước, đến nghiên cứu về dữ liệu trong học viện và kiểm soát dữ liệu trong ngành Việc sử dụng là một đại dương xanh và nó chỉ là trạng thái mới bắt đầu. **
**Tencent Technology: Từ quan điểm này, dữ liệu có thể tồn tại như một tài sản nhất định của doanh nghiệp, dữ liệu thuộc loại tài sản nào? **
**Giáo sư Zeng Xueyun:**Phân loại dữ liệu là một chủ đề rất nóng trong giới học thuật. Trong hầu hết các trường hợp, mọi người nghĩ rằng dữ liệu là vô hình, vô hình và vô hình, và nó được gọi là tài sản vô hình. Nhưng trên thực tế, theo cách phân loại của ITU, dữ liệu gần với tài sản tồn kho hơn, vì dữ liệu còn liên quan đến quá trình sản xuất và xử lý. Còn bản thân dữ liệu là tài sản hữu hình điện tử, tại sao lại là tài sản hữu hình điện tử? Dữ liệu sẽ chiếm không gian vật lý và rất nhiều dữ liệu tự nó có dạng vật lý, là dạng vật lý ở phía mạng. Hình ảnh, bạn có thể nhìn thấy bức tranh điện tử này; âm thanh, bạn có thể nghe thấy âm thanh này và chân dung, bạn có thể nhìn thấy bức chân dung này, vì vậy ** dữ liệu là một tài sản hữu hình kỹ thuật số. **
Chúng tôi biết rằng tài sản dữ liệu là một loại tài sản rất đặc biệt. Một số người sẽ gợi ý rằng dữ liệu có thể được so sánh với bản chất vô hình để khấu hao, hoặc tương tự như tài sản cố định để khấu hao. Trên thực tế, trước tiên bạn phải phân loại dữ liệu theo thứ bậc để xem dữ liệu đó thuộc loại nào. **Đối với một số loại dữ liệu nhất định, nó cũng có khả năng phát triển và khả năng hợp nhất. Ví dụ: nếu tất cả dữ liệu cuộc gọi của China Unicom có thể được tích hợp với dữ liệu đầu tư và tiền gửi ngân hàng cá nhân, thì có thể tạo ra chân dung của người này với nhiều thông tin hơn từ đầu tư và tài chính đến giao tiếp và sự nghiệp của anh ta. Tại thời điểm này, sẽ có hiệu ứng tích lũy của giá trị dữ liệu được tạo ra bởi sự hợp nhất của dữ liệu và dữ liệu. Tại thời điểm này, dữ liệu sẽ được hợp nhất và có thể phát triển. Ngoài ra còn có một phần dữ liệu thực sự nhạy cảm với thời gian và giá trị của nó sẽ giảm dần theo thời gian. Do đó, chúng ta vẫn cần phân tích cụ thể hơn các đặc điểm của dữ liệu để biết giá trị kế toán của nó và việc hạch toán giá trị dữ liệu có nhiều biến động và không chắc chắn hơn, không giống như tài sản cố định, cố định Giá trị tài sản tại thời điểm sự hình thành tài sản là chắc chắn, và khi thời gian trôi qua, giá trị giảm dần, nhưng dữ liệu không nhất thiết phải giảm theo thời gian và dữ liệu có dạng tài sản phức tạp hơn.
**Công nghệ Tencent: Dữ liệu trong tương lai có phải là một trong những năng lực cạnh tranh cốt lõi của các công ty AI không? Có thể định lượng tài sản dữ liệu và phản ánh trong định giá của công ty không? **
**Giáo sư Zeng Xueyun: **Đối với một công ty trí tuệ nhân tạo, **dữ liệu là khả năng cạnh tranh cốt lõi của nó. **Đối với một công ty AI, trải nghiệm sản phẩm xác định giá trị kinh doanh của công ty và khả năng dữ liệu xác định trải nghiệm sản phẩm. **Đối với một quốc gia, dữ liệu là sức cạnh tranh then chốt trong tương lai và nó cũng là vàng của tương lai, giống như dầu mỏ là vàng của thời đại công nghiệp và **dữ liệu là vàng của thời đại kinh tế Internet. **
Nhưng hiện nay, các quốc gia trên thế giới đang thực sự gặp khó khăn trong quản trị dữ liệu và chưa có quốc gia nào đi đầu trong việc tạo ra những đột phá, cách giải bài toán cân bằng giữa bảo mật dữ liệu, quản trị dữ liệu và phát triển, sử dụng dữ liệu. **
Về vấn đề này, Trung Quốc đã nhận thức sâu sắc về tầm quan trọng của dữ liệu. Các quốc gia đều nhận thức được rằng dữ liệu là một năng suất mới, nhưng sử dụng dữ liệu như thế nào thì cần có các tác nhân thị trường, công nghệ thông minh và quy định của quốc gia, vì vậy không phải là vấn đề đơn giản có thể giải quyết được, đó là vấn đề phức tạp của hệ thống.
Quản trị quốc gia của Trung Quốc là một sự sắp xếp tương đối tập trung từ trung ương đến địa phương, vì vậy chúng tôi đương nhiên có lợi thế trong việc tích hợp dữ liệu lớn trên toàn quốc, nhưng lợi thế này vẫn chưa được phản ánh và nó nằm ở việc định giá ** dữ liệu Có vấn đề định giá, định giá và vấn đề nhập số liệu vào báo cáo kế toán vẫn chưa được giải quyết. ** Không có giải pháp tốt cho vấn đề này trên thế giới.
**Nếu dữ liệu có thể được chuyển từ tài sản ngoại bảng sang tài sản nội bảng, thì việc hạch toán giá trị quản trị dữ liệu và quản lý giá trị dữ liệu có thể được giải quyết tốt và các giao dịch dữ liệu sẽ có cơ sở khách quan. ** Bây giờ dữ liệu công ty của chúng tôi về cơ bản là tài sản ngoại bảng, không định giá, không đo lường và báo cáo trên bảng cân đối kế toán nên không rõ công ty có bao nhiêu dữ liệu nên tính kinh tế của dữ liệu cũng khó để thống kê giá trị. Nếu dữ liệu không được nhập vào bảng, thì giao dịch của nó sẽ thiếu cơ sở hợp lý, ** vì vậy việc nhập dữ liệu vào bảng là vấn đề then chốt. **Để thống kê khối lượng dữ liệu, hạch toán giá dữ liệu và định giá giao dịch dữ liệu, Từ thống kê khối lượng đến hạch toán giá đến cơ sở giao dịch, cần nhập bảng cân đối kế toán và báo cáo thu nhập với dữ liệu , và nhập Kế toán cho báo cáo tài chính là một cơ sở cơ bản. Cơ sở tiềm ẩn này vẫn chưa được giải quyết.
**Tencent Technology: Đâu là tiền lệ quốc tế về luật sở hữu dữ liệu? **
**Giáo sư Zeng Xueyun: **Nghiên cứu về pháp luật về quyền sở hữu dữ liệu. Hiện tại, các quốc gia lớn trên thế giới đều có luật cơ bản về bảo vệ dữ liệu và họ ngày càng định vị rõ ràng việc thúc đẩy bảo vệ quyền nhân thân trong quyền sở hữu dữ liệu. nước tôi chú trọng thúc đẩy lưu thông các yếu tố dữ liệu, nhưng không có sự hỗ trợ, điều tiết, hướng dẫn của luật pháp và các quy định, chủ yếu dựa vào các văn bản hành chính, vốn còn nhiều bất cập về mặt lập pháp. Hiện tại, có một nhu cầu cấp thiết là dẫn đầu một cách sáng tạo hướng mới của việc xây dựng luật pháp toàn cầu về việc đẩy nhanh quy định về quyền sở hữu dữ liệu và lưu thông các yếu tố dữ liệu. Tình hình trong và ngoài nước như sau:
Các khía cạnh quốc tế: Quy định bảo vệ dữ liệu chung (GDPR) được Liên minh châu Âu thông qua vào năm 2016 hiện là luật bảo mật dữ liệu toàn diện và có ảnh hưởng nhất. "Quy định" đang phát triển theo hai hướng: tăng cường quyền của chủ thể dữ liệu, đảm bảo kiểm soát việc sử dụng dữ liệu cá nhân và tính đến bảo mật dữ liệu và luồng dữ liệu miễn phí. Trên cơ sở xác nhận và cải thiện các quyền hiện có của cá nhân, GDPR quy định quyền xóa (Điều 17) và quyền chuyển (Điều 20), v.v., nhằm đạt được sự kiểm soát hiệu quả hơn của chủ thể dữ liệu đối với dữ liệu cá nhân của họ , nhưng các điều khoản không Không có sự làm rõ về việc chuyển giao quyền sở hữu dữ liệu cá nhân và phân chia quyền sở hữu.
Mặc dù Hoa Kỳ đã bắt đầu hệ thống và khám phá lý thuyết về bảo vệ pháp lý quyền sở hữu dữ liệu sớm hơn, nhưng hầu hết các quy tắc liên quan đều nằm rải rác trong các dự luật khác nhau. Luật pháp của mỗi tiểu bang không tương thích với nhau, nhưng nó bao gồm nhiều lĩnh vực và có một số tính linh hoạt trong giải quyết tranh chấp thực tế để khuyến khích sử dụng dữ liệu. Ví dụ: "Đạo luật về quyền riêng tư của người tiêu dùng California năm 2018" ban hành năm 2018 và "Đạo luật quyền riêng tư của người tiêu dùng California năm 2020" ban hành năm 2020 đã tăng cường xác định quyền dữ liệu, bao gồm quyền truy cập, quyền xóa, quyền được biết, v.v. . Quyền riêng tư cá nhân của người tiêu dùng tăng cường bảo vệ quyền và lợi ích của chủ thể dữ liệu trong quá trình truyền dữ liệu, điều này cũng phản ánh từ phía Hoa Kỳ về việc cho phép sử dụng dữ liệu có giá trị kinh tế. Vào năm 2017, Nhật Bản đã xây dựng "Hướng dẫn về hợp đồng quyền sử dụng dữ liệu". Hướng dẫn đã xem xét đầy đủ các yếu tố như đóng góp của hợp đồng dữ liệu để tạo dữ liệu, gánh nặng chi phí lưu trữ và quản lý cũng như hợp đồng giao dịch dữ liệu được tiêu chuẩn hóa để thúc đẩy giao dịch dữ liệu. Điều này là một vấn đề lớn.tiến bộ, nhưng vẫn chưa có định nghĩa rõ ràng về quyền sở hữu dữ liệu.
Ở châu Âu, Hiến chương về các quyền cơ bản của EU và Quy định bảo vệ dữ liệu chung coi quyền bảo vệ dữ liệu cá nhân là quyền đặc biệt mà chủ thể dữ liệu được hưởng, không bao gồm bất kỳ quyền tài sản nào. Mặc dù các luật của EU như Quy định bảo vệ dữ liệu chung không quy định rõ ràng rằng bên kiểm soát dữ liệu được hưởng quyền sở hữu đối với dữ liệu là đối tượng, quyền và lợi ích đối với dữ liệu của họ có thể được bảo vệ thông qua bảo vệ cơ sở dữ liệu, bảo vệ luật bản quyền, bảo vệ bí mật thương mại, bảo vệ luật hợp đồng , và bảo vệ theo luật cạnh tranh, v.v. đều được bảo vệ. Ngoài ra, tài liệu "Xây dựng nền kinh tế dữ liệu châu Âu" do Ủy ban châu Âu ban hành cam kết giới thiệu "quyền của nhà sản xuất dữ liệu", cho phép những người kiểm soát dữ liệu có quyền sở hữu chung đối với dữ liệu phi cá nhân và dữ liệu cá nhân ẩn danh, cho phép họ sử dụng độc quyền của dữ liệu, bao gồm quyền cấp phép cho người khác sử dụng dữ liệu đó. Tại Hoa Kỳ, mặc dù một số học giả pháp lý tin rằng các cá nhân nên được trao quyền tài sản đối với thông tin cá nhân, nhưng các tòa án thường không công nhận các quyền tài sản đó. Trong một số trường hợp, tòa án Hoa Kỳ cho rằng các công ty có quyền sở hữu đối với dữ liệu mà họ nắm giữ. Kinh nghiệm pháp lý trong và ngoài nước về quyền sở hữu dữ liệu cho thấy rằng "tách biệt nguồn nhân lực và của cải" nên trở thành đề xuất lý thuyết cốt lõi để xây dựng hệ thống quyền sở hữu dữ liệu của đất nước tôi.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Đằng sau đào tạo mô hình lớn AI, một chuỗi công nghiệp dữ liệu đang hình thành
Tác giả: Guo Xiaojing, Tencent Technology
“Làm nên kỳ tích” và “mỹ học bạo lực”, hai từ này luôn xuất hiện cùng với các cuộc thảo luận của ChatGPT. Đối với "mạnh mẽ" và "bạo lực", ngoài "sức mạnh tính toán khổng lồ", còn có lượng dữ liệu khổng lồ. Marc Andreessen, người sáng lập a16z, cũng chỉ ra tại hội nghị Data+AI rằng lượng dữ liệu khổng lồ được Internet tích lũy trong hai thập kỷ qua là một lý do quan trọng cho sự trỗi dậy của làn sóng AI mới này, bởi vì cái trước cung cấp cái sau. với dữ liệu có thể dùng để huấn luyện.
Theo OpenAI, GPT-3.5 có kho văn bản lên tới 45TB, tương đương 4,72 triệu bộ Tứ đại danh tác của Trung Quốc, trong khi GPT-4 bổ sung dữ liệu đa phương thức cho bộ dữ liệu đào tạo GPT-3 và GPT-3.5 . Vào ngày 18 tháng 7, Meta, công ty mẹ của Facebook, đã phát hành Llama2, mô hình ngôn ngữ lớn mã nguồn mở và thương mại đầu tiên, với dự kiến đào tạo trước sẽ đạt 2 nghìn tỷ mã thông báo.
Khả năng thu được lượng dữ liệu khổng lồ chất lượng cao được coi là một trong những năng lực cạnh tranh cốt lõi của các công ty mô hình quy mô lớn trong tương lai, đồng thời cũng là điều bắt buộc đối với cuộc chạy đua vũ trang AI của các đại gia lớn. Dữ liệu cũng được xem là yếu tố then chốt của sản xuất quyết định sự phát triển trong tương lai. Theo thống kê của "Báo cáo phát triển Trung Quốc kỹ thuật số (2022)", tiềm năng của nền kinh tế kỹ thuật số do các yếu tố dữ liệu giải phóng sẽ vô cùng to lớn. Sản lượng dữ liệu của nước tôi sẽ đạt 8,1ZB vào năm 2022, chiếm 10,5% toàn cầu, đứng thứ hai thế giới.Phát triển kinh tế số đi đầu.
Tuy nhiên, dữ liệu, với tư cách là một yếu tố sản xuất hoàn toàn mới, cũng đặt ra hàng loạt vấn đề cần giải quyết cấp bách: hiểu dữ liệu như thế nào? Làm thế nào để xác nhận quyền dữ liệu? Làm thế nào để khai thác giá trị của dữ liệu? Nó thực sự có thể được mua bán và lưu thông không? Dữ liệu có thực sự được đưa vào báo cáo tài chính của doanh nghiệp như một tài sản không? Bảo mật được quản lý như thế nào? Để đạt được điều này, chúng tôi đã trò chuyện với Giáo sư Zeng Xueyun, Phó Viện trưởng Viện Khoa học và Công nghệ của Đại học Bưu chính Viễn thông Bắc Kinh**, và yêu cầu cô ấy trả lời sâu các câu hỏi liên quan.
Sau đây là nội dung cuộc trò chuyện:
**Công nghệ Tencent: Người bình thường có thể lo lắng, dữ liệu để đào tạo mô hình lớn đến từ đâu? Có bất kỳ việc sử dụng dữ liệu cá nhân nào của tôi không và liệu có vấn đề gì với quyền đối với những dữ liệu này không? **
**Giáo sư Zeng Xueyun: Dữ liệu được tính toán bởi **mô hình lớn là dữ liệu cá nhân. So với dữ liệu của công ty, dữ liệu cá nhân có vấn đề về quyền sở hữu. **Về nguyên tắc, tôi là người làm chủ dữ liệu của mình. ** Ví dụ: dữ liệu được tạo trên phần mềm xã hội, về nguyên tắc, công ty sở hữu phần mềm xã hội đó không thể sử dụng dữ liệu cá nhân của tôi. được quy định bởi "Luật bảo vệ thông tin cá nhân".
Vì vậy, nếu nó được sử dụng để tính toán mô hình lớn, làm thế nào để sử dụng nó? Về mặt công nghệ, cần phải thực hiện xử lý ẩn danh, và về mặt vận hành, cũng cần có một thực thể thị trường, đó là **trao cho một công ty nào đó quyền hợp pháp để vận hành những dữ liệu này , nói cách khác, cung cấp cho những dữ liệu này Tìm một chủ đề thị trường. **Khi đối tượng định hướng thị trường có được dữ liệu, họ cần đầu tư nhân lực, thời gian, trí tuệ và vốn để tạo ra dữ liệu, mà tất cả chúng ta có thể gọi là đầu vào lao động. Sau khi lao động đầu vào, thông tin dữ liệu thuộc về cá nhân được dẫn xuất thành một loại dữ liệu tái tạo của công ty hoặc dữ liệu thứ cấp. Sau đó, dữ liệu thứ cấp tạo dữ liệu thủ tục, rồi đến các sản phẩm dữ liệu và dịch vụ dữ liệu. Lúc này, dữ liệu gốc của cá nhân với tư cách là chủ sở hữu dữ liệu của cá nhân được chuyển thành sản phẩm, dịch vụ dữ liệu cho doanh nghiệp. Đây là một quy trình sản xuất.
**Tentent Technology: Có thể hiểu rằng các công ty Internet lấy dữ liệu cá nhân thông qua ủy quyền và sau khi các công ty này xử lý quy trình, chúng có thể trở thành một loại tài sản dữ liệu nào đó của công ty không? **
Giáo sư Zeng Xueyun: Cũng có thể hiểu rằng cá nhân chúng ta tạo ra một lượng lớn dữ liệu trên Internet, giống như các nguồn tài nguyên thiên nhiên khác nhau trong tự nhiên. Ví dụ, nhiều hoa và cây có thể mọc trên đất và nhiều tài nguyên có thể phát triển. Loại tài nguyên này là loại tài nguyên công cộng, có thể khai thác và sử dụng, nhưng không thể trực tiếp mua bán. Những gì được tạo ra sau khi sử dụng và xử lý là tài sản của doanh nghiệp, điều này được cho phép và chúng ta cũng nên khuyến khích phát triển các yếu tố sản xuất dữ liệu theo cách này.
**Tencent Technology: Từ quan điểm cá nhân, làm cách nào để bảo vệ dữ liệu cá nhân của chúng ta và để chúng lưu chuyển theo cách chúng ta muốn? **
**Giáo sư Zeng Xueyun: **Trong thời đại trí tuệ nhân tạo, quyền riêng tư của con người ngày càng trở nên khó bảo vệ. Bởi vì tất cả các hành vi của mọi người đang được ghi lại, sự chuyển động của vị trí địa lý, cuộc sống, công việc, chế độ ăn uống và cuộc sống hàng ngày đều được ghi lại. Sau khi được ghi lại, thông tin ban đầu thuộc về chúng tôi không còn có thể được kiểm soát bởi thủ phạm. Do đó, tại thời điểm này, nguy cơ rò rỉ quyền riêng tư là rất cao, nhiệm vụ bảo vệ dữ liệu cũng rất nặng nề và việc bảo vệ dữ liệu cũng rất khó khăn.
Làm thế nào để mọi người bảo vệ quyền dữ liệu của họ? Trên thực tế, các quốc gia khác nhau cũng có một số phương pháp thương mại. Loại thứ nhất, như Nhật Bản, sử dụng ngân hàng dữ liệu, tức là mọi người đều có thể lưu trữ dữ liệu trong ngân hàng dữ liệu giống như gửi tiền vào ngân hàng. Ngân hàng dữ liệu là người giám sát dữ liệu, nó cũng có thể đóng vai trò là nhà phát triển giá trị dữ liệu ban đầu và các cá nhân cũng có thể nhận được một số lợi ích nhất định. Điều này có nghĩa là nó cho phép một số người sẵn sàng tiết lộ và sử dụng dữ liệu của riêng họ ở một mức độ nhất định có một mô hình kinh doanh để giải quyết các vấn đề bảo vệ dữ liệu theo cách tự chọn. Nói cách khác, xây dựng các mô hình lưu thông dữ liệu hợp pháp, phát triển và sử dụng dữ liệu hợp pháp, đây là một phần.
**Phần còn lại là cá nhân tôi không muốn nên sẽ không ủy quyền cho chủ sở hữu dữ liệu. **Trong trường hợp không được phép, quốc gia đó phải tăng cường bảo vệ dữ liệu. Nếu ai muốn phát triển trái phép phần dữ liệu này thì phải bị trừng phạt và giám sát về mặt pháp lý Công nghệ chuỗi khối có thể được sử dụng để theo dõi những hành vi như vậy. Ví dụ: dữ liệu của chúng tôi có bị rò rỉ hay không và rò rỉ ở đâu để theo dõi luồng dữ liệu. Cũng có thể theo dõi và phân tích mối quan hệ họ hàng dữ liệu, và hiện nay đã có công nghệ mối quan hệ họ hàng dữ liệu. Nói một cách đại khái, **Dữ liệu đến từ đâu và đi đâu? Phân tích dòng dữ liệu thực chất là một loại phân tích tương quan dữ liệu và truy xuất nguồn gốc dữ liệu. . Mọi thứ đang được ghi lại, vì vậy việc ghi lại dữ liệu và công nghệ của người khác cũng có thể được ghi lại, công khai và xâm nhập.
"Bộ luật Dân sự" của nước tôi đã đưa ra các quy định đặc biệt về bảo vệ thông tin cá nhân trong chương về quyền nhân thân. Điều 127 của "Bộ luật Dân sự" đặt dữ liệu cạnh tài sản ảo mạng, làm nổi bật thuộc tính tài sản của dữ liệu. Trong luật pháp địa phương, các quy định tại Điều 12 của "Quy định dữ liệu thành phố Thượng Hải" phản ánh trực tiếp mô hình phân bổ quyền của "hai bộ phận nhân lực và của cải". Bài báo này quy định: "Thành phố này bảo vệ các quyền và lợi ích nhân cách của các thể nhân liên quan đến thông tin cá nhân của họ theo quy định của pháp luật." Cũng như các quyền và lợi ích hợp pháp về tài sản có được trong các hoạt động đổi mới dữ liệu có liên quan trong quá trình phát triển kỹ thuật số. kinh tế."
Vào ngày 20 tháng 8 năm 2021, phiên họp thứ 30 của Ủy ban Thường vụ Đại hội đại biểu nhân dân toàn quốc khóa 13 đã biểu quyết thông qua "Luật bảo vệ thông tin cá nhân của nước Cộng hòa nhân dân Trung Hoa", sẽ có hiệu lực vào ngày 1 tháng 11 năm 2021. Thông tin chi tiết có thể được tìm thấy trực tuyến. Bản chất tư pháp của thông tin cá nhân trong "Luật bảo vệ thông tin cá nhân" cũng là bảo vệ quyền và lợi ích cá nhân, hầu như không liên quan đến quyền và lợi ích tài sản của thông tin cá nhân.
**Công nghệ Tencent: Loại dữ liệu chất lượng cao nào là quan trọng đối với đào tạo mô hình lớn? **
**Giáo sư Zeng Xueyun: **Dữ liệu phải là tất cả các ghi chép về các hoạt động kinh tế, xã hội, sản xuất, quản lý, thương mại và thậm chí cả quân sự của con người. Một kỷ lục như vậy được tạo ra trong các ngành, lĩnh vực và khía cạnh khác nhau. Đối với dữ liệu thô, nó có chất lượng cao và thấp. Ví dụ: báo cáo tài chính và dữ liệu tài chính của **công ty niêm yết là dữ liệu chất lượng cao và là dữ liệu có cấu trúc. ** Bởi vì loại báo cáo tài chính và thông tin tài chính này đã được xã hội kiểm toán và kiểm toán bởi các kế toán viên công được chứng nhận và Ủy ban Điều tiết Chứng khoán Trung Quốc giám sát việc tiết lộ thông tin nên đây là dữ liệu chất lượng cao. Ví dụ khác, dữ liệu giấy trong **CNKI cũng là dữ liệu chất lượng cao. **Tuy nhiên, dữ liệu được tạo trên Internet là dữ liệu phi cấu trúc và không được chuẩn hóa. Dữ liệu như vậy là loại dữ liệu gốc, lộn xộn và không được kiểm soát, cần phải làm sạch chi tiết trước khi tính toán, vì vậy dữ liệu chất lượng cao thường có quá trình chuyển đổi từ phi cấu trúc sang có cấu trúc trong quá trình xử lý. **
**Công nghệ Tencent: Vì dữ liệu chất lượng cao có thể được tạo ra liên tục, tại sao lại có câu nói rằng "dữ liệu chất lượng cao đã gần hết"? **
Giáo sư Zeng Xueyun: Tôi nghĩ rằng khả năng sản xuất và xử lý dữ liệu không thể theo kịp nhu cầu về dữ liệu của mọi người và năng suất của toàn bộ chuỗi giá trị chuỗi cung ứng để sản xuất và xử lý dữ liệu vẫn còn tương đối yếu. Vì chúng ta biết rằng dữ liệu không ngừng bùng nổ nhưng dữ liệu chất lượng cao thì ngày càng cạn kiệt, điều đó chỉ có nghĩa là trong quá trình từ dữ liệu đến dữ liệu chất lượng cao, chúng ta thiếu một loại năng suất và khả năng tích hợp. Tại thời điểm này, các nhà cung cấp dữ liệu là cần thiết. Nhiều nhà cung cấp dữ liệu hiện tại của chúng tôi chỉ sử dụng dữ liệu trực tiếp, nhưng để sản xuất và xử lý dữ liệu cũng như cách tạo ra dữ liệu chất lượng cao, khả năng của lĩnh vực này hoặc thiết kế của các mô hình kinh doanh vẫn chưa đủ.
Trên thực tế, GPT-4 của OpenAI sử dụng một lượng lớn dữ liệu do mô hình thế hệ trước GPT-3.5 tạo ra để đào tạo. Người sáng lập OpenAI cũng cho biết trong một cuộc phỏng vấn gần đây: "Dữ liệu tổng hợp là một cách hiệu quả để giải quyết tình trạng thiếu dữ liệu mô hình lớn. Điều quan trọng là có cả một hệ thống để phân biệt dữ liệu nào do AI tạo ra và dữ liệu nào không có sẵn .Và tiếp tục đưa ra phản hồi dựa trên hiệu quả của mô hình được đào tạo.” Công ty này không chỉ có khả năng huy động tiền, đơn giản như vậy còn có thể kiểm soát rất nhiều sức mạnh tính toán, và khả năng công nghệ sản phẩm của dữ liệu cũng là một trong những năng lực cạnh tranh cốt lõi của công ty này.
**Công nghệ Tencent: Để cải thiện năng suất dữ liệu chất lượng cao, các liên kết cần thiết trong kiểu dáng công nghiệp là gì? **
Giáo sư Zeng Xueyun: Về câu hỏi này, trước tiên chúng ta phải hiểu dữ liệu là gì? Chúng ta có dữ liệu gì? Và phải làm gì với dữ liệu? Điều đó có nghĩa là, để tạo ra dữ liệu chất lượng cao, không có nghĩa là có năng lực sản xuất để có dữ liệu chất lượng cao và cũng không có nghĩa là sẵn sàng tạo ra dữ liệu chất lượng cao. Nó phải hiểu dữ liệu từ nguồn Những vấn đề nào trong xã hội nên được giải quyết với dữ liệu? Đâu là nhu cầu của thị trường về dữ liệu? Sau đó, từ dữ liệu ban đầu đến bên cầu, chúng ta nên sản xuất ở giữa như thế nào? Một loạt vấn đề này đòi hỏi thiết kế công nghiệp và tư duy tổng thể hiện tại là không đủ.
**Công nghệ Tencent: Sự non nớt của ngành là một khía cạnh, phải chăng ngành này vẫn là một đại dương xanh? **
**Giáo sư Zeng Xueyun: **Một đại dương xanh rất sớm. Trong những ngày đầu, có một số trường hợp giao dịch dữ liệu trực tiếp bất hợp pháp, sau đó, luật pháp quốc gia không còn có thể trực tiếp mua và bán dữ liệu cũng như không còn giao dịch dữ liệu thô. Dữ liệu không thể được sử dụng cho các giao dịch ban đầu. Nó phải là kết quả của việc đầu tư vào sản xuất của chính mình để thực hiện các giao dịch, thay vì nói rằng tôi có một số dữ liệu và tôi trực tiếp bán dữ liệu. Điều này không được phép.
Vào năm 2022 (tháng 12), "Hai mươi điều khoản dữ liệu" đã được ban hành. "Hai mươi điều khoản dữ liệu" đưa ra các yêu cầu đối với việc tách quyền sở hữu dữ liệu và đa sở hữu quyền sở hữu dữ liệu, quyền quản lý và quyền có lợi. Bộ phận đã đề cập rằng dữ liệu nên được quản lý trong danh mục phân cấp này. Đây là thiết kế cấp cao nhất về quản trị dữ liệu và một kế hoạch chi tiết tổng thể. Cũng có thể nói rằng đó là sự khởi đầu cho sự phát triển tiêu chuẩn hóa của ngành dữ liệu trong tương lai. Lúc này, mọi người nhận ra rằng dữ liệu không phải là một tổng thể, và họ cần hiểu dữ liệu có những quyền và lợi ích gì, đây cũng là bước tiến của nghiên cứu dựa trên luật ban đầu sang nghiên cứu dựa trên kinh tế. ** Để thiết lập một thị trường dữ liệu, thị trường phải là một hành vi kinh tế. Loại hành vi kinh tế này đòi hỏi phải sử dụng nhiều công cụ kinh tế và lý thuyết kinh tế, vì vậy hiện nay từ nghiên cứu về khoa học dữ liệu, quản trị dữ liệu của nhà nước, đến nghiên cứu về dữ liệu trong học viện và kiểm soát dữ liệu trong ngành Việc sử dụng là một đại dương xanh và nó chỉ là trạng thái mới bắt đầu. **
**Tencent Technology: Từ quan điểm này, dữ liệu có thể tồn tại như một tài sản nhất định của doanh nghiệp, dữ liệu thuộc loại tài sản nào? **
**Giáo sư Zeng Xueyun:**Phân loại dữ liệu là một chủ đề rất nóng trong giới học thuật. Trong hầu hết các trường hợp, mọi người nghĩ rằng dữ liệu là vô hình, vô hình và vô hình, và nó được gọi là tài sản vô hình. Nhưng trên thực tế, theo cách phân loại của ITU, dữ liệu gần với tài sản tồn kho hơn, vì dữ liệu còn liên quan đến quá trình sản xuất và xử lý. Còn bản thân dữ liệu là tài sản hữu hình điện tử, tại sao lại là tài sản hữu hình điện tử? Dữ liệu sẽ chiếm không gian vật lý và rất nhiều dữ liệu tự nó có dạng vật lý, là dạng vật lý ở phía mạng. Hình ảnh, bạn có thể nhìn thấy bức tranh điện tử này; âm thanh, bạn có thể nghe thấy âm thanh này và chân dung, bạn có thể nhìn thấy bức chân dung này, vì vậy ** dữ liệu là một tài sản hữu hình kỹ thuật số. **
Chúng tôi biết rằng tài sản dữ liệu là một loại tài sản rất đặc biệt. Một số người sẽ gợi ý rằng dữ liệu có thể được so sánh với bản chất vô hình để khấu hao, hoặc tương tự như tài sản cố định để khấu hao. Trên thực tế, trước tiên bạn phải phân loại dữ liệu theo thứ bậc để xem dữ liệu đó thuộc loại nào. **Đối với một số loại dữ liệu nhất định, nó cũng có khả năng phát triển và khả năng hợp nhất. Ví dụ: nếu tất cả dữ liệu cuộc gọi của China Unicom có thể được tích hợp với dữ liệu đầu tư và tiền gửi ngân hàng cá nhân, thì có thể tạo ra chân dung của người này với nhiều thông tin hơn từ đầu tư và tài chính đến giao tiếp và sự nghiệp của anh ta. Tại thời điểm này, sẽ có hiệu ứng tích lũy của giá trị dữ liệu được tạo ra bởi sự hợp nhất của dữ liệu và dữ liệu. Tại thời điểm này, dữ liệu sẽ được hợp nhất và có thể phát triển. Ngoài ra còn có một phần dữ liệu thực sự nhạy cảm với thời gian và giá trị của nó sẽ giảm dần theo thời gian. Do đó, chúng ta vẫn cần phân tích cụ thể hơn các đặc điểm của dữ liệu để biết giá trị kế toán của nó và việc hạch toán giá trị dữ liệu có nhiều biến động và không chắc chắn hơn, không giống như tài sản cố định, cố định Giá trị tài sản tại thời điểm sự hình thành tài sản là chắc chắn, và khi thời gian trôi qua, giá trị giảm dần, nhưng dữ liệu không nhất thiết phải giảm theo thời gian và dữ liệu có dạng tài sản phức tạp hơn.
**Công nghệ Tencent: Dữ liệu trong tương lai có phải là một trong những năng lực cạnh tranh cốt lõi của các công ty AI không? Có thể định lượng tài sản dữ liệu và phản ánh trong định giá của công ty không? **
**Giáo sư Zeng Xueyun: **Đối với một công ty trí tuệ nhân tạo, **dữ liệu là khả năng cạnh tranh cốt lõi của nó. **Đối với một công ty AI, trải nghiệm sản phẩm xác định giá trị kinh doanh của công ty và khả năng dữ liệu xác định trải nghiệm sản phẩm. **Đối với một quốc gia, dữ liệu là sức cạnh tranh then chốt trong tương lai và nó cũng là vàng của tương lai, giống như dầu mỏ là vàng của thời đại công nghiệp và **dữ liệu là vàng của thời đại kinh tế Internet. **
Nhưng hiện nay, các quốc gia trên thế giới đang thực sự gặp khó khăn trong quản trị dữ liệu và chưa có quốc gia nào đi đầu trong việc tạo ra những đột phá, cách giải bài toán cân bằng giữa bảo mật dữ liệu, quản trị dữ liệu và phát triển, sử dụng dữ liệu. **
Về vấn đề này, Trung Quốc đã nhận thức sâu sắc về tầm quan trọng của dữ liệu. Các quốc gia đều nhận thức được rằng dữ liệu là một năng suất mới, nhưng sử dụng dữ liệu như thế nào thì cần có các tác nhân thị trường, công nghệ thông minh và quy định của quốc gia, vì vậy không phải là vấn đề đơn giản có thể giải quyết được, đó là vấn đề phức tạp của hệ thống.
Quản trị quốc gia của Trung Quốc là một sự sắp xếp tương đối tập trung từ trung ương đến địa phương, vì vậy chúng tôi đương nhiên có lợi thế trong việc tích hợp dữ liệu lớn trên toàn quốc, nhưng lợi thế này vẫn chưa được phản ánh và nó nằm ở việc định giá ** dữ liệu Có vấn đề định giá, định giá và vấn đề nhập số liệu vào báo cáo kế toán vẫn chưa được giải quyết. ** Không có giải pháp tốt cho vấn đề này trên thế giới.
**Nếu dữ liệu có thể được chuyển từ tài sản ngoại bảng sang tài sản nội bảng, thì việc hạch toán giá trị quản trị dữ liệu và quản lý giá trị dữ liệu có thể được giải quyết tốt và các giao dịch dữ liệu sẽ có cơ sở khách quan. ** Bây giờ dữ liệu công ty của chúng tôi về cơ bản là tài sản ngoại bảng, không định giá, không đo lường và báo cáo trên bảng cân đối kế toán nên không rõ công ty có bao nhiêu dữ liệu nên tính kinh tế của dữ liệu cũng khó để thống kê giá trị. Nếu dữ liệu không được nhập vào bảng, thì giao dịch của nó sẽ thiếu cơ sở hợp lý, ** vì vậy việc nhập dữ liệu vào bảng là vấn đề then chốt. **Để thống kê khối lượng dữ liệu, hạch toán giá dữ liệu và định giá giao dịch dữ liệu, Từ thống kê khối lượng đến hạch toán giá đến cơ sở giao dịch, cần nhập bảng cân đối kế toán và báo cáo thu nhập với dữ liệu , và nhập Kế toán cho báo cáo tài chính là một cơ sở cơ bản. Cơ sở tiềm ẩn này vẫn chưa được giải quyết.
**Tencent Technology: Đâu là tiền lệ quốc tế về luật sở hữu dữ liệu? **
**Giáo sư Zeng Xueyun: **Nghiên cứu về pháp luật về quyền sở hữu dữ liệu. Hiện tại, các quốc gia lớn trên thế giới đều có luật cơ bản về bảo vệ dữ liệu và họ ngày càng định vị rõ ràng việc thúc đẩy bảo vệ quyền nhân thân trong quyền sở hữu dữ liệu. nước tôi chú trọng thúc đẩy lưu thông các yếu tố dữ liệu, nhưng không có sự hỗ trợ, điều tiết, hướng dẫn của luật pháp và các quy định, chủ yếu dựa vào các văn bản hành chính, vốn còn nhiều bất cập về mặt lập pháp. Hiện tại, có một nhu cầu cấp thiết là dẫn đầu một cách sáng tạo hướng mới của việc xây dựng luật pháp toàn cầu về việc đẩy nhanh quy định về quyền sở hữu dữ liệu và lưu thông các yếu tố dữ liệu. Tình hình trong và ngoài nước như sau:
Các khía cạnh quốc tế: Quy định bảo vệ dữ liệu chung (GDPR) được Liên minh châu Âu thông qua vào năm 2016 hiện là luật bảo mật dữ liệu toàn diện và có ảnh hưởng nhất. "Quy định" đang phát triển theo hai hướng: tăng cường quyền của chủ thể dữ liệu, đảm bảo kiểm soát việc sử dụng dữ liệu cá nhân và tính đến bảo mật dữ liệu và luồng dữ liệu miễn phí. Trên cơ sở xác nhận và cải thiện các quyền hiện có của cá nhân, GDPR quy định quyền xóa (Điều 17) và quyền chuyển (Điều 20), v.v., nhằm đạt được sự kiểm soát hiệu quả hơn của chủ thể dữ liệu đối với dữ liệu cá nhân của họ , nhưng các điều khoản không Không có sự làm rõ về việc chuyển giao quyền sở hữu dữ liệu cá nhân và phân chia quyền sở hữu.
Mặc dù Hoa Kỳ đã bắt đầu hệ thống và khám phá lý thuyết về bảo vệ pháp lý quyền sở hữu dữ liệu sớm hơn, nhưng hầu hết các quy tắc liên quan đều nằm rải rác trong các dự luật khác nhau. Luật pháp của mỗi tiểu bang không tương thích với nhau, nhưng nó bao gồm nhiều lĩnh vực và có một số tính linh hoạt trong giải quyết tranh chấp thực tế để khuyến khích sử dụng dữ liệu. Ví dụ: "Đạo luật về quyền riêng tư của người tiêu dùng California năm 2018" ban hành năm 2018 và "Đạo luật quyền riêng tư của người tiêu dùng California năm 2020" ban hành năm 2020 đã tăng cường xác định quyền dữ liệu, bao gồm quyền truy cập, quyền xóa, quyền được biết, v.v. . Quyền riêng tư cá nhân của người tiêu dùng tăng cường bảo vệ quyền và lợi ích của chủ thể dữ liệu trong quá trình truyền dữ liệu, điều này cũng phản ánh từ phía Hoa Kỳ về việc cho phép sử dụng dữ liệu có giá trị kinh tế. Vào năm 2017, Nhật Bản đã xây dựng "Hướng dẫn về hợp đồng quyền sử dụng dữ liệu". Hướng dẫn đã xem xét đầy đủ các yếu tố như đóng góp của hợp đồng dữ liệu để tạo dữ liệu, gánh nặng chi phí lưu trữ và quản lý cũng như hợp đồng giao dịch dữ liệu được tiêu chuẩn hóa để thúc đẩy giao dịch dữ liệu. Điều này là một vấn đề lớn.tiến bộ, nhưng vẫn chưa có định nghĩa rõ ràng về quyền sở hữu dữ liệu.
Ở châu Âu, Hiến chương về các quyền cơ bản của EU và Quy định bảo vệ dữ liệu chung coi quyền bảo vệ dữ liệu cá nhân là quyền đặc biệt mà chủ thể dữ liệu được hưởng, không bao gồm bất kỳ quyền tài sản nào. Mặc dù các luật của EU như Quy định bảo vệ dữ liệu chung không quy định rõ ràng rằng bên kiểm soát dữ liệu được hưởng quyền sở hữu đối với dữ liệu là đối tượng, quyền và lợi ích đối với dữ liệu của họ có thể được bảo vệ thông qua bảo vệ cơ sở dữ liệu, bảo vệ luật bản quyền, bảo vệ bí mật thương mại, bảo vệ luật hợp đồng , và bảo vệ theo luật cạnh tranh, v.v. đều được bảo vệ. Ngoài ra, tài liệu "Xây dựng nền kinh tế dữ liệu châu Âu" do Ủy ban châu Âu ban hành cam kết giới thiệu "quyền của nhà sản xuất dữ liệu", cho phép những người kiểm soát dữ liệu có quyền sở hữu chung đối với dữ liệu phi cá nhân và dữ liệu cá nhân ẩn danh, cho phép họ sử dụng độc quyền của dữ liệu, bao gồm quyền cấp phép cho người khác sử dụng dữ liệu đó. Tại Hoa Kỳ, mặc dù một số học giả pháp lý tin rằng các cá nhân nên được trao quyền tài sản đối với thông tin cá nhân, nhưng các tòa án thường không công nhận các quyền tài sản đó. Trong một số trường hợp, tòa án Hoa Kỳ cho rằng các công ty có quyền sở hữu đối với dữ liệu mà họ nắm giữ. Kinh nghiệm pháp lý trong và ngoài nước về quyền sở hữu dữ liệu cho thấy rằng "tách biệt nguồn nhân lực và của cải" nên trở thành đề xuất lý thuyết cốt lõi để xây dựng hệ thống quyền sở hữu dữ liệu của đất nước tôi.