«Творити чудеса» та «насильницька естетика», ці два слова завжди з’являлися під час обговорення ChatGPT. Що стосується «енергійних» і «насильницьких», окрім «величезної обчислювальної потужності», є також величезні обсяги даних. Марк Андріссен, засновник a16z, також зазначив на конференції Data+AI, що величезні дані, накопичені Інтернетом за останні два десятиліття, є важливою причиною підйому цієї нової хвилі ШІ, оскільки перший забезпечує другий з даними навчання.
Відповідно до OpenAI, GPT-3.5 має текстовий корпус розміром до 45 ТБ, що еквівалентно 4,72 мільйонам наборів чотирьох основних китайських класичних текстів, тоді як GPT-4 додає мультимодальні дані до наборів навчальних даних GPT-3 і GPT-3.5. . 18 липня Meta, материнська компанія Facebook, випустила Llama2, першу модель великої мови з відкритим вихідним кодом і комерційно доступну, попереднє навчання якої, як очікується, досягне 2 трильйонів токенів.
Здатність отримувати величезні обсяги високоякісних даних вважається однією з основних конкурентоспроможностей майбутніх великих модельних компаній, а також є обов’язковою для гонки озброєнь ШІ великих гігантів. Дані також розглядаються як ключовий фактор виробництва, який визначає майбутній розвиток. Згідно зі статистичними даними «Звіту про розвиток цифрового Китаю (2022)», потенціал цифрової економіки, вивільнений елементами даних, буде надзвичайно величезним. Обсяг даних моєї країни досягне 8,1 ZB у 2022 році, що становитиме 10,5% світового, займає друге місце у світі Цифрова економіка Розвиток на передньому плані.
Однак дані, як абсолютно новий фактор виробництва, також приносять низку проблем, які необхідно терміново вирішити: як розуміти дані? Як підтвердити права на дані? Як видобути цінність даних? Чи справді ним можна торгувати та розповсюджувати? Чи дійсно дані можуть бути включені до фінансової звітності підприємства як актив? Як здійснюється безпека? З цією метою ми поспілкувалися з професором Цзен Сюеюнь, заступником декана Інституту науки і технологій Пекінського університету пошти та телекомунікацій**, і попросили її детально відповісти на актуальні запитання.
Стенограма розмови:
**Технологія Tencent: звичайні люди можуть хвилюватися, звідки беруться дані для навчання великих моделей? Чи використовуються мої персональні дані, і чи виникнуть проблеми з правами на ці дані? **
**Професор Цзен Сюеюнь: Дані, обчислені за допомогою **великої моделі, є персональними даними. Порівняно з корпоративними даними, особисті дані мають проблему власності. **В принципі, я господар своїх даних. **Наприклад, дані, створені в соціальному програмному забезпеченні, в принципі, компанія, якій належить соціальне програмне забезпечення, не може використовувати мої особисті дані. Хоча ці компанії фактично контролюють дані через авторизацію за замовчуванням, як використовувати конкретні дані, це має регулюється «Законом про захист персональної інформації».
Отже, якщо його використовувати для обчислень великої моделі, як його використовувати? З точки зору технології, необхідно провести обробку анонімізації, а з точки зору роботи, також є потреба в суб’єкті ринку, який має **надати певній компанії законне право оперувати цими даними. , іншими словами, надайте ці дані Знайдіть суб'єкта ринку. **Коли суб’єкт, орієнтований на ринок, отримує дані, йому потрібно інвестувати робочу силу, час, інтелект і капітал для отримання даних, що ми всі можемо назвати затратами праці. Після трудового вкладу інформація про дані, що належить особі, перетворюється на свого роду відновлені дані компанії або вторинні дані. Потім вторинні дані генерують процедурні дані, а потім – продукти даних і служби даних. У цей час вихідні індивідуальні дані з фізичними особами як власниками даних перетворюються на продукти та послуги даних для підприємств. Це процес виробництва.
**Tencent Technology: чи можна зрозуміти, що інтернет-компанії отримують персональні дані через авторизацію, і після того, як ці компанії оброблять процес, вони можуть стати певним видом активів даних компанії? **
Професор Цзен Сюеюнь: Можна також зрозуміти, що ми особисто генеруємо велику кількість даних в Інтернеті, як і різні природні ресурси в природі. Наприклад, на землі може рости багато квітів і дерев, рости багато ресурсів. Цей вид ресурсу є різновидом суспільного ресурсу, який можна розвивати та використовувати, але не можна безпосередньо купувати чи продавати. Те, що створюється після використання та обробки, є активами підприємства, це дозволено, і ми також повинні заохочувати розвиток факторів виробництва даних таким чином.
**Tencent Technology: як із індивідуальної точки зору захистити наші особисті дані та дозволити їм передаватись так, як ми хочемо? **
**Професор Цзен Сюеюнь: **В епоху штучного інтелекту конфіденційність людей стає все важче захистити. Оскільки реєструється вся поведінка людей, реєструється зміна географічного положення, життя, робота, дієта та повсякденне життя. Після запису інформація, яка спочатку належала нам, більше не може контролюватися зловмисником. Таким чином, у цей час ризик витоку конфіденційності дуже високий, завдання захисту даних також дуже важке, і захист даних також дуже складний.
Як люди захищають свої права на дані? Насправді різні країни також мають деякі комерційні методи. Перший тип, як і в Японії, використовує банк даних, тобто кожен може зберігати дані в банку даних так само, як робити депозит у банку. Банк даних є зберігачем даних, а також може служити оригінальним розробником цінності даних, а також окремі особи можуть отримати певні переваги. Це означає, що це дозволяє деяким людям, які готові розкривати та використовувати власні дані певною мірою, мати бізнес-модель для вирішення питань захисту даних у спосіб, який вони вибрали. Іншими словами, побудова юридичного обігу даних, розробки юридичних даних і моделі використання, це частина.
**Інша частина полягає в тому, що я особисто цього не хочу, тому я не дозволяю власника даних. **За відсутності авторизації країна повинна посилити захист даних. Якщо хтось хоче незаконно розробити цю частину даних, він повинен бути покараний і під юридичним наглядом. Для відстеження такої поведінки можна використовувати технологію блокчейн. Наприклад, чи стався витік наших даних і де він стався, щоб відстежувати потік даних. Також можна відстежувати та аналізувати спорідненість даних, і зараз існує технологія спорідненості даних. Грубо кажучи, **Звідки надходять дані та куди вони йдуть? Аналіз походження даних – це фактично різновид кореляційного аналізу даних і відстеження даних. **Використання слова походження є дуже яскравим описом входів і недоліків даних. . Усе записується, тому запис даних і технологій інших людей також можна записати, оприлюднити та проникнути.
«Цивільний кодекс» моєї країни містить спеціальні положення щодо захисту особистої інформації в розділі про особистісні права. Стаття 127 «Цивільного кодексу» порівнює дані з віртуальною власністю мережі, підкреслюючи властивість даних. У місцевому законодавстві положення статті 12 «Шанхайських муніципальних правил даних» прямо відображають модель розподілу прав «двох поділів людських ресурсів і багатства». Ця стаття передбачає: «Це місто захищає особисті права та інтереси фізичних осіб щодо їх особистої інформації відповідно до закону.» А також законні майнові права та інтереси, отримані у відповідній інноваційній діяльності щодо даних у розвитку цифрового економіка».
20 серпня 2021 року 30-е засідання Постійного комітету Всекитайських зборів народних представників тринадцятого скликання проголосувало за ухвалення «Закону про захист особистої інформації Китайської Народної Республіки», який набуде чинності 1 листопада 2021 року. Подробиці можна знайти в Інтернеті. Судовий характер персональної інформації в «Законі про захист персональної інформації» також є захистом особистих прав та інтересів, що майже не стосується майнових прав та інтересів персональної інформації.
**Технологія Tencent: які високоякісні дані важливі для навчання великих моделей? **
**Професор Цзен Сюеюнь: **Даними повинні бути всі записи людської економічної, соціальної, виробничої, управлінської, комерційної та навіть військової діяльності. Такий запис створюється в різних галузях, сферах і аспектах. Що стосується необроблених даних, то вони мають високу та низьку якість. Наприклад, фінансові звіти та фінансові дані **компаній, зареєстрованих на біржі, є високоякісними та структурованими даними. **Оскільки цей вид фінансової звітності та фінансової інформації перевірено суспільством і перевірено сертифікованими бухгалтерами, а Комісія з регулювання цінних паперів Китаю контролює розкриття інформації, тому це високоякісні дані. Для іншого прикладу, паперові дані в **CNKI також є високоякісними даними. **Однак дані, створені в Інтернеті, є неструктурованими та нестандартизованими даними. Такі дані є різновидом оригінальних, безладних і нерегульованих даних, які вимагають детального очищення перед обчисленням, тому високоякісні дані зазвичай мають перехід від неструктурованого до структурованого процесу обробки. **
**Технологія Tencent: оскільки високоякісні дані можуть створюватися безперервно, чому існує така приказка, що «високоякісні дані майже використані»? **
Професор Цзен Сюеюнь: Я вважаю, що здатність виробляти та обробляти дані не може відповідати попиту людей на дані, а продуктивність усього ланцюжка створення вартості в ланцюжку постачання для виробництва та обробки даних все ще відносно низька. Тому що ми знаємо, що дані постійно зростають, але високоякісні дані закінчуються. Це просто означає, що в процесі від даних до високоякісних даних нам бракує певної продуктивності та здатності до інтеграції. Наразі потрібні постачальники даних. Багато наших поточних постачальників даних використовують лише безпосередньо дані, а лише для виробництва та обробки даних, а також як створити високоякісні дані, можливості цієї сфери чи дизайн бізнес-моделей все ще недостатньо.
Насправді GPT-4 OpenAI використовує для навчання велику кількість даних, створених моделлю GPT-3.5 попереднього покоління. Засновник OpenAI також сказав у недавньому інтерв’ю: «Синтетичні дані — це ефективний спосіб вирішити проблему дефіциту великих модельних даних. Головне, що існує ціла система, яка розрізняє, які дані, згенеровані ШІ, можна використовувати, а які ні. І продовжуйте давати відгуки на основі ефекту навченої моделі». Ця компанія не просто здатна збирати гроші, вона може контролювати велику кількість обчислювальної потужності так просто, а технологічні можливості продукту з даними також є однією з основних конкурентоспроможностей цієї компанії.
**Технологія Tencent: які зв’язки в промисловому дизайні необхідні для підвищення продуктивності високоякісних даних? **
Професор Цзен Сюеюнь: Стосовно цього питання, ми повинні спочатку зрозуміти, що таке дані? Які ми маємо дані? І що робити з даними? Тобто, щоб виробляти високоякісні дані, це не означає, що є виробничі потужності для отримання високоякісних даних, і це не означає, що є бажання виробляти високоякісні дані. Він повинен розуміти дані з джерела Які проблеми в суспільстві слід вирішувати за допомогою даних? Де ринковий попит на дані? Тоді, від вихідних даних до сторони попиту, як ми маємо виробляти посередині? Ця серія проблем вимагає промислового дизайну, а поточного загального мислення недостатньо.
**Tencent Technology: Незрілість галузі є одним із аспектів. Чи означає це також, що галузь все ще залишається блакитним океаном? **
**Професор Цзен Сюеюнь: **Дуже ранній блакитний океан. У перші дні були деякі випадки незаконної прямої торгівлі даними. Пізніше національне законодавство більше не могло безпосередньо купувати та продавати самі дані, а також торгувати необробленими даними. Дані не можна використовувати для початкових транзакцій. Це має бути результатом інвестування у власне виробництво для здійснення транзакцій, замість того, щоб говорити, що у мене є деякі дані, і я продаю дані безпосередньо. Це неприпустимо.
У 2022 році (грудень) було оприлюднено «Двадцять статей про дані». «Двадцять статей про дані» висувають вимоги щодо розділення власності на дані та мультиволодіння правом власності на дані, правами керування та Підрозділ, який зазначив, що даними слід керувати в цій ієрархічній категорії. Це дизайн верхнього рівня управління даними та загальний план. Можна також сказати, що це початок стандартизованого розвитку індустрії даних майбутнього. У цей час люди усвідомлюють, що дані не є єдиним цілим, і їм потрібно розуміти, які права та інтереси мають дані.Це також є просуванням оригінальних досліджень, заснованих на законі, до досліджень, заснованих на економіці. ** Щоб створити ринок даних, ринок має бути економічною поведінкою. Така економічна поведінка вимагає використання багатьох економічних інструментів і економічних теорій, тож зараз від досліджень у галузі науки про дані, управління даними з боку держави до досліджень даних в академічних колах і контролю даних у галузі Використання — це блакитний океан, і це стан, що тільки починається. **
**Технологія Tencent: з цієї точки зору дані можуть існувати як певний актив підприємства. До якого виду активу належать дані? **
**Професор Цзен Сюеюнь: **Класифікація даних є дуже актуальною темою в академічних колах. У більшості випадків люди думають, що дані нематеріальні, невидимі та нематеріальні, і їх називають нематеріальними активами. Але насправді, згідно з класифікацією ITU, дані ближчі до інвентарних активів, оскільки дані також включають процес виробництва та обробки. А самі дані є електронним матеріальним активом, чому це електронний матеріальний актив? Дані займатимуть фізичний простір, і багато даних самі по собі мають фізичну форму, яка є фізичною формою з боку мережі. Зображення, ви можете побачити це електронне зображення; звук, ви можете почути цей звук, і портрет, ви можете побачити цей портрет, тому ** дані є цифровим матеріальним активом. **
Ми знаємо, що дані є дуже особливим класом активів. Деякі припустять, що дані можна порівняти з нематеріальною природою для амортизації або аналогічно до основних засобів для амортизації. Фактично, ви повинні спочатку класифікувати дані ієрархічно, щоб побачити, до якої категорії вони належать. **Для певних типів даних він також має можливість нарощування та об’єднання. Наприклад, якщо всі дані про дзвінки China Unicom можна інтегрувати з особистими банківськими депозитами та даними про інвестиції, можна створити портрет цієї людини з додатковою інформацією від інвестицій та фінансування до її спілкування та кар’єри. У цей час відбуватиметься накопичувальний ефект значення даних, створених шляхом злиття даних і даних. У цей час дані будуть об’єднані та з можливістю збільшення. Є також частина даних, яка дійсно чутлива до часу, і її значення з часом зменшується. Таким чином, нам все ще потрібно більш конкретно проаналізувати характеристики самих даних, щоб знати їх облікову вартість, і облік вартості даних має більше мінливості та невизначеності, на відміну від основних засобів, фіксована вартість активів на час формування активів є певним, і з плином часу вартість поступово зменшується, але дані не обов’язково зменшуються з часом, і дані мають більш складну форму активів.
**Технологія Tencent: чи є дані майбутнього одним із ключових факторів конкурентоспроможності компаній зі штучним інтелектом? Чи можливо кількісно оцінити активи даних і відобразити їх у оцінці компанії? **
**Професор Цзен Сюеюнь: **Для компанії зі штучного інтелекту **дані є основною конкурентоспроможністю. **Для компанії зі штучним інтелектом досвід роботи з продуктом визначає бізнес-цінність компанії, а можливості використання даних визначають досвід роботи з продуктом. **Для країни дані є ключовою конкурентоспроможністю в майбутньому, а також золотом майбутнього, так само як нафта є золотом індустріальної епохи, а **дані є золотом ери Інтернет-економіки. **
Але в даний час країни світу фактично стикаються з труднощами в управлінні даними, і жодна країна не взяла на себе лідерство в досягненні проривів.Як вирішити баланс між безпекою даних, управлінням даними, розробкою та використанням даних. **
У цьому відношенні Китай чітко усвідомлював важливість даних. Усі країни також усвідомлюють, що дані – це нова продуктивність, але для використання даних потрібні гравці ринку, розумні технології та національне регулювання. Тому це не проста проблема, яку можна вирішити, це питання складності системи.
Національне управління Китаю є відносно централізованим механізмом від центрального до місцевого, тому ми, природно, маємо перевагу в інтеграції великих даних по всій країні, але ця перевага ще не відображена, і вона полягає в оцінці ** даних Є проблеми з оцінкою та оцінкою, а також не вирішено проблему введення даних у бухгалтерську звітність. ** У світі немає хорошого вирішення цієї проблеми.
**Якщо дані можуть бути перенесені з позабалансових активів до балансових активів, то облік вартості керування даними та керування цінністю даних можна вирішити добре, а транзакції з даними матимуть об’єктивну основу. **Тепер наші корпоративні дані — це в основному позабалансові активи, без оцінки та без вимірювання та звітності на балансі, тому незрозуміло, скільки даних має компанія, тому економічні дані також важко зробити статистику вартості. Якщо дані не введено в таблицю, то для транзакції буде бракувати розумної основи, **тому введення даних у таблицю є ключовим питанням. **Для статистики обсягу даних, обліку цін на дані та ціноутворення транзакцій з даними, Від статистики обсягів до обліку цін до основи операцій необхідно ввести дані в баланс і звіт про прибутки та збитки , і введіть Бухгалтерський облік для фінансової звітності є основним об’єктом. Цей базовий об’єкт ще не вирішено.
**Tencent Technology: які міжнародні прецеденти законодавства про права власності на дані? **
**Професор Цзен Сюеюнь: **Дослідження законодавства про права власності на дані. Наразі основні країни світу мають базові закони про захист даних, і вони дедалі чіткіше позиціонуються для сприяння захисту особистих прав у правах власності на дані. Проте закони та нормативні акти щодо використання даних практично відсутні. Японія має певний рівень Моя країна Значна увага приділяється сприянню обігу елементів даних, але без підтримки, регулювання та вказівок законів і правил, це в основному покладається на адміністративні документи, які все ще мають багато законодавчих недоліків. Наразі існує нагальна потреба інноваційно очолити новий напрямок глобального правового будівництва з точки зору прискорення регулювання прав власності на дані та обігу елементів даних. Ситуація в країні та за кордоном така:
Міжнародні аспекти: Загальний регламент захисту даних (GDPR), прийнятий Європейським Союзом у 2016 році, наразі є найповнішим і найвпливовішим законом про конфіденційність даних. «Положення» розвиваються у двох напрямках: посилення прав суб’єктів даних, забезпечення контролю за використанням персональних даних, а також врахування безпеки даних та вільного потоку даних. На підставі підтвердження та вдосконалення існуючих прав осіб GDPR передбачає право на видалення (стаття 17) і право на перенесення (стаття 20) тощо, щоб досягти більш ефективного контролю персональних даних суб’єкта даних, але положення не містять Немає роз’яснень щодо передачі права власності на персональні дані та розподілу майнових прав.
Хоча Сполучені Штати розпочали системне та теоретичне дослідження правового захисту прав власності на дані раніше, більшість відповідних норм розпорошено в різних законопроектах. Законодавство кожного штату не є сумісним, але воно охоплює широкий спектр сфер і має певну гнучкість у фактичному вирішенні спорів, щоб заохотити використання даних. Наприклад, «Акт Каліфорнії про конфіденційність споживачів 2018 року», виданий у 2018 році, і «Каліфорнійський закон про конфіденційність 2020 року», виданий у 2020 році, посилили визначення прав на дані, охоплюючи право на доступ, право на видалення, право на інформацію тощо. Права споживачів на особисту конфіденційність посилюють захист прав та інтересів суб’єктів даних під час передачі даних, що також відображає з боку Сполучених Штатів дозвіл на використання економічної цінності даних. У 2017 році Японія сформулювала «Рекомендації щодо контрактів щодо прав на використання даних». Керівні принципи повністю враховують такі фактори, як внесок контрактів щодо даних у створення даних, тягар витрат на зберігання та керування, а також стандартизовані контракти на транзакції даних для сприяння транзакціям даних. це велика справа, прогрес, але досі немає чіткого визначення прав власності на дані.
У Європі Хартія основних прав ЄС і Загальний регламент захисту даних розглядають право на захист персональних даних як особливе право, яким користуються суб’єкти даних, яке не включає жодних прав власності. Хоча закони ЄС, такі як Загальний регламент захисту даних, чітко не визначають, що контролери даних користуються правами власності на дані як об’єкт, їхні права власності на дані та інтереси можуть бути захищені за допомогою захисту бази даних, захисту авторського права, захисту комерційної таємниці, захисту договірного права , захист законодавства про конкуренцію тощо. Крім того, документ «Побудова європейської економіки даних», виданий Європейською комісією, спрямований на запровадження «прав виробника даних», які наділяють контролерів даних універсальними правами власності на неперсональні дані та анонімні персональні дані, що дозволяє їм використовувати їх виключно даних, включаючи право ліцензувати використання таких даних іншими особами. У Сполучених Штатах, хоча деякі правознавці вважають, що особам слід надавати права власності на особисту інформацію, суди зазвичай не визнають таких прав власності. У деяких випадках суди США постановляли, що компанії мають права власності на дані, які вони мають. Вітчизняний і зарубіжний юридичний досвід щодо власності на дані показує, що «розділення людських ресурсів і багатства» має стати основою теоретичної пропозиції для побудови системи прав власності на дані в моїй країні.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
За навчанням великої моделі ШІ формується ланцюжок індустрії даних
Автор: Го Сяоцзін, Tencent Technology
«Творити чудеса» та «насильницька естетика», ці два слова завжди з’являлися під час обговорення ChatGPT. Що стосується «енергійних» і «насильницьких», окрім «величезної обчислювальної потужності», є також величезні обсяги даних. Марк Андріссен, засновник a16z, також зазначив на конференції Data+AI, що величезні дані, накопичені Інтернетом за останні два десятиліття, є важливою причиною підйому цієї нової хвилі ШІ, оскільки перший забезпечує другий з даними навчання.
Відповідно до OpenAI, GPT-3.5 має текстовий корпус розміром до 45 ТБ, що еквівалентно 4,72 мільйонам наборів чотирьох основних китайських класичних текстів, тоді як GPT-4 додає мультимодальні дані до наборів навчальних даних GPT-3 і GPT-3.5. . 18 липня Meta, материнська компанія Facebook, випустила Llama2, першу модель великої мови з відкритим вихідним кодом і комерційно доступну, попереднє навчання якої, як очікується, досягне 2 трильйонів токенів.
Здатність отримувати величезні обсяги високоякісних даних вважається однією з основних конкурентоспроможностей майбутніх великих модельних компаній, а також є обов’язковою для гонки озброєнь ШІ великих гігантів. Дані також розглядаються як ключовий фактор виробництва, який визначає майбутній розвиток. Згідно зі статистичними даними «Звіту про розвиток цифрового Китаю (2022)», потенціал цифрової економіки, вивільнений елементами даних, буде надзвичайно величезним. Обсяг даних моєї країни досягне 8,1 ZB у 2022 році, що становитиме 10,5% світового, займає друге місце у світі Цифрова економіка Розвиток на передньому плані.
Однак дані, як абсолютно новий фактор виробництва, також приносять низку проблем, які необхідно терміново вирішити: як розуміти дані? Як підтвердити права на дані? Як видобути цінність даних? Чи справді ним можна торгувати та розповсюджувати? Чи дійсно дані можуть бути включені до фінансової звітності підприємства як актив? Як здійснюється безпека? З цією метою ми поспілкувалися з професором Цзен Сюеюнь, заступником декана Інституту науки і технологій Пекінського університету пошти та телекомунікацій**, і попросили її детально відповісти на актуальні запитання.
Стенограма розмови:
**Технологія Tencent: звичайні люди можуть хвилюватися, звідки беруться дані для навчання великих моделей? Чи використовуються мої персональні дані, і чи виникнуть проблеми з правами на ці дані? **
**Професор Цзен Сюеюнь: Дані, обчислені за допомогою **великої моделі, є персональними даними. Порівняно з корпоративними даними, особисті дані мають проблему власності. **В принципі, я господар своїх даних. **Наприклад, дані, створені в соціальному програмному забезпеченні, в принципі, компанія, якій належить соціальне програмне забезпечення, не може використовувати мої особисті дані. Хоча ці компанії фактично контролюють дані через авторизацію за замовчуванням, як використовувати конкретні дані, це має регулюється «Законом про захист персональної інформації».
Отже, якщо його використовувати для обчислень великої моделі, як його використовувати? З точки зору технології, необхідно провести обробку анонімізації, а з точки зору роботи, також є потреба в суб’єкті ринку, який має **надати певній компанії законне право оперувати цими даними. , іншими словами, надайте ці дані Знайдіть суб'єкта ринку. **Коли суб’єкт, орієнтований на ринок, отримує дані, йому потрібно інвестувати робочу силу, час, інтелект і капітал для отримання даних, що ми всі можемо назвати затратами праці. Після трудового вкладу інформація про дані, що належить особі, перетворюється на свого роду відновлені дані компанії або вторинні дані. Потім вторинні дані генерують процедурні дані, а потім – продукти даних і служби даних. У цей час вихідні індивідуальні дані з фізичними особами як власниками даних перетворюються на продукти та послуги даних для підприємств. Це процес виробництва.
**Tencent Technology: чи можна зрозуміти, що інтернет-компанії отримують персональні дані через авторизацію, і після того, як ці компанії оброблять процес, вони можуть стати певним видом активів даних компанії? **
Професор Цзен Сюеюнь: Можна також зрозуміти, що ми особисто генеруємо велику кількість даних в Інтернеті, як і різні природні ресурси в природі. Наприклад, на землі може рости багато квітів і дерев, рости багато ресурсів. Цей вид ресурсу є різновидом суспільного ресурсу, який можна розвивати та використовувати, але не можна безпосередньо купувати чи продавати. Те, що створюється після використання та обробки, є активами підприємства, це дозволено, і ми також повинні заохочувати розвиток факторів виробництва даних таким чином.
**Tencent Technology: як із індивідуальної точки зору захистити наші особисті дані та дозволити їм передаватись так, як ми хочемо? **
**Професор Цзен Сюеюнь: **В епоху штучного інтелекту конфіденційність людей стає все важче захистити. Оскільки реєструється вся поведінка людей, реєструється зміна географічного положення, життя, робота, дієта та повсякденне життя. Після запису інформація, яка спочатку належала нам, більше не може контролюватися зловмисником. Таким чином, у цей час ризик витоку конфіденційності дуже високий, завдання захисту даних також дуже важке, і захист даних також дуже складний.
Як люди захищають свої права на дані? Насправді різні країни також мають деякі комерційні методи. Перший тип, як і в Японії, використовує банк даних, тобто кожен може зберігати дані в банку даних так само, як робити депозит у банку. Банк даних є зберігачем даних, а також може служити оригінальним розробником цінності даних, а також окремі особи можуть отримати певні переваги. Це означає, що це дозволяє деяким людям, які готові розкривати та використовувати власні дані певною мірою, мати бізнес-модель для вирішення питань захисту даних у спосіб, який вони вибрали. Іншими словами, побудова юридичного обігу даних, розробки юридичних даних і моделі використання, це частина.
**Інша частина полягає в тому, що я особисто цього не хочу, тому я не дозволяю власника даних. **За відсутності авторизації країна повинна посилити захист даних. Якщо хтось хоче незаконно розробити цю частину даних, він повинен бути покараний і під юридичним наглядом. Для відстеження такої поведінки можна використовувати технологію блокчейн. Наприклад, чи стався витік наших даних і де він стався, щоб відстежувати потік даних. Також можна відстежувати та аналізувати спорідненість даних, і зараз існує технологія спорідненості даних. Грубо кажучи, **Звідки надходять дані та куди вони йдуть? Аналіз походження даних – це фактично різновид кореляційного аналізу даних і відстеження даних. **Використання слова походження є дуже яскравим описом входів і недоліків даних. . Усе записується, тому запис даних і технологій інших людей також можна записати, оприлюднити та проникнути.
«Цивільний кодекс» моєї країни містить спеціальні положення щодо захисту особистої інформації в розділі про особистісні права. Стаття 127 «Цивільного кодексу» порівнює дані з віртуальною власністю мережі, підкреслюючи властивість даних. У місцевому законодавстві положення статті 12 «Шанхайських муніципальних правил даних» прямо відображають модель розподілу прав «двох поділів людських ресурсів і багатства». Ця стаття передбачає: «Це місто захищає особисті права та інтереси фізичних осіб щодо їх особистої інформації відповідно до закону.» А також законні майнові права та інтереси, отримані у відповідній інноваційній діяльності щодо даних у розвитку цифрового економіка».
20 серпня 2021 року 30-е засідання Постійного комітету Всекитайських зборів народних представників тринадцятого скликання проголосувало за ухвалення «Закону про захист особистої інформації Китайської Народної Республіки», який набуде чинності 1 листопада 2021 року. Подробиці можна знайти в Інтернеті. Судовий характер персональної інформації в «Законі про захист персональної інформації» також є захистом особистих прав та інтересів, що майже не стосується майнових прав та інтересів персональної інформації.
**Технологія Tencent: які високоякісні дані важливі для навчання великих моделей? **
**Професор Цзен Сюеюнь: **Даними повинні бути всі записи людської економічної, соціальної, виробничої, управлінської, комерційної та навіть військової діяльності. Такий запис створюється в різних галузях, сферах і аспектах. Що стосується необроблених даних, то вони мають високу та низьку якість. Наприклад, фінансові звіти та фінансові дані **компаній, зареєстрованих на біржі, є високоякісними та структурованими даними. **Оскільки цей вид фінансової звітності та фінансової інформації перевірено суспільством і перевірено сертифікованими бухгалтерами, а Комісія з регулювання цінних паперів Китаю контролює розкриття інформації, тому це високоякісні дані. Для іншого прикладу, паперові дані в **CNKI також є високоякісними даними. **Однак дані, створені в Інтернеті, є неструктурованими та нестандартизованими даними. Такі дані є різновидом оригінальних, безладних і нерегульованих даних, які вимагають детального очищення перед обчисленням, тому високоякісні дані зазвичай мають перехід від неструктурованого до структурованого процесу обробки. **
**Технологія Tencent: оскільки високоякісні дані можуть створюватися безперервно, чому існує така приказка, що «високоякісні дані майже використані»? **
Професор Цзен Сюеюнь: Я вважаю, що здатність виробляти та обробляти дані не може відповідати попиту людей на дані, а продуктивність усього ланцюжка створення вартості в ланцюжку постачання для виробництва та обробки даних все ще відносно низька. Тому що ми знаємо, що дані постійно зростають, але високоякісні дані закінчуються. Це просто означає, що в процесі від даних до високоякісних даних нам бракує певної продуктивності та здатності до інтеграції. Наразі потрібні постачальники даних. Багато наших поточних постачальників даних використовують лише безпосередньо дані, а лише для виробництва та обробки даних, а також як створити високоякісні дані, можливості цієї сфери чи дизайн бізнес-моделей все ще недостатньо.
Насправді GPT-4 OpenAI використовує для навчання велику кількість даних, створених моделлю GPT-3.5 попереднього покоління. Засновник OpenAI також сказав у недавньому інтерв’ю: «Синтетичні дані — це ефективний спосіб вирішити проблему дефіциту великих модельних даних. Головне, що існує ціла система, яка розрізняє, які дані, згенеровані ШІ, можна використовувати, а які ні. І продовжуйте давати відгуки на основі ефекту навченої моделі». Ця компанія не просто здатна збирати гроші, вона може контролювати велику кількість обчислювальної потужності так просто, а технологічні можливості продукту з даними також є однією з основних конкурентоспроможностей цієї компанії.
**Технологія Tencent: які зв’язки в промисловому дизайні необхідні для підвищення продуктивності високоякісних даних? **
Професор Цзен Сюеюнь: Стосовно цього питання, ми повинні спочатку зрозуміти, що таке дані? Які ми маємо дані? І що робити з даними? Тобто, щоб виробляти високоякісні дані, це не означає, що є виробничі потужності для отримання високоякісних даних, і це не означає, що є бажання виробляти високоякісні дані. Він повинен розуміти дані з джерела Які проблеми в суспільстві слід вирішувати за допомогою даних? Де ринковий попит на дані? Тоді, від вихідних даних до сторони попиту, як ми маємо виробляти посередині? Ця серія проблем вимагає промислового дизайну, а поточного загального мислення недостатньо.
**Tencent Technology: Незрілість галузі є одним із аспектів. Чи означає це також, що галузь все ще залишається блакитним океаном? **
**Професор Цзен Сюеюнь: **Дуже ранній блакитний океан. У перші дні були деякі випадки незаконної прямої торгівлі даними. Пізніше національне законодавство більше не могло безпосередньо купувати та продавати самі дані, а також торгувати необробленими даними. Дані не можна використовувати для початкових транзакцій. Це має бути результатом інвестування у власне виробництво для здійснення транзакцій, замість того, щоб говорити, що у мене є деякі дані, і я продаю дані безпосередньо. Це неприпустимо.
У 2022 році (грудень) було оприлюднено «Двадцять статей про дані». «Двадцять статей про дані» висувають вимоги щодо розділення власності на дані та мультиволодіння правом власності на дані, правами керування та Підрозділ, який зазначив, що даними слід керувати в цій ієрархічній категорії. Це дизайн верхнього рівня управління даними та загальний план. Можна також сказати, що це початок стандартизованого розвитку індустрії даних майбутнього. У цей час люди усвідомлюють, що дані не є єдиним цілим, і їм потрібно розуміти, які права та інтереси мають дані.Це також є просуванням оригінальних досліджень, заснованих на законі, до досліджень, заснованих на економіці. ** Щоб створити ринок даних, ринок має бути економічною поведінкою. Така економічна поведінка вимагає використання багатьох економічних інструментів і економічних теорій, тож зараз від досліджень у галузі науки про дані, управління даними з боку держави до досліджень даних в академічних колах і контролю даних у галузі Використання — це блакитний океан, і це стан, що тільки починається. **
**Технологія Tencent: з цієї точки зору дані можуть існувати як певний актив підприємства. До якого виду активу належать дані? **
**Професор Цзен Сюеюнь: **Класифікація даних є дуже актуальною темою в академічних колах. У більшості випадків люди думають, що дані нематеріальні, невидимі та нематеріальні, і їх називають нематеріальними активами. Але насправді, згідно з класифікацією ITU, дані ближчі до інвентарних активів, оскільки дані також включають процес виробництва та обробки. А самі дані є електронним матеріальним активом, чому це електронний матеріальний актив? Дані займатимуть фізичний простір, і багато даних самі по собі мають фізичну форму, яка є фізичною формою з боку мережі. Зображення, ви можете побачити це електронне зображення; звук, ви можете почути цей звук, і портрет, ви можете побачити цей портрет, тому ** дані є цифровим матеріальним активом. **
Ми знаємо, що дані є дуже особливим класом активів. Деякі припустять, що дані можна порівняти з нематеріальною природою для амортизації або аналогічно до основних засобів для амортизації. Фактично, ви повинні спочатку класифікувати дані ієрархічно, щоб побачити, до якої категорії вони належать. **Для певних типів даних він також має можливість нарощування та об’єднання. Наприклад, якщо всі дані про дзвінки China Unicom можна інтегрувати з особистими банківськими депозитами та даними про інвестиції, можна створити портрет цієї людини з додатковою інформацією від інвестицій та фінансування до її спілкування та кар’єри. У цей час відбуватиметься накопичувальний ефект значення даних, створених шляхом злиття даних і даних. У цей час дані будуть об’єднані та з можливістю збільшення. Є також частина даних, яка дійсно чутлива до часу, і її значення з часом зменшується. Таким чином, нам все ще потрібно більш конкретно проаналізувати характеристики самих даних, щоб знати їх облікову вартість, і облік вартості даних має більше мінливості та невизначеності, на відміну від основних засобів, фіксована вартість активів на час формування активів є певним, і з плином часу вартість поступово зменшується, але дані не обов’язково зменшуються з часом, і дані мають більш складну форму активів.
**Технологія Tencent: чи є дані майбутнього одним із ключових факторів конкурентоспроможності компаній зі штучним інтелектом? Чи можливо кількісно оцінити активи даних і відобразити їх у оцінці компанії? **
**Професор Цзен Сюеюнь: **Для компанії зі штучного інтелекту **дані є основною конкурентоспроможністю. **Для компанії зі штучним інтелектом досвід роботи з продуктом визначає бізнес-цінність компанії, а можливості використання даних визначають досвід роботи з продуктом. **Для країни дані є ключовою конкурентоспроможністю в майбутньому, а також золотом майбутнього, так само як нафта є золотом індустріальної епохи, а **дані є золотом ери Інтернет-економіки. **
Але в даний час країни світу фактично стикаються з труднощами в управлінні даними, і жодна країна не взяла на себе лідерство в досягненні проривів.Як вирішити баланс між безпекою даних, управлінням даними, розробкою та використанням даних. **
У цьому відношенні Китай чітко усвідомлював важливість даних. Усі країни також усвідомлюють, що дані – це нова продуктивність, але для використання даних потрібні гравці ринку, розумні технології та національне регулювання. Тому це не проста проблема, яку можна вирішити, це питання складності системи.
Національне управління Китаю є відносно централізованим механізмом від центрального до місцевого, тому ми, природно, маємо перевагу в інтеграції великих даних по всій країні, але ця перевага ще не відображена, і вона полягає в оцінці ** даних Є проблеми з оцінкою та оцінкою, а також не вирішено проблему введення даних у бухгалтерську звітність. ** У світі немає хорошого вирішення цієї проблеми.
**Якщо дані можуть бути перенесені з позабалансових активів до балансових активів, то облік вартості керування даними та керування цінністю даних можна вирішити добре, а транзакції з даними матимуть об’єктивну основу. **Тепер наші корпоративні дані — це в основному позабалансові активи, без оцінки та без вимірювання та звітності на балансі, тому незрозуміло, скільки даних має компанія, тому економічні дані також важко зробити статистику вартості. Якщо дані не введено в таблицю, то для транзакції буде бракувати розумної основи, **тому введення даних у таблицю є ключовим питанням. **Для статистики обсягу даних, обліку цін на дані та ціноутворення транзакцій з даними, Від статистики обсягів до обліку цін до основи операцій необхідно ввести дані в баланс і звіт про прибутки та збитки , і введіть Бухгалтерський облік для фінансової звітності є основним об’єктом. Цей базовий об’єкт ще не вирішено.
**Tencent Technology: які міжнародні прецеденти законодавства про права власності на дані? **
**Професор Цзен Сюеюнь: **Дослідження законодавства про права власності на дані. Наразі основні країни світу мають базові закони про захист даних, і вони дедалі чіткіше позиціонуються для сприяння захисту особистих прав у правах власності на дані. Проте закони та нормативні акти щодо використання даних практично відсутні. Японія має певний рівень Моя країна Значна увага приділяється сприянню обігу елементів даних, але без підтримки, регулювання та вказівок законів і правил, це в основному покладається на адміністративні документи, які все ще мають багато законодавчих недоліків. Наразі існує нагальна потреба інноваційно очолити новий напрямок глобального правового будівництва з точки зору прискорення регулювання прав власності на дані та обігу елементів даних. Ситуація в країні та за кордоном така:
Міжнародні аспекти: Загальний регламент захисту даних (GDPR), прийнятий Європейським Союзом у 2016 році, наразі є найповнішим і найвпливовішим законом про конфіденційність даних. «Положення» розвиваються у двох напрямках: посилення прав суб’єктів даних, забезпечення контролю за використанням персональних даних, а також врахування безпеки даних та вільного потоку даних. На підставі підтвердження та вдосконалення існуючих прав осіб GDPR передбачає право на видалення (стаття 17) і право на перенесення (стаття 20) тощо, щоб досягти більш ефективного контролю персональних даних суб’єкта даних, але положення не містять Немає роз’яснень щодо передачі права власності на персональні дані та розподілу майнових прав.
Хоча Сполучені Штати розпочали системне та теоретичне дослідження правового захисту прав власності на дані раніше, більшість відповідних норм розпорошено в різних законопроектах. Законодавство кожного штату не є сумісним, але воно охоплює широкий спектр сфер і має певну гнучкість у фактичному вирішенні спорів, щоб заохотити використання даних. Наприклад, «Акт Каліфорнії про конфіденційність споживачів 2018 року», виданий у 2018 році, і «Каліфорнійський закон про конфіденційність 2020 року», виданий у 2020 році, посилили визначення прав на дані, охоплюючи право на доступ, право на видалення, право на інформацію тощо. Права споживачів на особисту конфіденційність посилюють захист прав та інтересів суб’єктів даних під час передачі даних, що також відображає з боку Сполучених Штатів дозвіл на використання економічної цінності даних. У 2017 році Японія сформулювала «Рекомендації щодо контрактів щодо прав на використання даних». Керівні принципи повністю враховують такі фактори, як внесок контрактів щодо даних у створення даних, тягар витрат на зберігання та керування, а також стандартизовані контракти на транзакції даних для сприяння транзакціям даних. це велика справа, прогрес, але досі немає чіткого визначення прав власності на дані.
У Європі Хартія основних прав ЄС і Загальний регламент захисту даних розглядають право на захист персональних даних як особливе право, яким користуються суб’єкти даних, яке не включає жодних прав власності. Хоча закони ЄС, такі як Загальний регламент захисту даних, чітко не визначають, що контролери даних користуються правами власності на дані як об’єкт, їхні права власності на дані та інтереси можуть бути захищені за допомогою захисту бази даних, захисту авторського права, захисту комерційної таємниці, захисту договірного права , захист законодавства про конкуренцію тощо. Крім того, документ «Побудова європейської економіки даних», виданий Європейською комісією, спрямований на запровадження «прав виробника даних», які наділяють контролерів даних універсальними правами власності на неперсональні дані та анонімні персональні дані, що дозволяє їм використовувати їх виключно даних, включаючи право ліцензувати використання таких даних іншими особами. У Сполучених Штатах, хоча деякі правознавці вважають, що особам слід надавати права власності на особисту інформацію, суди зазвичай не визнають таких прав власності. У деяких випадках суди США постановляли, що компанії мають права власності на дані, які вони мають. Вітчизняний і зарубіжний юридичний досвід щодо власності на дані показує, що «розділення людських ресурсів і багатства» має стати основою теоретичної пропозиції для побудови системи прав власності на дані в моїй країні.