"Hacer milagros" y "estética violenta", estas dos palabras siempre han aparecido con la discusión de ChatGPT. En cuanto a "vigoroso" y "violento", además de "enorme poder de cómputo", también hay cantidades masivas de datos. Marc Andreessen, el fundador de a16z, también señaló en la conferencia Data+AI que los datos masivos acumulados por Internet durante las últimas dos décadas son una razón importante para el surgimiento de esta nueva ola de IA, porque la primera proporciona la segunda. con datos que se pueden utilizar para el entrenamiento.
Según OpenAI, GPT-3.5 tiene un cuerpo de texto de hasta 45 TB, lo que equivale a 4,72 millones de conjuntos de los cuatro grandes clásicos de China, mientras que GPT-4 agrega datos multimodales a los conjuntos de datos de entrenamiento GPT-3 y GPT-3.5. . El 18 de julio, Meta, la empresa matriz de Facebook, lanzó Llama2, el primer modelo de lenguaje grande de código abierto disponible comercialmente, y se espera que la capacitación previa alcance los 2 billones de tokens.
La capacidad de obtener cantidades masivas de datos de alta calidad se considera una de las principales competitividades de las futuras empresas modelo a gran escala, y también es imprescindible para la carrera armamentista de IA de los grandes gigantes. Los datos también se consideran un factor clave de producción que determina el desarrollo futuro. Según las estadísticas del "Informe sobre el desarrollo de China digital (2022)", el potencial de la economía digital liberado por los elementos de datos será extremadamente enorme. La producción de datos de mi país alcanzará los 8,1 ZB en 2022, lo que representa el 10,5 % del mundo. ocupando el segundo lugar en el mundo Economía digital El desarrollo está a la vanguardia.
Sin embargo, los datos, como flamante factor de producción, también traen consigo una serie de problemas que deben resolverse con urgencia: ¿cómo entender los datos? ¿Cómo confirmar los derechos de datos? ¿Cómo extraer el valor de los datos? ¿Puede realmente ser comercializado y circulado? ¿Se pueden incluir realmente los datos en los estados financieros de la empresa como un activo? ¿Cómo se gestiona la seguridad? Con este fin, hablamos con la profesora Zeng Xueyun, vicedecana del Instituto de Ciencia y Tecnología de la Universidad de Correos y Telecomunicaciones de Beijing**, y le pedimos que respondiera preguntas relevantes en profundidad.
La siguiente es la transcripción de la conversación:
**Tecnología Tencent: la gente común puede estar preocupada, ¿de dónde provienen los datos para el entrenamiento de modelos grandes? ¿Hay algún uso de mis datos personales, y habrá algún problema con los derechos de estos datos? **
**Profesor Zeng Xueyun: Los datos calculados por el **modelo grande son datos personales. En comparación con los datos corporativos, los datos personales tienen un problema de propiedad. **En principio, soy el dueño de mis datos. **Por ejemplo, los datos generados en el software social, en principio, la empresa a la que pertenece el software social no puede usar mis datos personales. Aunque estas empresas realmente han controlado los datos a través de la autorización predeterminada, cómo usar los datos específicos es necesario. estar regulado por la "Ley de Protección de Datos Personales".
Entonces, si se va a usar para cálculos de modelos grandes, ¿cómo usarlo? En términos de tecnología, es necesario llevar a cabo procesamiento de anonimización, y en términos de operación, también existe la necesidad de una entidad de mercado, que consiste en **dar a cierta empresa un derecho legal para operar estos datos , en otras palabras, dar estos datos a Find a market subject. **Cuando el sujeto orientado al mercado obtiene los datos, necesita invertir mano de obra, tiempo, inteligencia y capital para producir datos, lo que todos podemos llamar insumos de trabajo. Después de la entrada de mano de obra, la información de datos que pertenece al individuo se deriva en una especie de datos regenerativos de la empresa, o datos secundarios. Luego, los datos secundarios generan datos de procedimiento, y luego a productos de datos y servicios de datos. En este momento, los datos individuales originales con individuos como propietarios de datos se transforman en productos y servicios de datos para empresas. Este es un proceso de producción.
**Tecnología Tencent: ¿Es posible entender que las empresas de Internet obtienen datos personales a través de la autorización, y luego de que estas empresas procesan el proceso, pueden convertirse en algún tipo de activos de datos de la empresa? **
Profesor Zeng Xueyun: También se puede entender que generamos personalmente una gran cantidad de datos en Internet, al igual que varios recursos naturales en la naturaleza. Por ejemplo, pueden crecer muchas flores y árboles en la tierra y pueden crecer muchos recursos. Este tipo de recurso es un tipo de recurso público, que puede desarrollarse y utilizarse, pero no puede comprarse ni venderse directamente. Lo que se genera después de la utilización y el procesamiento son los activos de la empresa, esto está permitido, y también debemos fomentar el desarrollo de factores de producción de datos de esta manera.
**Tecnología Tencent: Desde un punto de vista individual, ¿cómo proteger nuestros datos personales y dejarlos fluir como queremos? **
**Profesor Zeng Xueyun: **En la era de la inteligencia artificial, la privacidad de las personas es cada vez más difícil de proteger. Debido a que se registran todos los comportamientos de las personas, se registra el movimiento de la ubicación geográfica, la vida, el trabajo, la dieta y la vida diaria. Una vez registrada, la información que originalmente nos pertenecía ya no puede ser controlada por el perpetrador. Por lo tanto, en este momento, el riesgo de fuga de privacidad es muy alto, la tarea de protección de datos también es muy pesada y la protección de datos también es muy difícil.
¿Cómo protegen las personas sus derechos de datos? De hecho, varios países también tienen algunos métodos comerciales. El primer tipo, como Japón, usa un banco de datos, es decir, todos pueden almacenar datos en un banco de datos al igual que depositarlos en un banco. El banco de datos es un custodio de los datos, también puede servir como desarrollador original del valor de los datos, y las personas también pueden obtener ciertos beneficios. Esto significa que permite que algunas personas que están dispuestas a divulgar y utilizar sus propios datos hasta cierto punto tengan un modelo de negocio para resolver los problemas de protección de datos de forma autoelegida. En otras palabras, construir circulación de datos legales, desarrollo de datos legales y modelos de utilización, esto es una pieza.
**La otra parte es que personalmente no quiero, por lo que no autorizaré al propietario de los datos. **A falta de autorización, el país debe fortalecer la protección de datos. Si alguien quiere desarrollar ilegalmente esta parte de los datos, debe ser sancionado y supervisado legalmente.La tecnología Blockchain se puede utilizar para rastrear tales comportamientos. Por ejemplo, si nuestros datos se han filtrado y dónde se han filtrado, para rastrear el flujo de datos. También es posible rastrear y analizar el parentesco de datos, y ahora existe la tecnología de parentesco de datos. En términos generales, **¿De dónde provienen los datos y adónde van? El análisis de linaje de datos es en realidad un tipo de análisis de correlación de datos y trazabilidad de datos. **Usar la palabra linaje es una descripción muy vívida de los entresijos de los datos . Todo se está grabando, por lo que la grabación de datos y tecnología de otras personas también se puede grabar, hacer pública y penetrar.
el "Código Civil" de mi país ha establecido disposiciones especiales sobre la protección de la información personal en el capítulo sobre los derechos de la personalidad. El artículo 127 del "Código Civil" yuxtapone los datos con la propiedad virtual de la red, destacando el atributo de propiedad de los datos. En la legislación local, las disposiciones del artículo 12 de las "Reglas de datos municipales de Shanghai" reflejan directamente el modelo de asignación de derechos de "dos divisiones de recursos humanos y riqueza". Este artículo establece: “Esta ciudad protege los derechos e intereses de la personalidad de las personas naturales en relación con su información personal de conformidad con la ley.” Así como los derechos e intereses legales de propiedad obtenidos en las actividades de innovación de datos relevantes en el desarrollo de la tecnología digital. economía."
El 20 de agosto de 2021, la 30.ª reunión del Comité Permanente de la Decimotercera Asamblea Popular Nacional votó a favor de aprobar la "Ley de Protección de Información Personal de la República Popular China", que entrará en vigor el 1 de noviembre de 2021. Los detalles se pueden encontrar en línea. El carácter jurisdiccional de los datos personales en la “Ley de Protección de Datos Personales” es también la protección de los derechos e intereses personales, que difícilmente involucra los derechos e intereses de propiedad de los datos personales.
**Tecnología Tencent: ¿Qué tipo de datos de alta calidad son importantes para el entrenamiento de modelos grandes? **
**Profesor Zeng Xueyun: **Los datos deben ser todos los registros de actividades humanas económicas, sociales, de producción, de gestión, comerciales e incluso militares. Dicho registro se produce en diversas industrias, campos y aspectos. En lo que respecta a los datos sin procesar, tienen alta y baja calidad. Por ejemplo, los estados financieros y los datos financieros de **empresas que cotizan en bolsa son datos de alta calidad y son datos estructurados. ** Debido a que este tipo de estados financieros e información financiera han sido auditados por la sociedad y por contadores públicos autorizados, y la Comisión Reguladora de Valores de China supervisa la divulgación de información, por lo que se trata de datos de alta calidad. Para otro ejemplo, los datos en papel en **CNKI también son datos de alta calidad. **Sin embargo, los datos generados en Internet son datos no estructurados y no estandarizados. Dichos datos son un tipo de datos originales, desordenados y no regulados, que requieren una limpieza granular antes del cálculo, por lo que los datos de alta calidad generalmente tienen una transición del proceso de procesamiento no estructurado al estructurado. **
**Tecnología Tencent: Dado que los datos de alta calidad se pueden producir continuamente, ¿por qué existe el dicho de que "los datos de alta calidad casi se agotan"? **
Profesor Zeng Xueyun: Creo que la capacidad de producir y procesar datos no puede satisfacer la demanda de datos de las personas, y la productividad de toda la cadena de valor de la cadena de suministro para la producción y el procesamiento de datos aún es relativamente débil. Porque sabemos que los datos están en constante explosión, pero los datos de alta calidad se están acabando, solo significa que en el proceso de datos a datos de alta calidad, nos falta un tipo de productividad y capacidad de integración. En este momento, se necesitan proveedores de datos. Muchos de nuestros proveedores de datos actuales solo hacen uso directo de los datos, pero para la producción y el procesamiento de datos, y cómo producir datos de alta calidad, la capacidad o el diseño del modelo comercial de esta área. todavía no es suficiente.
De hecho, GPT-4 de OpenAI utiliza una gran cantidad de datos producidos por el modelo GPT-3.5 de la generación anterior para el entrenamiento. El fundador de OpenAI también dijo en una entrevista reciente: "Los datos sintéticos son una forma efectiva de resolver la escasez de datos de modelos grandes. La clave es que existe un sistema completo para distinguir qué datos generados por IA están disponibles y cuáles no. Y continuar dando retroalimentación basada en el efecto del modelo entrenado”. Esta empresa no solo es capaz de recaudar dinero, puede controlar una gran cantidad de potencia informática tan simple como eso, y la capacidad de tecnología de datos del producto es también una de las principales competitividad de esta empresa.
**Tecnología Tencent: para mejorar la productividad de los datos de alta calidad, ¿cuáles son los vínculos necesarios en el diseño industrial? **
Profesor Zeng Xueyun: Acerca de esta pregunta, primero debemos entender qué son los datos. ¿Qué datos tenemos? ¿Y qué hacer con los datos? Es decir, producir datos de alta calidad no significa que haya capacidad de producción para tener datos de alta calidad, y no significa que haya voluntad de producir datos de alta calidad. Debe entender los datos desde la fuente ¿Qué problemas de la sociedad se deben resolver con datos? ¿Dónde está la demanda de datos del mercado? Entonces, desde los datos originales hasta el lado de la demanda, ¿cómo deberíamos producir en el medio? Esta serie de problemas requiere diseño industrial, y el pensamiento general actual no es suficiente.
**Tecnología Tencent: La inmadurez de la industria es un aspecto. ¿Significa también que la industria sigue siendo un océano azul? **
**Profesor Zeng Xueyun: **Un océano azul muy primitivo. En los primeros días, hubo algunos casos de comercio directo ilegal de datos, pero más tarde, la legislación nacional ya no podía comprar y vender datos directamente, ni comerciar con datos sin procesar. Los datos no se pueden utilizar para transacciones originales, debe ser el resultado de invertir en la propia producción para hacer transacciones, en lugar de decir que tengo algunos datos y los vendo directamente, esto no está permitido.
En 2022 (diciembre), se promulgaron los "Veinte artículos de datos". Los "Veinte artículos de datos" presentan los requisitos para la separación de la propiedad de los datos y la multipropiedad de la propiedad de los datos, los derechos de gestión y beneficiarios La división, que mencionó que los datos deben ser manejados en esta categoría jerárquica. Este es el diseño de nivel superior del gobierno de datos y un plan general. También se puede decir que es el comienzo del desarrollo estandarizado de la futura industria de datos. En este momento, las personas se dan cuenta de que los datos no son un todo y necesitan comprender qué derechos e intereses tienen los datos. Este es también el avance de la investigación original basada en la ley a la investigación basada en la economía. ** Para establecer un mercado de datos, el mercado debe ser un comportamiento económico. Este tipo de comportamiento económico requiere el uso de muchas herramientas económicas y teorías económicas, así que ahora desde la investigación sobre ciencia de datos, la gobernanza de datos por parte del estado, hasta la investigación sobre datos en la academia y el control de datos. en la industria La utilización es un océano azul, y es un estado que apenas comienza. **
**Tecnología Tencent: Desde este punto de vista, los datos pueden existir como un determinado activo de una empresa. ¿A qué tipo de activo pertenecen los datos? **
**Profesor Zeng Xueyun:**La clasificación de datos es un tema muy candente en el mundo académico. En la mayoría de los casos, la gente piensa que los datos son intangibles, invisibles e intangibles, y se les llama activos intangibles. Pero, de hecho, según la clasificación de la UIT, los datos están más cerca de los activos de inventario, porque los datos también involucran el proceso de producción y procesamiento. Y los datos en sí son un activo tangible electrónico, ¿por qué es un activo tangible electrónico? Los datos ocuparán espacio físico, y muchos datos en sí mismos tienen una forma física, que es una forma física en el lado de la red. Imagen, puede ver esta imagen electrónica; sonido, puede escuchar este sonido, y retrato, puede ver este retrato, por lo que ** los datos son un activo tangible digital. **
Sabemos que los activos de datos son una clase de activos muy especial. Algunos sugerirán que los datos se pueden comparar con la naturaleza intangible para la amortización, o de forma análoga a los activos fijos para la depreciación. De hecho, primero debe clasificar los datos jerárquicamente para ver a qué categoría pertenecen los datos. **Para ciertos tipos de datos, también tiene capacidad de crecimiento y fusionabilidad. Por ejemplo, si todos los datos de llamadas de China Unicom se pueden integrar con datos de inversión y depósito bancario personal, se puede generar un retrato de esta persona con más información, desde inversión y financiación hasta su comunicación y carrera. En este momento, habrá un efecto acumulativo del valor de los datos generado por la fusión de datos y datos. En este momento, los datos se fusionarán y crecerán. También hay una parte de los datos que, de hecho, es sensible al tiempo, y su valor decaerá con el tiempo. Por lo tanto, aún necesitamos analizar las características de los propios datos de manera más específica para conocer su valor contable, y la contabilidad del valor de los datos tiene más variabilidad e incertidumbre, a diferencia de los activos fijos, el valor del activo fijo en el momento de la formación de activos es cierta y, a medida que pasa el tiempo, el valor disminuye gradualmente, pero los datos no necesariamente disminuyen con el tiempo, y los datos tienen una forma de activo más compleja.
**Tecnología Tencent: ¿Son los datos futuros una de las principales competitividades de las empresas de IA? ¿Es posible cuantificar los activos de datos y reflejarlos en la valoración de la empresa? **
**Profesor Zeng Xueyun: **Para una empresa de inteligencia artificial, **los datos son su principal competitividad. **Para una empresa de IA, la experiencia del producto determina el valor comercial de la empresa y las capacidades de datos determinan la experiencia del producto. **Para un país, los datos son la competitividad clave en el futuro, y también es el oro del futuro, así como el petróleo es el oro de la era industrial, y **los datos son el oro de la era de la economía de Internet. **
Pero en la actualidad, los países del mundo están enfrentando dificultades en la gobernanza de datos, y ningún país ha tomado la delantera en lograr avances sobre cómo resolver el equilibrio entre la seguridad de los datos, la gobernanza de datos y el desarrollo y la utilización de datos. **
En este sentido, China ha sido muy consciente de la importancia de los datos. Todos los países también son conscientes de que los datos son una nueva productividad, pero cómo usar los datos requiere actores del mercado, tecnología inteligente y regulación nacional. Por lo tanto, no es un problema simple que pueda resolverse, es un problema de complejidad del sistema.
El gobierno nacional de China es un arreglo relativamente centralizado de lo central a lo local, por lo que naturalmente tenemos una ventaja en la integración de big data en todo el país, pero esta ventaja aún no se ha reflejado y radica en la valoración de ** datos Hay problemas con la valoración y la valoración, y el problema de la entrada de datos en los estados contables no se ha resuelto. ** No existe una buena solución a este problema en el mundo.
**Si los datos se pueden transferir de los activos fuera del balance a los activos del balance, entonces la contabilidad del valor del gobierno de datos y la gestión del valor de los datos se pueden resolver bien, y las transacciones de datos tendrán una base objetiva. **Ahora nuestros datos corporativos son básicamente activos fuera de balance, sin valoración, y sin medición e informes en el balance, por lo que no está claro cuántos datos tiene la empresa, por lo que la economía de los datos también es difícil. para hacer estadísticas sobre el valor. Si los datos no se ingresan en la tabla, entonces su transacción carecerá de una base razonable, **por lo que la entrada de datos en la tabla es un tema clave. **Para las estadísticas del volumen de datos, la contabilidad de los precios de los datos y la fijación de precios de las transacciones de datos, Desde las estadísticas de volumen hasta la contabilidad de precios y la base de las transacciones, es necesario ingresar el balance y el estado de resultados con datos , e ingrese La contabilidad para estados financieros es una instalación subyacente. Esta instalación subyacente aún no se ha resuelto.
**Tecnología Tencent: ¿Cuáles son los precedentes internacionales para la legislación sobre derechos de propiedad de datos? **
**Profesor Zeng Xueyun: **Investigación sobre legislación de derechos de propiedad de datos. En la actualidad, los principales países del mundo tienen leyes básicas sobre protección de datos y están cada vez más claramente posicionados para promover la protección de los derechos de la personalidad en los derechos de propiedad de los datos. Sin embargo, básicamente faltan leyes y reglamentos sobre la utilización de datos. Japón tiene un cierto grado de avance en este sentido mi país Se pone un énfasis considerable en promover la circulación de elementos de datos, pero sin el apoyo, la regulación y la orientación de leyes y reglamentos, se basa principalmente en documentos administrativos, que todavía tiene muchas deficiencias legislativas. En la actualidad, existe una necesidad urgente de liderar de manera innovadora la nueva dirección de la construcción legal global en términos de acelerar la regulación de los derechos de propiedad de datos y la circulación de elementos de datos. La situación en el país y en el extranjero es la siguiente:
Aspectos internacionales: El Reglamento General de Protección de Datos (GDPR) aprobado por la Unión Europea en 2016 es actualmente la ley de privacidad de datos más completa e influyente. El "Reglamento" se desarrolla en dos direcciones: fortalecer los derechos de los interesados, garantizar el control sobre el uso de los datos personales y tener en cuenta la seguridad de los datos y el libre flujo de datos. Sobre la base de confirmar y mejorar los derechos existentes de las personas, el RGPD estipula el derecho de supresión (artículo 17) y el derecho a la portabilidad (artículo 20), etc., con el fin de lograr un control más eficaz de los interesados sobre sus datos personales. , pero las disposiciones no No hay aclaración sobre la transferencia de la propiedad de los datos personales y la distribución de los derechos de propiedad.
Aunque Estados Unidos inició antes el sistema y la exploración teórica de la protección legal de la propiedad de datos, la mayoría de las normas pertinentes se encuentran dispersas en varios proyectos de ley. La legislación estatal no es compatible, pero cubre una amplia gama de áreas y tiene cierta flexibilidad en la resolución de disputas reales para fomentar la utilización de datos. Por ejemplo, la "Ley de Privacidad del Consumidor de California de 2018" emitida en 2018 y la "Ley de Privacidad de California de 2020" emitida en 2020 han aumentado la determinación de los derechos de datos, cubriendo el derecho de acceso, derecho a eliminar, derecho a saber, etc. Los derechos de privacidad personal de los consumidores fortalecen la protección de los derechos e intereses de los interesados durante la transferencia de datos, lo que también refleja el permiso de los Estados Unidos para el uso del valor económico de los datos. En 2017, Japón formuló las "Directrices para los contratos de derechos de uso de datos". Las directrices consideraron completamente factores como la contribución de los contratos de datos a la creación de datos, la carga de costos del almacenamiento y la gestión, y los contratos de transacción de datos estandarizados para promover las transacciones de datos. es un gran avance, pero todavía no hay una definición clara de los derechos de propiedad de los datos.
En Europa, la Carta de los Derechos Fundamentales de la UE y el Reglamento General de Protección de Datos consideran el derecho a la protección de datos personales como un derecho especial del que disfrutan los interesados, que no incluye ningún derecho de propiedad. Si bien las leyes de la UE, como el Reglamento general de protección de datos, no estipulan claramente que los controladores de datos disfrutan de derechos de propiedad con los datos como objeto, sus derechos de propiedad de datos pueden protegerse mediante la protección de bases de datos, la protección de la ley de derechos de autor, la protección de secretos comerciales, la protección de la ley de contratos y protección de la ley de competencia, etc. están protegidos. Además, el documento "Construyendo una economía de datos europea" emitido por la Comisión Europea se compromete a introducir "derechos de productores de datos", que otorgan a los controladores de datos derechos de propiedad universales sobre datos no personales y datos personales anonimizados, permitiéndoles un uso exclusivo de datos, incluido el derecho a autorizar a otros a utilizar dichos datos. En los Estados Unidos, aunque algunos juristas creen que los individuos deben tener derechos de propiedad sobre la información personal, los tribunales generalmente no reconocen tales derechos de propiedad. En algunos casos, los tribunales estadounidenses han sostenido que las empresas tienen derechos de propiedad sobre los datos que poseen. La experiencia legal nacional y extranjera sobre la propiedad de datos muestra que la "separación de los recursos humanos y la riqueza" debe convertirse en la propuesta teórica central para construir el sistema de derechos de propiedad de datos de mi país.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Detrás del entrenamiento de modelos grandes de IA, se está formando una cadena de la industria de datos
Autor: Guo Xiaojing, Tecnología Tencent
"Hacer milagros" y "estética violenta", estas dos palabras siempre han aparecido con la discusión de ChatGPT. En cuanto a "vigoroso" y "violento", además de "enorme poder de cómputo", también hay cantidades masivas de datos. Marc Andreessen, el fundador de a16z, también señaló en la conferencia Data+AI que los datos masivos acumulados por Internet durante las últimas dos décadas son una razón importante para el surgimiento de esta nueva ola de IA, porque la primera proporciona la segunda. con datos que se pueden utilizar para el entrenamiento.
Según OpenAI, GPT-3.5 tiene un cuerpo de texto de hasta 45 TB, lo que equivale a 4,72 millones de conjuntos de los cuatro grandes clásicos de China, mientras que GPT-4 agrega datos multimodales a los conjuntos de datos de entrenamiento GPT-3 y GPT-3.5. . El 18 de julio, Meta, la empresa matriz de Facebook, lanzó Llama2, el primer modelo de lenguaje grande de código abierto disponible comercialmente, y se espera que la capacitación previa alcance los 2 billones de tokens.
La capacidad de obtener cantidades masivas de datos de alta calidad se considera una de las principales competitividades de las futuras empresas modelo a gran escala, y también es imprescindible para la carrera armamentista de IA de los grandes gigantes. Los datos también se consideran un factor clave de producción que determina el desarrollo futuro. Según las estadísticas del "Informe sobre el desarrollo de China digital (2022)", el potencial de la economía digital liberado por los elementos de datos será extremadamente enorme. La producción de datos de mi país alcanzará los 8,1 ZB en 2022, lo que representa el 10,5 % del mundo. ocupando el segundo lugar en el mundo Economía digital El desarrollo está a la vanguardia.
Sin embargo, los datos, como flamante factor de producción, también traen consigo una serie de problemas que deben resolverse con urgencia: ¿cómo entender los datos? ¿Cómo confirmar los derechos de datos? ¿Cómo extraer el valor de los datos? ¿Puede realmente ser comercializado y circulado? ¿Se pueden incluir realmente los datos en los estados financieros de la empresa como un activo? ¿Cómo se gestiona la seguridad? Con este fin, hablamos con la profesora Zeng Xueyun, vicedecana del Instituto de Ciencia y Tecnología de la Universidad de Correos y Telecomunicaciones de Beijing**, y le pedimos que respondiera preguntas relevantes en profundidad.
La siguiente es la transcripción de la conversación:
**Tecnología Tencent: la gente común puede estar preocupada, ¿de dónde provienen los datos para el entrenamiento de modelos grandes? ¿Hay algún uso de mis datos personales, y habrá algún problema con los derechos de estos datos? **
**Profesor Zeng Xueyun: Los datos calculados por el **modelo grande son datos personales. En comparación con los datos corporativos, los datos personales tienen un problema de propiedad. **En principio, soy el dueño de mis datos. **Por ejemplo, los datos generados en el software social, en principio, la empresa a la que pertenece el software social no puede usar mis datos personales. Aunque estas empresas realmente han controlado los datos a través de la autorización predeterminada, cómo usar los datos específicos es necesario. estar regulado por la "Ley de Protección de Datos Personales".
Entonces, si se va a usar para cálculos de modelos grandes, ¿cómo usarlo? En términos de tecnología, es necesario llevar a cabo procesamiento de anonimización, y en términos de operación, también existe la necesidad de una entidad de mercado, que consiste en **dar a cierta empresa un derecho legal para operar estos datos , en otras palabras, dar estos datos a Find a market subject. **Cuando el sujeto orientado al mercado obtiene los datos, necesita invertir mano de obra, tiempo, inteligencia y capital para producir datos, lo que todos podemos llamar insumos de trabajo. Después de la entrada de mano de obra, la información de datos que pertenece al individuo se deriva en una especie de datos regenerativos de la empresa, o datos secundarios. Luego, los datos secundarios generan datos de procedimiento, y luego a productos de datos y servicios de datos. En este momento, los datos individuales originales con individuos como propietarios de datos se transforman en productos y servicios de datos para empresas. Este es un proceso de producción.
**Tecnología Tencent: ¿Es posible entender que las empresas de Internet obtienen datos personales a través de la autorización, y luego de que estas empresas procesan el proceso, pueden convertirse en algún tipo de activos de datos de la empresa? **
Profesor Zeng Xueyun: También se puede entender que generamos personalmente una gran cantidad de datos en Internet, al igual que varios recursos naturales en la naturaleza. Por ejemplo, pueden crecer muchas flores y árboles en la tierra y pueden crecer muchos recursos. Este tipo de recurso es un tipo de recurso público, que puede desarrollarse y utilizarse, pero no puede comprarse ni venderse directamente. Lo que se genera después de la utilización y el procesamiento son los activos de la empresa, esto está permitido, y también debemos fomentar el desarrollo de factores de producción de datos de esta manera.
**Tecnología Tencent: Desde un punto de vista individual, ¿cómo proteger nuestros datos personales y dejarlos fluir como queremos? **
**Profesor Zeng Xueyun: **En la era de la inteligencia artificial, la privacidad de las personas es cada vez más difícil de proteger. Debido a que se registran todos los comportamientos de las personas, se registra el movimiento de la ubicación geográfica, la vida, el trabajo, la dieta y la vida diaria. Una vez registrada, la información que originalmente nos pertenecía ya no puede ser controlada por el perpetrador. Por lo tanto, en este momento, el riesgo de fuga de privacidad es muy alto, la tarea de protección de datos también es muy pesada y la protección de datos también es muy difícil.
¿Cómo protegen las personas sus derechos de datos? De hecho, varios países también tienen algunos métodos comerciales. El primer tipo, como Japón, usa un banco de datos, es decir, todos pueden almacenar datos en un banco de datos al igual que depositarlos en un banco. El banco de datos es un custodio de los datos, también puede servir como desarrollador original del valor de los datos, y las personas también pueden obtener ciertos beneficios. Esto significa que permite que algunas personas que están dispuestas a divulgar y utilizar sus propios datos hasta cierto punto tengan un modelo de negocio para resolver los problemas de protección de datos de forma autoelegida. En otras palabras, construir circulación de datos legales, desarrollo de datos legales y modelos de utilización, esto es una pieza.
**La otra parte es que personalmente no quiero, por lo que no autorizaré al propietario de los datos. **A falta de autorización, el país debe fortalecer la protección de datos. Si alguien quiere desarrollar ilegalmente esta parte de los datos, debe ser sancionado y supervisado legalmente.La tecnología Blockchain se puede utilizar para rastrear tales comportamientos. Por ejemplo, si nuestros datos se han filtrado y dónde se han filtrado, para rastrear el flujo de datos. También es posible rastrear y analizar el parentesco de datos, y ahora existe la tecnología de parentesco de datos. En términos generales, **¿De dónde provienen los datos y adónde van? El análisis de linaje de datos es en realidad un tipo de análisis de correlación de datos y trazabilidad de datos. **Usar la palabra linaje es una descripción muy vívida de los entresijos de los datos . Todo se está grabando, por lo que la grabación de datos y tecnología de otras personas también se puede grabar, hacer pública y penetrar.
el "Código Civil" de mi país ha establecido disposiciones especiales sobre la protección de la información personal en el capítulo sobre los derechos de la personalidad. El artículo 127 del "Código Civil" yuxtapone los datos con la propiedad virtual de la red, destacando el atributo de propiedad de los datos. En la legislación local, las disposiciones del artículo 12 de las "Reglas de datos municipales de Shanghai" reflejan directamente el modelo de asignación de derechos de "dos divisiones de recursos humanos y riqueza". Este artículo establece: “Esta ciudad protege los derechos e intereses de la personalidad de las personas naturales en relación con su información personal de conformidad con la ley.” Así como los derechos e intereses legales de propiedad obtenidos en las actividades de innovación de datos relevantes en el desarrollo de la tecnología digital. economía."
El 20 de agosto de 2021, la 30.ª reunión del Comité Permanente de la Decimotercera Asamblea Popular Nacional votó a favor de aprobar la "Ley de Protección de Información Personal de la República Popular China", que entrará en vigor el 1 de noviembre de 2021. Los detalles se pueden encontrar en línea. El carácter jurisdiccional de los datos personales en la “Ley de Protección de Datos Personales” es también la protección de los derechos e intereses personales, que difícilmente involucra los derechos e intereses de propiedad de los datos personales.
**Tecnología Tencent: ¿Qué tipo de datos de alta calidad son importantes para el entrenamiento de modelos grandes? **
**Profesor Zeng Xueyun: **Los datos deben ser todos los registros de actividades humanas económicas, sociales, de producción, de gestión, comerciales e incluso militares. Dicho registro se produce en diversas industrias, campos y aspectos. En lo que respecta a los datos sin procesar, tienen alta y baja calidad. Por ejemplo, los estados financieros y los datos financieros de **empresas que cotizan en bolsa son datos de alta calidad y son datos estructurados. ** Debido a que este tipo de estados financieros e información financiera han sido auditados por la sociedad y por contadores públicos autorizados, y la Comisión Reguladora de Valores de China supervisa la divulgación de información, por lo que se trata de datos de alta calidad. Para otro ejemplo, los datos en papel en **CNKI también son datos de alta calidad. **Sin embargo, los datos generados en Internet son datos no estructurados y no estandarizados. Dichos datos son un tipo de datos originales, desordenados y no regulados, que requieren una limpieza granular antes del cálculo, por lo que los datos de alta calidad generalmente tienen una transición del proceso de procesamiento no estructurado al estructurado. **
**Tecnología Tencent: Dado que los datos de alta calidad se pueden producir continuamente, ¿por qué existe el dicho de que "los datos de alta calidad casi se agotan"? **
Profesor Zeng Xueyun: Creo que la capacidad de producir y procesar datos no puede satisfacer la demanda de datos de las personas, y la productividad de toda la cadena de valor de la cadena de suministro para la producción y el procesamiento de datos aún es relativamente débil. Porque sabemos que los datos están en constante explosión, pero los datos de alta calidad se están acabando, solo significa que en el proceso de datos a datos de alta calidad, nos falta un tipo de productividad y capacidad de integración. En este momento, se necesitan proveedores de datos. Muchos de nuestros proveedores de datos actuales solo hacen uso directo de los datos, pero para la producción y el procesamiento de datos, y cómo producir datos de alta calidad, la capacidad o el diseño del modelo comercial de esta área. todavía no es suficiente.
De hecho, GPT-4 de OpenAI utiliza una gran cantidad de datos producidos por el modelo GPT-3.5 de la generación anterior para el entrenamiento. El fundador de OpenAI también dijo en una entrevista reciente: "Los datos sintéticos son una forma efectiva de resolver la escasez de datos de modelos grandes. La clave es que existe un sistema completo para distinguir qué datos generados por IA están disponibles y cuáles no. Y continuar dando retroalimentación basada en el efecto del modelo entrenado”. Esta empresa no solo es capaz de recaudar dinero, puede controlar una gran cantidad de potencia informática tan simple como eso, y la capacidad de tecnología de datos del producto es también una de las principales competitividad de esta empresa.
**Tecnología Tencent: para mejorar la productividad de los datos de alta calidad, ¿cuáles son los vínculos necesarios en el diseño industrial? **
Profesor Zeng Xueyun: Acerca de esta pregunta, primero debemos entender qué son los datos. ¿Qué datos tenemos? ¿Y qué hacer con los datos? Es decir, producir datos de alta calidad no significa que haya capacidad de producción para tener datos de alta calidad, y no significa que haya voluntad de producir datos de alta calidad. Debe entender los datos desde la fuente ¿Qué problemas de la sociedad se deben resolver con datos? ¿Dónde está la demanda de datos del mercado? Entonces, desde los datos originales hasta el lado de la demanda, ¿cómo deberíamos producir en el medio? Esta serie de problemas requiere diseño industrial, y el pensamiento general actual no es suficiente.
**Tecnología Tencent: La inmadurez de la industria es un aspecto. ¿Significa también que la industria sigue siendo un océano azul? **
**Profesor Zeng Xueyun: **Un océano azul muy primitivo. En los primeros días, hubo algunos casos de comercio directo ilegal de datos, pero más tarde, la legislación nacional ya no podía comprar y vender datos directamente, ni comerciar con datos sin procesar. Los datos no se pueden utilizar para transacciones originales, debe ser el resultado de invertir en la propia producción para hacer transacciones, en lugar de decir que tengo algunos datos y los vendo directamente, esto no está permitido.
En 2022 (diciembre), se promulgaron los "Veinte artículos de datos". Los "Veinte artículos de datos" presentan los requisitos para la separación de la propiedad de los datos y la multipropiedad de la propiedad de los datos, los derechos de gestión y beneficiarios La división, que mencionó que los datos deben ser manejados en esta categoría jerárquica. Este es el diseño de nivel superior del gobierno de datos y un plan general. También se puede decir que es el comienzo del desarrollo estandarizado de la futura industria de datos. En este momento, las personas se dan cuenta de que los datos no son un todo y necesitan comprender qué derechos e intereses tienen los datos. Este es también el avance de la investigación original basada en la ley a la investigación basada en la economía. ** Para establecer un mercado de datos, el mercado debe ser un comportamiento económico. Este tipo de comportamiento económico requiere el uso de muchas herramientas económicas y teorías económicas, así que ahora desde la investigación sobre ciencia de datos, la gobernanza de datos por parte del estado, hasta la investigación sobre datos en la academia y el control de datos. en la industria La utilización es un océano azul, y es un estado que apenas comienza. **
**Tecnología Tencent: Desde este punto de vista, los datos pueden existir como un determinado activo de una empresa. ¿A qué tipo de activo pertenecen los datos? **
**Profesor Zeng Xueyun:**La clasificación de datos es un tema muy candente en el mundo académico. En la mayoría de los casos, la gente piensa que los datos son intangibles, invisibles e intangibles, y se les llama activos intangibles. Pero, de hecho, según la clasificación de la UIT, los datos están más cerca de los activos de inventario, porque los datos también involucran el proceso de producción y procesamiento. Y los datos en sí son un activo tangible electrónico, ¿por qué es un activo tangible electrónico? Los datos ocuparán espacio físico, y muchos datos en sí mismos tienen una forma física, que es una forma física en el lado de la red. Imagen, puede ver esta imagen electrónica; sonido, puede escuchar este sonido, y retrato, puede ver este retrato, por lo que ** los datos son un activo tangible digital. **
Sabemos que los activos de datos son una clase de activos muy especial. Algunos sugerirán que los datos se pueden comparar con la naturaleza intangible para la amortización, o de forma análoga a los activos fijos para la depreciación. De hecho, primero debe clasificar los datos jerárquicamente para ver a qué categoría pertenecen los datos. **Para ciertos tipos de datos, también tiene capacidad de crecimiento y fusionabilidad. Por ejemplo, si todos los datos de llamadas de China Unicom se pueden integrar con datos de inversión y depósito bancario personal, se puede generar un retrato de esta persona con más información, desde inversión y financiación hasta su comunicación y carrera. En este momento, habrá un efecto acumulativo del valor de los datos generado por la fusión de datos y datos. En este momento, los datos se fusionarán y crecerán. También hay una parte de los datos que, de hecho, es sensible al tiempo, y su valor decaerá con el tiempo. Por lo tanto, aún necesitamos analizar las características de los propios datos de manera más específica para conocer su valor contable, y la contabilidad del valor de los datos tiene más variabilidad e incertidumbre, a diferencia de los activos fijos, el valor del activo fijo en el momento de la formación de activos es cierta y, a medida que pasa el tiempo, el valor disminuye gradualmente, pero los datos no necesariamente disminuyen con el tiempo, y los datos tienen una forma de activo más compleja.
**Tecnología Tencent: ¿Son los datos futuros una de las principales competitividades de las empresas de IA? ¿Es posible cuantificar los activos de datos y reflejarlos en la valoración de la empresa? **
**Profesor Zeng Xueyun: **Para una empresa de inteligencia artificial, **los datos son su principal competitividad. **Para una empresa de IA, la experiencia del producto determina el valor comercial de la empresa y las capacidades de datos determinan la experiencia del producto. **Para un país, los datos son la competitividad clave en el futuro, y también es el oro del futuro, así como el petróleo es el oro de la era industrial, y **los datos son el oro de la era de la economía de Internet. **
Pero en la actualidad, los países del mundo están enfrentando dificultades en la gobernanza de datos, y ningún país ha tomado la delantera en lograr avances sobre cómo resolver el equilibrio entre la seguridad de los datos, la gobernanza de datos y el desarrollo y la utilización de datos. **
En este sentido, China ha sido muy consciente de la importancia de los datos. Todos los países también son conscientes de que los datos son una nueva productividad, pero cómo usar los datos requiere actores del mercado, tecnología inteligente y regulación nacional. Por lo tanto, no es un problema simple que pueda resolverse, es un problema de complejidad del sistema.
El gobierno nacional de China es un arreglo relativamente centralizado de lo central a lo local, por lo que naturalmente tenemos una ventaja en la integración de big data en todo el país, pero esta ventaja aún no se ha reflejado y radica en la valoración de ** datos Hay problemas con la valoración y la valoración, y el problema de la entrada de datos en los estados contables no se ha resuelto. ** No existe una buena solución a este problema en el mundo.
**Si los datos se pueden transferir de los activos fuera del balance a los activos del balance, entonces la contabilidad del valor del gobierno de datos y la gestión del valor de los datos se pueden resolver bien, y las transacciones de datos tendrán una base objetiva. **Ahora nuestros datos corporativos son básicamente activos fuera de balance, sin valoración, y sin medición e informes en el balance, por lo que no está claro cuántos datos tiene la empresa, por lo que la economía de los datos también es difícil. para hacer estadísticas sobre el valor. Si los datos no se ingresan en la tabla, entonces su transacción carecerá de una base razonable, **por lo que la entrada de datos en la tabla es un tema clave. **Para las estadísticas del volumen de datos, la contabilidad de los precios de los datos y la fijación de precios de las transacciones de datos, Desde las estadísticas de volumen hasta la contabilidad de precios y la base de las transacciones, es necesario ingresar el balance y el estado de resultados con datos , e ingrese La contabilidad para estados financieros es una instalación subyacente. Esta instalación subyacente aún no se ha resuelto.
**Tecnología Tencent: ¿Cuáles son los precedentes internacionales para la legislación sobre derechos de propiedad de datos? **
**Profesor Zeng Xueyun: **Investigación sobre legislación de derechos de propiedad de datos. En la actualidad, los principales países del mundo tienen leyes básicas sobre protección de datos y están cada vez más claramente posicionados para promover la protección de los derechos de la personalidad en los derechos de propiedad de los datos. Sin embargo, básicamente faltan leyes y reglamentos sobre la utilización de datos. Japón tiene un cierto grado de avance en este sentido mi país Se pone un énfasis considerable en promover la circulación de elementos de datos, pero sin el apoyo, la regulación y la orientación de leyes y reglamentos, se basa principalmente en documentos administrativos, que todavía tiene muchas deficiencias legislativas. En la actualidad, existe una necesidad urgente de liderar de manera innovadora la nueva dirección de la construcción legal global en términos de acelerar la regulación de los derechos de propiedad de datos y la circulación de elementos de datos. La situación en el país y en el extranjero es la siguiente:
Aspectos internacionales: El Reglamento General de Protección de Datos (GDPR) aprobado por la Unión Europea en 2016 es actualmente la ley de privacidad de datos más completa e influyente. El "Reglamento" se desarrolla en dos direcciones: fortalecer los derechos de los interesados, garantizar el control sobre el uso de los datos personales y tener en cuenta la seguridad de los datos y el libre flujo de datos. Sobre la base de confirmar y mejorar los derechos existentes de las personas, el RGPD estipula el derecho de supresión (artículo 17) y el derecho a la portabilidad (artículo 20), etc., con el fin de lograr un control más eficaz de los interesados sobre sus datos personales. , pero las disposiciones no No hay aclaración sobre la transferencia de la propiedad de los datos personales y la distribución de los derechos de propiedad.
Aunque Estados Unidos inició antes el sistema y la exploración teórica de la protección legal de la propiedad de datos, la mayoría de las normas pertinentes se encuentran dispersas en varios proyectos de ley. La legislación estatal no es compatible, pero cubre una amplia gama de áreas y tiene cierta flexibilidad en la resolución de disputas reales para fomentar la utilización de datos. Por ejemplo, la "Ley de Privacidad del Consumidor de California de 2018" emitida en 2018 y la "Ley de Privacidad de California de 2020" emitida en 2020 han aumentado la determinación de los derechos de datos, cubriendo el derecho de acceso, derecho a eliminar, derecho a saber, etc. Los derechos de privacidad personal de los consumidores fortalecen la protección de los derechos e intereses de los interesados durante la transferencia de datos, lo que también refleja el permiso de los Estados Unidos para el uso del valor económico de los datos. En 2017, Japón formuló las "Directrices para los contratos de derechos de uso de datos". Las directrices consideraron completamente factores como la contribución de los contratos de datos a la creación de datos, la carga de costos del almacenamiento y la gestión, y los contratos de transacción de datos estandarizados para promover las transacciones de datos. es un gran avance, pero todavía no hay una definición clara de los derechos de propiedad de los datos.
En Europa, la Carta de los Derechos Fundamentales de la UE y el Reglamento General de Protección de Datos consideran el derecho a la protección de datos personales como un derecho especial del que disfrutan los interesados, que no incluye ningún derecho de propiedad. Si bien las leyes de la UE, como el Reglamento general de protección de datos, no estipulan claramente que los controladores de datos disfrutan de derechos de propiedad con los datos como objeto, sus derechos de propiedad de datos pueden protegerse mediante la protección de bases de datos, la protección de la ley de derechos de autor, la protección de secretos comerciales, la protección de la ley de contratos y protección de la ley de competencia, etc. están protegidos. Además, el documento "Construyendo una economía de datos europea" emitido por la Comisión Europea se compromete a introducir "derechos de productores de datos", que otorgan a los controladores de datos derechos de propiedad universales sobre datos no personales y datos personales anonimizados, permitiéndoles un uso exclusivo de datos, incluido el derecho a autorizar a otros a utilizar dichos datos. En los Estados Unidos, aunque algunos juristas creen que los individuos deben tener derechos de propiedad sobre la información personal, los tribunales generalmente no reconocen tales derechos de propiedad. En algunos casos, los tribunales estadounidenses han sostenido que las empresas tienen derechos de propiedad sobre los datos que poseen. La experiencia legal nacional y extranjera sobre la propiedad de datos muestra que la "separación de los recursos humanos y la riqueza" debe convertirse en la propuesta teórica central para construir el sistema de derechos de propiedad de datos de mi país.