Deje que las grandes empresas de IA "roben" así, es posible que no veamos sitios web gratuitos

2023-07-12 02:02:10

Fuente original: Mala crítica

Fuente de la imagen: Generada por Unbounded AI‌

Hace unos días, Google actualizó repentinamente su política de privacidad, dejando claro que utilizará todos los datos públicos en Internet para entrenar su propio modelo de IA.

En otras palabras, de acuerdo con la nueva política, Google puede rastrear cualquier información que publique públicamente en Internet, incluidos, entre otros, sus publicaciones, las palabras clave que busca y los videos que ve.

¿No es apropiado este rayado de Internet?

No mucho después de que OpenAI fuera demandado por infracción de datos, Google tenía prisa por disparar.

En esta coyuntura, hay una alta probabilidad de que no tenga nada que ver con los cargos de datos.**Google no recogerá esta ola de lana gratis, y es muy probable que no pueda obtenerla en el futuro. **

Este asunto nunca se ha detenido desde que ChatGPT se hizo popular.

Shichao les dará un resumen de la línea de tiempo primero.

En marzo de este año, Musk tomó la iniciativa al disparar el primer tiro contra los cargos por datos, declarando que la interfaz API de Twitter ya no era gratuita.

Inmediatamente después, Reddit, la versión estadounidense de la barra de correos, no pudo soportarlo más.

El mes pasado, la campaña de "apagón" de Reddit fue una protesta contra la política oficial de tarifas de API.

Cuando Shichao escribió sobre esto antes, todavía estaba adivinando si los funcionarios de Reddit harían concesiones al final.

A juzgar por el seguimiento actual, se ha confirmado que la mayoría del software de terceros está cerrado y Reddit está decidido a cobrar por los datos.

Durante este período de tiempo, Twitter ha vuelto a ajustar el límite de tasa. Las cuentas que no gastan dinero para autenticarse solo pueden leer 600 publicaciones por día. El propósito también es evitar que los robots tomen datos de los usuarios.

¿Son tan valiosos los datos?

Shi Chao sintió que todavía era culpa de **AI. **

Si el gran modelo de IA quiere volverse más inteligente, necesita un flujo constante de datos para "alimentarse".

Aquellos que pueden hacer modelos grandes ahora, tienen sus propios datos, como Baidu, Ali y Tencent; o rastrean los datos de otras personas, aquí está el nombre OpenAI.

Debido a que muchos sitios web tienen interfaces API abiertas y gratuitas, gigantes como Microsoft y OpenAI han tenido una oportunidad.

Pero el presente es diferente al pasado: después de que la IA vuelve a otorgar valor a los datos, las plataformas con chips en sus manos, por supuesto, no están dispuestas a ser prostituidas por nada. **

Incluso el CEO de Reddit, Hoffman, lo dejó claro: simplemente no quiere proporcionar datos a los gigantes de forma gratuita.

Por lo tanto, la persecución de OpenAI probablemente se deba al hecho de que las plataformas se han unido para "matar pollos y monos" y curar las tendencias malsanas de la IA.

Sin embargo, es difícil decir si la ley estará del lado de OpenAI esta vez.

Porque los derechos de autor de datos implican 3 cuestiones clave:

**1. ¿Es legal el comportamiento del propio rastreador de datos? **

**2. ¿Los datos están protegidos por derechos de autor? **

**3. ¿Las obras generadas a partir de datos están protegidas por derechos de autor? **

En primer lugar, la primera pregunta, para obtener datos, no es más que pagar compras, o recopilar datos disponibles públicamente en Internet.

Sin embargo, debe tenerse en cuenta que los datos divulgados no equivalen a un uso autorizado, y también depende de si el sitio web tiene cláusulas relevantes que restringen el comportamiento de los rastreadores de datos.

Si se excede directamente el consentimiento del propietario de los derechos de autor, o si los datos se obtienen por la fuerza eludiendo las restricciones del sitio web, es un delito de obtención ilegal de datos del sistema de información de la computadora.

Incluso si OpenAI afirma rastrear datos de sitios web públicos, si el comportamiento de rastreo de datos en sí mismo es legal depende de si el propietario de los derechos de autor ha dado autorización.

En segundo lugar, sobre si los datos en sí están sujetos a derechos de autor.

De acuerdo con la ley de derechos de autor de EE. UU., si los datos utilizados para el entrenamiento del modelo de IA se encuentran dentro del alcance del "uso justo", no constituirá una infracción.

Pero el problema radica en este "uso justo".

Los elementos constitutivos del "uso justo" incluyen si se trata de un uso comercial, si la obra en sí está protegida por la ley de derechos de autor, la cantidad de partes utilizadas y el impacto en la obra en sí después de su uso.

Al igual que los informes de noticias y la investigación académica, las citas apropiadas están completamente bien.

¿Puede el uso de datos de cientos de millones de niveles en modelos de IA y software de IA comercializado todavía contar como "uso justo"?

Finalmente, está la cuestión de los derechos de autor de las obras generadas por IA.

Debido a que los derechos de autor de los datos de capacitación no están claros, el contenido generado por AI naturalmente tendrá disputas de derechos de autor. Hace unos días, Steam también eliminó un juego generado con AIGC debido a que había un problema de derechos de autor.

Tomemos como ejemplo la pintura de IA. La generación de imágenes equivale a un proceso de división y reorganización. Aunque el resultado final es completamente "nuevo", aún conserva algunas características de la imagen de entrenamiento.

Sin embargo, ya sea que esta situación se considere una infracción o no, existen diferentes opiniones de varios países.

Debido a que los datos de capacitación pertenecen a otros, la Oficina de derechos de autor de EE. UU. determinó que los trabajos generados por AI no están protegidos por la ley de derechos de autor e incluso pueden infringir los derechos de autor.

La actitud del gobierno japonés es bastante diferente, diciendo que la ley japonesa no protege los derechos de autor de los datos utilizados para el entrenamiento de IA.

Al menos bajo el marco legal actual, es difícil obtener una respuesta unificada a las preguntas anteriores.

Dado que la supervisión no es lo suficientemente fuerte, el propietario de los derechos de autor no tiene más remedio que hacerlo él mismo. Si se debe cobrar la tarifa, la que se debe recuperar debe recuperarse rápidamente.

▼Documentos demandados por OpenAI

Es previsible que, después de Twitter y Reddit, haya más partes de derechos de autor de contenido que levanten muros altos.

Este asunto, para la plataforma, es por supuesto una nueva forma de ganar dinero, por muy malos que sean los gigantes tecnológicos, gastarán más dinero.

Pero para Internet en su conjunto, no es algo bueno.

En ese momento, Internet nació con el gen del intercambio abierto, como Wikipedia y Twitter, que proporcionaban interfaces API de forma gratuita durante todo el año, lo que hacía muy conveniente para los desarrolladores llamar a los datos.

Pero ahora, si se permite implementar cargos de datos de esta manera, es difícil decir cuál será el resultado.

Después de todo, los pequeños desarrolladores no tienen la capacidad de pagar grandes tarifas de datos.Si la innovación solo ocurre en los gigantes, ¿no es esto un monopolio puro?

Lo más importante es que muchos sitios web que se pueden ver de forma gratuita ahora pueden tener que ser vistos más tarde. Este es el verdadero problema para los usuarios comunes como nosotros.

De hecho, no se puede culpar por completo a la plataforma por los cargos de datos, lo que realmente hace que los gigantes de la IA tengan miedo de "robar", lo cual es un movimiento inútil para la autoprotección.

Aunque Google tiene una "política de privacidad" esta vez, es difícil decir cuál será el resultado.

Por lo tanto, la clave es ver cuándo caerá el mazo de la supervisión.

Aclarar los derechos de autor de los datos es un obstáculo que no se puede evitar en el desarrollo de la IA, y ahora parece estar también relacionado con la dirección futura de Internet.

Me pregunto si la nave de IA nos empujará a una era más abierta o cerrada.

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
Pump.Fun Debuts on Gate
22 Popularidad
Join Gate VIP to Win MacBook
29k Popularidad
Trump Tariff Hikes
14k Popularidad
4HK Stablecoin Rules
2k Popularidad
5Truth Social Crypto ETF
917 Popularidad
6Gate Square Writing Contest Phase 1
5k Popularidad
7Altcoin ETF Watch
4k Popularidad
8Gate Alpha Trading Share
11k Popularidad
9Dr.Han Joins Gate Square
45k Popularidad
10Gate Square Creator Spark Program
136k Popularidad

Anclado