¡OpenAI también tiene problemas con los datos! La empresa admite que el uso de rastreadores para limitarse es difícil de disipar las sospechas públicas
Fuente: "Diario de la Junta de Innovación en Ciencia y Tecnología"
Editar canción Ziqiao
Fuente de la imagen: Generada por Unbounded AI
Los datos, la potencia informática y los algoritmos se consideran los tres elementos centrales de la IA generativa, y es difícil decir cuál es más importante.
Sin embargo, para empresas estrella como OpenAI, el poder de cómputo es básicamente una cuestión económica. Las grandes empresas acumulan una gran cantidad de hardware costoso en virtud de su "capacidad de dinero", y el problema de la escasez de datos es aún más un dolor de cabeza. ellos en una crisis moral.
Tomando OpenAI como ejemplo, su comportamiento de capturar datos públicos para entrenar modelos de IA ha sido controvertido durante mucho tiempo. **Según el último informe del medio de tecnología extranjero Insider, OpenAI admitió recientemente que lanzó un robot rastreador web llamado GPTBot, que se utiliza para rastrear y recopilar datos para el entrenamiento de modelos a gran escala. **
Se sospecha que OpenAI es un "ladrón de datos"
Un rastreador web es un programa informático que simula el comportamiento de un ser humano (usuario de la red) y busca y recopila automáticamente información de la red. El rastreador web puede guardar los datos que visita, y el capturador de datos analiza y reutiliza los datos, infiere las preferencias de los usuarios de Internet y luego las envía a los grupos de usuarios correspondientes.
** No está claro cuánto tiempo los robots rastreadores de OpenAI han estado al acecho en línea, y algunos sospechan que OpenAI ha estado recopilando en secreto los datos en línea de todos durante meses o años. **
Frente a tales "acusaciones", OpenAI se defendió activamente. La compañía afirmó que GPTBot cumplirá estrictamente con las reglas de cualquier muro de pago, no capturará información que requiera pago y no recopilará datos que puedan rastrearse hasta personas personalmente identificables.
Además, OpenAI ha lanzado un método para bloquear GPTbot: los usuarios pueden modificar su archivo robots.txt o bloquear sus direcciones IP para negar el acceso a los rastreadores. La compañía también anunció recientemente un acuerdo con The Associated Press en el que OpenAI pagará por el contenido AP necesario para los datos de entrenamiento de la IA.
La confianza perdida
Como medio de recopilación de datos, la tecnología de rastreo en sí misma no distingue entre legal e ilegal. **Sin embargo, la iniciativa de OpenAI de establecer límites en sus herramientas de rastreo no parece poder restaurar la confianza del público en esta gran empresa modelo. **
Neil Clarke, editor en jefe de la veterana revista de ciencia ficción "Clarkworld" y ganadora del Premio Hugo, dijo: "OpenAI y otras compañías de modelos a gran escala han demostrado repetidamente que no respetan los derechos de los autores, artistas y otras personas creativas, basado en gran medida en el trabajo de otros con derechos de autor".
También dio un ejemplo, CCBot es otro robot rastreador operado por la organización Common Crawl. Common Crawl es actualmente el principal proveedor de datos de entrenamiento para modelos de inteligencia artificial. "Hasta donde yo sé, nadie le ha pedido con éxito a Common Crawl que elimine datos. ", dijo Clark. "Lo intenté y no obtuve respuesta".
Por otro lado, cuando se trata de luchar contra las grandes corporaciones, la gente común está en su mayoría en desventaja. Como dijo Clark, dado que OpenAI está dispuesto a pagar por los datos de grandes empresas como (Associated Press), ¿por qué no paga por la información de otras personas? "Le pregunté a OpenAI sobre esto, pero no obtuve respuesta".
Sin embargo, el propio Clark se encuentra en el lado opuesto de OpenAI: el "Clark World" que fundó se enfrenta a una avalancha de contenido generado por IA. Clark ha señalado que después de que ChatGPT abrió a fines del año pasado, aumentaron los envíos de spam generados por IA, y el costo de detectar dichos trabajos fue alto, y la revista suspendió temporalmente la convocatoria de manuscritos.
Conclusión
Anteriormente, OpenAI ha sido demandado por varias partes por cuestiones de derechos de autor, incluida la demanda colectiva promovida por el bufete de abogados Clarkson y autores de gran éxito de ventas como Paul Tremblay y Mona Awad. Las celebridades demandan con sus nombres reales.
Con la iteración adicional de la tecnología de IA generativa, las disputas similares solo aumentarán.
Las grandes empresas son más propensas a convertirse en el blanco de las críticas del público, incluso si se atreven a asumir la responsabilidad, no es fácil lograr el pleno cumplimiento de la adquisición de datos. Debido a la gran cantidad de parámetros, es necesario entrenar e implementar grandes modelos con la ayuda de tecnologías como la computación distribuida y los servicios en la nube, lo que aumenta el riesgo de robo, manipulación, uso indebido o fuga de datos.
Cómo equilibrar la protección de la privacidad personal y fomentar la innovación tecnológica, y cómo encontrar el camino óptimo entre la supervivencia empresarial y la producción conforme ya son cuestiones que toda empresa dedicada a la IA generativa no puede evitar.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡OpenAI también tiene problemas con los datos! La empresa admite que el uso de rastreadores para limitarse es difícil de disipar las sospechas públicas
Fuente: "Diario de la Junta de Innovación en Ciencia y Tecnología"
Editar canción Ziqiao
Los datos, la potencia informática y los algoritmos se consideran los tres elementos centrales de la IA generativa, y es difícil decir cuál es más importante.
Sin embargo, para empresas estrella como OpenAI, el poder de cómputo es básicamente una cuestión económica. Las grandes empresas acumulan una gran cantidad de hardware costoso en virtud de su "capacidad de dinero", y el problema de la escasez de datos es aún más un dolor de cabeza. ellos en una crisis moral.
Tomando OpenAI como ejemplo, su comportamiento de capturar datos públicos para entrenar modelos de IA ha sido controvertido durante mucho tiempo. **Según el último informe del medio de tecnología extranjero Insider, OpenAI admitió recientemente que lanzó un robot rastreador web llamado GPTBot, que se utiliza para rastrear y recopilar datos para el entrenamiento de modelos a gran escala. **
Se sospecha que OpenAI es un "ladrón de datos"
Un rastreador web es un programa informático que simula el comportamiento de un ser humano (usuario de la red) y busca y recopila automáticamente información de la red. El rastreador web puede guardar los datos que visita, y el capturador de datos analiza y reutiliza los datos, infiere las preferencias de los usuarios de Internet y luego las envía a los grupos de usuarios correspondientes.
** No está claro cuánto tiempo los robots rastreadores de OpenAI han estado al acecho en línea, y algunos sospechan que OpenAI ha estado recopilando en secreto los datos en línea de todos durante meses o años. **
Frente a tales "acusaciones", OpenAI se defendió activamente. La compañía afirmó que GPTBot cumplirá estrictamente con las reglas de cualquier muro de pago, no capturará información que requiera pago y no recopilará datos que puedan rastrearse hasta personas personalmente identificables.
Además, OpenAI ha lanzado un método para bloquear GPTbot: los usuarios pueden modificar su archivo robots.txt o bloquear sus direcciones IP para negar el acceso a los rastreadores. La compañía también anunció recientemente un acuerdo con The Associated Press en el que OpenAI pagará por el contenido AP necesario para los datos de entrenamiento de la IA.
La confianza perdida
Como medio de recopilación de datos, la tecnología de rastreo en sí misma no distingue entre legal e ilegal. **Sin embargo, la iniciativa de OpenAI de establecer límites en sus herramientas de rastreo no parece poder restaurar la confianza del público en esta gran empresa modelo. **
Neil Clarke, editor en jefe de la veterana revista de ciencia ficción "Clarkworld" y ganadora del Premio Hugo, dijo: "OpenAI y otras compañías de modelos a gran escala han demostrado repetidamente que no respetan los derechos de los autores, artistas y otras personas creativas, basado en gran medida en el trabajo de otros con derechos de autor".
También dio un ejemplo, CCBot es otro robot rastreador operado por la organización Common Crawl. Common Crawl es actualmente el principal proveedor de datos de entrenamiento para modelos de inteligencia artificial. "Hasta donde yo sé, nadie le ha pedido con éxito a Common Crawl que elimine datos. ", dijo Clark. "Lo intenté y no obtuve respuesta".
Por otro lado, cuando se trata de luchar contra las grandes corporaciones, la gente común está en su mayoría en desventaja. Como dijo Clark, dado que OpenAI está dispuesto a pagar por los datos de grandes empresas como (Associated Press), ¿por qué no paga por la información de otras personas? "Le pregunté a OpenAI sobre esto, pero no obtuve respuesta".
Sin embargo, el propio Clark se encuentra en el lado opuesto de OpenAI: el "Clark World" que fundó se enfrenta a una avalancha de contenido generado por IA. Clark ha señalado que después de que ChatGPT abrió a fines del año pasado, aumentaron los envíos de spam generados por IA, y el costo de detectar dichos trabajos fue alto, y la revista suspendió temporalmente la convocatoria de manuscritos.
Conclusión
Anteriormente, OpenAI ha sido demandado por varias partes por cuestiones de derechos de autor, incluida la demanda colectiva promovida por el bufete de abogados Clarkson y autores de gran éxito de ventas como Paul Tremblay y Mona Awad. Las celebridades demandan con sus nombres reales.
Con la iteración adicional de la tecnología de IA generativa, las disputas similares solo aumentarán.
Las grandes empresas son más propensas a convertirse en el blanco de las críticas del público, incluso si se atreven a asumir la responsabilidad, no es fácil lograr el pleno cumplimiento de la adquisición de datos. Debido a la gran cantidad de parámetros, es necesario entrenar e implementar grandes modelos con la ayuda de tecnologías como la computación distribuida y los servicios en la nube, lo que aumenta el riesgo de robo, manipulación, uso indebido o fuga de datos.
Cómo equilibrar la protección de la privacidad personal y fomentar la innovación tecnológica, y cómo encontrar el camino óptimo entre la supervivencia empresarial y la producción conforme ya son cuestiones que toda empresa dedicada a la IA generativa no puede evitar.