Observación｜La ola de grandes modelos está a punto de agotar todo el universo de los textos ¿De dónde vienen los datos de alta calidad?

Question

Fuente: El PapelAutor: Shao WenLos bots impulsados por IA como ChatGPT pronto podrían "quedarse sin texto en el universo", advierten los expertos. Al mismo tiempo, usar los datos generados por la IA para "retroalimentar" a la IA o provocar el colapso del modelo. Los datos de alta calidad utilizados para el entrenamiento de modelos futuros pueden volverse cada vez más costosos, y la red se fragmentará y cerrará."Cuando el desarrollo de modelos a gran escala es más profundo, como los modelos industriales a gran escala, los datos requeridos no son datos gratuitos y abiertos en Internet. Para entrenar un modelo con alta precisión, lo que se necesita es experiencia industrial o incluso comercial". secretos Conocimiento Para que todos contribuyan a tal corpus, debe haber un mecanismo para la distribución de derechos e intereses ".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Fuente de la imagen: Generada por Unbounded AIComo parte de la "troika" de la infraestructura de inteligencia artificial, la importancia de los datos siempre ha sido evidente. A medida que el auge de los modelos de lenguaje grande entra en su punto máximo, la industria está prestando más atención que nunca a los datos.A principios de julio, Stuart Russell, profesor de ciencias de la computación en la Universidad de California, Berkeley y autor de "Inteligencia artificial: un enfoque moderno", advirtió que los bots impulsados por IA como ChatGPT pronto podrían "quedarse sin texto en el universo". ." ", y la técnica de entrenar bots mediante la recopilación de grandes cantidades de texto está "comenzando a tener dificultades". La firma de investigación Epoch estima que los conjuntos de datos de aprendizaje automático podrían agotar todos los "datos de idiomas de alta calidad" para 2026."La calidad y el volumen de los datos serán la clave para el surgimiento de capacidades de modelos a gran escala en la siguiente etapa". Wu Chao, director del comité de expertos de CITIC Think Tank y director del Securities Research Institute of China Securities, compartió un discurso en la Conferencia Mundial de Inteligencia Artificial (WAIC) de 2023 Se estima que "el 20% de la calidad de un modelo en el futuro estará determinada por el algoritmo, y el 80% estará determinado por la calidad de los datos. A continuación, alta -La calidad de los datos será la clave para mejorar el rendimiento del modelo".Sin embargo, ¿de dónde provienen los datos de alta calidad? En la actualidad, la industria de datos aún enfrenta muchos problemas urgentes, como cuál es el estándar de calidad de los datos, cómo promover el intercambio y la circulación de datos, y cómo diseñar un sistema de ingresos por distribución y precios.## **Datos de alta calidad urgentes**Wei Zhilin, subdirector general de Shanghai Data Exchange, dijo en una entrevista con The Paper (incluidos los medios) el 8 de julio que en la "troika" de datos, poder de cómputo y algoritmos, los datos son el núcleo, el más largo y el más importante. elementos más básicos.El modelo de lenguaje a gran escala (LLM) tiene un rendimiento sorprendente en la actualidad, y el mecanismo detrás de él se resume como "emergencia inteligente". En términos simples, las habilidades de IA que no se han enseñado antes ahora se pueden aprender. Y una gran cantidad de conjuntos de datos es una base importante para el "surgimiento de inteligencia".Un modelo de lenguaje grande es una red neuronal profunda con miles de millones o billones de parámetros, que está "entrenada previamente" en un enorme corpus de lenguaje natural de varios terabytes (Terabytes, 1 TB = 1024 MB), incluidos datos estructurados, libros en línea y otro contenido. Shan Haijun, vicepresidente del Instituto de Investigación Jinxin de Electrónica de China, le dijo a Peng Mei Technology durante la Conferencia Mundial de Inteligencia Artificial de 2023 que los modelos grandes son esencialmente modelos de generación probabilística, y sus aspectos más destacados radican en la capacidad de comprender (aprendizaje contextual rápido) y razonar ( cadena de pensamiento) y Tiene Valores (Human Feedback Reinforcement Learning). El mayor avance de ChatGPT fue cuando apareció GPT-3, con alrededor de 175 mil millones de parámetros y un volumen de datos de 45 TB.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) Una vista completa de todos los conjuntos de datos desde GPT-1 hasta los modelos de lenguaje seleccionados de Gopher desde 2018 hasta principios de 2022. El tamaño no ponderado, en GB. Crédito: Alan D. Thompson"OpenAI siempre ha estado trabajando para buscar más datos de alta calidad y analizar profundamente los datos existentes, a fin de hacer que sus capacidades sean cada vez más poderosas". dijo a The Paper, "La adquisición de datos diversos, de alta calidad y a gran escala, y el análisis en profundidad de estos datos puede ser una de las ideas importantes para promover el desarrollo de modelos grandes".Sin embargo, los datos de alta calidad escasean.Un estudio realizado en noviembre pasado por Epoch, un grupo de investigadores de inteligencia artificial, estimó que los conjuntos de datos de aprendizaje automático podrían agotar todos los "datos de lenguaje de alta calidad" para 2026. Y cuando se publicó el estudio, el auge mundial de los modelos grandes ni siquiera había ocurrido. Según el estudio, los datos de idioma en conjuntos de "alta calidad" provienen de "libros, artículos de noticias, artículos científicos, Wikipedia y contenido web filtrado".Al mismo tiempo, las prácticas de recopilación de datos de las organizaciones de desarrollo de IA generativa como OpenAI para entrenar modelos de lenguaje grandes se están volviendo cada vez más controvertidas. A finales de junio, OpenAI fue objeto de una demanda colectiva, acusada de robar "una gran cantidad de datos personales" para entrenar a ChatGPT. Las redes sociales, incluidas Reddit y Twitter, expresaron su descontento con el uso aleatorio de datos en sus plataformas. El 1 de julio, Musk impuso un límite temporal en la cantidad de tweets leídos por este motivo.En una entrevista con los medios financieros y de tecnología Insider el 12 de julio, Russell dijo que muchos informes, aunque no confirmados, detallan que OpenAI compró conjuntos de datos de texto de fuentes privadas. Si bien hay varias explicaciones posibles para esta compra, "la inferencia natural es que no hay suficientes datos públicos de alta calidad".Algunos expertos han sugerido que tal vez surjan nuevas soluciones antes de que se agoten los datos. Por ejemplo, el modelo grande puede generar continuamente nuevos datos por sí mismo y luego someterse a un filtrado de calidad, que a su vez se puede usar para entrenar el modelo. Esto se denomina autoaprendizaje o "retroalimentación". Sin embargo, según un artículo publicado en la plataforma de preimpresión arXiv por investigadores de la Universidad de Oxford, la Universidad de Cambridge y el Imperial College de Londres en mayo de este año, el entrenamiento de IA con datos generados por IA conducirá a defectos irreversibles en el modelo de IA. Es Modelo Colapso. Esto significa que los datos de alta calidad utilizados para el entrenamiento de modelos en el futuro serán cada vez más caros, la red se fragmentará y cerrará, y los creadores de contenido harán todo lo posible para evitar que su contenido se rastree de forma gratuita.No es difícil ver que la adquisición de datos de alta calidad será cada vez más difícil. "La mayoría de nuestros datos ahora provienen de Internet. ¿De dónde vendrán los datos en la segunda mitad del año? Creo que esto es muy importante. Al final, todos compartirán datos privados, o tienes datos que yo no No tengo." El joven científico del Laboratorio de Inteligencia Artificial de Shanghái, responsable de OpenDataLab He Conghui habló de ello en la Conferencia Mundial de Inteligencia Artificial de 2023.Wu Chao también le dijo a The Paper que quien tenga datos de mayor calidad a continuación, o pueda generar un flujo constante de datos de alta calidad, se convertirá en la clave para mejorar el rendimiento.## **Problemas "centrados en datos"**He Conghui cree que el paradigma de todo el desarrollo del modelo cambiará gradualmente de "centrado en el modelo" a "centrado en los datos". Pero hay un problema con la centralidad de los datos: la falta de estándares y la criticidad de la calidad de los datos se menciona a menudo, pero de hecho, actualmente es difícil para cualquiera decir claramente qué es una buena calidad de datos y cuál es el estándar.En el proceso de práctica, He Conghui también enfrentó un problema de este tipo: "Nuestra práctica en este proceso es desglosar los datos y hacerlos cada vez más detallados. Con cada campo de subdivisión y tema de subdivisión, el estándar de calidad de los datos gradualmente se vuelve cada vez más pequeño. Se ha propuesto. Al mismo tiempo, no es suficiente mirar los datos solo, sino también mirar detrás de los datos. Combinaremos los datos y la mejora del rendimiento del modelo de la intención correspondiente del datos, y formular juntos un conjunto de mecanismos de iteración de calidad de datos”.El año pasado, el Laboratorio de Inteligencia Artificial de Shanghái, donde trabaja He Conghui, lanzó la plataforma de datos abiertos OpenDataLab para inteligencia artificial, que proporciona más de 5500 conjuntos de datos de alta calidad, "pero esto es solo a nivel de conjuntos de datos públicos. Esperamos que los datos El intercambio se establecerá hace dos días. La alianza de datos de corpus a gran escala puede proporcionar a las instituciones de investigación y empresas mejores métodos de circulación de datos".El 6 de julio, en la Conferencia Mundial de Inteligencia Artificial de 2023, el Laboratorio de Inteligencia Artificial de Shanghái, el Instituto de Información Científica y Tecnológica de China, el Grupo de Datos de Shanghái, la Asociación de Negocios Digitales de Shanghái, el Centro Meteorológico Nacional, la Radio y Televisión Central de China, el Grupo de la Industria de la Prensa de Shanghái. modelo corpus data alianza iniciada conjuntamente por otras unidades anunció el establecimiento formal.El 7 de julio, el sitio web oficial de Shanghai Data Exchange lanzó oficialmente el corpus, y se han enumerado un total de casi 30 productos de datos de corpus, incluidos texto, audio, imágenes y otras modalidades múltiples, que cubren los campos de finanzas, transporte y medicina.Pero tal construcción de corpus no es una cuestión de rutina. "¿Puede haber un corpus de alta calidad requerido por empresas a gran escala? ¿El público objetivo estará dispuesto a abrir los datos?", Tang Qifeng, gerente general de Shanghai Data Exchange, dijo en la Conferencia Mundial de Inteligencia Artificial de 2023 que la dificultad radica principalmente en el grado de apertura y la calidad de los datos Dos formas.Wei Zhilin compartió que el suministro de datos ahora enfrenta muchos desafíos. Los principales fabricantes no están dispuestos a abrir los datos. Al mismo tiempo, todos también están preocupados por el mecanismo de seguridad en el proceso de intercambio de datos. Otro tema importante es que aún existen dudas sobre el mecanismo de distribución de ingresos por la circulación abierta de datos.Específicamente, el intercambio de datos debe resolver tres problemas. Lin Le, fundador y director ejecutivo de Shanghai Lingshu Technology Co., Ltd. explicó a Pengpai Technology que, en primer lugar, los datos son fáciles de falsificar y es necesario garantizar que los datos sean auténticos y creíbles. La segunda es que los datos son fáciles de copiar, lo que significa que la relación de propiedad no está clara y se requiere blockchain para su confirmación y uso autorizado. La tercera es que es fácil filtrar la privacidad. Blockchain se puede combinar con la tecnología informática de privacidad para que los datos estén disponibles y sean invisibles.## **Cómo resolver la distribución del ingreso**Tang Qifeng señaló que para los proveedores con alta calidad de datos pero poca apertura, el problema de confianza de la circulación de datos del corpus puede resolverse de manera efectiva a través de la cadena de transacciones de datos. participando en el modelo a gran escala".Lin Changle, vicepresidente ejecutivo del Instituto de Investigación de Tecnología Interdisciplinaria de Información Central de la Universidad de Tsinghua, está diseñando un sistema teórico sobre cómo fijar el precio de los datos y distribuir los beneficios."Hasta cierto punto, una gran cantidad de conocimiento humano como ChatGPT puede usarse de forma gratuita en unos pocos meses. Vemos que el modelo grande puede aprender artículos de algunos escritores, escribir el mismo estilo de artículos o generar pinturas de Van Gogh, pero no necesita ser este pago, los sujetos de estas fuentes de datos no se han beneficiado de él ", dijo Lin Changle en la Conferencia Mundial de Inteligencia Artificial de 2023, por lo que puede haber un punto de vista más radical: los derechos de propiedad intelectual en la era de no existen grandes modelos, o se dice que no existe la protección tradicional de la propiedad intelectual.Sin embargo, Lin Changle cree que después de la era de los modelos a gran escala, la protección de los derechos de propiedad intelectual se desarrollará hasta la confirmación de los derechos de datos, precios y transacciones. "Cuando el desarrollo de modelos a gran escala es más profundo, como los modelos industriales a gran escala, los datos requeridos no son datos gratuitos y abiertos en Internet. Para entrenar modelos con una precisión extremadamente alta, lo que se necesita es experiencia industrial o incluso comercial". secretos Conocimiento Para que todos contribuyan a tal corpus, debe haber un mecanismo para la distribución de derechos e intereses ".El "mapa de activos de datos" en el que Lin Changle está trabajando ahora es usar las matemáticas para probar un conjunto de mecanismos de distribución de ingresos para distribuir los derechos de datos de manera justa.**Cómo solucionar la circulación de datos**Liu Quan, ingeniero jefe adjunto del Instituto de Investigación CCID del Ministerio de Industria y Tecnología de la Información y académico extranjero de la Academia Rusa de Ciencias Naturales, mencionado en el WAIC "Integración de Números y Realidad, Inteligencia Liderando el Futuro" Industrial Blockchain Ecological Foro que recientemente la versión de Beijing de "Twenty Articles of Data" ha surgido en la industria.Muy gran respuesta, resuelve el problema central en el proceso de circulación de datos. Lo más obvio es que se aclara la cuestión de quién es el propietario de los datos del gobierno: los datos públicos pertenecen al gobierno. ¿Qué pasa con los datos corporativos y los datos personales? "Se puede confiar al Intercambio Municipal de Datos de Beijing para realizar operaciones encomendadas".El 5 de julio, el Comité Municipal de Beijing del Partido Comunista de China y el Gobierno Popular Municipal de Beijing emitieron un aviso sobre las "Opiniones de implementación sobre un mejor desempeño del papel de los elementos de datos y una mayor aceleración del desarrollo de la economía digital". Las "Opiniones de implementación" se dividen en nueve partes. Construye un sistema de datos básico a partir de los aspectos de los derechos de propiedad de datos, transacciones de circulación, distribución de ingresos y gobernanza de la seguridad. Propone un total de 23 requisitos específicos, que se denominan la versión de Beijing. de los "Twenty Data Articles" en la industria.“Desde el punto de vista doméstico, según las estadísticas, el 80% de los recursos de datos se concentran en instituciones públicas y gubernamentales. Queremos resolver el suministro de datos, en gran medida, esperamos basarnos en los 20 Artículos de Datos ( "El Comité Central del Partido Comunista de China y el Consejo de Estado sobre la construcción de un sistema básico de datos, opiniones sobre un mejor desempeño del papel de los elementos de datos") El intercambio abierto de datos públicos puede formar un conjunto de mecanismos y paradigmas replicables para promover los datos formados. en los servicios públicos y luego servir al público", dijo Wei Zhilin.Wei Zhilin dijo que, según las estadísticas actuales, el stock de recursos de datos en China en su conjunto ocupa el segundo lugar en el mundo, pero estos datos están dispersos en varios lugares. Según Zhan Yubao, subdirector del Instituto de Investigación Digital de China del Centro de Información Estatal, en la Conferencia Mundial de Inteligencia Artificial de 2023 el 7 de julio, el sistema de circulación de datos nacional actual de China incluye: Hay dos intercambios de datos, uno es Shanghai Data Exchange One es el Intercambio de Datos de Shenzhen; hay 17 centros de intercambio de datos en China, incluido el Centro de Intercambio de Datos de Beijing.