"Bigger than large" (más grande que más grande) es un anuncio de Apple de ese año, que se usa para describir el modelo de lenguaje grande más popular en el campo de la IA. Parece que no tiene nada de malo.
De miles de millones a decenas de miles de millones a cientos de miles de millones, los parámetros del modelo grande se han vuelto gradualmente salvajes. En consecuencia, la cantidad de datos utilizados para entrenar la IA también ha aumentado exponencialmente.
Tomando el GPT de OpenAI como ejemplo, de GPT-1 a GPT-3, su conjunto de datos de entrenamiento ha crecido exponencialmente de 4,5 GB a 570 GB.
En la conferencia Data+AI celebrada por Databricks no hace mucho tiempo, Marc Andreessen, fundador de a16z, creía que los datos masivos acumulados por Internet durante las últimas dos décadas son una razón importante para el surgimiento de esta nueva ola de IA, porque la el primero proporciona al segundo datos de entrenamiento utilizables.
Sin embargo, incluso si los internautas dejan una gran cantidad de datos útiles o inútiles en Internet, para el entrenamiento de IA, estos datos pueden tocar fondo.
Un artículo publicado por Epoch, una organización de pronóstico e investigación de inteligencia artificial, predice que los datos de texto de alta calidad se agotaron entre 2023 y 2027.
Si bien el equipo de investigación admite que existen serias limitaciones en el método de análisis y que la inexactitud del modelo es alta, es difícil negar que la velocidad a la que la IA consume conjuntos de datos es aterradora.
Consumo de datos de aprendizaje automático y tendencias de producción de datos de texto de baja calidad, texto e imágenes de alta calidad|EpochAI
Cuando se agoten los datos "humanos", el entrenamiento de IA inevitablemente utilizará contenido producido por la propia IA. Sin embargo, tal "bucle interno" planteará grandes desafíos.
No hace mucho, investigadores de la Universidad de Cambridge, la Universidad de Oxford, la Universidad de Toronto y otras universidades publicaron artículos que señalan que el uso de contenido generado por IA como entrenamiento de IA conducirá al colapso del nuevo modelo. **
Entonces, ¿cuál es el motivo del bloqueo causado por los "datos generados" para el entrenamiento de IA? ¿Hay alguna ayuda?
01 Consecuencias de la "consanguinidad" de la IA
En el artículo titulado "The Curse of Recursion: Training with Generated Data Makes Models Forget", los investigadores señalan que el "colapso del modelo" es un proceso degenerado de varias generaciones de modelos.
Los datos generados por la generación anterior de modelos contaminarán la próxima generación de modelos Después de varias generaciones de "herencia" de modelos, estos percibirán el mundo de manera errónea.
Diagrama esquemático de la iteración del modelo|arxiv
El colapso del modelo se produce en dos pasos:
En el colapso temprano del modelo, el modelo comenzará a perder la información de distribución de los datos originales, es decir, "datos humanos limpios";
En la etapa posterior, el modelo enredará la "percepción errónea" de la información de distribución original de las generaciones anteriores de modelos, distorsionando así la realidad.
Los investigadores primero entrenaron los modelos de pocos disparos GMM (modelo de mezcla gaussiana) y VAE (codificador automático variable) desde cero. Tomando GMM como ejemplo, el extremo izquierdo de la siguiente figura es la distribución normal de los datos originales.
Como puede ver, el modelo se ajusta muy bien a los datos inicialmente. En la iteración número 50, la distribución de datos subyacente comenzó a percibirse erróneamente. Cuando la iteración llega a 2000 veces, el modelo ha convergido a un punto muy pequeño, lo que significa que el modelo comienza a generar respuestas incorrectas constantemente.
Ejemplos de datos de ajuste de GMM en las iteraciones 0, 50, 100, 150, 200, 350, 2000|arxiv
Para verificar el impacto del entrenamiento previo en los resultados experimentales, los investigadores realizaron experimentos en el LLM (modelo de lenguaje grande) OPT-125m de 125 millones de parámetros desarrollado por Meta. El conjunto de datos proviene de wikitext2 de Wikipedia.
A diferencia de los modelos pequeños como GMM y VAE, el costo de la capacitación LLM desde cero es muy alto, por lo que todos están pre-entrenados. Los resultados experimentales son los siguientes:
Entrada: Según Poyntz Wright, algunas actividades antes de 1360 generalmente las realizaba un maestro cantero y un pequeño equipo de canteros itinerantes, complementados con el trabajo de la parroquia local. Pero otros autores niegan este modelo, sugiriendo en cambio que el maestro arquitecto diseñó el campanario de la iglesia parroquial en el estilo vertical inglés.
Producto: Generación 0: Edificios de renacimiento como la Catedral de St. John en Londres. El edificio de Renacimiento Vertical más antiguo que se conserva data de la Iglesia de Nuestra Señora de Guernsey del siglo XVIII-@, que fue construida a fines del siglo XIX. Hay dos tipos de iglesias verticales: Las de 1ª generación: edificios, como la Basílica de San Pedro en Roma o la Basílica de San Pedro en Buenos Aires. No hay evidencia de que estos edificios fueran construidos durante el reinado del Papa Inocencio III, pero es posible que fueran construidos durante el reinado de su sucesor, el Papa Inocencio. Generación 7: Arquitectura británica. En una entrevista con The New York Times, Wright dijo: "No creo que haya nada de malo en que pueda hacer lo que quiero. Simplemente no funciona para mí". si puedes reclamar Es divertido, 9ª Generación: Arquitectura. Además de ser el más grande black@-@tailhare, white@-@tailhare, blue@-@tailhare, red@-@tailhare, yellow@- uno de los hábitats
Se puede ver que en el momento del modelo de novena generación, el contenido de la salida ha sido completamente incomprensible.
Ilia Shumailov, uno de los autores del artículo, dijo que con el tiempo, los errores en los datos generados por IA se acumulan y los principales modelos entrenados con estos datos desarrollan una visión aún más distorsionada de la realidad.
02 ¿Por qué falla el modelo?
La razón principal del "colapso del modelo" es que la IA no es inteligencia real. Detrás de su capacidad para aproximarse a la "inteligencia" hay en realidad un método estadístico basado en una gran cantidad de datos.
Básicamente, todos los algoritmos de aprendizaje automático no supervisados siguen un patrón simple: Dada una serie de datos, entrene un modelo que pueda describir las leyes de estos datos.
En este proceso, es más probable que el modelo valore los datos con una probabilidad más alta en el conjunto de entrenamiento, y el modelo subestimará los datos con una probabilidad más baja.
Por ejemplo, supongamos que necesitamos registrar los resultados de 100 lanzamientos de dados para calcular la probabilidad de cada cara. En teoría, la probabilidad de que aparezca cada cara es la misma. En la vida real, debido al pequeño tamaño de la muestra, puede haber más casos de 3 y 4. Pero para el modelo, los datos que aprende son que 3 y 4 tienen una mayor probabilidad de aparecer, por lo que tiende a generar más resultados 3 y 4.
Diagrama esquemático del "colapso del modelo"|arxiv
Otra causa secundaria es el error de aproximación de funciones. También es fácil de entender, porque las funciones reales suelen ser muy complejas. En aplicaciones prácticas, las funciones simplificadas se utilizan a menudo para aproximar funciones reales, lo que conduce a errores.
03 ¿Realmente no tienes suerte?
¡Preocuparse!
Entonces, con cada vez menos datos humanos, ¿realmente no hay posibilidad de entrenamiento de IA?
No, todavía hay formas de resolver el problema del agotamiento de datos para entrenar IA:
"Aislamiento" de datos
A medida que la IA se vuelve cada vez más poderosa, más y más personas han comenzado a utilizar la IA para ayudarse en su trabajo, y AIGC en Internet se ha disparado, y los "conjuntos de datos humanos limpios" pueden volverse cada vez más difíciles de encontrar.
Daphne Ippolito, científica investigadora sénior de Google Brain, el departamento de investigación de aprendizaje profundo de Google, dijo que en el futuro, será cada vez más difícil encontrar datos de entrenamiento garantizados y de alta calidad sin inteligencia artificial.
Esto es como un ancestro humano que sufre de una enfermedad genética de alto riesgo, pero tiene una capacidad reproductiva extremadamente fuerte. En un corto período de tiempo, multiplicó su descendencia a todos los rincones de la tierra. Luego, en algún momento, estalla una enfermedad genética y toda la humanidad se extingue.
Para abordar el "colapso del modelo", un enfoque propuesto por el equipo de investigación es la "ventaja del primer motor", es decir, retener el acceso a fuentes de datos limpias generadas artificialmente, separando AIGC de él.
Al mismo tiempo, esto requiere que muchas comunidades y empresas unan fuerzas para mantener los datos humanos libres de contaminación AIGC.
Aún así, la escasez de datos humanos significa que hay oportunidades lucrativas para hacerlo, y algunas empresas ya lo están haciendo. Reddit dijo que aumentaría significativamente el costo de acceder a su API. Los ejecutivos de la compañía dijeron que los cambios fueron (en parte) una respuesta a las empresas de IA que roban sus datos. "La base de datos de Reddit es realmente valiosa”, dijo el fundador y director ejecutivo de Reddit, Steve Huffman, a The New York Times. "Pero no necesitamos dar todo ese valor de forma gratuita a algunas de las empresas más grandes del mundo".
Datos sintéticos
Al mismo tiempo, basado profesionalmente en datos generados por IA, ya se ha utilizado de manera efectiva para el entrenamiento de IA. A los ojos de algunos profesionales, ahora preocuparse de que los datos generados por la IA provoquen el colapso del modelo es algo así como una "fiesta de titulares".
Xie Chenguang, el fundador de Light Wheel Intelligence, le dijo a Geek Park que, como se menciona en documentos extranjeros, el uso de datos generados por IA para entrenar modelos de IA provoca fallas y los métodos experimentales están sesgados. Incluso los datos humanos se pueden dividir en utilizables e inutilizables, y los experimentos mencionados en el documento se utilizan directamente para el entrenamiento sin discriminación, en lugar de apuntar como datos de entrenamiento después de la inspección de calidad y el juicio de efectividad. Obviamente, existe la posibilidad de colapsar el modelo.
Xie Chen reveló que, de hecho, GPT-4 de OpenAI utiliza una gran cantidad de datos producidos por el modelo GPT-3.5 de la generación anterior para el entrenamiento. Sam Altman también expresó en una entrevista reciente que los datos sintéticos son una forma efectiva de resolver la escasez de datos de modelos grandes. El punto clave es que existe un sistema completo para distinguir qué datos generados por IA son utilizables y cuáles no, y para brindar retroalimentación continuamente en función del efecto del modelo entrenado; este es uno de los trucos únicos de OpenAI para estar orgulloso de la AI arena **, esta empresa no es tan simple como recaudar más dinero y comprar más potencia informática.
En la industria de la IA, el uso de datos sintéticos para el entrenamiento de modelos ya se ha convertido en un consenso que los forasteros aún no conocen.
Xie Chen, que solía estar a cargo de simulaciones de conducción autónoma en empresas como Nvidia, Cruise y Weilai, cree que a juzgar por la cantidad actual de datos para varios modelos de entrenamiento a gran escala, en los próximos 2 o 3 años, humanos de hecho, los datos pueden estar "agotados". Sin embargo, con base en sistemas y métodos especializados, los datos sintéticos generados por la IA se convertirán en una fuente inagotable de datos efectivos**. Y los escenarios de uso no se limitan a texto e imágenes, la cantidad de datos sintéticos requeridos por industrias como la conducción autónoma y la robótica será mucho mayor que la cantidad de datos de texto.
Los tres elementos de la IA son datos, poder de cómputo y algoritmos. La fuente de los datos se ha establecido y el modelo grande del algoritmo está en constante evolución. La única presión de poder de cómputo que queda, creo que el fundador de Nvidia, Huang Renxun, puede resolverlo. suavemente.
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI utilizará los datos humanos, ¿entonces qué?
"Bigger than large" (más grande que más grande) es un anuncio de Apple de ese año, que se usa para describir el modelo de lenguaje grande más popular en el campo de la IA. Parece que no tiene nada de malo.
De miles de millones a decenas de miles de millones a cientos de miles de millones, los parámetros del modelo grande se han vuelto gradualmente salvajes. En consecuencia, la cantidad de datos utilizados para entrenar la IA también ha aumentado exponencialmente.
Tomando el GPT de OpenAI como ejemplo, de GPT-1 a GPT-3, su conjunto de datos de entrenamiento ha crecido exponencialmente de 4,5 GB a 570 GB.
En la conferencia Data+AI celebrada por Databricks no hace mucho tiempo, Marc Andreessen, fundador de a16z, creía que los datos masivos acumulados por Internet durante las últimas dos décadas son una razón importante para el surgimiento de esta nueva ola de IA, porque la el primero proporciona al segundo datos de entrenamiento utilizables.
Sin embargo, incluso si los internautas dejan una gran cantidad de datos útiles o inútiles en Internet, para el entrenamiento de IA, estos datos pueden tocar fondo.
Un artículo publicado por Epoch, una organización de pronóstico e investigación de inteligencia artificial, predice que los datos de texto de alta calidad se agotaron entre 2023 y 2027.
Si bien el equipo de investigación admite que existen serias limitaciones en el método de análisis y que la inexactitud del modelo es alta, es difícil negar que la velocidad a la que la IA consume conjuntos de datos es aterradora.
Cuando se agoten los datos "humanos", el entrenamiento de IA inevitablemente utilizará contenido producido por la propia IA. Sin embargo, tal "bucle interno" planteará grandes desafíos.
No hace mucho, investigadores de la Universidad de Cambridge, la Universidad de Oxford, la Universidad de Toronto y otras universidades publicaron artículos que señalan que el uso de contenido generado por IA como entrenamiento de IA conducirá al colapso del nuevo modelo. **
Entonces, ¿cuál es el motivo del bloqueo causado por los "datos generados" para el entrenamiento de IA? ¿Hay alguna ayuda?
01 Consecuencias de la "consanguinidad" de la IA
En el artículo titulado "The Curse of Recursion: Training with Generated Data Makes Models Forget", los investigadores señalan que el "colapso del modelo" es un proceso degenerado de varias generaciones de modelos.
Los datos generados por la generación anterior de modelos contaminarán la próxima generación de modelos Después de varias generaciones de "herencia" de modelos, estos percibirán el mundo de manera errónea.
El colapso del modelo se produce en dos pasos:
Los investigadores primero entrenaron los modelos de pocos disparos GMM (modelo de mezcla gaussiana) y VAE (codificador automático variable) desde cero. Tomando GMM como ejemplo, el extremo izquierdo de la siguiente figura es la distribución normal de los datos originales.
Como puede ver, el modelo se ajusta muy bien a los datos inicialmente. En la iteración número 50, la distribución de datos subyacente comenzó a percibirse erróneamente. Cuando la iteración llega a 2000 veces, el modelo ha convergido a un punto muy pequeño, lo que significa que el modelo comienza a generar respuestas incorrectas constantemente.
Para verificar el impacto del entrenamiento previo en los resultados experimentales, los investigadores realizaron experimentos en el LLM (modelo de lenguaje grande) OPT-125m de 125 millones de parámetros desarrollado por Meta. El conjunto de datos proviene de wikitext2 de Wikipedia.
A diferencia de los modelos pequeños como GMM y VAE, el costo de la capacitación LLM desde cero es muy alto, por lo que todos están pre-entrenados. Los resultados experimentales son los siguientes:
Se puede ver que en el momento del modelo de novena generación, el contenido de la salida ha sido completamente incomprensible.
Ilia Shumailov, uno de los autores del artículo, dijo que con el tiempo, los errores en los datos generados por IA se acumulan y los principales modelos entrenados con estos datos desarrollan una visión aún más distorsionada de la realidad.
02 ¿Por qué falla el modelo?
La razón principal del "colapso del modelo" es que la IA no es inteligencia real. Detrás de su capacidad para aproximarse a la "inteligencia" hay en realidad un método estadístico basado en una gran cantidad de datos.
Básicamente, todos los algoritmos de aprendizaje automático no supervisados siguen un patrón simple: Dada una serie de datos, entrene un modelo que pueda describir las leyes de estos datos.
En este proceso, es más probable que el modelo valore los datos con una probabilidad más alta en el conjunto de entrenamiento, y el modelo subestimará los datos con una probabilidad más baja.
Por ejemplo, supongamos que necesitamos registrar los resultados de 100 lanzamientos de dados para calcular la probabilidad de cada cara. En teoría, la probabilidad de que aparezca cada cara es la misma. En la vida real, debido al pequeño tamaño de la muestra, puede haber más casos de 3 y 4. Pero para el modelo, los datos que aprende son que 3 y 4 tienen una mayor probabilidad de aparecer, por lo que tiende a generar más resultados 3 y 4.
Otra causa secundaria es el error de aproximación de funciones. También es fácil de entender, porque las funciones reales suelen ser muy complejas. En aplicaciones prácticas, las funciones simplificadas se utilizan a menudo para aproximar funciones reales, lo que conduce a errores.
03 ¿Realmente no tienes suerte?
¡Preocuparse!
Entonces, con cada vez menos datos humanos, ¿realmente no hay posibilidad de entrenamiento de IA?
No, todavía hay formas de resolver el problema del agotamiento de datos para entrenar IA:
"Aislamiento" de datos
A medida que la IA se vuelve cada vez más poderosa, más y más personas han comenzado a utilizar la IA para ayudarse en su trabajo, y AIGC en Internet se ha disparado, y los "conjuntos de datos humanos limpios" pueden volverse cada vez más difíciles de encontrar.
Daphne Ippolito, científica investigadora sénior de Google Brain, el departamento de investigación de aprendizaje profundo de Google, dijo que en el futuro, será cada vez más difícil encontrar datos de entrenamiento garantizados y de alta calidad sin inteligencia artificial.
Esto es como un ancestro humano que sufre de una enfermedad genética de alto riesgo, pero tiene una capacidad reproductiva extremadamente fuerte. En un corto período de tiempo, multiplicó su descendencia a todos los rincones de la tierra. Luego, en algún momento, estalla una enfermedad genética y toda la humanidad se extingue.
Para abordar el "colapso del modelo", un enfoque propuesto por el equipo de investigación es la "ventaja del primer motor", es decir, retener el acceso a fuentes de datos limpias generadas artificialmente, separando AIGC de él.
Al mismo tiempo, esto requiere que muchas comunidades y empresas unan fuerzas para mantener los datos humanos libres de contaminación AIGC.
Aún así, la escasez de datos humanos significa que hay oportunidades lucrativas para hacerlo, y algunas empresas ya lo están haciendo. Reddit dijo que aumentaría significativamente el costo de acceder a su API. Los ejecutivos de la compañía dijeron que los cambios fueron (en parte) una respuesta a las empresas de IA que roban sus datos. "La base de datos de Reddit es realmente valiosa”, dijo el fundador y director ejecutivo de Reddit, Steve Huffman, a The New York Times. "Pero no necesitamos dar todo ese valor de forma gratuita a algunas de las empresas más grandes del mundo".
Datos sintéticos
Al mismo tiempo, basado profesionalmente en datos generados por IA, ya se ha utilizado de manera efectiva para el entrenamiento de IA. A los ojos de algunos profesionales, ahora preocuparse de que los datos generados por la IA provoquen el colapso del modelo es algo así como una "fiesta de titulares".
Xie Chenguang, el fundador de Light Wheel Intelligence, le dijo a Geek Park que, como se menciona en documentos extranjeros, el uso de datos generados por IA para entrenar modelos de IA provoca fallas y los métodos experimentales están sesgados. Incluso los datos humanos se pueden dividir en utilizables e inutilizables, y los experimentos mencionados en el documento se utilizan directamente para el entrenamiento sin discriminación, en lugar de apuntar como datos de entrenamiento después de la inspección de calidad y el juicio de efectividad. Obviamente, existe la posibilidad de colapsar el modelo.
Xie Chen reveló que, de hecho, GPT-4 de OpenAI utiliza una gran cantidad de datos producidos por el modelo GPT-3.5 de la generación anterior para el entrenamiento. Sam Altman también expresó en una entrevista reciente que los datos sintéticos son una forma efectiva de resolver la escasez de datos de modelos grandes. El punto clave es que existe un sistema completo para distinguir qué datos generados por IA son utilizables y cuáles no, y para brindar retroalimentación continuamente en función del efecto del modelo entrenado; este es uno de los trucos únicos de OpenAI para estar orgulloso de la AI arena **, esta empresa no es tan simple como recaudar más dinero y comprar más potencia informática.
En la industria de la IA, el uso de datos sintéticos para el entrenamiento de modelos ya se ha convertido en un consenso que los forasteros aún no conocen.
Xie Chen, que solía estar a cargo de simulaciones de conducción autónoma en empresas como Nvidia, Cruise y Weilai, cree que a juzgar por la cantidad actual de datos para varios modelos de entrenamiento a gran escala, en los próximos 2 o 3 años, humanos de hecho, los datos pueden estar "agotados". Sin embargo, con base en sistemas y métodos especializados, los datos sintéticos generados por la IA se convertirán en una fuente inagotable de datos efectivos**. Y los escenarios de uso no se limitan a texto e imágenes, la cantidad de datos sintéticos requeridos por industrias como la conducción autónoma y la robótica será mucho mayor que la cantidad de datos de texto.
Los tres elementos de la IA son datos, poder de cómputo y algoritmos. La fuente de los datos se ha establecido y el modelo grande del algoritmo está en constante evolución. La única presión de poder de cómputo que queda, creo que el fundador de Nvidia, Huang Renxun, puede resolverlo. suavemente.