Los datos humanos tienen prisa, Microsoft OpenAI comenzó a alimentar AI con AI, dijo Altman: todos los datos en el futuro se convertirán en datos sintéticos

Fuente original: Qubit

Fuente de la imagen: Generada por Unbounded AI‌

¡Hay una escasez de datos humanos y la IA se ve obligada a comenzar a comer los datos producidos por la IA!

Este es el statu quo al que se enfrentan las empresas de vanguardia de IA como Microsoft y OpenAI.

Examinaron cantidades masivas de datos de plataformas y foros como Wikipedia, libros electrónicos, sitios de noticias, blogs, Twitter y Reddit, y ahora... se están quedando sin datos.

PERO, para entrenar un mejor modelo grande, ninguna cantidad de datos es suficiente.

Según el "Financial Times", muchas empresas están alimentando los resultados generados por modelos grandes, los llamados synthetic data (Datos sintéticos), a modelos grandes con parámetros más pequeños, y encontraron que los resultados no son malos.

Para el uso de datos sintéticos, al CEO de OpenAI, Sam Altman, no solo no le importa, sino que también dijo que "todos los datos en el futuro se convertirán en datos sintéticos".

Cohere, una startup de gran modelo valorada en $ 2 mil millones, también está utilizando datos sintéticos. Aidan Gomez, CEO de la empresa y uno de los autores del clásico papel de Transformers de gran tamaño, cree incluso que:

Los datos sintéticos podrían acelerar el camino hacia los sistemas de IA "superinteligentes".

Entonces, ¿qué modelos grandes ya están usando datos sintéticos y de dónde provienen estos datos sintéticos?

La IA grande sintetiza datos, la IA pequeña come

Estos llamados datos sintéticos son esencialmente los datos generados por el modelo grande actual con un mejor rendimiento, después del ajuste manual, y luego se alimentan a un modelo grande un poco más pequeño.

Por ejemplo, Cohere intentó usar dos modelos grandes para realizar diálogos de "juego de roles" y convertir los resultados generados por ellos en datos sintéticos.

Estos dos grandes modelos desempeñan el papel de "profesor de matemáticas" y "estudiante" respectivamente, y están impartiendo una clase virtual de enseñanza de matemáticas. Mientras tanto, Cohere colocó a un empleado humano al margen para supervisar la generación de diálogo.

Los humanos intervienen para arreglar el texto cada vez que una conversación sale mal.

Si bien requiere mano de obra, es mucho más económico que contratar expertos en ciencia, medicina y negocios para escribir el texto.

Entonces, ¿qué tipo de modelos grandes usarán estos datos sintéticos?

Investigaciones recientes de Microsoft Research han demostrado que los datos sintéticos se pueden usar para entrenar modelos de lenguaje que son ligeramente más pequeños que GPT-4 o PaLM-2**.

Tome un conjunto de datos de "novela infantil de cuatro años" TinyStories generado por GPT-4 como ejemplo. Se ha demostrado que este conjunto de datos contiene solo palabras que los niños de 4 años pueden entender, pero después del entrenamiento un modelo grande, lo mismo Una historia que es gramaticalmente correcta y se lee sin problemas:

En cuanto a las razones para usar datos sintéticos, el CEO de Cohere, Aidan Gomez, cree:

Por supuesto, es mejor poder obtener datos de Internet, pero los datos de la red son demasiado complicados para satisfacer las necesidades. En contraste, los datos sintéticos ya son abundantes, incluso si no están ampliamente difundidos.

Ha aparecido la cadena industrial detrás

En la actualidad, empresas como Scale AI y Gretel.ai han comenzado a proporcionar servicios de datos sintéticos al mundo exterior.

Primero, Scale AI, que lanzó un producto de datos sintéticos, Scale Synthetic, para proporcionar a las empresas servicios de datos sintéticos.

En las noticias anteriores de que SemiAnalysis dio la noticia sobre el "gran encaje" de GPT-4, también mencionó que en el conjunto de datos de GPT-4, hay millones de filas de Scale AI y datos de ajuste de instrucciones internas.

En cuanto a la plataforma de datos sintéticos Gretel.ai, del sitio web oficial, ha cooperado con diferentes empresas como Google, Riot Games y HSBC para generar más datos sintéticos para que los utilicen otros desarrolladores.

Ali Golshan, director ejecutivo de Gretel.ai, cree que el beneficio de los datos sintéticos es que preserva la privacidad de todas las personas en el conjunto de datos y al mismo tiempo mantiene su integridad estadística.

Pero no todos aceptan la "operación mágica" de los datos sintéticos. En la actualidad, las opiniones de todas las partes se dividen principalmente en dos oleadas.

Algunos aprueban el uso de datos sintéticos. Incluidas las empresas de IA como Cohere, muchas empresas dedicadas a modelos a gran escala aún insisten en este enfoque y creen que puede generar una mejor IA e incluso dar lugar a una "superinteligencia".

Otra parte cree que los datos sintéticos eventualmente permitirán que la IA "se alimente de sí misma".

Por ejemplo, un estudio de la Universidad de Oxford, la Universidad de Cambridge, el Imperial College, la Universidad de Toronto, la Universidad de Edimburgo y el Instituto Vector muestra que:

El entrenamiento con datos sintéticos provocará defectos irreversibles en el modelo: Olvídate de esos "eventos imposibles" que terminan siendo envenenados por datos autogenerados.

Algunos internautas creen que estos datos sintéticos eventualmente se convertirán en un "lodo inutilizable" y luego se obligará a la gente a contratar científicos de datos para limpiarlos*.

Algunos internautas se burlaron de que esto suena como "consanguinidad de IA".

¿Crees que la IA necesita usar datos sintéticos?

Link de referencia: [1] [2] [3] [4]

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)