¿La IA se va a quedar estancada? Los datos para entrenar modelos grandes pueden agotarse en 2026

Question

Fuente: "Tecnología Tencent", Autor: Jinlu

Concentrarse en:

El último auge de la inteligencia artificial generativa requiere el soporte de modelos supergrandes, y los modelos grandes deben entrenarse con datos masivos, por lo que los datos son cada vez más valiosos.
Los investigadores creen que la demanda de datos aumentará drásticamente y que los datos de texto de alta calidad que se pueden utilizar para entrenar modelos grandes pueden agotarse en 2026. Está comenzando una confusión de datos.
En los Estados Unidos, ha habido muchos casos de infracción de derechos de autor contra creadores de modelos, y OpenAI, Stability AI, Midjourney y Meta se han convertido en acusados.
Las empresas de inteligencia artificial están explorando nuevas fuentes de datos, incluida la firma de acuerdos de derechos de autor de datos con otras empresas, la recopilación de datos a través de las interacciones de los usuarios con sus herramientas y el intento de utilizar datos internos de clientes corporativos.

Fuente de la imagen: Generada por IA ilimitada

No hace mucho, los analistas especulaban abiertamente si la inteligencia artificial (IA) conduciría a la caída de Adobe, un desarrollador de software para creativos. Nuevas herramientas como Dall-E 2 y MidTrik, que generan imágenes basadas en texto, parecen hacer que las capacidades de edición de imágenes de Adobe sean redundantes. Justo en abril de este año, el sitio web de noticias financieras Buscando Alpha también publicó un artículo titulado "¿Será la inteligencia artificial un asesino de Adobe?"

Pero en realidad los hechos distan mucho de las suposiciones de los analistas. Adobe utilizó su base de datos de cientos de millones de fotografías de archivo para crear su propio conjunto de herramientas de inteligencia artificial llamado Firefly. Firefly se ha utilizado para crear más de mil millones de imágenes desde su lanzamiento en marzo, dijo el ejecutivo de la compañía Dana Rao. Al evitar minar Internet en busca de imágenes como sus competidores, Adobe evita las cada vez más profundas disputas por derechos de autor que actualmente afectan a la industria. Las acciones de Adobe han aumentado un 36 por ciento desde el lanzamiento de Firefly.

Se está iniciando una confusión de datos

La victoria de Adobe sobre el llamado "Doomslayer" subraya implicaciones más amplias de la carrera por el dominio en el mercado de rápido crecimiento de las herramientas de inteligencia artificial. Los modelos de gran tamaño que impulsan la última ola de la llamada "inteligencia artificial generativa" se basan en grandes cantidades de datos. Anteriormente, los creadores de modelos en su mayoría extraían datos (a menudo sin permiso) de Internet. Ahora están encontrando nuevas fuentes de datos para sostener este frenético régimen de entrenamiento. Al mismo tiempo, las empresas con grandes cantidades de datos nuevos están sopesando la mejor manera de sacar provecho de ellos. Está comenzando una confusión de datos.

Los dos elementos básicos de un modelo de inteligencia artificial son los conjuntos de datos y la potencia de procesamiento. El sistema se entrena en conjuntos de datos y el modelo detecta la relación entre lo interno y lo externo de estos conjuntos de datos a través de la potencia de procesamiento. En cierto modo, estos dos fundamentos son intercambiables: un modelo se puede mejorar incorporando más datos o añadiendo más potencia de procesamiento. Esto último, sin embargo, se está volviendo cada vez más difícil en medio de la escasez de chips de IA especializados, lo que lleva a los constructores de modelos a redoblar esfuerzos en la búsqueda de datos.

La empresa de investigación Epoch AI cree que la demanda de datos aumentará tan drásticamente que el texto de alta calidad disponible para la formación podría agotarse en 2026. Se informa que los últimos modelos de inteligencia artificial de los dos gigantes tecnológicos, Google y Meta, han sido entrenados en más de 1 billón de palabras. En comparación, el número total de palabras en inglés en la enciclopedia en línea Wikipedia es de aproximadamente 4 mil millones.

No es sólo el tamaño del conjunto de datos lo que importa. Cuanto mejores sean los datos, mejor funcionarán los modelos entrenados con ellos. Russell Kaplan, de la startup de datos Scale AI, señala que lo ideal es que los modelos basados en texto se entrenen en trabajos largos, bien escritos y objetivamente precisos. Es más probable que los modelos alimentados con esta información produzcan resultados de alta calidad similar.

Del mismo modo, los chatbots de IA dan mejores respuestas cuando se les pide que expliquen su trabajo paso a paso, lo que aumenta la necesidad de recursos como libros de texto. Los conjuntos de información dedicados también se vuelven más valiosos, ya que permiten "afinar" los modelos para aplicaciones más específicas. Microsoft, que adquirió el repositorio de códigos de software GitHub en 2018 por 7.500 millones de dólares, lo ha utilizado para desarrollar una herramienta de inteligencia artificial para escribir código.

Aumentan las demandas por derechos de autor de datos, las empresas de inteligencia artificial están ocupadas firmando acuerdos de licencia

A medida que crece la demanda de datos, el acceso a las lagunas de datos se vuelve cada vez más complicado y los creadores de contenidos exigen ahora una compensación por el material absorbido por los modelos de IA. Se han presentado numerosos casos de infracción de derechos de autor contra constructores de modelos en los Estados Unidos. Un grupo de escritores, incluida la comediante Sarah Silverman, está demandando a OpenAI, desarrollador del chatbot de inteligencia artificial ChatGPT, y a la empresa matriz de Facebook, Meta. Además, un grupo de artistas ha demandado de manera similar a Stability AI y Midjourney, dos empresas que trabajan en herramientas de conversión de texto a imagen.

El resultado de todo esto es una avalancha de acuerdos a medida que las empresas de inteligencia artificial se apresuran a adquirir fuentes de datos. En julio, OpenAI firmó un acuerdo con The Associated Press para obtener acceso a los archivos de noticias de la agencia. Más recientemente, la compañía también amplió su acuerdo con el proveedor de bibliotecas de imágenes Shutterstock, con el que Meta también tiene un acuerdo.

A principios de agosto, surgieron informes de que Google estaba en conversaciones con el sello discográfico Universal Music para otorgar licencias de voces de artistas para ayudar a desarrollar herramientas de inteligencia artificial para escribir canciones. El administrador de activos Fidelity dijo que varias empresas de tecnología se habían acercado a la compañía solicitando acceso a sus datos financieros. Se rumorea que AI Lab se está acercando a la BBC para obtener sus archivos de imágenes y películas. Otro objetivo de interés es JSTOR, una biblioteca digital de revistas académicas.

Estos poseedores de información están aprovechando su mayor poder de negociación. Reddit, un foro, y Stack Overflow, un sitio de preguntas y respuestas popular entre los programadores, han aumentado el costo de acceder a sus datos. Ambos sitios son particularmente valiosos porque a los usuarios les gustan las respuestas, lo que ayuda al modelo a saber cuáles son las más relevantes. El sitio de redes sociales X (anteriormente Twitter) ha tomado medidas para limitar la capacidad de los robots para extraer información del sitio, y ahora cualquiera que quiera acceder a sus datos tendrá que pagar. El jefe de X, Elon Musk, planea utilizar los datos para construir su propio negocio de inteligencia artificial.

Por lo tanto, los creadores de modelos están trabajando para mejorar la calidad de los datos que ya tienen. Muchos laboratorios de IA emplean ejércitos de anotadores de datos para realizar tareas como etiquetar imágenes y calificar respuestas. Algunos de estos trabajos son tan complejos que incluso requieren un candidato de maestría o doctorado con especialización en ciencias biológicas. Pero la mayoría de esos trabajos son mundanos y se están subcontratando a mano de obra barata en países como Kenia.

Las empresas de inteligencia artificial también recopilan datos a través de las interacciones de los usuarios con sus herramientas. Muchas de estas herramientas tienen algún tipo de mecanismo de retroalimentación, mediante el cual el usuario indica qué resultados fueron útiles. El generador de texto a imagen de Firefly permite a los usuarios elegir entre cuatro opciones. El chatbot de Google, Bard, también ofrece tres respuestas.

Los usuarios pueden darle el visto bueno a ChatGPT cuando responde a una consulta. Esta información se puede retroalimentar como entrada a los modelos subyacentes, formando lo que Douwe Kiela, cofundador de la startup Contextual AI, llama un "volante de datos". Una señal más fuerte de la calidad de las respuestas de un chatbot es si los usuarios copian el texto y lo pegan en otro lugar, añadió. Analizar esta información ayuda a Google a mejorar rápidamente sus herramientas de traducción.

Explore nuevos campos y los datos internos de los clientes empresariales se convertirán en dulces

Sin embargo, hay una fuente de datos que permanece en gran medida sin explotar: la información que existe entre los clientes empresariales de las empresas de tecnología. Muchas empresas, sin saberlo, poseen una gran cantidad de datos útiles, desde registros del centro de llamadas hasta registros de gastos de los clientes. Esta información es especialmente valiosa porque puede ayudar a afinar los modelos para propósitos comerciales específicos, como ayudar a los trabajadores de los centros de llamadas a responder las preguntas de los clientes o ayudar a los analistas comerciales a encontrar formas de impulsar las ventas.

Sin embargo, aprovechar este abundante recurso no es fácil. Roy Singh, analista de la consultora Bain & Company, señala que históricamente la mayoría de las empresas prestan poca atención a los enormes pero no estructurados conjuntos de datos que resultarán más útiles para entrenar herramientas de IA. Estos datos suelen estar distribuidos en varios sistemas y ocultos en los servidores de la empresa en lugar de en la nube.

Desbloquear esta información ayudará a las empresas a adaptar las herramientas de IA para satisfacer mejor sus necesidades específicas. Ambos gigantes tecnológicos, Amazon y Microsoft, ofrecen ahora herramientas para ayudar a otras empresas a gestionar mejor conjuntos de datos no estructurados, al igual que Google. Christian Kleinerman, de la empresa de bases de datos Snowflake, dijo que el campo está en auge a medida que los clientes buscan "romper los silos de datos".

Las empresas emergentes también están acudiendo en masa a este nuevo campo. En abril de este año, Weaviate, una empresa de bases de datos centrada en inteligencia artificial, recaudó 50 millones de dólares con una valoración de 200 millones de dólares. Apenas una semana después, su rival PineCone recaudó 100 millones de dólares con una valoración de 750 millones de dólares. A principios de este mes, otra startup de base de datos, Neon, también recaudó 46 millones de dólares. Es evidente que la lucha por los datos apenas ha comenzado.

Ver originales