A IA vai ficar presa? Os dados para treinamento de grandes modelos podem se esgotar até 2026

Question

Fonte: "Tecnologia Tencent", Autor: Jinlu

Focar em:

O mais recente boom na inteligência artificial generativa requer o apoio de modelos supergrandes, e os grandes modelos precisam de ser treinados com dados massivos, pelo que os dados estão a tornar-se cada vez mais preciosos.
Os investigadores acreditam que a procura de dados aumentará dramaticamente e que os dados de texto de alta qualidade que podem ser utilizados para treinar grandes modelos poderão esgotar-se em 2026. Uma confusão de dados está começando.
Nos Estados Unidos, houve muitos casos de violação de direitos autorais contra construtores de modelos, e OpenAI, Stability AI, Midjourney e Meta tornaram-se réus.
As empresas de inteligência artificial estão a explorar novas fontes de dados, incluindo a assinatura de acordos de direitos de autor de dados com outras empresas, a recolha de dados através de interações dos utilizadores com as suas ferramentas e a tentar utilizar dados internos de clientes empresariais.

Fonte da imagem: gerada por Unbounded AI

Não muito tempo atrás, os analistas especulavam abertamente se a inteligência artificial (IA) levaria à queda da Adobe, uma desenvolvedora de software para criativos. Novas ferramentas como Dall-E 2 e MidTrik, que geram imagens baseadas em texto de prompt, parecem tornar redundantes os recursos de edição de imagens da Adobe. Apenas em abril deste ano, o site de notícias financeiras Seeking Alpha também publicou um artigo intitulado “A Inteligência Artificial será um Adobe Killer?”

Mas, na realidade, os factos estão longe das suposições dos analistas. A Adobe usou seu banco de dados de centenas de milhões de fotos para construir seu próprio conjunto de ferramentas de inteligência artificial chamado Firefly. O Firefly foi usado para criar mais de 1 bilhão de imagens desde seu lançamento em março, disse o executivo da empresa Dana Rao. Ao evitar explorar a Internet em busca de imagens como seus concorrentes, a Adobe evita as crescentes disputas de direitos autorais que atualmente assolam a indústria. As ações da Adobe subiram 36% desde o lançamento do Firefly.

Uma confusão de dados está começando

A vitória da Adobe sobre o chamado “Doomslayer” sublinha implicações mais amplas da corrida pelo domínio no mercado em rápido crescimento de ferramentas de inteligência artificial. Os grandes modelos que alimentam a última onda da chamada “inteligência artificial geradora” dependem de grandes quantidades de dados. Anteriormente, os construtores de modelos extraíam principalmente dados (muitas vezes sem permissão) da Internet. Agora, eles estão encontrando novas fontes de dados para sustentar esse regime frenético de treinamento. Ao mesmo tempo, as empresas com grandes quantidades de novos dados estão a ponderar a melhor forma de lucrar com eles. Uma confusão de dados está começando.

Os dois elementos básicos de um modelo de inteligência artificial são conjuntos de dados e poder de processamento.O sistema é treinado em conjuntos de dados e o modelo detecta a relação entre o interno e o externo desses conjuntos de dados através do poder de processamento. De certa forma, estes dois fundamentos são intercambiáveis: um modelo pode ser melhorado absorvendo mais dados ou adicionando mais poder de processamento. Este último, no entanto, está a tornar-se cada vez mais difícil devido à escassez de chips especializados de IA, levando os criadores de modelos a duplicar a procura de dados.

A empresa de investigação Epoch AI acredita que a procura de dados aumentará tão dramaticamente que o texto de alta qualidade disponível para formação poderá esgotar-se até 2026. É relatado que os mais recentes modelos de inteligência artificial dos dois gigantes da tecnologia, Google e Meta, foram treinados em mais de 1 trilhão de palavras. Em comparação, o número total de palavras em inglês na enciclopédia online Wikipédia é de cerca de 4 bilhões.

Não é apenas o tamanho do conjunto de dados que importa. Quanto melhores forem os dados, melhor será o desempenho dos modelos treinados neles. Russell Kaplan, da startup de dados Scale AI, aponta que os modelos baseados em texto são idealmente treinados em trabalhos longos, bem escritos e factualmente precisos. Os modelos alimentados com essas informações têm maior probabilidade de produzir resultados de alta qualidade semelhante.

Da mesma forma, os chatbots de IA dão melhores respostas quando solicitados a explicar o seu trabalho passo a passo, aumentando a necessidade de recursos como livros didáticos. Conjuntos de informações dedicados também se tornam mais valiosos, pois permitem que os modelos sejam “ajustados” para mais aplicações de nicho. A Microsoft, que adquiriu o repositório de código de software GitHub em 2018 por US$ 7,5 bilhões, usou-o para desenvolver uma ferramenta de inteligência artificial para escrever código.

Aumento de ações judiciais por direitos autorais de dados, empresas de IA estão ocupadas assinando acordos de licenciamento

À medida que a procura por dados cresce, o acesso às lacunas de dados torna-se cada vez mais complicado e os criadores de conteúdos exigem agora compensação pelo material absorvido pelos modelos de IA. Houve vários casos de violação de direitos autorais movidos contra construtores de modelos nos Estados Unidos. Um grupo de escritores, incluindo a comediante Sarah Silverman, está processando a OpenAI, desenvolvedora do chatbot de inteligência artificial ChatGPT, e a empresa-mãe do Facebook, Meta. Além disso, um grupo de artistas processou de forma semelhante a Stability AI e a Midjourney, duas empresas que trabalham em ferramentas de conversão de texto em imagem.

O resultado de tudo isso é uma enxurrada de negócios à medida que as empresas de IA correm para adquirir fontes de dados. Em julho, a OpenAI assinou um acordo com a Associated Press para obter acesso aos arquivos de notícias da agência. Mais recentemente, a empresa também expandiu seu acordo com o fornecedor de bibliotecas de imagens Shutterstock, com o qual a Meta também tem acordo.

No início de agosto, surgiram relatos de que o Google estava em negociações com a gravadora Universal Music para licenciar vozes de artistas para ajudar a desenvolver ferramentas de inteligência artificial para composição. A gestora de ativos Fidelity disse que a empresa foi abordada por diversas empresas de tecnologia solicitando acesso aos seus dados financeiros. Há rumores de que o AI Lab está abordando a BBC para obter seus arquivos de imagens e filmes. Outro alvo de interesse é a JSTOR, uma biblioteca digital de periódicos acadêmicos.

Estes detentores de informação estão a aproveitar o seu maior poder de negociação. O Reddit, um fórum, e o Stack Overflow, um site de perguntas e respostas popular entre os programadores, aumentaram o custo de acesso aos seus dados. Ambos os sites são particularmente valiosos porque os usuários “gostam” das respostas, ajudando o modelo a saber quais são as mais relevantes. O site de mídia social X (antigo Twitter) tomou medidas para limitar a capacidade dos bots de coletar informações do site, e agora qualquer pessoa que quiser acessar seus dados terá que pagar. O chefe do X, Elon Musk, está planejando usar os dados para construir seu próprio negócio de inteligência artificial.

Portanto, os construtores de modelos estão trabalhando para melhorar a qualidade dos dados que já possuem. Muitos laboratórios de IA empregam exércitos de anotadores de dados para realizar tarefas como rotular imagens e classificar respostas. Alguns desses trabalhos são tão complexos que exigem até mesmo um candidato a mestrado ou doutorado com especialização em ciências da vida. Mas a maioria desses empregos são mundanos e estão a ser subcontratados a mão-de-obra barata em países como o Quénia.

As empresas de IA também coletam dados por meio das interações dos usuários com suas ferramentas. Muitas dessas ferramentas possuem algum tipo de mecanismo de feedback, por meio do qual o usuário indica quais resultados foram úteis. O gerador de texto para imagem do Firefly permite aos usuários escolher entre quatro opções. O chatbot do Google, Bard, também oferece três respostas.

Os usuários podem dar um sinal positivo ao ChatGPT quando ele responde a uma consulta. Essas informações podem ser realimentadas como entrada nos modelos subjacentes, formando o que Douwe Kiela, cofundador da startup Contextual AI, chama de “volante de dados”. Um sinal mais forte da qualidade das respostas de um chatbot é se os usuários copiam o texto e colam em outro lugar, acrescentou. A análise dessas informações ajuda o Google a melhorar rapidamente suas ferramentas de tradução.

Explore novos campos e os dados internos dos clientes corporativos se transformarão em doces

No entanto, existe uma fonte de dados que permanece em grande parte inexplorada: as informações que existem nos clientes empresariais das empresas de tecnologia. Muitas empresas possuem, sem saber, uma riqueza de dados úteis, desde registros de call center até registros de gastos de clientes. Essas informações são especialmente valiosas porque podem ajudar a ajustar modelos para fins comerciais específicos, como ajudar os funcionários do call center a responder às perguntas dos clientes ou ajudar os analistas de negócios a encontrar maneiras de aumentar as vendas.

Porém, aproveitar esse recurso abundante não é fácil. Roy Singh, analista da consultoria Bain & Company, observa que, historicamente, a maioria das empresas presta pouca atenção aos enormes, mas não estruturados, conjuntos de dados que serão mais úteis para o treinamento de ferramentas de IA. Esses dados costumam estar espalhados por vários sistemas e ocultos nos servidores da empresa, e não na nuvem.

O acesso a essas informações ajudará as empresas a adaptar as ferramentas de IA para melhor atender às suas necessidades específicas. Ambos os gigantes da tecnologia, Amazon e Microsoft, oferecem agora ferramentas para ajudar outras empresas a gerir melhor conjuntos de dados não estruturados, tal como o Google. O campo está crescendo à medida que os clientes procuram “quebrar os silos de dados”, disse Christian Kleinerman, da empresa de bancos de dados Snowflake.

As startups também estão migrando para esse novo campo. Em abril deste ano, a Weaviate, uma empresa de banco de dados focada em inteligência artificial, levantou US$ 50 milhões a uma avaliação de US$ 200 milhões. Apenas uma semana depois, a rival PineCone levantou US$ 100 milhões com uma avaliação de US$ 750 milhões. No início deste mês, outra startup de banco de dados, a Neon, também arrecadou US$ 46 milhões. Claramente, a corrida pelos dados apenas começou.

Ver original