OpenAI também luta com dados! A empresa admite que o uso de rastreadores para limitar-se é difícil para dissipar a suspeita do público

Fonte: "Diário do Conselho de Inovação em Ciência e Tecnologia"

Editar música Ziqiao

Fonte da imagem: Gerada por Unbounded AI

Dados, poder de computação e algoritmos são considerados os três elementos centrais da IA generativa, e é difícil dizer o que é mais importante.

No entanto, para empresas de destaque como a OpenAI, o poder de computação é basicamente uma questão econômica. As grandes empresas acumulam uma grande quantidade de hardware caro em virtude de sua "capacidade de dinheiro", e o problema da escassez de dados é ainda mais uma dor de cabeça. eles em uma crise moral.

Tomando o OpenAI como exemplo, seu comportamento de capturar dados públicos para treinar modelos de IA há muito é controverso. **De acordo com o último relatório da mídia de tecnologia estrangeira Insider, a OpenAI admitiu recentemente que lançou um robô rastreador da web chamado GPTBot, que é usado para rastrear e coletar dados para treinamento de modelo em grande escala. **

OpenAI é suspeito de ser um "ladrão de dados"

Um web crawler é um programa de computador que simula o comportamento de um ser humano (usuário da rede) e automaticamente navega e coleta informações da rede. O rastreador da Web pode salvar os dados que visita e o coletor de dados analisa e reutiliza os dados, infere as preferências dos usuários da Internet e os envia para os grupos de usuários correspondentes.

** Não está claro há quanto tempo os robôs rastreadores da OpenAI estão à espreita online, e alguns suspeitam que a OpenAI vem coletando secretamente os dados online de todos por meses ou anos. **

Diante de tais "acusações", a OpenAI se defendeu ativamente, afirmando que o GPTBot cumprirá rigorosamente as regras de qualquer paywall, não capturará informações que exijam pagamento e não coletará dados que possam ser rastreados até pessoas pessoalmente identificáveis.

Além disso, a OpenAI lançou um método para bloquear o GPTbot. Os usuários podem modificar seu arquivo robots.txt ou bloquear seus endereços IP para impedir o acesso de rastreadores. A empresa também anunciou recentemente um acordo com a Associated Press, no qual a OpenAI pagará pelo conteúdo AP necessário para os dados de treinamento da IA.

A Confiança Perdida

Como meio de coleta de dados, a própria tecnologia do rastreador não faz distinção entre legal e ilegal. **No entanto, a iniciativa da OpenAI de estabelecer limites em suas ferramentas de rastreamento não parece ser capaz de restaurar a confiança do público nesta grande empresa modelo. **

Neil Clarke, editor-chefe da revista veterana de ficção científica "Clarkworld" e vencedor do Hugo Award, disse: "A OpenAI e outras empresas de modelagem em grande escala demonstraram repetidamente que não respeitam os direitos dos autores, artistas e outras pessoas criativas. baseado em grande parte no trabalho protegido por direitos autorais de outros."

Ele também deu um exemplo, CCBot é outro robô rastreador operado pela organização Common Crawl. Common Crawl é atualmente o principal fornecedor de dados de treinamento para modelos de inteligência artificial. "Até onde eu sei, ninguém pediu com sucesso ao Common Crawl para excluir dados ", disse Clark. "Eu tentei e não obtive resposta."

Por outro lado, quando se trata de lutar contra as grandes corporações, as pessoas comuns estão em desvantagem. Como disse Clark, já que a OpenAI está disposta a pagar pelos dados de grandes empresas como (Associated Press), por que não paga pelas informações de outras pessoas? "Perguntei ao OpenAI sobre isso, mas não obtive resposta."

No entanto, o próprio Clark está do lado oposto do OpenAI. O "Clark World" que ele fundou está enfrentando uma enxurrada de conteúdo gerado por IA. Clark apontou que, depois que o ChatGPT foi aberto no final do ano passado, os envios de spam gerados por IA aumentaram e o custo de detecção de tais trabalhos foi alto, e a revista suspendeu temporariamente a chamada de manuscritos.

Conclusão

Anteriormente, a OpenAI foi processada por várias partes por questões de direitos autorais, incluindo a ação coletiva promovida pela Clarkson Law Firm e autores de best-sellers como Paul Tremblay e Mona Awad. Celebridades processam em seus nomes reais.

Com a iteração adicional da tecnologia de IA generativa, disputas semelhantes só aumentarão.

Grandes empresas são mais propensas a se tornarem alvo de críticas públicas.Mesmo que ousem assumir a responsabilidade, não é fácil obter total conformidade com a aquisição de dados. Devido à enorme quantidade de parâmetros, grandes modelos precisam ser treinados e implantados com o auxílio de tecnologias como computação distribuída e serviços em nuvem, o que aumenta o risco de roubo, adulteração, uso indevido ou vazamento de dados.

Como equilibrar a proteção da privacidade pessoal e incentivar a inovação tecnológica, e como encontrar o caminho ideal entre a sobrevivência da empresa e a produção compatível já são questões que todas as empresas dedicadas à IA generativa não podem evitar.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)