OpenAI também luta com dados! A empresa admite que o uso de rastreadores para limitar-se é difícil para dissipar a suspeita do público

2023-08-10 01:57:17

Fonte: "Diário do Conselho de Inovação em Ciência e Tecnologia"

Editar música Ziqiao

Fonte da imagem: Gerada por Unbounded AI

Dados, poder de computação e algoritmos são considerados os três elementos centrais da IA generativa, e é difícil dizer o que é mais importante.

No entanto, para empresas de destaque como a OpenAI, o poder de computação é basicamente uma questão econômica. As grandes empresas acumulam uma grande quantidade de hardware caro em virtude de sua "capacidade de dinheiro", e o problema da escassez de dados é ainda mais uma dor de cabeça. eles em uma crise moral.

Tomando o OpenAI como exemplo, seu comportamento de capturar dados públicos para treinar modelos de IA há muito é controverso. **De acordo com o último relatório da mídia de tecnologia estrangeira Insider, a OpenAI admitiu recentemente que lançou um robô rastreador da web chamado GPTBot, que é usado para rastrear e coletar dados para treinamento de modelo em grande escala. **

OpenAI é suspeito de ser um "ladrão de dados"

Um web crawler é um programa de computador que simula o comportamento de um ser humano (usuário da rede) e automaticamente navega e coleta informações da rede. O rastreador da Web pode salvar os dados que visita e o coletor de dados analisa e reutiliza os dados, infere as preferências dos usuários da Internet e os envia para os grupos de usuários correspondentes.

** Não está claro há quanto tempo os robôs rastreadores da OpenAI estão à espreita online, e alguns suspeitam que a OpenAI vem coletando secretamente os dados online de todos por meses ou anos. **

Diante de tais "acusações", a OpenAI se defendeu ativamente, afirmando que o GPTBot cumprirá rigorosamente as regras de qualquer paywall, não capturará informações que exijam pagamento e não coletará dados que possam ser rastreados até pessoas pessoalmente identificáveis.

Além disso, a OpenAI lançou um método para bloquear o GPTbot. Os usuários podem modificar seu arquivo robots.txt ou bloquear seus endereços IP para impedir o acesso de rastreadores. A empresa também anunciou recentemente um acordo com a Associated Press, no qual a OpenAI pagará pelo conteúdo AP necessário para os dados de treinamento da IA.

A Confiança Perdida

Como meio de coleta de dados, a própria tecnologia do rastreador não faz distinção entre legal e ilegal. **No entanto, a iniciativa da OpenAI de estabelecer limites em suas ferramentas de rastreamento não parece ser capaz de restaurar a confiança do público nesta grande empresa modelo. **

Neil Clarke, editor-chefe da revista veterana de ficção científica "Clarkworld" e vencedor do Hugo Award, disse: "A OpenAI e outras empresas de modelagem em grande escala demonstraram repetidamente que não respeitam os direitos dos autores, artistas e outras pessoas criativas. baseado em grande parte no trabalho protegido por direitos autorais de outros."

Ele também deu um exemplo, CCBot é outro robô rastreador operado pela organização Common Crawl. Common Crawl é atualmente o principal fornecedor de dados de treinamento para modelos de inteligência artificial. "Até onde eu sei, ninguém pediu com sucesso ao Common Crawl para excluir dados ", disse Clark. "Eu tentei e não obtive resposta."

Por outro lado, quando se trata de lutar contra as grandes corporações, as pessoas comuns estão em desvantagem. Como disse Clark, já que a OpenAI está disposta a pagar pelos dados de grandes empresas como (Associated Press), por que não paga pelas informações de outras pessoas? "Perguntei ao OpenAI sobre isso, mas não obtive resposta."

No entanto, o próprio Clark está do lado oposto do OpenAI. O "Clark World" que ele fundou está enfrentando uma enxurrada de conteúdo gerado por IA. Clark apontou que, depois que o ChatGPT foi aberto no final do ano passado, os envios de spam gerados por IA aumentaram e o custo de detecção de tais trabalhos foi alto, e a revista suspendeu temporariamente a chamada de manuscritos.

Conclusão

Anteriormente, a OpenAI foi processada por várias partes por questões de direitos autorais, incluindo a ação coletiva promovida pela Clarkson Law Firm e autores de best-sellers como Paul Tremblay e Mona Awad. Celebridades processam em seus nomes reais.

Com a iteração adicional da tecnologia de IA generativa, disputas semelhantes só aumentarão.

Grandes empresas são mais propensas a se tornarem alvo de críticas públicas.Mesmo que ousem assumir a responsabilidade, não é fácil obter total conformidade com a aquisição de dados. Devido à enorme quantidade de parâmetros, grandes modelos precisam ser treinados e implantados com o auxílio de tecnologias como computação distribuída e serviços em nuvem, o que aumenta o risco de roubo, adulteração, uso indevido ou vazamento de dados.

Como equilibrar a proteção da privacidade pessoal e incentivar a inovação tecnológica, e como encontrar o caminho ideal entre a sobrevivência da empresa e a produção compatível já são questões que todas as empresas dedicadas à IA generativa não podem evitar.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
Gate 2025 Q2 Report Released
34k Popularidade
Altcoin Season Update
12k Popularidade
Bitcoin Whale Moves
6k Popularidade
4Gate Derivatives Volume Hits New High
15k Popularidade
5CPI Data Incoming
61k Popularidade
6Join Gate VIP to Win MacBook
31k Popularidade
7MicroStrategy Buys More Bitcoin
2k Popularidade
8BTC Hits New High
113k Popularidade
9My Gate Moments
27k Popularidade
10VIP Exclusive Airdrop Carnival
27k Popularidade

Pino