Há alguns dias, o Google atualizou repentinamente sua política de privacidade, deixando claro que usará todos os dados públicos da Internet para treinar seu próprio modelo de IA.
Em outras palavras, de acordo com a nova política, qualquer informação que você postar publicamente na Internet pode ser rastreada pelo Google, incluindo, entre outros, suas postagens, palavras-chave que você pesquisa e vídeos que assiste.
Isso não é uma sequência apropriada de Internet!
Não muito tempo depois que a OpenAI foi processada por violação de dados, o Google estava com pressa para acertar a arma.
Nesta conjuntura, há uma grande probabilidade de que não tenha nada a ver com cobranças de dados. Se o Google não coletar essa onda de lã grátis, é muito provável que não consiga coletá-la no futuro. **
Este assunto nunca parou desde que o ChatGPT se tornou popular.
Shichao dará a vocês um resumo da linha do tempo primeiro.
Em março deste ano, Musk assumiu a liderança ao disparar o primeiro tiro nas cobranças de dados, declarando que a interface da API do Twitter não era mais gratuita.
Imediatamente depois, o Reddit, a versão americana do post bar, não aguentou mais.
No mês passado, a campanha "blackout" do Reddit foi um protesto contra a política oficial de cobrança da API.
Quando Shichao escreveu sobre isso antes, ele ainda estava imaginando se os funcionários do Reddit fariam concessões no final.
A julgar pelo acompanhamento atual, a maioria dos softwares de terceiros foi confirmada como encerrada e o Reddit está determinado a cobrar pelos dados.
Nesse período, o Twitter reajustou o limite de taxa novamente. Contas que não gastam dinheiro para autenticar podem ler apenas 600 posts por dia. O objetivo também é evitar que robôs roubem os dados do usuário.
Os dados são tão valiosos?
Shi Chao sentiu que ainda era culpa de **AI. **
Se o grande modelo de IA quiser se tornar mais inteligente, ele precisa de um fluxo constante de dados para "alimentar".
Aqueles que podem fazer grandes modelos agora, têm seus próprios dados, como Baidu, Ali e Tencent; ou rastreiam os dados de outras pessoas, aqui está o nome OpenAI.
Como muitos sites têm interfaces de API abertas e gratuitas, gigantes como Microsoft e OpenAI tiveram uma oportunidade.
Mas hoje é diferente do passado.Depois que a IA re-dota o valor dos dados, as plataformas com chips nas mãos obviamente não querem ser prostituídas por nada. **
Até o CEO do Reddit, Hoffman, deixou claro: ele simplesmente não quer fornecer dados aos gigantes de graça.
Portanto, a acusação da OpenAI provavelmente se deve ao fato de que as plataformas se uniram para "matar galinhas e macacos" e curar as tendências doentias da IA.
No entanto, é difícil dizer se a lei ficará do lado da OpenAI desta vez.
Porque os direitos autorais de dados envolvem 3 questões principais:
**1. O próprio comportamento do rastreador de dados é legal? **
**2. Os dados são protegidos por direitos autorais? **
**3. As obras geradas a partir de dados são protegidas por direitos autorais? **
Antes de tudo, a primeira questão, para obter dados, nada mais é do que pagar pelas compras, ou coletar dados publicamente disponíveis na Internet.
No entanto, deve-se observar que dados divulgados não equivalem a uso autorizado e também depende se o site possui cláusulas relevantes que restringem o comportamento dos rastreadores de dados.
Se o consentimento do proprietário dos direitos autorais for diretamente excedido ou os dados forem obtidos à força contornando as restrições do site, é um crime de obtenção ilegal de dados do sistema de informações do computador.
Mesmo que a OpenAI afirme rastrear dados de sites públicos, a legalidade do próprio comportamento de rastreamento de dados depende da autorização do proprietário dos direitos autorais.
Em segundo lugar, se os dados em si estão sujeitos a direitos autorais.
De acordo com a lei de direitos autorais dos EUA, se os dados usados para o treinamento do modelo de IA estiverem dentro do escopo de "uso justo", isso não constituirá violação.
Mas o problema está nesse "fair use".
Os elementos constitutivos do "uso justo" incluem se o uso comercial está envolvido, se o trabalho em si é protegido pela lei de direitos autorais, o número de partes usadas e o impacto no próprio trabalho após o uso.
Como reportagens e pesquisas acadêmicas, citações apropriadas são completamente aceitáveis.
O uso de dados de centenas de milhões de níveis em modelos de IA e software de IA comercializado ainda pode ser considerado "uso justo"?
Por fim, há a questão dos direitos autorais dos trabalhos gerados pela IA.
Como os direitos autorais dos dados de treinamento não são claros, o conteúdo gerado pela IA naturalmente terá disputas de direitos autorais. Alguns dias atrás, o Steam também removeu um jogo gerado usando AIGC, alegando que havia um problema de direitos autorais.
Tomemos como exemplo a pintura por IA. A geração de imagens é equivalente a um processo de divisão e reorganização. Embora o resultado final seja completamente "novo", ele ainda mantém algumas características da imagem de treinamento.
No entanto, quer esta situação seja considerada infração ou não, existem opiniões divergentes de vários países.
Como os dados de treinamento pertencem a terceiros, o U.S. Copyright Office determinou que os trabalhos gerados pela IA não são protegidos pela lei de direitos autorais e podem até infringir os direitos autorais.
A atitude do governo japonês é bem diferente, dizendo que a lei japonesa não protege os direitos autorais dos dados usados para treinamento de IA.
Pelo menos no atual quadro legal, é difícil obter uma resposta unificada para as perguntas acima.
Como a supervisão não é forte o suficiente, o proprietário dos direitos autorais não tem escolha a não ser fazê-lo ele mesmo.Se a taxa for cobrada, aquela que deve ser recuperada deve ser recuperada rapidamente.
▼OpenAI Processou Documentos
É previsível que, depois do Twitter e do Reddit, possa haver mais partidos de direitos autorais de conteúdo erguendo muros altos.
Essa questão, para a plataforma, é claro, uma nova forma de ganhar dinheiro, não importa o quão ruins sejam os gigantes da tecnologia, eles vão gastar mais dinheiro.
Mas para a Internet como um todo, isso não é bom.
Naquela época, a Internet nasceu com o gene do compartilhamento aberto, como a Wikipedia e o Twitter, que forneciam interfaces de API gratuitamente o ano todo, tornando muito conveniente para os desenvolvedores chamar dados.
Mas agora, se as cobranças de dados puderem ser implementadas dessa maneira, é difícil dizer qual será o resultado.
Afinal, pequenos desenvolvedores não têm condições de pagar altas taxas de dados.Se a inovação só ocorre em gigantes, isso não é puro monopólio?
O mais importante é que muitos sites que podem ser vistos gratuitamente agora podem ter que ser vistos mais tarde.Este é o verdadeiro crítico para usuários comuns como nós.
Na verdade, as cobranças de dados não podem ser totalmente atribuídas à plataforma. Isso realmente deixa os gigantes da IA com medo de "roubar", o que é um movimento impotente para autoproteção.
Embora o Google tenha uma "política de privacidade" desta vez, é difícil dizer qual será o resultado.
Portanto, a chave é ver quando a marreta da fiscalização cairá.
Esclarecer os direitos autorais dos dados é um obstáculo que não pode ser evitado no desenvolvimento da IA e, agora, também parece estar relacionado à direção futura da Internet.
Eu me pergunto se o navio AI nos levará a uma era mais aberta ou fechada?
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Deixe as grandes empresas de IA "roubarem" assim, podemos não ver sites gratuitos
Fonte original: crítica ruim
Há alguns dias, o Google atualizou repentinamente sua política de privacidade, deixando claro que usará todos os dados públicos da Internet para treinar seu próprio modelo de IA.
Não muito tempo depois que a OpenAI foi processada por violação de dados, o Google estava com pressa para acertar a arma.
Este assunto nunca parou desde que o ChatGPT se tornou popular.
Shichao dará a vocês um resumo da linha do tempo primeiro.
Em março deste ano, Musk assumiu a liderança ao disparar o primeiro tiro nas cobranças de dados, declarando que a interface da API do Twitter não era mais gratuita.
No mês passado, a campanha "blackout" do Reddit foi um protesto contra a política oficial de cobrança da API.
Nesse período, o Twitter reajustou o limite de taxa novamente. Contas que não gastam dinheiro para autenticar podem ler apenas 600 posts por dia. O objetivo também é evitar que robôs roubem os dados do usuário.
Shi Chao sentiu que ainda era culpa de **AI. **
Aqueles que podem fazer grandes modelos agora, têm seus próprios dados, como Baidu, Ali e Tencent; ou rastreiam os dados de outras pessoas, aqui está o nome OpenAI.
Como muitos sites têm interfaces de API abertas e gratuitas, gigantes como Microsoft e OpenAI tiveram uma oportunidade.
Até o CEO do Reddit, Hoffman, deixou claro: ele simplesmente não quer fornecer dados aos gigantes de graça.
No entanto, é difícil dizer se a lei ficará do lado da OpenAI desta vez.
**1. O próprio comportamento do rastreador de dados é legal? **
**2. Os dados são protegidos por direitos autorais? **
**3. As obras geradas a partir de dados são protegidas por direitos autorais? **
Antes de tudo, a primeira questão, para obter dados, nada mais é do que pagar pelas compras, ou coletar dados publicamente disponíveis na Internet.
No entanto, deve-se observar que dados divulgados não equivalem a uso autorizado e também depende se o site possui cláusulas relevantes que restringem o comportamento dos rastreadores de dados.
Em segundo lugar, se os dados em si estão sujeitos a direitos autorais.
De acordo com a lei de direitos autorais dos EUA, se os dados usados para o treinamento do modelo de IA estiverem dentro do escopo de "uso justo", isso não constituirá violação.
Mas o problema está nesse "fair use".
Como reportagens e pesquisas acadêmicas, citações apropriadas são completamente aceitáveis.
O uso de dados de centenas de milhões de níveis em modelos de IA e software de IA comercializado ainda pode ser considerado "uso justo"?
Por fim, há a questão dos direitos autorais dos trabalhos gerados pela IA.
Como os direitos autorais dos dados de treinamento não são claros, o conteúdo gerado pela IA naturalmente terá disputas de direitos autorais. Alguns dias atrás, o Steam também removeu um jogo gerado usando AIGC, alegando que havia um problema de direitos autorais.
Como os dados de treinamento pertencem a terceiros, o U.S. Copyright Office determinou que os trabalhos gerados pela IA não são protegidos pela lei de direitos autorais e podem até infringir os direitos autorais.
A atitude do governo japonês é bem diferente, dizendo que a lei japonesa não protege os direitos autorais dos dados usados para treinamento de IA.
▼OpenAI Processou Documentos
Essa questão, para a plataforma, é claro, uma nova forma de ganhar dinheiro, não importa o quão ruins sejam os gigantes da tecnologia, eles vão gastar mais dinheiro.
Naquela época, a Internet nasceu com o gene do compartilhamento aberto, como a Wikipedia e o Twitter, que forneciam interfaces de API gratuitamente o ano todo, tornando muito conveniente para os desenvolvedores chamar dados.
Afinal, pequenos desenvolvedores não têm condições de pagar altas taxas de dados.Se a inovação só ocorre em gigantes, isso não é puro monopólio?
O mais importante é que muitos sites que podem ser vistos gratuitamente agora podem ter que ser vistos mais tarde.Este é o verdadeiro crítico para usuários comuns como nós.
Portanto, a chave é ver quando a marreta da fiscalização cairá.
Esclarecer os direitos autorais dos dados é um obstáculo que não pode ser evitado no desenvolvimento da IA e, agora, também parece estar relacionado à direção futura da Internet.
Eu me pergunto se o navio AI nos levará a uma era mais aberta ou fechada?