Por trás do treinamento de grandes modelos de IA, uma cadeia da indústria de dados está se formando

Autor: Guo Xiaojing, Tencent Technology

Fonte da imagem: Gerada por Unbounded AI

"Fazer milagres" e "estética violenta", essas duas palavras sempre apareceram na discussão do ChatGPT. Quanto a "vigoroso" e "violento", além de "enorme poder de computação", também há quantidades massivas de dados. Marc Andreessen, o fundador da a16z, também apontou na conferência Data+AI que os dados massivos acumulados pela Internet nas últimas duas décadas são uma razão importante para o surgimento dessa nova onda de IA, porque o primeiro fornece ao segundo com dados que podem ser usados para treinamento.

De acordo com a OpenAI, o GPT-3.5 possui um corpo de texto de até 45 TB, o que equivale a 4,72 milhões de conjuntos dos quatro principais clássicos da China, enquanto o GPT-4 adiciona dados multimodais aos conjuntos de dados de treinamento GPT-3 e GPT-3.5 . Em 18 de julho, a Meta, empresa controladora do Facebook, lançou o Llama2, o primeiro modelo de linguagem grande de código aberto e comercialmente disponível, com previsão de pré-treinamento para atingir 2 trilhões de tokens.

A capacidade de obter grandes quantidades de dados de alta qualidade é considerada uma das principais competitividades das futuras empresas de modelos em grande escala e também é uma obrigação para a corrida armamentista de IA dos principais gigantes. Os dados também são vistos como um fator chave de produção que determina o desenvolvimento futuro. De acordo com as estatísticas do "Relatório de Desenvolvimento da China Digital (2022)", o potencial da economia digital liberado pelos elementos de dados será extremamente grande. A produção de dados do meu país atingirá 8,1 ZB em 2022, representando 10,5% do mundo, segundo lugar no mundo Economia digital O desenvolvimento está na vanguarda.

Porém, os dados, como fator de produção inédito, também trazem uma série de problemas que precisam ser resolvidos com urgência: como entender os dados? Como confirmar os direitos de dados? Como minerar o valor dos dados? Pode realmente ser negociado e distribuído? Os dados podem realmente ser incluídos nas demonstrações financeiras da empresa como um ativo? Como a segurança é gerenciada? Para tanto, conversamos com a professora Zeng Xueyun, vice-reitora do Instituto de Ciência e Tecnologia da Universidade de Correios e Telecomunicações de Pequim**, e pedimos a ela que respondesse questões relevantes em profundidade.

O seguinte é a transcrição da conversa:

**Tecnologia Tencent: As pessoas comuns podem estar preocupadas, de onde vêm os dados para o treinamento de modelos grandes? Existe algum uso dos meus dados pessoais e haverá algum problema com os direitos desses dados? **

**Professor Zeng Xueyun: Os dados calculados pelo **grande modelo são dados pessoais. Em comparação com os dados corporativos, os dados pessoais têm um problema de propriedade. **Em princípio, sou o mestre dos meus dados. **Por exemplo, os dados gerados no software social, em princípio, a empresa a qual pertence o software social não pode usar meus dados pessoais. Embora essas empresas tenham realmente controlado os dados por meio de autorização padrão, como usar os dados específicos é necessário ser regulado pela "Lei de Proteção de Informações Pessoais".

Portanto, se for usado para cálculos de modelos grandes, como usá-lo? Em termos de tecnologia, é necessário realizar processamento de anonimização, e em termos de operação, há também a necessidade de uma entidade de mercado, que deve **dar a uma determinada empresa o direito legal de operar esses dados , em outras palavras, forneça esses dados Encontre um assunto de mercado. **Quando o sujeito orientado para o mercado obtém os dados, ele precisa investir mão de obra, tempo, inteligência e capital para produzir dados, que todos podemos chamar de mão de obra. Após a entrada de trabalho, as informações de dados pertencentes ao indivíduo são derivadas em uma espécie de dados regenerativos da empresa, ou dados secundários. Em seguida, os dados secundários geram dados processuais e, em seguida, para produtos de dados e serviços de dados. Neste momento, os dados individuais originais com indivíduos como proprietários de dados são transformados em produtos e serviços de dados para empresas. Este é um processo de produção.

**Tecnologia Tencent: É possível entender que empresas de Internet obtêm dados pessoais por meio de autorização e, após essas empresas processarem o processo, podem se tornar algum tipo de ativo de dados da empresa? **

Professor Zeng Xueyun: Também pode ser entendido que geramos pessoalmente uma grande quantidade de dados na Internet, assim como vários recursos naturais na natureza. Por exemplo, muitas flores e árvores podem crescer na terra e muitos recursos podem crescer. Esse tipo de recurso é um tipo de recurso público, que pode ser desenvolvido e utilizado, mas não pode ser comprado ou vendido diretamente. O que é gerado após a utilização e processamento são os ativos da empresa, isso é permitido, e também devemos incentivar o desenvolvimento de fatores de produção de dados dessa forma.

**Tecnologia Tencent: Do ponto de vista individual, como proteger nossos dados pessoais e deixá-los fluir da maneira que queremos? **

**Professor Zeng Xueyun: **Na era da inteligência artificial, a privacidade das pessoas está se tornando cada vez mais difícil de proteger. Porque todos os comportamentos das pessoas estão sendo registrados, o movimento de localização geográfica, vida, trabalho, dieta e vida diária estão sendo registrados. Uma vez registradas, as informações que originalmente nos pertenciam não podem mais ser controladas pelo criminoso. Portanto, neste momento, o risco de vazamento de privacidade é muito alto, a tarefa de proteção de dados também é muito pesada e a proteção de dados também é muito difícil.

Como as pessoas protegem seus direitos de dados? De fato, vários países também possuem alguns métodos comerciais. O primeiro tipo, como o Japão, utiliza um banco de dados, ou seja, todos podem armazenar dados em um banco de dados da mesma forma que depositam em um banco. O banco de dados é um guardião dos dados, mas também pode servir como um desenvolvedor original do valor dos dados, e os indivíduos também podem obter certos benefícios. Isso significa que permite que algumas pessoas que estão dispostas a divulgar e usar seus próprios dados até certo ponto tenham um modelo de negócios para resolver problemas de proteção de dados de maneira autoselecionada. Ou seja, construir modelos de circulação de dados jurídicos, modelos de desenvolvimento e utilização de dados jurídicos, isso é uma peça.

**A outra parte é que eu pessoalmente não quero, então não vou autorizar o proprietário dos dados. **Na ausência de autorização, o país deve fortalecer a proteção de dados. Se alguém quiser desenvolver ilegalmente essa parte dos dados, deve ser punido e fiscalizado legalmente. A tecnologia Blockchain pode ser usada para rastrear tais comportamentos. Por exemplo, se nossos dados vazaram e onde vazaram, para rastrear o fluxo de dados. Também é possível rastrear e analisar o parentesco de dados, e agora existe a tecnologia de parentesco de dados. Grosso modo, **De onde vêm os dados e para onde vão? A análise de linhagem de dados é, na verdade, um tipo de análise de correlação de dados e rastreabilidade de dados. **O uso da palavra linhagem é uma descrição muito vívida dos prós e contras dos dados . Tudo está sendo gravado, portanto, gravar os dados e a tecnologia de outras pessoas também pode ser gravado, tornado público e penetrado.

o "Código Civil" do meu país fez disposições especiais sobre a proteção de informações pessoais no capítulo sobre os direitos da personalidade. O artigo 127 do “Código Civil” justapõe os dados com a propriedade virtual da rede, destacando o atributo de propriedade dos dados. Na legislação local, as disposições do Artigo 12 do "Regulamento de Dados Municipais de Xangai" refletem diretamente o modelo de alocação de direitos de "duas divisões de recursos humanos e riqueza". Este artigo estipula: "Esta cidade protege os direitos de personalidade e os interesses das pessoas físicas em relação às suas informações pessoais de acordo com a lei". economia."

Em 20 de agosto de 2021, a 30ª reunião do Comitê Permanente da Décima Terceira Assembleia Popular Nacional votou pela aprovação da "Lei de Proteção de Informações Pessoais da República Popular da China", que entrará em vigor em 1º de novembro de 2021. Detalhes podem ser encontrados online. A natureza judicial das informações pessoais na "Lei de Proteção de Informações Pessoais" é também a proteção dos direitos e interesses pessoais, o que dificilmente envolve os direitos patrimoniais e interesses das informações pessoais.

**Tecnologia Tencent: Que tipo de dados de alta qualidade são importantes para o treinamento de modelos grandes? **

**Professor Zeng Xueyun: **Os dados devem ser todos os registros de atividades humanas econômicas, sociais, produtivas, administrativas, comerciais e até mesmo militares. Tal registro é produzido em várias indústrias, campos e aspectos. No que diz respeito aos dados brutos, eles têm alta e baixa qualidade. Por exemplo, as demonstrações financeiras e os dados financeiros de **empresas listadas são dados de alta qualidade e são dados estruturados. **Como este tipo de demonstrações financeiras e informações financeiras foram auditadas pela sociedade e auditadas por contadores públicos certificados, e a Comissão Reguladora de Valores Mobiliários da China supervisiona a divulgação de informações, portanto, são dados de alta qualidade. Para outro exemplo, os dados de papel em **CNKI também são dados de alta qualidade. **No entanto, os dados gerados na Internet são dados não estruturados e não padronizados. Esses dados são um tipo de dados originais, confusos e não regulamentados, que requerem limpeza granular antes do cálculo; portanto, dados de alta qualidade geralmente passam de um processo de processamento não estruturado para estruturado. **

**Tecnologia Tencent: Como dados de alta qualidade podem ser produzidos continuamente, por que existe o ditado de que "os dados de alta qualidade estão quase esgotados"? **

Professor Zeng Xueyun: Acho que a capacidade de produzir e processar dados não consegue acompanhar a demanda das pessoas por dados, e a produtividade de toda a cadeia de valor da cadeia de suprimentos para produção e processamento de dados ainda é relativamente fraca. Porque sabemos que os dados estão em constante explosão, mas os dados de alta qualidade estão acabando. Isso significa apenas que, no processo de dados para dados de alta qualidade, nos falta um tipo de produtividade e capacidade de integração. Neste momento, são necessários provedores de dados. Muitos de nossos provedores de dados atuais estão apenas fazendo uso direto de dados, mas para a produção e processamento de dados e como produzir dados de alta qualidade, os recursos dessa área ou o design de modelos de negócios ainda não são suficientes.

Na verdade, o GPT-4 da OpenAI usa uma grande quantidade de dados produzidos pelo modelo GPT-3.5 da geração anterior para treinamento. O fundador da OpenAI também disse em uma entrevista recente: "Os dados sintéticos são uma maneira eficaz de resolver a escassez de grandes dados de modelo. A chave é que existe todo um sistema para distinguir quais dados gerados por IA estão disponíveis e quais não estão disponíveis. . E continue a fornecer feedback com base no efeito do modelo treinado.” Esta empresa não é apenas capaz de arrecadar dinheiro, ela pode controlar muito poder de computação tão simples quanto isso, e a capacidade de tecnologia de dados do produto também é uma das principais competitividades desta empresa.

**Tecnologia Tencent: Para melhorar a produtividade de dados de alta qualidade, quais são os links necessários no design industrial? **

Professor Zeng Xueyun: Sobre esta questão, devemos primeiro entender o que são dados? Que dados temos? E o que fazer com os dados? Ou seja, produzir dados de alta qualidade não significa que haja capacidade de produção para ter dados de alta qualidade e não significa que haja vontade de produzir dados de alta qualidade. Deve entender os dados da fonte. Quais problemas na sociedade devem ser resolvidos com dados? Onde está a demanda do mercado por dados? Então, dos dados originais para o lado da demanda, como devemos produzir no meio? Essa série de problemas requer design industrial, e o pensamento geral atual não é suficiente.

**Tecnologia Tencent: A imaturidade da indústria é um aspecto. Isso também significa que a indústria ainda é um oceano azul? **

**Professor Zeng Xueyun: **Um oceano azul muito antigo. Nos primeiros dias, houve alguns casos de comércio direto ilegal de dados.Mais tarde, a legislação nacional não podia mais comprar e vender dados diretamente e não mais negociar dados brutos. Os dados não podem ser usados para transações originais. Devem ser o resultado de investir na própria produção para fazer transações, em vez de dizer que tenho alguns dados e os vendo diretamente. Isso não é permitido.

Em 2022 (dezembro), os "Vinte Artigos de Dados" foram promulgados. Os "Vinte Artigos de Dados" apresentam os requisitos para a separação de propriedade de dados e multipropriedade de propriedade de dados, direitos de gerenciamento e direitos do beneficiário.A divisão, que mencionou que os dados devem ser geridos nesta categoria hierárquica. Este é o design de nível superior da governança de dados e um plano geral. Também pode-se dizer que é o início do desenvolvimento padronizado da futura indústria de dados. Neste momento, as pessoas percebem que os dados não são um todo e precisam entender quais direitos e interesses os dados têm.Isso também é o avanço da pesquisa original baseada em leis para a pesquisa baseada em economia. ** Para estabelecer um mercado de dados, o mercado deve ter um comportamento econômico. Esse tipo de comportamento econômico requer o uso de muitas ferramentas econômicas e teorias econômicas, agora desde a pesquisa sobre ciência de dados, a governança de dados pelo estado, até a pesquisa sobre dados na academia e o controle de dados na indústria, a utilização é um oceano azul e está apenas começando. **

**Tecnologia Tencent: Deste ponto de vista, os dados podem existir como um determinado ativo de uma empresa. A que tipo de ativo os dados pertencem? **

**Professor Zeng Xueyun:**A classificação de dados é um tema muito discutido na academia. Na maioria dos casos, as pessoas pensam que os dados são intangíveis, invisíveis e intangíveis, e são chamados de ativos intangíveis. Mas, na verdade, pela classificação da ITU, os dados estão mais próximos dos ativos de estoque, porque os dados também envolvem o processo de produção e processamento. E os dados em si são um ativo eletrônico tangível, por que é um ativo eletrônico tangível? Os dados ocuparão espaço físico e muitos dados em si têm uma forma física, que é uma forma física do lado da rede. Imagem, você pode ver esta imagem eletrônica; som, você pode ouvir este som, e retrato, você pode ver este retrato, então ** os dados são um ativo digital tangível. **

Sabemos que os ativos de dados são uma classe de ativos muito especial. Alguns sugerirão que os dados podem ser comparados à natureza intangível para amortização ou análogos aos ativos fixos para depreciação. Na verdade, você deve primeiro classificar os dados hierarquicamente para ver a qual categoria os dados pertencem. **Para certos tipos de dados, também possui capacidade de crescimento e fusão. Por exemplo, se todos os dados de chamadas da China Unicom puderem ser integrados com depósitos bancários pessoais e dados de investimento, um retrato dessa pessoa pode ser gerado com mais informações de investimento e financiamento para sua comunicação e carreira. Neste momento, haverá um efeito acumulativo do valor dos dados gerado pela fusão de dados e dados. Neste momento, os dados serão fundidos e aumentáveis. Há também uma parte dos dados que é de fato sensível ao tempo, e seu valor diminuirá com o tempo. Portanto, ainda precisamos analisar as características dos dados em si de forma mais específica para saber seu valor contábil, e a contabilização do valor dos dados tem mais variabilidade e incerteza, ao contrário do ativo imobilizado, fixo O valor do ativo no momento da formação do ativo é certa e, com o passar do tempo, o valor diminui gradualmente, mas os dados não necessariamente diminuem com o tempo e os dados têm uma forma de ativo mais complexa.

**Tecnologia Tencent: Os dados futuros são um dos principais fatores de competitividade das empresas de IA? É possível que os ativos de dados sejam quantificados e refletidos na avaliação da empresa? **

**Professor Zeng Xueyun: **Para uma empresa de inteligência artificial, **os dados são sua principal competitividade. **Para uma empresa de IA, a experiência do produto determina o valor comercial da empresa e os recursos de dados determinam a experiência do produto. **Para um país, os dados são a chave da competitividade no futuro e também são o ouro do futuro, assim como o petróleo é o ouro da era industrial e **os dados são o ouro da era da economia da Internet. **

Mas, atualmente, os países do mundo estão encontrando dificuldades na governança de dados, e nenhum país assumiu a liderança em avanços. Como resolver o equilíbrio entre segurança de dados, governança de dados e desenvolvimento e utilização de dados. **

Nesse sentido, a China tem plena consciência da importância dos dados. Todos os países também estão cientes de que os dados são uma nova produtividade, mas como usá-los requer agentes de mercado, tecnologia inteligente e regulamentação nacional.Portanto, não é um problema simples que pode ser resolvido, é um problema de complexidade do sistema.

A governança nacional da China é um arranjo relativamente centralizado do central para o local, então naturalmente temos uma vantagem em integrar big data em todo o país, mas essa vantagem ainda não foi refletida e está na valoração de ** dados Existem problemas com avaliação e avaliação, e o problema de entrada de dados nas demonstrações contábeis não foi resolvido. ** Não existe uma boa solução para este problema no mundo.

**Se os dados puderem ser transferidos de ativos fora do balanço para ativos no balanço, então a contabilização do valor da governança de dados e o gerenciamento do valor dos dados podem ser bem resolvidos e as transações de dados terão uma base objetiva. **Agora nossos dados corporativos são basicamente ativos fora do balanço, sem avaliação e sem medição e relatório no balanço, então não está claro quantos dados a empresa possui, de modo que a economia dos dados também é difícil para fazer estatísticas sobre o valor. Se os dados não forem inseridos na tabela, sua transação não terá uma base razoável, **então a entrada de dados na tabela é uma questão fundamental. **Para as estatísticas de volume de dados, a contabilidade de preços de dados e a precificação de transações de dados, Das estatísticas de volume à contabilidade de preços para a base das transações, é necessário inserir o balanço patrimonial e a demonstração de resultados com dados , e insira Contabilidade para demonstrações financeiras é uma facilidade subjacente. Esta facilidade subjacente ainda não foi resolvida.

**Tencent Technology: Quais são os precedentes internacionais para a legislação de direitos de propriedade de dados? **

**Professor Zeng Xueyun: **Pesquisa sobre legislação de direitos de propriedade de dados. Atualmente, os principais países do mundo têm leis básicas sobre proteção de dados e estão cada vez mais claramente posicionados para promover a proteção dos direitos da personalidade nos direitos de propriedade de dados. No entanto, basicamente faltam leis e regulamentos sobre a utilização de dados. O Japão tem um certo grau de avanço a este respeito.meu país Uma ênfase considerável é colocada na promoção da circulação de elementos de dados, mas sem o apoio, regulamentação e orientação de leis e regulamentos, baseia-se principalmente em documentos administrativos, que ainda apresentam muitas deficiências legislativas. Atualmente, há uma necessidade urgente de liderar de forma inovadora a nova direção da construção legal global em termos de acelerar a regulamentação dos direitos de propriedade de dados e a circulação de elementos de dados. A situação no país e no estrangeiro é a seguinte:

Aspectos internacionais: O Regulamento Geral de Proteção de Dados (GDPR) aprovado pela União Europeia em 2016 é atualmente a lei de privacidade de dados mais abrangente e influente. O "Regulamento" desenvolve-se em duas direções: fortalecer os direitos dos titulares de dados, garantir o controle sobre o uso de dados pessoais e levar em consideração a segurança dos dados e o livre fluxo de dados. Com base na confirmação e melhoria dos direitos existentes dos indivíduos, o GDPR estipula o direito de exclusão (artigo 17) e o direito à portabilidade (artigo 20), etc., a fim de obter um controle mais eficaz dos titulares de dados sobre seus dados pessoais , mas as disposições não Não há esclarecimentos sobre a transferência de propriedade de dados pessoais e a distribuição de direitos de propriedade.

Embora os Estados Unidos tenham iniciado o sistema e a exploração teórica da proteção legal da propriedade de dados anteriormente, a maioria das normas relevantes está espalhada em vários projetos de lei. A legislação de cada estado não é compatível, mas abrange uma ampla gama de áreas e tem alguma flexibilidade na resolução de disputas reais para incentivar a utilização de dados. Por exemplo, a "Lei de Privacidade do Consumidor da Califórnia de 2018" emitida em 2018 e a "Lei de Privacidade da Califórnia de 2020" emitida em 2020 aumentaram a determinação dos direitos de dados, abrangendo o direito de acesso, direito de excluir, direito de saber etc. Os direitos de privacidade pessoal dos consumidores fortalecem a proteção dos direitos e interesses dos titulares de dados durante a transferência de dados, o que também reflete do lado dos Estados Unidos a permissão para o uso do valor econômico dos dados. Em 2017, o Japão formulou as "Diretrizes para contratos de direitos de uso de dados". As diretrizes consideraram fatores como a contribuição de contratos de dados para a criação de dados, a carga de custo de armazenamento e gerenciamento e contratos de transação de dados padronizados para promover transações de dados. é um grande progresso, mas ainda não há uma definição clara dos direitos de propriedade de dados.

Na Europa, a Carta dos Direitos Fundamentais da UE e o Regulamento Geral de Proteção de Dados consideram o direito à proteção de dados pessoais como um direito especial dos titulares dos dados, que não inclui nenhum direito de propriedade. Embora as leis da UE, como o Regulamento Geral de Proteção de Dados, não estipulem claramente que os controladores de dados gozam de direitos de propriedade com dados como objeto, seus direitos de propriedade de dados podem ser protegidos por meio de proteção de banco de dados, proteção de lei de direitos autorais, proteção de segredo comercial, proteção de lei contratual e proteção da lei da concorrência, etc. Além disso, o documento "Building a European Data Economy" emitido pela Comissão Europeia está empenhado em introduzir "direitos do produtor de dados", que conferem aos controladores de dados direitos de propriedade universal sobre dados não pessoais e dados pessoais anonimizados, permitindo-lhes o uso exclusivo de dados, incluindo o direito de licenciar outros para usar tais dados. Nos Estados Unidos, embora alguns juristas acreditem que os indivíduos devam receber direitos de propriedade sobre informações pessoais, os tribunais geralmente não reconhecem tais direitos de propriedade. Em alguns casos, os tribunais dos EUA sustentaram que as empresas têm direitos de propriedade sobre os dados que possuem. A experiência jurídica nacional e estrangeira sobre propriedade de dados mostra que a "separação de recursos humanos e riqueza" deve se tornar a proposição teórica central para a construção do sistema de direitos de propriedade de dados do meu país.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)