Observação｜A onda de grandes modelos está prestes a esgotar todo o universo de textos.De onde vêm os dados de alta qualidade?

Question

Fonte: O Papel See MoreAutor: Shao WenBots com inteligência artificial como o ChatGPT podem em breve "ficar sem texto no universo", alertam os especialistas. Ao mesmo tempo, usando os dados gerados pela IA para "alimentar" a IA ou causar o colapso do modelo. Os dados de alta qualidade usados para treinamento de modelos futuros podem se tornar cada vez mais caros, e a rede ficará fragmentada e fechada."Quando o desenvolvimento de modelos de grande escala é mais profundo, como os modelos industriais de grande escala, os dados necessários não são dados gratuitos e abertos na Internet. Para treinar um modelo com alta precisão, é necessário conhecimento do setor ou mesmo comercial segredos. Conhecimento. Para que todos contribuam para tal corpus, deve haver um mecanismo para a distribuição de direitos e interesses.”![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Fonte da imagem: Gerada por Unbounded AIComo um dos "troika" da infraestrutura de inteligência artificial, a importância dos dados sempre foi evidente. À medida que o boom de modelos de linguagem grande entra em seu período de pico, a indústria está prestando mais atenção aos dados do que nunca.No início de julho, Stuart Russell, professor de ciência da computação na Universidade da Califórnia, em Berkeley, e autor de "Inteligência Artificial — Uma Abordagem Moderna", alertou que bots baseados em IA, como o ChatGPT, poderiam em breve "ficar sem texto no universo". ." ", e a técnica de treinar bots coletando grandes quantidades de texto está "começando a ter dificuldades". A empresa de pesquisa Epoch estima que os conjuntos de dados de aprendizado de máquina podem esgotar todos os "dados de linguagem de alta qualidade" até 2026."A qualidade e o volume de dados serão a chave para o surgimento de recursos de modelo em grande escala no próximo estágio." Wu Chao, diretor do comitê de especialistas do CITIC Think Tank e diretor do Securities Research Institute of China Securities, compartilhou uma discurso na Conferência Mundial de Inteligência Artificial (WAIC) de 2023 Estima-se que "20% da qualidade de um modelo no futuro será determinada pelo algoritmo e 80% será determinada pela qualidade dos dados. Em seguida, alta dados de alta qualidade serão a chave para melhorar o desempenho do modelo."No entanto, de onde vêm os dados de alta qualidade? Atualmente, a indústria de dados ainda enfrenta muitos problemas urgentes, como qual é o padrão de qualidade dos dados, como promover o compartilhamento e a circulação de dados e como projetar um sistema de receita de preços e distribuição.## **Dados de alta qualidade urgentes**Wei Zhilin, vice-gerente geral da Shanghai Data Exchange, disse em entrevista ao The Paper (incluindo mídia) em 8 de julho que na "troika" de dados, poder de computação e algoritmos, os dados são o núcleo, o mais longo e o elementos mais básicos.O modelo de linguagem de grande escala (LLM) tem um desempenho incrível hoje, e o mecanismo por trás dele é resumido como "emergência inteligente" Em termos simples, as habilidades de IA que não foram ensinadas antes podem agora ser aprendidas. E um grande número de conjuntos de dados é uma base importante para a "emergência da inteligência".Um grande modelo de linguagem é uma rede neural profunda com bilhões a trilhões de parâmetros, que é "pré-treinada" em um enorme corpus de linguagem natural de vários terabytes (Terabytes, 1 TB = 1024 MB), incluindo dados estruturados, livros online e outros conteúdos. Shan Haijun, vice-presidente do China Electronics Jinxin Research Institute, disse à Peng Mei Technology durante a Conferência Mundial de Inteligência Artificial de 2023 que grandes modelos são modelos de geração essencialmente probabilísticos e seus principais destaques estão na capacidade de entender (aprendizagem imediata do contexto) e raciocínio ( cadeia de pensamento) e Tem Valores (Human Feedback Reinforcement Learning). O maior avanço do ChatGPT foi quando surgiu o GPT-3, com cerca de 175 bilhões de parâmetros e um volume de dados de 45 TB.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) Uma visão abrangente de todos os conjuntos de dados, desde o GPT-1 até os modelos de linguagem com curadoria do Gopher, de 2018 ao início de 2022. O tamanho não ponderado, em GB. Crédito: Alan D. Thompson"A OpenAI sempre trabalhou para buscar mais dados de alta qualidade e analisar profundamente os dados existentes, de modo a tornar seus recursos cada vez mais poderosos." Em 12 de julho, o professor da Universidade de Fudan, diretor do Shanghai Key Laboratory of Data Science, Xiao Yanghua disse ao The Paper, "A aquisição de dados diversos, de grande escala e de alta qualidade, e a análise aprofundada desses dados pode ser uma das ideias importantes para promover o desenvolvimento de modelos grandes".No entanto, dados de alta qualidade são escassos.Um estudo realizado em novembro passado pela Epoch, um grupo de pesquisadores de inteligência artificial, estimou que os conjuntos de dados de aprendizado de máquina poderiam esgotar todos os “dados de linguagem de alta qualidade” até 2026. E quando o estudo foi publicado, o boom global de modelos grandes nem havia acontecido. De acordo com o estudo, os dados de linguagem em conjuntos de "alta qualidade" vieram de "livros, artigos de notícias, artigos científicos, Wikipedia e conteúdo filtrado da web".Ao mesmo tempo, as práticas de coleta de dados de organizações de desenvolvimento de IA generativa, como a OpenAI, para treinar grandes modelos de linguagem, estão se tornando cada vez mais controversas. No final de junho, a OpenAI foi alvo de uma ação coletiva, acusada de roubar “uma grande quantidade de dados pessoais” para treinar o ChatGPT. As mídias sociais, incluindo Reddit e Twitter, expressaram insatisfação com o uso aleatório de dados em suas plataformas. Em 1º de julho, Musk impôs um limite temporário ao número de tweets lidos por esse motivo.Em entrevista ao Insider de tecnologia e mídia financeira em 12 de julho, Russell disse que muitos relatórios, embora não confirmados, detalham que a OpenAI comprou conjuntos de dados de texto de fontes privadas. Embora existam várias explicações possíveis para essa compra, "a inferência natural é que não há dados públicos de alta qualidade suficientes".Alguns especialistas sugeriram que talvez surjam novas soluções antes que os dados se esgotem. Por exemplo, o modelo grande pode gerar continuamente novos dados por si só e, em seguida, passar por alguma filtragem de qualidade, que por sua vez pode ser usada para treinar o modelo. Isso é chamado de autoaprendizagem ou "feedback". No entanto, de acordo com um artigo publicado na plataforma de pré-impressão arXiv por pesquisadores da Oxford University, Cambridge University e Imperial College London em maio deste ano, o treinamento de IA com dados gerados por IA levará a defeitos irreversíveis no modelo de IA. it Model Collapse. Isso significa que os dados de alta qualidade usados para treinamento de modelos no futuro ficarão cada vez mais caros, a rede ficará fragmentada e fechada e os criadores de conteúdo farão o possível para impedir que seu conteúdo seja rastreado gratuitamente.Não é difícil perceber que a aquisição de dados de alta qualidade se tornará cada vez mais difícil. "A maioria dos nossos dados agora vem da Internet. De onde virão os dados no segundo semestre? Acho isso muito importante. No final, todo mundo vai compartilhar dados privados, ou você tem dados que eu não t have." Jovem cientista do Shanghai Artificial Intelligence Laboratory, responsável pelo OpenDataLab He Conghui falou sobre isso na Conferência Mundial de Inteligência Artificial de 2023.Wu Chao também disse ao The Paper que quem tiver dados de alta qualidade em seguida, ou puder gerar um fluxo constante de dados de alta qualidade, se tornará a chave para melhorar o desempenho.## **Problemas "centrados em dados"**He Conghui acredita que o paradigma de todo o desenvolvimento do modelo mudará gradualmente de "centrado no modelo" para "centrado em dados". Mas há um problema com a centralização de dados - a falta de padrões. A criticidade da qualidade dos dados é frequentemente mencionada, mas na verdade é atualmente difícil para qualquer um dizer claramente o que é boa qualidade de dados e qual é o padrão.No processo de prática, He Conghui também enfrentou esse problema: "Nossa prática neste processo é dividir os dados e torná-los cada vez mais detalhados. Com cada campo de subdivisão e tópico de subdivisão, o padrão de qualidade dos dados gradualmente torna-se cada vez menor. Foi proposto. Ao mesmo tempo, não basta olhar apenas para os dados, mas também olhar por trás dos dados. Vamos combinar os dados e a melhoria do desempenho do modelo da intenção correspondente do dados e formular um conjunto de mecanismo de iteração de qualidade de dados juntos.”No ano passado, o Laboratório de Inteligência Artificial de Xangai, onde He Conghui trabalha, lançou a plataforma de dados abertos OpenDataLab para inteligência artificial, fornecendo mais de 5.500 conjuntos de dados de alta qualidade, "mas isso é apenas no nível de conjuntos de dados públicos. Esperamos que os dados a troca será estabelecida há dois dias. A aliança de dados corpus em grande escala pode fornecer às instituições de pesquisa e empresas melhores métodos de circulação de dados."Em 6 de julho, na Conferência Mundial de Inteligência Artificial de 2023, Shanghai Artificial Intelligence Laboratory, China Institute of Scientific and Technological Information, Shanghai Data Group, Shanghai Digital Business Association, National Meteorological Center, China Central Radio and Television, Shanghai Press Industry Group The large aliança modelo corpus data iniciada em conjunto por outras unidades anunciou o estabelecimento formal.Em 7 de julho, o site oficial do Shanghai Data Exchange lançou oficialmente o corpus, e um total de quase 30 produtos de dados do corpus foram listados, incluindo texto, áudio, imagem e outras multimodalidades, abrangendo finanças, transporte e campos médicos.Mas tal construção de corpus não é algo natural. "Pode haver corpus de alta qualidade exigido por empresas de grande porte? O público-alvo estará disposto a abrir dados?" Tang Qifeng, gerente geral da Shanghai Data Exchange, disse na Conferência Mundial de Inteligência Artificial de 2023 que a dificuldade reside principalmente em o grau de abertura e qualidade dos dados Duas maneiras.Wei Zhilin compartilhou que o fornecimento de dados agora enfrenta muitos desafios. Os principais fabricantes não estão dispostos a abrir os dados. Ao mesmo tempo, todos também estão preocupados com o mecanismo de segurança no processo de compartilhamento de dados. Outra questão importante é que ainda há dúvidas sobre o mecanismo de distribuição de receitas para a circulação aberta de dados.Especificamente, o compartilhamento de dados precisa resolver três problemas. Lin Le, fundador e CEO da Shanghai Lingshu Technology Co., Ltd. explicou à Pengpai Technology que, primeiro, os dados são fáceis de falsificar e é necessário garantir que os dados sejam autênticos e confiáveis. A segunda é que os dados são fáceis de copiar, o que significa que a relação de propriedade não é clara e o blockchain é necessário para confirmação e uso autorizado. A terceira é que é fácil vazar privacidade. Blockchain pode ser combinado com tecnologia de computação de privacidade para tornar os dados disponíveis e invisíveis.## **Como resolver a distribuição de renda**Tang Qifeng apontou que, para fornecedores com alta qualidade de dados, mas baixa abertura, o problema de confiança da circulação de dados corpus pode ser efetivamente resolvido por meio da cadeia de transações de dados. "Um dos núcleos reside na questão dos direitos de propriedade e na distribuição de benefícios após participando do modelo em grande escala."Lin Changle, vice-presidente executivo do Instituto Interdisciplinar de Pesquisa de Tecnologia da Informação da Universidade de Tsinghua, está projetando um sistema teórico sobre como precificar dados e distribuir benefícios."Até certo ponto, muito conhecimento humano como o ChatGPT pode ser usado gratuitamente em alguns meses. Vemos que o modelo grande pode aprender alguns artigos de escritores, escrever artigos do mesmo estilo ou gerar pinturas de Van Gogh, mas não precisa ser Este pagamento, os sujeitos dessas fontes de dados não se beneficiaram disso." Lin Changle disse na Conferência Mundial de Inteligência Artificial de 2023, então pode haver um ponto de vista mais radical: direitos de propriedade intelectual na era da grandes modelos não existem, ou Diz-se que a proteção tradicional da propriedade intelectual não existe.No entanto, Lin Changle acredita que, após a era dos modelos em grande escala, a proteção dos direitos de propriedade intelectual se desenvolverá para a confirmação dos direitos de dados, preços e transações. "Quando o desenvolvimento de modelos de grande escala é mais profundo, como os modelos industriais de grande porte, os dados necessários não são dados gratuitos e abertos na Internet. Para treinar modelos com altíssima precisão, é necessário conhecimento do setor ou mesmo comercial segredos. Conhecimento. Para que todos contribuam para tal corpus, deve haver um mecanismo para a distribuição de direitos e interesses.”O "mapa de ativos de dados" no qual Lin Changle está trabalhando agora é usar a matemática para provar um conjunto de mecanismos de distribuição de renda para distribuir direitos de dados de maneira justa.**Como resolver a circulação de dados**Liu Quan, vice-engenheiro-chefe do Instituto de Pesquisa CCID do Ministério da Indústria e Tecnologia da Informação e acadêmico estrangeiro da Academia Russa de Ciências Naturais, mencionou no WAIC "Integração de Números e Realidade, Inteligência Liderando o Futuro" Blockchain Industrial Ecológico Fórum que recentemente a versão de Pequim de "Vinte artigos de dados" surgiu na indústria. Resposta muito grande, resolve o problema central no processo de circulação de dados. Obviamente, a questão de quem é o proprietário dos dados do governo é esclarecida – os dados públicos pertencem ao governo. E os dados corporativos e os dados pessoais? "O Intercâmbio de Dados Municipais de Pequim pode ser encarregado de conduzir operações confiadas."Em 5 de julho, o Comitê Municipal de Pequim do Partido Comunista da China e o Governo Popular Municipal de Pequim emitiram um aviso sobre as "Opiniões de implementação sobre como desempenhar melhor o papel dos elementos de dados e acelerar ainda mais o desenvolvimento da economia digital". O "Parecer de Implementação" é dividido em nove partes. Ele constrói um sistema básico de dados a partir dos aspectos de direitos de propriedade de dados, transações de circulação, distribuição de renda e governança de segurança. Ele propõe um total de 23 requisitos específicos, que são chamados de versão de Pequim dos "Vinte Artigos de Dados" na indústria."Do ponto de vista doméstico, segundo as estatísticas, 80% dos recursos de dados estão concentrados em instituições públicas e governamentais. Queremos resolver o fornecimento de dados, em grande medida, esperamos nos basear nos 20 artigos de dados ( "O Comitê Central do Partido Comunista da China e o Conselho de Estado sobre a Construção de um Sistema Básico de Dados Opiniões sobre Melhor Desempenhar o Papel dos Elementos de Dados") O compartilhamento aberto de dados públicos pode formar um conjunto de mecanismos e paradigmas replicáveis para promover dados formados em serviços públicos e, em seguida, servir ao público", disse Wei Zhilin.Wei Zhilin disse que, de acordo com as estatísticas atuais, o estoque de recursos de dados na China como um todo ocupa o segundo lugar no mundo, mas esses dados estão espalhados em vários lugares. De acordo com Zhan Yubao, vice-diretor do Digital China Research Institute do State Information Center, na Conferência Mundial de Inteligência Artificial de 2023 em 7 de julho, o atual sistema nacional de circulação de dados da China inclui: Existem duas trocas de dados, uma é Shanghai Data Exchange One é o Shenzhen Data Exchange; existem 17 centros de intercâmbio de dados na China, incluindo o Beijing Data Exchange Center.