Se a IA generativa atual é como uma criança que cresce vigorosamente, então os dados contínuos são o alimento que a alimenta para crescer.
A anotação de dados é o processo de fabricação desse “alimento”.
Porém, esse processo é muito volumoso e cansativo.
O "anotador" que realiza a anotação não só precisa identificar repetidamente vários objetos, cores, formas, etc. na imagem, mas às vezes até precisa limpar e pré-processar os dados.
Com o avanço contínuo da tecnologia de IA, as limitações da anotação manual de dados estão se tornando cada vez mais aparentes. A anotação manual de dados não é apenas demorada e trabalhosa, mas às vezes é difícil garantir a qualidade.
Para resolver esses problemas, o Google propôs recentemente um método que usa modelos grandes para substituir humanos na anotação de preferências, chamado AI Feedback Reinforcement Learning (RLAIF).
Os resultados da pesquisa mostram que o RLAIF pode produzir melhorias comparáveis à aprendizagem por reforço com feedback humano (RLHF) sem depender de anotação humana, com ambas as taxas de vitória sendo de 50%. Entretanto, tanto o RLAIF como o RLHF superam a estratégia de base do ajustamento ocasional supervisionado (SFT).
Estes resultados mostram que o RLAIF não precisa depender de anotação manual e é uma alternativa viável ao RLHF. **
Então, se esta tecnologia for realmente promovida e popularizada no futuro, muitas empresas que ainda dependem de "caixas de puxar" manuais para anotação de dados serão realmente forçadas a um beco sem saída a partir de agora?
1 Status atual da anotação de dados
Se quisermos simplesmente resumir a situação atual da indústria nacional de anotações, é: **A carga de trabalho é grande, mas a eficiência não é muito alta e é um estado ingrato. **
As empresas de etiquetagem são conhecidas como fábricas de dados no campo da IA e geralmente estão concentradas em áreas com ricos recursos humanos, como Sudeste Asiático, África ou Henan, Shanxi e Shandong na China.
Para controlar custos, os patrões da etiquetadora vão alugar um espaço no concelho, instalar computadores e, quando houver encomendas, recrutarão pessoas próximas para trabalhar a tempo parcial. Se não houver encomendas, eles vão se desfazer e descanse.
Simplificando, este tipo de trabalho é um pouco semelhante aos trabalhadores de decoração temporária na beira da estrada.
Na estação de trabalho, o sistema fornecerá aleatoriamente ao “anotador” um conjunto de dados, que geralmente inclui diversas perguntas e diversas respostas.
Depois disso, o “anotador” precisa primeiro marcar a que tipo a pergunta pertence e depois pontuar e classificar as respostas.
Anteriormente, quando as pessoas falavam sobre a lacuna entre os grandes modelos domésticos e os grandes modelos avançados, como o GPT-4, resumiam as razões para a baixa qualidade dos dados nacionais.
Mas por que a qualidade dos dados não é alta? Parte do motivo está na “linha de montagem” da anotação de dados.
Atualmente, existem dois tipos de fontes de dados para grandes modelos chineses: um são conjuntos de dados de código aberto; o outro são dados da Internet chinesa rastreados por rastreadores.
**Uma das principais razões pelas quais o desempenho dos grandes modelos chineses não é bom o suficiente é a qualidade dos dados da Internet. **Por exemplo, os profissionais geralmente não usam o Baidu quando procuram informações.
Portanto, ao enfrentar alguns problemas de dados mais profissionais e verticais, como assistência médica, finanças, etc., é necessário cooperar com uma equipe profissional.
Mas, neste momento, o problema surge novamente: para as equipas profissionais, não só o período de retorno é longo quando se trata de dados, como os pioneiros provavelmente sofrerão perdas.
Por exemplo, se uma determinada equipe de anotação gastou muito dinheiro e tempo para produzir muitos dados, outros podem simplesmente empacotá-los e comprá-los por uma pequena quantia em dinheiro.
Diante desse "dilema do carona", os grandes modelos domésticos caíram em uma estranha situação de ter muitos dados, mas de baixa qualidade.
Sendo esse o caso, como é que algumas das principais empresas estrangeiras de IA, como a OpenAI, resolvem este problema?
Na verdade, em termos de anotação de dados, a OpenAI não desistiu de utilizar mão de obra barata e intensiva para reduzir custos.
Por exemplo, foi anteriormente revelado que tinha contratado um grande número de trabalhadores quenianos para rotular informações tóxicas a um preço de 2 dólares/hora.
**Mas a principal diferença está em como resolver os problemas de qualidade dos dados e eficiência das anotações. **
Especificamente, a maior diferença entre a OpenAI e as empresas nacionais neste aspecto é como reduzir o impacto da “subjetividade” e da “instabilidade” da anotação manual.
2 Abordagem da OpenAI
A fim de reduzir a “subjetividade” e a “instabilidade” de tais anotadores humanos, a OpenAI adota aproximadamente duas estratégias principais:
1. Combinação de feedback artificial e aprendizagem por reforço;
Vamos falar primeiro sobre o primeiro ponto: em termos de método de rotulagem, a maior diferença entre o feedback manual da OpenAI e o feedback doméstico é que ele classifica ou pontua principalmente o comportamento do sistema inteligente, em vez de modificar ou rotular sua saída.
O comportamento de um sistema inteligente refere-se ao sistema inteligente que realiza uma série de ações ou decisões com base em seus próprios objetivos e estratégias em um ambiente complexo.
Por exemplo, jogue um jogo, controle um robô, converse com uma pessoa, etc.
A saída de um sistema inteligente refere-se à geração de um resultado ou resposta com base nos dados de entrada em uma tarefa simples, como escrever um artigo ou desenhar uma pintura.
De modo geral, o comportamento dos sistemas inteligentes é mais difícil de julgar em termos de “certo” ou “errado” do que o resultado, e precisa ser avaliado em termos de preferência ou satisfação.
Este tipo de sistema de avaliação baseado em “preferência” ou “satisfação” não requer modificação ou anotação de conteúdo específico, reduzindo assim o impacto da subjetividade humana, nível de conhecimento e outros fatores na qualidade e precisão da anotação dos dados.
É verdade que as empresas nacionais também utilizarão sistemas semelhantes a “classificação” e “pontuação” na rotulagem, mas devido à falta de um “modelo de recompensa” como o OpenAI como função de recompensa para otimizar a estratégia do sistema inteligente, tal " classificação" e "pontuação" A "pontuação" ainda é essencialmente um método de modificar ou anotar a saída.
2. Canais de fontes de dados diversificados e em grande escala;
As principais fontes de anotação de dados na China são empresas de anotação terceirizadas ou equipes autoconstruídas de empresas de tecnologia.Essas equipes são compostas principalmente por estudantes de graduação e carecem de profissionalismo e experiência suficientes para fornecer feedback eficiente e de alta qualidade.
Por outro lado, o feedback manual da OpenAI vem de vários canais e equipes.
OpenAI não apenas usa conjuntos de dados de código aberto e rastreadores da Internet para obter dados, mas também coopera com várias empresas e instituições de dados, como Scale AI, Appen, Lionbridge AI, etc., para obter dados mais diversificados e de alta qualidade.
Em comparação com os seus homólogos nacionais, os métodos de rotulagem destas empresas e instituições de dados são muito mais “automáticos” e “inteligentes”.
Por exemplo, Scale AI usa uma técnica chamada Snorkel, um método de rotulagem de dados baseado em aprendizado fracamente supervisionado que pode gerar rótulos de alta qualidade a partir de múltiplas fontes de dados imprecisas.
Ao mesmo tempo, o Snorkel também pode usar uma variedade de sinais, como regras, modelos e bases de conhecimento, para adicionar rótulos aos dados sem rotular manualmente cada ponto de dados diretamente. Isso pode reduzir bastante o custo e o tempo de anotação manual.
À medida que o custo e o ciclo de anotação de dados são reduzidos, essas empresas de dados com vantagens competitivas podem escolher subdivisões de alto valor, alta dificuldade e alto limite, como direção autônoma, grandes modelos de linguagem, dados sintéticos, etc. sua principal competitividade e vantagens diferenciadas.
Desta forma, o dilema do parasitismo de “os pioneiros sofrerão” também foi eliminado por fortes barreiras tecnológicas e industriais.
3 Padronização VS pequena oficina
Pode-se ver que ** A tecnologia de etiquetagem automática de IA realmente eliminará apenas as empresas de etiquetagem que ainda usam etiquetagem puramente manual. **
Embora a anotação de dados pareça um setor de “trabalho intensivo”, depois de se aprofundar nos detalhes, você descobrirá que buscar dados de alta qualidade não é uma tarefa fácil.
Representada pela Scale AI, um unicórnio estrangeiro de anotação de dados, a Scale AI não apenas utiliza recursos humanos baratos da África e de outros lugares, mas também recruta dezenas de PhDs para lidar com dados profissionais em vários setores.
A qualidade da anotação de dados é o maior valor que a Scale AI oferece para grandes empresas modelo, como a OpenAI.
Para garantir ao máximo a qualidade dos dados, além do uso da anotação assistida por IA mencionada acima, outra grande inovação do **Scale AI é uma plataforma de dados unificada. **
Essas plataformas incluem Scale Audit, Scale Analytics, ScaleData Quality, etc. Através destas plataformas, os clientes podem monitorizar e analisar vários indicadores no processo de anotação, verificar e otimizar os dados da anotação e avaliar a precisão, consistência e integridade da anotação.
Pode-se dizer que essas ferramentas e processos padronizados e unificados se tornaram os principais fatores que distinguem entre "fábricas de linhas de montagem" e "oficinas artesanais" em empresas de etiquetagem.
A este respeito, a maioria das empresas nacionais de anotação ainda usa "revisão manual" para revisar a qualidade da anotação de dados. Apenas alguns gigantes como o Baidu introduziram ferramentas de gestão e avaliação mais avançadas, como a plataforma inteligente de serviços de dados EasyData.
Se não houver ferramentas especializadas para monitorar e analisar resultados e indicadores de anotação no aspecto chave de revisão de dados, então o controle da qualidade dos dados ainda será reduzido a um nível semelhante a um workshop que depende da visão de um “mestre”.
Portanto, cada vez mais empresas nacionais, como Baidu e My Neighbour Totoro Data, estão começando a usar tecnologias de aprendizado de máquina e inteligência artificial para melhorar a eficiência e a qualidade da anotação de dados e implementar modelos de colaboração homem-máquina.
Pode-se ver que o surgimento da rotulagem de IA não é o fim das empresas nacionais de rotulagem, mas o fim de um método de rotulagem ineficiente, barato, trabalhoso e carente de conteúdo técnico.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Quantas empresas de rotulagem de IA a “grande jogada” do Google matará?
Fonte original: AI Nova Inteligência
Se a IA generativa atual é como uma criança que cresce vigorosamente, então os dados contínuos são o alimento que a alimenta para crescer.
A anotação de dados é o processo de fabricação desse “alimento”.
Porém, esse processo é muito volumoso e cansativo.
Com o avanço contínuo da tecnologia de IA, as limitações da anotação manual de dados estão se tornando cada vez mais aparentes. A anotação manual de dados não é apenas demorada e trabalhosa, mas às vezes é difícil garantir a qualidade.
Estes resultados mostram que o RLAIF não precisa depender de anotação manual e é uma alternativa viável ao RLHF. **
Então, se esta tecnologia for realmente promovida e popularizada no futuro, muitas empresas que ainda dependem de "caixas de puxar" manuais para anotação de dados serão realmente forçadas a um beco sem saída a partir de agora?
1 Status atual da anotação de dados
Se quisermos simplesmente resumir a situação atual da indústria nacional de anotações, é: **A carga de trabalho é grande, mas a eficiência não é muito alta e é um estado ingrato. **
As empresas de etiquetagem são conhecidas como fábricas de dados no campo da IA e geralmente estão concentradas em áreas com ricos recursos humanos, como Sudeste Asiático, África ou Henan, Shanxi e Shandong na China.
Para controlar custos, os patrões da etiquetadora vão alugar um espaço no concelho, instalar computadores e, quando houver encomendas, recrutarão pessoas próximas para trabalhar a tempo parcial. Se não houver encomendas, eles vão se desfazer e descanse.
Simplificando, este tipo de trabalho é um pouco semelhante aos trabalhadores de decoração temporária na beira da estrada.
Depois disso, o “anotador” precisa primeiro marcar a que tipo a pergunta pertence e depois pontuar e classificar as respostas.
Anteriormente, quando as pessoas falavam sobre a lacuna entre os grandes modelos domésticos e os grandes modelos avançados, como o GPT-4, resumiam as razões para a baixa qualidade dos dados nacionais.
Mas por que a qualidade dos dados não é alta? Parte do motivo está na “linha de montagem” da anotação de dados.
Atualmente, existem dois tipos de fontes de dados para grandes modelos chineses: um são conjuntos de dados de código aberto; o outro são dados da Internet chinesa rastreados por rastreadores.
**Uma das principais razões pelas quais o desempenho dos grandes modelos chineses não é bom o suficiente é a qualidade dos dados da Internet. **Por exemplo, os profissionais geralmente não usam o Baidu quando procuram informações.
Mas, neste momento, o problema surge novamente: para as equipas profissionais, não só o período de retorno é longo quando se trata de dados, como os pioneiros provavelmente sofrerão perdas.
Por exemplo, se uma determinada equipe de anotação gastou muito dinheiro e tempo para produzir muitos dados, outros podem simplesmente empacotá-los e comprá-los por uma pequena quantia em dinheiro.
Diante desse "dilema do carona", os grandes modelos domésticos caíram em uma estranha situação de ter muitos dados, mas de baixa qualidade.
Sendo esse o caso, como é que algumas das principais empresas estrangeiras de IA, como a OpenAI, resolvem este problema?
Por exemplo, foi anteriormente revelado que tinha contratado um grande número de trabalhadores quenianos para rotular informações tóxicas a um preço de 2 dólares/hora.
**Mas a principal diferença está em como resolver os problemas de qualidade dos dados e eficiência das anotações. **
Especificamente, a maior diferença entre a OpenAI e as empresas nacionais neste aspecto é como reduzir o impacto da “subjetividade” e da “instabilidade” da anotação manual.
2 Abordagem da OpenAI
A fim de reduzir a “subjetividade” e a “instabilidade” de tais anotadores humanos, a OpenAI adota aproximadamente duas estratégias principais:
1. Combinação de feedback artificial e aprendizagem por reforço;
Vamos falar primeiro sobre o primeiro ponto: em termos de método de rotulagem, a maior diferença entre o feedback manual da OpenAI e o feedback doméstico é que ele classifica ou pontua principalmente o comportamento do sistema inteligente, em vez de modificar ou rotular sua saída.
O comportamento de um sistema inteligente refere-se ao sistema inteligente que realiza uma série de ações ou decisões com base em seus próprios objetivos e estratégias em um ambiente complexo.
Por exemplo, jogue um jogo, controle um robô, converse com uma pessoa, etc.
De modo geral, o comportamento dos sistemas inteligentes é mais difícil de julgar em termos de “certo” ou “errado” do que o resultado, e precisa ser avaliado em termos de preferência ou satisfação.
Este tipo de sistema de avaliação baseado em “preferência” ou “satisfação” não requer modificação ou anotação de conteúdo específico, reduzindo assim o impacto da subjetividade humana, nível de conhecimento e outros fatores na qualidade e precisão da anotação dos dados.
2. Canais de fontes de dados diversificados e em grande escala;
As principais fontes de anotação de dados na China são empresas de anotação terceirizadas ou equipes autoconstruídas de empresas de tecnologia.Essas equipes são compostas principalmente por estudantes de graduação e carecem de profissionalismo e experiência suficientes para fornecer feedback eficiente e de alta qualidade.
OpenAI não apenas usa conjuntos de dados de código aberto e rastreadores da Internet para obter dados, mas também coopera com várias empresas e instituições de dados, como Scale AI, Appen, Lionbridge AI, etc., para obter dados mais diversificados e de alta qualidade.
Em comparação com os seus homólogos nacionais, os métodos de rotulagem destas empresas e instituições de dados são muito mais “automáticos” e “inteligentes”.
Ao mesmo tempo, o Snorkel também pode usar uma variedade de sinais, como regras, modelos e bases de conhecimento, para adicionar rótulos aos dados sem rotular manualmente cada ponto de dados diretamente. Isso pode reduzir bastante o custo e o tempo de anotação manual.
Desta forma, o dilema do parasitismo de “os pioneiros sofrerão” também foi eliminado por fortes barreiras tecnológicas e industriais.
3 Padronização VS pequena oficina
Pode-se ver que ** A tecnologia de etiquetagem automática de IA realmente eliminará apenas as empresas de etiquetagem que ainda usam etiquetagem puramente manual. **
Embora a anotação de dados pareça um setor de “trabalho intensivo”, depois de se aprofundar nos detalhes, você descobrirá que buscar dados de alta qualidade não é uma tarefa fácil.
Representada pela Scale AI, um unicórnio estrangeiro de anotação de dados, a Scale AI não apenas utiliza recursos humanos baratos da África e de outros lugares, mas também recruta dezenas de PhDs para lidar com dados profissionais em vários setores.
Para garantir ao máximo a qualidade dos dados, além do uso da anotação assistida por IA mencionada acima, outra grande inovação do **Scale AI é uma plataforma de dados unificada. **
Essas plataformas incluem Scale Audit, Scale Analytics, ScaleData Quality, etc. Através destas plataformas, os clientes podem monitorizar e analisar vários indicadores no processo de anotação, verificar e otimizar os dados da anotação e avaliar a precisão, consistência e integridade da anotação.
A este respeito, a maioria das empresas nacionais de anotação ainda usa "revisão manual" para revisar a qualidade da anotação de dados. Apenas alguns gigantes como o Baidu introduziram ferramentas de gestão e avaliação mais avançadas, como a plataforma inteligente de serviços de dados EasyData.
Se não houver ferramentas especializadas para monitorar e analisar resultados e indicadores de anotação no aspecto chave de revisão de dados, então o controle da qualidade dos dados ainda será reduzido a um nível semelhante a um workshop que depende da visão de um “mestre”.
Pode-se ver que o surgimento da rotulagem de IA não é o fim das empresas nacionais de rotulagem, mas o fim de um método de rotulagem ineficiente, barato, trabalhoso e carente de conteúdo técnico.