Trabalhadores de rotulagem de dados: IA de treinamento, substituída por IA

O crescimento e a eliminação ocorrem simultaneamente.

Autor|Ma Hui

Editar|Castanhas

Fonte da imagem: Gerada pela ferramenta Unbounded AI

** Perspectivas e destruição existem ao mesmo tempo, e os profissionais de rotulagem de dados nunca foram tão contraditórios. **

Dai Yan, um mongol interior de 30 anos, iniciou seu negócio no início deste ano e formou uma equipe de rotulagem online de quase 30 pessoas. Anteriormente, Daiyan trabalhou em uma plataforma de crowdsourcing para anotação de dados por dois anos. Ele, que pode ser chamado de "trabalhador qualificado", está ansioso e nervoso com a situação atual.

Ele tem prestado atenção ao ChatGPT desde o início do ano. A partir do rápido crescimento do número de registros de empresas de IA, Dai Yan viu a explosão da indústria de IA e as oportunidades empresariais de rotulagem de dados. **Os dados da Tianyancha mostram que apenas no primeiro trimestre deste ano, 170.000 empresas relacionadas à inteligência artificial foram registradas recentemente, e o número total agora é de 2,67 milhões. **

Ele imagina que pode acompanhar a indústria e a empresa crescerá para uma escala de 100 pessoas no futuro. **Mas o status quo atual é difícil de suportar suas expectativas: o círculo de rotulagem de dados será rompido em breve - um grande número de necessidades de rotulagem, trabalhadores de rotulagem e intermediários chegarão juntos e o preço unitário será menor. **

Assim como a equipe de engenharia não pode entrar em contato com a Parte A que tem necessidades de construção e só pode assumir o projeto do empreiteiro, os salários contatados por **Daiyan estão ficando cada vez mais baixos à medida que o projeto muda de mãos. **Ele se recusou a fazer o projeto de rotulagem, onde só conseguia 30 yuans por dia.

Ao mesmo tempo, ** Daiyan também está enfrentando o constrangimento de nenhuma promoção de carreira na indústria de rotulagem, nenhuma garantia de contrato e nenhuma maneira de reclamar de atrasos. **Ele riu de si mesmo: "Nós somos os trabalhadores migrantes de dados da nova era."

Mas essa não é toda a história. **O maior problema é que a rotulagem automatizada também está consumindo os únicos projetos que eles têm. ** A IA treinada por rotuladoras de dados como Dai Yan está aprendendo e se rotulando sob supervisão humana.

A rotulagem automatizada reduzirá bastante os custos da empresa e se tornou a direção mais promissora no mercado de rotulagem de dados.

Daiyan teve que se preparar para "IA pode substituir completamente as pessoas". Ele liderou a equipe para fazer anotações de ajuda de ensino e projetos de anotação de nuvem de pontos 3D na categoria de anotação de texto ao mesmo tempo. Um é o texto e o outro é o vídeo da imagem. Dai Yan fez um plano de que, se um projeto for anulado pela IA, ele imediatamente liderará a equipe para se transformar em outro campo.

Além disso, o tamanho da equipe deve ser reduzido. Dai Yan riscou a escala da empresa de 100 pessoas imaginada em sua mente. Ele acredita que, no final, apenas a experiente equipe de 20 pessoas poderá ser mantida.

**Essas IAs treinadas por rotuladoras de dados as fazem sonhar em ganhar mais enquanto as forçam a planejar para serem subvertidas. **

1. Marcação, deixe a IA abrir os olhos para ver o mundo

Para que as máquinas entendam texto, voz e imagens como humanos, os humanos criaram uma cadeia de aprendizado de máquina: coletando imagens e sons físicos no mundo físico, rotulando e limpando os dados, convertendo os dados em uma série de códigos e enviando-os à máquina.

Os estudiosos da IA acreditam que bebês de três anos "disparam" centenas de milhões de fotos com os olhos, compreendendo repetidamente o mundo. Assim, desde que dados suficientes sejam infundidos na máquina, a máquina também pode aprender a ler e reconhecer frases e, finalmente, entender o significado profundo por trás do idioma.

Há 15 milhões de imagens no atlas ImageNet rotulado. Esse conjunto de dados ajudou inúmeras empresas de IA a alcançar avanços na visão computacional, como reconhecimento facial e pesquisa de imagens.

Para construir o ImageNet, cerca de 50.000 rotuladores de dados de 167 países ao redor do mundo trabalharam juntos por dois anos e meio, todos vindos da plataforma de crowdsourcing Mechanical Turk.

Os requisitos de rotulagem são muito simples. O trabalho comum do MTurk é distinguir a cor da foto, ou classificar os animais que aparecem na imagem, ou usar caixas para enquadrar objetos selecionados e rotular seus nomes: isto é um bolo, isto é um carro, É uma nuvem e assim por diante.

Gráfico/inteligência inteira

Os 200.000 trabalhadores de meio período na plataforma estão distribuídos na África e no Sudeste Asiático, onde os custos trabalhistas são baixos e até formaram uma característica "aldeia de anotação de dados". Os dados que eles marcam apóiam a exploração de empresas de tecnologia em IA.

Na China, milhões de anotadores são distribuídos em cidades de segundo e terceiro nível em Guizhou, Shanxi, Shandong, Henan e outras províncias, e gradualmente penetram em condados com custos trabalhistas mais baixos. Eles contam com plataformas de crowdsourcing online ou se juntam a empresas de rotulagem de dados off-line e bases de rotulagem. **

O conteúdo da anotação é dividido em texto, imagem e voz de acordo com a cena, correspondendo às funções de auxílio à alfabetização da máquina, reconhecimento de imagem e audição de som.

Os primeiros projetos de anotação focados em empresas de Internet, principalmente anotando voz e texto. Agora, está se voltando para empresas autônomas para rotular cenas 3D obtidas por digitalização lidar, como rotulagem de nuvem de pontos; ou mais direções verticais de rotulagem de texto e voz: para ajudar as empresas de educação a fornecer dados de rotulagem auxiliares de ensino para modelos grandes; ou para instituições médicas O modelo grande fornece dados médicos agrupados.

Quando a IA entra na era 2.0, o ChatGPT surpreendeu investidores, empresários e empresários.A expectativa de todos para a IA não é apenas reconhecer informações de texto, voz e imagem rigidamente. As pessoas também esperam que a IA possa realmente entender a conexão entre coisas como humanos, reconhecer diferenças sutis e emoções por trás das ações e distinguir e coletar informações ativamente.

Por exemplo, deixe o carro autônomo distinguir um saco plástico vazio à sua frente, em vez de uma pedra de cor e tamanho semelhantes; deixe a câmera ao lado da piscina não mais apenas registrar o que aconteceu à beira da piscina, mas entender o que aconteceu, e quando alguém se afoga Alerta.

Estes ainda precisam confiar na anotação de dados e apresentar requisitos mais altos para anotação - mais vertical, mais preciso e mais econômico.

O surgimento do mercado de rotulagem também começou a partir disso.

2. "Existem muitos pedidos para atender"

É difícil ter dados que expliquem diretamente o aumento da demanda por novas anotações, mas não é difícil julgar. Porque somente no primeiro trimestre de 2023, a China adicionou 170.000 empresas de inteligência artificial e, desde que seja uma empresa que usa IA, certamente haverá uma demanda por rotulagem de dados.

A demanda se espalhou rapidamente para o mercado de rotulagem de dados. Na barra de postagens onde os profissionais de anotação de dados se reúnem, mais de uma dúzia de postagens de recrutamento de projetos podem ser atualizadas por dia, incluindo, entre outros, anotação de texto, revisão de tópicos, anotação de vídeo de vendas de drones, haste de detecção 2D, nuvem de pontos 3D, etc. itens para vídeos de texto para imagem.

Um rotulador de dados que está na indústria há muitos anos notou que os projetos de rotulagem de veículos não tripulados deste ano aumentaram, e o modelo de empreendedorismo em larga escala no campo vertical gerado pelo boom AI2.0 permitiu que os projetos de rotulagem de texto originalmente em declínio ser subdividido em diferentes faixas. , também aumenta a demanda por rotulagem de dados de nicho.

Impulsionado pela demanda, Daiyan não é o único que monta uma nova equipe para garimpar ouro. Zhang Wei, de Dongying, província de Shandong, também começou a se dedicar à rotulagem de dados no final do ano passado e se desenvolveu em uma pequena equipe de mais de uma dúzia de pessoas em meio ano. Contando com subsídios e apoio do governo local, a empresa de Zhang Wei não apenas conseguiu um escritório gratuito, mas o governo também ajudou a canalizar recursos do Partido A.

Há muitos pedidos de projetos, desde o projeto inicial de mais de 100.000 yuans até o último pedido de 400.000 yuans, a tarefa de entrega urgente tornou Zhang Wei mais ativamente procurando trabalhadores de rotulagem: alguns dias atrás, Zhang Wei comprou mais 6 computadores em apenas um dia.

Em Zhengzhou, Henan, uma plataforma de crowdsourcing para anotação de dados está se mudando para um prédio de escritórios de dois andares que pode acomodar 100 pessoas. Eles escrevem o posicionamento da empresa na placa na porta e no escritório: "Base de pesquisa e desenvolvimento de big data de inteligência artificial AI" "limpeza repetida de dados é para que sua IA seja mais inteligente".

“Há muitos pedidos para o projeto de rotulagem a ser feito”, disse o responsável.

A cerimônia de realocação de uma empresa de rotulagem de dados

Fonte da imagem/fornecida pelos entrevistados

O dinheiro quente também entrou nos bolsos das empresas de rotulagem por um longo tempo. Segundo os dados, o preço das ações da haitiana AAC, empresa líder, subiu até 4 vezes de março a maio deste ano.

De acordo com 36 notícias de Krypton, desde o início deste ano, mais de uma dúzia de plataformas de rotulagem de dados na rodada B e antes deram início coletivamente a altas avaliações com um aumento de quase 100%. Desde o segundo semestre do ano passado, as empresas de rotulagem automática têm obtido sucessivamente novos financiamentos.

Em setembro de 2022, a Borden Intelligence recebeu 10 milhões de yuans em financiamento; em dezembro, a Stardust Data concluiu seu financiamento A-round de 50 milhões de yuans. Já se passaram quatro anos e meio desde o último financiamento em junho de 2018.

Em abril de 2023, a empresa de soluções de rotulagem de dados "Kaiwang Data" recebeu uma nova rodada de financiamento estratégico; em junho, a empresa de dados de IA "Integer Intelligence" recebeu dezenas de milhões de rodadas de financiamento Pré A.

Eles estão cheios de entusiasmo para jogar slogans para substituir a rotulagem manual: "Reconstruir a produção de etiquetas de dados", "Linha de produção automatizada + mão de obra em grande escala", "Quebrar o modo manual de rotulagem de direção automática".

Obviamente, o mercado de capitais também está novamente atento a esse campo emergente.

3. Mais volume e mais rígido

A cadeia de rotulagem de dados consiste em três partes.

Upstream: empresas de rotulagem de dados com 1 a 150 funcionários, retardatários online e pequenos workshops.

Midstream: Provedores de serviços de dados, um é a plataforma intermediária de crowdsourcing que realiza upstream e downstream, e o outro é que as empresas optam por construir suas próprias bases de rotulagem para investimentos estáveis no setor.

Downstream: empresas de tecnologia, empresas da indústria, empresas de IA e unidades de pesquisa científica. As empresas de Internet dominaram por volta de 2018 e agora são transferidas para empresas de automóveis e empresas de direção autônoma.

A indústria geralmente adota um modelo de subcontratação, ou seja, a primeira empresa lança a licitação e a terceira prestadora de serviço participa da licitação. pode desfrutar do direito de escolher tarefas prioritárias e mais ordens.

Os requisitos da empresa para fornecedores principais são ter uma equipe de entrega de pelo menos 30 pessoas, experiência madura de entrega de pedidos, estabelecer um sistema de treinamento e capacidade de controlar a qualidade e a quantidade de entrega. Uma equipe de produção estável acaba levando a uma cotação baixa que torna a empresa mais competitiva.

No entanto, a vantagem de preço baixo trazida pela equipe de gerenciamento e controle foi interrompida. "A licitação deste ano é feroz!" Um provedor de serviços disse a "Jiazi Guangnian", "Nós oferecemos 200 yuans por um projeto e algumas pessoas oferecem 80 yuans por dia."

No final, o projeto foi ganho pela equipe de menor lance, mas acabou voltando para a equipe mais madura. "Eles foram transferidos de volta para nós pela Parte A quando não conseguiram terminar, mas o preço não podia mais subir."

Porque a equipe online de Daiyan não contata diretamente a Parte A. Portanto, a situação caótica de revestimentos multiníveis e preços de laminados no mercado os pressiona.

A rotulagem de dados é uma indústria baseada em recursos, e quem conseguir a cooperação com a Parte A terá uma vantagem. Dai Yan revelou que, após registrar uma empresa, alguns indivíduos alegaram falsamente que tinham uma equipe profissional de 40 a 50 pessoas e participaram da licitação por um preço muito baixo. eles para equipes diferentes. A equipe é dividida mais abaixo, e a comissão é coletada camada por camada. O intermediário ganha a diferença, e o preço da peça distribuído aos trabalhadores de rotulagem de dados está ficando cada vez mais baixo. **

Enquanto alguém pegar o prato, ele continuará caindo em espiral.

Uma lista de preços obtida por "Jiazi Guangnian" mostra que, desde a rotulagem 2D até a rotulagem de nuvem de pontos a laser 3D, o preço unitário dos itens de rotulagem é geralmente de 0,5 a 1,5 yuan por quadro. Dai Yan certa vez recebeu um preço de quadro único com um desconto de 50%, "pelo menos quatro ou cinco mãos foram transferidas".

**A introversão do preço unitário leva diretamente ao encolhimento do salário do pessoal de rotulagem. **A equipe de Daiyanhe é de meio período em período integral. A maioria dos membros da equipe são mães, estudantes universitários, freelancers e estudantes do ensino médio profissional. Eles trabalham 6 horas por dia. Mantendo esse estado, Daiyan terá uma renda mensal de 4 a 5 mil yuans durante a epidemia em 2022.

“Se você tem um computador e eletricidade, você pode operá-lo.” Esta é uma frase atraente comum em cartazes de recrutamento de rotulagem de dados. No passado, essa já foi a vantagem mais significativa da indústria de rotulagem de dados. Mas hoje essa vantagem fez com que toda a indústria caísse na involução. Agora, a renda mensal de Daiyan é de apenas 2 a 3 mil yuans.

Embora a renda tenha caído, a carga de trabalho não. Pelo contrário, o trabalho de rotulagem de dados é mais complexo e detalhado.

Os profissionais seniores de anotação de dados sentem falta do mercado de anotação na era da Internet: o preço de um único quadro é três vezes maior e o número de itens é grande. Uma equipe de 60 a 70 pessoas pode obter uma renda mensal de 300.000 yuans. "Agora o mercado está cheio de projetos com um valor de produção (o valor gerado por uma única pessoa por dia) de menos de 100 yuans, que costumava ser centenas de dólares por dia", disse um praticante.

Naquela época, a operação do projeto era simples e não havia requisitos, como marcar a cena 2D para o veículo não tripulado, e ao desenhar o quadro no veículo da foto, desde que pudesse ser enquadrado, não havia nenhum requisito .

**Mas agora é diferente. "Fitness" é o critério de aceitação mais importante para a Parte A. ** "No ano passado, o erro exigido era de 5 a 7 mm, e este ano será de 3 a 5 mm. O requisito de erro está ficando cada vez menor", disse Dai Yan.

O estudioso de inteligência artificial Wu Enda enfatizou repetidamente que o valor da inteligência artificial só pode ser liberado com dados rotulados de alta qualidade. Quanto mais dados de alta qualidade, mais rápido o desenvolvimento da inteligência artificial.

Nos dados rotulados de veículos não tripulados, é expresso como o grau de ajuste entre o quadro retangular e o objeto marcado. Quanto maior o grau de ajuste, maior a precisão do algoritmo e mais preciso o algoritmo pode controlar o veículo .

Itens de anotação de texto de alta qualidade são refletidos na correção da compreensão semântica e na taxa correta de respostas às perguntas. Quanto maior a taxa correta, mais inteligente será o modelo grande que está sendo treinado.

Mãos habilidosas podem garantir uma entrega de dados rápida e boa. Daiyan certa vez pediu a um novato para verificar se os problemas de matemática resolvidos pelo ChatGPT estão completos, se a lógica está correta e se o idioma pode ser entendido por alunos do ensino fundamental. Os 7.500 dados marcados pelo novato tiveram que ser retrabalhados pelo Grupo A porque a taxa de precisão era muito baixa. Dai Yan e seus colegas levaram mais de dez dias para corrigi-los.

A rotulagem de dados não é cada vez mais um trabalho sem limite. Anotação de voz complexa, produção de anotação de conjunto de dados médicos, legais, financeiros e outros profissionais requer profissionais com reservas de conhecimento do assunto para fazer anotação profissional.

Dai Yan acredita que, tomando como exemplo o projeto do veículo não tripulado, leva 3 meses para os recém-chegados se tornarem proficientes em rotulagem 2D e de 4 a 6 meses para se tornarem proficientes em rotulagem 3D.

Este tipo de exercício refere-se a treinar a precisão do desenho do quadro, usando o mouse para desenhar um quadro retangular na página de rotulagem do computador de uma só vez, que pode cobrir com precisão o objeto marcado, sem pisar na linha, sem perder pontos e mesmo sem problemas.

Especialistas em anotação de figuras/dados apontam os problemas na anotação

É que quando a máquina começa a aprender sozinha e substitui o humano para rotular a máquina, a habilidade que as pessoas gastam tempo treinando ainda é significativa?

4. Crise alternativa

Dai Yan percebeu que a IA estava se aproximando e foi no projeto de anotação de imagens que ele fez há algum tempo.

Este é um projeto antigo no qual Daiyan trabalha há dois anos - reconhecimento de mapas. Os rotuladores de dados precisam reconhecer o texto na imagem e imprimi-lo, o preço é de 8 centavos por peça. Os dados marcados em nome da extensão são inseridos no modelo de reconhecimento de imagem. O modelo agora é proficiente em reconhecer texto em imagens. O trabalho de rotulagem de Daiyan começou a ser reduzido à revisão e revisão. A dificuldade diminuiu e o preço unitário marcado também diminuiu.

** A IA treinada por humanos com rotulagem está substituindo o trabalho de rotulagem humana. **No relatório de pesquisa da Universidade de Zurique, os pesquisadores descobriram, por meio de medições reais, que a capacidade de processamento do ChatGPT em 15 tarefas de rotulagem é maior do que a dos crowdsourcers. **A barra de progresso da incorporação do modelo grande na plataforma de crowdsourcing também foi acelerada. **Pesquisa subsequente do Instituto Federal de Tecnologia em Lausanne descobriu que mais de 30% dos anotadores de crowdsourcing usaram modelos grandes ao processar anotações de texto.

A IA, sem dúvida, economiza mais tempo e mão-de-obra do que o trabalho manual: os pesquisadores disseram que o custo unitário do ChatGPT é equivalente a apenas 1/20 do MTurk.

A Daiyan também está preparada para que esta linha de negócios seja substituída por "IA mais perfeita" a qualquer momento. Ele apostou no futuro em rótulos de direção autônoma que exigem mais habilidade.

Mas a rotulagem de direção autônoma também está sendo invadida pela IA. Comparado com o método de desenho de quadro manual, a rotulagem automática requer apenas um modelo grande embutido. Após a configuração do parâmetro, o quadro retangular que originalmente exigia rotulagem manual será gerado automaticamente. O único problema no momento é que o quadro retangular gerado tem problemas de qualidade, como pisar na linha e baixo ajuste, o que requer inspeção manual um a um.

A melhoria na eficiência surpreendeu as montadoras. A Ideal está usando o grande modelo 2.0 para calibração automática, que é 1000 vezes mais eficiente que os humanos; A Tesla tem promovido ativamente o progresso da rotulagem automática, como o cancelamento de 200 vídeos de rotulagem da Tesla em junho de 2022 para melhorar o sistema de assistência aos funcionários americanos, porque a Tesla a capacidade de rotulagem automática foi bastante aprimorada, rotulando 10.000 vídeos com menos de 60 segundos, precisa apenas de um modelo grande para ser executado por uma semana, em vez de rotulagem manual por vários meses.

Lin Qunshu, fundador da empresa de dados de IA Integer Intelligence, disse que cada vez mais montadoras e empresas de AIGC usam modelos de produtos em larga escala para rotulagem automática, e sua receita está aumentando significativamente. Seu último movimento é estabelecer uma filial de pesquisa e desenvolvimento em Cingapura.

**No entanto, os provedores de serviços terceirizados não estão tão otimistas quanto ao crescimento da rotulagem automatizada. **O gerente de projeto de uma plataforma de crowdsourcing em Henan disse que a rotulagem automatizada não pode substituir mais de 60% dos requisitos de rotulagem e só pode ser usada como uma ferramenta de rotulagem auxiliar para processar dados únicos ou específicos e melhorar a eficiência humana.

O gerente de produto de outra empresa de rotulagem de dados acredita que a rotulagem automática só pode filtrar dados básicos simples e não pode identificar com precisão objetos de cenas complexas e controversas como humanos. Esta é também a razão pela qual o mercado de rotulagem de dados ainda é dominado por dados de rotulagem de direção autônoma.

No entanto, todos concordam que a futura rotulagem de dados passará da mão de obra para a tecnologia.

Em suma, ser "espremido até a morte" pelos colegas ou "espremido até a morte" pela tecnologia. Mas definitivamente não é possível ficar parado, e as empresas terceirizadas que marcam os dados estão procurando uma saída no futuro.

O plano da Daiyan é acompanhar o mercado, manter-se vigilante, demitir funcionários a qualquer momento e, ao mesmo tempo, desenvolver uma ferramenta de rotulagem automatizada. O fundador de uma plataforma de crowdsourcing disse ao se comunicar com seus pares que, no futuro, não devemos acumular mão de obra, mas devemos ter capacidade de pesquisa e desenvolvimento.

E os indivíduos? A carreira circulada na indústria é que rotuladores experientes-rotuladores experientes-rotulando administradores de projetos/gerentes-parte A analistas de dados da empresa e, finalmente, alcançar uma promoção com um salário mensal de dezenas de milhares.

Nenhum dos rotuladores de dados que Dai Yan conhecia estava indo nessa direção. Eles permaneceram onde estavam ou desistiram. O melhor caso era construir sua própria equipe de rotulagem como Dai Yan fez, mas ele não se sentia mais fácil.

Por um lado, há o aumento na demanda de projetos provocado pela tendência da IA e, por outro lado, há licitações mais caóticas, menor valor de produção per capita e IA em rápido crescimento. As duas emoções estão interligadas, a IA trará oportunidades infinitas e a IA também eliminará "nós".

(A pedido dos entrevistados, os nomes no artigo são todos pseudônimos)

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)