Dobramento de grande modelo de IA: os dados indicam que a renda mensal dos "trabalhadores migrantes" não passa de 5.000, e o preço unitário cai de 5 centavos para 4 centavos

Fonte original: Tech Planet

Fonte da imagem: gerada por Unbounded AI

Zheng Wen ainda se lembra daquela tarde de alguns meses atrás. Naquele dia, ela ganhava 20 centavos por hora. Ela se formou em uma faculdade em Hunan e é uma grande anotadora de dados de modelos. Seu trabalho diário não é complicado - adicionar rótulos aos dados brutos (como imagens, vídeos, textos, etc.) que ela recebe.

No entanto, modelos grandes têm requisitos de qualidade de dados muito elevados. Naquele dia, uma imagem foi revisada oito vezes antes de ser aprovada. Todo o processo de revisão levou uma hora. Em outras palavras, ela ganhava apenas 2 centavos por hora, enquanto em circunstâncias normais poderia ganhar 12 yuans e puxar 600 caixas. “Dinheiro não é fácil de ganhar”, ela enfatizou repetidamente.

Este é o consenso de quase todos os profissionais de anotação de dados. Uma extremidade da anotação de dados traz o salário mensal dos praticantes, que custam menos de 5.000 yuans. Eles constroem a pedra angular do grande modelo como um exército de formigas. Do outro lado está o sonho de IA das grandes empresas de Internet, que esperam superar o Chat GPT 4.

A anotação de dados usa o sistema de taxa por peça mais primitivo para calcular os salários e não há intrigas no local de trabalho. O único problema é que esse trabalho chato torna difícil para a maioria deles persistir por três meses. E, quase todo mundo disse à Planet Tech, é melhor você não ir.

Mas o que eles não sabem é que a maioria deles poderá perder em breve seus empregos chatos. Porque essas simples anotações de dados serão substituídas pela IA.

De 5 centavos para 4 centavos, o preço despencou

Lin Shuang ganhou muito “dinheiro rápido” em 2017: mais de 6.000 yuans em 15 dias. Para Lin Shuang, que se formou na faculdade, essa renda é realmente considerável. Naquela época, as expectativas das pessoas em relação à IA disparavam. Quase ninguém duvidava do seu futuro. Todas as instituições de investimento acreditavam firmemente que empresas com uma escala de bilhões, dezenas de bilhões ou mesmo centenas de bilhões poderiam nascer aqui.

Por trás de quase todas as tecnologias de IA está a competição entre algoritmos, poder de computação e cálculos. Enormes dados são a camada inferior da excelência técnica. Programadores com experiência brilhante sentam-se em escritórios em "Pequim, Xangai e Guangzhou" e desenham projetos de IA por meio de algoritmos de iteração de código, enquanto estudantes universitários, mães, etc. cidades de quarto nível. espere.

ChatGPT não é exceção. Um funcionário da equipe do projeto Baidu Wenxinyiyan disse que o grande modelo em si não possui nenhuma tecnologia nova, nem possui grandes barreiras técnicas.A questão principal é a barreira de parâmetros formada pela barreira de poder computacional.

Os anotadores de dados na era dos modelos grandes não são particularmente diferentes daqueles do passado.As poucas diferenças podem ser um ambiente de escritório mais confortável e requisitos mais elevados de qualidade de anotação. Um profissional de anotação de dados disse ao Tech Planet que, quando entram no setor, geralmente formam uma equipe de cerca de 10 pessoas, uma das quais é responsável pela inspeção de qualidade. Se o trabalho não estiver de acordo com o padrão, o funcionário será enviado de volta para Refazer. A qualidade dos dados determina a qualidade de grandes modelos.

Os trabalhadores migrantes de dados não se preocupam com quaisquer novos ramos da tecnologia de IA. Eles se preocupam mais com o preço unitário, porque os salários aqui são calculados peça por peça.

“Naquela época, quando o preço unitário era alto, um quadro 2D custaria mais de 1 centavo. No meu auge, trabalhei por mais de 10 horas e ganhei mais de 600 yuans por dia”, lembrou Lin Shuang. No entanto, este não é o mais alto. Um anotador disse que o preço dos primeiros desenhos de quadros 2D poderia chegar a até 50 centavos.

O desenho do quadro é uma operação comum na anotação de dados. O anotador marca os objetos da imagem, como veículos, semáforos vermelhos, obstáculos, etc., de acordo com os requisitos. Os frames são divididos em 2D e 3D, este último será mais caro.

Mas essa popularidade não durou muito. Com o influxo de mais e mais pessoas e o desenvolvimento geral da indústria de IA não indo bem, o preço unitário da anotação de uma imagem está cada vez mais baixo. Lin Shuang disse que o preço mais baixo agora custa apenas 4 centavos.

“Se for pull-frame, o preço unitário médio do setor fica em torno de 0,15 yuan, mas ainda depende do projeto. Se você puder receber pedidos, o requisito mínimo para receber um pedido em primeira mão deve ser de 100 funcionários. a escala é bastante grande e o quadro 3D pode custar 30 centavos por peça, mas é raro chegar a 50 centavos.”

Claro, se você tiver conhecimento profissional nas áreas médica e financeira, o preço unitário será maior. Por exemplo, muitos modelos médicos de grande porte exigem que os anotadores tenham conhecimentos clínicos e experiência relevante.

A renda mensal da maioria dos praticantes não passa de 5.000 yuans, e também há alguns sortudos entre eles. Yang Shuo originalmente administrava uma loja de roupas em Sichuan, mas a epidemia afetou seus negócios. Ele fez a transição para a anotação de dados de modelo em grande escala este ano. Agora, ele tem uma renda de 8.000 yuans por mês. “Assinei um contrato com a empresa e paga A taxa de franquia é de 9.500 yuans e o contrato estabelece que a renda mínima mensal é de 7.000 yuans.

Quem ganhou o dinheiro

Gigantes da Internet como Alibaba, Tencent e Byte, bem como empresas automobilísticas como SAIC e Lynk & Co, são as fontes de distribuição de negócios de anotação de dados.Se você deseja obter pedidos diretamente da fonte com o melhor preço, a anotação de dados as empresas precisam ter uma certa escala.

Um funcionário de uma empresa de anotação de dados disse ao Tech Planet que eles recebem pedidos diretamente de grandes fabricantes, mas os grandes fabricantes exigem que tenham 500 pessoas, então optarão por atender às necessidades de pessoal por meio de franquias ou subsidiárias.

A diferença entre os dois é que a franquia é adequada para quem é novo no setor montar um estúdio. Se você deseja abrir uma subsidiária, geralmente há apenas uma em uma região. O Xiaobai Studio precisa cobrar uma taxa de franquia, que é de 25.000 ou 30.000. A subsidiária é agente exclusivo em uma região e precisa pagar uma taxa de 50 mil. E podem garantir encomendas suficientes no prazo de três anos e ser responsáveis pela formação técnica no prazo de três anos.Estes estúdios ou subsidiárias formam um grande sindicato, que varia de várias centenas a vários milhares.

Os funcionários da empresa de anotação de dados mencionada acima disseram que a popularidade dos grandes modelos mais uma vez levou a indústria de anotação de dados à loucura e agora as pessoas visitam suas empresas quase todos os dias.

Mas, na verdade, administrar uma empresa de rotulagem de dados não é fácil. O que a empresa de anotação de dados diz é que esse setor é difícil de fazer nos primeiros 1 a 2 meses porque os funcionários precisam de um período de aceleração. No estágio inicial, apenas 5 a 8 pessoas são suficientes, e até mesmo uma tia nela 40 anos não terão problemas.

A estabilidade é o fator mais importante para uma empresa ou estúdio de anotação de dados. No entanto, a maioria dos funcionários de anotação com quem a Tech Planet entra em contato muitas vezes deixam seus empregos na velocidade da luz dentro de 3 meses devido ao tédio. Novos funcionários não estão imediatamente disponíveis para operações práticas. O resultado da alta rotatividade de pessoal é que a qualidade e o ciclo de anotação de dados não são suficientemente estáveis. As mães que estão com pouco dinheiro são as pessoas mais populares nos estúdios de anotação de dados.

"Definitivamente não é possível encontrar um emprego de meio período. Haverá lacunas. Se você investir em aluguel e computadores, perderá dinheiro. A melhor maneira é ter todos os funcionários trabalhando", disse Wei Ming, que administrou um estudo de dados. estúdio de anotação, disse ao Tech Planet.

A maior parte dos dados indica que o ciclo de reembolso da empresa começa em 3 meses e pode ir até meio ano, mas necessita de pagar mensalmente aos seus colaboradores, o que exige um certo grau de reservas de capital. "3500 por pessoa, 100 pessoas, 3 meses é 1,05 milhão."

Zhang Jian certa vez se filiou a um sindicato com mais de 200 funcionários. No primeiro ano, eles acompanharam o período explosivo da indústria, e o preço unitário do desenho de molduras 2D chegou a 5 centavos. Naquele ano, seu sindicato ganhou mais de 4 milhões.

Mas no ano seguinte as coisas pioraram. O preço unitário marcado diminuiu, os funcionários tornaram-se mais móveis e o período de intervalo aumentou. Além disso, dois grandes projetos não foram resolvidos. Depois de um ano inteiro, eles perderam mais de 3 milhões de yuans. “Os chefes disseram que não vão mexer na anotação de dados no curto prazo”, disse Zhang Jian.”Eles estão atualmente em um processo judicial com o upstream.”

Este é um negócio de baixa margem. Haitian Ruisheng é a primeira empresa listada no conselho do setor de anotação de dados.No ano passado, a empresa teve receita de 263 milhões de yuans, lucro de apenas 29,45 milhões de yuans e margem de lucro líquido de pouco mais de 10%. Mas no primeiro semestre deste ano, a empresa sofreu prejuízos devido à queda no número de clientes.

"Parafusos" que podem ser substituídos a qualquer momento

Baseando-se na acumulação de formigas que se deslocam no Quénia, a OpenAI finalmente destacou-se pelas suas capacidades de modelo de diálogo linguístico em grande escala. Essas pessoas comuns, chamadas de trabalhadores de dados, apoiam o sonho de IA de Sam Altman (o fundador da OpenAI), mas se nada mais acontecer, a maior parte do trabalho em suas mãos será em breve substituída pelos novos produtos dos quais participaram na criação. substituído.

No exterior, a Anthropic, fundada em 2021 por ex-funcionários da Open AI, arrecadou US$ 5,15 bilhões este ano, mais de sete vezes o seu financiamento total nos últimos dois anos. A empresa oferece uma nova forma de treinar modelos com menos envolvimento humano.

Este ano, a startup AI Refuel lançou uma ferramenta de código aberto chamada Autolabel, que pode usar grandes modelos convencionais do mercado para rotular conjuntos de dados. Os resultados dos testes da empresa afirmaram que a eficiência da etiquetagem Autolabel é 100 vezes maior do que a etiquetagem manual e o custo é de apenas 1/7 do custo da mão de obra.

Na China, uma empresa chamada Vision Future também está construindo modelos de anotação em larga escala. Em entrevista, disseram que alguns projetos foram entregues em GPT e a precisão chegou a mais de 80%, o que se aproxima do trabalho manual.

No entanto, o haitiano Ruisheng acredita que a IA não alcançará a anotação totalmente automatizada, porque se a máquina quiser continuar a evoluir e torná-la mais próxima do julgamento e compreensão humanos, certamente precisará de orientação humana.

Quase todos os envolvidos na anotação de dados revelaram o mesmo ponto de vista ao Tech Planet: a anotação de dados é um trabalho sem limites e requer apenas que você seja proficiente no uso de computadores.

Mas, na verdade, se a anotação simples puder ser concluída com IA, a participação manual será mais difícil na triagem de dados e no trabalho padrão, o que também significa que o limite da indústria continuará a aumentar, especialmente ChatGPT, Wen Xinyiyan Um grande modelo de linguagem para Aulas.

Para efeito de comparação, muito antes de o ChatGPT se tornar popular, a OpenAI organizou mais de uma dúzia de estudantes de doutorado para "marcar". A base de anotação de dados do Baidu em Haikou tem centenas de anotadores de dados de grandes modelos em tempo integral, e a taxa de graduação de anotadores chega a 100%.

A característica desse tipo de modelo de linguagem grande é que o anotador precisa ter certa reserva de conhecimento e capacidade de análise lógica. De acordo com o relatório "Financial Eleven", os anotadores precisam determinar o tipo de pergunta e, em seguida, pontuar e classificar as cinco respostas, respectivamente. A faixa de pontuação é de 0 a 5 pontos. Se a pontuação for inferior a 3 pontos, os motivos específicos devem ser apresentados. ser observados, como "A resposta não é o que a pergunta foi feita (0 pontos)", "seriamente fora do assunto (1 ponto)", "há problemas lógicos e erros factuais, e a proporção é pequena e 2 pontos são dado", etc.

Outra área popular de anotação de dados é a direção autônoma. De acordo com um relatório da Deloitte, a procura de rotulagem no domínio da condução autónoma representará 38% de todas as aplicações a jusante de IA em 2022, e espera-se que a proporção aumente para 52% até 2027. Em comparação com os grandes modelos de linguagem, para os modelos no campo da condução autônoma, essas operações simples de puxar a caixa ainda apresentam requisitos acadêmicos relativamente vagos.

Os anotadores são a pedra angular da humanidade desde a era da Internet móvel até a era da inteligência artificial. A maioria dos profissionais com quem o Tech Planet entrou em contato não sabe as mudanças que a IA lhes trará, nem as contribuições que fizeram para o desenvolvimento de AI Eles são apenas uma nova geração de parafusos na era da Internet e podem ser substituídos a qualquer momento.

(Observação: todos os personagens do artigo são pseudônimos.)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)