Au premier semestre de cette année, les cercles technologiques des villes de premier rang ont été activés par l'intelligence artificielle.
Des modèles à grande échelle tels que Wenxin Yiyan, Tongyi Qianwen et Light Years Away envoient des vagues d'enthousiasme. Les gros bonnets avec des ressources de haut niveau sont au cœur de ce grand événement. Ils ont envoyé des messages de héros les uns après les autres. la bataille pour le talent des grands modèles est également sur la table.
Maillon étroitement lié à la chaîne de l'industrie de l'IA, la base de l'industrie des données de Taiyuan dans le Shanxi, à 500 kilomètres de Pékin, est calme et rassemble des milliers d'étiqueteurs d'intelligence artificielle. Les sujets dont ils parlaient restaient sur l'avancement du projet, le rythme de mise au standard de la boîte, et les trois repas par jour.
"L'excitation est la leur, et nous n'avons qu'un nombre incalculable de boîtes", a déclaré un étiqueteur de données à Times Finance.
Dans la mémoire de He Qing, le propriétaire de la société d'étiquetage des données, l'excitation s'est produite il y a quatre ou cinq ans. Pour la première fois, la brise printanière de l'intelligence artificielle a soufflé sur cette ville du Midwest. Des hommes d'affaires sensibles ont commencé à dessiner un territoire et à recruter des personnes, fournissant un flux constant de "nutrition" pour l'intelligence artificielle. La plupart d'entre eux sont des profanes de l'intelligence artificielle, en raison de l'énorme demande de main-d'œuvre soudaine, ils ont une merveilleuse connexion avec la technologie de pointe.
"A cette époque, de nombreux patrons amenaient tous les membres de leur famille ici, et ils pouvaient gagner de l'argent en bougeant simplement leurs doigts." He Qing a entendu beaucoup de nouvelles passionnantes dans l'industrie de l'étiquetage des données - certaines personnes gagnent des millions en trois mois, et autres Les commandes saisies peuvent être mises en file d'attente jusqu'à la deuxième année.
Mais ces beaux jours s'estompent peu à peu.
"Pipeline" décente
À 8 h 45 du matin, une foule dense de personnes a bloqué l'entrée de l'ascenseur. Seul un tiers des personnes se sont entassées dans le premier ascenseur et la destination finale de tout le monde était au sixième étage.
La porte de l'ascenseur s'ouvrit lentement, et la foule se répandit dans toutes les directions, et pénétra dans des bureaux où il n'y avait aucune différence.L'espace d'environ 100 mètres carrés était rempli de centaines d'ordinateurs.
"Tant que vous suivez le numéro de la maison et demandez un par un, tout sera marqué avec des données." Le vendeur au rez-de-chaussée du parc l'a décrit de cette façon.
Cette base d'étiquetage de données, qui a attiré près d'un millier de personnes, ressemble à un cybercafé caché dans le parc.Des personnes assises devant les ordinateurs cliquent habilement sur le clavier et la souris, et les bureaux d'environ un mètre carré sont occupés par d'énormes ordinateurs.
Source de l'étiqueteuse de données au travail : Photo par Times Finance
La seule chose qui puisse montrer leur individualité, ce sont les écouteurs colorés qu'ils portent sur la tête. Ils ont une identité commune : les étiqueteurs de données.
La souris a cliqué sur les boutons gauche et droit d'avant en arrière, et les images à l'écran ont fait un zoom avant et arrière, et le curseur a rapidement dessiné des cadres de différentes tailles... Après que les actions répétées aient duré une demi-heure, Meiling s'est légèrement tordu le cou , et les os de sa colonne vertébrale grinçaient.
"C'est suffisant pour que les nouveaux arrivants passent la première semaine, et on s'y habitue rapidement", a déclaré Meiling à Times Finance tout en fixant l'écran. Le nombre de personnes qui abandonnent la première semaine peut atteindre 30 %. .
Toutes les deux semaines, Mme Zhou, la contremaîtresse, amènera plus d'une douzaine de nouveaux arrivants à commencer leur apprentissage.Un tel travail répétitif et ennuyeux a dissuadé de nombreux jeunes.
Il y a deux ans, Meiling est passé d'enseignant de maternelle à étiqueteur de données. Dans sa ville natale, Luliang, il y a peu d'emplois et le télémarketing est l'une des destinations les plus respectables.Maintenant, sous l'influence de la vague d'intelligence artificielle, les étiqueteurs de données offrent un autre choix aux femmes du comté.
Il y a six mois, en raison du changement de la base d'étiquetage, Meiling a déménagé de sa ville natale à Taiyuan, la capitale provinciale. "La conduite automatique ou la reconnaissance faciale ne nécessitent pas la participation d'étiqueteuses à grande échelle." Elle a montré un regard fier. Aux yeux de sa famille, assise dans un bureau et faisant fonctionner un ordinateur, avec un revenu mensuel de plus de 3 000 yuans , le traitement a dépassé la plupart du comté. Travaille déjà.
En 2005, Zhu Songchun, un expert en vision par ordinateur, est retourné dans sa ville natale d'Ezhou, Hubei des États-Unis, a fondé l'Institut de recherche Lianhuashan et a formé la première équipe d'étiquetage de données volumineuses en Chine. Par la suite, des usines d'étiquetage des données ont progressivement pris racine dans les villes de deuxième et troisième rangs, et des grappes industrielles sont apparues dans le Hebei, le Henan, le Shandong, le Shanxi et d'autres régions.
Grâce à une formation répétée sur les étiquettes, l'intelligence artificielle peut atteindre le moment de "l'éveil".Selon Meiling, c'est la même chose que le travail précédent des enseignants de maternelle.
L'étiquetage des données est le premier maillon de la naissance des produits d'intelligence artificielle, suivi de l'entraînement et de l'optimisation des modèles, de la gestion des modèles, des applications de raisonnement, etc. L'alimentation des produits d'intelligence artificielle nécessite des centaines de millions de données, qui vont d'abord affluer vers les ordinateurs des « belles ».
Cependant, le fantasme de "haute technologie" de Meiling est peu à peu brisé par le son répétitif de la souris mécanique. Elle a calculé que 1 500 images est la limite de la charge de travail quotidienne.Une fois cette ligne d'avertissement franchie, les globes oculaires seront douloureux.
Après avoir quitté le travail, même face à la télévision, ce qu'elle voit est une mosaïque en mosaïque, qui ressemble à des images floues qui doivent être marquées après un zoom avant.
"Il y a toujours des visages inconnus au siège voisin, et il y a peu de communication entre collègues." Après un an et demi de travail, Wu Xia, qui travaille dans la même base, ne s'est pas encore habitué au silence du bureau. .
Après avoir obtenu son diplôme d'études collégiales, elle est entrée à l'origine dans l'usine avec ses camarades de classe, mais à cause des changements de projet et du départ de ses camarades de classe, elle est devenue une "garde solitaire". Dès le début des travaux, le bureau est devenu un "atelier" où la chaîne de montage automatisée a commencé, avec une ambiance industrielle froide et peu humaine.
L'une des caractéristiques de l'industrie de l'étiquetage des données est le comptage individuel des pièces et l'absence de travail d'équipe, ce qui constitue un mode de gestion différent de celui des cols blancs ordinaires.
Ici, les étiqueteurs n'ont pas de position fixe, mais affectent aléatoirement des centaines de personnes au sens du flux en fonction des évolutions du projet. Le projet le plus long dure 2 à 3 mois et le projet à court terme ne dure que 2 à 3 jours. Une équipe de projet de plus d'une douzaine de personnes a un administrateur pour surveiller l'avancement du travail de chacun.
Les annotateurs ne dépenseront pas leur énergie à gérer la relation entre collègues. Le travail à la pièce accorde une attention à l'efficacité et à la concentration, et le temps et l'argent sont liés. Compléter une moyenne de 1 000 trames signifie qu'une moyenne de 2 trames doit être complétée par minute.
"Lorsque vous parlez aux autres, vous perdrez quelques caisses d'argent", a déclaré Meiling.
Les employés de Foxconn se rendent à l'usine d'étiquetage
Dans le parc d'étiquetage des données, il existe également des instituts de recherche technologique dispersés et des bases entrepreneuriales pour les étudiants étrangers. De l'avis de Meng Ran, ces postes "haut de gamme" sont loin de lui.
Avant d'entrer à l'université, il n'a jamais quitté sa ville natale de Linfen. Après avoir obtenu son diplôme universitaire, sa famille espérait qu'il ne quitterait pas la province. À deux kilomètres de la base se trouve le parc industriel scientifique et technologique de Foxconn Taiyuan. Cette zone industrielle absorbe la main-d'œuvre locale la plus active : à son apogée, près de 60 000 personnes s'activent sur la chaîne de montage de la zone industrielle.
Peu importe ses efforts, le rayon de recherche d'emploi de l'étudiant Meng Ran n'a jamais dépassé 5 kilomètres. Il est passé une fois de la deuxième phase de la base d'étiquetage des données à la troisième phase ; avant de devenir officiellement étiqueteur de données, Foxconn à côté était l'endroit où il a brûlé sa jeunesse.
La source du parc Foxconn à moins de 2 kilomètres de la base d'étiquetage des données : Photo par Times Finance
Meng Ran est entré une fois dans l'usine pour deux vacances consécutives pour gagner de l'argent, et à chaque fois il est parti précipitamment après avoir reçu un salaire de plusieurs milliers de yuans.
Toutes les vacances d'hiver et d'été, l'entrée du campus de Foxconn est pleine d'étudiants avec de gros sacs et de petits sacs, et l'objectif de chacun est d'obtenir le rabais et le tarif horaire les plus élevés de toute l'année. "Tout le monde vient ici pour gagner de l'argent rapidement, et ils font leurs valises et partent dès que la haute saison est terminée. L'usine est trop occupée pour travailler, et il est difficile de s'y tenir longtemps."
Meng Ran n'aimait pas l'ambiance de travail chez Foxconn. Avant d'entrer dans l'atelier, l'équipement électronique doit être remis, et la seule chose à laquelle il reste à faire face chaque jour est la foule d'ouvriers se précipitant dans des vêtements similaires et le bâtiment de l'usine morne et froid. Lorsque vous rencontrez un chef d'équipe grincheux, il est courant que vous soyez insulté tous les jours.
Avec le rugissement de la chaîne de production qui démarre, les travailleurs doivent installer une certaine pièce en continu, et ces actions durent souvent plus de 10 heures. Dans un espace complètement clos, même la transe est un luxe. Meng Ran n'a pas osé avoir quelques mots avec les ouvriers autour de lui jusqu'à ce que le contremaître détende un peu sa direction.
En 2018, après l'achèvement de la base d'étiquetage des données à proximité, Meng Ran a eu un deuxième choix pour son travail. Juste à un pâté de maisons, il y a un travail plus confortable à portée de main.
Faye Wong était recruteuse pour Foxconn. La saison creuse de l'usine et les changements de personnel, associés à des rabais ambigus et à de fréquents changements de revenus, la font souvent tomber dans des conflits sans fin avec les travailleurs migrants.Les annotateurs sont un meilleur choix pour elle.
"Au cours des dernières années, le seuil d'étiquetage des données était bas et le prix unitaire était élevé. Je pouvais maintenir un revenu mensuel de 4 000 yuans, et les projets que j'ai réalisés étaient tous liés à de grandes usines, ce qui était relativement sûr. " Faye Wong a vu de nombreux travailleurs qualifiés quitter la base pour chercher un autre emploi À l'écart, mais revenir en cercle.
De nombreux annotateurs ont des trajectoires de travail similaires à celles de Meng Ran. L'expérience de travail dans les usines d'électronique est le point commun de leurs CV, et l'usine d'annotation de données est devenue leur prochaine étape après avoir quitté la fonderie électronique.
Les caractéristiques communes d'un grand nombre de travailleurs, de revenus considérables et d'un fonctionnement simple ont permis de construire virtuellement un pont de deux kilomètres reliant les deux super usines.
Projets et entreprises disparus
Pour les étiqueteurs, un sentiment intuitif est que les bons moments touchent à leur fin.
Le projet avec un prix unitaire de quelques centimes a disparu, et le prix d'une boîte d'étiquettes a été réduit à quelques centimes ; la simple boîte de dessin de point de dessin plan a disparu, remplacée par un projet de nuage de points qui nécessitait un étiquetage multidimensionnel ; employés réguliers a progressivement quitté l'équipe de projet et les stagiaires rentables de Taller ont pris en charge plus de la moitié de la charge de travail.
He Qing, la propriétaire de la société d'étiquetage des données, n'est pas venue à la base depuis six mois et elle a progressivement réduit son investissement dans l'entreprise.
Depuis le second semestre de l'année dernière, son équipe n'a jamais été en mesure de recevoir des projets avec des commandes clients élevées, et la période de facturation client a été retardée de trois mois à six mois. "De nombreuses petites usines avec des flux de trésorerie insuffisants et aucune capacité à avancer des capitaux ont fermé, et les membres de notre équipe ont perdu un tiers."
Il y a trois ans, l'enthousiasme de Li Wei a été déclenché par le cadre de la légende.Elle était lente et pas bonne en communication, et elle sentait qu'elle avait trouvé un emploi "choisi".
Li Wei a repris le projet avec un prix unitaire de 0,25 yuan. Lorsque l'efficacité était élevée, elle pouvait dessiner 1 200 images par jour et gagner près de 8 000 yuans par mois. "Afin de gagner plus d'argent, quelqu'un a acheté un hôte et a commencé à travailler Si vous devenez compétent, vos revenus augmenteront.
Comme tout le monde, Li Wei sentait vaguement que l'ère de la ruée vers l'or était terminée.
La société a lancé un tout nouveau projet. Ce qui est présenté devant nous n'est plus une feuille de route du monde réel, mais une carte modèle composée de milliers de points verts, violets et bleus. Une image complète comprend Il y a près de une centaine de cases cochées, et un ensemble de questions est composé de dizaines d'images avec seulement des différences subtiles.
Source du schéma d'interface de fonctionnement compliqué : fourni par l'interviewé
"Il est nécessaire de basculer à plusieurs reprises entre la vue en plan et la 3D. Certaines images bloquées doivent être complétées par le cerveau, et la précision du cadre doit également être contrôlée à 0,01 mètre. Le rapport coût-performance des travaux diminue et plus bas." Tant que l'écart par rapport à la plage requise est de 1 mm de plus, Ils seront impitoyablement repoussés par l'examen.
Les données, la puissance de calcul et les algorithmes sont les trois pierres angulaires de l'intelligence artificielle. Plus la quantité et la qualité des données sont importantes, plus les grands modèles peuvent souvent être entraînés à maturité, ce qui se manifeste dans le travail des annotateurs qui améliorent constamment leur précision.
"Les règles ont été ajustées ces derniers jours, et l'exigence de précision a été portée à plus de 80%." La précision est devenue le "point de mort" des étiqueteurs, et c'est aussi un vocabulaire à haute fréquence qui apparaît lorsqu'ils se plaindre.
Une image marquée doit passer par 2-3 étapes telles que l'examen et l'inspection de la qualité, sinon elle ne peut pas entrer dans le cycle de règlement.
Parfois, Wu Xia avait l'impression d'être piégée dans un labyrinthe compliqué, et elle ne pouvait pas sortir quoi qu'il arrive. Elle avait été ravagée par un nouveau projet pendant près d'une semaine - tout en soumettant les questions, elle était constamment rappelée, ce qui la faisait sombrer dans l'anxiété. "Si la question revient trop souvent, elle sera attribuée à d'autres personnes et l'énergie précédente sera vaine."
L'anxiété de Meng Ran était d'un autre genre. Depuis août de l'année dernière, son travail est devenu plus détendu. Au cours des 5 dernières minutes, des dizaines de milliers de données ont été accumulées et il n'y aura plus de ligne rouge de charge pendant une demi-heure.
"Il se peut que la quantité de données sur la plate-forme ait diminué, ou que l'efficacité de l'examen des machines ait augmenté." Le sentiment d'insécurité de Meng Ran s'est rapidement confirmé. En raison de la réduction forcée de sa charge de travail, son revenu quotidien est passé de un à deux cents yuans à quelques centaines de yuans, soit des dizaines de dollars.
Une course à élimination directe s'est propagée parmi les grandes agences. Meng Ran a vu une équipe se dissoudre du jour au lendemain, et plus d'une douzaine d'employés qui devaient des salaires ont poursuivi l'entreprise auprès du bureau du travail ; si la situation s'améliorait un peu, ils seraient transférés à l'agent suivant avec l'ordinateur et les employés.
"Pour être sûr, allez dans une équipe de plus de 30 personnes." C'est le conseil de Meng Ran aux nouveaux arrivants.
Annotator quitte l'étape de l'historique
Après une semaine de formation et une période de novice d'un demi-mois, en mai de cette année, Xiaoting, qui était dans le Hunan, s'est finalement adapté pour devenir un étiqueteur de données, mais a été témoin du déclin rapide de l'entreprise jusqu'à sa disparition.
"Après un mois d'emploi, l'entreprise ne pourra pas survivre. Le patron offre à tout le monde un repas de rupture, mais le salaire devra attendre quelques mois. " Selon Xiaoting, l'industrie actuelle de l'étiquetage des données est pleine de "mines terrestres", et le risque est bien supérieur au revenu.
Qu'il s'agisse d'un entrepreneur en étiquetage de données ou de dizaines de milliers d'étiqueteurs, il n'y a aucun moyen d'éviter le fait que l'étiquetage manuel des données devient progressivement insignifiant sur la scène des modèles à grande échelle.
Ce qui est différent du travail d'enseignant préscolaire de Meiling, c'est que les élèves ne prendront pas le travail d'enseignant si rapidement. Aujourd'hui, la technologie des grands modèles alimentée par les étiqueteurs réinjecte rapidement le processus d'étiquetage des données.
En prenant Tesla comme exemple, il a continuellement développé une technologie d'étiquetage automatique depuis 2018, de l'étiquetage manuel 2D à l'étiquetage automatique de l'espace 4D. L'avancement de la technologie a dévoré l'espace d'exploitation de l'étiquetage manuel.En 2021, l'équipe d'étiquetage manuel de Tesla dépassera les 1 000 personnes et en 2022, plus de 200 employés seront licenciés.
D'autres constructeurs automobiles, dont Xiaopeng Motors et Momo Zhixing, ont également lancé des outils d'étiquetage automatique. Gu Weihao, PDG de Momo Zhixing, a déclaré publiquement qu'actuellement, pour obtenir des lignes de voies, des participants à la circulation et des informations sur les feux de circulation, le coût de l'étiquetage manuel est d'environ 5 yuans par image, tandis que le coût de Momo DriveGPT n'est que de 0,5 yuan.
En 2019, Wu Di, formateur en données IA dans une ville de premier rang, pressentait le plafond de sa carrière.Son entreprise est chargée de développer le projet de service client intelligent de la plateforme e-commerce. Les progrès ont été plus rapides qu'il ne l'avait imaginé : en moins d'un an, l'équipe d'étiquetage des données de 10 personnes dont il était responsable a été coupée et il ne restait plus que des opérateurs sporadiques.
"Le jour où le projet continue à mûrir, c'est quand on n'a plus besoin de nous."
L'évolution du grand modèle est comme une rivière qui se précipite, faisant toujours une attaque surprise à un certain moment, laissant derrière elle l'équipe artificielle.
Dans un rapport d'enquête de l'Université de Zurich en mars de cette année, les chercheurs ont découvert, grâce à des mesures réelles, que la capacité de traitement de ChatGPT dans 15 tâches d'étiquetage était supérieure à celle des crowdsourcers.
Au début du mois d'avril de cette année, Li Jie, étudiant en médecine à l'école, a achevé en un mois l'étiquetage textuel d'une grande usine dans le domaine médical. Ce projet sera utilisé pour fournir des services de diagnostic et de dialogue intelligents. Cela a également permis à Li Jie ressent pour la première fois l'évolution des grands modèles.
"Au début, nous avons continué à alimenter la plate-forme avec des termes médicaux classifiés, et la deuxième semaine, le système a pu réaliser automatiquement la classification des noms de base, et le taux de précision a dépassé 90 %."
À Taiyuan, Shanxi, Mme Zhou, contremaître de la base, a commencé à persuader les nouveaux venus de prendre en charge des projets plus difficiles, car il était difficile pour l'entreprise de supporter la pression des projets mis de côté encore et encore. "À l'heure actuelle, plus l'entreprise d'étiquetage est simple, plus les bénéfices sont faibles, et certains projets seront jaunes s'ils sont à moitié achevés, et le coût de la main-d'œuvre ne peut pas du tout couvrir les revenus du projet."
Un recruteur de l'industrie de l'étiquetage des données a déclaré à Times Finance que depuis cette année, le seuil de recrutement est progressivement passé des étudiants de premier cycle aux étudiants de premier cycle. "Auparavant, il n'y avait pratiquement aucune exigence d'expérience pour les étiqueteurs. Aujourd'hui, de nombreuses entreprises espèrent que les nouveaux employés pourront commencer à travailler directement sur des projets, ce qui peut réduire les coûts de formation initiaux."
À l'heure actuelle, l'étiquetage intelligent peut capturer approximativement la forme et la position de base des objets, mais en termes de précision, il est toujours à la traîne par rapport aux étiqueteurs professionnels.
Personne ne sait quand l'étiquetage intelligent déclenchera une grande explosion, mais Li Wei est toujours accompagné d'un sentiment d'insécurité. Chaque fois qu'elle ouvre une nouvelle page de projet, la boîte rouge représentant l'étiquetage intelligent apparaît toujours en premier, comme si elle rappelait tout le temps aux personnes devant l'écran :
Un jour, il prendra sa place.
(Les personnes interrogées dans cet article sont toutes des pseudonymes.)
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Les travailleurs de Foxconn se rendent à l'usine d'étiquetage d'IA
Source originale : Times Finance
Au premier semestre de cette année, les cercles technologiques des villes de premier rang ont été activés par l'intelligence artificielle.
Des modèles à grande échelle tels que Wenxin Yiyan, Tongyi Qianwen et Light Years Away envoient des vagues d'enthousiasme. Les gros bonnets avec des ressources de haut niveau sont au cœur de ce grand événement. Ils ont envoyé des messages de héros les uns après les autres. la bataille pour le talent des grands modèles est également sur la table.
Maillon étroitement lié à la chaîne de l'industrie de l'IA, la base de l'industrie des données de Taiyuan dans le Shanxi, à 500 kilomètres de Pékin, est calme et rassemble des milliers d'étiqueteurs d'intelligence artificielle. Les sujets dont ils parlaient restaient sur l'avancement du projet, le rythme de mise au standard de la boîte, et les trois repas par jour.
"L'excitation est la leur, et nous n'avons qu'un nombre incalculable de boîtes", a déclaré un étiqueteur de données à Times Finance.
Dans la mémoire de He Qing, le propriétaire de la société d'étiquetage des données, l'excitation s'est produite il y a quatre ou cinq ans. Pour la première fois, la brise printanière de l'intelligence artificielle a soufflé sur cette ville du Midwest. Des hommes d'affaires sensibles ont commencé à dessiner un territoire et à recruter des personnes, fournissant un flux constant de "nutrition" pour l'intelligence artificielle. La plupart d'entre eux sont des profanes de l'intelligence artificielle, en raison de l'énorme demande de main-d'œuvre soudaine, ils ont une merveilleuse connexion avec la technologie de pointe.
"A cette époque, de nombreux patrons amenaient tous les membres de leur famille ici, et ils pouvaient gagner de l'argent en bougeant simplement leurs doigts." He Qing a entendu beaucoup de nouvelles passionnantes dans l'industrie de l'étiquetage des données - certaines personnes gagnent des millions en trois mois, et autres Les commandes saisies peuvent être mises en file d'attente jusqu'à la deuxième année.
Mais ces beaux jours s'estompent peu à peu.
"Pipeline" décente
À 8 h 45 du matin, une foule dense de personnes a bloqué l'entrée de l'ascenseur. Seul un tiers des personnes se sont entassées dans le premier ascenseur et la destination finale de tout le monde était au sixième étage.
La porte de l'ascenseur s'ouvrit lentement, et la foule se répandit dans toutes les directions, et pénétra dans des bureaux où il n'y avait aucune différence.L'espace d'environ 100 mètres carrés était rempli de centaines d'ordinateurs.
"Tant que vous suivez le numéro de la maison et demandez un par un, tout sera marqué avec des données." Le vendeur au rez-de-chaussée du parc l'a décrit de cette façon.
Cette base d'étiquetage de données, qui a attiré près d'un millier de personnes, ressemble à un cybercafé caché dans le parc.Des personnes assises devant les ordinateurs cliquent habilement sur le clavier et la souris, et les bureaux d'environ un mètre carré sont occupés par d'énormes ordinateurs.
La seule chose qui puisse montrer leur individualité, ce sont les écouteurs colorés qu'ils portent sur la tête. Ils ont une identité commune : les étiqueteurs de données.
La souris a cliqué sur les boutons gauche et droit d'avant en arrière, et les images à l'écran ont fait un zoom avant et arrière, et le curseur a rapidement dessiné des cadres de différentes tailles... Après que les actions répétées aient duré une demi-heure, Meiling s'est légèrement tordu le cou , et les os de sa colonne vertébrale grinçaient.
"C'est suffisant pour que les nouveaux arrivants passent la première semaine, et on s'y habitue rapidement", a déclaré Meiling à Times Finance tout en fixant l'écran. Le nombre de personnes qui abandonnent la première semaine peut atteindre 30 %. .
Toutes les deux semaines, Mme Zhou, la contremaîtresse, amènera plus d'une douzaine de nouveaux arrivants à commencer leur apprentissage.Un tel travail répétitif et ennuyeux a dissuadé de nombreux jeunes.
Il y a deux ans, Meiling est passé d'enseignant de maternelle à étiqueteur de données. Dans sa ville natale, Luliang, il y a peu d'emplois et le télémarketing est l'une des destinations les plus respectables.Maintenant, sous l'influence de la vague d'intelligence artificielle, les étiqueteurs de données offrent un autre choix aux femmes du comté.
Il y a six mois, en raison du changement de la base d'étiquetage, Meiling a déménagé de sa ville natale à Taiyuan, la capitale provinciale. "La conduite automatique ou la reconnaissance faciale ne nécessitent pas la participation d'étiqueteuses à grande échelle." Elle a montré un regard fier. Aux yeux de sa famille, assise dans un bureau et faisant fonctionner un ordinateur, avec un revenu mensuel de plus de 3 000 yuans , le traitement a dépassé la plupart du comté. Travaille déjà.
En 2005, Zhu Songchun, un expert en vision par ordinateur, est retourné dans sa ville natale d'Ezhou, Hubei des États-Unis, a fondé l'Institut de recherche Lianhuashan et a formé la première équipe d'étiquetage de données volumineuses en Chine. Par la suite, des usines d'étiquetage des données ont progressivement pris racine dans les villes de deuxième et troisième rangs, et des grappes industrielles sont apparues dans le Hebei, le Henan, le Shandong, le Shanxi et d'autres régions.
Grâce à une formation répétée sur les étiquettes, l'intelligence artificielle peut atteindre le moment de "l'éveil".Selon Meiling, c'est la même chose que le travail précédent des enseignants de maternelle.
L'étiquetage des données est le premier maillon de la naissance des produits d'intelligence artificielle, suivi de l'entraînement et de l'optimisation des modèles, de la gestion des modèles, des applications de raisonnement, etc. L'alimentation des produits d'intelligence artificielle nécessite des centaines de millions de données, qui vont d'abord affluer vers les ordinateurs des « belles ».
Cependant, le fantasme de "haute technologie" de Meiling est peu à peu brisé par le son répétitif de la souris mécanique. Elle a calculé que 1 500 images est la limite de la charge de travail quotidienne.Une fois cette ligne d'avertissement franchie, les globes oculaires seront douloureux.
Après avoir quitté le travail, même face à la télévision, ce qu'elle voit est une mosaïque en mosaïque, qui ressemble à des images floues qui doivent être marquées après un zoom avant.
"Il y a toujours des visages inconnus au siège voisin, et il y a peu de communication entre collègues." Après un an et demi de travail, Wu Xia, qui travaille dans la même base, ne s'est pas encore habitué au silence du bureau. .
Après avoir obtenu son diplôme d'études collégiales, elle est entrée à l'origine dans l'usine avec ses camarades de classe, mais à cause des changements de projet et du départ de ses camarades de classe, elle est devenue une "garde solitaire". Dès le début des travaux, le bureau est devenu un "atelier" où la chaîne de montage automatisée a commencé, avec une ambiance industrielle froide et peu humaine.
L'une des caractéristiques de l'industrie de l'étiquetage des données est le comptage individuel des pièces et l'absence de travail d'équipe, ce qui constitue un mode de gestion différent de celui des cols blancs ordinaires.
Ici, les étiqueteurs n'ont pas de position fixe, mais affectent aléatoirement des centaines de personnes au sens du flux en fonction des évolutions du projet. Le projet le plus long dure 2 à 3 mois et le projet à court terme ne dure que 2 à 3 jours. Une équipe de projet de plus d'une douzaine de personnes a un administrateur pour surveiller l'avancement du travail de chacun.
Les annotateurs ne dépenseront pas leur énergie à gérer la relation entre collègues. Le travail à la pièce accorde une attention à l'efficacité et à la concentration, et le temps et l'argent sont liés. Compléter une moyenne de 1 000 trames signifie qu'une moyenne de 2 trames doit être complétée par minute.
"Lorsque vous parlez aux autres, vous perdrez quelques caisses d'argent", a déclaré Meiling.
Les employés de Foxconn se rendent à l'usine d'étiquetage
Dans le parc d'étiquetage des données, il existe également des instituts de recherche technologique dispersés et des bases entrepreneuriales pour les étudiants étrangers. De l'avis de Meng Ran, ces postes "haut de gamme" sont loin de lui.
Avant d'entrer à l'université, il n'a jamais quitté sa ville natale de Linfen. Après avoir obtenu son diplôme universitaire, sa famille espérait qu'il ne quitterait pas la province. À deux kilomètres de la base se trouve le parc industriel scientifique et technologique de Foxconn Taiyuan. Cette zone industrielle absorbe la main-d'œuvre locale la plus active : à son apogée, près de 60 000 personnes s'activent sur la chaîne de montage de la zone industrielle.
Peu importe ses efforts, le rayon de recherche d'emploi de l'étudiant Meng Ran n'a jamais dépassé 5 kilomètres. Il est passé une fois de la deuxième phase de la base d'étiquetage des données à la troisième phase ; avant de devenir officiellement étiqueteur de données, Foxconn à côté était l'endroit où il a brûlé sa jeunesse.
Meng Ran est entré une fois dans l'usine pour deux vacances consécutives pour gagner de l'argent, et à chaque fois il est parti précipitamment après avoir reçu un salaire de plusieurs milliers de yuans.
Toutes les vacances d'hiver et d'été, l'entrée du campus de Foxconn est pleine d'étudiants avec de gros sacs et de petits sacs, et l'objectif de chacun est d'obtenir le rabais et le tarif horaire les plus élevés de toute l'année. "Tout le monde vient ici pour gagner de l'argent rapidement, et ils font leurs valises et partent dès que la haute saison est terminée. L'usine est trop occupée pour travailler, et il est difficile de s'y tenir longtemps."
Meng Ran n'aimait pas l'ambiance de travail chez Foxconn. Avant d'entrer dans l'atelier, l'équipement électronique doit être remis, et la seule chose à laquelle il reste à faire face chaque jour est la foule d'ouvriers se précipitant dans des vêtements similaires et le bâtiment de l'usine morne et froid. Lorsque vous rencontrez un chef d'équipe grincheux, il est courant que vous soyez insulté tous les jours.
Avec le rugissement de la chaîne de production qui démarre, les travailleurs doivent installer une certaine pièce en continu, et ces actions durent souvent plus de 10 heures. Dans un espace complètement clos, même la transe est un luxe. Meng Ran n'a pas osé avoir quelques mots avec les ouvriers autour de lui jusqu'à ce que le contremaître détende un peu sa direction.
En 2018, après l'achèvement de la base d'étiquetage des données à proximité, Meng Ran a eu un deuxième choix pour son travail. Juste à un pâté de maisons, il y a un travail plus confortable à portée de main.
Faye Wong était recruteuse pour Foxconn. La saison creuse de l'usine et les changements de personnel, associés à des rabais ambigus et à de fréquents changements de revenus, la font souvent tomber dans des conflits sans fin avec les travailleurs migrants.Les annotateurs sont un meilleur choix pour elle.
"Au cours des dernières années, le seuil d'étiquetage des données était bas et le prix unitaire était élevé. Je pouvais maintenir un revenu mensuel de 4 000 yuans, et les projets que j'ai réalisés étaient tous liés à de grandes usines, ce qui était relativement sûr. " Faye Wong a vu de nombreux travailleurs qualifiés quitter la base pour chercher un autre emploi À l'écart, mais revenir en cercle.
De nombreux annotateurs ont des trajectoires de travail similaires à celles de Meng Ran. L'expérience de travail dans les usines d'électronique est le point commun de leurs CV, et l'usine d'annotation de données est devenue leur prochaine étape après avoir quitté la fonderie électronique.
Les caractéristiques communes d'un grand nombre de travailleurs, de revenus considérables et d'un fonctionnement simple ont permis de construire virtuellement un pont de deux kilomètres reliant les deux super usines.
Projets et entreprises disparus
Pour les étiqueteurs, un sentiment intuitif est que les bons moments touchent à leur fin.
Le projet avec un prix unitaire de quelques centimes a disparu, et le prix d'une boîte d'étiquettes a été réduit à quelques centimes ; la simple boîte de dessin de point de dessin plan a disparu, remplacée par un projet de nuage de points qui nécessitait un étiquetage multidimensionnel ; employés réguliers a progressivement quitté l'équipe de projet et les stagiaires rentables de Taller ont pris en charge plus de la moitié de la charge de travail.
He Qing, la propriétaire de la société d'étiquetage des données, n'est pas venue à la base depuis six mois et elle a progressivement réduit son investissement dans l'entreprise.
Depuis le second semestre de l'année dernière, son équipe n'a jamais été en mesure de recevoir des projets avec des commandes clients élevées, et la période de facturation client a été retardée de trois mois à six mois. "De nombreuses petites usines avec des flux de trésorerie insuffisants et aucune capacité à avancer des capitaux ont fermé, et les membres de notre équipe ont perdu un tiers."
Il y a trois ans, l'enthousiasme de Li Wei a été déclenché par le cadre de la légende.Elle était lente et pas bonne en communication, et elle sentait qu'elle avait trouvé un emploi "choisi".
Li Wei a repris le projet avec un prix unitaire de 0,25 yuan. Lorsque l'efficacité était élevée, elle pouvait dessiner 1 200 images par jour et gagner près de 8 000 yuans par mois. "Afin de gagner plus d'argent, quelqu'un a acheté un hôte et a commencé à travailler Si vous devenez compétent, vos revenus augmenteront.
Comme tout le monde, Li Wei sentait vaguement que l'ère de la ruée vers l'or était terminée.
La société a lancé un tout nouveau projet. Ce qui est présenté devant nous n'est plus une feuille de route du monde réel, mais une carte modèle composée de milliers de points verts, violets et bleus. Une image complète comprend Il y a près de une centaine de cases cochées, et un ensemble de questions est composé de dizaines d'images avec seulement des différences subtiles.
"Il est nécessaire de basculer à plusieurs reprises entre la vue en plan et la 3D. Certaines images bloquées doivent être complétées par le cerveau, et la précision du cadre doit également être contrôlée à 0,01 mètre. Le rapport coût-performance des travaux diminue et plus bas." Tant que l'écart par rapport à la plage requise est de 1 mm de plus, Ils seront impitoyablement repoussés par l'examen.
Les données, la puissance de calcul et les algorithmes sont les trois pierres angulaires de l'intelligence artificielle. Plus la quantité et la qualité des données sont importantes, plus les grands modèles peuvent souvent être entraînés à maturité, ce qui se manifeste dans le travail des annotateurs qui améliorent constamment leur précision.
"Les règles ont été ajustées ces derniers jours, et l'exigence de précision a été portée à plus de 80%." La précision est devenue le "point de mort" des étiqueteurs, et c'est aussi un vocabulaire à haute fréquence qui apparaît lorsqu'ils se plaindre.
Une image marquée doit passer par 2-3 étapes telles que l'examen et l'inspection de la qualité, sinon elle ne peut pas entrer dans le cycle de règlement.
Parfois, Wu Xia avait l'impression d'être piégée dans un labyrinthe compliqué, et elle ne pouvait pas sortir quoi qu'il arrive. Elle avait été ravagée par un nouveau projet pendant près d'une semaine - tout en soumettant les questions, elle était constamment rappelée, ce qui la faisait sombrer dans l'anxiété. "Si la question revient trop souvent, elle sera attribuée à d'autres personnes et l'énergie précédente sera vaine."
L'anxiété de Meng Ran était d'un autre genre. Depuis août de l'année dernière, son travail est devenu plus détendu. Au cours des 5 dernières minutes, des dizaines de milliers de données ont été accumulées et il n'y aura plus de ligne rouge de charge pendant une demi-heure.
"Il se peut que la quantité de données sur la plate-forme ait diminué, ou que l'efficacité de l'examen des machines ait augmenté." Le sentiment d'insécurité de Meng Ran s'est rapidement confirmé. En raison de la réduction forcée de sa charge de travail, son revenu quotidien est passé de un à deux cents yuans à quelques centaines de yuans, soit des dizaines de dollars.
Une course à élimination directe s'est propagée parmi les grandes agences. Meng Ran a vu une équipe se dissoudre du jour au lendemain, et plus d'une douzaine d'employés qui devaient des salaires ont poursuivi l'entreprise auprès du bureau du travail ; si la situation s'améliorait un peu, ils seraient transférés à l'agent suivant avec l'ordinateur et les employés.
"Pour être sûr, allez dans une équipe de plus de 30 personnes." C'est le conseil de Meng Ran aux nouveaux arrivants.
Annotator quitte l'étape de l'historique
Après une semaine de formation et une période de novice d'un demi-mois, en mai de cette année, Xiaoting, qui était dans le Hunan, s'est finalement adapté pour devenir un étiqueteur de données, mais a été témoin du déclin rapide de l'entreprise jusqu'à sa disparition.
"Après un mois d'emploi, l'entreprise ne pourra pas survivre. Le patron offre à tout le monde un repas de rupture, mais le salaire devra attendre quelques mois. " Selon Xiaoting, l'industrie actuelle de l'étiquetage des données est pleine de "mines terrestres", et le risque est bien supérieur au revenu.
Qu'il s'agisse d'un entrepreneur en étiquetage de données ou de dizaines de milliers d'étiqueteurs, il n'y a aucun moyen d'éviter le fait que l'étiquetage manuel des données devient progressivement insignifiant sur la scène des modèles à grande échelle.
Ce qui est différent du travail d'enseignant préscolaire de Meiling, c'est que les élèves ne prendront pas le travail d'enseignant si rapidement. Aujourd'hui, la technologie des grands modèles alimentée par les étiqueteurs réinjecte rapidement le processus d'étiquetage des données.
En prenant Tesla comme exemple, il a continuellement développé une technologie d'étiquetage automatique depuis 2018, de l'étiquetage manuel 2D à l'étiquetage automatique de l'espace 4D. L'avancement de la technologie a dévoré l'espace d'exploitation de l'étiquetage manuel.En 2021, l'équipe d'étiquetage manuel de Tesla dépassera les 1 000 personnes et en 2022, plus de 200 employés seront licenciés.
D'autres constructeurs automobiles, dont Xiaopeng Motors et Momo Zhixing, ont également lancé des outils d'étiquetage automatique. Gu Weihao, PDG de Momo Zhixing, a déclaré publiquement qu'actuellement, pour obtenir des lignes de voies, des participants à la circulation et des informations sur les feux de circulation, le coût de l'étiquetage manuel est d'environ 5 yuans par image, tandis que le coût de Momo DriveGPT n'est que de 0,5 yuan.
En 2019, Wu Di, formateur en données IA dans une ville de premier rang, pressentait le plafond de sa carrière.Son entreprise est chargée de développer le projet de service client intelligent de la plateforme e-commerce. Les progrès ont été plus rapides qu'il ne l'avait imaginé : en moins d'un an, l'équipe d'étiquetage des données de 10 personnes dont il était responsable a été coupée et il ne restait plus que des opérateurs sporadiques.
"Le jour où le projet continue à mûrir, c'est quand on n'a plus besoin de nous."
L'évolution du grand modèle est comme une rivière qui se précipite, faisant toujours une attaque surprise à un certain moment, laissant derrière elle l'équipe artificielle.
Dans un rapport d'enquête de l'Université de Zurich en mars de cette année, les chercheurs ont découvert, grâce à des mesures réelles, que la capacité de traitement de ChatGPT dans 15 tâches d'étiquetage était supérieure à celle des crowdsourcers.
Au début du mois d'avril de cette année, Li Jie, étudiant en médecine à l'école, a achevé en un mois l'étiquetage textuel d'une grande usine dans le domaine médical. Ce projet sera utilisé pour fournir des services de diagnostic et de dialogue intelligents. Cela a également permis à Li Jie ressent pour la première fois l'évolution des grands modèles.
"Au début, nous avons continué à alimenter la plate-forme avec des termes médicaux classifiés, et la deuxième semaine, le système a pu réaliser automatiquement la classification des noms de base, et le taux de précision a dépassé 90 %."
À Taiyuan, Shanxi, Mme Zhou, contremaître de la base, a commencé à persuader les nouveaux venus de prendre en charge des projets plus difficiles, car il était difficile pour l'entreprise de supporter la pression des projets mis de côté encore et encore. "À l'heure actuelle, plus l'entreprise d'étiquetage est simple, plus les bénéfices sont faibles, et certains projets seront jaunes s'ils sont à moitié achevés, et le coût de la main-d'œuvre ne peut pas du tout couvrir les revenus du projet."
Un recruteur de l'industrie de l'étiquetage des données a déclaré à Times Finance que depuis cette année, le seuil de recrutement est progressivement passé des étudiants de premier cycle aux étudiants de premier cycle. "Auparavant, il n'y avait pratiquement aucune exigence d'expérience pour les étiqueteurs. Aujourd'hui, de nombreuses entreprises espèrent que les nouveaux employés pourront commencer à travailler directement sur des projets, ce qui peut réduire les coûts de formation initiaux."
À l'heure actuelle, l'étiquetage intelligent peut capturer approximativement la forme et la position de base des objets, mais en termes de précision, il est toujours à la traîne par rapport aux étiqueteurs professionnels.
Personne ne sait quand l'étiquetage intelligent déclenchera une grande explosion, mais Li Wei est toujours accompagné d'un sentiment d'insécurité. Chaque fois qu'elle ouvre une nouvelle page de projet, la boîte rouge représentant l'étiquetage intelligent apparaît toujours en premier, comme si elle rappelait tout le temps aux personnes devant l'écran :
Un jour, il prendra sa place.
(Les personnes interrogées dans cet article sont toutes des pseudonymes.)