Les mots de Mark Wen Xin, 4 000 yuans par mois

2023-08-29 02:16:25

Source : Pinwan

Auteur : Vinaigre

"Autant d'intelligence qu'il y a d'intelligence artificielle".

Les blagues sont cachées derrière l’intelligence artificielle, et elles sont toujours d’actualité jusqu’à présent. Ding Yang, qui vient de terminer ses études universitaires, a temporairement son avenir sur la seconde moitié de sa peine.

Ding Yang a étudié le génie chimique léger lorsqu'il était à l'université. Après avoir obtenu son diplôme, la plupart des étudiants du département allaient dans les usines de papier en trois équipes. Il ne voulait pas aller à l'usine. Après avoir obtenu son diplôme en juin de cette année, Ding Yang est retourné à Haikou. Début août, il a suivi une version électronique de la banque de questions de formation. Deux jours plus tard, il est devenu un étiqueteur de données « novice » de Wenxin Yiyan.

Le bâtiment des marchands chinois dans le district de Xiuying, ville de Haikou, est autrefois appelé la « base » par les étiqueteurs de données de Wen Xinyi. Plus de deux cents personnes entraient et sortaient de cette base, réparties sur les trois étages de cet immeuble de bureaux. Elles devaient signer un accord de confidentialité avant d'entrer en poste et devaient scanner leur visage en franchissant la porte. avait un ordinateur. De nombreux ordinateurs ont été loués et expédiés par le patron du Shanxi, car il n'y a pas beaucoup de connaissances qui louent ces équipements localement.

"Cela ne coûte pas 500 yuans d'acheter cet ordinateur. Une fois, j'ai emmené l'hôte faire une recherche sur Xianyu – il valait 60 yuans. Je peux en installer un bien meilleur pour 500 yuans."

Ding Yang a postulé en informatique lors de l'examen d'entrée à l'université, puis a été transféré en génie chimique léger, mais cela ne l'intéressait pas. Au lieu de cela, il a lu beaucoup de génie informatique et logiciel à l'université, ce qui lui a fait rapidement entendre parler. à la fin de l’année dernière, l’émergence de ChatGPT.

En décembre, il a créé un compte ChatGPT, puis « cette capacité dépasse mes prévisions », a-t-il déclaré.

Source : Pinwan

Lorsque j'ai rencontré Ding Yang au poste de travail de la base, la question sur l'écran d'ordinateur devant lui était : « Quel est le niveau d'une personne qui réussit ?

Il peut s'agir d'une vraie question d'un utilisateur de Wenxin Yiyan, ou d'une question test générée à partir de rien, mais elle est placée devant l'écran et doit être marquée.

L'étiquetage n'est pas facile.

Pour une de ces questions, Wen Xin Yiyan donnera cinq réponses différentes. L'étiqueteur de données doit les lire, puis découvrir toutes les failles de chaque réponse.

Par exemple, il y a des fautes de frappe dans les réponses ou une mauvaise utilisation de mots logiques tels que "parce que" et "donc", mais la plupart des réponses ne sont pas pertinentes par rapport à la question, ou il y a des soi-disant "illusions" qui n'ont aucun fondement factuel. base dans un certain paragraphe.

Il attribuera à ces cinq réponses une note en fonction de la qualité de la réponse, avec une note complète de 5 points, un total de cinq niveaux, et un minimum de 1 point. Pour les réponses de 3 points et moins, Ding Yang doit diviser chaque erreur en différents types d'erreurs donnés par le système d'étiquetage.

Ce processus complexe de correction d'erreurs consiste à former et à générer un modèle de récompense approprié RM (modèle de récompense, également appelé modèle de préférence), et les actions de notation et de tri aligneront davantage le modèle sur les préférences humaines.

C'est également la clé du succès de ChatGPT. L'article d'OpenAI décrit le processus d'alignement de l'intelligence artificielle sur les idées humaines au cours du processus de réglage des instructions.

Avant le travail des étiqueteurs de données, un personnel plus professionnel est nécessaire pour transformer le corpus divergent en paires de questions-réponses spécifiques, puis les alimenter dans le grand modèle comme des exemples de questions. Après que ce dernier soit optimisé après un grand nombre de questions-réponses formation sur les données, ça commence Répondez aux questions.

À ce stade, l'étiqueteur de données évalue la qualité des réponses générées par le grand modèle du point de vue de la sécurité, de l'exactitude et de la pertinence. Ces données d'évaluation forment en outre un modèle de récompense. A terme, ce modèle de récompense remplacera le travail d’étiquetage manuel.

Derrière la valorisation d'OpenAI de plus de 30 milliards de dollars se cache un grand nombre de travailleurs kenyans de l'étiquetage des données dont le salaire horaire est inférieur à 2 dollars, sinon cela n'aurait pas été devant Ding Yang en décembre de l'année dernière.

Mais Ding Yang ne connaissait pas la définition de RM ou SFT. Il a dit qu'il n'y avait pas de tel contenu théorique dans la formation avant de commencer, et certaines personnes ici ne savaient même pas pour quoi Wen Xinyiyan il travaillait. Mais peu importe, ce qui compte, c'est de faire avancer les choses.

Le salaire de base de ce travail, qui est de neuf heures à six heures du matin et six jours de congé, est de 1 800 yuans. Au bout d'un mois, si vous parvenez à répondre en moyenne à 40 questions par jour, vous recevrez le salaire de base. Le salaire de base est calculé en fonction du taux d'achèvement, et la commission doit également tenir compte du taux correct. Le « vétéran » qui est ici depuis un certain temps a une charge de travail stable de 7 à 80 personnes par jour, et les problèmes rencontrés sont plus difficiles. En moyenne, vous pouvez gagner 4 000 yuans par mois. Si vous travaillez plus dur, par exemple si vous répondez à environ 100 questions chaque jour, vous pouvez gagner 7 000 yuans par mois.

Pour un jeune diplômé comme Ding Yang, 4 000 yuans est considéré comme un travail avec un début décent. Le salaire mensuel moyen des habitants de Haikou n'est que d'un peu plus de 3 000 yuans, et même 6 personnes sur 10 ne peuvent pas toucher 3 000 yuans par mois. La célèbre poudre locale Hou'an coûte 11 yuans, et les tagueurs de ChatGPT peuvent acheter un bol pour une heure. En comparaison, la poudre coûte cher. Selon lui, les habitants de Haikou ne gagnent pas beaucoup d’argent, mais ils sont prêts à dépenser pour se nourrir.

Source : Pinwan

"Les actions sont les plus difficiles, ce sont les voitures", a déclaré Ding Yang. Cela peut prendre 20 minutes pour rencontrer un problème dans cette zone.

"Par exemple, quelqu'un demandera s'il doit acheter une BMW Série 3 ou une Mercedes-Benz Série C." À ce moment-là, le grand modèle listera plus de 80 paramètres sur les deux voitures pour que l'utilisateur puisse les comparer, et il devra suivez-le un à un et vérifiez l'authenticité de chaque paramètre.

Après un demi-mois de travail, des centaines de questions ont été notées, mais il a dit qu'à son avis, obtenir un score de 3 est déjà bien, et il est rare d'obtenir un score de 4.

Il se souvenait d'une question qui lui rapportait 4 points, le titre était "Pourquoi Lin Daiyu a-t-il combattu le Démon Osseux ?"

Wen Xin n'a pas suivi le poteau avec un mot et s'est rendu compte que Lin Daiyu n'était pas celui qui avait battu Bone Demon, puis a présenté les antécédents de Lin Daiyu et Bone Demon. Dans toutes les dimensions de la qualité des réponses, c’est presque impeccable.

J'ai posé cette question à Claude 2, qui a dit : « Le Démon des Os s'est transformé en Wang Xifeng et a humilié Lin Daiyu à plusieurs reprises, et Lin Daiyu était en colère contre le meurtre du Démon des Os. » —— L'hallucination est en effet assez gênante.

Source : Pinwan

Début 2020, "formateur en intelligence artificielle" est officiellement devenu un métier et a été inscrit au répertoire national de la classification professionnelle. Deux ans plus tard, la vague des grands modèles a soudainement ouvert un trou plus grand dans ce répertoire.

Regarder l’intelligence artificielle supprimer d’anciens emplois aux humains, puis espérer qu’elle en créera de nouveaux. Tout comme la voiture a été remplacée par la voiture, la nouvelle industrie donnera au conducteur de voiture une métaphore générale d'un nouveau monde du travail pour devenir riche. De nombreux investisseurs qui recherchent des cibles avec de l'argent achètent cette déclaration, et certaines personnes ne le font pas. Ils ont par exemple jeté les bases de l'apprentissage profond. Aujourd'hui, l'Anglais Geoffrey Hinton s'inquiète.

Mais la création la plus directe à l’heure actuelle est l’étiqueteur de données de grands modèles comme Ding Yang.

Avant 2022, la frontière de l’intelligence artificielle est encore définie par les voitures autonomes qui ne peuvent pas se contrôler. Il existe une métaphore froide pour les étiqueteurs de données :

"Si vous considérez l'IA comme un animal, le travail d'un étiqueteur de données équivaut à peu près à la préparation d'aliments."

Le travail est bon marché, répétitif – même pas assez proche pour servir de nourrisseur.

Étiqueteur de données traditionnel, le travail quotidien consiste uniquement à observer attentivement chaque image reçue, à encercler le contour d'une voiture ou d'un chien, à l'étiqueter, à le glisser et à le déposer dans différents dossiers ; ou à utiliser une matrice de points. L'outil marque les obstacles dans chaque image. d'une vidéo de conduite, laissant une "zone roulable" complète.

Une telle action peut être effectuée 2 000 fois par jour par un étiqueteur de données.

Seules les données étiquetées peuvent être apprises par l’intelligence artificielle. Un fournisseur de données de conduite autonome a déclaré un jour que le degré d'automatisation de l'étiquetage des données n'est encore que de 5 % depuis le développement de l'étiquetage des données, et que les 95 % restants du travail d'étiquetage sont toujours effectués manuellement.

Après l’arrivée du grand modèle, le type d’étiquetage des données lui-même a commencé à changer. Il ne suffit pas de dessiner des cases, des points ou des lignes sur l'écran, le travail principal de l'étiqueteur de données de grand modèle devient l'évaluation, le tri et la notation du contenu généré. S'il implique plusieurs cycles de dialogue ou la génération de contenu multimodal, la difficulté Une autre forte augmentation.

Si l'on dit que l'annotation des modèles à l'ère traditionnelle du CV et de la PNL a tendance à agir conformément à des règles objectives, les règles d'annotation des grands modèles sont plus subjectives et testent également la qualité du personnel d'annotation. Pour cette raison, les grandes équipes d'étiquetage de modèles de Baidu à Haikou et au Shanxi sont toutes des étudiants de premier cycle ou plus.

Les étiqueteurs ordinaires de la base de Haikou ont la possibilité d'être promus inspecteurs de qualité, puis de formateurs, puis de superviseurs et enfin de chefs de projet. C’est une chaîne qui s’est créée en quelques mois. Un agent qui a annoté les données de Wenxin Yiyan à Haikou a déclaré qu'après la période probatoire, on peut être promu s'il y a des postes internes et qu'il n'y a pas de calendrier.

Il s’agit d’une nouvelle industrie qui se développe rapidement. "Chaque lien est un nouveau venu", a déclaré Ding Yang.

Une fois que l'inspecteur qualité a terminé le premier examen, il remettra la banque de questions au deuxième examen. Le deuxième examen a été mené en interne par Baidu et les données de formation n'étaient pas entre les mains de l'équipe d'étiquetage de Ding Yang.

Ding Yang, qui travaille pour Wen Xinyiyan, et plus de 200 personnes dans l'ensemble de la base ne sont pas des employés de Baidu.

Les étiqueteuses de la base de Haikou appartiennent à quatre agences différentes. Leurs contrats de travail sont signés avec ces sociétés tierces d’étiquetage des données. C'est la pratique de ce poste. La longue histoire de Baidu en matière d'intelligence artificielle, de la recherche à la conduite autonome en passant par les modèles à grande échelle, est à l'origine de plus de 600 agents à travers le pays et de 200 000 étiqueteurs de données dans plus de 300 villes.

Baidu présuppose que la taille de son équipe de modélisation à grande échelle à temps plein soit proche de 10 000 personnes. Ce plan sera réalisé à l'avenir en tant que nouvelle « base » dans plus de dix villes du pays.

Hu Chi, chef de produit de Baidu Intelligent Cloud Data Annotation Base, estime que les annotateurs de données de grands modèles constitueront une carrière à long terme. Avec l'approfondissement des capacités des grands modèles dans divers scénarios, de nouveaux problèmes apparaîtront, ce qui signifie également que de nouvelles exigences en matière d'étiquetage apparaîtront. Les humains auront toujours besoin d'un tel alignement diligent.

Ding Yang a dit qu'il partirait d'ici.

Il y avait plus de 20 étiqueteurs de données novices qui sont arrivés en même temps que lui, et la plupart d'entre eux sont partis rapidement – la plupart sont partis volontairement. Le contenu ennuyeux du travail, la manière de gagner de l'argent grâce au salaire à la pièce et la consommation des gens, il n'est pas difficile d'imaginer qu'il s'agira d'un poste très fluide. Et peu importe combien les gens applaudissent, l’insécurité d’être remplacé par des machines est là, ce que tout le monde aime voir.

Ding Yang y voit une opportunité de grandir avec l'industrie. "Essayez de voir si vous pouvez être superviseur", dit-il, avant de trouver un poste plus proche de la vague IA.

(Ding Yang est un pseudonyme dans le texte)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
ETH Breaks $3600
19k Popularité
Gate Derivatives Volume Hits New High
18k Popularité
CPI Data Incoming
61k Popularité
4Join Gate VIP to Win MacBook
31k Popularité
5MicroStrategy Buys More Bitcoin
3k Popularité
6BTC Hits New High
113k Popularité
7My Gate Moments
28k Popularité
8VIP Exclusive Airdrop Carnival
27k Popularité
9Fed June Meeting Minutes
7k Popularité
10Trump Tariff Hikes
18k Popularité

Épingler