Pliage du grand modèle AI : les données indiquent que le revenu mensuel des « travailleurs migrants » ne dépasse pas 5 000 et que le prix unitaire passe de 5 cents à 4 cents
Zheng Wen se souvient encore de cet après-midi d'il y a quelques mois : ce jour-là, elle gagnait 20 cents de l'heure. Elle est diplômée d'un collège du Hunan et est annotatrice de données de grands modèles. Son travail quotidien n'est pas compliqué : ajouter des étiquettes aux données brutes (telles que des images, des vidéos, des textes, etc.) qu'elle reçoit.
Cependant, les grands modèles ont des exigences très élevées en matière de qualité des données. Ce jour-là, une image était révisée huit fois avant d'être approuvée. L'ensemble du processus de révision prenait une heure. En d’autres termes, elle ne gagnait que 2 centimes de l’heure, alors que dans des circonstances normales, elle pouvait gagner 12 yuans et tirer 600 cartons. "L'argent n'est pas facile à gagner", a-t-elle souligné à plusieurs reprises.
C'est le consensus de presque tous les praticiens de l'annotation de données. Une extrémité des annotations de données porte le salaire mensuel des pratiquants, qui sont inférieurs à 5 000 yuans. Ils construisent la pierre angulaire du grand modèle comme une armée de fourmis. De l’autre côté se trouve le rêve d’IA des grandes sociétés Internet, qui espèrent surpasser Chat GPT 4.
L'annotation des données utilise le système de rémunération à la pièce le plus primitif pour calculer les salaires, et il n'y a aucune intrigue sur le lieu de travail. Le seul problème est que ce travail ennuyeux fait qu'il est difficile pour la plupart d'entre eux de persister pendant trois mois. Et, presque tout le monde l’a dit à Planet Tech, vous feriez mieux de ne pas y aller.
Mais ce qu’ils ne savent pas, c’est que la plupart d’entre eux pourraient bientôt perdre leur emploi ennuyeux. Parce que ces simples annotations de données seront remplacées par l’IA.
De 5 centimes à 4 centimes, le prix a chuté
Lin Shuang a gagné beaucoup « d'argent rapide » en 2017 : plus de 6 000 yuans en 15 jours. Pour Lin Shuang, diplômé d'un collège, ces revenus sont en effet considérables. À cette époque, les attentes des gens à l'égard de l'IA montaient en flèche. Presque personne ne doutait de son avenir. Toutes les institutions d'investissement croyaient fermement que des entreprises à l'échelle de plusieurs milliards, dizaines de milliards, voire centaines de milliards pourraient naître ici.
Derrière presque toutes les technologies d’IA se cache une concurrence entre les algorithmes, la puissance de calcul et les calculs. Les énormes données constituent la couche inférieure de l’excellence technique. Des programmeurs aux antécédents brillants sont assis dans des bureaux à « Pékin, Shanghai et Guangzhou » et dessinent des plans d'IA grâce à des algorithmes d'itération de code, tandis que des étudiants, des mères, etc. Villes de quatrième rang, attendez.
ChatGPT ne fait pas exception. Un employé de l'équipe du projet Baidu Wenxinyiyan a déclaré que le grand modèle lui-même ne dispose d'aucune nouvelle technologie ni de barrières techniques élevées.Le problème clé est la barrière des paramètres formée par la barrière de la puissance de calcul.
Les annotateurs de données à l'ère des grands modèles ne sont pas particulièrement différents de ceux du passé, les quelques différences pouvant être un environnement de bureau plus confortable et des exigences plus élevées en matière de qualité d'annotation. Un praticien de l'annotation de données a déclaré à Tech Planet que lorsqu'ils entrent dans l'industrie, ils forment généralement une équipe d'environ 10 personnes, dont l'une est responsable de l'inspection de la qualité. Si le travail n'est pas conforme aux normes, l'employé sera renvoyé à refais-le. La qualité des données détermine la qualité des grands modèles.
Les travailleurs migrants ne se soucient pas des nouvelles branches de la technologie de l'IA, mais plutôt du prix unitaire, car les salaires sont ici calculés pièce par pièce.
« À cette époque, lorsque le prix unitaire était élevé, un cadre 2D coûtait plus de 1 centime. À mon apogée, je travaillais plus de 10 heures et gagnais plus de 600 yuans par jour », se souvient Lin Shuang. Cependant, ce n'est pas le plus élevé : un commentateur a déclaré que le prix des premiers dessins de cadres 2D pouvait atteindre jusqu'à 50 cents.
Le dessin de cadre est une opération courante dans l'annotation de données. L'annotateur marque les objets dans l'image, tels que les véhicules, les lampadaires rouges, les obstacles, etc., selon les exigences. Les images sont divisées en 2D et 3D, ces dernières seront plus chères.
Mais cette popularité n'a pas duré longtemps. Avec l'afflux de plus en plus de personnes et le développement global de l'industrie de l'IA qui ne se déroule pas sans heurts, le prix unitaire de l'annotation d'une image est de plus en plus bas. Lin Shuang a déclaré que le prix le plus bas maintenant, c'est seulement 4 cents.
« S'il s'agit d'un châssis à tirer, le prix unitaire moyen dans l'industrie est d'environ 0,15 yuan, mais cela dépend toujours du projet. Si vous pouvez recevoir des commandes, le minimum requis pour recevoir une commande de première main devrait être de 100 employés. L'échelle est assez grande et le cadre 3D peut coûter 30 cents pièce, mais il est rare de l'obtenir jusqu'à 50 cents.
Bien entendu, si vous avez des connaissances professionnelles dans les domaines médicaux et financiers, le prix unitaire sera plus élevé. Par exemple, de nombreux grands modèles médicaux exigent que les annotateurs possèdent une expertise clinique et une expérience pertinente.
Le revenu mensuel de la plupart des pratiquants ne dépasse pas 5 000 yuans, et il y a aussi quelques chanceux parmi eux. Yang Shuo dirigeait à l'origine un magasin de vêtements dans le Sichuan, mais l'épidémie a affecté son entreprise. Il est passé cette année à l'annotation de données de modèles à grande échelle. Aujourd'hui, il a un revenu de 8 000 yuans par mois. "J'ai signé un contrat avec l'entreprise et payé Les frais de franchise sont de 9 500 yuans et le contrat stipule que le revenu mensuel minimum est de 7 000 yuans.
Qui a gagné l'argent
Les géants de l'Internet tels qu'Alibaba, Tencent et Byte, ainsi que les constructeurs automobiles tels que SAIC et Lynk & Co, sont les sources de distribution commerciale d'annotations de données. Si vous souhaitez obtenir des commandes directement de la source au meilleur prix, l'annotation de données les entreprises doivent avoir une certaine taille.
Un employé d'une société d'annotation de données a déclaré à Tech Planet qu'ils recevaient des commandes directement des grands fabricants, mais que ces derniers exigent qu'ils emploient 500 personnes, ils choisiront donc de répondre aux besoins en personnel par le biais de franchises ou de filiales.
La différence entre les deux est que la franchise convient aux personnes novices dans le secteur pour créer un studio. Si vous souhaitez créer une filiale, il n'y en a généralement qu'une dans une région. Xiaobai Studio doit facturer des frais de franchise, qui sont de 25 000 ou 30 000. La filiale est l'agent exclusif dans une région et doit payer des frais de 50 000. Et ils peuvent garantir des commandes suffisantes dans un délai de trois ans et être responsables de la formation technique dans un délai de trois ans.Ces studios ou filiales forment un grand syndicat, allant de centaines à des milliers.
Les employés de la société d'annotation de données mentionnée ci-dessus ont déclaré que la popularité des grands modèles a une fois de plus poussé le secteur de l'annotation de données à un engouement, et que désormais les gens visitent leur entreprise presque tous les jours.
Mais en réalité, gérer une entreprise d’étiquetage de données n’est pas facile. Ce que la société d'annotation de données vous dit, c'est que cette industrie est difficile à faire au cours des 1 à 2 premiers mois car les employés ont besoin d'une période de montée en puissance.Au début, seulement 5 à 8 personnes suffisent, et même une tante en elle. Les années 40 n'auront aucun problème.
La stabilité est le facteur le plus important pour une entreprise ou un studio d’annotation de données. Cependant, la plupart des employés d'annotation avec lesquels Tech Planet entre en contact quittent souvent leur emploi à la vitesse de la lumière dans les 3 mois en raison de l'ennui. Les nouveaux employés ne sont pas immédiatement disponibles pour les opérations pratiques. Le résultat du roulement élevé du personnel est que la qualité et le cycle d'annotation des données ne sont pas assez stables. . Les mamans qui manquent d’argent sont les personnes les plus populaires auprès des studios d’annotation de données.
"Il n'est absolument pas possible de trouver un emploi à temps partiel. Il y aura des lacunes. Si vous investissez dans le loyer et les ordinateurs, vous perdrez de l'argent. La meilleure façon est de faire travailler tous les employés", a déclaré Wei Ming, qui a dirigé une étude de données. studio d'annotation, a déclaré à Tech Planet.
La plupart des données indiquent que le cycle de remboursement de l'entreprise commence à 3 mois et peut aller jusqu'à six mois, mais qu'elle doit payer ses employés mensuellement, ce qui nécessite un certain degré de réserves de capital. "3 500 par personne, 100 personnes, 3 mois est de 1,05 million.
Zhang Jian a déjà adhéré à un syndicat comptant plus de 200 employés. Au cours de la première année, ils ont rattrapé la période explosive de l'industrie et le prix unitaire du dessin de cadres 2D atteignait 5 cents. Cette année-là, son syndicat a gagné plus de 4 millions.
Mais l’année suivante, les choses se sont dégradées. Le prix unitaire affiché a baissé, les employés sont devenus plus mobiles et les périodes de pause ont augmenté. En outre, deux projets majeurs n'ont pas été réglés et ont perdu plus de 3 millions de yuans au bout d'un an. "Les patrons ont dit qu'ils ne toucheraient pas à l'annotation des données à court terme", a déclaré Zhang Jian. "Ils sont actuellement en procès avec l'amont."
Il s'agit d'une activité à faible marge. L'Haïtien Ruisheng est la première grande société cotée au conseil d'administration du secteur de l'annotation de données. L'année dernière, la société a réalisé un chiffre d'affaires de 263 millions de yuans, un bénéfice de seulement 29,45 millions de yuans et une marge bénéficiaire nette d'un peu plus de 10 %. Mais au premier semestre de cette année, l'entreprise a enregistré des pertes en raison d'une baisse du nombre de clients.
"Vis" pouvant être remplacées à tout moment
S'appuyant sur l'accumulation de fourmis se déplaçant au Kenya, OpenAI s'est finalement démarqué par ses capacités de modèle de dialogue linguistique à grande échelle. Ces gens ordinaires, appelés travailleurs des données, soutiennent le rêve d'IA de Sam Altman (le fondateur d'OpenAI), mais si rien d'autre ne se produit, la plupart du travail entre leurs mains sera bientôt remplacé par les nouveaux produits auxquels ils ont participé. remplacé.
À l'étranger, Anthropic, créée en 2021 par d'anciens employés d'Open AI, a levé 5,15 milliards de dollars cette année, soit plus de sept fois son financement total au cours des deux dernières années. L'entreprise propose une nouvelle façon de former des modèles avec moins d'implication humaine.
Cette année, la startup AI Refuel a lancé un outil open source appelé Autolabel, qui peut utiliser les grands modèles courants du marché pour étiqueter des ensembles de données. Les résultats des tests de l'entreprise indiquent que l'efficacité de l'étiquetage d'Autolabel est 100 fois supérieure à celle de l'étiquetage manuel et que le coût ne représente que 1/7 du coût de la main-d'œuvre.
En Chine, une société appelée Vision Future construit également des modèles d'annotation à grande échelle. Dans une interview, ils ont déclaré que certains projets avaient été réalisés en utilisant GPT et que la précision avait atteint plus de 80 %, ce qui est proche du travail manuel.
Cependant, l'Haïtien Ruisheng estime que l'IA ne parviendra pas à une annotation complètement automatisée, car si la machine veut continuer à évoluer et se rapprocher du jugement et de la compréhension humains, elle aura certainement besoin de conseils humains.
Presque tous ceux qui se sont engagés dans l'annotation de données ont révélé le même point de vue à Tech Planet : l'annotation de données est un travail sans seuil et nécessite uniquement de maîtriser l'utilisation des ordinateurs.
Mais en fait, si une simple annotation peut être complétée par l'IA, alors la participation manuelle sera plus difficile au contrôle des données et au travail standard, ce qui signifie également que le seuil de l'industrie continuera d'augmenter, en particulier ChatGPT, Wen Xinyiyan Un grand modèle de langage pour Des classes.
À titre de comparaison, bien avant que ChatGPT ne devienne populaire, OpenAI a organisé la « notation » de plus d'une douzaine de doctorants. La base d'annotation de données de Baidu à Haikou compte des centaines d'annotateurs de données de grands modèles à temps plein, et le taux d'annotateurs de premier cycle atteint 100 %.
La caractéristique de ce type de grand modèle de langage est que l’annotateur doit disposer d’une certaine réserve de connaissances et d’une capacité d’analyse logique. Selon le rapport "Financial Eleven", les annotateurs doivent déterminer le type de question, puis noter et classer respectivement les cinq réponses. La plage de scores est de 0 à 5 points. Si le score est inférieur à 3 points, les raisons spécifiques doivent être noté, comme "La réponse n'est pas celle à laquelle la question a été posée (0 point)", "sérieusement hors sujet (1 point)", "il y a des problèmes logiques et des erreurs factuelles, et la proportion est faible et 2 points sont donné", etc.
Un autre domaine populaire d’annotation de données est la conduite autonome. Selon un rapport de Deloitte, la demande d'étiquetage dans le domaine de la conduite autonome représentera 38 % de toutes les applications d'IA en aval en 2022, et on s'attend à ce que cette proportion atteigne 52 % d'ici 2027. Par rapport aux grands modèles linguistiques, pour les modèles dans le domaine de la conduite autonome, ces simples opérations de tirage de boîtes ont encore des exigences académiques relativement souples.
Les annotateurs sont la pierre angulaire de l'humanité depuis l'ère de l'Internet mobile jusqu'à l'ère de l'intelligence artificielle. La plupart des praticiens avec lesquels Tech Planet a été en contact ne connaissent pas les changements que l'IA va leur apporter, ni les contributions qu'ils ont apportées au développement de AI.Ils ne sont qu'une nouvelle génération de vis à l'ère d'Internet, et ils peuvent être remplacés à tout moment.
(Remarque : les personnages de l'article sont tous des pseudonymes.)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Pliage du grand modèle AI : les données indiquent que le revenu mensuel des « travailleurs migrants » ne dépasse pas 5 000 et que le prix unitaire passe de 5 cents à 4 cents
Source originale : Tech Planet
Zheng Wen se souvient encore de cet après-midi d'il y a quelques mois : ce jour-là, elle gagnait 20 cents de l'heure. Elle est diplômée d'un collège du Hunan et est annotatrice de données de grands modèles. Son travail quotidien n'est pas compliqué : ajouter des étiquettes aux données brutes (telles que des images, des vidéos, des textes, etc.) qu'elle reçoit.
Cependant, les grands modèles ont des exigences très élevées en matière de qualité des données. Ce jour-là, une image était révisée huit fois avant d'être approuvée. L'ensemble du processus de révision prenait une heure. En d’autres termes, elle ne gagnait que 2 centimes de l’heure, alors que dans des circonstances normales, elle pouvait gagner 12 yuans et tirer 600 cartons. "L'argent n'est pas facile à gagner", a-t-elle souligné à plusieurs reprises.
C'est le consensus de presque tous les praticiens de l'annotation de données. Une extrémité des annotations de données porte le salaire mensuel des pratiquants, qui sont inférieurs à 5 000 yuans. Ils construisent la pierre angulaire du grand modèle comme une armée de fourmis. De l’autre côté se trouve le rêve d’IA des grandes sociétés Internet, qui espèrent surpasser Chat GPT 4.
L'annotation des données utilise le système de rémunération à la pièce le plus primitif pour calculer les salaires, et il n'y a aucune intrigue sur le lieu de travail. Le seul problème est que ce travail ennuyeux fait qu'il est difficile pour la plupart d'entre eux de persister pendant trois mois. Et, presque tout le monde l’a dit à Planet Tech, vous feriez mieux de ne pas y aller.
Mais ce qu’ils ne savent pas, c’est que la plupart d’entre eux pourraient bientôt perdre leur emploi ennuyeux. Parce que ces simples annotations de données seront remplacées par l’IA.
De 5 centimes à 4 centimes, le prix a chuté
Lin Shuang a gagné beaucoup « d'argent rapide » en 2017 : plus de 6 000 yuans en 15 jours. Pour Lin Shuang, diplômé d'un collège, ces revenus sont en effet considérables. À cette époque, les attentes des gens à l'égard de l'IA montaient en flèche. Presque personne ne doutait de son avenir. Toutes les institutions d'investissement croyaient fermement que des entreprises à l'échelle de plusieurs milliards, dizaines de milliards, voire centaines de milliards pourraient naître ici.
Derrière presque toutes les technologies d’IA se cache une concurrence entre les algorithmes, la puissance de calcul et les calculs. Les énormes données constituent la couche inférieure de l’excellence technique. Des programmeurs aux antécédents brillants sont assis dans des bureaux à « Pékin, Shanghai et Guangzhou » et dessinent des plans d'IA grâce à des algorithmes d'itération de code, tandis que des étudiants, des mères, etc. Villes de quatrième rang, attendez.
ChatGPT ne fait pas exception. Un employé de l'équipe du projet Baidu Wenxinyiyan a déclaré que le grand modèle lui-même ne dispose d'aucune nouvelle technologie ni de barrières techniques élevées.Le problème clé est la barrière des paramètres formée par la barrière de la puissance de calcul.
Les annotateurs de données à l'ère des grands modèles ne sont pas particulièrement différents de ceux du passé, les quelques différences pouvant être un environnement de bureau plus confortable et des exigences plus élevées en matière de qualité d'annotation. Un praticien de l'annotation de données a déclaré à Tech Planet que lorsqu'ils entrent dans l'industrie, ils forment généralement une équipe d'environ 10 personnes, dont l'une est responsable de l'inspection de la qualité. Si le travail n'est pas conforme aux normes, l'employé sera renvoyé à refais-le. La qualité des données détermine la qualité des grands modèles.
Les travailleurs migrants ne se soucient pas des nouvelles branches de la technologie de l'IA, mais plutôt du prix unitaire, car les salaires sont ici calculés pièce par pièce.
« À cette époque, lorsque le prix unitaire était élevé, un cadre 2D coûtait plus de 1 centime. À mon apogée, je travaillais plus de 10 heures et gagnais plus de 600 yuans par jour », se souvient Lin Shuang. Cependant, ce n'est pas le plus élevé : un commentateur a déclaré que le prix des premiers dessins de cadres 2D pouvait atteindre jusqu'à 50 cents.
Le dessin de cadre est une opération courante dans l'annotation de données. L'annotateur marque les objets dans l'image, tels que les véhicules, les lampadaires rouges, les obstacles, etc., selon les exigences. Les images sont divisées en 2D et 3D, ces dernières seront plus chères.
Mais cette popularité n'a pas duré longtemps. Avec l'afflux de plus en plus de personnes et le développement global de l'industrie de l'IA qui ne se déroule pas sans heurts, le prix unitaire de l'annotation d'une image est de plus en plus bas. Lin Shuang a déclaré que le prix le plus bas maintenant, c'est seulement 4 cents.
« S'il s'agit d'un châssis à tirer, le prix unitaire moyen dans l'industrie est d'environ 0,15 yuan, mais cela dépend toujours du projet. Si vous pouvez recevoir des commandes, le minimum requis pour recevoir une commande de première main devrait être de 100 employés. L'échelle est assez grande et le cadre 3D peut coûter 30 cents pièce, mais il est rare de l'obtenir jusqu'à 50 cents.
Bien entendu, si vous avez des connaissances professionnelles dans les domaines médicaux et financiers, le prix unitaire sera plus élevé. Par exemple, de nombreux grands modèles médicaux exigent que les annotateurs possèdent une expertise clinique et une expérience pertinente.
Le revenu mensuel de la plupart des pratiquants ne dépasse pas 5 000 yuans, et il y a aussi quelques chanceux parmi eux. Yang Shuo dirigeait à l'origine un magasin de vêtements dans le Sichuan, mais l'épidémie a affecté son entreprise. Il est passé cette année à l'annotation de données de modèles à grande échelle. Aujourd'hui, il a un revenu de 8 000 yuans par mois. "J'ai signé un contrat avec l'entreprise et payé Les frais de franchise sont de 9 500 yuans et le contrat stipule que le revenu mensuel minimum est de 7 000 yuans.
Qui a gagné l'argent
Les géants de l'Internet tels qu'Alibaba, Tencent et Byte, ainsi que les constructeurs automobiles tels que SAIC et Lynk & Co, sont les sources de distribution commerciale d'annotations de données. Si vous souhaitez obtenir des commandes directement de la source au meilleur prix, l'annotation de données les entreprises doivent avoir une certaine taille.
Un employé d'une société d'annotation de données a déclaré à Tech Planet qu'ils recevaient des commandes directement des grands fabricants, mais que ces derniers exigent qu'ils emploient 500 personnes, ils choisiront donc de répondre aux besoins en personnel par le biais de franchises ou de filiales.
La différence entre les deux est que la franchise convient aux personnes novices dans le secteur pour créer un studio. Si vous souhaitez créer une filiale, il n'y en a généralement qu'une dans une région. Xiaobai Studio doit facturer des frais de franchise, qui sont de 25 000 ou 30 000. La filiale est l'agent exclusif dans une région et doit payer des frais de 50 000. Et ils peuvent garantir des commandes suffisantes dans un délai de trois ans et être responsables de la formation technique dans un délai de trois ans.Ces studios ou filiales forment un grand syndicat, allant de centaines à des milliers.
Les employés de la société d'annotation de données mentionnée ci-dessus ont déclaré que la popularité des grands modèles a une fois de plus poussé le secteur de l'annotation de données à un engouement, et que désormais les gens visitent leur entreprise presque tous les jours.
Mais en réalité, gérer une entreprise d’étiquetage de données n’est pas facile. Ce que la société d'annotation de données vous dit, c'est que cette industrie est difficile à faire au cours des 1 à 2 premiers mois car les employés ont besoin d'une période de montée en puissance.Au début, seulement 5 à 8 personnes suffisent, et même une tante en elle. Les années 40 n'auront aucun problème.
La stabilité est le facteur le plus important pour une entreprise ou un studio d’annotation de données. Cependant, la plupart des employés d'annotation avec lesquels Tech Planet entre en contact quittent souvent leur emploi à la vitesse de la lumière dans les 3 mois en raison de l'ennui. Les nouveaux employés ne sont pas immédiatement disponibles pour les opérations pratiques. Le résultat du roulement élevé du personnel est que la qualité et le cycle d'annotation des données ne sont pas assez stables. . Les mamans qui manquent d’argent sont les personnes les plus populaires auprès des studios d’annotation de données.
"Il n'est absolument pas possible de trouver un emploi à temps partiel. Il y aura des lacunes. Si vous investissez dans le loyer et les ordinateurs, vous perdrez de l'argent. La meilleure façon est de faire travailler tous les employés", a déclaré Wei Ming, qui a dirigé une étude de données. studio d'annotation, a déclaré à Tech Planet.
La plupart des données indiquent que le cycle de remboursement de l'entreprise commence à 3 mois et peut aller jusqu'à six mois, mais qu'elle doit payer ses employés mensuellement, ce qui nécessite un certain degré de réserves de capital. "3 500 par personne, 100 personnes, 3 mois est de 1,05 million.
Zhang Jian a déjà adhéré à un syndicat comptant plus de 200 employés. Au cours de la première année, ils ont rattrapé la période explosive de l'industrie et le prix unitaire du dessin de cadres 2D atteignait 5 cents. Cette année-là, son syndicat a gagné plus de 4 millions.
Mais l’année suivante, les choses se sont dégradées. Le prix unitaire affiché a baissé, les employés sont devenus plus mobiles et les périodes de pause ont augmenté. En outre, deux projets majeurs n'ont pas été réglés et ont perdu plus de 3 millions de yuans au bout d'un an. "Les patrons ont dit qu'ils ne toucheraient pas à l'annotation des données à court terme", a déclaré Zhang Jian. "Ils sont actuellement en procès avec l'amont."
Il s'agit d'une activité à faible marge. L'Haïtien Ruisheng est la première grande société cotée au conseil d'administration du secteur de l'annotation de données. L'année dernière, la société a réalisé un chiffre d'affaires de 263 millions de yuans, un bénéfice de seulement 29,45 millions de yuans et une marge bénéficiaire nette d'un peu plus de 10 %. Mais au premier semestre de cette année, l'entreprise a enregistré des pertes en raison d'une baisse du nombre de clients.
"Vis" pouvant être remplacées à tout moment
S'appuyant sur l'accumulation de fourmis se déplaçant au Kenya, OpenAI s'est finalement démarqué par ses capacités de modèle de dialogue linguistique à grande échelle. Ces gens ordinaires, appelés travailleurs des données, soutiennent le rêve d'IA de Sam Altman (le fondateur d'OpenAI), mais si rien d'autre ne se produit, la plupart du travail entre leurs mains sera bientôt remplacé par les nouveaux produits auxquels ils ont participé. remplacé.
À l'étranger, Anthropic, créée en 2021 par d'anciens employés d'Open AI, a levé 5,15 milliards de dollars cette année, soit plus de sept fois son financement total au cours des deux dernières années. L'entreprise propose une nouvelle façon de former des modèles avec moins d'implication humaine.
Cette année, la startup AI Refuel a lancé un outil open source appelé Autolabel, qui peut utiliser les grands modèles courants du marché pour étiqueter des ensembles de données. Les résultats des tests de l'entreprise indiquent que l'efficacité de l'étiquetage d'Autolabel est 100 fois supérieure à celle de l'étiquetage manuel et que le coût ne représente que 1/7 du coût de la main-d'œuvre.
En Chine, une société appelée Vision Future construit également des modèles d'annotation à grande échelle. Dans une interview, ils ont déclaré que certains projets avaient été réalisés en utilisant GPT et que la précision avait atteint plus de 80 %, ce qui est proche du travail manuel.
Cependant, l'Haïtien Ruisheng estime que l'IA ne parviendra pas à une annotation complètement automatisée, car si la machine veut continuer à évoluer et se rapprocher du jugement et de la compréhension humains, elle aura certainement besoin de conseils humains.
Presque tous ceux qui se sont engagés dans l'annotation de données ont révélé le même point de vue à Tech Planet : l'annotation de données est un travail sans seuil et nécessite uniquement de maîtriser l'utilisation des ordinateurs.
Mais en fait, si une simple annotation peut être complétée par l'IA, alors la participation manuelle sera plus difficile au contrôle des données et au travail standard, ce qui signifie également que le seuil de l'industrie continuera d'augmenter, en particulier ChatGPT, Wen Xinyiyan Un grand modèle de langage pour Des classes.
À titre de comparaison, bien avant que ChatGPT ne devienne populaire, OpenAI a organisé la « notation » de plus d'une douzaine de doctorants. La base d'annotation de données de Baidu à Haikou compte des centaines d'annotateurs de données de grands modèles à temps plein, et le taux d'annotateurs de premier cycle atteint 100 %.
La caractéristique de ce type de grand modèle de langage est que l’annotateur doit disposer d’une certaine réserve de connaissances et d’une capacité d’analyse logique. Selon le rapport "Financial Eleven", les annotateurs doivent déterminer le type de question, puis noter et classer respectivement les cinq réponses. La plage de scores est de 0 à 5 points. Si le score est inférieur à 3 points, les raisons spécifiques doivent être noté, comme "La réponse n'est pas celle à laquelle la question a été posée (0 point)", "sérieusement hors sujet (1 point)", "il y a des problèmes logiques et des erreurs factuelles, et la proportion est faible et 2 points sont donné", etc.
Un autre domaine populaire d’annotation de données est la conduite autonome. Selon un rapport de Deloitte, la demande d'étiquetage dans le domaine de la conduite autonome représentera 38 % de toutes les applications d'IA en aval en 2022, et on s'attend à ce que cette proportion atteigne 52 % d'ici 2027. Par rapport aux grands modèles linguistiques, pour les modèles dans le domaine de la conduite autonome, ces simples opérations de tirage de boîtes ont encore des exigences académiques relativement souples.
Les annotateurs sont la pierre angulaire de l'humanité depuis l'ère de l'Internet mobile jusqu'à l'ère de l'intelligence artificielle. La plupart des praticiens avec lesquels Tech Planet a été en contact ne connaissent pas les changements que l'IA va leur apporter, ni les contributions qu'ils ont apportées au développement de AI.Ils ne sont qu'une nouvelle génération de vis à l'ère d'Internet, et ils peuvent être remplacés à tout moment.
(Remarque : les personnages de l'article sont tous des pseudonymes.)