モデル大流行中のインターン：1人当たり985人？でも大きな工場での「ラベル貼り」

Question

出典：Jiazi Guangnian著者: 朱岳公式インターンシップの初日、チェン・シーさんは「騙された」かもしれないと感じた。大学院生予定のチェン・シーさんは、学校の卒業論文を書き終えたばかりで、自分のために何かを見つける準備ができていました。いくつかの履歴書を提出した後、すぐに彼女は国内大手インターネット企業の人工知能編集職（翻訳ディレクション）に誘われました。職務内容には次のように書かれています。> 1. 人工知能機械学習用の高品質コーパスを提供し、モデル トレーニングの反復を複製します。>>> 2. 要件について技術チームとコミュニケーションをとり、高品質で適格なデータを期限内に提供し、編集結果の品質に責任を負います。モデルトレーニングについてあまり知らなかったChen Xiにとって、これはかなり良いインターンシップのように思えました。Chenxi さんのインタビューは翻訳分野であり、彼女の英語専攻と非常に一致しています。今年の初めに、ChatGPT が中国で人気になりました。Chenxi さんは毎日 AI 製品を使用する習慣があり、これは彼女の興味と一致しています。文系学生にとって産業発展は珍しいが、最大の魅力はやはり大手インターネット企業だ。過去数年間、当社は数え切れないほどの若い学生を引き付けることに成功しました。ある視点から見ると、履歴書に大手企業の名前が載っているだけで、自分の能力の象徴になるのに十分です。しかし、採用ページにある簡単な仕事の説明を除けば、Chen Xi さんは面接官からこのインターンシップに関するそれ以上の情報は得られませんでした。「当時私がだまされたと感じたのは、人事部が基本的に面接中、翻訳関連の問題に重点を置いていたからです。」 面接中にいくつかの翻訳に関する質問に答えた後、Chen Xi さんは無事内定を獲得しました。働き始めるまでは、翻訳の仕事だと思っていたそうです。「だまされた」と感じているのは陳錫氏だけではない。人工知能編集者の初期のインターンの 1 人であるヤン・シャオユンさんも、2 月末にこの大規模な工場に来ました。面接官は、情報の収集、言語の要約、テキストの編集など、高い能力が必要とされる仕事であると述べました。実際に仕事を始めてみて、「人事が言う仕事と実際の仕事は全く別物。どんなに華やかでも、実際は『採点』の仕事だ」と実感した。現在、人工知能の流行により、本物の人間のように見えるチャットボットや、簡単なプロンプトで絵を生成できる描画ソフトウェアが登場しています。大規模モデルの現象レベルの創発は、大規模モデルを訓練するための基盤として注目を集めており、データアノテーションはデータリンクに不可欠な部分です。2007 年、当時プリンストン大学コンピューター サイエンス学部の助教授だったリー フェイフェイは、AI アルゴリズムのトレーニングに使用できるデータを拡大したいと考え、ImageNet と呼ばれるプロジェクトを開始しました。それぞれの単語についてできるだけ多くの視覚的な例を提供するために、Amazon のクラウドソーシング プラットフォーム Mechanical Turk の約 50,000 人の従業員が 2 年半をかけて、写真の中の物体 (風船、イチゴなど) にラベルを付け、合計 320 万枚の写真に達しました。 。これらの労働者は世界 167 か国から来ており、ほとんどが人件費の安い地域にいます。Time誌の調査によると、ChatGPTデータセット内の暴力、性差別、人種差別を減らすために、OpenAIは時給2ドル未満のケニア人労働者を使用していたことが判明した。 「ブルームバーグ」は、グーグルのAIチャットボット「バード」は数千人の契約社員によって訓練され、契約社員がバードの回答を確認して注釈を付ける時間はわずか3分だったと報じた。過去の長い間、データのアノテーションには言語や画像の認識に対する高度な認知要件は必要ありませんでした。大規模モデルの時代では、データのアノテーションは画像から言語に移行しました。言語はより要求が厳しく、垂直的なものであり、特定の分野の専門知識と流暢な言語スキルが必要です。しかし、一般のデータ アノテーターにとって、これは依然としてローテクな仕事であり、常に繰り返されます。名門校の「だまされた」学生たちが大規模工場にインターンシップに入るのと同じように、彼らは自分の仕事が何の目的で、その価値は何なのかを明確に説明することができません。 「大規模なモデルをトレーニングする」ために、漠然としか理解していないことがよくあります。Chen Xi と Yang Xiaoyun に代表される人工知能編集インターンは、大規模なモデルをトレーニングする必要性から生まれました。これらの人気の大型モデルは、インターン生に好奇心や憧れを持って入社してもらうと同時に、その背後にある現実の混乱や価値のなさも感じさせます。## **1. 大学生がビッグモデルデータのアノテーションに殺到するとき**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e585c802cd-dd1a6f-6d2ef1) **通常、データ アノテーターは、第 3 層および第 4 層都市に住む低学歴で高齢者のグループであると考えられています。実はこれが、かつての国内データアノテーターの現状でした。 **人的資源・社会保障省が2021年に発表した「人工知能トレーナーの国家職業能力基準」によると、人工知能トレーナーの一般教養レベルは中学校卒業（または同等の教育）となっている。これらの企業は、河北省、河南省、山東省、山西省などの伝統的な労働集約型企業が立地する地域に点在している可能性があり、さらには、データアノテーションが貧困緩和のためのパイロットプロジェクトとなっている遠隔の山岳地帯にも点在している可能性があります。**しかし、大型モデルの登場により、すでに変化が生じています。 **Yang Xiaoyun を退屈にさせるのは、実際には、大規模なモデルをトレーニングするために行われるデータ アノテーション作業です。簡単なトレーニングと評価の後、Yang Xiaoyun はコピー編集チームに配属されました。 **彼女の毎日の仕事は、質問バンクの質問に答えることであり、その目的は、アノテーターが手動で回答を書くことで大規模モデルのトレーニング プロセスを最適化することです。 ****質問に回答する手順は厳密に管理されています。 **ゲーム「原神」を例に挙げると、「イェランの神聖な遺物は何ですか?」という質問を受けた場合、ヤン・シャオユンは答えをいくつかの段落に分割する必要があります: まず、イェランとは何ですか?第二に、聖遺物とは何ですか？イェランの聖遺物は結局何と一致するのでしょうか？指定された検索エンジンで情報を収集し、回答の編集を完了し、最終的に Markdown 形式で送信します。シンプルで答えやすい質問に加えて、ヤン・シャオユンさんは、経済圏や法律圏など、まったく馴染みのない専門分野にほとんどの時間を費やしました。明らかに、これはこれまでのデータ アノテーション作業とはまったく異なります。 **大規模なモデルが登場する前は、データ アノテーションのシナリオは通常、数百人がいる工場で行われ、各人がコンピューターを持ち、マウスとキーボードの音だけが聞こえていました。そして、1 日 8 時間の労働時間中に、彼らは単純で反復的なことを 1 つだけ行うだけです。それは、自動車、非自動車、歩行者、信号機 (目標検出) を異なる絵の中に入れること、または段落の主題である述語に下線を引くことです。オブジェクト (セマンティック セグメンテーション)。写真やビデオのこれらの描画ボックスやテキストのセマンティック セグメンテーションはすべて既存のデータの処理であり、データ アノテーター自体が「創造的な結論」を与える必要はありません。ただし、大規模なモデルのデータ アノテーションの場合は当てはまりません。データ アノテーターは、既存のデータを処理するだけでなく、質問に答えて正しい結論を与える必要もあります。 **2023年にGuanyan Tianxiaデータセンターが発表した「中国のデータアノテーション業界の現状に関する詳細な分析と投資動向調査報告書（2023-2030年）」によると、ChatGPTのリリース前は、AIトレーニングデータアノテーションが主にベースになっていました。音声、コンピュータ ビジョン、自然言語に関する処理 (NLP) の需要は 15% 未満です。ChatGPT チャットボットが AIGC の驚異的なアプリケーションとなるにつれて、感情的な判断、理解能力、さらには推論能力など、高品質のテキスト注釈タスクに対する需要が高まっています。「（大規模モデルの）プロジェクトの複雑さは以前よりも高くなっており、人材に対する要件も相対的に異なります。」とスターダストデータ製品部の担当者は「Jiazi Light Year」で「部分的な視覚情報の認識とアノテーション」について語った。自動運転の場合、より肉体的な作業となるため、従業員にある程度のトレーニングが必要です。従業員が箱の引き出し方を学び、ショートカット キーを習得し、いくつかのスキルを習得すれば、すぐに有能になることができます。** しかし、大型モデルに必要なのは、完全で高度な作業です。構造化された、モデルの構築と改善をサポートするために 4 つのデータ層を必要とする、多様で包括的なデータ システムです。これらのデータには、事前トレーニング、SFT (教師あり微調整)、RLHF (人間のフィードバックに基づく強化学習、さまざまな業界のニーズに応えて、COSMO 大規模モデル データ ピラミッド ソリューションをリリースしました。大規模モデル データのアノテーターにとって、COSMO データのラベル付けは多肢選択式の質問ではなく、簡単ですか。読解やテキスト編集の代わりに、質問と回答を作成し、コンテンツを作成できます。**」クラウド測定データのゼネラルマネージャーである Jia Yuhang 氏は、最大のモデルのトレーニング データを基本データ、シーン データ、シーン データの最適化の 3 つの段階に分けています。 **彼はこれら 3 つの段階を学習のプロセスに例えました。「ボックス描画などの基本的なデータアノテーションは比較的簡単で、コンピュータの操作を覚えればすぐにマスターできます。シーンデータは、特定のリンクで対象を絞った研究開発に必要な特定分野のデータであり、関連する知識を学ぶ必要があります」注釈の要件を達成するためのドメイン知識。第 3 段階までに、使用中の継続的な反復と最適化に基づいて、スキルとドメイン知識の要件がさらに洗練されるでしょう。」と Jia Yuhang 氏は述べています。このような仕事需要の下、データアノテーターの需要を持つ大手モデル企業が増えており、これまでの低学歴から高学歴へと変化し、その需要は高まっています。現在、国内の主流の求人検索プラットフォームでは、大型モデル向けのデータアノテーションのポジションが多数募集されています。これらの役職には、アノテーターには学士以上の学位が必要です。 Baidu は以前、海口にある大規模なモデル データ アノテーション ベースには数百人のデータ アノテーターがおり、学部生率は 100% に達していると述べました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b680b8b2e1-dd1a6f-6d2ef1) 画像出典：BOSS Zhipin & Maimai## **2. 過酷な大規模モデルデータの注釈**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e585c802cd-dd1a6f-6d2ef1) 一般に、大規模なモデルをトレーニングするには、次の 3 つの手順が必要です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-76014eea82-dd1a6f-6d2ef1) 出典：OpenAI「ChatGPTの紹介」これらの繰り返し作業の背後には、実は「人間のフィードバックからの強化学習」という技術の実現があり、GPT-3.5の最大の改良点はここにあり、鍵となるのは人間（ラベル作成者）の参加、つまりデータアノテーターです。RLHF の上記 3 つのステップのうち、ステップ 1 とステップ 2 は報酬モデルのトレーニングに必要なデータ品質のレベルを決定するため、比較的重要です。これら 2 つのステップにおけるデータ アノテーション インターンも、「編集グループ」と「並べ替えグループ」の 2 つのコア グループに分かれています。 **編集チームの仕事は質問バンク内の質問に答えることであり、並べ替えチームの仕事は生成された回答 (モデルおよび人工的に生成された回答を含む) をランク付けすることです。丁暁宇氏は7月にコピー編集者に加わった。同じく英語を専攻しているディン・シャオユウさんとチェン・シーさんは、専門レベルを向上させることができる翻訳の仕事を楽しみにしていますが、彼女の仕事は実際には英語とは関係ありません。2月にヤン・シャオユンがインターンしていた時と比べ、丁・シャオユーが直面するコピー編集チームはより細分化されており、各インターンはエンターテイメント、物理、政治などの縦方向を選択しなければならず、回答要件もより多くなっている詳しい。古代詩に関する多肢選択問題の場合は、単に答えを説明するだけでなく、最初に問題の種類を紹介し、次に詩の翻訳と背景を説明し、最後に各選択肢が正しいかどうかの分析を行う必要があります。 OpenAIが14日にリリースした3月のGPT-4に対するベンチマークを行うことだ。「その答えを参照する必要がありますが、その答えと同じであってはならず、その答えよりも優れたものでなければなりません。」 丁暁宇は無力でした。Chenxi さんは分類グループに割り当てられ、質問に対する複数の回答が毎日分類され、さまざまな回答の長所と短所が判断されました。ランキングの結果は明確に数値化する必要があります。彼女は、有用性、信頼性、関連性、安全性などのさまざまな観点から回答を評価し、その理由を書き留める必要があります。これは、機械が人間が期待する答えに限りなく近づくことを可能にするためです。**Chen Xi さんは、いくつかの間違った答えの中から選択しなければならないことがありました。そして、すべての答えが悪かった場合、彼女は自分自身により良い答えを書くように求められました。 **編集チームの丁暁宇は、さらに厳しい要件に直面しています。各回答は、配信の資格を得る前に 2 ラウンドのレビューを受けます。 1 つ目はチーム リーダーからのもので、「いくつかの質問を完了した後、チーム リーダーが変更に満足するまで、問題点を見つけるための検討会議を開きます。」 2 つ目は本社からのもので、そうではありません。本社の審査が通過するまで終了します。かつて、書式エラーにより、Ding Xiaoyu の回答のほとんどは完全に間違っていると判断されました。 「順番を調整するだけならまだしも、回答内容が間違っていようが、形式に問題があろうが、彼らは気にしません。ただ、すべてが間違っているだけです。」丁暁宇さんをさらに打ちのめしたのは、チームリーダーが「またあまりにミスを犯したら解雇するかもしれない」と直接明言したことだった。**大規模モデルのデータ アノテーションは、完全に結果指向の仕事です。どれだけ努力をしても、結果が悪ければそれまでの努力はすべて無効になってしまいます。 **しかし問題は、編集グループの回答出力にしても、仕分けグループによる回答の仕分けにしても、非常に主観的な作業であるということです。データ アノテーションのインターンにとって、回答が良いか悪いかをコントロールすることは困難であり、インターンごとに同じ質問に対して異なる回答が返されることがよくあります。**この問題を解決するために、大規模モデル データ アノテーション チームが毎日実行しなければならないタスクの 1 つは、社内で「検討会議」 (通称「レーシング ミーティング」) を開催することです。誰もが理解し、すべての提案が一致します。 **ただし、正確な位置合わせを達成することは非常に困難です。これは大学入試の採点と同じで、同じ問題を複数の人に与え、点数がばらついた場合には、統一された点数が得られるまで修正を続ける必要があります。Chen Xi 氏の印象では、毎日 2 ～ 3 時間は会議に費やされています。会議が終わるまでに、少数派が多数派に従うという、最も単純かつ粗雑な解決策が最終決定されることがよくあり、彼女はそれを「価値のない価値の創造」と表現しました。ただし、全員が一緒に座って回答基準を「人為的に」揃えるのと比較すると、さらに厄介な問題があります。** 基準は人為的に一度に揃えられるわけではなく、モデルの出力からのフィードバックに基づいて常に調整する必要があるということです。 **毎日仕事に行くとき、ヤン・シャオユンさんはまず、その日に新しい注釈標準が発行されたかどうかを確認する必要があります。その内容は、解答の枠組み、段落の分割、検索エンジンの選択、フォーマットに至るまで多岐にわたります。スペースと句読点。しかし、** 基準は常に変化しています。 **供給されたデータがマシン上で機能しないことが判明すると、標準を再策定する必要があり、すべての問題が覆されて書き直されることになります。「織物のようなものです。横目を織るか、縦目を織るか、ゴマボタンを織るか、麦ボタンを織るか。でも、どんなボタンであっても、プログラムに入れて実行することしかできません。実行できないとわかったら、方法を変える必要がある」とヤン・シャオユンが「Jiazi Guangnian」に説明した。この比喩の背後にあるのは、報酬モデルのトレーニング プロセス中に、データ アノテーションによって与えられた回答が期待される効果を達成できない場合は、基準を調整する必要があるということです。基準の変更は、前回の調整会議の結論が無効となり、基準を再度調整する必要があることを意味します。「冗長で効率的で、毎日とても効率的にくだらない話をしている」とヤン・シャオユンは不満を漏らした。## **3. 大工場で搾取される成績優秀な学生**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e585c802cd-dd1a6f-6d2ef1) 毎日延々と開催される収集会議がある一方で、いつ変更されるかわからないデータ標準があります。陳熙のように、大工場のきらびやかな看板に惹かれた優等生の多くは、内部抗争によって当初の熱意を失い、最終的には退職を選択した。**これらのインターンに共通する特徴は、高い教育を受けていることです。募集要件は学士以上ですが、修士号を取得しているインターンも多くいます。 **彼らの多くは中国、さらには世界の一流大学で教育を受けています。ヤン・シャオユンさんの周りには北京大学とロンドン・インペリアル・カレッジの学生がおり、チェンシーさんのワークステーションの隣にいるインターンは南開大学と中国電子科学技術大学の学生で、丁暁雨さんは研修中にインターンの学歴について明確に知らされていた。上映されました。 「彼（面接官）は、私たちのような高学歴の大学生は物事をすぐに覚えて簡単に始めることができると言いました。」**賢い人々のグループを管理するのは決して簡単ではありません。なぜなら、こうした人々は、繰り返される行動の中から自分の仕事の本質を簡単に発見し、この仕事が自分の将来にとって本当に価値があるのかどうかを疑うことができるからです。 **ディン・シャオユーは自分の仕事を「ほとんど価値がなく、非常に内面を消耗させる」と述べた。彼女は毎朝ワークステーションに来ると、ディスプレイ画面とノートを開いて、ディスプレイ画面に答えを書きながらノートでルールを確認しますが、細かいルールや手順によって徐々にスペースが失われていくのをはっきりと感じています。考えると彼女の規律は機械になります。 「何かを学ばず、他のことを学ぶエネルギーがなければ、徐々に学ぶ意欲や他のことをする熱意を失ってしまいます。」Ding Xiaoyu 氏も減感作チームで働いたことがありますが、実際の作業は「減感作」という言葉とは基本的には関係なく、さまざまなチャットボットや社内のベータ製品を使用して同じ質問に答え、その回答を比較してスコア付けしているだけです。数日間勤務しただけでテキスト校正チームに異動となり、彼女がしなければならなかったのは、PDF 形式を Word 形式に変換する際に発生したエラー、主にタイプミスや句読点などを修正することでした。彼女は「ほぼ崩壊」と表現したプロセスで、毎日 25 ページの医療関連の間違い修正タスクを完了しました。面接の過程で、面接官は丁暁宇さんに、退屈で繰り返しの多い仕事を引き受けてもよいかと尋ねました。 「当時の私の答えは、許容できるというものでした。すべての候補者の答えが許容されるべきだと思います。」 なぜなら、彼は学部時代にインターンシップの経験が 1 回しかなく、さらに多くのインターンシップを積み上げて大企業を経験することを期待していたからだ。疑いを持ちながらも、Ding Xiaoyu 氏は会社に入社することを選択しました。丁暁宇はわずか2ヶ月で、同期のインターン生の中で最後まで粘り強く頑張った人とみなされるようになった。彼女は、多くのインターンが高い志を持って入社し、その後頭を下げて去っていくのを目の当たりにしました。人類学者のデビッド・グレーバーは、ブルシット・ジョブを「意味も目的も持たない仕事」と定義しています。機械自動化によって排除されるべき仕事は、粉飾決算や上司のご機嫌を取り、システムの抜け穴を埋めるために存在し続けています。データ アノテーションは、機械に置き換えられたとよく考えられているブルシット ジョブのバリエーションのようなものですが、それでも人間が行う必要があります。人工知能の流行が到来すると、AI が人間に代わって反復的で退屈なタスクを完了できるようになり、それによって人間はより創造的で充実した仕事を追求するためにより多くの時間とエネルギーを得ることができるようになるという期待をよく耳にします。しかし、電話やタイプライターなどの過去の省力技術と同様に、人工知能が情報伝達や手書きの苦痛を克服する可能性もありますが、同時に新しい人工知能の実行を必要とする大量のコミュニケーションや事務処理も発生します。フロント、事務員などの管理職。 AI は人間に取って代わることはできないかもしれませんが、より単調で退屈で孤立した仕事を生み出すことになるでしょう。**自分の仕事の価値を認められないことに加えて、彼らが受け取る給料では、これらのトップの学生は「価格の認識」を達成できない可能性があります。 **『Jiazi Guangnian』によると、これらのデータはインターン生の給与が高くないことを示しているという。一級都市に住んでいれば、ほとんどの人工知能インターンの給料は部屋手当と無料の食堂付きで日給150元だが、二級都市に住んでいれば手元に残るのは1日あたり100元だけだ。 2. 無料食事の代わりに 20 元の食事補助が適用されます。丁暁宇さんの二級都市でのインターンシップと同様、オフィスが市の中心部に位置し、その地域が繁栄しているため、持ち帰りの食事は20元の食事補助基準を軽く超え、基本的にインターンシップの給与の返済が必要となる。彼らのほとんどは大規模なモデルをトレーニングするための基本的なアノテーターにすぎないため、専門職とまったく関係のないポジションに一律に割り当てられることもあり、いつでも別の部門に異動する可能性もあり、短期間ですぐにスタートすることが求められます。トレーニング。**丁暁宇は彼らを、大規模な工場で利用されたインターンの集団だと表現した。 **Chen Xi さんは、期待と実際の仕事との間にギャップを感じているのは自分だけではないことを明らかに感じていました。 「はっきり言って、この仕事は自分には向いていないと感じています。雑談をしていると、他のインターン生は学士号985点を持っている人もいれば、海外から修士号を取得して帰ってきた人もいる。そのギャップも大きいです」 、 とても大きい。"ヤン・シャオユンはそれをより直接的に表現し、「不適切な比喩かもしれない。私の母は高校を出たので、この仕事ができる」と語った。## **4. 「私たちは実際には流れ作業員です」 **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e585c802cd-dd1a6f-6d2ef1) 実際、政府は優秀な学生をローテクの仕事に就かせ、非常に低い給与コストを支払っていますが、これは大規模モデル データ アノテーションの開発の初期段階における市場の混乱を客観的に反映しているものでもあります。 **データ アノテーション会社の場合、現在の大規模モデルの開発段階では、データ アノテーションはまだ統一された標準を形成しておらず、アノテーターに対する特定の要件はありません。スターダストデータ製品部の担当者は「大規模モデルの基本機能が完成し、開発プロセスがより垂直的かつ複雑になり始めると、タスクは徐々に変化し、ツールや人材の更新と反復が必要になる」と述べた。ただし、大規模モデルはまだ開発の初期段階にあり、アノテーターに対する市場の需要はタスクによって異なります。CV (コンピューター ビジョン) プロジェクトと比較して、NLP (自然言語処理) アノテーターには理解力に対する要求が高く、専門用語や専門分野の知識に対する要件がより高く、正確で信頼性の高いコーパスを提供する必要があります。」担当者は、大規模なモデルがデータアノテーションにもたらす問題は、トップレベルの設計により反映されると述べた。データアノテーションタスクごとに、顧客のアプリケーションシナリオの要求を理解し、効率的かつ低コストで実装できるデータ選択、データ分散設計、パイプライン設計などの一連のソリューションを設計し、効率と機能を向上させる方法プラットフォームツールの活用が鍵となる より大きな課題。これは、垂直ドメインの専門家が上級アノテーターとして参加し、ソリューションの設計にドメインの専門知識と経験を注入し、さらにはデータ品質検査の反復プロセスに参加することに依存しています。データ ソリューション プロバイダーである Besai Technology の運用責任者、Zhang Ziqian 氏は、現時点では、大規模モデルのトレーニングに関して、基本的なアノテーターと、以前にフレーム選択に従事していたアノテーターとの間に、作業の難易度や時給に明らかな違いはないと率直に述べました。 。 **大規模なモデルを微調整し、顧客向けの垂直分野のソリューションを作成する場合、最大の問題は高品質のデータセットをどのように構築するかであり、そのためには IT、医療、金融などの専門分野の専門家をラベル付けする必要があります。希少性。OpenAI は、データ アノテーションの指導とレビューに数十人の博士課程の学生を投資し、基本的なデータ アノテーションをアフリカやインドなどの低所得地域に点在するデータ アノテーション会社に委託しました。 **本当に違いを生むのは上級アノテーターですが、その割合はわずかです。 **Baidu が北京本社と海口データ アノテーション ベースで採用したアノテーターの職務内容を比較すると、彼らも大規模モデルのトレーニングを担当していることがわかります。前者は指導、トレーニング、レビューを担当する上級アノテーターであり、後者は上級アノテーターです。基本的なデータ アノテーター。この 2 人の給与レベルは大きく異なります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-204ce6d158-dd1a6f-6d2ef1) 画像出典：BOSSダイレクトリクルーティング**言い換えれば、これらのより高いレベルの上級アノテーターは、実際には大規模モデルのトレーニングの主要な人材であり、彼らの仕事はより技術的で価値があり、人件費も高くなります。 ****対照的に、たとえ名門校のインターンが大規模モデルを訓練するために来たとしても、現段階では彼らは過去のデータアノテーターと本質的に同じです。 ****インターンたちはよく、自分たちは大工場ではなくインターネットフォックスコンで働いている、組み立てラインの労働者だ、と仲間内で冗談を言います。彼らは自分の仕事の結果が最終的にどこにつながるのかを知ることができず、周囲の人々と意味の横の連鎖を生み出すこともできません。 **この「インターネット Foxconn」ジョークは、これらのインターンの仕事だけでなく、工場の組み立てラインとほぼ同等の作業量と管理モデルにも言及しています。インターンが毎日完了しなければならない作業量には、所定の人間効率のレッドラインが設定されています。ヤン・シャオユンさんの場合は、1 日あたり 32 問の質問にマークする必要があり、赤線に達していない場合は、理由を報告するか、残業する必要があります。この作業を完了するための前提条件は、常に変化するラジ協会の基準と継続的な情報収集です。モデルのトレーニングをできるだけ早く完了するために、アノテーション チームは高圧的な管理に直面しています。ヤン・シャオユンのグループは、勤務時間中に話すことを禁じられています。ほんの少しの雑談の代償が仕事量に追加される可能性があります。仕事を完了できなかった場合は、グループ内で必死に注意されます。たとえ体調が悪くて尋ねたとしても休暇中は、正規の従業員からの緊急の電話によって中断される可能性があります。さらに、データが漏洩しないようにするために、グループ間でのデータ アノテーションの交換は明示的に禁止されています。異なるグループのインターン生が近くに配置されても、仕事内容について話し合うことはできません。これらのインターンは誰も、会社のデータラベル付けに細分化されたグループがいくつあるか、インターンが何人いるかを知りません。グループには、各フロアに 10、40、50、60 人、または数百人がいる場合があります。高圧的な人間効率のレッドラインの下では、禁止された質問に遭遇したとき、ヤン・シャオユンは一時的に「幸せ」になることしかできません。暴力、ポルノ、ゴアを含むコンテンツは直接削除する必要がありますが、それでも個人の作品としてカウントできるためです。 「悪いネジを締めるのと同じです。ネジを締めなくて済むと喜ぶだけです。」午前中の分業では、実習生同士で禁止品の獲得を競う場面もあった。ヤン・シャオユンさんは仕事を早退した後、夜の10時、さらには12時になってもまだ会社に集まっているインターン生のモーメントを頻繁に訪れた。泣きながら音声メッセージを送ってくるインターン生もいるが、家を借りて出られないため、粘り強く続けられなければ家賃がすべて無駄になることになる。## **5. ここでは人が不足することは決してありません**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e585c802cd-dd1a6f-6d2ef1) しかし、忍耐しなかったのは人々ではありません。Li Zhuxi は、データ アノテーションの経験を持つ数少ないインターンの 1 人です。彼女は認知言語学を研究しており、言語学と神経学を組み合わせたり、脳とコンピューターのインターフェースの確立を含む脳画像の観察を行ったりする方向性は、人工知能と一定のつながりがあると説明しました。この大きな工場に来る前、彼女は別の大きな工場で大規模な言語モデルのデータ アノテーションを行っていましたが、それは ChatGPT がリリースされる前でした。 Li Zhuxi 氏の印象では、ChatGPT が世に出た後、同様のデータ アノテーション インターンシップが雨後の筍のように増えました。彼女は、それを「比較的機械的でそれほど難しくない」仕事だったと述べながらも、3か月のインターンシップを無事に終えた。 Li Zhuxi 氏は、経験を重視していると述べました。「この仕事が面白いとは思っていません。それでも経験することは良いことです。大規模な工場でインターンシップの経験を積むだけでなく、ここの独特の企業文化も経験します。」 」双飛市の学校に通う文系学生である趙朔さんにとって、大規模工場での人工知能編集のインターンシップのポジションは、上級レベルの選択でした。夏休みのインターンシップを探していたとき、実際は研究機関での業務職を希望していました。研究機関は公的機関であり、スタッフもいるという点が趙朔にとって非常に魅力的でした。「当時、特に楽しみにしていたのは、それが私に与えることができるフィードバック。」しかし最終的に、研究所は大学院１年生だった趙碩さんを選ばず、さらに上の学年の学生を採用した。もっと「カール」している人もいます。趙朔氏の目では、一部のインターン生は正社員になる機会を求めて特に熱心に働き、より多くの仕事を引き受けるだろう。真面目な姿勢と勤勉な姿勢は正社員の支持を得ることができ、「リーダーは彼らと一定のやりとりをすることが多く、インターンを管理するための管理権限も与えてくれます。」同社は優秀な成績を収めたインターンを毎週選出し、その写真を壁に貼って表彰することもあるが、必ずしもボーナスのインセンティブがあるわけではなく、Zhao Shuo の事業分野にもボーナスは存在しない。Yunmei Data のゼネラルマネージャーである Jia Yuhang 氏は、Jiaziguangnian に対し、データ アノテーターには 2 つの主な昇進ルートがあります: 1 つはエキスパート ルートです。特定の垂直分野で関連スキルを習得した後、ジュニア アノテーターは徐々に上級アノテーション エキスパートになることができます。マネジメントルートを経て、プロジェクトのマネージャーとなる。しかし趙朔は留まることを選ばなかった。大学院に通って 1 年後、Zhao Shuo さんは、将来の仕事に対する期待が下がっていることにはっきりと気づきました。一般環境の変化の増大を感じ、卒業後に就職を選択する学生の不満を観察すると、趙碩さんは以前期待していた「高級で洗練された」「かけがえのない」仕事が徐々に安定した仕事に取って代わられた。文系学生として、かけがえのないスキルをまだ身につけていないことに不安を感じており、企業内で管理される仕事に就きたいと考えている。インターン生たちは雑談しながら、自分たちがやっている仕事が近いうちに機械に取って代わられ、手動でのデータ入力が不要になるかもしれないと嘆き合っていた。クラウド測定データのゼネラルマネージャーである Jia Yuhang 氏には、同様の懸念は存在しません。実際のアルゴリズムの大量生産とデータの閉ループ機能の強化に伴い、ラベル付きデータの総量と手動によるデータラベル付けの量は依然として年々増加しています。以前は 100% 手動アノテーションでしたが、現在は手動アノテーション、自動アノテーション、手動検証が一定の割合で行われています。将来的には、自動ラベル付けの割合がますます大きくなる可能性があります。ただし、手動アノテーションの割合は減少していますが、人工知能産業が徐々に発展し、データ量が増加するにつれて、手動アノテーションの量は増加し続けるでしょう。ヤン シャオユンさんは早期に仕事を辞めた後、気に入ったゲーム プランニングのインターンシップを見つけました。そこでの職場の雰囲気はリラックスしていて、よりやりがいを感じました。人工知能の編集は、彼女にとって「不運な」インターンシップの経験でした。丁暁宇さんにとって、それは幻滅の過程でした。たとえ楽しみにしていた大規模工場でのインターンシップに行ったとしても、退屈な仕事が数えきれないほど続くのです。これは自分の能力が低いからかもしれないと感じました。十分か、経験の機会が少なすぎます。しかし、そこに人が不足することは決してありません。ヤン・シャオユンさんは、彼女が辞めた後、1か月以内にチームが数十人から数百人に拡大したと聞いた。 Ding Xiaoyu 氏は、10 日ごとに新しいインターンのグループが来て、それぞれのグループが 20 ～ 30 人であることを発見しました。「あなたは自分の仕事がいかにひどいかを世界に罵りながら去っていくかもしれませんが、あなたの代わりに新しい人が続々と入ってくるでしょう。」\*取材対象者の希望により、記事中の陳希、楊暁雲、丁暁宇、李朱熙、趙朔の登場人物は仮名です。