This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Foxconnの従業員がAIラベル付け工場に流入
出典: タイムズ・ファイナンス
今年上半期、一級都市のテクノロジー界は人工知能によって活性化された。
Wenxin Yiyan、Tongyi Qianwen、Light Years Away などの大型モデルが熱狂の波を送っており、トップレベルのリソースを持つ大物たちがこの壮大なイベントの中核に立ち、ヒーロー投稿を次々と発信しています。大物モデルタレントの争奪戦も勃発している。
AI産業チェーンと密接に結びついているリンクとして、北京から500キロ離れた山西省の太原データ産業基地は静かで、数千人の人工知能ラベラーがここに集まっている。彼らが話した話題は、プロジェクトの進捗状況、基準に合わせて箱を描く速度、そして 1 日 3 回の食事についてでした。
「興奮は彼らのもので、私たちには数え切れないほどの箱しかありません。」とデータラベル作成者はTimes Financeに語った。
データラベル会社のオーナー、He Qing 氏の記憶では、この興奮は 4 ~ 5 年前に起こりました。この中西部の都市に初めて人工知能の春風が吹き、敏感な実業家たちは領土を定めて人材を募集し始め、人工知能に「栄養」を着実に供給し始めた。彼らのほとんどは人工知能の素人ですが、突然の膨大な労働需要のため、彼らは最先端のテクノロジーと素晴らしいつながりを持っています。
「当時、多くの上司が家族全員をここに連れてきていました。指を動かすだけでお金を稼ぐことができました。」 He Qing 氏は、データ ラベリング業界で多くの刺激的なニュースを聞いてきました。3 か月以内に数百万を稼ぐ人もいます。その他 取得した注文は 2 年目まで待機することができます。
しかし、そんな楽しい日々は徐々に消え去っていきます。
まともな「パイプライン」
午前8時45分、密集した人々がエレベーターの入り口を塞ぎ、最初のエレベーターに押し込められたのは3分の1だけで、全員の最終目的地は6階だった。
エレベーターのドアがゆっくりと開くと、群衆は四方八方に広がり、何の違いもないオフィスへと足を踏み入れ、約100平方メートルの空間は数百台のコンピューターで埋め尽くされた。
「家番号をたどって一軒一軒尋ねれば、すべてデータがマークされます。」 公園の 1 階にある物売りは、このように説明しました。
千人近い人が集まるこのデータラベリング基地は、まるで公園にひっそりと佇む隠れ家的なインターネットカフェのようで、コンピューターの前に座った人々はキーボードやマウスを器用にクリックし、約1平方メートルの机が占領されている。巨大なコンピューター。
彼らの個性を示すことができるのは、頭にかぶるカラフルなヘッドフォンだけであり、データラベラーという共通のアイデンティティを持っています。
マウスで左右のボタンを前後にクリックすると、画面上の写真が拡大縮小し、カーソルがさまざまなサイズのフレームをすばやく描画します...この繰り返しの動作が 30 分続いた後、メイリンは首を少しひねりました。と背骨の骨がギシギシと音を立てた。
「初心者にとっては最初の 1 週間を乗り切るだけで十分です。熟練していればすぐに慣れるのです。」メイ リン氏は画面を見つめながらタイムズ ファイナンスに語った。最初の週。
職長の周さんは2週間ごとに十数人の新人を率いて見習いを始めるが、そのような反復的で退屈な仕事に多くの若者は意欲を失っている。
2 年前、メイリンさんは幼稚園の先生からデータラベル作成者に転身しました。彼女の故郷の鹿梁市では仕事がほとんどなく、テレマーケティングが評判の良い仕事のひとつとなっているが、現在、人工知能の波の影響を受けて、データラベラーは郡内の女性たちに新たな選択肢を提供している。
半年前、ラベルベースの変更のため、メイリンさんは故郷から省都の太原市に引っ越しました。 「自動運転や顔認証には、大規模なラベル業者の参加は必要ありません。」と誇らしげな表情を見せた彼女は、家族の目にオフィスに座ってコンピューターを操作しており、月収は3000元以上だという。 、治療は郡の大部分を超えており、すでに機能しています。
2005 年、コンピューター ビジョンの専門家である Zhu Songchun 氏は、米国から故郷の湖北省鄂州市に戻り、蓮花山研究所を設立し、中国で最初のビッグデータ ラベリング チームを結成しました。その後、データラベリング工場が徐々に二級、三級都市に根付き、河北、河南、山東、山西などの地域に産業クラスターが出現した。
ラベルトレーニングを繰り返すことで、人工知能は「覚醒」の瞬間に到達することができるが、メイリン氏の見方では、これは幼稚園の先生たちのこれまでの仕事と同じだという。
データのラベル付けは人工知能製品の誕生における最初のリンクであり、次にモデルのトレーニングと最適化、モデル管理、推論アプリケーションなどが続きます。人工知能製品にフィードを与えるには何億ものデータが必要で、それらのデータはまず「美人」のコンピュータに流れ込むことになる。
しかし、メイリンの「ハイテク」への幻想は、機械式マウスの繰り返される音によって少しずつ打ち砕かれた。彼女は、1 日の作業量の限界は 1,500 フレームであると計算しており、この警告線を超えると、眼球が痛くなるそうです。
仕事を終えてテレビに向かっているときでさえ、彼女が目にするのはモザイク状のモザイクであり、拡大した後にマークを付ける必要があるぼやけた写真のように見えます。
「隣の席にはいつも知らない顔がいて、同僚同士のコミュニケーションはほとんどありません。」 同じ基地で働くウー・シアさんは、1年半働いた今でもオフィスの静けさにまだ慣れていない。 。
短大卒業後、当初はクラスメートとともに工場に入ったが、プロジェクトの変更やクラスメートの退職により「ローンレンジャー」となる。仕事が始まるとすぐに、オフィスは自動化された組立ラインが始まる「作業場」となり、冷たい工業的な雰囲気と人間味がほとんどありませんでした。
データラベリング業界の特徴として、個人で個数を数え、チームワークを必要としないことが挙げられ、一般のホワイトカラーとは異なる管理方法となっています。
ここで、ラベラーは固定のポジションを持たず、プロジェクトの変更に応じて、フローの方向に数百人をランダムに割り当てます。プロジェクトは最長で2~3ヶ月、短期でも2~3日程度で、十数人からなるプロジェクトチームには管理者がいて全員の作業進捗を監視しています。
アノテーターは同僚間の関係の管理にエネルギーを費やしません。出来高払い型は効率と集中力を重視し、時間とお金はリンクしています。平均 1,000 フレームを完了するには、1 分あたり平均 2 フレームを完了する必要があることを意味します。
「他の人に話すと、数箱のお金を失うことになるでしょう」とメイリンさんは言う。
Foxconn 従業員がラベル貼り付け工場へ移動
データラベリングパーク内には、技術研究機関や留学生向けの起業拠点も点在しています。 Meng Ran 氏の見解では、これらの「ハイエンド」の地位は彼からは遠く離れています。
大学に入学するまで一度も故郷の臨汾市を離れたことはなかったが、大学卒業後も家族は彼が省を離れないことを望んでいた。基地から2キロ離れたところにフォックスコン太原科技工業団地がある。この工場地帯には最も活発な地元労働者が集まり、ピーク時には 60,000 人近くが工場地帯の組み立てラインで働いていました。
大学生のMeng Ran さんの就活半径は、どれだけ頑張っても半径 5 キロメートルを超えることはありませんでした。彼はかつてデータ ラベリング ベースの第 2 フェーズから第 3 フェーズに移行しましたが、正式にデータ ラベリング担当者になる前に、隣の Foxconn は彼が青春を燃やした場所でした。
孟蘭さんは金を稼ぐために2日連続の休暇をとって工場に入ったことがあるが、そのたびに数千元の給料を受け取って急いで帰った。
毎年冬と夏休みになると、Foxconn キャンパスの入り口は大きなカバンや小さなカバンを持った大学生でいっぱいになります。全員の目標は、年間で最高のリベートと時給を獲得することです。 「誰もが手っ取り早くお金を稼ぐためにここに来ます。そして、繁忙期が終わるとすぐに荷物をまとめて去っていきます。工場は忙しすぎて働くことができず、長期間続けるのは難しいです。」
Meng Ran さんは Foxconn の職場の雰囲気が気に入らなかった。工場に入る前に電子機器を引き渡さなければなりません。毎日直面するのは、同じような服装で急ぐ作業員の群れと、殺風景で寒い工場の建物だけです。不機嫌なチームリーダーに会うと、毎日暴言を吐かれるのが一般的です。
生産ラインが爆音を立てて稼働し始めると、作業員は特定の部品を取り付け続ける必要があり、その作業は10時間以上続くこともよくあります。完全に密閉された空間では、トランス状態ですら贅沢だ。孟蘭さんは、職長が管理を少し緩めるまで、周囲の労働者たちと一言も言葉を交わす勇気がなかった。
2018 年、近くにデータラベリング基地が完成した後、Meng Ran さんは自分の仕事に第 2 の選択肢を選びました。ほんの 1 ブロック離れたところに、より快適な仕事がすぐに見つかります。
Faye Wong は、Foxconn の採用担当者でした。工場の閑散期や人事異動、さらに曖昧なリベートや収入の頻繁な変動により、彼女は出稼ぎ労働者と終わりのない衝突に陥ることがよくあります。
「ここ数年、データのラベル付けの基準は低く、単価は高かった。月収 4,000 元を維持できたし、私が行ったプロジェクトはすべて大規模な工場に関連したもので、比較的安全でした。」 Faye Wong 氏多くの熟練労働者が別の仕事を求めて基地を離れ、邪魔にならなかったものの、再び円環状に戻ってきたのを見てきました。
多くのアノテーターは、Meng Ran と似たような仕事の経歴を持っています。エレクトロニクス工場での勤務経験が履歴書の共通点となっており、データ アノテーション工場は、エレクトロニクス工場を辞めた後の次の目的地となっています。
多数の労働者、多額の収入、簡単な運営という共通の特徴により、2 つのスーパー ファクトリーを仮想的に接続する 2 キロメートルの橋が建設されました。
消滅したプロジェクトと会社
ラベラーにとって、良い時代は終わりに近づいているというのが直感です。
単価数セントのプロジェクトが消滅し、ラベルボックスの価格が数セントに値下げ、単純な平面描画点描画ボックスが消滅し、多次元ラベル付けが必要な点群プロジェクトに代替、正社員化彼らは徐々にプロジェクト チームから離れ、費用対効果の高いトールのインターンが仕事量の半分以上をサポートしました。
データラベル会社のオーナーであるヘ・チンさんは半年も基地に行っておらず、会社への投資を徐々に減らしている。
昨年下半期以来、彼女のチームは顧客からの注文が多いプロジェクトを受注できなくなり、顧客への請求期間が 3 か月から半年に遅れました。 「キャッシュフローが不十分で資本を調達する能力がない多くの小規模工場が閉鎖され、私たちのチームメンバーは3分の1を失いました。」
3 年前、コールアウト フレームをきっかけに熱意に火がついたリー ウェイさんは、奥手でコミュニケーションが苦手でしたが、「選ばれた」仕事を見つけたと感じていました。
リー・ウェイさんは単価0.25元でプロジェクトを引き継ぎ、効率が良かったときは1日1200枚のフレームを描き、月に8000元近くを稼ぐことができた。 「家でもできる。上手になれば収入も増えるよ」
他の皆と同じように、リーウェイもゴールドラッシュの時代は終わったと漠然と感じていました。
同社はまったく新しいプロジェクトを立ち上げました. 私たちの前に提示されているのは, もはや現実世界のロードマップではなく, 何千もの緑、紫、青の点で構成されるモデルマップです. 完成した画像には、ほぼ次のものが含まれていますマークされたボックスが 100 個あり、質問セットはわずかな違いしかない数十枚の写真で構成されています。
「平面図と3Dを何度も切り替える必要があります。一部のブロックされた絵は頭脳で補わなければなりませんし、フレームの精度も0.01メートルで管理する必要があります。作品のコストパフォーマンスは低くなり、要求範囲からあと1mmでもずれると容赦なくレビューで叩き返される。
データ、計算能力、アルゴリズムは人工知能の 3 つの基礎です。データの量が多く、品質が高ければ高いほど、より成熟した大規模モデルをトレーニングできるようになります。これは、アノテーターの精度を常に向上させる作業に現れています。 。
「ここ数日でルールが調整され、精度要件が 80% 以上に引き上げられました。」 精度はラベリング担当者にとって「死点」となっており、精度はラベラーがラベルを作成する際に出現する頻度の高い語彙でもあります。不平をいう。
マークされた写真は、レビューや品質検査などの 2 ~ 3 つのステップを経なければ、決済サイクルに入ることができません。
時々、ウー・シアさんは複雑な迷路に閉じ込められ、どうやっても抜け出せないように感じました。彼女は 1 週間近く新しいプロジェクトに悩まされていました。質問を送信している間も頻繁に電話がかかってきて、不安に陥っていました。 「質問が頻繁に返されすぎると、他の人に質問が割り当てられ、以前のエネルギーが無駄になります。」
孟蘭の不安は別の種類のものでした。昨年の 8 月以降、彼の仕事はよりリラックスし、過去 5 分間で数万件のデータが蓄積され、30 分間は負荷の赤線が表示されなくなりました。
「プラットフォーム上のデータ量が減少した可能性があります。あるいは、マシンレビューの効率が向上した可能性があります。」Meng Ran さんの不安感はすぐに裏付けられました。 1~200元から数百元、数十ドルに下がりました。
大手代理店の間でノックアウトレースが広がった。 Meng Ran 氏は、一夜にしてチームが解散し、賃金未払いの従業員十数人が会社を労働局に告訴したのを目撃しており、状況がもう少し良くなれば、彼らはコンピュータと従業員とともに次のエージェントに異動することになるだろう。
「念のため、30人以上のチームに行きましょう。」 これは、Meng Ran の新人へのアドバイスです。
アノテーターは歴史の舞台から退きつつあります
1週間のトレーニングと半月の新人期間を経て、今年5月に湖南省にいたXiaoting氏はようやくデータラベラーとしての仕事に適応したが、会社が消滅するまで急速に衰退していくのを目の当たりにした。
「入社して1か月も経てば、会社は立ち行かなくなるでしょう。上司は全員に別れの食事をご馳走しますが、給料は数か月待たなければなりません。」 Xiaoting氏の見解では、現在のデータラベリング業界は問題でいっぱいだ。 「地雷」であり、リスクは収入よりもはるかに大きいです。
データラベル付けの起業家であっても、何万人ものラベル作成者であっても、大規模モデルの段階では手動によるデータラベル付けが徐々に重要でなくなりつつあるという事実を避ける方法はありません。
メイリンさんの幼稚園の先生の仕事と違うのは、生徒が先生の仕事をすぐに引き受けないことです。現在、ラベラーが培ってきた大型モデル技術がデータラベリングプロセスに急速にフィードバックされています。
テスラを例に挙げると、2018 年以来、2D 手動ラベリングから 4D 空間自動ラベリングまで、自動ラベリング技術を継続的に開発してきました。テクノロジーの進歩により、手動ラベル付けの作業スペースが奪われ、2021 年にはテスラの手動ラベル付けチームは 1,000 人を超え、2022 年には 200 人以上の従業員が解雇される予定です。
Xiaopeng Motors や Momo Zhixing などの他の自動車会社も、自動ラベル付けツールを発売しています。 Momo Zhixing の CEO、Gu Weihao 氏は、現在、車線、交通参加者、信号情報を取得するために手動でラベルを付けるコストは写真 1 枚あたり約 5 元であるのに対し、Momo DriveGPT のコストはわずか 0.5 元であると公に述べました。
2019 年、一級都市で AI データ トレーナーを務めるウー ディさんは、キャリアの限界を予感していました。彼の会社では、電子商取引プラットフォーム向けのスマート カスタマー サービス プロジェクトの開発を担当していました。その進歩は想像以上に早く、1 年も経たないうちに、彼が担当していた 10 人からなるデータラベル付けチームは解散し、散発的なオペレーターだけが残った。
「プロジェクトが成熟し続ける日が、私たちが必要とされなくなる日です。」
大型モデルの進化は激流のように、常にある瞬間に奇襲を仕掛け、人工チームを置き去りにします。
今年3月にチューリッヒ大学が発表した調査報告書では、15種類のラベリングタスクにおいてChatGPTの処理能力がクラウドソーサーよりも高いことが実測により研究者らによって判明した。
今年4月初め、医学生の李傑さんは医療分野の大規模工場のテキストラベリングを1カ月以内に完了し、このプロジェクトはインテリジェントな診断と対話サービスの提供に活用される予定だ。初めて感じる大型モデルの進化、スピード。
「最初は分類された医学用語をプラットフォームに供給し続けましたが、2 週間目にはシステムが基本的な名詞の分類を自動的に実現できるようになり、正解率は 90% を超えました。」
山西省太原市では、基地の責任者である周さんは、何度も棚上げされるプロジェクトのプレッシャーに会社が耐えることが困難だったため、より困難なプロジェクトを引き継ぐよう新人たちを説得し始めた。 「現状、ラベル貼り事業は簡素化すればするほど利益が薄くなり、半分完成すると黄色になってしまうプロジェクトもあり、人件費だけではプロジェクトの収入をまったくカバーできない。」
データラベル業界の採用担当者はタイムズ・ファイナンスに対し、今年以降、採用の基準が短大生から学部生へと徐々に移行していると語った。 「これまではラベル作成者に基本的に経験要件はありませんでした。現在では多くの企業が、新入社員が直接プロジェクトに取り組み始められるようにすることで、初期研修コストを削減できることを期待しています。」
現時点では、インテリジェントラベリングはオブジェクトの基本的な形状と位置を大まかに捉えることができますが、精度の点ではまだプロのラベリングに遅れをとっています。
スマートラベリングがいつ大爆発を起こすかは誰にもわかりませんが、リーウェイさんは常に不安感を抱えています。彼女が新しいプロジェクト ページを開くと、スマート ラベルを表す赤いボックスが常に最初に表示され、まるで画面の前にいる人々に常に次のことを思い出させるかのようになります。
ある日、それが彼女の代わりになるでしょう。
(この記事のインタビュー対象者はすべて仮名です。)