しかし、それだけではありません。 **さらに大きな問題は、自動ラベル付けが彼らが持つ唯一のプロジェクトを使い果たしているということです。 ** Dai Yan のようなデータラベラーによって訓練された AI は、人間の監督の下で学習し、自らをラベル付けします。
自動ラベル付けは企業コストを大幅に削減し、データラベル付け市場で最も有望な方向性となっています。
だいやんさんは「AIが人間に完全に取って代わるかもしれない」と覚悟しなければならなかった。彼はチームを率いて、テキスト注釈カテゴリで教材の注釈プロジェクトと 3D 点群注釈プロジェクトを同時に実行しました。 1 つはテキスト、もう 1 つはイメージビデオです。 Dai Yan 氏は、プロジェクトが AI によって覆された場合、すぐにチームを率いて別の分野に転換するという計画を立てています。
さらに、チームの規模も縮小する必要があります。 Dai Yan 氏は、頭の中で想像した 100 人規模の会社の規模に×印を付けました。彼は、最終的には 20 人の経験豊富なチームだけが残る可能性があると信じています。
**データラベラーによって訓練されたこれらの AI は、彼らに覆される計画を強制しながら、より多くの収入を得るという夢を抱かせます。 **
初期の注釈プロジェクトは、主に音声とテキストに注釈を付けるインターネット企業に焦点を当てていました。現在では、点群ラベル付けなどの LIDAR スキャンによって取得された 3D シーンのラベル付けや、教育会社が大規模モデル用の補助的なラベル付けデータを提供する教育会社を支援するため、または医療機関向けに縦方向のテキストや音声のラベル付け指示を行う自動運転企業に目を向けています。ビッグモデルは照合された医療データを提供します。
AI が 2.0 時代に入ると、ChatGPT は投資家、起業家、起業家を驚かせました AI に対する誰もが期待しているのは、テキスト、音声、画像の情報を厳密に認識することだけではありません。また人々は、AI が人間と同様に物事間のつながりを真に理解し、行動の背後にある微妙な違いや感情を認識し、積極的に情報を区別して収集できるようになることを期待しています。
データラベリングはリソースベースの産業であり、甲の協力を得られる方が有利になります。 Dai Yan氏は、一部の個人が会社を登録した後、40~50人の専門チームを持っていると偽り、非常に低価格で入札に参加し、プロジェクトを落札した後、それを4~5株に分割して分配したことを明らかにした。チームはさらに下位に分割され、手数料は層ごとに徴収され、仲介者が差額を獲得し、データラベル付け作業者に分配される単価はますます低くなります。 **
誰かがプレートを持ち上げている限り、プレートは下向きに螺旋を描き続けます。
「Jiazi Guangnian」が入手した価格表によると、2D ラベリングから 3D レーザー点群ラベリングまで、ラベリング項目の単価は一般的に 1 フレームあたり 0.5 ~ 1.5 元です。 Dai Yan はかつて 50% 割引の単一フレーム価格を受け取り、「少なくとも 4 ~ 5 人の手が譲渡されました」。
Dai Yan が知っていたデータ ラベリング担当者の誰も、この方向に進んでいませんでした。彼らは、その場に留まるか、辞めるかのどちらかでした。最良のケースは、Dai Yan のように独自のラベル付けチームを構築することですが、彼はこれ以上簡単ではないと感じました。
一方で、AI トレンドによってもたらされるプロジェクト需要の増加があり、他方では、より無秩序な入札、一人当たりの生産額の低下、急速に成長する AI があります。二つの感情が絡み合い、AIは無限のチャンスをもたらし、そしてAIは「私たち」をも排除する。
(取材先の意向により、記事中の氏名はすべて仮名です)
原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
データラベル付け作業者: AI のトレーニング、AI への置き換え
成長と除去は同時に起こります。
著者|馬慧
編集|栗
** 展望と破壊は同時に存在しており、データ ラベリングの専門家である Dai Yan 氏はこれほど矛盾したことはありませんでした。 **
30歳の内モンゴル出身のダイ・ヤンさんは、今年初めにビジネスを始め、30人近くからなるオンラインラベル付けチームを結成した。以前、Daiyan はデータ アノテーションのクラウドソーシング プラットフォームに 2 年間取り組みました。 「熟練の仕事人」ともいえる彼は、現状に対して楽しみでもあり、不安でもある。
彼は今年の初めからChatGPTに注目していた。 AI 企業の登録数の急速な増加から、Dai Yan 氏は AI 業界の爆発的な成長とデータ ラベリングの起業家的チャンスを目の当たりにしました。 **Tianyancha のデータによると、今年の第 1 四半期だけで 17 万社の人工知能関連企業が新たに登録され、その総数は現在 267 万社に達しています。 **
将来的には業界に追従し、会社も100人規模に成長するだろうと想像している。 **しかし、現状は彼の期待を裏付けるのは難しい。データラベル付けの輪はすぐに打ち破られるだろう。大量のラベル付けニーズ、ラベル付け作業者、仲介業者が一斉に流入し、単価は下がるだろう。 **
エンジニアリングチームが建設ニーズのある当事者Aと連絡が取れず、請負業者からプロジェクトを引き継ぐことしかできないのと同じように、**Daiyanから連絡される賃金は、プロジェクトの担当者が変わるにつれてどんどん低くなっています。 **彼は、1日あたり30元しか得られないラベル貼りプロジェクトを拒否した。
同時に、** Daiyan さんは、ラベル業界での昇進もなく、契約の保証もなく、遅れても文句を言えないという恥ずかしさにも直面しています。 **彼は自分自身を笑いました、「私たちは新しい時代のデータ移民労働者です。」
しかし、それだけではありません。 **さらに大きな問題は、自動ラベル付けが彼らが持つ唯一のプロジェクトを使い果たしているということです。 ** Dai Yan のようなデータラベラーによって訓練された AI は、人間の監督の下で学習し、自らをラベル付けします。
自動ラベル付けは企業コストを大幅に削減し、データラベル付け市場で最も有望な方向性となっています。
だいやんさんは「AIが人間に完全に取って代わるかもしれない」と覚悟しなければならなかった。彼はチームを率いて、テキスト注釈カテゴリで教材の注釈プロジェクトと 3D 点群注釈プロジェクトを同時に実行しました。 1 つはテキスト、もう 1 つはイメージビデオです。 Dai Yan 氏は、プロジェクトが AI によって覆された場合、すぐにチームを率いて別の分野に転換するという計画を立てています。
さらに、チームの規模も縮小する必要があります。 Dai Yan 氏は、頭の中で想像した 100 人規模の会社の規模に×印を付けました。彼は、最終的には 20 人の経験豊富なチームだけが残る可能性があると信じています。
**データラベラーによって訓練されたこれらの AI は、彼らに覆される計画を強制しながら、より多くの収入を得るという夢を抱かせます。 **
1. マーキング、AI に世界を見る目を開かせます
機械が人間と同じようにテキスト、音声、画像を理解できるようにするために、人間は機械学習チェーンを作成しました。つまり、物理世界の物理的な画像と音声を収集し、データにラベルを付けてクリーニングし、データを一連のコードに変換して送信します。機械に。
AI学者らは、3歳児は目を通して何億枚もの写真を「撮影」し、世界を繰り返し理解していると考えている。したがって、十分なデータがマシンに注入されている限り、マシンは文章の読み取りと認識を学習し、最終的には言語の背後にある深い意味を理解することができます。
ラベル付きアトラス ImageNet には 1,500 万枚の写真があり、このデータセットは、無数の AI 企業が顔認識や画像検索など、コンピューター ビジョンにおけるブレークスルーを達成するのに役立ちました。
ImageNet を構築するために、クラウドソーシング プラットフォーム Mechanical Turk から集まった、世界 167 か国の約 50,000 人のデータ ラベラーが 2 年半にわたって協力しました。
ラベル付けの要件は非常に単純です。MTurk の一般的な仕事は、写真の色を区別したり、画像に写っている動物を分類したり、ボックスを使用して選択したオブジェクトをフレームに入れてその名前をラベル付けしたりすることです (これはケーキです、これは車です、雲などです。
プラットフォーム上の20万人のパートタイム労働者は人件費の安いアフリカや東南アジアに分散しており、特徴的な「データアノテーション村」も形成している。彼らがマークするデータは、テクノロジー企業の AI の探求をサポートします。
中国では、何百万人ものアノテーターが貴州省、山西省、山東省、河南省などの二級都市と三級都市に分散しており、徐々に人件費の安い県に浸透してきています。彼らはオンラインのクラウドソーシング プラットフォームに依存するか、オフラインのデータ ラベリング会社やラベリング ベースに参加します。 **
アノテーションの内容はシーンに応じてテキスト、画像、音声に分かれており、機械の読み書き能力の習得を助ける機能、画像認識機能、音声を聞く機能に対応している。
初期の注釈プロジェクトは、主に音声とテキストに注釈を付けるインターネット企業に焦点を当てていました。現在では、点群ラベル付けなどの LIDAR スキャンによって取得された 3D シーンのラベル付けや、教育会社が大規模モデル用の補助的なラベル付けデータを提供する教育会社を支援するため、または医療機関向けに縦方向のテキストや音声のラベル付け指示を行う自動運転企業に目を向けています。ビッグモデルは照合された医療データを提供します。
AI が 2.0 時代に入ると、ChatGPT は投資家、起業家、起業家を驚かせました AI に対する誰もが期待しているのは、テキスト、音声、画像の情報を厳密に認識することだけではありません。また人々は、AI が人間と同様に物事間のつながりを真に理解し、行動の背後にある微妙な違いや感情を認識し、積極的に情報を区別して収集できるようになることを期待しています。
たとえば、自動運転車に、同じような色や大きさの石ではなく、目の前にある空のビニール袋を識別させたり、プールの横にあるカメラに、プールサイドで何が起こったかを記録するだけでなく、何が起こったかを理解させたりします。誰かが溺れたときに警告します。
これらは依然としてデータの注釈に依存する必要があり、注釈に対するより高い要件、つまりより垂直的、より正確、より経済的なものを提示する必要があります。
ラベル市場の盛り上がりもここから始まりました。
2.「注文が多すぎて追いつかない」
新しいアノテーションの需要の急増を直接説明するデータを得るのは困難ですが、判断することは難しくありません。なぜなら、2023 年の第 1 四半期だけで、中国には人工知能企業が 17 万社も増加しており、AI を使用する企業である限り、データ ラベリングの需要は必ず存在するからです。
需要はすぐにデータラベル市場に広がりました。データアノテーションの実践者が集まる投稿バーでは、テキストアノテーション、トピックレビュー、ドローン販売ビデオアノテーション、2D検出棒、3D点群などを含む、1日十数件のプロジェクト募集投稿が更新されます。テキストから画像へのビデオのアイテム。
長年この業界に携わっているデータラベラーは、今年の無人車両ラベリングプロジェクトが増加しており、AI2.0ブームによって生み出された垂直分野の大規模モデル起業家精神により、もともと減少していたテキストラベリングプロジェクトが細分化されていることに気づきました。また、ニッチなデータのラベル付けの需要も増加します。
需要に動かされて、金を探しに新しいチームを立ち上げるのは、ダイヤンだけではありません。山東省東営市出身の張偉さんも昨年末からデータラベリングに専念し始め、半年で十数人規模の小規模チームに成長した。地方政府からの補助金と支援に頼って、張偉氏の会社は無料のオフィスを手に入れただけでなく、政府は党Aからの資金の流入も支援した。
10万元を超える最初のプロジェクトから40万元の最新の注文まで、プロジェクトの注文は数多くあります。緊急納品のタスクのため、Zhang Wei氏はラベル貼り作業員をより積極的に探しています。数日前、Zhang Wei氏はさらに6台のコンピュータを購入しました。たった一日で。
河南省鄭州市では、データ アノテーションのクラウドソーシング プラットフォームが、100 人を収容できる 2 階建てのオフィスビルに移転しています。玄関やオフィスの看板には「AI人工知能ビッグデータ研究開発拠点」「データクリーニングを繰り返すことでAIが賢くなる」という自社の位置付けが書かれている。
担当者は「ラベル貼りの案件は注文が多すぎてやりきれない」と話す。
画像出典/取材対象者提供
ホットマネーは長い間、ラベル会社の懐にも入ってきました。データによると、大手企業ハイチAACの株価は今年3月から5月にかけて最大4倍に上昇した。
36 クリプトン ニュースによると、今年初め以来、B ラウンド以前の十数のデータ ラベリング プラットフォームが集合的に 100% 近い上昇率で高い評価をもたらしています。昨年下半期以降、自動ラベル貼り会社が相次いで新規融資を獲得した。
2022年9月にボーデン・インテリジェンスは1000万元の資金調達を受け、12月にはスターダストデータが5000万元のAラウンド資金調達を完了しており、2018年6月の前回の資金調達から4年半ぶりとなる。
2023年4月には、データラベリングソリューション会社「Kaiwang Data」が新たな戦略的資金調達ラウンドを受け、6月にはAIデータ会社「Integer Intelligence」が数千万のPre Aラウンドの資金調達を受けた。
「データラベル生産の再構築」「自動生産ライン+大規模マンパワー」「自動運転ラベリングの手動モードからの脱却」など、手動ラベリングに代わるスローガンを掲げる熱意に満ちている。
明らかに、資本市場もこの新興分野に再び注目しています。
3. より多くのボリュームとより厳密な
データラベル付けのチェーンは 3 つの部分で構成されます。
上流: 従業員 1 ~ 150 人のデータラベル会社、オンラインでの落伍者、小規模ワークショップ。
中流: データ サービス プロバイダー。1 つは上流と下流を請け負う仲介クラウドソーシング プラットフォームであり、もう 1 つは企業が業界への安定した投資のために独自のラベル付けベースを構築することを選択することです。
下流: テクノロジー企業、産業企業、AI 企業、科学研究部門 2018 年頃はインターネット企業が主流でしたが、現在は自動車企業や自動運転企業に移管されています。
業界では一般的に下請けモデルが採用されており、ファーストパーティ企業が入札を行い、サードパーティのサービスプロバイダーが入札に参加し、入札が成立すると、企業のサプライヤー階層とコアサプライヤーに参入します。優先タスクとより多くの命令を選択する権利を享受できます。
企業が中核サプライヤーに求める要件は、少なくとも 30 人からなる配送チーム、成熟した注文配送経験、トレーニング システムの確立、配送の品質と量を管理する能力を備えていることです。安定した生産チームは最終的に低価格の見積りにつながり、会社の競争力を高めます。
しかし、経営管理チームがもたらした低価格の利点は打ち砕かれました。 「今年の入札は熾烈だ!」あるサービスプロバイダーは「Jiazi Guangnian」に対し、「我々は1つのプロジェクトに200元で入札したが、1日あたり80元で入札した人もいる」と語った。
最終的に、このプロジェクトは入札額が最も低かったチームが落札しましたが、最終的にはより成熟したチームに戻ることになりました。 「完成できなかったので甲から返送されましたが、価格はこれ以上上がることはありませんでした。」
なぜなら、だいやんのオンラインチームは甲に直接連絡を取らないからです。したがって、市場におけるマルチレベルのクラッドとラミネートの価格の混沌とした状況は、彼らにプレッシャーを感じさせます。
データラベリングはリソースベースの産業であり、甲の協力を得られる方が有利になります。 Dai Yan氏は、一部の個人が会社を登録した後、40~50人の専門チームを持っていると偽り、非常に低価格で入札に参加し、プロジェクトを落札した後、それを4~5株に分割して分配したことを明らかにした。チームはさらに下位に分割され、手数料は層ごとに徴収され、仲介者が差額を獲得し、データラベル付け作業者に分配される単価はますます低くなります。 **
誰かがプレートを持ち上げている限り、プレートは下向きに螺旋を描き続けます。
「Jiazi Guangnian」が入手した価格表によると、2D ラベリングから 3D レーザー点群ラベリングまで、ラベリング項目の単価は一般的に 1 フレームあたり 0.5 ~ 1.5 元です。 Dai Yan はかつて 50% 割引の単一フレーム価格を受け取り、「少なくとも 4 ~ 5 人の手が譲渡されました」。
**単価の内向き化は、ラベル貼りスタッフの給料の縮小に直結します。 **大延河さんのチームはフルタイムのパートタイムで、チームメンバーのほとんどは母親、大学生、フリーター、専門学校生で、1日6時間働いています。この状態を維持すれば、2022年の疫病流行期間中、大燕さんの月収は4~5千元になるだろう。
「パソコンと電気があれば操作できます。」 これは、データラベリングの採用ポスターでよく使われる魅力的なフレーズです。かつては、これがデータラベル業界の最も重要な利点でした。しかし今日、この利点により業界全体が後退に陥っています。現在、大燕さんの月収はわずか2~3千元だ。
収入は減りましたが、仕事量は減っていません。それどころか、データのラベル付けの作業はより複雑かつ詳細になります。
データ アノテーションの上級実務者は、インターネット時代のアノテーション市場を懐かしんでいます。単一フレームの価格は 3 倍になり、項目数も膨大です。 60~70人のチームで月収30万元を稼ぐことも可能だ。 「現在、市場は生産額(1人が1日に生み出す価値)が100元未満のプロジェクトで溢れている。以前は1日あたり数百ドルだった。」と実務家は語った。
当時のプロジェクト運営はシンプルで、無人車両の2Dシーンにマーキングをするなどの要件はなく、写真内の車両に枠を描く場合も枠内に収めることができれば要件はありませんでした。 。
**しかし、今は違います。「フィットネス」は当事者にとって最も重要な合格基準です。 ** 「昨年は誤差が 5 ~ 7 mm であることが要求されましたが、今年は 3 ~ 5 mm になるでしょう。誤差の要件はますます小さくなっています。」と Dai Yan 氏は言いました。
人工知能学者のウー・エンダ氏は、人工知能の価値は、ラベル付けされた高品質のデータによってのみ発揮され、高品質のデータが多ければ多いほど、人工知能の開発は速くなると繰り返し強調しています。
無人車両のラベル付きデータでは、長方形の枠とマークされた物体との適合度で表され、適合度が高いほどアルゴリズムの精度が高く、より正確に車両を制御できるアルゴリズムとなります。 。
高品質のテキスト注釈項目は、意味理解の正しさや質問の正答率に反映されます。正解率が高いほど、トレーニングされる大規模モデルはより賢くなっています。
熟練した技術者であれば、迅速かつ適切なデータ配信を保証できます。 Daiyan さんは、ChatGPT で完成した数学の問題が完成しているか、ロジックが正しいか、言語が小学生に理解できるかどうかを確認するために初心者に参加してもらったことがあります。初心者がマークした 7,500 件のデータは、精度が低すぎるため甲に手直しを要求され、戴燕氏らは修正に 10 日以上を要しました。
データのラベル付けは、敷居のない仕事ではなくなりつつあります。複雑な音声アノテーション、医療、法律、財務、その他の専門的なデータセットのアノテーションの作成には、専門的なアノテーションを行うための専門知識を備えた専門家が必要です。
Dai Yan 氏は、無人車両プロジェクトを例に挙げると、新人が 2D ラベリングに習熟するには 3 か月、3D ラベリングに習熟するには 4 ~ 6 か月かかると考えています。
この種の演習は、マウスを使用してコンピューターのラベル ページ上に長方形のフレームを一度に描画し、線を踏むことなく、点を見逃すことなく、マークされたオブジェクトを正確にカバーできるフレームの描画の精度をトレーニングすることを指します。シームレスでも。
ただ、機械が自ら学習し始め、人間に代わって機械にラベルを付けるようになったとき、人間が時間をかけて訓練したスキルは依然として意味があるのでしょうか?
4. 代替危機
Dai Yan 氏は、AI が近づいていることに気づきました。それは、彼が少し前に行った画像アノテーション プロジェクトの中にありました。
これは、Daiyan が 2 年間取り組んできた古いプロジェクト、地図認識です。データラベラーは画像内のテキストを認識して印刷する必要があり、価格は 1 枚あたり 8 セントです。拡張機能に代わってマークされたデータは、画像認識モデルに供給されます。モデルは画像内のテキストを認識できるようになりました。 Daiyan のラベル付け作業は修正とレビューに減り始めました。難易度も下がり、マーク単価も下がりました。
** 人間によってラベリングを訓練された AI が、人間によるラベリング作業を置き換えています。 **チューリッヒ大学の調査報告書では、ChatGPT の 15 件のラベリングタスクの処理能力がクラウドソーサーよりも高いことが実測により判明しました。 **クラウドソーシング プラットフォームに大規模モデルを埋め込む進行状況バーも高速化されました。 **ローザンヌの連邦工科大学によるその後の調査では、クラウドソースのアノテーターの 30% 以上がテキスト アノテーションを処理する際に大規模なモデルを使用していることが判明しました。
AI は間違いなく手作業よりも時間と労力を節約します。研究者らによると、ChatGPT の単価は MTurk の 1/20 にすぎません。
Daiyan はまた、この事業分野がいつでも「より完璧な AI」に置き換えられることを覚悟しています。彼は、よりスキルを必要とする自動運転ラベルに未来を賭けた。
しかし、自動運転のラベリングもAIに侵食されつつある。自動ラベリングは、手動でフレームを描画する方法と比較して、内蔵の大きなモデルを用意するだけで、パラメータ設定後、手動でラベリングする必要があった四角形のフレームを自動生成します。現時点での唯一の問題は、生成された長方形フレームにラインを踏んだりフィット感が低いなどの品質上の問題があり、1つ1つ手作業で検査する必要があることです。
効率の向上は自動車会社を驚かせました。理想は自動校正に大型のモデル 2.0 を使用しており、これは人間よりも 1000 倍効率的です; テスラは、支援システムを改善するために 2022 年 6 月に 200 件のテスララベル付けビデオを中止するなど、自動ラベル付けの進歩を積極的に推進しています。自動ラベル付け機能が大幅に向上し、60 秒未満の 10,000 個のビデオにラベル付けする場合、数か月かかる手動ラベル付けの代わりに、大規模なモデルを 1 週間実行するだけで済みます。
AIデータ会社Integer Intelligenceの創設者であるLin Qunshu氏は、ますます多くの自動車会社やAIGC企業が自動ラベリングに大規模モデル製品を使用しており、収益が大幅に増加していると述べた。彼らの最新の動きは、シンガポールに研究開発部門を設立することです。
**ただし、サードパーティ サービス プロバイダーは、自動ラベル付けの成長についてそれほど楽観的ではありません。 **河南省のクラウドソーシング プラットフォームのプロジェクト マネージャーは、自動ラベル付けはラベル付け要件の 60% 以上を置き換えることはできず、単一または特定のデータを処理して人間の効率を向上させるための補助的なラベル付けツールとしてのみ使用できると述べました。
別のデータラベル付け会社の製品マネージャーは、自動ラベル付けでは単純な基本データのみをフィルタリングでき、人間のような複雑で物議を醸すシーンからオブジェクトを正確に識別することはできないと考えています。これが、データラベリング市場が依然として自動運転ラベリングデータによって支配されている理由でもあります。
ただし、将来のデータのラベル付けは人手からテクノロジーに移行することに誰もが同意します。
要するに、仲間によって「絞め殺される」か、テクノロジーによって「絞め殺される」かのどちらかです。しかし、黙って見ているわけにはいかないのは間違いなく、データをマークするサードパーティ企業は将来的に活路を模索している。
Daiyan の計画は、市場の動向に追いつき、常に警戒を怠らず、いつでもスタッフを解雇し、同時に自動ラベル付けツールの方向に開発することです。クラウドソーシングプラットフォームの創設者は、同僚とのコミュニケーションの中で、将来的には人材をため込むのではなく、研究開発能力を持たなければならないと語った。
個人の場合はどうでしょうか?業界で流通しているキャリアパスは、初心者のラベラー→経験豊富なラベラー→ラベリングのプロジェクト管理者・マネージャー→A社の社内データアナリストとなり、最終的に月給数万の昇進を達成するというものです。
Dai Yan が知っていたデータ ラベリング担当者の誰も、この方向に進んでいませんでした。彼らは、その場に留まるか、辞めるかのどちらかでした。最良のケースは、Dai Yan のように独自のラベル付けチームを構築することですが、彼はこれ以上簡単ではないと感じました。
一方で、AI トレンドによってもたらされるプロジェクト需要の増加があり、他方では、より無秩序な入札、一人当たりの生産額の低下、急速に成長する AI があります。二つの感情が絡み合い、AIは無限のチャンスをもたらし、そしてAIは「私たち」をも排除する。
(取材先の意向により、記事中の氏名はすべて仮名です)