AI大型モデルの折りたたみ:データによると、「出稼ぎ労働者」の月収は5,000以下で、単価は5セントから4セントに低下

出典: テックプラネット

画像ソース: Unbounded AI によって生成

鄭文さんは数か月前の午後のことを今でも覚えており、その日の時給は 20 セントでした。彼女は湖南省の短期大学を卒業し、大規模モデル データのアノテーターです。毎日の仕事は、受け取った生データ (画像、ビデオ、テキストなど) にラベルを追加するという複雑なものではありません。

ただし、大きなモデルにはデータ品質に対する非常に高い要件があり、その日、写真は承認されるまでに 8 回修正され、修正プロセス全体で 1 時間かかりました。言い換えれば、通常の状況では 12 元を稼いで 600 個の箱を引くことができるのに対し、彼女は 1 時間あたり 2 セントしか稼げなかったのです。 「お金を稼ぐのは簡単ではない」と彼女は繰り返し強調した。

これは、ほぼすべてのデータ アノテーション専門家の合意です。データの注釈の一端には、月給 5,000 元未満の実践者の給料が記載されており、彼らはアリの軍隊のように大きなモデルの基礎を築きます。その対極には、チャット GPT 4 を超えることを期待している大手インターネット企業の AI の夢があります。

データ アノテーションでは、賃金の計算に最も原始的な出来高払いシステムが使用されており、職場では陰謀はありません。唯一の問題は、この退屈な仕事のために、ほとんどの人が 3 か月続けるのが難しいことです。そして、ほぼ全員が Planet Tech に、行かないほうがいいと言った。

しかし、彼らが知らないのは、彼らのほとんどが退屈な仕事をすぐに失うかもしれないということです。なぜなら、こうした単純なデータの注釈は AI に置き換えられるからです。

価格は 5 セントから 4 セントに急落しました

林爽さんは2017年に多額の「即金」を稼いだ:15日間で6000元以上。短大を卒業した林爽さんにとって、この収入は確かに相当なものだ。当時、AIに対する人々の期待はうなぎのぼりで、AIの将来性を疑う人はほとんどおらず、どの投資機関もここから数十億、数百億、さらには数千億規模の企業が誕生する可能性があると確信していました。

ほぼすべての AI テクノロジーの背後には、アルゴリズム、コンピューティング能力、計算間の競争があり、卓越した技術の最下層にあるのは膨大なデータです。明るい背景を持つプログラマーが「北京、上海、広州」のオフィスに座り、コード反復アルゴリズムを通じて AI の設計図を描く一方で、大学生や母親などが、3 番目と 3 番目の個室で巨大なデータ パッケージ内の画像、テキスト、音声を処理しています。第四層都市。待ってください。

ChatGPT も例外ではありません。 Baidu Wenxinyiyan プロジェクト チームの従業員は、この大型モデル自体には新しい技術はなく、高い技術的障壁もありませんが、重要な問題は計算能力の壁によって形成されるパラメータの壁であると述べました。

大規模モデル時代のデータ アノテーターは、これまでと特に変わりはありませんが、オフィス環境がより快適になったことや、アノテーションの品質に対する要求が高まったことなどが、いくつかの違いとして考えられます。データアノテーションの専門家はTech Planetに、最初に業界に参入するとき、通常は約10人のチームを編成し、そのうちの1人が品質検査を担当するが、作業が標準に達していない場合、その従業員は元の職場に戻されると語った。やり直してください。データの品質によって、大規模モデルの品質が決まります。

データ移行労働者は、AI テクノロジーの新しい分野には興味がなく、賃金が出来高ベースで計算されるため、単価を重視します。

「単価が高かった当時、2D フレームは 1 セント以上かかりました。最盛期には 10 時間以上働いて、1 日あたり 600 元以上稼いでいました」と林双さんは振り返る。しかし、これは最高額ではなく、ある注釈者は、初期の 2D フレーム図面の価格は最大 50 セントに達する可能性があると述べました。

フレーム描画はデータ アノテーションの一般的な操作であり、アノテーターは、車両、赤街路灯、障害物など、画像内のオブジェクトを要件に応じてマークします。フレームは2Dと3Dに分かれており、後者の方が高価になります。

しかし、この人気は長くは続かず、ますます多くの人々が流入し、AI業界全体の発展が順調に進まない中、写真に注釈を付ける単価はますます低くなっており、リン・シュアン氏は「最低価格」と述べた。今はたったの4セントです。

「プルフレームの場合、業界の平均単価は約0.15元ですが、それでもプロジェクトによって異なります。受注できるのであれば、最初の受注には従業員100人が最低要件となります。スケールもかなり大きく、3Dのフレームは1枚30セントですが、50セントという高値になることは稀です。」

もちろん医療や金融分野の専門知識を持っていれば単価は高くなります。たとえば、多くの大規模な医療モデルでは、アノテーターに臨床専門知識と関連する経験が必要です。

ほとんどの開業医の月収は 5,000 元に満たず、中には幸運な開業医もいます。楊朔さんはもともと四川省で衣料品店を経営していましたが、疫病の影響でビジネスに影響を受け、今年から大規模なモデルデータのアノテーション業務に移行し、今では月収8,000元の収入を得ています。フランチャイズ料は9,500元で、契約書には最低月収が7,000元と定められている。」

お金を稼いだのは誰ですか

Alibaba、Tencent、Byte などのインターネット大手や、SAIC や Lynk & Co などの自動車会社がデータ アノテーション ビジネスの流通元となっており、最もお得な価格でソースから直接注文を獲得したい場合は、データ アノテーション企業にはある程度の規模が必要です。

データアノテーション会社の従業員はテックプラネットに対し、大手メーカーから直接注文を受けているが、大手メーカーは500人規模を要求しているため、フランチャイズや子会社を通じて人員要件を満たすことを選択すると語った。

2 つの違いは、フランチャイズはこの業界に不慣れな人がスタジオを設立するのに適していること、子会社を設立したい場合は、通常、その地域に 1 つしかないことです。 Xiaobai Studio はフランチャイズ料 (25,000 または 30,000) を請求する必要があります。子会社はその地域の独占代理店であり、手数料 50,000 を支払う必要があります。そして、3年以内に十分な受注を保証し、3年以内に技術教育を担当することができ、これらの工房や子会社は数百人から数千人規模の大規模な労働組合を形成しています。

前述のデータ アノテーション会社の従業員によると、大型モデルの人気によりデータ アノテーション業界は再びブームになり、今ではほぼ毎日人々が同社を訪れるようになりました。

しかし実際には、データラベル付け会社を経営するのは簡単ではありません。データ アノテーション会社が言うには、この業界は最初の 1 ~ 2 か月は従業員の立ち上げ期間が必要なため、難しいとのことです。初期段階では 5 ~ 8 人だけで十分で、中にはおばさんでも十分です。 40代でも問題ないでしょう。

データ アノテーション会社やスタジオにとって、安定性は最も重要な要素です。しかし、Tech Planet が接するアノテーション従業員のほとんどは、退屈のため 3 か月以内に光の速さで仕事を辞めてしまうことが多く、新入社員がすぐに実際の業務に従事できるわけではありません。データアノテーションのサイクルとサイクルが十分に安定していません。データ アノテーション スタジオに最も人気があるのは、お金に余裕のない母親です。

「パートタイムの仕事を見つけるのは絶対に不可能です。欠勤が生じるでしょう。家賃やコンピューターに投資すると、お金が失われます。最善の方法は、従業員全員が働くことです。」アノテーションスタジオがTech Planetに語った。

ほとんどのデータは、企業の返済サイクルは 3 か月から始まり、最長で半年であることを示していますが、従業員に毎月支払う必要があるため、ある程度の資本準備金が必要です。「1 人あたり 3500、100 人、3月は105万です。」

張建さんはかつて200人以上の従業員が所属する労働組合に加入していた。初年度は業界の爆発的なブームに追いつき、2Dフレーム描画の単価は5セントにも達し、その年の組合の収入は400万を超えた。

しかし翌年、事態は悪化した。単価が大幅に下がり、従業員の流動性が高まり、空白期間が増えたうえ、2つの主要プロジェクトが決着せず、丸1年で300万元以上の損失を出した。 「上司たちは、短期的にはデータのアノテーションには手を出さないと言っている。彼らは現在、上流側と訴訟中だ」とZhang Jian氏は語った。

これは利益率の低いビジネスです。 Haitian Ruisheng はデータ アノテーション業界初のメインボード上場企業で、昨年の同社の売上高は 2 億 6,300 万元、利益はわずか 2,945 万元、純利益率は 10% 強でした。しかし、今年上半期は顧客数の減少により赤字に陥った。

いつでも交換できる「ネジ」

ケニアを移動するアリの蓄積に頼って、OpenAI は、大規模な言語対話モデル機能でついに頭角を現しました。データ ワーカーと呼ばれるこれらの一般人は、サム アルトマン (OpenAI の創設者) の AI の夢をサポートしていますが、他に何も起こらなければ、彼らが抱えている仕事のほとんどは、すぐに彼らが作成に参加した新しい製品に置き換えられることになります。交換されました。

海外では、Open AI の元従業員によって 2021 年に設立された Anthropic が今年、過去 2 年間の資金調達総額の 7 倍を超える 51 億 5,000 万米ドルを調達しました。同社は、人間の関与を減らしてモデルをトレーニングする新しい方法を提供します。

今年、AI スタートアップの Refuel は、Autolabel と呼ばれるオープンソース ツールを発表しました。このツールは、市場の主流の大規模モデルを使用してデータセットにラベルを付けることができます。同社のテスト結果によると、Autolabel のラベル貼り付け効率は手動ラベル貼り付けの 100 倍高く、コストは人件費のわずか 1/7 です。

中国では、Vision Future という会社も大規模なアノテーション モデルを構築しています。インタビューでは、一部のプロジェクトは GPT を使用して納品されており、その精度は 80% 以上に達しており、手作業に近いとのことです。

しかし、ハイチのルイシェン氏は、AI が完全に自動化されたアノテーションを達成することはできないと考えています。なぜなら、機械が進化を続けて人間の判断や理解に近づけたいのであれば、間違いなく人間の指導が必要になるからです。

データ アノテーションに携わったほぼ全員が同じ見解を Tech Planet に明らかにしました。データ アノテーションには敷居のない仕事であり、必要なのはコンピューターの使用に習熟していることだけです。

しかし実際には、単純なアノテーションが AI で完了できるようになれば、手動による参加はデータ スクリーニングと標準作業がより困難になることになります。これは、業界の敷居が今後も上昇し続けることを意味します。特に ChatGPT の Wen Xinyiyan 氏による大規模な言語モデルクラス。

比較として、ChatGPT が普及するずっと前に、OpenAI は十数人の博士課程の学生を「マーク」するために組織しました。海口にある Baidu のデータ アノテーション ベースには、数百名のフルタイムの大規模モデル データ アノテーターがおり、アノテーターの学部生比率は 100% に達しています。

このタイプの大規模言語モデルの特徴は、アノテーターが一定の知識と論理分析能力を必要とすることです。 「ファイナンシャル イレブン」レポートによると、アノテーターは質問の種類を判断し、5 つの回答をそれぞれ採点してランク付けする必要があります。スコアの範囲は 0 ~ 5 点です。スコアが 3 点未満の場合は、具体的な理由を説明する必要があります。 「質問内容と異なる回答(0点)」「著しく的外れ(1点)」「論理的な問題や事実誤認があり、割合は少なく2点」などの注意事項与えられた」など。

データ アノテーションのもう 1 つの人気分野は自動運転です。デロイトのレポートによると、自動運転分野におけるラベル需要は、2022 年にはすべての AI 下流アプリケーションの 38% を占め、その割合は 2027 年までに 52% に上昇すると予想されています。大規模な言語モデルと比較すると、自動運転分野のモデルでは、単純な箱を引っ張る操作には依然として学術的な要件が比較的緩いです。

アノテーターは、モバイル インターネット時代から人工知能時代に至るまで、人類の基礎です。テック プラネットが接触した実践者のほとんどは、AI が自分たちにもたらす変化や、アノテーターがテクノロジーの開発に果たした貢献について知りません。 AI. これらはインターネット時代の新世代のネジにすぎず、いつでも置き換えられる可能性があります。

(注:記事中の登場人物は全て仮名です。)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)