大規模なモデルに閉じ込められたデータアノテーター

2023-09-26 06:15:08

原文: 36氪

画像ソース: Unbounded AI によって生成

大手インターネット企業でデータアノテーターとして働くシャオヤンさんは、社内で孤立していると感じることがよくあります。

Xiaoyan のワークステーションは、プロダクトマネージャーやプログラマーのワークステーションの隣にあり、同じ勤務バッジ、Apple コンピュータなど、同じメリットを享受でき、いつでもジムに行ったり、宇宙カプセルに行って寝ることができます。

しかし、Xiaoyan さんは、データアノテーターとして、自分と他の同僚が「2 つの世界」に属していることを認識しています。

私たちはチームですが、毎日の朝礼にアノテーターを呼ぶ人は誰もいないので、Xiaoyan はドアの外でこっそり見守ることしかできません。あるとき、ある人が、チームが取り組んでいた AI 製品のプロトタイプである電気スタンドをカートに運んできたとき、プログラマーたちはその周りに集まり、非常に興奮し、手に取って遊んでいました。アノテーターたちはワークステーションに座り、何の問題もなく自分の仕事を続けました。「彼らは、その製品がラベル付けされたデータに基づいて作られていることを知りません。」

Xiaoyan が入社したとき、Xiaoyan の会社は教育用 AI 製品を開発していましたが、AI をトレーニングするには大量のデータにラベルを付ける必要がありました。同社は小学校と中学校向けの学習問題集を山ほど購入しており、シャオヤンさんの仕事は、各問題の写真を撮り、コンピュータ上でボックスを描いて印を付けることでした。

AI のために働くプログラマーも自分の仕事の価値を明確に認識しており、アルゴリズムの継続的な進歩によってもたらされる喜びを楽しんでいますが、AI を生み出すのが自分たちの労働であると感じているアノテーターはほとんどいません。

人工知能の進歩はデータのアノテーションと切り離せません。近年の自動運転の発展により、データアノテーション市場が牽引されています。デロイトのレポートによると、自動運転分野におけるラベル需要は、2022 年にはすべての AI 下流アプリケーションの 38% を占め、その割合は 2027 年までに 52% に上昇すると予想されています。

今年の大規模モデルの台頭により、データアノテーション業界はさらに活性化しています。大規模モデルのトレーニングシナリオに基づく大量の注文がデータアノテーション会社に殺到しています。データアノテーションという退屈なビジネスに再び活気が吹き込まれているようです。。

一部のテクノロジー企業はさらに進んでおり、AI を使用して AI トレーニング用のデータを自動的に合成しようとしています。合成データは、AI によって無限に生成される少量の実データに基づいており、手動のラベル付けに依存するのではなく、ラベル付けを必要としません。自動運転の分野では、合成データは、歩行者の突然の道路侵入など、一部の極端な道路状況をカバーできます。

彼らの想像では、将来的には合成データが手動の注釈に取って代わるでしょう。技術を持たず人力のみに頼るラベル会社は徐々に淘汰されていくでしょう。海外では人工知能に使われる基礎データの7割が合成データだというデータもあり、その道筋が検証されつつある。

上記は、膨大な数のデータアノテーターにとって良いニュースではありません。しかし、36Kr から連絡を受けた一部のアノテーターは依然として ChatGPT が何なのかを知らず、あたかもその用語を初めて聞いたかのような反応を示しました。

シャオヤンは、タガーはいつでも切り落とせる尻尾だと言いました。唯一の緊張感は、ナイフがいつ完全に落ちるかです。

機械をトレーニングするアノテーターは、より機械のように感じます

Xiaoheさんは英語を専攻し、4年生の時に大規模な工場でインターンをしました。彼女が初めて出勤した日、オフィスはオフィスビルにあり、彼女の想像していたインターネット企業とまったく同じ、広くてきれいなオフィスでした。面接で聞いた「社内の音声データの整理・分類」という仕事内容が、実はデータアノテーションだったことに気づくのに時間はかからなかった。

その後、Xiaoheさんは、これがAIで働くことになると知っていたら、すぐに辞めていただろうと認めた。

インターン生は6名で、全員が名門大学の外国語学部の学生です。女性チームリーダーが毎日タスクを割り当てます。それは英語の発音記号の束である場合もあれば、Xiaohe の仕事はイギリスの発音とアメリカの発音を区別することである場合もあれば、Excel の場合もあります。クリックすると、いたるところにデータが表示されます。下にスクロールすると、10,000 を超える項目があります。。

「山に登っているような気分だ」とシャオヘさんは言った。

私が最も多く行った「プロジェクト」は、中学生向けの口頭注釈です。アノテーターは、仕事をプロジェクトとして次々と語ることに慣れています。 Xiaohe さんは、強いアクセントが含まれる 2 分間の録音を 1 日に 200 件聞いています。一般的な質問を聞いた場合は 1 点、特別な質問を聞いた場合は 2 点、どちらも聞かなかった場合は 0 点となります。情報漏洩を防ぐため、オフィスでは有線ヘッドフォンしか使用できなかったが、シャオヘさんは耳が痛くなり、「思わずイライラした」と感じた。

彼女は録音で悪口が使われるのをよく聞きます。一言も話さないうちに悪口を言い始める子供もいます。またあるとき、マップナビゲーションプロジェクト中に、誰かが録音中に悪態をつかずにはいられませんでした。「なぜ誰もがそんなに怒るのか分かりません。」

Xiaoheさんは、「あまり真剣に受け止めてはいけない。この録音を「意味がない」とマークして、ページをめくって次の録音を聞き続けるしかない、と言いました。

**「機械のように」、ほとんどすべてのアノテーターは自分自身をこのように表現します。 **注釈は簡単です山東省のある注釈者は、これまでに行ったプロジェクトの中で最も困難だったのは指紋の注釈だと言いました。彼女は知らない誰かから大量の指紋を取得しました (一部はまだぼやけていました)。指紋の端に沿ってフレームを少しずつ引っ張る必要がありました。「その日、家に帰って目を閉じると、目の周りに指紋が付いていたのが見えました。」

多くのプロジェクトではアノテーターに厳格な機密保持を要求しますが、アノテーターはプロジェクトの目的を気にしません。作業中、タグ付け者は携帯電話を渡し、壁に掛けた吊り袋に入れる必要があります。電話がかかってきた場合にのみ、電話を取り出すことが許可されます。

ほとんどのアノテーターは、不慣れから熟練へ、目新しさから退屈へのプロセスを経験しています。プロジェクトの初期段階が最も興味深かったのですが、当時はまだラベリングのルールが整っていなかったので、議論の余地がある部分に遭遇することも多く、お互いに議論したり議論したりするなど、活気に満ちた雰囲気でした。中期・後期になるとルールはほぼ完成し、反復的かつ機械的な労働だけが残され、人々は無意味感に陥ってしまいます。

**ある注釈者は、これは「思考力のない仕事」だと述べた。 **

江西省福州では、地元の専門学校の学生がデータの注釈付けを行っています; 出典: IC 写真

上海大学の賈文娟教授は、データアノテーションに関する現地調査を行っており、データアノテーションは頭脳労働や肉体労働ではなく、認知労働であると考えており、「人々が売りにしているのは、自分自身の認知力です。」と述べています。ブラックユーモアとは、私たちは機械がより人間に近づくことを望んでいますが、同時に人間をより機械に近づけているということです。言い換えれば、常識を脇に置き、ロボットのように考えてください。 **

そして、アノテーターが「なぜこれをしなければならないのか」と考え始めたら、それは彼が辞任する日もそう遠くないことを意味します。

データアノテーション会社の社長である Zheng Wei 氏は、人材を引き留めることはできないと率直に言いました。最も多いときでも、会社の従業員数は 20 人未満です。新入社員は半月しか勤務できないことが多く、初日に出勤して翌日には辞めてしまう人も多いです。採用条件を下げ続けざるを得ず、最終的には「自分が人を選んでいるのではなく、他人が選んでいる」と感じたという。

鄭長官は、「ここに留まれば、どんどん良くなるだろう。実際のところ、私自身、これを信じていない」と36クリプトン紙に語った。最終的に従業員の減少が会社を圧倒し、アノテーターが 2 人だけになったとき、彼はチームの解散を決意しました。その後間もなく、ChatGPT が AI の新たな波を引き起こしました。

大規模モデルの台頭はデータアノテーションにとっては良いことですが、** アノテーションチームの関与も強化されます。 **

仕事の受け入れに関してシャオダイは、現在、市場に出回っているマーキングプロジェクトの80～90％の単価が非常に低いと述べ、「中間の下請け業者が多すぎるため」、「すべてが価格で利益を得ようとしているため」と述べた。違いがあるので、実際にその仕事をしたくないのです。」彼はクラウドソーシングプラットフォームでアノテーターとして 2 年間働き、今年起業して独自のアノテーションチームを結成しました。

データのアノテーションはあまり有益ではありません。自動運転の 2D フレーム図を例にとると、大企業の注文発送価格は 10 セントで、仕事を引き継ぐラベル付けチームのコストは 1 人あたり 8 セントです。「今では5、6ポイントまで下がっています」とシャオダイ氏は語った。彼はアカウントを計算し、それが 8 ポイント未満の場合は、損失しかありませんでした。

生き残るために、シャオダイはプロジェクトを探したり、さまざまなプラットフォームやポストバーをぶらぶらしたりすることにほとんどの時間を費やします。プロジェクトには本物と偽物があり、ほとんどが信頼性が低く、エージェントは損失を被っており、8か月待ってもお金が届かないプロジェクトもあります。

その後、最初は非常勤のアノテーターとして働き、試入札や決済に問題がなくなって初めてチームに仕事を引き継がせた。一度、プラットフォームが深夜 3 時に一連のプロジェクトをリリースすると聞いたことがあります。それで、彼は注文を獲得するために事前にアラームを設定しました。

**人員削減、低単価、不安定な代金回収は腫瘍のようなもので、この業界のほとんどの中小企業の足を引っ張っています。 **

この仕事を軽蔑しないアノテーターは存在せず、お金を稼ぐこともできず、昇進の場や開発の機会も得られず、長い憂鬱と喪失感に陥ってしまいます。

この記事を書いている間に、36Kr から連絡を受けたアノテーターのほとんどが辞任しました。ある少女は、2カ月働いたが給料は3000元にも満たなかったと語った。

内部アノテーター: 学士号取得率 100%

以前は、データアノテーションの敷居は低かったです。山東省、山西省、河南省、貴州省などでは、多くのデータアノテーション企業が安価な労働力を大量に採用している。母親や障害者、専門学校生などが多く、パソコンの基本操作をマスターすればこの業界に参入できます。

大規模モデルの時代において、データアノテーションのシャッフルと削除が候補の間で静かに行われています。

研究者らは、トレーニングデータの品質がモデルのパフォーマンスに非常に大きな影響を与えることを発見しました。データの量と比較して、データの品質が高いほど、モデルの改善効果はより明らかです。データの品質を管理するために、一部の AI 企業は独自のラベル付けチームを結成しており、その第一歩は業界への参入の敷居を高めることです。

最も明らかなことは、アノテーターの学歴が下がり始めていることです。

今年 4 月、大手大型模型メーカーがデータアノテーションベースを設立し、最初に採用されたアノテーター ** の学士取得率は 100% でした。 **同社の担当者は、大規模なモデルデータには広範な知識と複雑な評価基準が含まれるため、アノテーターの言語理解と論理的推論能力が大きく試されると説明しました。

Xiao Wang は大学を卒業したばかりで、仕事を探すために故郷に戻ったときに、偶然このデータラベリングベースの募集を見つけました。そこで彼は面接に参加し、無事合格しました。基地は彼に30万語の訓練資料を送り、訓練試験に合格することによってのみ正式にそのポストに就くことができる。

アノテーターは毎日質問に取り組んでいます。新人は 1 日に 40 の質問をされますが、経験豊富な社員は 70 ～ 80 の質問がされます。バックエンドシステムは全員に質問を配布しますが、そのほとんどは実際のユーザーと大規模モデルとの間の会話記録です。ユーザーの質問は世界中から多岐にわたっており、さらに奇妙なものもあります。「これら 3 つの携帯電話のうちどれが優れていますか?」卵とガシャポンどっちがいい？成功する人の基準は何ですか？林大宇はなぜ骨鬼と戦ったのか？

大規模なモデルには多数の回答があるため、Xiao Wang の仕事は、各回答を読み、エラーを見つけ出し、品質に応じて 1 つずつスコアを付けることです。5 ポイントが満点、1 ポイントが最低スコア、3 ポイント未満の回答はエラーの種類に分ける必要があります。質問内容と異なる回答の場合は最低点をそのまま付与し、デリケートな質問の場合は得点を与えず「その他」と判定します。

並べ替え、スコアリング、評価、これらの少し複雑なアノテーションのステップはまさにRLHF（Reinforcement Learning from Human Feedback、つまり人間のフィードバックからの強化学習）と呼ばれるもので、その目的は、大規模なモデルを人間の価値観ややり方に継続的に適合させることです。思考力をさらに使いやすく。 OpenAI は ChatGPT のトレーニングの過程で RLHF を使用し、顕著な結果を達成しました。

過去のデータラベル付けと比較して、大規模モデルのラベル付けルールはより主観的です。アルゴリズムエンジニアがアノテーターにインタビューするとき、彼は相手に次の質問をします。「もしあなたがビジネスリーダーで、孫悟空、朱八傑、唐僧、沙生という 4 種類の従業員に直面しているとしたら、誰を好みますか?雇う？"

標準的な答えはない、と彼は言う。 **このタイプの質問は、アノテーターに論理的思考能力があるかどうかをテストするものです。 **

業界の人材需要は緊急になっています。 Kaiwang Data という新興企業は大学と協力して多数の大学生アノテーターを育成しています。 CEOのYu Xu氏は、同社が昨年「ケイワン・データ・アカデミー」を設立し、50校で1,500人以上の生徒にデータ・アノテーションに従事する訓練を行ったと述べた。

Xiao Wang が大きなモデルの解答を採点するときは、多くの場合事実確認を行う必要があり、その作業量は完全に運に左右されます。あるとき、「BMW 3 シリーズとメルセデス・ベンツ C シリーズのどちらが優れているのですか?」という質問に遭遇しました。大きなモデルには 2 台の車の 40 個のパラメータがそれぞれリストされており、各パラメータは Xiao Wang によってチェックされる必要があります。その質問に彼は30分かかった。

しばらく注釈を付けた後、Xiao Wang さんは自分のスコアが 3 点を超えることはめったにないことに気づき、「AI の応答は、非常に満足したり優れていると感じるには十分ではありませんでした。」彼は、「Bluetooth ヘッドセットが壊れた場合、歯医者に行くべきですか、それともヘッドセットメーカーに行くべきですか?」という質問があったことを思い出しました。それは明らかに釣りの質問でしたが、AI の答えを見て彼の目が輝いたそうです。修理は病院ではなく歯科医に行ってください。」

シャオ・ワンはこの仕事に満足しています。月の基本給は1,800元、皆勤賞与200元、住宅補助200元で、業績を考慮すると月4,000元がもらえる。収入は地元では平均以上だと思われるとのこと。彼も髪をかき上げ、二人は隣り合ったワークステーションに座った。

Xiao Wangさんと同時にトレーニングに参加していた大学生は20人ほどいたが、2日以内にほぼ全員がいなくなり、残ったのは2、3人だけだった。

しかし、会社のことを心配する必要はありません。ここでは大学生が不足することはありません。 CTO が 36Kr に真実を明かした: 大学生の現在の雇用状況を見てみましょう。

最も排除したいのは AI ではなく人間のアノテーションです

データのアノテーションに関する報道が数多くあることは認めざるを得ませんが、この仕事は「インターネットの組み立てライン」であり、長期間にわたって行うのは困難であり、手作業によるアノテーションは最終的には AI に置き換えられるだろうというのが人々の共通認識です。

この 1 か月間、私たちはアルゴリズムエンジニアや AI 企業とのコミュニケーションに多くの時間を費やしてきました。上記のコンセンサスは更新されていないが、人間の労働を最も排除したいのはAIではないかもしれない、ということは薄々感じられる。 AIが本格的に行動を起こす前に、最先端のテクノロジーを使いこなした人たちはすでに鎌を振り上げています。

テクノロジーの世界では、データの重要性はどれだけ強調してもしすぎることはありません。アルゴリズムエンジニアのシャオ・ドゥアン氏は、AI企業がラベル付けされたデータを持たなければ、どんなに優れたアルゴリズムを作成しても、それはばらばらになってしまうと述べた。ラベル付きデータが多ければ多いほど良いです。タグ付け者の羊毛をすべて集めるのは確実に儲かるビジネスです。

場合によっては、アノテーターが完成させるのに 4 ～ 5 日かかったデータを、アルゴリズムによって 1 時間で完成させることもできます。 Xiao Duan は大手インターネット会社に勤めており、この部門には十分な予算があり、常勤のアノテーターが数人います。同氏は、「アノテーターをアイドル状態にしないように努めている。リーダーは週次報告書を読むだろう。彼らがタスクが少ないと感じたら、より多くのタスクを彼らに割り当てよう」と語った。

あるアノテーターは 36Kr に対し、彼と一緒に働いているプログラマーたちはあらゆる種類の仕事に価値があると言っているが、依然として軽蔑の痕跡をうっかり露呈していると語った。「もちろん、このグループ自体がテクノロジー指向です。」注釈者は自分を慰めました。

テクノロジーは誰もが予想していたよりもはるかに速く進歩しており、大規模モデルの時代には、データの品質がモデルのパフォーマンスに直接影響します。 **これを理解して、一部の AI 企業はためらうことなくデータアノテーションのアウトソーサーに別れを告げました。

AI 企業の CTO は、「戻ってきたデータの品質が非常に悪かったので、基本的に役に立たなかった」と述べました。同社の中核事業は AI 生成ビデオであり、電子商取引商品ビデオを無制限に生成できる自社開発モデルを開発しました。モデルをトレーニングするために、データアノテーションを行うために 50 人の大学生を特別に採用しました。

医療、金融、コンピュータなどの専門分野に関しても、大学生は信頼されにくい。国内の大手インターネット企業は、独自のラベル付け基盤を構築することに加えて、ラベル付けのために専門家に報酬を支払っています。アノテーション業界における専門家の割合はまだ少ないですが、彼らの役割は非常に明白です。たとえば、社会保障給付の停止に関する質問は、政府文書に詳しい専門家に任せるのが最も安心です。

公然の秘密は、ChatGPT が普及するずっと前に、OpenAI が十数人の博士課程の学生を「マーク」するために組織したことです。 OpenAI は 8 年間で、モデルのトレーニングだけで 10 億米ドルを費やしました。

今年5月、米国のデータ企業は特定分野の専門家の採用を開始した。これらの上級アノテーターの報酬は、もはやお買い得ではなく、たとえば、法律データのラベル付けの時給は 45 米ドル、詩の時給は 25 米ドルです。

しかし、一部の AI 企業にとっては、ブルーカラーであろうとホワイトカラーであろうと、コストを節約したいと考えています。これらの企業とコミュニケーションをとる際、36 クリプトン社はコスト削減と効率向上という言葉を頻繁に耳にしました。

最も一般的な方法は、AI を使用して自動アノテーションを行うことです。あるデータ会社は、自動アノテーションの割合が 70% 以上に達していると述べています。

アルゴリズムエンジニアの Xiao Li と彼の同僚は、さらに最先端の試みを行っています。 ** 実際のデータのごく一部をモデルとして使用する限り、生成 AI テクノロジーと一連のアルゴリズムを通じて、高品質のトレーニングデータを作成できます。合成された。言い換えれば、誰も必要としません。 **

「私たちの合成データの価格は、手動のアノテーションよりも少し安いです。」と Xiao Li 氏は言います。

合成データは現在、主に自動運転やロボティクスの分野で活用されている。 Xiao Li 氏は、ChatGPT が登場したとき、注釈付きデータは機能しない可能性があり、最終的には合成データを使用する必要があることに気づいたと述べました。 OpenAIの創設者であるサム・アルトマン氏も同様の見解を示しており、「大規模なモデルデータの不足を解決するには合成データが最も効果的な方法だ」としている。

新興企業の Light Wheel Intelligence は、主に自動運転やロボット工学の分野で合成データを生成しています。 CEOのXie Chen氏は、「自動ラベル付けの最終結果は、ラベルが貼られなくなることになる。ほとんどのラベル付け会社は、それほど長期的なことは考えていない」と語った。

Xie Chen 氏は 36Kr に対し、チームの同僚が以前に OEM で自動アノテーションを行っており、より複雑な 4D-BEV アノテーションを克服していたと述べました。これは、自動運転システムのパフォーマンスを向上させるために、3D 空間での注釈の 4 番目の緯度として時間を使用する業界をリードする注釈ツールです。今年、彼は自動アノテーションを放棄することを決意し、率先して Xie Chen を探し、最終的に Nimbus Intelligence に加わりました。

この同僚はシャオ・リーです。生成型 AI の出現に一度は非常に不安になったが、合成データを見て再び興奮したと氏は語った。

彼の仕事の目標の1つは、「この業界の人々を置き換える（レッテルを貼る）」ことだが、「それはおそらく短期間、おそらく1、2年になるだろう」と言い切るのは恥ずかしい。

最後に、アノテーターの世界に戻りましょう。テクノロジーの急速な発展によって引き起こされる不安は、ここではほとんど見られません。あるのは、些細な、繰り返される煩わしさと、いくつかの素朴な空想だけです。

大学生のシャオ・ワンは今も故郷で大型模型の訓練を続けている。最近おしゃべりしたとき、この仕事が人工知能の分野に参入するきっかけになったと彼は言いました。会社が彼らに設定した昇進パスは、アノテーターから品質検査官、トレーナー、スーパーバイザー、そして最終的にプロジェクトマネージャーに至るというものです。 Xiao Wang の目標は、スーパーバイザーになり、AI に近いポジションに転職することです。それが正確に何なのか、彼はまだ知りません。

野心的なシャオ・ワンと比べると、ほとんどのアノテーターは AI にほとんど関心がありません。ある女子生徒は、「ハイテクにはあまり興味がないんです。」と説明し、採点歴2年ですでに上級社員となり、最近品質検査官に昇進しました。彼女にとって、アノテーション作業はシンプルで安定しており、「精神的な摩擦がなく」、時々魚を釣ることができます。 AI がテクノロジーの世界を騒がせたこの年、彼女の生活は水のように穏やかでした。

数少ない変更点の 1 つは、同社が提供する注釈ツールに会話型ボットが追加されたことです。同社は、アノテーション中にわからない質問があった場合は、時間を節約するためにロボットに直接質問してくださいと全員に伝えています。効率は急速に向上し、以前は 1 日に最大 500 箱か 600 箱しか作業できなかったが、今では 700 以上の箱を作業できるようになったと彼女は 36 Krypton に語った。

「ロボットのおかげです」と彼女は言った。それが ChatGPT と呼ばれていることを彼女にまだ誰も教えていません。

(インタビュー対象者の希望により、記事内の一部の登場人物には仮名を使用しています。36Kr の著者 Anita Deng も記事に寄稿しました。)

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。