出典: AI New Intelligence
画像ソース: Unbounded AI によって生成
現在の生成型 AI が元気に成長する子供のようなものだとすると、継続的なデータは成長するための糧となります。
データアノテーションは、この「食べ物」を作るプロセスです。
ただし、このプロセスは非常にボリュームがあり、面倒です。
アノテーションを実行する「アノテーター」は、画像内のさまざまなオブジェクト、色、形状などを繰り返し識別する必要があるだけでなく、場合によってはデータをクリーンアップして前処理する必要さえあります。
AI テクノロジーの継続的な進歩に伴い、手動によるデータ注釈の限界がますます明らかになってきています。手動によるデータの注釈は時間と労力がかかるだけでなく、品質を保証することが難しい場合があります。
これらの問題を解決するために、Google は最近、AI フィードバック強化学習 (RLAIF) と呼ばれる、人間の好みのアノテーションに代わって大規模モデルを使用する手法を提案しました。
研究結果によると、RLAIF は人間によるアノテーションに依存せずに、人間によるフィードバックを伴う強化学習 (RLHF) と同等の改善を実現でき、どちらの勝率も 50% です。一方、RLAIF と RLHF は両方とも、教師あり微調整 (SFT) のベースライン戦略を上回っています。
これらの結果は、RLAIF が手動のアノテーションに依存する必要がなく、RLHF の実現可能な代替手段であることを示しています。 **
では、このテクノロジーが将来本当に推進され、普及した場合、データの注釈付けを依然として手動の「プルボックス」に依存している多くの企業は、これから本当に行き詰まりに追い込まれるのでしょうか?
国内アノテーション業界の現状を簡単にまとめると、 **業務量は多いが効率はあまり高くなく、恵まれない状態である。 **
ラベル会社はAI分野のデータファクトリーとして知られており、通常は東南アジアやアフリカ、あるいは中国の河南省、山西省、山東省など人材が豊富な地域に集中しています。
コストを抑えるため、ラベル貼り会社の上司は郡内にスペースを借りてコンピューターを設置し、注文があれば近くでアルバイトを募集し、注文がなければ解散するという。そして休んでください。
簡単に言えば、この種の仕事は道端での一時的な装飾作業員に少し似ています。
ワークステーションでは、システムは「アノテーター」に一連のデータをランダムに提供します。これには通常、いくつかの質問といくつかの回答が含まれます。
その後、「アノテーター」はまず質問がどのタイプに属するかをマークし、次に回答を採点してランク付けする必要があります。
以前、国産大型モデルとGPT-4などの先進大型モデルとの格差が話題になった際に、国産データの質が低い理由をまとめていました。
しかし、なぜデータの品質が高くないのでしょうか?その理由の一部は、データ アノテーションの「組み立てライン」にあります。
現在、中国の大規模モデルには 2 種類のデータ ソースがあります。1 つはオープン ソース データ セット、もう 1 つはクローラーを通じてクロールされた中国のインターネット データです。
中国の大型モデルのパフォーマンスが十分でない主な理由の 1 つは、インターネット データの品質ですたとえば、専門家は通常、情報を探すときに Baidu を使用しません。
したがって、医療や金融など、より専門的かつ垂直的なデータの問題に直面する場合は、専門チームと協力する必要があります。
しかしこの時点で、問題が再び生じています。プロチームの場合、データに関しては復帰期間が長いだけでなく、先行者が損失を被る可能性が高いのです。
たとえば、特定のアノテーション チームが多量のデータを作成するために多額の費用と時間を費やした場合、他のチームはそれをパッケージ化して少額の金額で購入するだけかもしれません。
このような「フリーライダーのジレンマ」に直面して、国産大型モデルはデータは多くても品質が低いという奇妙な苦境に陥っている。
では、OpenAI などの大手 AI 企業は、この問題をどのように解決しているのでしょうか?
実際、データ アノテーションに関して、OpenAI はコストを削減するために安価で集約的な労働力の使用を放棄していません。
たとえば、有毒情報にラベルを付けるために、1 時間あたり 2 ドルの料金で大量のケニア人労働者を雇用していたことが以前に明らかになりました。
**しかし、重要な違いは、データ品質と注釈の効率の問題を解決する方法にあります。 **
具体的には、この点におけるOpenAIと国内企業との最大の違いは、手動アノテーションの「主観性」と「不安定性」の影響をいかに軽減するかである。
このようなヒューマン・アノテーターの「主観性」と「不安定性」を軽減するために、OpenAI は大きく次の 2 つの戦略を採用しています。
1. 人工フィードバックと強化学習の組み合わせ;
まず最初の点についてお話しますが、ラベリング手法に関して言えば、OpenAI の手動フィードバックと国内フィードバックの最大の違いは、インテリジェント システムの出力を変更したりラベル付けしたりするのではなく、主にインテリジェント システムの動作を並べ替えたりスコアリングしたりすることです。
インテリジェント システムの動作とは、複雑な環境において、独自の目標と戦略に基づいて一連のアクションまたは決定を行うインテリジェント システムを指します。
たとえば、ゲームをしたり、ロボットを制御したり、人と会話したりするなどです。
インテリジェント システムの出力とは、記事を書く、絵を描くなどの単純なタスクにおいて、入力データに基づいて結果や回答を生成することを指します。
一般に、インテリジェント システムの動作は、出力よりも「正しい」か「間違っている」かを判断するのが難しく、好みや満足度の観点から評価する必要があります。
このような「好み」や「満足度」に基づく評価システムでは、特定の内容の修正や注釈を必要としないため、人間の主観や知識レベルなどの要素がデータ注釈の品質や精度に及ぼす影響を軽減できます。
確かに国内企業もラベル付けの際に「ソート」や「スコアリング」と同様のシステムを利用するだろうが、インテリジェントシステムの戦略を最適化するための報酬機能としてOpenAIのような「報酬モデル」が欠如しているため、「 「ソート」と「スコアリング」 「スコアリング」は依然として本質的には出力を変更したり注釈を付けたりする方法です。
2. 多様かつ大規模なデータ ソース チャネル;
中国におけるデータ アノテーションの主なソースは、サードパーティのアノテーション会社またはテクノロジー企業の自社チームです。これらのチームのほとんどは学部生で構成されており、高品質で効率的なフィードバックを提供するための十分な専門性と経験が不足しています。
対照的に、OpenAI の手動フィードバックは複数のチャネルとチームから得られます。
OpenAI は、オープンソース データセットとインターネット クローラーを使用してデータを取得するだけでなく、Scale AI、Appen、Lionbridge AI などの複数のデータ企業や機関と連携して、より多様で高品質なデータを取得します。
国内の対応企業と比較して、これらのデータ企業や機関のラベル付け方法は、はるかに「自動」かつ「インテリジェント」です。
たとえば、Scale AI は、複数の不正確なデータ ソースから高品質のラベルを生成できる、弱教師あり学習に基づくデータ ラベル付け手法である Snorkel と呼ばれる手法を使用します。
同時に、Snorkel は、ルール、モデル、知識ベースなどのさまざまな信号を使用して、各データ ポイントに手動で直接ラベルを付けることなく、データにラベルを追加することもできます。これにより、手動による注釈のコストと時間を大幅に削減できます。
データ アノテーションのコストとサイクルが短縮されるため、競争上の優位性を持つデータ企業は、自動運転、大規模言語モデル、合成データなど、高価値、高難易度、高しきい値の細分化を選択できるようになり、継続的に改善することができます。その核となる競争力と差別化された利点。
このようにして、「先行者が苦しむ」というただ乗りのジレンマも、技術的および業界の強力な障壁によって解消されました。
**AI 自動ラベル付けテクノロジーが実際に排除するのは、依然として純粋に手動ラベル付けを使用しているラベル付け会社だけであることがわかります。 **
データ アノテーションは「労働集約的」な業界のように聞こえますが、詳細を掘り下げてみると、高品質のデータを追求するのは簡単な作業ではないことがわかります。
海外のデータアノテーションユニコーンであるScale AIを代表とするScale AIは、アフリカなどから安価な人材を活用するだけでなく、さまざまな業界の専門的なデータを扱うために数十人の博士号を採用している。
データ アノテーションの品質は、Scale AI が OpenAI などの大規模モデル企業に提供する最大の価値です。
データの品質を最大限に確保するために、上記の AI 支援アノテーションの使用に加えて、**Scale AI のもう 1 つの主要な革新が統合データ プラットフォームです。 **
これらのプラットフォームには、Scale Audit、Scale Analytics、ScaleData Quality などが含まれます。これらのプラットフォームを通じて、顧客は注釈プロセスのさまざまな指標を監視および分析し、注釈データを検証および最適化し、注釈の精度、一貫性、完全性を評価できます。
このような標準化され統一されたツールとプロセスは、ラベル会社における 「組立ライン工場」 と 「手作りの工房」 を区別する重要な要素となっていると言えます。
この点に関して、国内のアノテーション会社のほとんどは依然としてデータアノテーションの品質をレビューするために「手動レビュー」を使用しており、EasyData インテリジェント データ サービス プラットフォームなど、より高度な管理および評価ツールを導入しているのは、Baidu などの少数の大手企業だけです。
主要なデータレビューの側面でアノテーションの結果と指標を監視および分析するための専用ツールがない場合、データ品質の管理は依然として「マスター」のビジョンに依存するワークショップのようなレベルにまで低下します。
そのため、Baidu やとなりのトトロ データなど、ますます多くの国内企業が機械学習と人工知能テクノロジーを使用して、データ アノテーションの効率と品質を向上させ、人間と機械のコラボレーション モデルを実装し始めています。
AIラベリングの出現は、国内のラベリング会社の終わりではなく、技術的内容が欠如し、非効率で安価で労働集約的なラベリング方法の終わりであることがわかります。
12k 人気度
22k 人気度
17k 人気度
19k 人気度
Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか?
出典: AI New Intelligence
現在の生成型 AI が元気に成長する子供のようなものだとすると、継続的なデータは成長するための糧となります。
データアノテーションは、この「食べ物」を作るプロセスです。
ただし、このプロセスは非常にボリュームがあり、面倒です。
AI テクノロジーの継続的な進歩に伴い、手動によるデータ注釈の限界がますます明らかになってきています。手動によるデータの注釈は時間と労力がかかるだけでなく、品質を保証することが難しい場合があります。
これらの結果は、RLAIF が手動のアノテーションに依存する必要がなく、RLHF の実現可能な代替手段であることを示しています。 **
では、このテクノロジーが将来本当に推進され、普及した場合、データの注釈付けを依然として手動の「プルボックス」に依存している多くの企業は、これから本当に行き詰まりに追い込まれるのでしょうか?
1 データアノテーションの現在のステータス
国内アノテーション業界の現状を簡単にまとめると、 **業務量は多いが効率はあまり高くなく、恵まれない状態である。 **
ラベル会社はAI分野のデータファクトリーとして知られており、通常は東南アジアやアフリカ、あるいは中国の河南省、山西省、山東省など人材が豊富な地域に集中しています。
コストを抑えるため、ラベル貼り会社の上司は郡内にスペースを借りてコンピューターを設置し、注文があれば近くでアルバイトを募集し、注文がなければ解散するという。そして休んでください。
簡単に言えば、この種の仕事は道端での一時的な装飾作業員に少し似ています。
その後、「アノテーター」はまず質問がどのタイプに属するかをマークし、次に回答を採点してランク付けする必要があります。
以前、国産大型モデルとGPT-4などの先進大型モデルとの格差が話題になった際に、国産データの質が低い理由をまとめていました。
しかし、なぜデータの品質が高くないのでしょうか?その理由の一部は、データ アノテーションの「組み立てライン」にあります。
現在、中国の大規模モデルには 2 種類のデータ ソースがあります。1 つはオープン ソース データ セット、もう 1 つはクローラーを通じてクロールされた中国のインターネット データです。
中国の大型モデルのパフォーマンスが十分でない主な理由の 1 つは、インターネット データの品質ですたとえば、専門家は通常、情報を探すときに Baidu を使用しません。
しかしこの時点で、問題が再び生じています。プロチームの場合、データに関しては復帰期間が長いだけでなく、先行者が損失を被る可能性が高いのです。
たとえば、特定のアノテーション チームが多量のデータを作成するために多額の費用と時間を費やした場合、他のチームはそれをパッケージ化して少額の金額で購入するだけかもしれません。
このような「フリーライダーのジレンマ」に直面して、国産大型モデルはデータは多くても品質が低いという奇妙な苦境に陥っている。
では、OpenAI などの大手 AI 企業は、この問題をどのように解決しているのでしょうか?
たとえば、有毒情報にラベルを付けるために、1 時間あたり 2 ドルの料金で大量のケニア人労働者を雇用していたことが以前に明らかになりました。
**しかし、重要な違いは、データ品質と注釈の効率の問題を解決する方法にあります。 **
具体的には、この点におけるOpenAIと国内企業との最大の違いは、手動アノテーションの「主観性」と「不安定性」の影響をいかに軽減するかである。
2 OpenAI のアプローチ
このようなヒューマン・アノテーターの「主観性」と「不安定性」を軽減するために、OpenAI は大きく次の 2 つの戦略を採用しています。
1. 人工フィードバックと強化学習の組み合わせ;
まず最初の点についてお話しますが、ラベリング手法に関して言えば、OpenAI の手動フィードバックと国内フィードバックの最大の違いは、インテリジェント システムの出力を変更したりラベル付けしたりするのではなく、主にインテリジェント システムの動作を並べ替えたりスコアリングしたりすることです。
インテリジェント システムの動作とは、複雑な環境において、独自の目標と戦略に基づいて一連のアクションまたは決定を行うインテリジェント システムを指します。
たとえば、ゲームをしたり、ロボットを制御したり、人と会話したりするなどです。
一般に、インテリジェント システムの動作は、出力よりも「正しい」か「間違っている」かを判断するのが難しく、好みや満足度の観点から評価する必要があります。
このような「好み」や「満足度」に基づく評価システムでは、特定の内容の修正や注釈を必要としないため、人間の主観や知識レベルなどの要素がデータ注釈の品質や精度に及ぼす影響を軽減できます。
2. 多様かつ大規模なデータ ソース チャネル;
中国におけるデータ アノテーションの主なソースは、サードパーティのアノテーション会社またはテクノロジー企業の自社チームです。これらのチームのほとんどは学部生で構成されており、高品質で効率的なフィードバックを提供するための十分な専門性と経験が不足しています。
OpenAI は、オープンソース データセットとインターネット クローラーを使用してデータを取得するだけでなく、Scale AI、Appen、Lionbridge AI などの複数のデータ企業や機関と連携して、より多様で高品質なデータを取得します。
国内の対応企業と比較して、これらのデータ企業や機関のラベル付け方法は、はるかに「自動」かつ「インテリジェント」です。
同時に、Snorkel は、ルール、モデル、知識ベースなどのさまざまな信号を使用して、各データ ポイントに手動で直接ラベルを付けることなく、データにラベルを追加することもできます。これにより、手動による注釈のコストと時間を大幅に削減できます。
このようにして、「先行者が苦しむ」というただ乗りのジレンマも、技術的および業界の強力な障壁によって解消されました。
3 標準化 VS 小規模ワークショップ
**AI 自動ラベル付けテクノロジーが実際に排除するのは、依然として純粋に手動ラベル付けを使用しているラベル付け会社だけであることがわかります。 **
データ アノテーションは「労働集約的」な業界のように聞こえますが、詳細を掘り下げてみると、高品質のデータを追求するのは簡単な作業ではないことがわかります。
海外のデータアノテーションユニコーンであるScale AIを代表とするScale AIは、アフリカなどから安価な人材を活用するだけでなく、さまざまな業界の専門的なデータを扱うために数十人の博士号を採用している。
データの品質を最大限に確保するために、上記の AI 支援アノテーションの使用に加えて、**Scale AI のもう 1 つの主要な革新が統合データ プラットフォームです。 **
これらのプラットフォームには、Scale Audit、Scale Analytics、ScaleData Quality などが含まれます。これらのプラットフォームを通じて、顧客は注釈プロセスのさまざまな指標を監視および分析し、注釈データを検証および最適化し、注釈の精度、一貫性、完全性を評価できます。
この点に関して、国内のアノテーション会社のほとんどは依然としてデータアノテーションの品質をレビューするために「手動レビュー」を使用しており、EasyData インテリジェント データ サービス プラットフォームなど、より高度な管理および評価ツールを導入しているのは、Baidu などの少数の大手企業だけです。
主要なデータレビューの側面でアノテーションの結果と指標を監視および分析するための専用ツールがない場合、データ品質の管理は依然として「マスター」のビジョンに依存するワークショップのようなレベルにまで低下します。
AIラベリングの出現は、国内のラベリング会社の終わりではなく、技術的内容が欠如し、非効率で安価で労働集約的なラベリング方法の終わりであることがわかります。