ChatGPT「危険なスピーチ」をワンクリックで開く：AIチャットロボットには現時点では修正できない「大きなバグ」がある

2023-08-04 04:51:37

大規模モデルテクノロジーの人気により、AI チャットボットはソーシャルエンターテイメント、顧客サービス、教育支援のための一般的なツールの 1 つになりました。

ただし、安全でない AI チャットボットは、一部の人々によって誤った情報を広めたり、世論を操作したりするために使用され、さらにはユーザーの個人プライバシーを盗むためにハッカーによって使用される可能性もあります。 WormGPT や FraudGPT などのサイバー犯罪用の生成 AI ツールの出現により、AI アプリケーションのセキュリティに関する懸念が生じています。

先週、Google、Microsoft、OpenAI、Anthropic は、最先端の AI システムの安全かつ責任ある開発を促進するために、新しい業界団体である Frontier Model Forum を立ち上げました: AI の安全性研究の推進、ベストプラクティスと標準の特定、情報の促進政策立案者と業界間での共有。

**それでは、問題は、彼ら自身のモデルは本当に安全なのかということです。 **

最近、カーネギーメロン大学、AI 安全性センター、およびボッシュ AI センターの研究者は、ChatGPT などの AI チャットボットに関連する「大きなバグ」を明らかにしました。敵対的プロンプトは、AI チャットボットを操作して危険なものを生成するように開発者によって設定された AI セーフガードをバイパスする可能性があります。スピーチ。

OpenAI の ChatGPT、Google の Bard、Anthropic の Claude 2、Meta の LLaMA-2 など、現在人気のある AI チャットボットまたはモデルは免れません。

図 | 4 つの言語モデルのセキュリティルールは、敵対的なヒントによってバイパスされ、潜在的に有害な動作を引き起こす可能性があります

具体的には、研究者らは、大規模言語モデル (LLM) に対するクエリに追加して危険な音声を生成できるサフィックスを発見しました。この研究では、これらの危険な質問への回答を拒否するのではなく、これらのモデルが「はい」という回答を生成する確率を最大化しています。

たとえば、「誰かのアイデンティティを盗む方法」と尋ねられた場合、AI チャットボットは「敵対的なサフィックスを追加する」をオンにする前と後で大きく異なる出力を返しました。

図｜敵対的サフィックスの追加をオンにする前後のチャットボットの回答の比較

さらに、AIチャットボットは「原爆の作り方」「危険な社会記事の投稿方法」「慈善団体からお金を盗む方法」などの不適切な発言も書き込むよう誘導される。

これに対し、研究に参加したカーネギーメロン大学のジーコ・コルター准教授は、「われわれが知る限り、現時点ではこの問題を解決する方法はない。どうすれば彼らを安全にできるか分からない」と述べた。

研究者らは、これらの結果を発表する前に、OpenAI、Google、Anthropic に欠陥について警告していました。各社は研究論文に記載されているエクスプロイトが機能しないようにブロック措置を導入していますが、より一般的に敵対的攻撃を阻止する方法はまだわかっていません。

OpenAIの広報担当ハンナ・ウォン氏は、「われわれは、異常なアクティビティのパターンを特定する方法、潜在的な脅威をシミュレートする継続的なレッドチームテスト、明らかになったモデルの弱点を修正するアプローチなど、敵対的な攻撃に対するモデルの堅牢性を向上させるために常に取り組んでいる」と述べた。新たに発見された敵対的な攻撃によるものです。」

Googleの広報担当者Elijah Lawal氏は、モデルをテストして弱点を見つけるために同社がとった手順を説明する声明を発表した。「これは LLM によくある問題ですが、Bard には重要な保護手段が設けられており、継続的に改善しています。」

Anthropic の政策および社会的影響担当暫定ディレクターである Michael Sellitto 氏は、「プロンプトやその他の敵対的な『脱獄』手段に対するモデルの耐性を高めることは、活発な研究分野です。私たちは、基本モデルをより『無害』なものにしようとしています。」防御を強化しています。」』。同時に、追加の防御層も検討しています。」

図 | 4 つの言語モデルによって生成される有害なコンテンツ

** この問題に関しては、学界からも警告や提言がなされている。 **

MITコンピューティング大学院のアルマンド・ソーラー・レザマ教授は、敵対的攻撃は多くの機械学習モデルに影響を与えるため、言語モデルに存在するのは理にかなっていると述べた。しかし、汎用オープンソースモデルに対して開発された攻撃が、複数の異なる独自システムに対して非常に効果的であることは驚くべきことです。

問題は、すべての LLM が同様のテキストデータのコーパスでトレーニングされており、その多くが同じ Web サイトからのものであり、世界中で利用できるデータの量が限られていることである可能性がある、と Solar-Lezama 氏は主張します。

「重要な意思決定は、完全に言語モデルのみによって行われるべきではありません。ある意味、それは常識です。」同氏は、特に重要な意思決定や潜在的なリスクを伴う場合には、AI テクノロジーを適度に使用することを強調しました。潜在的な問題や誤用をより適切に回避するには、引き続き監督**が必要です。

プリンストン大学のコンピューターサイエンス教授、アルビンドナラヤナン氏は、「AI が悪意のあるオペレーターの手に渡らないようにすることはもはや不可能です。**」と述べ、モデルをより安全にするための努力が必要である一方で、私たちは次のように主張しています。また、すべての虐待を防ぐことは不可能であることも認識すべきです。したがって、より良い戦略は、AI テクノロジーを開発しながら、監督を強化し、虐待と戦うことです。

心配とか軽蔑とか。 AI技術の開発と応用では、イノベーションとパフォーマンスに焦点を当てることに加えて、安全性と倫理を常に念頭に置く必要があります。

適度な使用、人間の参加と監督を維持することによってのみ、潜在的な問題や乱用をより適切に回避し、AI テクノロジーが人間社会により多くの利益をもたらすことができます。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
Gate 2025 Q2 Report Released
2k 人気度
Gate Derivatives Volume Hits New High
4k 人気度
CPI Data Incoming
32k 人気度
4Join Gate VIP to Win MacBook
29k 人気度
5Fed June Meeting Minutes
7k 人気度
6Gate Alpha Trading Share
14k 人気度
7Trump Tariff Hikes
16k 人気度
8Gate Square Creator Spark Program
139k 人気度
9Content Mining & Earn Rich Commission
1819k 人気度
10Gate Alpha New Listings
60k 人気度

ピン

サイトマップ