AI ハリケーンの時代に、どうすれば AI を信頼できるでしょうか?

Question

著者: 陳永偉出典: 経済オブザーバー**序章****一||** **AI ツールは人々の生産性を大幅に向上させ、人々の生活に大きな利便性をもたらしました。しかし、AIが人間に大規模に利用されるようになると、多くの問題も生じます。これらの問題の中で最も重大なものは、5つの「損失」、すなわち失業、歪み、失格、失敗、そしてコントロールの喪失かもしれない。 ****二||** **2017年以降、AI技術の急速な発展に伴い、信頼できるAI技術の研究も盛んになっています。学術分野においても、信頼されるAIに関する論文が増加しており、信頼されるAIの要件を満たす技術の研究が深まっています。実務の分野では、信頼できる AI の基準に従って AI 規制を導入する国が増えています。 ****三|| 信頼される AI を実現することは簡単ではなく、政府、企業、社会、テクノロジーの連携が必要です。 **![](https://img-cdn.gateio.im/social/moments-bab2147faf-bb254e46d9-dd1a6f-7649e1) 画像ソース: Unbounded AI によって生成現地時間6月22日、ニューヨーク州南部地方裁判所は、裁判所に虚偽の情報を提供し、悪質な行為を行ったとして、レビドー・レビドー＆オーバーマン法律事務所に5,000ドルの罰金を課す判決を下した。懸念の原因は、この事件で虚偽の情報を提供したのは、弁護士が私利私欲から故意に法律違反をしたからではなく、AIの能力を過度に信じたためだということだ。今年3月、当事務所の弁護士ピーター・ロドゥカ氏とスティーブン・シュワルツ氏は、顧客のロベルト・マタ氏から、同氏とアビアンカ航空との間の訴訟の責任を負うよう依頼された。米国は判例法の国であるため、裁判官は判決を下す際に既存の判例を非常に気にするため、通常の慣例によれば、既存の判例を整理して草案文書にまとめる必要がある。関連する案件は多くの場合膨大であり、人力で案件を整理するには時間がかかるのが通常です。ちょうどこの頃、ChatGPT がインターネット全体で人気を博しました。したがって、2 人の弁護士は、これらのタスクを完了するために ChatGPT を使用することにしました。 ChatGPT はすぐに完全な文書を生成しました。この文書には、きちんとした形式と厳格な議論が含まれているだけでなく、多くの関連事例も特別に追加されています。 AIが作成した文書に若干の修正を加えて裁判所に提出した。提出された書類を読んだ後、この事件を審理したケビン・カステル判事は、その中で言及されているいくつかの事件に非常に困惑しており、彼の印象としては、これらの事件について聞いたことがないように思えたという。いくつかの検索の後、彼は最終的にこれらのケースがまったく存在しないことを確認しました。取材に対し、2人の弁護士は、AIは文書作成を支援するために利用しただけであり、文書に引用された事件を見て、知らない事件を見つけるのにAIが役に立ったと感じただけであり、意図的に事件を捏造したわけではないと主張した。法廷を欺くことは、意図せぬ損失です。それにもかかわらず、カスター判事は、弁護士らが「責任を放棄」し、書類審査が行われた後も「虚偽の意見を維持し続けた」と認定した。上記の判決に基づいて、カスター判事は罰則の決定を下した。ChatGPTが提供した虚偽の情報を引用したとして弁護士に罰金を科せられたこの事件は、ばかばかしいように思えるが、これは非常に重要な問題を反映している――AI狂乱の時代にAIをどうやって信頼できるのか？## **AI時代の5つの「損失」**近年、計算能力とアルゴリズム技術の進歩により、AI技術は急速な発展を遂げ、SFの世界から急速に人々の日常生活に浸透しました。特に昨年11月のChatGPTの登場以降、生成AIはその威力を人々に示し、雨後の筍のように様々な大型モデルが湧き出て、大規模な商用化を達成した。現在では、人々はすでに ChatGPT、Stable Diffusion、Midjourney などの AI 製品を非常に低コストで使用できるようになりました。AIツールは人々の生産性を大きく向上させ、人々の生活に大きな利便性をもたらしました。しかし、AIが人間に大規模に利用されるようになると、多くの問題も生じます。これらの問題の中で最も重大なものは、5つの「損失」、すなわち失業、歪み、失格、失敗、そしてコントロールの喪失かもしれない。**(1) 失業者**いわゆる「失業」とは、その名のとおり、AIによってもたらされる技術的な失業問題を指します。 AIの生産効率は人間の生産効率よりもはるかに高いため、AIツールが普及した後は多くの人間の仕事が代替される危険にさらされています。特に生成型AIの台頭以降、AIに置き換えられる対象者は低所得の反復労働に従事する労働者に限定されなくなり、高賃金のホワイトカラーの多くもAIに置き換えられるリスクに直面している。**(2) 歪み**いわゆる「歪曲」とは、AI（主に生成型AI）の応用により、文字や写真、さらには動画の真偽を人間が識別することが困難になることを指し、「写真あり、真実あり」は歴史となった。「歪み」の問題は「偽・真」と「真・偽」に分けられます。このうち「偽・真」とは、人がAIツールを利用する際に、人間の同意なしにAIによって生成される偽のコンテンツを指します。これらのコンテンツは、人々の主観的な悪意から生み出されたものではありませんが、場合によっては、この記事の冒頭で述べたケースのように、多大なトラブルを引き起こす可能性があります。そして、「本物と偽物」は主観的な熟慮、つまり不正行為を実行するための人工知能ツールの使用に基づいています。数年前、「ディープフェイク」技術が登場した後、一部の人々がこの技術を利用して詐欺、虚偽の情報の捏造、ポルノコンテンツの拡散、その他の違法・犯罪行為を行いました。しかし当時、このテクノロジーの使用コストが高かったため、関連する犯罪の発生率はそれほど高くありませんでした。生成 AI の普及により、偽造のコストが大幅に削減され、犯罪者は非常に低コストで大量の偽のコンテンツを簡単に作成できるようになりましたが、その一方で、そのようなコンテンツを特定するコストは大幅に増加しました。栄枯盛衰のもとで、介入がなければ、不正犯罪を行うための AI の使用が急増することが予測されます。**（3）失格**いわゆる「失格」とは、AIの応用過程において倫理や道徳に反する一部の問題を指します。まず典型的な問題は差別です。言語モデルを例に挙げると、言語モデルはインターネット上のテキストデータを教材として使用するため、テキストに含まれる人種差別や性差別をそのまま継承してしまいます。現在の AI プロバイダーはこの問題を解決するために多くの方法を使用していますが、たとえば、OpenAI は ChatGPT をトレーニングするときに「ヒューマン フィードバックからの強化学習」(Reinforcement Learning from Human Feedback、RL-HF) アルゴリズムを適用してこの問題を修正しました。出力コンテンツの品質は大幅に向上しましたが、実際には、AI モデルが差別的なコンテンツを出力することはまだ珍しいことではありません。たとえば、ある人が実験を行い、ChatGPT に、一連の履歴書から優秀な科学者になる可能性が最も高い人材を選出するプログラムを書くように依頼しました。 ChatGPTが書いたプログラムでは性別と人種が説明変数として使われており、白人男性は他の男性よりも優れた科学者になる確率が高いと考えられていたことが判明した。明らかに、そのようなモデルは非常に性差別的で人種差別的です。次に重要な問題は、情報コクーンルーム問題です。現在、多くのアプリが AI を使用してパーソナライズされたレコメンデーションを実現しています。現時点では、推奨コンテンツはよりユーザーのニーズに応えることができますが、時間が経つにつれて、ユーザーは情報の繭に閉じ込められ、同意しないさまざまな情報にアクセスすることが困難になります。情報コクーンの潜在的な害は非常に大きく、ミクロレベルではユーザーの認知能力の低下につながる可能性があり、マクロレベルではグループの見解の二極化につながり、異なる見解間のグループ対立が生じる可能性があります。3 番目の重要な問題は、プライバシーと情報漏洩です。 AIの学習や活用の過程では大量のデータが必要になりますが、その過程では人々の個人情報の収集・利用を避けることが難しく、プライバシーの利用・公開が伴います。特に生成型AIの普及以降、人々はAIと直接対話してさまざまなタスクを簡単に実行できるようになりましたが、その過程で入力された個人情報の漏洩という問題に直面しています。**(4) 紛失**いわゆる「フォール」とは、AI が外部からの攻撃や干渉、あるいは予期せぬ状況からの攻撃に対応することが難しく、モデルがその役割を正常に果たすことが困難になることを指します。これらの混乱の中には、人為的以外の要因に起因するものもあれば、人為的破壊に起因するものもあります。具体的には、これらの干渉は次のカテゴリに分類できます。1つ目は「ランダム攻撃」です。この種の干渉は主に何らかの外部要因によって引き起こされます。たとえば、特殊なケースでは、瞬間的に生成される一部のパラメーターがモデルで設定された処理閾値を超える場合があり、AI モデルが正常に使用できなくなる可能性があります。2つ目は「ホワイトボックス攻撃」です。 AIモデルの具体的な構造を知った上でプロバイダーが仕掛けるモデルに対する攻撃を指します。このような攻撃は標的型攻撃であるため、破壊力が非常に高いです。3つ目は「ブラックボックス攻撃」です。このタイプの攻撃は、「ホワイト ボックス攻撃」に関連します。この場合、プロバイダーはターゲット モデルの具体的な構造を知らないため、モデルと対話し、入出力の結果を観察し、モデルの構造を推論して、それに応じて攻撃を開始することしかできません。顔認識を例に挙げると、AI は顔の特定の主要な特徴を通じて顔を認識します。したがって、攻撃者が元のモデルの具体的な構造を知らなくても、テストを繰り返す限り、どの特徴に注目しているかを推定することができます。この情報を解読すると、AIを欺く対応する「偽の顔」を作成できます。4 番目のカテゴリは、いわゆるブラインド ボックス攻撃です。この場合、サプライヤーはAIモデルの構造を知りませんが、その判断ルールを明確に知ることができます（ブラインドボックスに何が表示されるかはわかりませんが、さまざまな可能性の確率はわかります）その中で））。現時点では、ルールを使用して対応する攻撃を開始できます。上記の種類の干渉や攻撃に効果的に対処できない場合、AI モデルは実際には非常に脆弱です。**(5) 制御不能**いわゆる「制御不能」とは、人間がAIを制御することがますます困難になることを意味します。この質問には 2 つの側面があります。一方で、最近の AI 開発はすべて深層学習モデルに基づいており、そのようなモデルの解釈可能性は非常に低いです。以前の機械学習モデルでは、回帰であろうと分類ツリーであろうと、モデルの正確な目的とモデル内の各パラメーターの意味を簡単に説明できます。しかし、ディープラーニングモデルは、数億個のパラメータとニューロンを含む複雑なニューラルネットワークで構成されており、これらのニューロン間の関係は複雑で、人間が説明するのは困難です。ChatGPT の登場により、一部の学者は ChatGPT の能力の助けを借りて、一部のニューラル ネットワーク モデルを説明できるようであることを発見し、AI の説明可能性に一縷の希望をもたらしているようです。しかし、これは別の問題を引き起こします。ChatGPT 自体は深層学習によって構築された巨大なモデルであり、その強力な機能がどのように「出現」するのか正確には分からないことをその設計者でさえ認めています。この場合、他の深層学習モデルを説明するために ChatGPT を使用することは、未知のものを説明するために未知のものを使用しているとしか見なされません。そして、その解釈が正しいかどうかはどうやって分かるのでしょうか?ディープラーニングの時代ではAIプログラムですら解釈できないため、プログラムを直接調整してAIを制御することはさらに困難になります。一方で、近年のAI技術の発展により、AIモデルの能力はあらゆる面で人間の能力を超えています。これは人々を喜ばせる一方で、不安にもさせます。なぜなら、AIの能力が人間を超え、AIが自らの意志を目覚めさせた場合、映画『ターミネーター』や『ザ・ファイナル』などで予言されたAIの奴隷化が起こるからです。マトリックス』人類の陰謀か人類の滅亡はもはやSFではない。一歩下がって考えると、たとえAIが自らの意志を目覚めさせず、人間の指示に従ってのみ行動するとしても、その能力が人間の能力を上回り、人間がいつでも以前の指示を変更できない場合、それは非常に危険です。たとえば、AI に関する多くの哲学書では、人間が AI に鉛筆を作る命令を出したという思考実験について言及されています。この指示を完了するために、鉛筆はペンホルダーを作るために地球上の木を伐採し続けます。 AIの実行能力は人間を上回っているため、人間が以前の命令に問題を発見した後にAIの動作を止めることは困難です。やがて、地球上の木々は伐採され、生態系は完全に崩壊し、人類は滅亡しました。実際には、この思考実験で予測されたシナリオが起こることはほぼ不可能ですが、いつでも人間がAIの行動を制御できなくなった場合、同様の問題が発生し、考えられる損失は莫大なものになるでしょう。特に、ハッカーや侵入者によって AI に違法なターゲットが埋め込まれた場合、AI ユーザーが時間内に修正できなかった場合、その結果は非常に深刻になる可能性があります。上記 5 種類の質問のうち、最初の「失業」を除く残り 4 つの質問はすべて AI の信頼性に関わるものです。 「歪み」、「失格」、「転倒」、「制御不能」に人々が効果的に対応できなければ、AI をツールとして信頼することが困難になることは、理解するのが難しくありません。 AIの普及や生産の発展は社会の進歩にとって良くありません。 AI の信頼性の実現が現在の AI 分野で最も懸念されるホットスポットの 1 つとなっているのはまさにこの理由です。## **信頼できる AI の歴史と基準**Trustworthy AI の概念は、最初に学術界で登場しました。たとえば、2015年の論文では、AIがユーザーに信頼されるための一連の条件として、有用性、無害性、自律性、公平性、論理性が提案されています。その後、この概念は政府や国際機関に受け入れられ、この概念に基づいて関連する法律、規制、指導文書が徐々に制定されていきました。 2017年以降、AI技術の急速な発展に伴い、信頼されるAI技術の研究も盛んになっている。学術分野においても、信頼されるAIに関する論文が増加しており、信頼されるAIの要件を満たす技術の研究が深まっています。実務の分野では、信頼できる AI の基準に従って AI 規制を導入する国が増えています。つい最近、米国がAIを規制するための5原則を提案した「人工知能権利章典の青写真」を発表、規制や競争などが規定され、欧州議会は人工知能権利章典案の交渉承認草案を可決した。信頼されるAIの基本的な考え方も反映された「人工知能法」。私の国では、信頼できる AI の概念が、2017 年の象山科学会議の第 36 回シンポジウムで学者の何継峰氏によって初めて紹介されました。その後、このコンセプトは政府と業界の両方から注目を集めました。 2017年12月、工業情報化部は、信頼できるAIの基本的な考え方を踏まえた「新世代人工知能産業の発展促進のための3か年行動計画（2018～2020年）」を発表した。その後、Tencent、Ali、Baidu、JD.com などのハイテク企業が、信頼できる AI を中心とした独自の標準と実装計画を提唱しています。さまざまな機関の文書では、信頼される AI の表現が若干異なります。これらの文書を検討および参照した結果、次の基準が最も重要であると考えられます。1つは堅牢性（堅牢とも訳されます）、つまりAIシステムは悪意のある攻撃や外部干渉に抵抗する能力を備えている必要があります。この規格は主に上記の「落ち」問題に対して提案されています。 AI システムが十分な堅牢性を備え、さまざまな攻撃や干渉に直面しても正常に動作し、主な機能を実行できる場合にのみ、AI システムは安全で信頼性が高く、ユーザーから信頼されることができます。2 つ目は透明性があり、説明可能です。明らかに、この標準は主に前述の「制御不能」問題に対して提案されています。実際には、透明性と説明可能性が正確に何を意味するかについては、かなりの議論があります。この標準は、すべての AI プログラム コードと使用されるデータをユーザーが利用できるようにすることを意味すると主張する人もいます。私の意見では、それは不可能であるだけでなく、その必要もありません。現在のAIの多くは企業の知的財産であり、コード等の核心情報の開示を義務付けることは重大な知的財産権の侵害を意味する一方で、前述したようにAIが社会に進出した後は、たとえコードが公開されても、特定のパラメーターの背後にある正確な意味を人々が完全に理解することは困難です。対照的に、より実現可能なアイデアは、AI モデルの各コンポーネントに明確な機能説明を提供し、ユーザーがその一般原理とどのような機能を実現できるかを知ることができるようにすることであり、ソース、サンプル サイズ、代表性などを示すことだと思います。情報を提供し、考えられる問題や欠陥について説明します。このようにして、ユーザーに自分の知っていることを知らせるだけでなく、モデル開発者の知的財産権を効果的に保護して、両者の間のより良いバランスを実現することができます。3つ目は検証可能です。これは、AI モデルがその機能が評価可能であること、および生成されるコンテンツが真であるか偽であるかを検証できることを保証する必要があることを意味します。この点は主に前述の「歪み」問題に対して指摘されています。 AI モデルの開発者は、モデルによって生成されたコンテンツの信頼性を保証する必要があると主張する人もいます。これを達成するのは困難です。実は、いわゆる生成AIが生成するコンテンツは、元の世界にはない、つまり「偽物」なのです。しかし、このような「偽物」は、人に迷惑をかけなければ問題はありません。たとえば、Midjourney を使用して自分自身の鑑賞用にゴッホ風の絵を生成したり、家の装飾として印刷したりしても、他の人にはまったく影響を与えません。この生成されたコンテンツの「偽造性」が問題になるのは、人々がそれを騙すために使用した場合、またはコンテンツが意図せず配布され難読化された場合のみです。したがって、生成されたコンテンツが技術的手段によって本物のコンテンツと区別できる限り、「偽物」は問題になりません。4つ目は公平性です。これは、AI モデルの開発、トレーニング、適用のプロセスにおいて、公平性が確保され、特定のユーザー グループに対して差別が行われてはならないことを意味します。この標準には多くの側面が含まれており、具体的には、開発段階ではモデルの基本原則が差別的であってはならず、トレーニング段階では差別的な可能性のあるマテリアルの使用を避けるように努め、技術的手段を使用して、起こり得る差別問題を修正し、申請の過程で異なる人々のグループを異なる扱いをすべきではありません。5つ目はプライバシーの保護です。この基準は主に、AIモデルがトレーニングプロセス中に人々の個人情報とプライバシーを尊重し、情報保護を強化し、個人情報とプライバシーを侵害または開示しないように努めることを要求しています。6番目は責任があります。つまり、何か問題が発生した場合、誰かがその問題に対して責任を負わなければなりません。もちろん、少なくとも今のところ、AIは意識を目覚めさせていません。人間のように主体として捉えることはできず、人間と同じ責任を負うことはできないので、責任を負うのは誰かでなければなりません。しかし、この責任を AI 開発者と AI ユーザーが負うべきか、それとも両者が分担すべきかについては、まだ議論する価値のある問題です。上記の基準に加えて、多くの文献には安全性（安全）、包括性（包括性）、忘れられる権利（忘れられる権利）、人類の利益などの基準も含まれていることを指摘しておく必要があります。 AIの。私の考えでは、これらの内容は上記のいくつかの基準に多かれ少なかれ要約できるか、または上記の基準によって説明できると思います。したがって、紙面の都合上、ここでは繰り返しません。## **多くの関係者が協力して、信頼できる AI を実現する**信頼されるAIの実現は簡単ではなく、政府、企業、社会、テクノロジーなどさまざまな力の連携が必要です。まず、政府は規制当局として、信頼されるAIに関する関連基準や運用ガイドラインを策定し、基準に基づいてAI開発者や利用者を監督する必要がある。一方で、さまざまなアプリケーションシナリオやさまざまなモデルカテゴリに応じてさまざまなルールを策定する必要があり、特に従う必要があるいくつかの最終的なルールを明確に規定すると同時に、既存のルールとうまく連携する必要があります。法令。この方法によってのみ、AI 開発者とユーザーは不必要な不確実性によって妨げられることなく、実際に従うべきルールを設定できます。一方で、監督と法執行においては良い役割を果たす必要がある。いくつかの顕著な問題または一般的な問題については、業界の対応する規範を確立するために、タイムリーに対処する必要があります。ここで注意しなければならないのは、現在のAI技術の発展は依然として非常に急速であり、まだ安定した状態には達していないということです。つまり、その過程で生じる問題に対して政府は慎重に対応する必要があり、「もう少し弾を飛ばして」状況をよく見てから行動し、その手法に留意する必要がある。トラブル時の対処法や対処法など。やみくもに始めて、あまりに急いで管理しすぎると、AIの発展に悪影響を与える可能性もあります。第二に、関連企業は、信頼できる AI を具体的に実現するための具体的な実装計画と詳細な基準を策定する必要があります。政府と比較して、企業は市場に近く、テクノロジーをよりよく理解しています。彼らは政府よりも AI モデルの技術的特性やその長所と短所についてよく知っています。したがって、政府の責任が信頼される AI のための大きな枠組みを提案することである場合、企業はその大きな枠組みの中での具体的な実践者となるべきです。この枠組みの下で、市場とテクノロジーの特性を組み合わせて、より具体的な計画を提示し、自律的に実行する必要があります。第三に、ユーザーはフィードバックと監督者の役割も果たし、自分の要求を提示し、自分の問題を反映し、企業による信頼できる AI の実装を監督する必要があります。 AIの普及に伴い、社会の誰もがAIのユーザーおよび利害関係者となり、AIの信頼性に関して最大の発言権を持つようになります。彼らの声が最大限に表現されてこそ、信頼されるAIの標準設定や関連技術の開発が最も価値を発揮します。最後に、私たちはテクノロジーの力に全面的に依存すべきです。関連するルールは重要ですが、最終的には、信頼できる AI の実現は依然としてテクノロジーの力に依存しています。実際、ルールを使用して解決するのが難しい問題の多くは、技術的な手段で解決できます。たとえば、生成型 AI の世代以降、「歪み」の問題は規制当局にとって頭の痛い問題ですが、実際には、新しいテクノロジーに頼れば、この問題を解決するのは難しくないかもしれません。たとえば、Google は以前、肉眼では見えないが機械によって認識できる電子透かし技術を導入しており、生成された画像やビデオにそれを適用することで、それらが検証可能であることを効果的に保証できます。テキストコンテンツの検証可能性については、New Bing (New Bing) 検索の例に従うことができます。特定のコンテンツを引用する場合、生成されたコンテンツの後に参照文書を添付するため、ユーザーは必要に応じて生成されたコンテンツの信頼性を自分で識別できます。全体として、信頼される AI の実現は簡単な作業ではありませんが、すべての関係者が協力して努力すれば、この目標は必ず達成されます。