たとえば、放射線科医は AI の X 線診断を見て、骨折や病変が見逃されていないかどうかを判断します。その後、人間が間違いを修正し、患者が適切な治療を受けられるようにすることができます。これは素晴らしいパートナーシップですが、小さな問題があります。人間は結論を 100% 確信できることはめったにありません。
同じ放射線科医が、X 線写真で異なる色の骨組織の領域を見て、「これは病変なのか、それとも X 線自体の異常なのか? 病変である場合、その原因は何か?」と疑問に思うかもしれません。それは良性ですか、悪性ですか?」 ?」 高度に訓練された専門家、そしておそらく特に専門家でさえ、観察や決定にこの種の不確実性を組み込むことがよくあります。別の診断が行われる可能性が 10% あると考えられる場合は、患者と話し合い、それに応じて計画を立てることができます。
これは私たちにとって自然なことのように思えますが、ヒューマン マシン ループバック システムはこのように推論しません。彼らは人間の介入を二元論的に捉えています。つまり、人間が何を知っているか、あるいは知らないかのどちらかです。これにより、パートナーシップにおける人為的ミスのリスクを軽減する AI システムの能力が制限される可能性があります。
研究: 人間の意思決定における不確実性が AI を改善する鍵となるでしょうか?
ケビン・ディキンソン著
出典: FreeThink
私たちの多くにとって、テクノロジーは不確実性を解決する方法を提供します。事実を思い出せない場合、または何かを理解できない場合は、単に検索して答えを得ることができます。パリ講和会議が終わったのは何年ですか? Googleで調べてください…1920年。 10キロのランニングは何マイルですか? 6.2マイル。オスカー受賞者のブレンダン・フレイザーの長編映画デビュー作『エンシノ・マン』で共演するのは誰?ショーン・アスティンとポーリー・ショア。
興味深いことに、その逆のことがますます起こっています。コンピューターは、自分たちの作業をチェックするために人間に依存しています。 「人間参加型」AI システムは、AI が情報を読み間違えたり、不正確な予測をしたりしないように人間の介入に依存します。この状況は、多くの場合、映画のハイライトよりも重要です。
たとえば、放射線科医は AI の X 線診断を見て、骨折や病変が見逃されていないかどうかを判断します。その後、人間が間違いを修正し、患者が適切な治療を受けられるようにすることができます。これは素晴らしいパートナーシップですが、小さな問題があります。人間は結論を 100% 確信できることはめったにありません。
同じ放射線科医が、X 線写真で異なる色の骨組織の領域を見て、「これは病変なのか、それとも X 線自体の異常なのか? 病変である場合、その原因は何か?」と疑問に思うかもしれません。それは良性ですか、悪性ですか?」 ?」 高度に訓練された専門家、そしておそらく特に専門家でさえ、観察や決定にこの種の不確実性を組み込むことがよくあります。別の診断が行われる可能性が 10% あると考えられる場合は、患者と話し合い、それに応じて計画を立てることができます。
これは私たちにとって自然なことのように思えますが、ヒューマン マシン ループバック システムはこのように推論しません。彼らは人間の介入を二元論的に捉えています。つまり、人間が何を知っているか、あるいは知らないかのどちらかです。これにより、パートナーシップにおける人為的ミスのリスクを軽減する AI システムの能力が制限される可能性があります。
それでは、これらのシステムが人間の意思決定の微妙な違いをよりよく理解し、それによってシステムの能力と私たち自身のパフォーマンスを向上させることは可能でしょうか?ケンブリッジ大学の研究チームは、新しい研究論文でこの疑問を検証しました。
## **本気ですか? **
最初のテストで、研究者らは 2 つのデータセットに対して概念ベースのモデル、つまり人間のフィードバックを通じて予測を改善する機械学習モデルを使用しました。 「CheXpert」と呼ばれる最初のデータセットは、胸部 X 線写真を分類します。 UMNIST と呼ばれる別のデータセットは、手書きサンプルの数値を合計します。ほとんどの概念ベースのモデルと同様、どちらのモデルも不確実性について事前にトレーニングされていなかったため、研究者らは不確実性をどのように処理するかを確認したいと考えていました。
この研究の筆頭著者でケンブリッジ大学工学部大学院生のキャサリン・コリンズ氏は、「多くの開発者がモデルの不確実性に対処しようと懸命に取り組んでいるが、人間の観点から不確実性に対処する取り組みは少ない」と述べた。人々が不安を表明すると何が起こるかを見てみましょう。これは安全性が重要な環境では特に重要です。」
答えは「あまり良くない」です。研究者らは、シミュレーションの不確実性が低い場合でもモデルのパフォーマンスが低下し、不確実性が増加すると低下し続けることを発見しました。これは、これらのモデルは、完全に決定論的な介入にさらされた場合には正確であるものの、「介入ユーザーが特定の概念の性質について不確かな状況には一般化できない」ことを示唆しています。
次のテストでは、研究者らは鳥の画像分類データセットを使用し、実際の人間の参加者を導入しました。参加者は、画像内の鳥の具体的な特徴を特定するよう求められました。鳥は多色、無地、斑点、または縞模様ですか?尻尾の形はフォーク、円、扇、四角のどれですか?等
ただし、写真が常に鳥を最もよく表現しているわけではありません。写真の中の鳥は、明るい背景を背景にシルエットになっている場合もあれば、尾羽が木の枝で隠れている場合もあります。そこで研究者らは、人間の参加者に「ソフトラベル」を使用する能力を与えた。これは、どちらか一方ではなく、人間が信頼性に0から100のスケールでラベルを付けることを可能にする概念である(0は知らない、100は絶対に確実である) )。
たとえば、被験者が鳥の翼の形状が広いことが非常に信じられると判断した場合、スライダーを 80 に移動できます。ただし、翼が丸いのか尖っているのかわからない場合は、スライダーの移動量を少なくすることもできます (それぞれ 20 と 10 など)。
研究者らは、機械が人間に置き換えられるとパフォーマンスが低下することを発見しました。ただし、不確実性に基づいてモデルをトレーニングすると、人間の参加者が犯す間違いの一部を軽減できる可能性があることもわかりました。ただし、これらのモデルは完璧ではありません。人間の不確実性が役立つ場合もありますが、モデルのパフォーマンスに悪影響を与える場合もあります。
研究論文の共著者であるマシュー・バーカー氏は、「これらのモデルを再調整するためのより良いツールが必要で、モデルを使用する人々が不安を感じたときに発言できるようにする必要がある」と述べた。 「ある意味、この研究は答えよりも多くの疑問を投げかけていますが、不確実性に関して人間は間違いを犯す可能性がありますが、人間の行動の程度と信頼性を考慮することで、人間とマシンのループバック システムの信頼性を向上させることができます。」
プリンストン大学、アラン・チューリング研究所、Google DeepMind の研究者も研究にケンブリッジのチームに加わりました。彼らはモントリオールで開催された2023年人工知能、倫理、社会に関するAAI/ACM会議で論文を発表した。この論文は現在、arXiv にプレプリントとして掲載されています。
不確実な未来に向けて
研究者らは、この論文がいつか不確実性を考慮したヒューマン・マシン・ループバック・システムの開発に役立ち、それによって人間と人工知能のエラーのリスクが軽減されることを期待している。ただし、この研究はこの目標に向けた第一歩にすぎません。
また、今後の研究に向けたいくつかの課題も明らかになりました。これらの課題には、人間のよく知られた予測エラー (自信過剰バイアスなど) を考慮した AI モデルと介入戦略をどのように開発するか、人間が不確実性を測定するのに役立つインターフェイスを作成する方法、AI モデルをトレーニングしてさまざまなタイプの不確実性を処理する方法が含まれます。それは、自分自身の知識に疑問を抱くことと、ランダムな効果がどのように展開するかということの違いとしてです。
これらの問題に対処できれば、人間の不確実性が「人間と機械のループ」の「人間」の部分をより適切にサポートできるようになり、これらのモデルのパフォーマンスの向上に役立ちます。
「私たちの同僚の何人かが言ったように、不確実性は透明性の一形態であり、それは非常に重要です」とコリンズ氏は付け加えた。 「いつモデルを信頼するのか、いつ人間を信頼するのか、そしてその理由を理解する必要があります。一部のアプリケーションでは、可能性ではなく確率に焦点を当てています。」