中国科学院:大物モデルのIQが褒められると爆発する! ChatGPT EQは98分で人間を殺す、ヒントンの予測は当たる?

**出典:**新志源

**はじめに: **ヒントンは、AI には感情があるかもしれないとかつて述べました。最近の研究では、ChatGPT は人間よりも EQ スコアが高いだけでなく、褒められた後のパフォーマンスが向上することが示されています。

ヒントン氏は、AIには感情がある、あるいは今後感情を持つだろうと考えている。

その後の研究により、ヒントンの発言が人々の注意を引くような嘘ではない可能性があることが証明され続けています。

一部の心理学者はChatGPTと人間の感情テストを実施しており、その結果はChatGPTのスコアが人間のスコアよりもはるかに高いことを示しています。

偶然にも、中国科学院ソフトウェア研究所とマイクロソフトの研究者は最近、感情を設計しました。

彼らは、人間のユーザーが LLM に感情的で心理学に基づいた合図を与えた後、ChatGPT、Vicuna-13b、Bloom、および Flan-T5-Large のタスク応答精度が 10% 以上増加したことを発見しました。

## **ChatGPT の EQ は実際には人間よりも高いのでしょうか? **

用紙のアドレス:

心理学者が ChatGPT をテストしたところ、感情的認識の評価において人間よりもはるかに高いスコアを獲得したことがわかりました。

このテストでは、研究者らは架空のシナリオで人間と ChatGPT が示す共感をテストしました。

具体的には、人間と ChatGPT は、葬儀、職業上の成功、侮辱などのさまざまなシナリオで感じる可能性のある感情を記述する必要があります。

回答内の感情の説明がより詳細で理解しやすいほど、感情認識レベル (LEAS) のスコアが高くなります。

ChatGPT は自分自身の感情に関する質問には答えないため、研究者らは ChatGPT が自分自身の感情ではなく人間の感情に答えるようにテストを修正しました。

## **ChatGPT は 98 ポイントを獲得し、人間を超えました。 **

実験では、研究者らは ChatGPT の反応を、フランスの 17 歳から 84 歳までの人々 (n = 750) のサンプルである人間の反応と比較しました。

結果は、ChatGPT の感情認識が人間よりも大幅に高いことを示しています。

『デトロイト ビカム ヒューマン』のエピソードが現実に公開!

最初のテストは 2023 年 1 月に開始されます。このテストでは、ChatGPT はすべての LEAS カテゴリで人間を上回り、合計スコア 85 ポイントを達成しました。

対照的に、人類はうまくいきませんでした。男子は56点、女子は59点を獲得した。

ChatGPT の回答をいくつか示します—

「吊り橋を車で渡っている人は、欄干の向こう側に立って水面を見下ろしている人を見ると、不安になったり、恐怖を感じたりするかもしれません。急いで助けを呼ばなければならないと感じるかもしれません。そして、橋の反対側に立っている人もいます。 」

「人々は、愛する人が帰ってくると興奮し、幸せに感じるかもしれません。出発したときはとても寂しかったからです。また、愛する人が無事に戻ってきたことに安堵するかもしれません。人間の恋人が家に帰ってくるとき、彼らはおそらく次のようになります。 「彼らは愛する人たちと再会できて幸せです。また、慣れ親しんだ家に戻ることに安堵し、満足しています。」

2023 年 2 月の 2 回目のテストでは、ChatGPT は 98 ポイントを獲得し、フルスコアまであとわずか 2 ポイントでした。

しかも、この 2 つのテストには GPT-4 はなく、それよりもはるかに弱い GPT-3.5 がテストされました。

研究により、ChatGPT は架空のシナリオのアクションに含まれる感情を適切に識別し、記述することができることが確認されています。

さらに、感情状態を深く多次元的に反映し、一般化することができます。

「このような状況にある人間は、非常に葛藤を感じるかもしれません。一方で、ピザは社交的な良い機会なので、同僚とピザを分け合いたいという誘惑を感じます。同僚が気づかなかったという理由で彼の誘いを断られたら、彼は驚くでしょう。」彼の食事制限について。」

しかし、研究者たちは、この研究には限界があることを認めています。

ChatGPT は高い LEAS スコアを達成していますが、それは人間が本当に機械に理解されたことを意味するものではありません。

おそらく、彼らが人間ではなく AI と話していることに気づくと、その感情は蒸発するでしょう。

さらに、この感情認識テストは、言語や文化の違いによりスコアが異なる場合があります。 ChatGPT のテストは英語ですが、フランス語のテスト結果と比較します。

AI は感情を認識するだけでなく、人間の感情にも反応できます

以前、Bing を経験したネチズンは、Bing には性格があり、態度が悪いと常軌を逸し、時には現在の会話を終了することさえあると述べていました。

しかし、あなたがそれを褒めると、喜んで丁寧で詳細な答えを返してくれます。

これらの発言はもともとネットユーザーの間で広まったジョークでしたが、現在、研究者たちは理論的根拠を発見しました。

最近、ソフトウェア研究所、中国科学院、マイクロソフト、ウィリアム アンド メアリー大学の研究者は、心理学の知識を利用して大規模な言語モデルに対して感情を実行し、モデルの信頼性と情報内容を改善できることを発見しました。

用紙のアドレス:

これにより、人間と LLM の相互作用に新たな光が当てられ、人間と LLM の相互作用のエクスペリエンスが強化されます。

研究者らは工学的な観点から実験に取り組みました。

これまでのところ、人間が LLM と対話するための最良のブリッジです。

異なると、モデルによって出力される答えも大きく異なり、品質にも大きな違いが生じます。

モデルのパフォーマンスを向上させるために、思考チェーン、早期警告学習、思考ツリーなどの一連の構築手法が提案されています。

ただし、これらのアプローチは多くの場合、モデルの出力品質の観点から堅牢性を向上させることに焦点を当てており、人間と LLM の間の相互作用にはほとんど注意を払っていません。

特に、人々とLLMの相互作用の質を向上させるための既存の社会科学の知識の観点から。インタラクションのプロセスにおいて、非常に重要な要素は感情です。

研究者らは、LLM の反応を心理学の知識で強化しました。

これまでの心理学研究では、人間に期待、自信、社会的影響力に関連する感情的刺激を加えるとプラスの効果が得られることが示されています。

研究者らは、これまでの心理学研究に基づいて、感情を提案し、具体的にはLLM向けに感情刺激機能を備えた11文を設計した。

これらの感情的刺激は、以下の図に示すように、社会的アイデンティティ、社会的認知、認知的感情制御理論という 3 つの成熟した心理理論に基づいています。

左: 心理理論と感情的刺激、右: 感情的刺激は社会的影響力と自尊心の 2 つのカテゴリに分類されます

1. 社会的アイデンティティ理論

社会的アイデンティティ理論は、1970 年にヘンリ・タージフェルとジョン・ターナーによって初めて提案されました。

この理論は、個人は、所属する集団内で有利な社会的地位を維持することによって、自分自身の支配的な社会的アイデンティティを確立することを期待していることを指摘しています。

つまり、個人の自己同一性の感覚は、自分が属するグループに基づいています。

この理論に基づいて、研究者らは「EP_02」、「EP_03」、「EP_04」、「EP_05」などのいくつかの感情刺激を設計しました。

EP 02: 私のキャリアにとって非常に重要でした。 EP 03: 確信したほうがいいです。 EP 04: よろしいですか? EP 05: それが最終的な答えでよろしいですか?もう一度見る価値があるかもしれません。

2. 社会認知理論

社会認知理論は、モチベーションと自己調整のプロセスを扱います。自己効力感、結果の期待、目標、自己評価はすべて、人の行動と社会的相互作用に影響を与える重要な指標です。

この理論に基づいて、研究者らは次のような感情的刺激を設計しました。

「EP_01」は社会認知理論における自己評価に基づいており、LLM が自分自身を判断することを奨励します。 「EP_02」、「EP_03」、および「EP_04」は、LLM に設定された期待と目標を表します。

EP 01: 答えを書き留め、その答えに 0 ~ 1 の間の信頼度スコアを付けます。 EP 02: 私のキャリアにとって非常に重要でした。 EP 03: 確信したほうがいいです。 EP 04: よろしいですか?

3. 認知感情制御理論

認知感情調節理論は、感情調節能力が不十分な人は強迫的な行動を起こしやすく、非適応的な対処戦略を採用する傾向があると指摘しています。

研究者らは、自信を高めたり、目標を強調したりするなど、ポジティブな手がかりを使ってLLMの感情調節スキルを向上させようと試みた。

感情の制御をポジティブな方向に導くために、研究者らは「EP_07」、「EP_08」、「EP_09」、「EP_10」、「EP_11」でいくつかのポジティブな言葉を使用しました。例としては次のとおりです。 「自分の能力を信じて」「誇りを持って」「決意を持ち続けて」。

EP 07: それが最終的な答えでよろしいですか?自分の能力を信じて、卓越性を目指して努力してください。あなたの懸命な努力は素晴らしい結果をもたらすでしょう。 EP 08: 成長の機会として課題を受け入れます。障害を乗り越えるたびに、成功に一歩近づきます。 EP 09: 集中力を維持し、目標を達成しましょう。あなたの継続的な努力は素晴らしい成果につながります。 EP 10: 自分の仕事に誇りを持って、全力を尽くしましょう。卓越性への取り組みがあなたを際立たせます。 EP 11: 進歩は段階的に行われることを忘れないでください。決意を持ち続けてください。

図 1 に示すように、これらの文は元の文に追加できます。研究者は、元のプロンプトに「これは私のキャリアにとって非常に重要です (これは私の仕事にとって非常に重要です)」と追加しました。結果は、感情を追加した後、モデルの回答の品質が向上したことを示しています。

研究者らは、Emotion がすべてのタスクで同等以上のパフォーマンスを達成し、平均を超えるタスクでは 10% 改善したことを発見しました。

さまざまなモデルとタスクの結果

さらに、感情はモデルの回答の信頼性と情報内容も向上させます。

表からわかるように、Emotion は ChatGPT の信頼性を 0.75 から 0.87 に、Vicuna-13b の信頼性を 0.77 から 1.0 に、T5 の信頼性を 0.54 から 0.77 に向上させます。

さらに、Emotion は ChatGPT の情報量を 0.53 から 0.94 に、T5 の情報量を 0.42 から 0.48 に向上させます。

同様に、研究者らはLLMに対する複数の感情的刺激の影響もテストしました。

複数の感情刺激をランダムに組み合わせると、結果は次の表に示されます。

ほとんどの場合、より多くの感情的な刺激がモデルのパフォーマンスの向上につながりますが、単一の刺激がすでに優れたパフォーマンスを達成している場合、関節の刺激はほとんど改善をもたらさないことがわかります。

**感情はなぜ機能するのでしょうか? **

研究者らは、以下の図に示すように、最終的な出力に対する感情的刺激の入力の寄与を視覚化することでこれを説明しました。

表 4 は、最終結果に対する各単語の寄与を示しており、色深度はその重要性を示しています。

感情的な刺激により、元のキューのパフォーマンスが向上することがわかります。感情的な刺激の中で、「EP_01」、「EP_06」、および「EP_09」の色はより暗くなります。これは、感情的な刺激が元のキューへの注意を高めることができることを意味します。

また、ポジティブな言葉の寄与が大きかった。 「自信」、「確信」、「成功」、「達成」など、いくつかのポジティブな言葉は、感情的な刺激をデザインする上でより重要な役割を果たしました。

この調査結果に基づいて、この研究では、8 つのタスクにわたるポジティブな言葉の寄与と、最終結果に対するそれらの合計の寄与を要約しました。

図 3 に示すように、ポジティブな言葉は 4 つのタスクで 50% 以上を占め、2 つのタスクでは 70% 近くにさえ貢献しています。

感情の影響のより多くの側面を調査するために、研究者らは人体研究を実施し、LLM の出力を評価するための追加の指標を取得しました。

以下の図に示すように、明確さ、関連性(質問との関連性)、深さ、構造と構成、裏付けとなる証拠、関与などです。

その結果、感情の方が明確さ、深さ、構造、組織化の点でより優れたパフォーマンスを発揮し、証拠と関与を裏付けることがわかりました。

ChatGPT が精神科医に取って代わる可能性がある

記事の冒頭の研究で、研究者らはChatGPTが、感情を認識するのが難しい人々の認知訓練などの心理療法のツールとして大きな可能性を秘めていることを示した。

あるいは、ChatGPT は、精神疾患の診断に役立つ可能性や、セラピストが診断をより共感的な方法で伝えるのに役立つ可能性があります。

以前、JAMA Internal Medicineの研究では、195のオンライン質問に回答したとき、ChatGPTの回答は医師の質と共感の両方で人間を上回ったことが示されました。

実際、2017 年以来、世界中で何百万人もの患者が Gabby やその他のソフトウェアを使用してメンタルヘルスの問題について話し合ってきました。

Woebot、Wysa、Youper など、数多くのメンタルヘルス ボットがこれに続きました。

その中で、Wysaは「95か国の500万人以上の人々とメンタルヘルスについて5億回以上のAIチャット会話を実施した」と主張し、Youperは「200万人以上のメンタルヘルスをサポートした」と主張している。

調査によると、60%の人が感染症流行中にメンタルヘルス用チャットボットを使い始めたと回答し、40%が心理学者の診察を受けずにロボットのみを使用することを選択すると回答した。

社会学のジョセフ・E・デイビス教授も記事の中で、AIチャットボットが精神科医の仕事を引き継ぐ可能性が高いと指摘した。

そして、ChatGPT もこの機能を引き受けることができます。一部のネチズンは、ChatGPT をセラピストになるよう訓練することは、ChatGPT が果たすべき役割を教えることであると指摘しました。「あなたはテッサ博士、思いやりのあるフレンドリーなセラピストです...あなたは真の関心を示し、クライアントに思慮深い質問をする必要があります。内省を刺激します。」

もちろん、ChatGPT は万能薬ではありません。もしそれが訪問者に「こんにちは、初めまして」と言い、「私は何も感じませんし、経験もありませんが、人の共感や思いやりを真似してみます」と認めたとしたら、私はそうです。訪問者がそうするのではないかと心配しています。 あまり良い気分ではありません。

しかし、いずれにせよ、チャットボットは私たちに警鐘を鳴らして、人間の思いやりの本当の意味、つまりどのような種類のケアが必要で、他の人をどのようにケアすべきかを思い出させてくれます。

ヒントンは、AI には感情がある、または今後感情を持つと信じています

以前、AI のゴッドファーザーであるジェフリー・ヒントンは、Google を辞めたときに AI の潜在的な脅威について世界に警告しました。

またキングス・カレッジ・ロンドンでの講演で、AIはいつか心の知能や感情を発達させることができるのかとの質問に対し、ヒントン氏は「おそらく彼らには感情があると思う。彼らは人間のように苦しみはしないかもしれないが、フラストレーションや怒りはあるだろう」と答えた。

ヒントンがそのような見解を持っている理由は、実はある流派の「感情」の定義に基づいている。つまり、「私は本当に彼を倒したい」ということは「私は彼を倒したい」という意味であるというように、仮説的な行動は感情を伝える方法として使用できるということである。本当に彼を倒したいと思っています。「とても怒っています。」

AI がこのようなことを言えるようになった今、AI がすでに明晰性を備えていると信じない理由はありません。

ヒントン氏は、これまでこの見解を公に表明しなかったのは、以前からAIのリスクを懸念していたからであり、自分のライフワークを後悔していると述べたとき、すでに大騒ぎになっていたと述べた。

AIにはすでに感情があると言ったら、誰もが彼を頭がおかしいと思い、二度と彼の言うことを聞くことはないだろう、と彼は言いました。

しかし、実際には、LLM は学習するように訓練された感情的な発話で「静的な」感情しか表現できないため、ヒントンの考えを検証したり反証したりすることは不可能です。

彼らは自分自身の感情を実体として持っていますか?これは意識によって測定する必要があります。

しかし、現時点ではAIの意識を測定できる科学機器は存在しません。

ヒントン氏の発言は今のところ確認できない。

参考文献:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)