OpenAI、Google、Meta の人気中国人研究者は何を考えているのか | 会話の記録

出典: シリコンスターピープル

画像ソース: Unbounded AI によって生成‌

席は満席で通路も人でいっぱいでした。

有名人の集まりだとさえ思うかもしれない。

しかし、これは実際にはシリコンバレーで開催された GenAI カンファレンスのラウンドテーブルの 1 つです。

人が最も眠くなる正午の「補助ステージ」に設けられたもので、別の大会議室のステージにはシリコンバレーのスター企業のCEOや創業者が多数座っており、この円卓は研究者「だけ」だった。しかし、人々は依然として小さな部屋になだれ込み続けた。

標的となったのは3人の中国人研究者だった。これまでのシリコンバレーでは、「シリコンバレーの企業で最高の地位にある中国人幹部」が登場すると必ずこのような光景が見られたが、今回は若者3人を追いかけていた。

シンユン・チェン、チュンチン・ジョウ、ジェイソン・ウェイ。

**シリコンバレーの最も重要なスターAI企業3社の若手中国人研究者。 **

大型モデルの動向を注視している人にとっては、この3社の名前はきっと馴染みがあるだろう。

Xinyun Chen は、Google Brain および DeepMind 推論チームの上級研究員です。彼女の研究対象は、ニューラル プログラム合成と敵対的機械学習です。彼女はカリフォルニア大学バークレー校でコンピューター サイエンスの博士号を取得し、上海交通大学の ACM クラスでコンピューター サイエンスの学士号を取得しました。

彼女は、LLM に独自のツールの作成を許可することや、LLM に独自のコードをデバッグするように教えることなどの論文に参加しました。これらはすべて、AI コード生成の分野で非常に重要かつ重要な論文です。彼女はまた、一部のメディアによって「Google Deepmind Chinese Team」のメンバーとして誇張されています。

Chuting Zhou は、Meta AI の研究員です。 2022 年 5 月にカーネギー メロン大学言語技術研究所から博士号を取得した彼女は、現在の主な研究対象は、自然言語処理と機械学習の交差点、および新しい位置合わせ方法にあります。彼女が主導した論文は、より少なく、より洗練されたサンプルを使用して大規模なモデルをトレーニングしようとしたもので、Yann Lecun によって非常に賞賛され、論文で推奨されました。この論文は、RLHF などの主流の手法に加えて、より新しいアイデアを業界に提供しました。

最後は、国内外の AI コミュニティから高く評価されているスター研究者、OpenAI の Jason Wei です。有名なCOT(Chain of Thoughts)開発者。 2020年に学部を卒業した後、Google Brainの上級研究員となり、在職中にLLM出現の鍵の一つでもある思考連鎖の概念を提唱した。 2023 年 2 月に OpenAI に入社し、ChatGPT チームに加わりました。

人々はこれらの企業にやって来ますが、それ以上に研究を目的としています。

このフォーラムでは、まるで大学のディスカッションを見ているかのような学生のような方々が多く、頭脳明晰、論理の即応性があり、少し緊張しつつも、機知に富んだ発言をされます。

「なぜ幻覚は悪いことだと考えなければならないのですか?」

「しかし、トランプは毎日幻覚を見ている。」

笑いが起きた。

珍しい対談ですので以下に書き起こします シリコンスター関係者も参加して質問してきました。

質問: LLM における非常に重要な問題、つまり幻覚について話し合いましょう。幻覚の概念は、モデルのパラメーターが非常に少なく、サイズがまだ非常に小さかった頃に提案されましたが、モデルがますます大きくなるにつれて、幻覚の問題はどのように変化したのでしょうか?

チャンティング: まずは話せます。私は3年前に幻覚に関するプロジェクトを行いました。当時私たちが直面していた幻覚問題は、現在私たちが直面しているものとは大きく異なり、当時は非常に小さなモデルを作成し、翻訳や文書の要約などの特定の分野の幻覚について議論しました。しかし今では、問題がはるかに大きいことが明らかになりました。

大型模型が依然として幻覚を引き起こす理由はたくさんあると思います。まず教師データですが、人間には幻覚があるのでデータにも問題があります。 2 番目の理由は、モデルのトレーニング方法のせいで、モデルはリアルタイムの質問に答えることができず、間違った質問に答えてしまうということです。推論やその他の能力の欠陥だけでなく、この問題が発生する可能性があります。

Xinyun:** 実際、この回答は別の質問から始めます。なぜ人間は幻覚を悪いことだと考えるのか。 **

同僚がモデルに質問をしたという話があります。これもいくつかの評価質問バンクから引用したものです。「お姫様がカエルにキスすると何が起こるか」です。モデルの答えは、何も起こらないというものです。 **

多くの模範解答では「王子様になる」が正解で、「何も起こらない」は不正解となります。 **しかし、私にとって、これは実際にはより良い答えだと思いますし、多くの興味深い人間がこれに答えるでしょう。 **

これが幻想であると人々が考えるのは、AI が幻覚を持たない方がよい場合と、AI が幻覚を持っている方が良い場合を考えていないからです。

たとえば、創造的な仕事によっては想像力が必要になる場合がありますが、想像力は非常に重要です。現在、モデルを常に大きくし続けていますが、ここでの問題の 1 つは、モデルがどれほど大きくても、すべてを正確に記憶できないことです。実は人間も同じ問題を抱えているのです。できることの 1 つは、検索、計算、プログラミング ツールなど、モデルを支援する強化されたツールを提供することだと思います。人間はこれらのツールの助けを借りて幻覚の問題をすぐに解決できますが、モデルはまだあまり良く見えません。これは私自身も勉強していきたい問題です。

ジェイソン: **私に言わせれば、トランプは毎日幻覚を見ているそうです。 (笑) あなたはイエスかノーか言います。 **

しかし、ここでのもう一つの問題は、言語モデルに対する人々の期待が変化していることだと思います。 **2016 年、RNN が URL を生成するとき、皆さんはそれが間違っていて信頼できないものであることを期待します。しかし今日では、モデルが多くの点で正しいと期待しているので、幻覚のほうが危険だと考えることもあるでしょう。これは実際には非常に重要な背景です。 **

(Jason Wei がリストした潜在的な研究の方向性)

質問: 次の質問は Xinyun です。現在、業界で非常に重要なトピックは、たとえば、モデルの自己改善と自己デバッグです。あなたの研究を共有していただけますか?

Xinyun: モデルのセルフ デバッグのインスピレーションは、実際には人間のプログラミング方法から来ています。人間によるプログラミングが一度終了すると、必ず問題が発生し、デバッグが必要になることがわかっています。非常に強力なプログラマーにとって、デバッグも非常に重要なスキルです。私たちの目標は、外部からの指示や人間が問題を指示することなく、モデルが自ら生成したコードを調べ、操作の結果を見て、何が問題だったかを判断できるようにすることです。問題がある場合は、デバッグしてください。

そしてなぜコード生成がセルフデバッグに役立つのかというと、理由は 2 つあると思います。まず、コード生成は基本的にオープン ソース コードのトレーニングに基づいており、希望する大まかな方向に適合するコードを生成できますが、コードが非常に長く、多くのエラーが含まれ、実行できない場合があります。ただし、既存のコード ベースを使用する代わりに、最初からプログラミングを開始する必要はありません。何度最初から開始しても問題は避けられないため、既存のコード リソースでコード生成を実行し、デバッグを行う必要があります。が重要になってきます。 **第 2 に、デバッグ プロセスは引き続き外部フィードバックを受け取ります。これは、モデルの理解を向上させるのに非常に役立ちます。

Q: 追加の質問ですが、モデルをそのままにして、それ自体が改善されるようにした場合、問題は発生しませんか?

チャンティング: 以前、奇妙な実験を行ったことがあります。その結果、エージェントはコード実行後に Python 開発環境を削除してしまいました。このエージェントが現実世界に入ると、悪影響を及ぼす可能性があります。これは、エージェントを開発するときに考慮する必要があることです。また、基本モデルが小さいほど能力が小さく、改善や反省が難しいことも分かりました。おそらく、調整プロセス中にモデルにさらに多くの「エラー」を認識させることで、モデル自体を改善するように教えることができるかもしれません。

Q: ジェイソンについてはどうですか。モデルの評価についてどのように取り組んでおり、どう考えていますか。

ジェイソン: 私の個人的な意見は、モデルの評価は、特に新しいパラダイムの下ではますます困難になっているということです。この背景には多くの理由がありますが、その 1 つは、言語モデルが現在無数のタスクで使用されており、その機能の範囲さえわかっていないことです。 2 つ目の理由は、AI の歴史を見ると、私たちは主に伝統的で古典的な問題を解決しているため、目標は非常に短期的であり、テキストも非常に短いです。しかし、今では解答テキストが長くなり、人間でも判断に時間がかかります。おそらく 3 番目の課題は、多くのことについて、いわゆる正しい行動があまり明確に定義されていないことです。 **

評価能力を高めるためにできることはいくつかあると思います。 1 つ目は、より広い範囲から評価することであり、有害な行為が発生した場合に、それをより具体的に細分化して評価できるかどうかです。もう 1 つの問題は、特定のタスクに対してさらに多くの評価方法を与えることができるかどうかですが、おそらく人間がいくつかの評価方法を与え、AI もいくつかの評価方法を与えることができるでしょう。

Q: AI のルートを評価するために AI を使用することについてはどう思いますか?

ジェイソン: 素晴らしいですね。私が最近注目している傾向の 1 つは、モデルを評価するために使用されるモデルのパフォーマンスが向上するかどうかであると思います。たとえば、憲法上の AI トレーニングのアイデアでは、現時点でパフォーマンスが完璧ではないとしても、次世代 GPT 以降では、これらのモデルが人間よりも優れたパフォーマンスを発揮する可能性が非常に高くなります。

**シリコンスター: 皆さんはとても若い研究者です。企業の研究者として、企業と学術界の間の GPU とコンピューティング能力の深刻な不一致についてどう考えているかをお聞きしたいと思います。 **

ジェイソン: 制約のある環境で作業する場合、確かにマイナスの影響があるかもしれませんが、アルゴリズム部分や、GPU をあまり必要としない研究など、多くの作業の余地はまだあると思います。 . 話題には事欠かない。

チャンティング: 探索する価値のある空間や場所がたくさんあるとも感じています。例えば、アライメント手法の研究は、実際には限られたリソースで行うことができます**。そしておそらくベイエリアでは、学界の人々にとってより多くの機会があるでしょう。

Xinyun: 一般に、LLM 研究には 2 つの一般的な方向性があります。1 つは結果のパフォーマンスを向上させることであり、もう 1 つはモデルを理解することです。多くの優れたフレームワーク、ベンチマークなど、およびいくつかの優れたアルゴリズムが学術界から提供されていることがわかります。

たとえば、私が博士課程を卒業したとき、指導教官から次のようなアドバイスをいただきました。 **AI 研究者は、現在あるものの改良だけを考えるのではなく、何年も先の時間軸で研究を考える必要があります。 . ですが、将来的には劇的な変化をもたらす可能性のある技術コンセプトです。 **

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)