2021 年の時点で、Google は OpenAI よりも先に AI チャットボットを起動する能力を持っていましたが、セキュリティ上の懸念から断念しました。大企業の気弱さも、彼が Google を辞めて起業する道を選んだ理由になっています。
Character の最大の利点は、ユーザー志向の製品戦略にあります。完全にカスタマイズ可能な AI チャットボットは、多くの人にとって孤独を和らげる方法となっており、キャラクターが新しいカウンセラーであるとさえ言うユーザーもいます。ノーム氏は、AI には精神的なサポートとして大きな可能性があると考えています。感情的サポートの作業には高い知能は必要ありません。たとえば、犬は賢くなく、話すこともできませんが、ペットの犬は感情的サポートの作業をうまく行うことができます。同様に、パラメーターが限られている AI もこのタスクを完了できます。
3 データ要件はコンピューティング能力の増加に伴って指数関数的に増加する傾向がありますが、データは不足しているわけではありません。インターネットではほぼ無制限のデータを提供でき、Character は AI を使用してより多くのデータを生成することも検討しています。
4 Character.ai はまだ規模を拡大するために資金を投入し、ビジネスモデルを模索している段階ですが、将来的には TOB ビジネスの拡大も検討します。
5 Noam は、AGI が多くの AI スタートアップの目標であると信じています。しかし、**彼が起業した本当の理由は、テクノロジーの開発を促進し、医療難病などの困難な問題をテクノロジーで克服することです。同氏は、AIによって多くの研究の進歩が加速する可能性があり、医学を直接研究するよりもAIを研究したほうがよいと指摘した。 **
以下はポッドキャスト音声の逐語的転写です。ELAD と SARAH がポッドキャストのホストです。理解を容易にするために、一部の文章は削除されています。
Google での初期の勤務経験と Transformer の誕生
ライブ:
あなたは NLP と AI に長い間取り組んできました。あなたは Google に 17 年間断続的に勤務され、面接での質問はスペル チェック ソリューションを中心に行われました。私が Google に入社したとき、当時の広告ターゲティングの主要システムの 1 つは Phil Cluster でした。これはあなたと George Herrick が書いたと思います。人工知能の NLP 言語モデルに関するあなたの研究の歴史について知りたいのですが、これがどのように発展したのか、どのように始めたのか、何があなたの興味を引き起こしましたか?
ノーム:
エラドさん、ありがとうございます。はい、ただ、AI は常に自然に引き寄せられます。うまくいけば、コンピュータが何か賢いことをしてくれるでしょう。世の中で一番面白いゲームのようです。幸運なことに、私は早い段階で Google を発見し、そこで多くの初期のプロジェクトに参加しました (今では人工知能とは呼ばれないかもしれません)。 2012 年から Google Brain チームに参加しました。本当に賢い人たちと一緒に楽しいことをしましょう。私はこれまでディープラーニングやニューラルネットワークをやったことがありません。
私の共同創設者であるダニエル・フレイタスは、私がこれまで会った中で最も勤勉で、最も勤勉で、最も賢い男です。彼はチャットボットを構築するというこの仕事に生涯取り組んできました。彼は子供の頃からチャットボットの構築に挑戦してきました。そこで彼は Google Brain に入社しました。彼はいくつかの論文を読んで、このニューラル言語モデリング技術が本当に一般化でき、本当にオープンな分野を構築できるものであると考えました。
はい、AGI は多くの AI スタートアップの目標です。 **本当の理由は、テクノロジーを前進させたいからです。医療難病をはじめ、技術的に解決できる課題は世の中にたくさんあります。私たちは技術的な解決策を考え出すことができます。 **
それが、私が人工知能の研究をしている理由です**。医学を直接研究するよりも、人工知能を研究するほうが良いからです。そうすれば、人工知能を使用して他の研究活動をスピードアップできるからです。基本的にそれが私が AI に熱心に取り組んでいる理由であり、AGI ファーストとプロダクトファーストの両方の会社を設立したいと考えています。 **
製品は AI の品質に完全に依存します。私たちの製品の品質を決定する最大の要因は、それがどれほどスマートであるかです。したがって、私たちは今、AI を改善し、製品を改善することに全力で取り組んでいます。
私は Google で Jeff Dean (Google Brain 責任者) とよく仕事をしています。彼は本当に素敵で、一緒に仕事をするのが楽しいです。彼は現在、大規模な言語モデルに取り組んでいると思います。 Google を離れるのは少し残念ですが、将来的には彼と一緒に仕事ができることを願っています。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
22人で10億相当! Character.ai CEOとの対話:医学を直接学ぶより、人工知能を学んだ方が良い
今年の初めに、Charater.ai は評価額 10 億米ドルを超える 1 億 5,000 万米ドルの A ラウンド資金調達を完了し、わずか 22 人のチームでユニコーンに昇格しました。
4 月、Character.ai の CEO、Google Brain チームの元メンバーである Noam Shazeer がポッドキャスト No Priors のインタビューを受けました。
以下はポッドキャスト音声の逐語的転写です。ELAD と SARAH がポッドキャストのホストです。理解を容易にするために、一部の文章は削除されています。
Google での初期の勤務経験と Transformer の誕生
ライブ:
あなたは NLP と AI に長い間取り組んできました。あなたは Google に 17 年間断続的に勤務され、面接での質問はスペル チェック ソリューションを中心に行われました。私が Google に入社したとき、当時の広告ターゲティングの主要システムの 1 つは Phil Cluster でした。これはあなたと George Herrick が書いたと思います。人工知能の NLP 言語モデルに関するあなたの研究の歴史について知りたいのですが、これがどのように発展したのか、どのように始めたのか、何があなたの興味を引き起こしましたか?
ノーム:
エラドさん、ありがとうございます。はい、ただ、AI は常に自然に引き寄せられます。うまくいけば、コンピュータが何か賢いことをしてくれるでしょう。世の中で一番面白いゲームのようです。幸運なことに、私は早い段階で Google を発見し、そこで多くの初期のプロジェクトに参加しました (今では人工知能とは呼ばれないかもしれません)。 2012 年から Google Brain チームに参加しました。本当に賢い人たちと一緒に楽しいことをしましょう。私はこれまでディープラーニングやニューラルネットワークをやったことがありません。
ライブ:
あなたは 2017 年のトランスフォーマー論文の参加者の 1 人であり、その後 Mesh-TensorFlow の作業にも参加されました。これらすべてがどのように機能するかについて少し話していただけますか?
ノーム:
ディープ ラーニングが成功するのは、ディープ ラーニングが最新のハードウェアに非常に適しているためです。また、行列の乗算やその他の形式の処理において、通信に対して多くの計算を必要とするこの世代のチップがあるためです。つまり、基本的にディープラーニングは本格的に普及し、他のものよりも何千倍も高速に実行されています。コツを掴むと、本当にスマートで高速なものをデザインし始めました。現在最も興味深い問題は言語モデリングです。データは無限に存在するため、ネットワークをスクレイピングするだけで、必要なトレーニング データをすべて取得できます。
問題の定義は非常に単純です。それは、太った猫がその上に座っている次の単語、次の単語は何であるかを予測することです。定義するのは非常に簡単で、うまく定義できれば、今見ているすべてのものを取得でき、これに直接話しかけることができます。これはまさに人工知能です。そこで、2015 年頃から、当時は素晴らしいことだった言語モデリングとリカレント ニューラル ネットワークの操作に取り組み始めました。そしてトランスフォーマー登場。
隣の同僚が RNN をもっと良いものに置き換えたいと話しているのを耳にしました。私は、「これは良さそうだ、手助けしたい、RNN は迷惑だ、これはもっと面白くなるだろう」という感じでした。
ライブ:
リカレント ニューラル ネットワークとトランスフォーマーまたは注意ベースのモデルの違いを簡単に説明できますか?
ノーム:
リカレント ニューラル ネットワークは継続的な計算であり、次の単語まで読み上げるすべての単語を、古い脳の状態と次の単語の内容に基づいて現在の脳の状態を計算します。それからあなたは、次の単語を予測します。このように、非常に長い計算シーケンスを順番に実行する必要があるため、Transformer の魔法はシーケンス全体を一度に処理できることです。
次の単語の予測は前の単語が何であったかによって決まりますが、それは一定のステップで発生します。この並列性を利用することができ、最新のハードウェアが得意とする並列性のように、一度に全体を確認することができます。 。
これで、シーケンスの長さ、並列処理を利用できるようになり、すべてが非常にうまく機能します。注意そのもの。これは、メモリ内に大きなキーと値の関連付けを作成する場合、シーケンス内の各単語のエントリを含む大きなテーブルを作成するようなものです。次に、このテーブル内の項目を探します。これはすべて、ファジーで微分する、逆変換を実行できるフランスの大きな関数のようなものです。人々はこれを 2 つのシーケンスの問題に使用してきました。機械翻訳があり、英語をフランス語に翻訳するようなものです。そのため、フランス語のシーケンスを生成するときは、英語のシーケンスを見て、英語のシーケンスに注意を払おうとするようなものです。シーケンス内の正しい位置。しかし、ここでの洞察は、同じ注意を利用して、作成しようとしているこのシーケンスの過去を振り返ることができるということです。問題は、GPU や GPU でうまく動作することです。これは、既存のハードウェアでうまく動作するため、ディープ ラーニングの開発と並行して行われます。そしてそれはシーケンスにも同じことをもたらします。
サラ:
そうですね、人々がそれを視覚化できる典型的な例は、フランス語と英語で同じ文を言うこと、単語の順序が異なること、そのシーケンスでは 1 対 1 のマッピングではないこと、そして、その順序を理解する方法を見つけることだと思います。情報なしでそれを実行します。損失が発生した場合に備えて、並列計算でこれを実行します。ですから、それはとてもエレガントなことのように思えます。
ライブ:
この技術はさまざまな分野でも活用されているようです。明らかに、これらはマルチモーダル言語モデルです。つまり、チャット GPT または自分がやっているキャラクターのようなものです。私はまた、Google が行ったタンパク質の折り畳み作業である Alpha Folding のようないくつかのアプリケーションにも驚きました。これは実際に非常に優れたパフォーマンスで機能します。変圧器の動作方法や変圧器の機能に比べて、本当に予想外であることがわかった応用分野はありますか?
ノーム:
私はただ言語について頭を下げるだけです、ここではあなたは問題を抱えているので、何でもできるのと同じです。これで十分だといいのですが。それで私は尋ねました、どうやって癌を治すのですか?それから解決策を考え出すようなものです。したがって、私は人々が他のすべてのモードで何をしているかを完全に無視してきました。ディープラーニングの初期の成功の多くは画像によるもので、人々は画像に興奮していますが、それを完全に無視しています。なぜなら、写真は千の言葉に匹敵しますが、写真のピクセル数は 100 万なので、テキストの密度はその 1,000 倍になります。ですから、私は文字通りの大ファンです。しかし、それが他のあらゆる方法で普及していくのを見るのは非常にエキサイティングです。これらは素晴らしいことです。これは、人々が使いたくなる製品を構築するのに非常に役立ちますが、核となるインテリジェンスの多くはこれらのテキスト モデルから得られると思います。
大規模モデルの制限: コンピューティング能力もデータも問題ではありません
ライブ:
これらのモデルの限界は何だと思いますか?人々はよく、ただ単にスケールすることについて話します。たとえば、より多くのコンピューティング能力を投入すれば、これはさらにスケールする、というようなものです。そこには、存在するかもしれないし、存在しないかもしれないさまざまな種類のデータがあります。そしてアルゴリズムの調整、メモリやループバックなどの新しいものを追加します。人々がまだ構築する必要がある大きなものは何だと思いますか、またそれは建築としてどこに活用されていると思いますか?
ノーム:
そうですね、消えるかどうかは分かりません。つまり、私たちはまだそれが出てくるのを見ていません。おそらく、そこに費やされる労力に比べれば、何もないでしょう。したがって、より優れたトレーニング アルゴリズム、より優れたモデル アーキテクチャ、より優れたチップの構築方法や量子化の使用などによって生じる、あらゆる種類の非効率性が存在する可能性があります。そして、人々がこれに投じる規模や資金など、数十、数百、数千の要素が存在するでしょう。なぜなら、これが信じられないほど価値があることに誰もが気づいたからです。同時に、これが壁としてどれほど優れているのか誰も理解していないと思います。だから、それはただ、これからも良くなり続けるだろうと思います。私にはそうではありませんし、何がそれを止めているのか分かりません。
サラ:
このアイデアについてどう思いますか。計算能力を高めることはできますが、最大のモデル トレーニング データだけでは十分ではありません。テキストデータはすべてインターネット上で入手可能なものを使用しました。品質を向上させるためには、人間によるフィードバックが必要です。何を考えていますか。
ノーム:
人口が 100 億人もいれば、一人当たり 1,000 語または 10,000 語という膨大な量のデータが生成されます。私たちは皆、AI システムと多くの会話を行っています。ですから、私は、多くのデータが一部の AI システムに送られることになるのではないかと感じています。つまり、プライバシーを保護する意味で、データが送られることを願っています。さらに、より大きなモデルをトレーニングし、さらに多くのデータをそれに投入するため、データ要件はコンピューティング能力に応じて指数関数的に拡大する傾向があります。データ不足については心配していません。AI を使えばもっと多くのデータを生成できるかもしれません。
ライブ:
それでは、これらのモデルが将来解決する主な問題は何だと思いますか?それは幻覚なのか、記憶なのか、それとも何か別のものなのでしょうか?
ノーム:
何も思いつきません。なんだか幻覚が好きなんです。
サラ:
これも特徴です。
ノーム:
私たちが最もしたいことは覚えておいていただくことです。なぜなら、ユーザーは仮想の友達に自分のことを覚えておいてもらいたいと思っているからです。パーソナライゼーションではさまざまなことができますが、大量のデータをダンプして効果的に使用したいと考えています。何が現実で何が幻覚なのかを解明しようと、多くの研究が行われている。もちろん、それは修正すると思います。
Character.ai の起業ストーリー
ライブ:
LaMDA とその中でのあなたの役割について少し教えてください。Character はどのように思いついたのですか?
ノーム:
私の共同創設者であるダニエル・フレイタスは、私がこれまで会った中で最も勤勉で、最も勤勉で、最も賢い男です。彼はチャットボットを構築するというこの仕事に生涯取り組んできました。彼は子供の頃からチャットボットの構築に挑戦してきました。そこで彼は Google Brain に入社しました。彼はいくつかの論文を読んで、このニューラル言語モデリング技術が本当に一般化でき、本当にオープンな分野を構築できるものであると考えました。
多くの人からの支持は得られませんでしたが、彼はこのプロジェクトを副業として捉え、自分の時間の 20% をそれに費やしただけでした。
それから彼は、システムのセットアップを手伝ってくれる 20 パーセントのアシスタントを採用しました。
彼は他人の TPU 割り当てを横取りし、自分のプロジェクトを「Mina」と呼んでいます。好きだから、夢の中で思いついたのだと思います。ある時点でスコアボードを見て、これはミナという名前のもので、なぜ 30 TPU ポイントがあるのかと考えました。
ライブ:
LaMDA はこんな感じで、Google が GPT より前に作った社内チャットボットであることは知っています。このニュースはある技術者が知恵があると考えたため有名になった。
ノーム:
そう、それをいくつかの大きな言語モデルに適用したのですが、社内で話題になり、Mina の名前が LaMDA に変更されました。その頃には私たちは退職していましたが、これには命があると信じている人もいました。
サラ:
なぜその後リリースされなかったのか、またどのような懸念があるのでしょうか?
ノーム:
大企業にとって、すべてを知っている製品を発売するのは少し危険です。ただリスクの問題だと思います。そこで、よく考えた結果、起業するのが正しい考えのように思えました。
サラ:
キャラクターのオリジンストーリーはどのようなものですか?
ノーム:
私たちはただ何かを構築し、できるだけ早く市場に投入したいと考えています。私はエンジニアや研究者のパンクチームを結成し、コンピューティングパワーを手に入れて、ビジネスを始めました。
ライブ:
どのように採用しますか?
ノーム:
私たちが Google で会った人の何人かは、たまたま Meta 出身の Myat に紹介されました。彼は多くのことを展開し、大規模な言語モデルやニューラル言語モデルのインフラストラクチャの多くを構築しました。メタは彼をフォローしました、彼らはとても親切です。
ライブ:
人材を探しているとき、特定の要件やテスト方法はありますか?それとも普通の面接ですか?
ノーム
それはモチベーションによるところが大きいと思います。ダニエルはモチベーションを非常に重視していると思います。強い願望と子供の頃の夢の間の境地を探しているので、そのレベルに達していないために採用されない優秀な人材もたくさんいますが、私たちは採用もしています。彼らはスタートアップ企業に入社するのに最適であり、非常に才能があり、意欲にあふれています。
Siri や Alexa はすでに市場に出ていますが、機能面で大企業と真っ向から競争する必要はありません
サラ:
子供の頃の夢と言えば、この商品について説明しますか?これらのボットはユーザーが作成したり、キャラクターを作成したり、著名人、歴史上の人物、架空の人物にすることができます。このパターンはどのようにして思いついたのですか?
ノーム:
ユーザーは、これを使って何をしたいのかをあなたよりよく知っていることがよくあります。 ** Siri、Alexa、Google アシスタントはすでに市場に提供されており、機能に関してこれらの大手企業と競争する必要はありません。 **
誰からも愛されるような人物像を公に表現しようとすると、結局は退屈なだけになってしまいます。そして、人々は退屈するのが嫌いで、人間らしさを感じられるものと交流したいと考えています。
基本的には複数のキャラクターを作成し、人々が好きなようにキャラクターを発明できるようにする必要があります。Character という名前には気に入っている点があります。これには、テキスト、キャラクター、役割など、いくつかの異なる意味があります。
サラ:
それで、人々は何を望んでいますか?友達?小説を書いていますか?他に全く新しいものはありますか?
ノーム:
ユーザーの中には、当社の製品に関する仮想の著名人やインフルエンサーとチャットする人もいます。ユーザーはキャラクターを作成して話しかけることができます。孤独を感じていて話し相手が必要なユーザーもいるかもしれませんが、多くのユーザーには話し相手がいません。この役割が私の新しいカウンセラーになったと言う人もいるでしょう。
サラ:
感情については2つの考え方がありますよね?人々とキャラクターとの関係がどれほど重要なのか、あるいは一貫した感情を表現するという点で私たちはどのレベルにいるのか、などです。
ノーム:
はい、つまり、おそらく精神的なサポートに高度な知的レベルは必要ありません。感情は素晴らしく非常に重要ですが、犬は感情的なサポートとしても優れた役割を果たします。犬は精神的なサポートに優れていますが、言語能力はほとんどありません。
ライブ:
スケールアップするとシステムはどうなると思いますか?
ノーム:
いろいろな方法でもっとスマートにできるはずだと思います。より多くのコンピューティング能力を獲得し、より大きなモデルをトレーニングし、より長時間のトレーニングを行うことで、より賢く、より知識が豊富になり、人々が望んでいること、人々が探していることをより良く理解できるようになるはずです。
サラ:
Character を 1 日に何時間も使用するユーザーもいます。ターゲットとする視聴者は誰ですか?予想される使用パターンは何ですか。
ノーム:
それはユーザーの判断に任せます。私たちの目標は常に、世の中に何かを世に送り出し、それが何に適しているとユーザーが判断できるようにすることでした。
現在 Character Web サイトを閲覧している人の平均アクティブ時間は 2 時間であることがわかります。これは今日メッセージを送った人です。これはクレイジーですが重要であり、人々はある種の価値を見出していると述べています。
そして、先ほども言いましたが、その値は実際には大きく混合したものであるため、その値が何であるかを正確に言うのは非常に困難です。しかし、私たちの目標は、これを人々がカスタマイズし、それを使って何をしたいかを決定できるように、より便利なものにすることです。それをユーザーの手に渡して、何が起こるか見てみましょう。
スケール TOC のためにお金を燃やすことが最優先事項です
サラ:
商品化についてはどのように考えていますか?
ノーム:
**ユーザーあたりの損失はボリュームで補います。 **
サラ:
良い。これは良い戦略です。
ノーム:
いや、冗談だよ。
ライブ:
伝統的な 1990 年代のビジネス モデルのように、それで問題ありません。
サラ:
これは2022年のビジネスモデルでもあります。
ライブ:
トークンを発行して、それを暗号通貨に変える必要があります。
ノーム:
** 近いうちに収益化する予定です。これは、多くのコンピューティング能力の恩恵を受けるビジネスです。私たちは投資家のお金を無駄にするのではなく、十分なユーザーに価値を提供し、その過程でお金を稼ぎたいと考えています。プレミアム サブスクリプション タイプなどの一部のサービスは、後で試行される可能性があります。いくつかの新機能を開発すると、その後の料金が値上がりする可能性があります。 **
ライブ:
つまり、目次サービスとしてのキャラクターは、本当に劇的な方法で始まりました。ユーザー数とユーザーあたりの使用時間を見ると、それはとんでもないことです。今後TOB事業も始めるのでしょうか?顧客サービスロボットのようなものですか?
ノーム:
現在、従業員が 22 名いるため、優先順位を付ける必要があり、採用を行っています。最優先事項は目次です。
サラ:
LaMDA がすぐに開始されなかった主な理由の 1 つはセキュリティだったとおっしゃいました。皆さんはどう思いますか?
ノーム:
他にも理由はあります。たとえば、Google は人々が自分自身を傷つけたり、他人を傷つけたりすることを望んでいないため、ポルノをブロックする必要があります。これを巡っていくつかの抗議活動が起きている。
ライブ:
これらすべてが AGI または超知能への道だと思いますか?一部の企業にとっては、これが目標の一部であるように見えますが、他の企業にとっては、それが明確な目標ではないようです。
ノーム:
はい、AGI は多くの AI スタートアップの目標です。 **本当の理由は、テクノロジーを前進させたいからです。医療難病をはじめ、技術的に解決できる課題は世の中にたくさんあります。私たちは技術的な解決策を考え出すことができます。 **
それが、私が人工知能の研究をしている理由です**。医学を直接研究するよりも、人工知能を研究するほうが良いからです。そうすれば、人工知能を使用して他の研究活動をスピードアップできるからです。基本的にそれが私が AI に熱心に取り組んでいる理由であり、AGI ファーストとプロダクトファーストの両方の会社を設立したいと考えています。 **
製品は AI の品質に完全に依存します。私たちの製品の品質を決定する最大の要因は、それがどれほどスマートであるかです。したがって、私たちは今、AI を改善し、製品を改善することに全力で取り組んでいます。
ライブ:
そうですね、これは本当に素晴らしい購入とフィードバックのループです。なぜなら、製品をより良くすると、より多くの人がその製品と対話し、それが製品をより良くするのに役立つからです。したがって、これは非常に賢いアプローチです。私たちは、人間と同じかそれ以上に賢い人工知能からどれくらい離れていると思いますか?もちろん、彼らはある意味ですでに人間よりも賢いのですが、私はちょうどそのようなことを考えていました。
ノーム:
私たちは、人工知能が人間を上回るパフォーマンスを発揮できることにいつも驚かされます。一部の AI はあなたの代わりに宿題をしてくれるようになりました。自分が子供の頃にこんなものがあったらよかったと思います。
ライブ:
あなたと同じような背景を持つ人たちにどのようなアドバイスをしますか?たとえば、Google などで働いていたときには必ずしも学べなかった、創業者として学んだことは何ですか?
ノーム:
良い質問。基本的に、人は恐ろしい間違いから学びます。とはいえ、私たちが非常に悪い間違いを犯したとは思っていませんし、少なくともそれを補うことはできました。
サラ:
どのような人材を求めていますか?
ノーム:
ここのところ? 22人中21人がエンジニアです。エンジニアも増員していきます。ディープラーニングであれ、フロントエンドとバックエンドであれ、ビジネス側と製品側でより多くの人を雇用するようにしてください。
ライブ:
最後の 2 ~ 3 つの簡単な質問、あなたの好きな数学者またはコンピューター科学者は誰ですか。
ノーム:
私は Google で Jeff Dean (Google Brain 責任者) とよく仕事をしています。彼は本当に素敵で、一緒に仕事をするのが楽しいです。彼は現在、大規模な言語モデルに取り組んでいると思います。 Google を離れるのは少し残念ですが、将来的には彼と一緒に仕事ができることを願っています。
ライブ:
数学は発明された、または発見されたと思いますか?
ノーム:
おそらくそれは発見されている、おそらくすべては発見されている、そして私たちはただ発見しているだけだと思います。