主要な言語モデルのトップ人材は、これら 10 個の課題のみに関心を持っています

2023-09-19 08:23:22

出典: シリコンラビットレーシング

著者：Lin Ju 編集者：Man Manzhou

画像ソース: Unbounded AI によって生成

**編集者注: この記事では、大規模言語モデル (LLM) 研究におけるトップ 10 の課題について考察します。著者は、スタンフォード大学を卒業し、現在はリアルタイム機械学習プラットフォームである Claypot AI の創設者である Chip Huyen です。以前は NVIDIA、Snorkel AI、Netflix、Primer で機械学習ツールを開発していました。 **

私は前例のない状況を目の当たりにしています。世界のトップの頭脳の多くが現在、「言語モデル (LLM) をより良くする」という統一目標に専念しています。

産業界や学界の多くの同僚と話をした後、私はブームとなっている 10 の主要な研究方向を要約してみました。

1. 幻覚を軽減し、測定する (編集者注: 幻覚、AI の幻覚、つまり、構文的には妥当な出力であっても、AI 出力の不正確または無意味な部分)

2. コンテキストの長さとコンテキストの構築を最適化する

3. 他のデータモードを統合する

4. LLM の速度を向上させ、コストを削減します

5. 新しいモデルアーキテクチャを設計する

6. 代替 GPU を開発する

7. エージェントの可用性を向上させる

8. 人間の好みから学習する能力の向上

9. チャットインターフェイスの効率を向上させる

10. 英語以外の言語用の LLM の構築

その中でも、最初の 2 つの方向、つまり「幻想」の軽減と「文脈学習」が、現時点で最も人気のある方向かもしれません。個人的には、項目 3 (マルチモーダリティ)、5 (新しいアーキテクチャ)、および 6 (GPU の代替) に最も興味があります。

01 錯視の軽減と測定

AIモデルが虚偽の内容をでっち上げた場合に起こる現象を指します。

幻想は、創造性を必要とする多くの状況において避けられない特質です。ただし、他のほとんどのアプリケーションシナリオでは、これは欠点となります。

最近、LLM に関するディスカッショングループに参加し、Dropbox、Langchain、Elastics、Anthropic などの企業の人々と話をしましたが、彼らは大規模企業はLLM の商業生産に対する最大の障害は、錯覚の問題です。

幻覚現象を軽減し、それを測定するための指標を開発することは急成長している研究テーマであり、多くの新興企業がこの問題の解決に焦点を当てています。

現在、幻覚を軽減するための一時的な方法がいくつかあります。たとえば、コンテキスト、思考連鎖、プロンプトへの自己一貫性を追加したり、モデルの出力を簡潔に保つことを要求したりするなどです。

関連する講演は以下のとおりですので、ご参照ください。

・自然言語生成における幻覚の調査 (Ji et al.、2022) ・言語モデルの幻覚が雪だるま式にできる方法 (Zhang et al.、2023) ・推論、幻覚、対話性に関する ChatGPT のマルチタスク、多言語、マルチモーダル化 (Bang et al., 2023)・対照学習は会話中の幻覚を軽減する (Sun et al., 2022)・自己一貫性は言語モデルにおける思考推論の連鎖を改善する (Wang et al., 2022)・SelfCheckGPT: ゼロリソースブラックボックス大規模生成言語モデルの幻覚検出 (Manakul et al., 2023)

02 コンテキストの長さとコンテキストの構築を最適化する

AI が直面する問題の大部分にはコンテキストが必要です。

たとえば、ChatGPT に「どのベトナム料理レストランが一番いいですか?」と尋ねた場合、ベトナムで最高のレストランは米国で最高のベトナム料理レストランとは異なる可能性があるため、必要なコンテキストは「どこ」になる可能性があります。

興味深い論文「SownedQA」(Zhang & Choi、2021) によると、情報を求める質問のかなりの部分にコンテキスト依存の回答があり、たとえば、NQ-Open データセット内の質問の約 16.5% がこのタイプです。。

個人的には、エンタープライズアプリケーションのシナリオでは、この比率はさらに高くなる可能性があると考えています。企業が顧客向けにチャットボットを構築するとします。ロボットが製品に関する顧客の質問に答えられるようにするには、必要なコンテキストは顧客の履歴や製品に関する情報になる可能性があります。

モデルは提供されたコンテキストから「学習」するため、このプロセスはコンテキスト学習とも呼ばれます。

検索拡張生成 (RAG、LLM 業界のアプリケーション方向の主要な方法でもあります) では、コンテキストの長さが特に重要です。

RAG は単純に 2 つの段階に分けることができます。

フェーズ 1: チャンク化 (インデックス作成とも呼ばれます)

LLM で使用されるすべてのドキュメントを収集し、これらのドキュメントを LLM に入力してエンベディングを生成できるチャンクに分割し、これらのエンベディングをベクトルデータベースに保存します。

第 2 段階: クエリ

ユーザーが「私の保険はこの薬をカバーしますか?」のようなクエリを送信すると、

図: LlamaIndex でのジェリー・リューのスピーチのスクリーンショット (2023)

コンテキストの長さが長いほど、より多くのブロックをコンテキストに挿入できます。しかし、モデルがアクセスできる情報が増えれば増えるほど、その応答はより良くなるでしょうか?

これは常に当てはまるわけではありません。モデルが使用できるコンテキストの量と、モデルがどの程度効率的に使用されるかは、2 つの異なる問題です。モデルのコンテキストの長さを増やすことと同じくらい重要なのは、コンテキストのより効率的な学習であり、これは「ヒントエンジニアリング」とも呼ばれます。

最近広く流通した論文では、モデルはインデックスの途中からよりも最初と最後からの情報を理解する方がはるかに優れたパフォーマンスを発揮することを示しています: Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023)。

03他のデータモードを統合する

私の意見では、マルチモダリティは非常に強力ですが、過小評価されがちです。

まず、実際のアプリケーションシナリオの多くでは、ヘルスケア、ロボット工学、電子商取引、小売、ゲーム、エンターテイメントなど、大量のマルチモーダルデータを処理する必要があります。医療予測には、テキスト (医師のメモ、患者アンケートなど) と画像 (CT、X 線、MRI スキャンなど) の両方を使用する必要があり、製品データには画像、ビデオ、説明、さらには表形式のデータ (例:製造日、重量、色）。

第 2 に、マルチモダリティによりモデルのパフォーマンスが大幅に向上することが期待されます。テキストと画像の両方を理解できるモデルは、テキストのみを理解できるモデルよりもパフォーマンスが優れているのではないでしょうか?テキストベースのモデルには大量のテキストデータが必要ですが、現在、テキストベースのモデルをトレーニングするためのインターネットデータが不足するのではないかと非常に心配しています。テキストが使い果たされたら、他のデータモダリティを活用する必要があります。

私が最近特に興奮しているアプリケーションの方向性の 1 つは、マルチモーダルテクノロジが、視覚障害のある人々がインターネットを閲覧し、現実世界をナビゲートできるようにすることです。

以下に、優れたマルチモーダルな研究開発をいくつか示します。 [CLIP] 自然言語監視による転送可能なビジュアルモデルの学習 (OpenAI、2021) · Flamingo: 少数ショット学習のためのビジュアル言語モデル (DeepMind、2022) · BLIP-2: 凍結画像エンコーダーと大規模言語モデルを使用した言語画像事前トレーニングのブートストラッピング(Salesforce、2023) · KOSMOS-1: 必要なのは言語だけではありません: 言語モデルと認識を調整する (Microsoft、2023) · PaLM-E: 具現化されたマルチモーダル言語モデル (Google、2023) · LLaVA: 視覚的命令チューニング (Liu)他、2023)・NeVA: NeMo Vision および言語アシスタント (NVIDIA、2023)

04LLM の速度向上とコスト削減

GPT-3.5 が 2022 年 11 月下旬に初めて発表されたとき、多くの人が、このモデルを運用環境で使用する際の遅延とコストについて懸念を表明しました。

現在、GPT-3.5 の使用によって引き起こされる遅延/コスト分析は新たな展開を迎えています。半年以内に、モデリングコミュニティ全体が、パフォーマンスの点で GPT-3.5 にほぼ近く、メモリ使用量が 2% 未満のモデルを作成する新しい方法を発見しました。

このことから私が言いたいことの 1 つは、あなたが十分に優れたものを作成すれば、他の誰かがそれを迅速かつコスト効率よく作成する方法を見つけるだろうということです。

以下は、Guanaco 論文で報告されたデータに基づいており、Guanaco 7B のパフォーマンスを ChatGPT GPT-3.5 および GPT-4 と比較しています。

全体として、これらのモデルのパフォーマンスは完璧とは程遠いことに注意することが重要です。 LLM の場合、パフォーマンスを大幅に向上させることは依然として非常に困難です。

4 年前、私が『機械学習システムの設計』という本の「モデル圧縮」セクションのメモを書き始めたとき、業界には 4 つの主要なモデル最適化/圧縮技術が存在していたことを思い出します。

定量化: これまでで最も一般的なモデル最適化方法。量子化により、モデルのパラメーターを表すために使用するビットが少なくなり、モデルのサイズが削減されます。たとえば、浮動小数点数を表すために 32 ビットを使用する代わりに、16 ビットまたは 4 ビットだけが使用されます。
知識の蒸留: つまり、より大きなモデルまたはモデルセット (教師モデル) を模倣できる小さなモデル (学生モデル) をトレーニングします。
低ランク分解: その重要なアイデアは、低次元テンソルを使用して高次元テンソルを置き換え、パラメータの数を減らすことです。たとえば、3x3 テンソルは 3x1 テンソルと 1x3 テンソルの積に分解できるため、パラメータは 9 つではなく 6 つだけになります。
枝刈り: 全体的なパフォーマンスへの寄与が少ないモデル内の重みや接続を削除して、モデルのサイズを縮小することを指します。

これら 4 つのテクニックは現在でも人気があります。 Alpaca は知識の蒸留によってトレーニングされますが、QLoRA は低ランクの分解と量子化の組み合わせを使用します。

05新しいモデルアーキテクチャを設計する

2012 年の AlexNet 以来、LSTM、seq2seq など、多くのアーキテクチャが生まれては消えていくのを見てきました。

これらのアーキテクチャと比較すると、2017 年にリリースされた Transformer は非常に安定していますが、このアーキテクチャがいつまで普及するかは不明です。

Transformer を超える新しいアーキテクチャを開発するのは簡単ではありません。過去 6 年間で、Transformer は多くの最適化を受けてきました。適切なハードウェアでは、このモデルの規模と効果は驚くべき結果を達成できます (PS: Transformer は、最初に Google によって TPU で高速に実行されるように設計され、その後、TPU で最適化されました) GPU）。

2021 年、Chris Ré の研究室による研究「構造化状態空間を使用した長いシーケンスの効率的なモデリング」(Gu et al., 2021) は、業界で多くの議論を引き起こしました。次に何が起こったのかわかりません。しかし、Chris Ré Labs は依然として新しいアーキテクチャの開発を積極的に行っており、最近ではスタートアップの Together と提携して Monarch Mixer と呼ばれるアーキテクチャを立ち上げました。

彼らの主な考え方は、既存の Transformer アーキテクチャでは、注目の複雑さはシーケンス長の 2 乗に比例し、MLP の複雑さはモデル次元の 2 乗に比例するというものです。二次二次の複雑さを持つアーキテクチャはより効率的になります。

他の多くの研究室がこのアイデアを研究していると思いますが、これを公に試した研究を私は知りません。進捗が分かれば連絡ください！

06代替GPUの開発

2012 年の AlexNet の登場以来、GPU はディープラーニングの主要なハードウェアとなってきました。

実際、AlexNet の人気の一般に認識されている理由の 1 つは、これが GPU を使用してニューラルネットワークをトレーニングすることに成功した最初の論文であるということです。 GPU が登場する前は、AlexNet のサイズのモデルをトレーニングしたい場合、Google が AlexNet の数か月前にリリースしたサーバーと同様に、数千個の CPU が必要でした。

数千の CPU と比較して、数個の GPU は博士課程の学生や研究者にとってアクセスしやすく、ディープラーニング研究のブームを引き起こしています。

過去 10 年間、大企業から新興企業まで、多くの企業が人工知能用の新しいハードウェアを開発しようと試みてきました。最も注目すべき試みには、Google の TPU、Graphcore の IPU、Cerebras などがあります。 SambaNova も新しい AI チップの開発のために 10 億ドル以上を調達しましたが、生成 AI プラットフォームに軸足を移したようです。

この期間中、量子コンピューティングも多くの期待を呼び起こしました。主なプレーヤーには次のようなものがあります。

・IBMの量子プロセッサ

・Googleの量子コンピュータ。量子エラー削減における大きなマイルストーンが、今年初めに Nature 誌に報告されました。その量子仮想マシンは、Google Colab を通じて公的にアクセスできます。

・MIT量子工学センター、マックス・プランク量子光学研究所、シカゴ量子交換センターなどの大学の研究室。

もう 1 つの同様に興味深い方向性はフォトニックチップです。この方向性は私が一番よく知らないので、間違いがあればご指摘ください。

既存のチップはデータの送信に電力を使用するため、大量のエネルギーを消費し、遅延が発生します。フォトニックチップは光子を使用してデータを送信し、光の速度を利用してより高速で効率的なコンピューティングを実現します。この分野では、Lightmatter (2 億 7,000 万ドル)、Ayar Labs (2 億 2,000 万ドル)、Lightelligence (2 億ドル以上)、Luminous Computing (1 億 1,500 万ドル) など、さまざまなスタートアップが数億ドルを調達しています。

以下は、光子行列計算の 3 つの主要な方法の進捗タイムラインです。光子行列乗算が光子加速器とその先を照らす (Zhou et al.、Nature 2022) から抜粋したものです。 3 つの異なる方法とは、平面光変換 (PLC)、マッハツェンダー干渉計 (MZI)、および波長分割多重 (WDM) です。

07エージェントの可用性の向上

エージェントは、インターネットの閲覧、電子メールの送信などのアクションを実行できる LLM と考えることができます。この記事の他の研究方向と比較すると、これは最も若い方向かもしれません。

エージェントには、その新規性と大きな可能性のため、大きな関心が寄せられています。 Auto-GPT は現在、GitHub 上の星の数で 25 番目に人気のあるライブラリです。 GPT-Engineering も人気のあるライブラリです。

それにもかかわらず、LLM が十分に信頼でき、十分なパフォーマンスを発揮し、特定の運用能力を備えているかどうかについては依然として疑問があります。

現在、社会調査にエージェントを使用するという興味深い応用方向があります。スタンフォード大学の実験では、生成エージェントの小グループが創発的な社会的行動を生成したことが示されました。つまり、あるエージェントがバレンタインデーのパーティーを主催したいという、ユーザーが指定したたった 1 つのアイデアから始まり、他の多数のエージェントがそれを次の 2 日間で自律的に広めました。パーティーへの招待、新しい友達を作る、お互いをパーティーに招待する...(Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023)。

おそらくこの分野で最も注目すべきスタートアップは Adept でしょう。Adept は 2 人の Transformer 共著者 (二人ともその後辞めていますが) と元 OpenAI 副社長によって設立され、これまでに $5 億近くを調達しています。昨年、彼らはエージェントがインターネットを閲覧し、Salesforce に新しいアカウントを追加する方法を示しました。彼らの新しいデモを見るのを楽しみにしています 🙂 。

08 人間の好みから学ぶ能力の向上

RLHF (人間の好みからの強化学習) はクールですが、少し退屈です。

LLM をトレーニングするためのより良い方法を人々が見つけても、私は驚きません。 RLHF に関しては、次のような未解決の質問が数多くあります。

·人間の好みを数学的に表現するにはどうすればよいですか?

現在、人間の好みは比較によって決定されます。人間のアノテーターは、回答 A が回答 B よりも優れているかどうかを判断します。ただし、回答 A が回答 B よりもどの程度良いか悪いかは考慮されていません。

・人間の好みとは何でしょうか？

人間性は、役立つ、正直、無害という 3 つの側面に沿ってモデルの応答の品質を測定します。参考論文：Constitutional AI: Armlessness from AI Feedback (Bai et al., 2022)。

DeepMind は、ほとんどの人が最も満足できる答えを生成しようとします。参考論文: 多様な好みを持つ人間の間で一致を見つけるための言語モデルの微調整 (Bakker et al., 2022)。

また、私たちが望むのは、自分の立場を主張できる AI でしょうか、それとも、物議を醸す可能性のあるトピックについて話すことを避ける汎用の AI でしょうか?

・文化、宗教、政治的傾向などの違いを考慮した場合、「人間」の好みは誰の好みですか?

すべての潜在的なユーザーを十分に表すトレーニングデータを取得するには、多くの課題があります。

たとえば、OpenAI の InstructGPT データには 65 歳以上のアノテーターがいません。タグ付け者は主にフィリピン人とバングラデシュ人です。参考論文: InstructGPT: 人間のフィードバックによる指示に従う言語モデルのトレーニング (Ouyang et al., 2022)。

近年の AI コミュニティ主導の取り組みの当初の意図は賞賛に値しますが、データの偏りは依然として存在します。たとえば、OpenAssistant データセットでは、回答者 222 人中 201 人 (90.5%) が男性であると自己報告しました。ジェレミー・ハワード氏はこの問題に関する一連のツイートをツイッターに投稿した。

09チャットインターフェースの効率を改善

ChatGPT の導入以来、チャットが幅広いタスクに適しているかどうかについて議論が続けられてきました。例えば：

·自然言語は怠惰なユーザーインターフェイスです (Austin Z. Henley、2023)

· なぜチャットボットは未来ではないのか (アメリア・ワッテンバーガー、2023)

·会話で答える必要がある質問の種類は何ですか? AskReddit の質問のケーススタディ (Huang et al., 2023)

·AI チャットインターフェイスは、ドキュメントを読むための主要なユーザーインターフェイスになる可能性があります (Tom Johnson、2023)

·最小限のチャットによる LLM との対話 (ユージンヤン、2023)

ただし、これは新しい議論ではありません。多くの国、特にアジアでは、チャットは約 10 年間、スーパーアプリのインターフェイスとして使用されてきました。ダン・グローバー氏は 2014 年にこの現象について議論しました。

この種の議論は 2016 年に再び活発になり、多くの人が既存のアプリケーションタイプは時代遅れであり、チャットボットが未来であるという見方をしています。たとえば、次のような研究があります。

·インターフェースとしてのチャットについて (Alistair Croll、2016)

· チャットボットのトレンドには大きな誤解が 1 つありますか? (ウィル・ナイト、2016)

·ボットがアプリを置き換えることはありません。より良いアプリがアプリに取って代わる (Dan Grover、2016)

個人的には、次の理由からチャットインターフェイスが気に入っています。

チャットインターフェイスは、誰でも (コンピュータやインターネットの経験がない人でも) すぐに使いこなせるものです。

2010 年代初頭に私がケニアの低所得地域でボランティア活動をしていたとき、そこにいる誰もが携帯電話のテキストメッセージによる銀行取引にどれほど抵抗を感じていないかを見て驚きました。たとえそのコミュニティにコンピューターを持っている人が一人もいなかったとしても。

チャットインターフェイスは一般にアクセスが簡単です。手が他のことで忙しい場合は、テキストの代わりに音声を使用することもできます。

チャットインターフェイスも非常に強力なインターフェイスであり、一部の応答があまり良くない場合でも、ユーザーのあらゆるリクエストに応答します。

ただし、チャットインターフェイスには改善の余地がある領域がいくつかあると思います。

・1回のラウンドで複数のメッセージ

現在、一度にメッセージは 1 つだけであるとほぼ想定されています。しかし、友達とテキストメッセージを送信する場合、別のデータ (画像、場所、リンクなど) を挿入する必要がある、前のメッセージの内容を忘れていた、または単純にメッセージに収まりたくないなどの理由から、チャットを完了するまでに複数のメッセージが必要になることがよくあります。すべてを 1 つの大きな段落にまとめます。

・マルチモーダル入力

マルチモーダルアプリケーションの分野では、ほとんどの労力はより良いモデルの構築に費やされ、より良いインターフェイスの構築にはあまり費やされません。 NVIDIA の NeVA チャットボットを例に挙げます。私はユーザーエクスペリエンスの専門家ではありませんが、ここには改善の余地があるかもしれないと考えています。

PS ごめんなさい、NeVA チーム、名前を付けてしまいました。それにしても、あなたの仕事は素晴らしいです！

図: NVIDIA の NeVA インターフェイス

·生成AIをワークフローに統合

Linus Lee 氏は、「チャットを超えた生成 AI インターフェイス」という講演でこれについて非常に詳しく説明しています。たとえば、作業中のグラフの列について質問したい場合は、その列を指して質問するだけで済みます。

·メッセージの編集と削除

ユーザー入力を編集または削除すると、チャットボットとの会話の流れはどのように変わりますか?

10 英語以外の言語用の LLM の構築

現在の英語主導の LLM は、パフォーマンス、遅延、速度のいずれの点においても、他の多くの言語ではパフォーマンスが低いことがわかっています。

参照できる関連研究は次のとおりです。

· 英語を超えた ChatGPT: 多言語学習における大規模言語モデルの包括的な使用に向けて (Lai et al.、2023)

·すべての言語は平等に作成（トークン化）されているわけではありません（Yennie Jun、2023）

一部の読者は、次の 2 つの理由から、私がこの方向性を追求すべきではないと思うと言いました。

これは研究上の質問というよりは「論理的な」質問です。私たちはすでにその方法を知っています。誰かがお金と労力を投入するだけで十分です。

これは完全に正しいわけではありません。ほとんどの言語は、英語や中国語に比べて高品質なデータがはるかに少なく、大規模な言語モデルをトレーニングするには異なる手法が必要になる可能性があるため、低リソース言語とみなされます。

参照できる関連研究は次のとおりです。

·低リソース言語: 過去の研究と将来の課題のレビュー (Magueresse et al.、2020)

·JW300: 低リソース言語のための広範囲をカバーする並列コーパス (Agić et al., 2019)

もっと悲観的な人は、将来、多くの言語が消滅し、インターネットは英語と中国語の 2 つの言語で構成される 2 つの世界になると信じています。この考え方は新しいものではありません。エスペラント語を覚えている人はいますか?

機械翻訳やチャットボットなどの AI ツールが言語学習に与える影響は依然として不明です。人々が新しい言語をより早く学習できるようになるのでしょうか、それとも新しい言語を学習する必要がまったくなくなるのでしょうか?

＃＃ 結論は

上記の 10 の課題のうち、いくつかは実際に他の課題よりも困難です。

たとえば、項目 10「英語以外の言語用の LLM の構築」は、より直接的に適切な時間とリソースを示していると思います。

項目 1 の幻覚を減らすことは、より困難になります。なぜなら、幻覚は LLM が確率論的なタスクを実行しているだけだからです。

項目 4 は、LLM の高速化と低コスト化ですが、完全に解決されることはありません。この分野では多くの進歩が見られ、今後もさらなる進歩が見込まれますが、私たちは決して改善を止めるつもりはありません。

項目 5 と 6 の新しいアーキテクチャと新しいハードウェアは、非常に困難で避けられないものです。アーキテクチャとハードウェアの間には共生関係があるため、新しいアーキテクチャは共通のハードウェア向けに最適化する必要があり、ハードウェアは共通のアーキテクチャをサポートする必要があります。同じ会社によって決済される場合もあります。

これらの問題の中には、技術的な知識以上のもので解決できるものもあります。たとえば、項目 8「人間の好みからの学習の改善」は、技術的な問題というよりも戦略の問題である可能性があります。

項目 9 のチャットインターフェイスの効率の向上は、どちらかというとユーザーエクスペリエンスの問題です。これらの問題を解決するには、非技術的な背景を持つより多くの人々が協力する必要があります。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1Simple Earn Annual Rate 24.4%
21k 人気度
2Gate Launchpad List IKA
27k 人気度
3ETH Trading Volume Surges
22k 人気度
4Gate ETH 10th Anniversary Celebration
19k 人気度
5Trump’s AI Strategy
18k 人気度

ピン

サイトマップ