常にではない。モデルが使用できるコンテキストの量と、モデルがコンテキストをどれだけ効率的に使用できるかは、2 つの異なる問題です。モデルのコンテキストの長さを増やすと同時に、コンテキストの効率も向上させるよう取り組んでいます。それを「エンジニアリング」または「建設」と呼ぶ人もいます。たとえば、最近の論文では、モデルが中間の情報だけでなくインデックスの始まりと終わりをどのようによりよく理解できるかについて述べています - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023)。
この方向への興奮にもかかわらず、大規模な言語モデルがアクションを実行できるほど信頼性があり、十分なパフォーマンスを発揮するかどうかについては疑問が残ります。しかし、有名なスタンフォードの実験のように、エージェントが社会調査に使用されるという応用シナリオが登場しました。この実験では、生成的なエージェントの小さなクラスターが新たな社会的行動を生み出すことが示されました。たとえば、ユーザーが指定したアイデアから始まり、エージェントの欲求バレンタインデー パーティーを開催するために、エージェントは次の 2 日間でパーティーの招待状を自動的に広め、新しい友達を作り、お互いをパーティーに招待します... (Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023) 、
6,000 語の解釈: 現在の大規模言語モデル LLM 研究における 10 の主要な課題
著者: チップ・フエン
**翻訳:**アルファ・ラビット
ソースリンク:
大規模な言語モデルをより完全なものにするという目標に向かって、これほど多くの賢い人々が同時に共通の目標に向かって取り組んでいるのを見たのは、私の人生で初めてでした。産業界や学界の多くの人々とコミュニケーションをとった結果、10の主要な研究方向が浮かび上がってきたことに気づきました。現在最も注目されている 2 つの方向は、幻覚 (出力幻覚) とコンテキスト学習です。
私にとって最も興味深いのは、以下に示す 3 番目の方向 (マルチモーダル マルチモーダル データ モード)、5 番目の方向 (新しいアーキテクチャ)、および 6 番目の方向 (GPU 代替ソリューションの開発) です。
1. 幻覚を軽減し評価する
出力環境についてはよく議論されているトピックなので、ここでは簡単に説明します。幻覚は、AI モデルが何かをでっち上げるときに発生します。多くのクリエイティブなユースケースでは、イリュージョンは機能の一種です。ただし、幻覚はほとんどの使用例ではエラーになります。私は最近、Dropbox、Langchain、Elastics、Anthropic の専門家による LLM に関するパネル ディスカッションに参加しましたが、彼らによると、企業が LLM を実際のプロダクションに適用するために克服する必要がある最初の障害は、幻覚出力であるとのことです。
モデルの錯覚的な出力を削減し、錯覚的な出力を評価するためのメトリクスを開発することは、急成長している研究テーマであり、現在多くの新興企業がこの問題に焦点を当てています。また、キューワード、CoT、自己一貫性により多くのコンテキストを追加したり、モデルの応答が簡潔かつ明確であることを特に要求したりするなど、錯覚的な出力の可能性を減らすためのテクニックもあります。
以下は、幻覚出力に関する一連の論文と参考資料です。
自然言語生成における幻覚に関する調査(Ji et al., 2022)
どのように言語モデルの幻覚が雪だるま式に増加するか(Zhang et al., 2023)
推論、幻覚、および対話性に関する ChatGPT のマルチタスク、多言語、マルチモーダル化 (Bang et al.、2023)
対照学習は会話中の幻覚を軽減する(Sun et al., 2022)
自己一貫性は言語モデルにおける思考連鎖の推論を改善する(Wang et al., 2022)
SelfCheckGPT: 生成大規模言語モデルのためのゼロリソース ブラック ボックス幻覚検出(Manakul et al., 2023)
NVIDIA の NeMo-Guardrails による事実確認と幻覚の簡単な例
2. コンテキストの長さとコンテキストの構築を最適化する
ほとんどの質問にはコンテキストが必要です。たとえば、ChatGPT に「どのベトナム料理レストランが一番いいですか?」と尋ねると、必要なコンテキストは「このレストランは正確にどこに限定されていますか?」になります。なぜなら、ベトナムで最高のベトナム料理レストランは、米国で最高のベトナム料理レストランと同じだからです。 . レストラン、この質問の範囲は異なります。
以下のクールな論文「SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA (Zhang & Choi, 2021)」によると、情報検索の質問に対する回答のかなりの部分が文脈的なものであり、たとえば、自然な質問の回答の約 10% は文脈に応じたものです。 NQ-Open データセット 16.5%。
(NQオープン:
実際に企業が遭遇するケースでは、この割合はさらに高くなるのではないかと個人的には考えています。たとえば、企業がカスタマー サポート用のチャットボットを構築しているとします。このチャットボットが製品に関する顧客の質問に答えるために必要なコンテキストは、顧客の履歴や製品に関する情報である可能性があります。言語モデルは、提供されたコンテキストから「学習」するため、このプロセスはコンテキスト学習とも呼ばれます。
カスタマーサポートへの問い合わせに必要なコンテキストをイメージする
コンテキストの長さは RAG (検索拡張生成) にとって非常に重要であり、RAG は大規模言語モデル業界のアプリケーション シナリオの主要なモードとなっています。具体的には、検索拡張の生成は主に 2 つの段階に分かれています。
**フェーズ 1: チャンク化 (インデックス作成とも呼ばれます)**チャンク化 (インデックス作成とも呼ばれます)
LLM によって使用されるすべてのドキュメントを収集し、これらのドキュメントをより大きなモデルにフィードしてエンベディングを生成できるチャンクに分割し、これらのエンベディングをベクトル データベースに保存します。
フェーズ 2: クエリ
ユーザーが「私の保険は特定の薬 X をカバーしますか?」などのクエリを送信すると、大きな言語モデルはこのクエリを QUERY_EMBEDDING と呼ぶ埋め込みに変換します。ベクトル データベースは、embedding と QUERY_EMBEDDING の間で最も類似したブロックを取得します。
常にではない。モデルが使用できるコンテキストの量と、モデルがコンテキストをどれだけ効率的に使用できるかは、2 つの異なる問題です。モデルのコンテキストの長さを増やすと同時に、コンテキストの効率も向上させるよう取り組んでいます。それを「エンジニアリング」または「建設」と呼ぶ人もいます。たとえば、最近の論文では、モデルが中間の情報だけでなくインデックスの始まりと終わりをどのようによりよく理解できるかについて述べています - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023)。
3. 他のデータモードの統合 (マルチモーダル)
私の意見では、マルチモダリティは非常に強力ですが、過小評価されている面もあります。マルチモダリティを適用する理由は次のとおりです。
まず、多くの特定のアプリケーション シナリオでは、特にヘルスケア、ロボット工学、電子商取引、小売、ゲーム、エンターテイメントなどのデータ モダリティが混在する業界で、マルチモーダル データが必要です。例えば:
医療検査では、多くの場合、テキスト (医師の診断書、患者のアンケートなど) や画像 (CT、X 線、MRI スキャンなど) が必要になります。
通常、製品メタデータには、写真、ビデオ、説明、さらには表形式のデータ (製造日、重量、色など) が含まれます。これは、需要の観点から、ユーザーのレビューや製品の写真に基づいて不足している製品情報を自動的に埋める必要がある場合があるためです。形状や色などの視覚情報を利用して商品を検索できるようにしたい。
第 2 に、マルチモダリティによりモデルのパフォーマンスが大幅に向上することが期待されます。テキストと画像の両方を理解するモデルは、テキストを理解する単一のモデルよりもパフォーマンスが優れているはずではないでしょうか?テキストベースのモデルは非常に多くのテキストを必要とするため、テキストベースのモデルをトレーニングするためのインターネット データがすぐに不足してしまうのではないかと心配しています。テキストを使い尽くしたら、他のデータ スキーマを活用する必要があります。
マルチモダリティに関連する一連の論文と参考文献を次に示します。
[CLIP] 自然言語監視からの転送可能なビジュアル モデルの学習(OpenAI、2021)
Flamingo: 少数ショット学習のための視覚言語モデル (DeepMind、2022)
BLIP-2: 凍結画像エンコーダーと大規模言語モデルを使用した言語画像事前トレーニングのブートストラップ (Salesforce、2023)
KOSMOS-1: 必要なのは言語だけではありません: 認識と言語モデルの調整(Microsoft、2023)
PaLM-E: 具現化されたマルチモーダル言語モデル (Google、2023)
LLaVA: ビジュアル命令チューニング (Liu et al., 2023)
NeVA: NeMo ビジョンおよび言語アシスタント (NVIDIA、2023)
4. LLM をより速く、より安くする
GPT-3.5 が 2022 年 11 月下旬に初めてリリースされると、多くの人が、実稼働環境での使用の遅れとコストについて懸念を表明しました。ただし、それ以来、レイテンシ/コスト分析は急速に変化しました。半年も経たないうちに、コミュニティは GPT-3.5 に非常に近いパフォーマンスを発揮しながら、GPT-3.5 のメモリ フットプリントの約 2% しか必要としないモデルを作成する方法を発見しました。
ここでの教訓は、十分に優れたものを作成すれば、人々はそれを迅速かつコスト効率よく作成する方法を見つけるだろうということです。
Guanaco 7B と ChatGPT GPT-3.5 および GPT-4 のパフォーマンスの比較:
5. 新しいモデル アーキテクチャを設計する
2012 年の AlexNet 以来、私たちは LSTM、seq2seq などを含む多くのアーキテクチャの盛衰を見てきました。これらと比較すると、『トランスフォーマー』のインパクトは信じられないほどです。トランスフォーマーは 2017 年から登場していますが、このアーキテクチャがいつまで普及し続けるかは未解決の問題です。
Transformer を超える新しいアーキテクチャを開発するのは簡単ではありません。 Transformer は過去 6 年間に多くの最適化が行われており、この新しいアーキテクチャは、人々が現在関心を持っているハードウェア上で、現在関心を持っている規模で実行する必要があります。
注: Transformer は当初、TPU で高速に動作するように Google によって設計され、後に GPU 用に最適化されました。
2021 年、Chris Ré の研究室の S4 は広く注目を集めました。詳細については、「構造化状態空間を使用した長いシーケンスの効率的なモデリング」(Gu et al., 2021) を参照してください)。 Chris Ré の研究室は現在も新しいアーキテクチャの開発を精力的に行っており、最近ではスタートアップ Together と共同開発した Monarch Mixer (Fu、2023) もその 1 つです。
彼らの主なアイデアは、既存の Transformer アーキテクチャの場合、注目の複雑さはシーケンス長の 2 次であるのに対し、MLP の複雑さはモデル次元の 2 次であるということです。二次二次の複雑さを持つアーキテクチャはより効率的になります。
6. GPU の代替品を開発する
2012 年の AlexNet 以来、GPU はディープラーニング用の主要なハードウェアとなってきました。実際、AlexNet の人気の一般に認識されている理由の 1 つは、これが GPU を使用してニューラル ネットワークをトレーニングすることに成功した最初の論文であるということです。 GPU が登場する前は、AlexNet の規模でモデルをトレーニングしたい場合は、Google が AlexNet の数か月前にリリースしたような CPU を数千個使用する必要がありました。数千の CPU と比較して、数個の GPU は博士課程の学生や研究者にとってアクセスしやすく、ディープラーニング研究のブームを引き起こしています。
過去 10 年間にわたり、大企業も新興企業も含め、多くの企業が人工知能用の新しいハードウェアを開発しようと試みてきました。最も注目すべき試みには、Google の TPU、Graphcore の IPU (IPU はどうなっているの?)、Cerebras などがあります。 SambaNova は、新しい AI チップの開発のために 10 億ドル以上を調達しましたが、生成 AI プラットフォームに軸足を移したようです。
しばらくの間、量子コンピューティングには大きな期待が寄せられ、主要なプレーヤーには以下が含まれていました。
もう 1 つの同様に興味深い方向性はフォトニック チップです。この辺のことはあまり詳しくないので、間違っていたらごめんなさい。既存のチップはデータの送信に電気を使用するため、大量のエネルギーを消費し、遅延が発生します。一方、フォトニックチップは光子を使用してデータを送信し、光の速度を利用してより高速で効率的なコンピューティングを実現します。この分野では、Lightmatter (2 億 7,000 万ドル)、Ayar Labs (2 億 2,000 万ドル)、Lightelligence (2 億ドル以上)、Luminous Computing (1 億 1,500 万ドル) など、さまざまなスタートアップが数億ドルを調達しています。
以下は、論文「光子行列乗算が光子加速器とその先を照らす」(Zhou、Nature 2022) から抜粋した、光子行列計算の 3 つの主要な方法の進捗タイムラインです。 3 つの異なるアプローチとは、平面光スイッチング (PLC)、マッハツェンダー干渉計 (MZI)、および波長分割多重 (WDM) です。
7. エージェントの可用性を向上させる
エージェントとは、インターネットの閲覧、電子メールの送信、予約などのアクション (ユーザーの代わりにさまざまなタスクを完了できるエージェントとして理解できるため、エージェントと呼ばれます) を実行できる大きな言語モデルを指します。この論文の他の研究方向と比較すると、これは最も新しい方向の 1 つである可能性があります。 Agent 自体の斬新さと大きな可能性により、人々は Agent に対する熱意に満ちています。そして Auto-GPT は現在、星の数で GitHub 上で 25 番目に人気のあるリポジトリです。 GPT-Engineering も人気のあるリポジトリです。
この方向への興奮にもかかわらず、大規模な言語モデルがアクションを実行できるほど信頼性があり、十分なパフォーマンスを発揮するかどうかについては疑問が残ります。しかし、有名なスタンフォードの実験のように、エージェントが社会調査に使用されるという応用シナリオが登場しました。この実験では、生成的なエージェントの小さなクラスターが新たな社会的行動を生み出すことが示されました。たとえば、ユーザーが指定したアイデアから始まり、エージェントの欲求バレンタインデー パーティーを開催するために、エージェントは次の 2 日間でパーティーの招待状を自動的に広め、新しい友達を作り、お互いをパーティーに招待します... (Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023) 、
おそらくこの分野で最も注目すべきスタートアップは Adept でしょう。同社は Transformer の元共著者 2 名と OpenAI の元副社長 1 名によって設立され、これまでに 5 億ドル近くを調達しています。昨年、彼らはエージェントがインターネットを閲覧する方法と、Salesforce に新しいアカウントを追加する方法を示しました。
8. RLHF を反復する
RLHF (ヒューマン フィードバックからの強化学習) は優れていますが、少し注意が必要です。 LLM をトレーニングするためのより良い方法を人々が見つけたとしても驚くべきことではありません。ただし、RLHF には次のような未解決の問題がまだ多くあります。
①人間の好みを数学的に表現するには?
現在、人間の好みは比較によって決定されます。人間のアノテーターは、応答 A が応答 B よりも優れているかどうかを判断します。ただし、応答 A が応答 B よりもどれだけ優れているかは考慮されていません。
②人間の好みとは何でしょうか?
Anthropic は、役立つ、正直、無害という 3 つの次元の出力に基づいてモデルの品質を測定します。 「憲法上の AI: AI フィードバックからの無害性 (Bai et al., 2022)」を参照してください。
DeepMind は、大多数の人が満足する応答を生成しようとします。多様な好みを持つ人間の間で一致を見出すための言語モデルの微調整 (Bakker et al., 2022) を参照してください。
さらに、私たちが望むのは、自分の立場を主張できる AI でしょうか、それとも物議を醸す可能性のあるトピックを避ける従来の AI でしょうか?
③「人間」の好みは誰の好みですか? 文化、宗教、政治的傾向などの違いは考慮されるべきですか?すべての潜在的なユーザーを十分に表すトレーニング データを取得するには、多くの課題があります。
たとえば、OpenAI の InstructGPT データの場合、65 歳以上のアノテーターは存在しません。ラベラーは主にフィリピン人とバングラデシュ人です。 InstructGPT: 人間のフィードバックによる指示に従う言語モデルのトレーニング (Ouyang et al., 2022) を参照してください。
コミュニティ主導の取り組みは、その意図としては賞賛に値しますが、偏ったデータにつながる可能性があります。たとえば、OpenAssistant データセットの場合、回答者 222 人中 201 人 (90.5%) が男性であると自認しています。 Jeremy Howard は Twitter に素晴らしいスレッドを持っています:
9. チャットインターフェースの効率を改善する
ChatGPT 以来、チャットがさまざまなタスクに適したインターフェイスであるかどうかが議論されてきました。
詳細については、以下を参照してください。
自然言語は怠惰なユーザー インターフェイスです (Austin Z. Henley、2023)
なぜチャットボットは未来ではないのか(アメリア・ワッテンバーガー、2023)
会話で答える必要がある質問の種類は何ですか? AskRedditの質問のケーススタディ(Huang et al., 2023)
AI チャット インターフェイスは、ドキュメントを読むための主要なユーザー インターフェイスになる可能性があります (Tom Johnson、2023)
最小限のチャットによる LLM との対話 (ユージン ヤン、2023)
ただし、これは新しい話題ではありません。 Dan Grover が 2014 年に書いたように、多くの国、特にアジアでは、チャットは約 10 年間スーパー アプリケーションのインターフェイスとして使用されてきました。
インターフェースとしてのチャットについて(Alistair Croll、2016)
チャットボットのトレンドは大きな誤解ですか?(Will Knight、2016)
ボットがアプリを置き換えることはありません。より良いアプリがアプリに取って代わる (Dan Grover、2016)
私は個人的に次の理由からチャット インターフェイスが気に入っています。
①チャットインターフェースは、コンピュータやインターネットに触れたことがない人でも、誰でもすぐに使いこなせる(普遍性のある)インターフェースです。 2010 年代初頭、私がケニアの低所得地域でボランティア活動をしていたとき、そこにいる誰もが携帯電話やテキスト メッセージで銀行取引を行うことに慣れていることに衝撃を受けました。そのコミュニティではコンピューターを持っている人は誰もいませんでした。
② チャットインターフェイスへのアクセスが簡単です。手が他のことに気を取られている場合は、テキストの代わりに音声を使用してください。
③ チャットは非常に強力なインターフェースでもあります。チャットにあらゆるリクエストを送信すると、返信が必ずしも完璧ではない場合でも返信されます。
ただし、チャット インターフェイスはいくつかの領域で引き続き改善できると思います。
①一度に複数のメッセージをやり取りできる
現在、基本的には交換ごとに 1 ラウンドのメッセージのみを想定しています。しかし、それは私が友達とテキストメッセージをやり取りする方法ではありません。通常、考えを完了するには複数のメッセージが必要です。異なるデータ (画像、場所、リンクなど) を挿入する必要があるため、前のメッセージで何かを見逃していた可能性があるか、すべてを 1 つのメッセージにまとめたくないだけです。大きな段落。
②マルチモーダル入力
マルチモーダル アプリケーションの分野では、ほとんどの労力はより良いモデルの構築に費やされ、より良いインターフェイスの構築にはあまり費やされません。 Nvidia の NeVA チャットボットを例に考えてみましょう。私はユーザーエクスペリエンスの専門家ではありませんが、ここには改善の余地があるかもしれないと考えています。
PS: ここで NeVA チームについて言及して申し訳ありませんが、それでも、あなたの作品は依然としてかなりクールです!
Linus Lee 氏は、「チャットを超えた生成 AI インターフェイス」というシェアでこれについて非常に詳しく説明しています。たとえば、作成中のグラフの特定の列について質問したい場合、その列を指して質問できるはずです。
④メッセージの編集・削除
ユーザー入力を編集または削除すると、チャットボットとの会話の流れはどのように変化しますか?
10. 英語以外の言語用の LLM を作成する
英語を第一言語とする現在の LLM は、パフォーマンス、遅延、速度の点で他の多くの言語にうまく対応できないことがわかっています。見る:
ChatGPT Beyond English: Towards a Comprehensive uation of Large Language Models in Multilingual Learning (Lai et al., 2023)
すべての言語は平等に作成(トークン化)されているわけではありません(Yennie Jun、2023)
これは研究上の質問というよりは、ロジスティクス上の質問です。私たちはすでにその方法を知っていますが、必要なのは誰かが資金と労力を投入することだけです。ただし、これは完全に真実ではありません。ほとんどの言語は低リソース言語とみなされます。たとえば、多くの言語は英語や中国語に比べて高品質なデータがはるかに少ないため、大規模な言語モデルをトレーニングするには異なる手法が必要になる場合があります。以下も参照してください。
低リソース言語: 過去の研究と将来の課題のレビュー (Magueresse et al.、2020)
JW300: 低リソース言語のための広範な対訳コーパス (Agić et al., 2019)
もっと悲観的な人は、将来、多くの言語が消滅し、インターネットは英語と中国語の 2 つの言語からなる 2 つの世界から構成されると信じています。この傾向は新しいものではありません - エスペラント語を覚えている人はいますか?
機械翻訳やチャットボットなどの人工知能ツールが言語学習に与える影響は依然として不明です。それは人々が新しい言語をより速く学ぶのに役立つのでしょうか、それとも新しい言語を学ぶ必要性を完全に排除するのでしょうか。
## 結論は
この記事で何か見逃したことがあればお知らせください。追加の観点については、この包括的な論文「大規模言語モデルの課題と応用」(Kaddour et al., 2023) を参照してください。
上記の問題は他の問題よりも難しいです。たとえば、上記の質問 10 の英語以外の言語での LLM のセットアップは、十分な時間とリソースがあれば比較的簡単だと思います。
上記の最初の問題は、幻覚出力を減らすことですが、幻覚は LLM が確率的なことをしているだけであるため、これは非常に困難です。
第 4 に、LLM の高速化と低コスト化は完全には解決できません。この分野では大きな進歩があり、将来的にはさらに進歩するでしょうが、この方向の改善は今後も続くでしょう。
項目 5 と 6 の新しいアーキテクチャと新しいハードウェアは非常に困難ですが、時間の経過とともに避けられません。アーキテクチャとハードウェアの間には共生関係があるため、新しいアーキテクチャは共通のハードウェア向けに最適化する必要があり、ハードウェアは共通のアーキテクチャをサポートする必要があるため、これらは同じ会社によって行われる可能性が高くなります。
技術的な知識だけでは解決できない問題もあります。たとえば、質問 8 の人間の好みから学習する方法の改善は、技術的な問題というよりは政策の問題である可能性があります。問題 9 はチャット インターフェイスの効率を向上させることであり、これはユーザー エクスペリエンスの問題と言えます。これらの問題に協力してくれる、技術者以外の背景を持つより多くの人々が必要です。
最も興味のある研究の方向性は何ですか?これらの問題に対する最も有望な解決策は何だと思いますか?ぜひご意見をお聞かせください。