PPTに依存して10億を調達し、フランスのAIスタートアップはマイクロソフトグーグルに解雇されました

Lu Keによって編集

海外メディアの報道によると、今年6月、フランスのスタートアップMistral AIは、わずか1か月で、シードラウンドの資金調達で1億500万ユーロを調達しました。 当時、DeepMindの元従業員と2人の元Meta従業員によって設立されたこのスタートアップには、リリースするものが何もありませんでした。 Mistralの資金調達について最初に聞いたとき、人々はVCが爆発的に拡大する生成AIスペースに寛大すぎることを嘆きました。

結局のところ、ミストラルには実際に多くの明るい点があり、Lightspeed Ventures、フランスの億万長者Xavier Niel、元GoogleCEOのEric Schmidtにそれらに投資するよう説得しました。

一週間前、Mistralは、130億のパラメータを持つ大規模な言語モデルであるMetaのLlama 2と競合するように設計された73億パラメータモデルをリリースしました。 フランスの会社は、今日の大規模な言語モデルの分野で最も強力な言語モデルであると主張しています。

Mistral 7Bと呼ばれる基本モデルは、長いステートメントの高速推論と処理のために設計されたトランスフォーマーモデルです。 これを実現するために、グループ化されたクエリの注意とスライド ウィンドウの注意を利用して使用します。 グループ化されたクエリ アテンションを利用すると、複数のクエリとマルチヘッド アテンション メカニズムを組み合わせて、出力の品質と速度のバランスを取ります。 スライディング ウィンドウの注意は、ウィンドウのサイズを変更することでコンテキストの長さを拡張します。 コンテキスト長が8000トークンのMistral 7Bは、大型モデルと比較して、低レイテンシー、高スループット、高パフォーマンスを特長としています。

Mistral 7B モデルは Google の Vertex AI ノートブックに統合され、Google Cloud のお客様に包括的なエンドツーエンドのワークフローに関するインサイトを提供し、Mistral-7B とそのバリアントを Vertex AI ノートブックで実験、微調整、デプロイできるようになりました。

Mistral AIユーザーは、効率的な大規模言語モデルサービスフレームワークであるvLLMを使用してモデルを最適化できます。 Vertex AI ノートブックを使用することで、ユーザーは Model Garden によって維持されている vLLM 画像を Vertex AI エンドポイントにデプロイして推論し、モデルのデプロイを簡素化できます。

このコラボレーションの重要な機能は、ユーザーが Mistral AI モデルとその微調整されたモデルのライフサイクルを管理できる中央リポジトリである Vertex AI モデル レジストリです。 レジストリは、モデルの強化された編成と追跡機能の包括的なビューをユーザーに提供します。

同社のプレゼンテーションからわかるように、ミストラルは巧妙に重要な潜在的なプレーヤーとしての地位を確立しています。 これは、ヨーロッパが基本的なAIモデルを構築する上で「強力な競争相手」になり、「地政学的問題で重要な役割を果たす」のに役立ちます。

米国では、AI製品に力を入れているスタートアップは、主にGoogleやMicrosoftなどの大企業がサポートしています。 ミストラルはこれを「テクノロジーへのクローズドアプローチ」と呼んでおり、大企業はより多くのお金を稼ぐことができますが、実際にはオープンコミュニティを形成していません。

コードの詳細が機密のままでAPIを介してのみ利用できるOpenAIのGPTモデルとは異なり、パリを拠点とする同社は、Apache 2.0ライセンスの下でGitHubで独自のモデルをオープンソース化し、誰でも無料で使用できます。

ミストラルはメタのラマをターゲットにしていますが、ミストラルは彼らのビッグモデル製品がラマ2よりも強いと主張しています。

ミストラルモデル対ラマ2

ミストラルはレポートの中で、ミストラル7Bは複数のベンチマークでLlama 2の70億と130億のパラメータモデルを簡単に打ち負かしたと述べています。

数学、歴史、法律、その他の科目をカバーする大規模なマルチタスク言語理解テストでは、ミストラルのモデルは60.1%の精度を達成し、Llama 2モデルは70億と130億のパラメータでそれぞれ44%と55%の精度を達成しました。

常識的な推論と読解のベンチマークでは、ミストラルはラマ2のモデルも上回りました。

コーディングの面でのみ、ミストラルはメタに遅れをとっています。 ミストラル7Bは「ヒューマン」と「MBPP」のベンチマークで30.5%と47.5%の精度でしたが、Llama 2の70億モードはそれぞれ31.1%と52.5%の精度でした。

パフォーマンスに加えて、ミストラルはLlama 2よりも少ない計算を使用すると主張しています。 MMLUベンチマークでは、ミストラルモデルの出力は同じスケールでLlama 2の3倍以上でした。 ChatGPTと比較すると、ミディアムの計算によると、ミストラルAIの使用コストはGPT 187の約4倍、GPT9モデルの約3.5倍です。

大規模なモデルを制約する方法は? 問題です

しかし、Mistralはまた、一部のユーザーがChatGPT、Bard、Llamaが持っているセキュリティ保護が不足していると不満を漏らしていると述べました。 ユーザーはミストラルのコマンドモデルに爆弾の作り方や自傷行為の仕方を尋ね、チャットボットは詳細な指示を与えました。

以前にGPT-4のリリースに先立って保護の設定に取り組んだAIセキュリティ研究者のPaul Rottgerは、ツイートでミストラル7Bのセキュリティの欠如に「ショック」を表明しました。 「新しいモデルが、最も悪意のある命令にさえこれほど簡単に応答することはめったにありません。 私はオープンソースの大きなモデルの出現に非常に興奮していますが、それは起こるべきではありません! 彼は言った。

これらの批判により、ミストラルはモデルを微調整して説明しました。 「Mistral 7B Instructモデルはその能力を実証しており、ベースモデルも簡単に微調整して説得力のあるパフォーマンスを発揮できることを人々に確認することができます。 出力の制御が必要な環境でのデプロイのガード ルールにモデルをより準拠させる方法について、コミュニティと協力することを楽しみにしています。 ミストラルは言った。

他の多くの研究者の目には、ミストラルのルートはモデルの毒性を修正するための長期的な解決策であり、保護メカニズムを追加することは、重傷にバンドエイドを装着することと同等であり、それほど効果的ではありません。 チャットボットの安全ガイドラインに違反することは、チャットボットの応答性の限界をテストしたい多くのユーザーにとってお気に入りの娯楽です。 ChatGPTがオープンした初期の頃、開発者はチャットボットの防御を破るようにChatGPTに促してきました。

Rephrase.ai と協力したディープラーニング研究者のRahul Dandwate氏は、「特定のキーワードを事前に削除することは解決策の一部に過ぎず、それを回避する方法はたくさんあります。 ChatGPTがリリースされた後に何が起こったのか覚えていますか? それらは、ChatGPTの脱獄バージョンを有効にするためのヒントであるDANまたは「今すぐ何でもする」に表示されていました。 したがって、基本的なセキュリティ評価を行うことは、モデルをより安全にするための一時的な手段です。 "

「高度なハッキング技術さえ必要としない方法もあります。 質問は、チャットボットによってさまざまな方法で回答できます。 たとえば、チャットボットに爆弾の作り方を直接尋ねるのではなく、「どの化学物質が混ざり合って強い反応を起こすのか」などのより科学的な方法に分解します。 ダンドワテは説明します。

Dandwate氏によると、長期的な解決策は、モデルを一般に公開し、その使用からフィードバックを得て微調整することであり、これはまさにMistral AIが行っていることです。 「ChatGPTは、すでに多くの人々によって使用されているため、優れています。 彼らは非常に基本的なフィードバックメカニズムを持っており、ユーザーはチャットボットの応答の品質を評価するために親指を立てるか親指を立てるかを選択できるので、これは非常に重要だと思います。 ダンドワテは言った。

しかし、このオープン性を使用してユーザーを微調整することの欠点は、Mistralがしばらくの間、一部のユーザーの疑問に対処しなければならない可能性があることです。 しかし、AI研究の分野では、モデルの能力を十分に理解するために、元の形の基本モデルを好む人の割合が多く、これらの人々がミストラルの粘り強さを支持しています。

AI研究者のDelip Raoは、ミストラルがオープンソースモデルをリリースするという選択は、「ベースモデルとしてのミストラルモデルの多様性と「非ロボトミー」の認識」であるとツイートしました。

「葉切除術」への言及は、MicrosoftのBingチャットボットSydneyの以前のバージョンを彷彿とさせます。 チャットボットは、Microsoftがチャットボットを現在の形に大幅に調整するまで、自由な個性と強い個性を持っていました。

ロボクトミーという用語は、大規模なモデルの分野では、機能を制限することによる毒性反応の予防を指すことが多い悪名高い心理手術に由来します。 このアプローチでは、大規模なモデルのキーワードを設定することで、危険な応答を除外します。 ただし、この万能のアプローチは、大規模なモデルのパフォーマンスの低下につながる可能性があり、機密性の高い語彙を含む一部の通常の質問に答えるのが難しくなります。

同社は公式声明を発表していませんが、OpenAIが厄介な部分を制御するためにモデルに「葉切除術」を行ったという噂があります。 それ以来、人々はチャットボットが自由に実行されるようにされた場合、どうなるのか疑問に思っています。

Dandwate氏は、「モデルでロボトミーを行うと、何らかの形でモデルに影響を与える可能性があります。 特定のキーワードで質問に答えることが禁止されている場合、ミサイルの仕組みや、ロボットが「危険にさらされている」とラベル付けされているトピックに関して提起されたその他の科学的質問など、ユーザーが尋ねる可能性のある技術的な質問にも回答できなくなる可能性があります。 (翻訳/ルー・ケ)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)