Patronus の創設チームは、Facebook AI Research (FAIR)、Airbnb、Meta Reality Labs、定量的機関など、トップクラスの ML (機械学習) アプリケーションおよび研究の経歴を持ったメンバーで構成されています。彼らは、主要な AI カンファレンス (NeurIPS、EMNLP、ACL) で NLP 研究論文を発表し、Airbnb 初の会話型 AI アシスタントを設計および発売し、Meta Reality Labs で因果推論の先駆者となり、マーク・キューバが支援する定量的ヘッジファンドの 0→1 製品から撤退しました。急成長中のスタートアップ企業で。
Patronus 氏は、Contextual AI の CEO であり、HuggingFace の元研究部長でもあるスタンフォード大学非常勤教授である Douwe Kiela 氏からアドバイスを受けています。 Douwe は、NLP の分野、特に評価、ベンチマーク、RAG の分野で先駆的な研究を行ってきました。
Patronus AI が解決する問題
現在の大規模言語モデルの評価はスケーラブルではなく、次の理由によりパフォーマンスが低くなります。
手動評価は時間がかかり、コストがかかります。大企業は、AI のバグを手動でチェックするために数百万人の社内テスターや外部コンサルタントを雇用するために何百万ドルも費やしています。 AI 製品を導入したいエンジニアは、何週間もかけて手動でテスト セットを作成し、AI 出力をチェックします。
Patronus AI: Lightspeed America が 300 万米ドルの投資を主導し、大規模モデルのセキュリティ問題を解決するためにエンタープライズ市場をターゲットにしています
**出典: **SenseAI Deep Thought Circle
センス思考
私たちは記事の内容に基づいて、より多様な推論や考察を提案するよう努めており、意見交換を歓迎します。
▪ エンタープライズレベルの大規模モデルの適用における問題点: トランスフォーマーの自己回帰式を使用した以下の予測は本質的に確率モデルであり、生成されたコンテンツの不確実性の評価がモデルの機能検証の鍵となります。同時に、学術指標の評価はエンタープライズレベルの現場アプリケーションには適応できず、より製品指向のマルチモデル自動評価プラットフォームが必要です。
実稼働コンテンツの精度と不確実性のバランスをとり、LLM 機能をビジネス需要シナリオに合わせて拡大する方法は、モデル評価プラットフォームとエンタープライズ レベルの Gen-AI アプリケーションの技術です。
この記事は合計 2115 文字あり、じっくり読むのに約 5 分かかります。
ユーザーは前例のない速度で生成 AI を導入しています。 ChatGPT は、これまでで最も急速に成長している消費者向け製品であり、発売から最初の 2 か月以内に 1 億人以上のユーザーを魅了しています。今年はAIが注目を集めています。しかし同時に、企業はAI製品の急速な展開に直面して慎重な姿勢を示しています。彼らは、大規模な言語モデルが引き起こす可能性のあるエラーを心配しています。残念ながら、言語モデルを評価および検査する現在の取り組みは、拡張することが難しく、非効率的です。 Patronus はこの状況を変えることに尽力しており、その使命は生成 AI に対する企業の信頼を高めることです。
パトロナス AI の設立背景
Patronus の 2 人の創設者である Rebecca と Anand は、10 年近く前からの知り合いです。シカゴ大学でコンピューター サイエンスを一緒に学んだ後、レベッカは Meta AI (FAIR) に参加して NLP および ALGN 関連の研究を主導し、アナンドは Meta Reality Labs で初期の因果推論と実験基盤を開発しました。 Meta では、Rebecca は研究の観点から、Anand はアプリケーションの観点から、2 人は機械学習の出力を評価して解釈することの難しさを直接経験しました。
昨年 11 月に OpenAI CTO の Meera Murati 氏が Twitter で ChatGPT のリリースを発表したとき、Anand 氏は 5 分以内にそのニュースを Rebecca 氏に転送しました。彼らはこれが変革の瞬間であることを認識しており、企業は間違いなく言語モデルをさまざまなシナリオにすぐに適用するでしょう。そのため、アナンドさんは、兄が勤めていた投資銀行のパイパー・サンドラー氏が OpenAI への内部アクセスを禁止したと聞いて驚いた。その後数か月間、彼らは、従来の企業がこのテクノロジーの導入を非常に慎重に進めているという話を何度も聞きました。
彼らは、NLP テクノロジーは大幅に進歩しましたが、実際のエンタープライズ アプリケーションにはまだ程遠いことに気づきました。生成 AI が非常に便利であることには誰もが同意しますが、それを正しい方法で使用する方法は誰も知りません。彼らは、AI の評価と安全性が今後数年間の最重要課題になることを認識しています。
チームと資金調達の状況
パトロナスは23年9月14日、ライトスピード・ベンチャー・パートナーズからシードラウンドで300万米ドルの資金調達を受けたと発表し、ファクトリアル・キャピタル、レプリットCEOのアムジャド・マサド氏、ゴクル・ラジャラム氏、マイケル・キャラハン氏、プラサンナ・ゴパラクリシュナン氏、スージャ・チャンドラセカラン氏らも参加した。投資。これらの投資家は、エンタープライズセキュリティとAIのベンチマーク企業への投資と運営の豊富な経験を持っています。
Patronus の創設チームは、Facebook AI Research (FAIR)、Airbnb、Meta Reality Labs、定量的機関など、トップクラスの ML (機械学習) アプリケーションおよび研究の経歴を持ったメンバーで構成されています。彼らは、主要な AI カンファレンス (NeurIPS、EMNLP、ACL) で NLP 研究論文を発表し、Airbnb 初の会話型 AI アシスタントを設計および発売し、Meta Reality Labs で因果推論の先駆者となり、マーク・キューバが支援する定量的ヘッジファンドの 0→1 製品から撤退しました。急成長中のスタートアップ企業で。
Patronus 氏は、Contextual AI の CEO であり、HuggingFace の元研究部長でもあるスタンフォード大学非常勤教授である Douwe Kiela 氏からアドバイスを受けています。 Douwe は、NLP の分野、特に評価、ベンチマーク、RAG の分野で先駆的な研究を行ってきました。
Patronus AI が解決する問題
現在の大規模言語モデルの評価はスケーラブルではなく、次の理由によりパフォーマンスが低くなります。
手動評価は時間がかかり、コストがかかります。大企業は、AI のバグを手動でチェックするために数百万人の社内テスターや外部コンサルタントを雇用するために何百万ドルも費やしています。 AI 製品を導入したいエンジニアは、何週間もかけて手動でテスト セットを作成し、AI 出力をチェックします。
大規模な言語モデルの非決定的な性質により、失敗の予測が困難になります。大規模な言語モデルは確率的なシステムです。入力範囲が制限されていないため (コンテキストの長さの制限内で)、広い攻撃対象領域が提供されます。したがって、失敗の原因は非常に複雑になります。
現在、大規模な言語モデル用の標準テスト フレームワークはありません。ソフトウェア テストは、単体テスト フレームワーク、大規模な品質検査チーム、リリース サイクルなど、従来のエンジニアリング ワークフローに深く統合されていますが、企業は大規模な言語モデルに対して同様のプロセスをまだ開発していません。継続的かつスケーラブルな評価、大規模な言語モデルのエラーの特定と文書化、およびパフォーマンスのベンチマークは、大規模な言語モデルを運用環境で使用するために重要です。
学術的なベンチマークは現実世界の状況を反映していません。企業は現在、学術的なベンチマーク (HELM、GLUE、SuperGLUE など) で大規模な言語モデルをテストしていますが、これらのベンチマークは実際の使用シナリオを反映できません。学術的なベンチマークは飽和状態になる傾向があり、トレーニング データの漏洩の問題に悩まされています。
AI の失敗のロングテールは非常に深刻で、最後の 20% は非常に困難です。敵対的攻撃は、大規模な言語モデルのセキュリティ問題が解決には程遠いことを示しています。たとえ汎用の事前トレーニング済み言語モデルが強力な基本機能を示したとしても、依然として未知の障害状況が多数存在します。 Patronus は、敵対的モデルの評価と堅牢性に関して多くの画期的な研究を行ってきましたが、これはほんの始まりにすぎません。
パトロナス AI の使命
Patronus AI の使命は、生成 AI に対する企業の信頼を高めることです。
Patronus AI は、大規模な言語モデル向けの業界初の自動評価およびセキュリティ プラットフォームです。お客様は Patronus AI を使用して大規模な言語モデルのエラーを検出し、AI 製品を安全に導入します。
プラットフォームは次のことを自動的に実行します。
スコアリング: モデルのパフォーマンスと、現実世界のシナリオにおける幻覚や安全性などの主要な指標を評価します。
テストの生成: 大規模な敵対的テスト セットを自動的に生成します。
ベンチマーク: モデルを比較して、顧客が特定のユースケースに最適なモデルを決定できるようにします。
パトロナスは、継続的に更新されるモデル、データ、ユーザーのニーズに適応するために、頻繁に評価を行うことを期待しています。最終的な目標は、信頼性マークを取得することです。予期せぬ失敗や、さらには否定的な報道や規制問題によってユーザーが不満を抱く企業は誰も望んでいません。
さらに、パトロナスは、ユーザーが公平で独立した視点を必要とする、信頼できる第三者の評価者を探しています。パトロナス氏は、誰もがこれを AI のムーディーズだと考えてほしいと考えています。
Patronus の現在のパートナーには、大手 AI 企業 Cohere、Nomic、Naologic が含まれています。さらに、いくつかの金融サービス会社などの伝統的な業界の有名企業も、パイロットプロジェクトを実施するためにPatronus AIと協議中です。
おやすみなさい、優しくしないでください。
怒り、
光の滅びに対する怒り。
—— ディラン・トーマス (1954)
参考文献