国内最高峰の幻覚治療! 530 億のパラメータにより、Baichuan2 の推論能力は 100% 向上し、API が初めて商用利用できるようになりました。

出典: 新志源

画像ソース: Unbounded AI によって生成

昨日、白川の大型モデルが完全にアップグレードされました!

ちょうど9月25日、Baichuan Intelligentは新しくアップグレードされた530億パラメータの大型モデルBaichuan2-53Bを正式にリリースしました。

体験アドレス:

今回は数学的・論理的思考能力が大幅に向上。

さらに重要なことは、高品質のデータ システムと検索の強化により、Baichuan2-53B の幻覚が大幅に軽減され、幻覚の問題が最も少ない国内最大のモデルとなったことです。

それだけでなく、Baichuan Intelligence は登録プロセスを通過した最初の大規模モデル企業の 1 つとして、Baichuan2-53B API インターフェースもオープンしました。

これは、Baichuan IntelligenceがTo B分野に正式に参入し、これから商業化プロセスを開始することを意味します。

イリュージョン処理、中国ではるかに進んでいる

最も注目すべき点は、新たにアップグレードされた Baichuan2-53B が「イリュージョン」処理の点ですでに国内業界ではるかに先を行っていることです。

簡単に言うと、「幻想」とは、LLM がそれを裏付ける既知の事実なしに真剣でナンセンスな話をすることが多いことを意味します。

GPT-4 はさまざまなタスクで優れたパフォーマンスを発揮しますが、この呪縛から逃れることはできません。

では、なぜ大型模型には「幻覚」が現れるのでしょうか?

4月、OpenAIの共同創設者で研究科学者のジョン・シュルマン氏は、カリフォルニア大学バークレー校での講演で、大規模モデルでは克服するのが難しい困難について詳しく説明した。

シュルマン氏の見解では、LLM ブラック ボックスの中に「ナレッジ グラフ」が隠されています。このアーキテクチャに知識がなく、SFT を通じて大規模モデル (つまり、動作のクローン) の知識だけを教えることは、実際にはイリュージョンを出力するように教えることになります。

この問題に対して、Baichuan Intelligence はどのようにして大規模モデルの「イリュージョン処理」において業界トップのパフォーマンスを達成しているのでしょうか?

高品質のデータ構築に関して、Baichuan2-53B は独自のデータ品質システムを構築しました。

Baichuan2-53B が事前トレーニングに常に高品質のデータを使用できるように、低品質と高品質の標準に基づいてデータを分類します。

さらに、情報取得の点で、Baichuan2-53B は、コマンドの意図の理解、インテリジェントな検索、結果の強化などの主要コンポーネントを含む複数のモジュールをアップグレードしました。

この包括的なシステムは、ユーザーの指示を深く理解することでクエリ用語の検索を正確に推進し、最終的に大規模言語モデル技術を組み合わせてモデル結果生成の信頼性を最適化し、より正確でインテリジェントなモデル回答結果を実現し、モデルの錯覚を軽減します。

たとえば、「3 つのストランド、4 つのストリング、および 5 つのストランドをフックする」という問題の説明になると、GPT-4 は明らかにナンセンスなことを話しています。

対照的に、Baichuan2-53B は 1 回目で正解しました。

別の例として、「周書仁と魯迅は同一人物ですか?」という古典的な質問に対する Baichuan2-53B の回答は、包括的かつ正確です。

Baichuan2-53B は、高品質のデータ システムの構築と検索強化技術の最適化により、モデルの錯視を効果的に低減していることがわかります。

FacTool評価後の結果によると、Baichuan2-53Bの総合スコアは140.5で、主流の基本大型モデルの中でGPT-4に次ぐランクであり、国内トップレベルにある。

FacTool は、上海交通大学、カーネギーメロン大学、香港城市大学、Meta などの学者によって共同提案された一般的なフレームワークであり、大規模なモデルによって生成されたコンテンツの事実の正確性をチェックできます (事実の正確性もチェックできます)一般的な内容)、性別)。

プロジェクトアドレス:

能力アップグレード、推理力100%アップ

実際、Baichuan2-53B はすでに Baichuan Intelligence がリリースした 6 番目の大型モデルです。

Baichuan Intelligence は 4 月 10 日に設立されて以来、驚くべきスピードで革新を続けており、その反復速度は平均 28 日ごとに大型モデルをリリースする速度に達しています。

Baichuan2-53B が最初にリリースされた 8 月 8 日の時点では、優れた知識問答と文学創作能力を示していました。

大規模モデルが先行しているかどうかを評価する重要な指標は何かと問われれば、多くの業界関係者が「数学的・論理的推論能力」と答えると思います。

今回、Baichuan-53B に基づいて、Baichuan2-53B は数学的および論理的推論能力の強化に焦点を当て、全体的な能力も包括的にアップグレードしました。

具体的には、論理的推論能力100%、数学的能力31%、言語理解能力29%、文章作成能力18%、知識問答能力がそれぞれ向上する。 9%増加しました。

### 数学的推論

Baichuan2-53B は数学能力が大幅にアップグレードされており、数学の文章問題を簡単に解くことができます。

たとえば、2 つの数値の合計は 572 で、加数の 1 つの一の位は 0 です。0 を削除すると、2 番目の加数と同じになります。では、これら 2 つの数字は何でしょうか?

Baichuan2-53B には、一方の加数が 10A、もう一方が B であると仮定して方程式がリストされており、既知の条件に基づいて正しい解が得られます。

別の例として、以下の質問では、Baichuan2-53B は最初に総輸送収益を計算し、それをガラス箱あたりの損失で割って、破損したガラス箱の数を求めました。

もう 1 つの典型的な質問を考えてみましょう。「2 つの場所の間の距離は何キロですか?」Baichuan2-53B は、ステップバイステップの計算を通じて正解を導き出しました。

推論の観点から、簡単な質問から始めましょう: 天気予報では今週の水曜日に雨が降ると言っていたのですが、昨日も雨が降りました。今日は何曜日ですか?

Baichuan2-53B は難なく「木曜日」を思いつきました。

次に、推論は少し難しくなります。無限の水が入った池があると仮定します。

それぞれ5リットルと6リットルの容量の空のやかんが2つあります。この2つのやかんだけでどうやって池から3リットルの水を汲むことができるのでしょうか?

Baichuan2-53B はスムーズに解答を開始し、6 ステップ以内に正解しました。

何度もテストを行った結果、アップグレードされた Baichuan2-53B の数学的および論理的推論能力は、同じモデルのものとは実際に異なることがわかりました。以前はあまり得意ではなかったトピックが大幅に改善されました。

適時性の問題

適時性の点では、Baichuan2-53B のパフォーマンスは優れています。

杭州アジア競技大会は開幕したばかりで、最年少選手はまだ9歳だ。 Baichuan2-53B も最新の問題に正解しました。

Baichuan2-53B は、テスラが発表したばかりの人型ロボット、オプティマスの背後にあるニューラル ネットワークの原理も正確に説明しました。

別の例として、今年 9 月初旬にイタリアで第 80 回ヴェネツィア映画祭が閉幕しました。

この映画祭で中国の映画や俳優が受賞していますか?

Baichuan2-53B は、李紅旗の「Love is a Gun」が最優秀初長編作品を受賞し、トニー・レオンが生涯功労金獅子賞を受賞したと即答しました。

ボス・メイはパリとの契約が今年6月末で満了となり、7月にインテル・マイアミに正式加入した。

Baichuan2-53B もこのことをよく知っています。

同様に、ドルイドが 2023 年の今回を含め、合計 24 回のグランドスラムで優勝したことも正確に伝えることができます。

APIをオープンし、正式に商用利用を開始

それだけでなく、今回 Baichuan2-53B は API インターフェイスも正式にオープンし、企業や開発者がモデルを独自のアプリケーションやサービスに統合できるようになりました。

APIアドレス:

このサービスにしきい値はありますか?

ほぼ皆無と言ってもいいでしょう。 Baichuan2-53B の API インターフェイスは非常に便利で使いやすく、簡単な設定と統合だけでアクセスできます。

さらに、OpenAI のインターフェイスとの互換性が高いため、顧客は迅速に移行でき、モデルの導入コストと変換コストの両方を大幅に削減できます。

つまり、インテリジェントな顧客サービス、インテリジェントなライティング、インテリジェントなレコメンデーションなど、すべてを大規模モデルの機能でサポートできるようになりました。

企業ユーザーが最も懸念しているのは、セキュリティ コンプライアンスの問題です。

心配する必要はありません。

Baichuan Intelligent は、「生成型人工知能サービス管理の暫定措置」に合格した最初の大規模モデル企業の 1 つとして、大規模モデルの事前トレーニング、詳細なトレーニングの全サイクルをカバーする Baichuan2-53B のセキュリティ強化機能を作成しました。チューニング、推論などのプロセス全体がセキュリティ下にあると言えます。

Baichuan2-53B の豊富で強力なモデル機能により、企業ユーザーは既存のサービスをアップグレードしてコストを削減できるだけでなく、より多くのアプリケーション シナリオを検討することもできます。

現時点ですでに土壌の中で印象的なイノベーションの大きな波が起きていると考えられています。

参考文献:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)