SenseTimeの大型モデルレイアウトに佇む「Consultation 2.0」の進化

2023-07-10 08:05:29

私たちは AI の新しいインフラの大規模な波を経験しています。

半年以内に、小規模なコンセンサスから大規模なモデルが急速に広がりました。 CITICが発表した報告書によると、これまでにリリースされたパラメータモデルの数が10億を超える大規模モデルの数は80近くに達し、そのうちの半分は企業から、半分は科学研究機関からのものである。

国内の大規模モデルエコロジーが徐々に形成される過程で、OpenAIの追求を放棄し、徐々に独自の道を見つけ始めています。大規模モデルの成功を測る基準も、硬い橋や硬い馬のパラメータ競争から実際の問題解決へと変わりました。

センスタイムは、今年4月に「SenseNova」の大規模モデルシステムを初めて発表し、自社開発の中国語大規模言語モデル「SenseChat」をはじめ、多数の大規模AIモデルやアプリケーションをリリースした。最近の世界人工知能会議で、SenseTime は「Daily New SenseNova Large Model」システムの最初の主要なイテレーションを発表しました。大型言語モデル「ネゴシエーション」がバージョン 2.0 にアップグレードされました。

より強いです。 SenseTime 大規模モデルレイアウトシステム全体において、その役割はますます明らかになってきています。

さらに強化された「交渉 2.0」

「コンサルテーション2.0」の能力向上をビジュアルにどう反映するか？ SenseTime の会長兼 CEO である Xu Li 氏は、老子と孔子の間に存在しない対話を実演しました。

「相談2.0」の答えは「道」を中心に展開します。孔子は老子に尋ねましたが、老子は悟りを開きましたが、孔子に話すことができず、ただ立ち去ってしまいました。このシーンで行われる会話はスムーズで流れるようなものです。「ディスカッション 2.0」では、テキストにジョークも追加されました。

孔子は「先生の名前は聞いたことがありますが、今日お会いできて大変光栄です！」と言いました。

老子は笑いながらこう言いました。「いいえ、私はあなたと同じ道を歩いています。どうして『三生』があるのですか？」

そして質問によると、会話全体は古典的な中国語で表示されます。そして混乱を避けるため、「協議2.0」では回答の最初の一文に「これは単なるフィクションであり、歴史の真実の記録とみなされるべきではない」という前提も述べられている。

「Consultation 1.0」が最初に開始されたとき、オンサイトのデモンストレーションでは、その優れたマルチラウンド対話と人間と機械の共創能力が実証されました。 3ヵ月を経た「コンサルテーション2.0」では、知識情報の精度、論理的判断力、文脈理解力、創造性がさらに向上しました。

たとえば、「Consultation 2.0」を使用して旅行の計画を立て、表を作成するように指示します。

あるいは、「ガールフレンドは正しい」ということをテストしてみましょう。

「ディスカッション 2.0」では、ガールフレンドのことを理解できるだけでなく、ちょっとした皮肉や陰と陽のトーンも読み取ることができます。

実際、過去 3 か月間で「Consultation 2.0」に何が起こったのかは、いくつかの試験の結果を見てみるとわかります。世界的に権威のある3つの大型言語モデル評価ベンチマーク(MMLU、AGI、C-)の評価結果において、「Consultation 2.0」のパフォーマンスはChatGPTを上回りました。

また、老子と孔子の対話デモ写真でお気づきの方もいるかもしれませんが、「商尚2.0」にはXL版とS版の分割画面デモがあり、お客様向けにパラメータやサイズの異なる大型モデルが多数用意されております。パラメータが最小のモデルバージョンを選択すると、モバイル端末でも実行できます。

言語面では、「Consultation 2.0」ではアラビア語や広東語などの新たな言語が追加されました。簡体字中国語、繁体字中国語、英語およびその他の言語間の対話をサポートします。また、「Consultation 2.0」の超長文のサポートも 2k から 32k に増加し、文脈をより深く理解できるようになりました。

SenseTime のような ToB 指向の大規模モデルメーカーにとって、大規模モデル自体の品質は出発点にすぎません。企業顧客は、自社のニーズに基づいて大規模モデルの具体的な概要をどのように定義すればよいでしょうか。後者は、安定した反復プロセスを達成し、段階的にアプローチできるでしょうか? 本当の問題点は、勝者が決まる場所です。

オープンナレッジベースの融合機能

SenseTime が超理解力、対話力、推論力などの能力を備えた「コンサルテーション 2.0」を訓練した後、企業顧客は蓄積された企業知識を活用して、ビッグモデルを自社に役立つ「プロフェッショナルな人材」に変えることもできます。

こうしたエンジニアリング上の問題をいかに効率的に解決するかが非常に重要です。

SenseTime が発表した「Consultation 2.0」には、ナレッジベース統合インターフェイスが追加されており、企業は基本的な大規模モデルの反復的なアップグレードを待たずに、専門的な知識と能力を迅速に取得できるようになりました。ナレッジベースが統合されると、モデルのナレッジ更新および理解能力が強化され、ナレッジの迅速な理解と取得が強化されると同時に、顧客トレーニングモデルのコストが大幅に削減されます。

SenseTime の共同創設者兼主任研究員である Wang Xiaogang 氏は、「ナレッジベースを使用すると、モデル自体に入力することなく、この分野の対応する知識を要約するのが比較的簡単で便利です」と述べ、情報がより正確であるため、幻覚の問題も解決しました。

生産性向上ツールとしてのデジタルヒューマン

「Consultation 2.0」の包括的なアップグレードと同時に、「SenseNova Large Model」システムの AIGC プラットフォームの機能は常に進歩しており、言語ラージモデル機能の統合後、飛躍的な改善が達成されました。

例えば、前述の文生図作成プラットフォーム「Miaohua」は今回バージョン3.0にアップグレードされ、モデルパラメータは70億のオーダーに増加し、生成される写真の詳細はプロの写真のレベルに達しました。プロンプトワードの問題に関しては、「Discussion 2.0」では「Miahua 3.0」にプロンプトワードを自動的に展開する機能が提供されています。これは、ユーザーがいくつかの簡単なプロンプトを入力するだけで、詳細な画像結果を得ることができることを意味します。

デジタルヒューマン分野では、SenseTime社のデジタルヒューマン動画生成プラットフォーム「Ruying」もバージョン2.0にアップグレードされ、「Ruying 2.0」の音声と口の流暢性は30％以上向上し、4K動画も実現できるようになりました。。記者会見では、経済学者のレン・ゼピン氏、ヤンカン老師、シュー・リー氏のデジタル・ヒューマン・イメージが登場したが、その効果は十分に現実的だった。

大型模型の着陸シーンにおいてデジタルヒューマンは非常に重要な搬送手段であり、最近大人気のデジタルヒューマンのライブストリーミングはその代表的なシーンです。短いビデオを含むライブストリーミングは、「Ruying 2.0」の 3 か月にわたる社内および公開テスト中に顧客が最も注目するシーンの 1 つでもあります。

センスタイムのデジタルエンターテインメント部門のゼネラルマネージャー、ルアン・チン氏は、AIGCの枠組みの中で、「ディスカッション2.0」は短いビデオのライブブロードキャストのコピーライティングと台本作成を引き受けることができると述べた。そして、「Ronin 2.0」がコミュニケーションのトレンドにどのように対応できるかは、最新の短いビデオコーパスを学習する「Consultation 2.0」の大規模言語モデル能力にもかかっています。

ショートビデオやライブブロードキャストシーンに加えて、「Ronin 2.0」はあらゆる分野への参入を加速しています。

たとえば、保険業界では、すべての保険専門家が顧客向けに新商品やその他のパーソナライズされたサービス指向のコンテンツを宣伝する必要があるため、「Ruying 2.0」は顧客の誕生日や特定の資産管理商品の発売時に保険専門家の代わりを務めることができます。パーソナライズされたコンテンツとサービス: 教育業界では、「Roning 2.0」が、国内トップクラスの職業教育プラットフォームの教師がビデオ制作の社内ニーズを満たす教材を制作するのを支援し始めています。

「デジタルヒューマンは企業内の典型的な効率化ツールです。」と Luan Qing 氏は言います。

AIGC 制作プラットフォームとして、Ronin は今後もビデオ生成の分野で深化していきますが、それはコンテンツ制作がテキスト、写真からビデオへと次元の変化を遂げているからだと Luan Qing 氏は考えています。

マルチモーダルに向けて

現実世界では言語情報をはるかに上回る画像や映像情報が大きな割合を占めるため、現実世界を理解する必要性から、基礎的な大規模モデルの将来は初めて見られるマルチモダリティへと移行することになる「コンサルテーション2.0」の手がかりを通して。

「Consultation 2.0」はテキストに加えて、写真やビデオコンテンツを分析する機能を備えています。

例えば、上図に示すように、「コンサルテーション 2.0」では、散らかった机上の写真から特定の物体を特定し、それぞれの物体の特徴を組み合わせて「暑いときはどうしますか?」という質問に答えることができます。これはプロセス設計に近いものです。自由に質問したり、メニューの写真を見た後、ユーザーが限られた価格範囲内でアラカルトのオプションを提供できるようにサポートします。

SenseTime は、当初コンピュータービジョンの研究から AI 分野に参入し、AI の波を乗り越えましたが、この大型モデルの波が本当のチャンスになると確信しています。

現在の大規模モデルの研究は、変圧器ネットワークアーキテクチャに基づいています。「SenseTimeは2019年から大規模なモデル研究に取り組んでいます。当時は、それがビジョンを行うためのルートでした。」SenseTimeの共同創設者兼主任研究員であるWang Xiaogang氏によると、一部の視覚標準と自然言語標準は徐々に確立されています。「私たちがマルチモーダルな方向に発展すると、言語と視覚がより深く統合され始めます。これは、この分野での比較的強力な蓄積と能力を反映しています。」

自動運転やロボット工学などの一連の分野など、私たちが実生活で遭遇する多くの応用シナリオは、マルチモダリティに適用する必要があります。「しかし、マルチモーダルデータや一部のタスクは入手が容易ではないことが多く、業界での深い蓄積が必要です。これはSenseTimeの利点でもあります。」とWang Xiaogang氏は紹介しました。

今年の世界人工知能会議で初めて公開されてから 3 か月後、SenseTime の「Daily New SenseNova Large Model」システムは完全にアップグレードされ、企業ユーザーに公開されました。同時に、Shangtangが上海人工知能研究所と協力してマルチモーダルな大規模な学者モデルもリリースしていることに多くの人は気づいていません。今後、センスタイムがマルチモーダル道路の鍵を先導できるかが注目される。

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.