センスタイムは、今年4月に「SenseNova」の大規模モデルシステムを初めて発表し、自社開発の中国語大規模言語モデル「SenseChat」をはじめ、多数の大規模AIモデルやアプリケーションをリリースした。最近の世界人工知能会議で、SenseTime は「Daily New SenseNova Large Model」システムの最初の主要なイテレーションを発表しました。大型言語モデル「ネゴシエーション」がバージョン 2.0 にアップグレードされました。
今年の世界人工知能会議で初めて公開されてから 3 か月後、SenseTime の「Daily New SenseNova Large Model」システムは完全にアップグレードされ、企業ユーザーに公開されました。同時に、Shangtangが上海人工知能研究所と協力してマルチモーダルな大規模な学者モデルもリリースしていることに多くの人は気づいていません。今後、センスタイムがマルチモーダル道路の鍵を先導できるかが注目される。
原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
SenseTimeの大型モデルレイアウトに佇む「Consultation 2.0」の進化
私たちは AI の新しいインフラの大規模な波を経験しています。
半年以内に、小規模なコンセンサスから大規模なモデルが急速に広がりました。 CITICが発表した報告書によると、これまでにリリースされたパラメータモデルの数が10億を超える大規模モデルの数は80近くに達し、そのうちの半分は企業から、半分は科学研究機関からのものである。
国内の大規模モデルエコロジーが徐々に形成される過程で、OpenAIの追求を放棄し、徐々に独自の道を見つけ始めています。大規模モデルの成功を測る基準も、硬い橋や硬い馬のパラメータ競争から実際の問題解決へと変わりました。
センスタイムは、今年4月に「SenseNova」の大規模モデルシステムを初めて発表し、自社開発の中国語大規模言語モデル「SenseChat」をはじめ、多数の大規模AIモデルやアプリケーションをリリースした。最近の世界人工知能会議で、SenseTime は「Daily New SenseNova Large Model」システムの最初の主要なイテレーションを発表しました。大型言語モデル「ネゴシエーション」がバージョン 2.0 にアップグレードされました。
より強いです。 SenseTime 大規模モデル レイアウト システム全体において、その役割はますます明らかになってきています。
さらに強化された「交渉 2.0」
「コンサルテーション2.0」の能力向上をビジュアルにどう反映するか? SenseTime の会長兼 CEO である Xu Li 氏は、老子と孔子の間に存在しない対話を実演しました。
孔子は「先生の名前は聞いたことがありますが、今日お会いできて大変光栄です!」と言いました。
老子は笑いながらこう言いました。「いいえ、私はあなたと同じ道を歩いています。どうして『三生』があるのですか?」
そして質問によると、会話全体は古典的な中国語で表示されます。そして混乱を避けるため、「協議2.0」では回答の最初の一文に「これは単なるフィクションであり、歴史の真実の記録とみなされるべきではない」という前提も述べられている。
「Consultation 1.0」が最初に開始されたとき、オンサイトのデモンストレーションでは、その優れたマルチラウンド対話と人間と機械の共創能力が実証されました。 3ヵ月を経た「コンサルテーション2.0」では、知識情報の精度、論理的判断力、文脈理解力、創造性がさらに向上しました。
たとえば、「Consultation 2.0」を使用して旅行の計画を立て、表を作成するように指示します。
言語面では、「Consultation 2.0」ではアラビア語や広東語などの新たな言語が追加されました。簡体字中国語、繁体字中国語、英語およびその他の言語間の対話をサポートします。また、「Consultation 2.0」の超長文のサポートも 2k から 32k に増加し、文脈をより深く理解できるようになりました。
SenseTime のような ToB 指向の大規模モデル メーカーにとって、大規模モデル自体の品質は出発点にすぎません。企業顧客は、自社のニーズに基づいて大規模モデルの具体的な概要をどのように定義すればよいでしょうか。後者は、安定した反復プロセスを達成し、段階的にアプローチできるでしょうか? 本当の問題点は、勝者が決まる場所です。
オープンナレッジベースの融合機能
SenseTime が超理解力、対話力、推論力などの能力を備えた「コンサルテーション 2.0」を訓練した後、企業顧客は蓄積された企業知識を活用して、ビッグモデルを自社に役立つ「プロフェッショナルな人材」に変えることもできます。
こうしたエンジニアリング上の問題をいかに効率的に解決するかが非常に重要です。
SenseTime の共同創設者兼主任研究員である Wang Xiaogang 氏は、「ナレッジ ベースを使用すると、モデル自体に入力することなく、この分野の対応する知識を要約するのが比較的簡単で便利です」と述べ、情報がより正確であるため、幻覚の問題も解決しました。
生産性向上ツールとしてのデジタル ヒューマン
「Consultation 2.0」の包括的なアップグレードと同時に、「SenseNova Large Model」システムの AIGC プラットフォームの機能は常に進歩しており、言語ラージ モデル機能の統合後、飛躍的な改善が達成されました。
例えば、前述の文生図作成プラットフォーム「Miaohua」は今回バージョン3.0にアップグレードされ、モデルパラメータは70億のオーダーに増加し、生成される写真の詳細はプロの写真のレベルに達しました。プロンプトワードの問題に関しては、「Discussion 2.0」では「Miahua 3.0」にプロンプトワードを自動的に展開する機能が提供されています。これは、ユーザーがいくつかの簡単なプロンプトを入力するだけで、詳細な画像結果を得ることができることを意味します。
デジタルヒューマン分野では、SenseTime社のデジタルヒューマン動画生成プラットフォーム「Ruying」もバージョン2.0にアップグレードされ、「Ruying 2.0」の音声と口の流暢性は30%以上向上し、4K動画も実現できるようになりました。 。記者会見では、経済学者のレン・ゼピン氏、ヤンカン老師、シュー・リー氏のデジタル・ヒューマン・イメージが登場したが、その効果は十分に現実的だった。
大型模型の着陸シーンにおいてデジタルヒューマンは非常に重要な搬送手段であり、最近大人気のデジタルヒューマンのライブストリーミングはその代表的なシーンです。短いビデオを含むライブ ストリーミングは、「Ruying 2.0」の 3 か月にわたる社内および公開テスト中に顧客が最も注目するシーンの 1 つでもあります。
センスタイムのデジタルエンターテインメント部門のゼネラルマネージャー、ルアン・チン氏は、AIGCの枠組みの中で、「ディスカッション2.0」は短いビデオのライブブロードキャストのコピーライティングと台本作成を引き受けることができると述べた。そして、「Ronin 2.0」がコミュニケーションのトレンドにどのように対応できるかは、最新の短いビデオコーパスを学習する「Consultation 2.0」の大規模言語モデル能力にもかかっています。
ショートビデオやライブブロードキャストシーンに加えて、「Ronin 2.0」はあらゆる分野への参入を加速しています。
たとえば、保険業界では、すべての保険専門家が顧客向けに新商品やその他のパーソナライズされたサービス指向のコンテンツを宣伝する必要があるため、「Ruying 2.0」は顧客の誕生日や特定の資産管理商品の発売時に保険専門家の代わりを務めることができます。パーソナライズされたコンテンツとサービス: 教育業界では、「Roning 2.0」が、国内トップクラスの職業教育プラットフォームの教師がビデオ制作の社内ニーズを満たす教材を制作するのを支援し始めています。
「デジタル ヒューマンは企業内の典型的な効率化ツールです。」と Luan Qing 氏は言います。
AIGC 制作プラットフォームとして、Ronin は今後もビデオ生成の分野で深化していきますが、それはコンテンツ制作がテキスト、写真からビデオへと次元の変化を遂げているからだと Luan Qing 氏は考えています。
マルチモーダルに向けて
現実世界では言語情報をはるかに上回る画像や映像情報が大きな割合を占めるため、現実世界を理解する必要性から、基礎的な大規模モデルの将来は初めて見られるマルチモダリティへと移行することになる「コンサルテーション2.0」の手がかりを通して。
「Consultation 2.0」はテキストに加えて、写真やビデオコンテンツを分析する機能を備えています。
現在の大規模モデルの研究は、変圧器ネットワーク アーキテクチャに基づいています。 「SenseTimeは2019年から大規模なモデル研究に取り組んでいます。当時は、それがビジョンを行うためのルートでした。」SenseTimeの共同創設者兼主任研究員であるWang Xiaogang氏によると、一部の視覚標準と自然言語標準は徐々に確立されています。 「私たちがマルチモーダルな方向に発展すると、言語と視覚がより深く統合され始めます。これは、この分野での比較的強力な蓄積と能力を反映しています。」
自動運転やロボット工学などの一連の分野など、私たちが実生活で遭遇する多くの応用シナリオは、マルチモダリティに適用する必要があります。 「しかし、マルチモーダルデータや一部のタスクは入手が容易ではないことが多く、業界での深い蓄積が必要です。これはSenseTimeの利点でもあります。」とWang Xiaogang氏は紹介しました。
今年の世界人工知能会議で初めて公開されてから 3 か月後、SenseTime の「Daily New SenseNova Large Model」システムは完全にアップグレードされ、企業ユーザーに公開されました。同時に、Shangtangが上海人工知能研究所と協力してマルチモーダルな大規模な学者モデルもリリースしていることに多くの人は気づいていません。今後、センスタイムがマルチモーダル道路の鍵を先導できるかが注目される。