ファーストハンド | Kuaishou が自社開発した文生図大型モデル「Ketu」が登場、近い将来に内部テストを開始

出典: GenAI New World

著者|李和子

画像ソース: Unbounded AI によって生成‌

今年下半期以来、快手は大型モデル事業を頻繁に展開している。

GenAI New World は、AIGC 分野における Kuaishou の最新の進歩、つまり自社開発のヴィンセント グラフ モデル「Kolors」が内部テストのために社内で完全に開始されたことを直接知りました。

先月の大規模言語モデル「KwaiYii」のリリースに続き、Kuaishou は 1 か月も経たないうちに大規模な文生グラフ モデル「Kolors」を立ち上げ、「その後、「Vincent Pictures」のテリトリーが追加されました。

GenAI New Worldは、Ketuプロジェクトチームの研究開発メンバーから、「Ketu」Wenshengtu大型モデルには強力なテキスト理解、詳細な詳細特徴付け、および多様なスタイル変換という3つの優れた特徴があることを学びました。

「Ketu」大型モデル内部プラットフォームのテスト版のホームページのレイアウトから、すでに成熟した製品プロトタイプが完成していることがわかります。

「Ketu」大型モデル内部プラットフォームβ版ホームページ

「Ketu」大型モデルはまだ外部テストを開始していませんが、2日前にKuaishou Appが開始した「AIゲームレビュー」機能からその具体的なパフォーマンスを垣間見ることができます。

「AI Game Review」は、「Ketu」Wenshengtu 大型モデルによる技術サポートを受けて、9 月 15 日に Kuaishou のメインサイトで内部テストを開始しました。

これも純粋にショートビデオ作成者向けの別の Wenshengtu ツールであり、ビデオ編集のバックエンドに表示されるのではないかと考えていたとき、Kuaishou は驚くべきことに「AI Play Review」機能をコメント エリアに追加しました。

言い換えれば、将来特定の短いビデオにコメントするときに、適切な画像/絵文字パッケージを苦労して見つける必要がなくなり、Kuaishou が直接生成できるようになります。

「AIゲームレビュー」が開始されたその日、Kuaishouの公式コメントエリアには、テストの資格を獲得したユーザーがすでに「願いのような」メッセージを残し始めていました。

GenAI New World も初めて社内テストの資格を取得しました。

まず、Kuaishou アプリで任意のビデオのコメント領域を開き、コメント入力ボックスの右側にある「AI」ボタンを見つけて、「AI Play Review」機能インターフェイスに簡単に入ることができます。

画像生成の前提条件として6単語以上のテキストを入力する必要があり、入力後は右側のAIアイコンが自動的に点灯し、生成を開始できることを知らせます。

まず、「太陽の光が当たるビーチで遊ぶ子供」など、より一般的な説明を試して、それが理解できるかどうかを確認します。

数秒後、AIが生成した一連の画像が下に表示され、それぞれの画像には新海誠、ピクセルアート、リアルなアニメーション、中国風、サイバーパンク、ピクサーなど、異なるスタイルがマークされているとのこと。十数種類。。生成された画像セットに満足できない場合は、右上隅の「変更」をクリックして新しいセットを生成することもできます。

生成された画像から判断すると、非常によく理解できます。

さらにいくつかの古代中国の詩を入力すると、実際にそれらを理解します。

葉や花びらの微妙な質感や、はっきりとした雄しべなど、写真の細部から判断すると、うまく処理されているものは稀です(葉の周囲の枯れた縁も写っています)。

Kuaishou AI研究チームは、ノイズ除去アルゴリズムの基礎となる式とノイズ加算式を変更すると同時に、後の段階で集中的な学習を行うために、詳細度が高く美観性の高い高品質データのバッチを選択したと言われていますモデル学習のこと。生成される画像の詳細と質感をより豊かにすることができますが、これはこれに関連しているに違いありません。

中国語の文脈で特定の意味を持つフレーズをいくつか入力してみましょう。

悪くない、少なくとも魚風味の細切り豚は魚と肉として描かれておらず、画面越しに麻婆豆腐のスパイシーな香りがすることができます(刻みネギも添えられています)。

さらに、ガン ファンの人が何であるかを理解することもできます (「ガン ファン」はもともと南西部の北京語の方言です)。

「ケートゥ」大型モデルにおける中国語表現の理解は、当初から考慮されていたといえる。

Kuaishou の研究開発担当者によると、Kuaishou AI には、オープンソース コミュニティと自社開発の AI テクノロジーから合成された数十億の画像とテキストのトレーニング データがあり、3,000 万の一般的な中国の実体の概念をカバーしています。このトレーニングと開発に基づいて、強力な中華CLIPモデル。

CLIP のグラフィックおよびテキスト機能と組み合わせた自社開発の中国語 LLM は、ヴィンセント グラフのテキスト理解モジュールとして使用され、「グラフ化可能な」大規模モデルが中国語の特徴的な概念をよりよく理解し、ヴィンセント グラフの分野でよくある問題を軽減できるようにします。複雑な概念や属性の混乱など。

ただし、「AI ゲームレビュー」機能はコメント領域に配置されているため、コメント シナリオでのパフォーマンスにも注目する必要があります。

話題のトピックに乗じて、「電車の切符が取れなくてとてもイライラしている」という気分の説明を入力しましたが、「AI Game Review」では、この感情をより適切に反映できるいくつかの興味深い画像が生成されました。

そして、「理解できませんが、ショックを受けました」という古典的な表現を入力したところ、生成されたスティックフィギュア スタイルと新海誠のスタイルが最も適切であることがわかりました (最も人気のある生成スタイルは予定されていますか?)。

全体的な経験を経ても、「AI ゲーム レビュー」は依然として注目に値しますが、もちろん、AI が適切かつ比較的一般的な説明を促すことができるという前提があります。そして、コメントするときに気分や口語表現を自由に表現するネチズンの一般的な特徴を考慮に入れると、この機能はまだ多くの研究の余地があります。

「AI ゲームレビュー」機能からは、実際に Kuaishou 氏の大きなモデルの適用に関する考え、つまり「着地」に重点を置いていることがわかります。

汎用の大型モデル製品の構築に注力していた初期の多くの企業とは異なり、Kuaishou のようなショート ビデオ コンテンツ コミュニティは、大型モデル製品の機能開発におけるコミュニティとの統合にもっと注意を払い、ユーザーが実際にそれらを使用できるかどうかに注意を払う必要があります。 。

「Ruyi」大型モデルに基づいて8月に開始された「AIダイアログ」機能と同様に、その一部は検索シナリオに基づいており、ユーザーはプラットフォーム上のコンテンツをより便利かつ正確に見つけることができます(回答には関連する回答も添付されます)動画、百科事典へのリンク)、ユーザーにサービスを提供するという考えは「AI ゲーム レビュー」にも拡張されます。

なぜ「Ketu」大型モデルが最初にKuaishouサイトのコメント欄に投稿されたのかについて、Kuaishouの公式回答はこうだ。

「Kuaishou アプリケーションの相互に関連するユーザー ペアの累計数は 311 億を超え、前年比で 50% 近く増加し、1 日の平均インタラクション (いいね!、コメント、転送などを含む) は合計 80 億回に達します。ユーザーの粘着力が強い短いビデオ コメント エリアは、AIGC 機能の最適なアプリケーション シナリオの 1 つになっています... (一致する画像を見つけるために時間とエネルギーを費やす) は、ユーザーのコメント投稿意欲を大幅に妨げています。AI レビューにより、ユーザーの投稿意欲は大幅に向上します。コメントへの参加に対する熱意と熱意。満足。」

もちろん、「絵に描いたような」大型モデルが製品化された今、Kuaishou はその背後にさらに大きな野心を秘めているかもしれません。

今年5月の第1四半期決算電話会議で、KuaishouのCEOであるチェン・イーシャオ氏は初めて外部に、Kuaishouの大型モデル事業の進捗状況を明らかにした:AIGCの過去の技術に頼って大型モデルの研究開発チームが設立されたアルゴリズムや大規模言語モデルの大規模モデルの開発とトレーニングを計画的に蓄積し、推進します。

2 か月後の 7 月 8 日、Kuaishou は、大規模なモデル アプリケーションの立ち上げを開始する「検索インテリジェントな質問と回答製品」の社内テストを開始すると発表しました。

以下は、比較的集中的な製品および機能のリリースです。8 月 8 日には Kuaishou が「AI 会話」機能の内部テストを開始し、8 月 21 日には大型言語モデル「Ruyi」の内部テストが開始され、9 月 15 日にはメインのウェブサイトは「AI ゲームレビュー」機能の内部テストを開始し、今日まで「Ketu」Wenshengtu の大型モデルが表面化しました...

注目に値するのは、Kuaishouが今年8月10日にプラットフォームクリエイター向けに開催されたPhotosynthetic Creator Conferenceで初めて大型モデル事業の進捗状況を公式かつ詳細に紹介したことだ。

Kuaishouは今回のカンファレンスで、これまで外部にほとんど公開されてこなかった同社の大型モデル事業に関する数多くの開発を発表した。これには、テキスト、画像、ビデオ、さらには 3D 素材や音楽オーディオの生成のためのさまざまな機能が含まれており、クリエイティブな刺激、素材のマイニング、ビデオ作成の編集と制作のあらゆる側面をカバーしており、ライブブロードキャストシーンにも焦点を当てており、ユーザー独自のコンテンツを迅速に作成できます。ツインデジタルヒューマンソリューション「Kuaishou Zhibo」。

年次カンファレンスそのものでさえ、ポスターやゲストの出演を含めて、AIGC 要素で満たされることはほとんどありません。

独自の大型モデルをゼロから開発することを選択した Kuaishou は、知らず知らずのうちに多くのことを蓄積し、「フルモード大型モデル AIGC ソリューション」と呼ぶものをゆっくりと構築してきました。

したがって、クアイショウは今回、「調整可能な」大型モデルの投入に関して、十分な準備ができていると言える。

今年は国内の大手企業が自社の大型モデル製品を投入し始めていますが、コンテンツ企業に関して言えば、まだ本当に素晴らしい製品が見つかっていないように思えます。 、コンテンツ企業にとってさらに新しい遊び方が模索されることになるでしょう、それを考えるのは非常にエキサイティングです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)