A: アルゴリズム、そしてその背後にいる人々。読むべき論文があまりないので、私たちは多くの基本的なアルゴリズムを自分たちで研究しています。最も重要な課題は、優れたチームを形成することです**。なぜなら、市場には AI を研究している人がたくさんいますが、情報理論を研究している人はそれほど多くなく、両方を同時に勉強している人はほぼゼロだからです。そのため、チームを組んで訓練する必要がありますが、お互いにあまり関係がないため、時間がかかります**。したがって、まずグループを育成し、そのグループが下の人々を率いる必要があります。これがピラミッド構造です。
Q: このピラミッドはもう建てましたか?
A: 当社には AI 研究のスーパースターが 30 人以上います。しかし、私たちはこれに長い長い時間を費やしました。
Q: では、あなたと一緒にここにいるのは世界で 30 人だけということですね。
A: そう思います。これらのトピックを研究しているラボもいくつかあり、優秀な人材がいますが、規模の点でこの分野では断然 Deep Render が最大の組織です。
「インターネットは滅びる、そしてそれを救えるのは私たちだけだ」
出典: シリコンスターピープル
**新興企業がインターネットを救うという話を聞いてからどれくらい経ちますか? **
今日の起業家たちは、黙って金儲けをしているか、AI を使って全人類を救う (または破壊する) ことについて議論しているようです。私たちが毎日暮らすインターネットでは、彼の生死など誰も気にしていないようです。
そしてクリスにとって、それは死にそうなようでした。
サンノゼの明るい日差しの中で彼が私にこの言葉を言ったのを聞いたとき、それは少しセンセーショナルに思えました。しかし、このライオンのような髪のドイツ人と一緒に長くいると、彼の論理的でドイツ風の英語は、これは確かに大きな問題だと思わせるでしょう。
Deep Render の共同創設者兼 CEO である Chris Besenbruch 氏は、簡単に言えば、彼の会社が行っていることは「AI を使用してビデオ ファイルのサイズを非常に小さいサイズに圧縮する」ことです。
同氏は、このアルゴリズムは業界標準のコーデックである HVEC よりも最大 5 倍「優れている」と主張しているが、どのような指標でなのかは明らかにしていないほか、クアルコム、アップル、エヌビディアの最新チップセットでリアルタイムに実行できるとしている。 「コーデック」とは、通常はオーディオ データまたはビデオ データのデータをエンコードおよびデコードできるソフトウェア、場合によってはハードウェアを指します。
シリコンバレーに詳しい人の中には、これを聞くと、私が「シリコンバレー」の台本を再話しているのではないかと混乱する人もいるかもしれませんが、シリコンバレーの起業家エコシステムを完璧に表現していると言われるこのアメリカのドラマでは、この茶番劇は、主人公が驚くべき圧縮アルゴリズムを開発したからです。
「はい、多くの人が私にこう言いました。確かに私たちは笛吹き男によく似ています。」 この複雑な背景を持ったこの人は、ドイツで育ち、学部で数学を学び、スイスの美術学校で学び、その後、大学に進学しました。 「シリコンバレー」の主人公リチャードもオタクな雰囲気が強いが、テレビシリーズのとんでもない圧縮アルゴリズムの突破過程や、テレビシリーズのビジネス常識の欠如とは異なり、リチャードはコンピューターサイエンスを学ぶために英国に留学した。彼の起業家精神は数学の問題を解くのと同じくらい厳密で、会社に対して非常に真剣であり、ビジネスモデルも明確に考えられています。
彼の意見では、インターネットは破滅に向かっており、それが最大の問題だという。彼はこの最大の問題を解決したいと考えていましたが、分析の結果、根本的な原因は古いテクノロジーが新しい世界に適応していないことにあると考えられました。
※動画が普及し、インターネット上のコミュニケーションの主流になってから、実は私たちは新しい世界に入りました。データの規模がますます恐ろしくなり、もう後戻りできない世界。 *
*古いテクノロジーは、もはやこの新しい世界には適していません。同じ古い道に沿って小さな革新や改善を続けても、行き詰まり、最終的にはインターネットの崩壊につながるだけです。 *
「私たちは新しい圧縮アルゴリズムを発明することでインターネットを救おうとしています。そしてこれを可能にするのが AI です。」
これらの方針に沿って、Chris は英国の大学院生仲間とともに 2018 年に Deep Render を設立しました。彼は ChatGPT の波を追いかけているスタートアップの 1 人ではありませんでした。
「基本的に、私たちはLLMとはほとんど関係がありません。それは普及モデルに関連しているかもしれませんが、それはむしろ将来の潜在的な可能性に関するものです。」と彼は私に言いました。 「私たちは第一原理からスタートし、AI が何に適しているのか、圧縮の本質を理解したいと考えました。最終的には、AI に完全に依存する方法が新しい技術的ルートに違いないと考えました。」
しかし、LLM の「落ち着きのなさ」は実際に会社を助けました。 「当時、私たちは実際にギャンブルをしていました。なぜなら、私たちの目標を達成するには、私自身のアルゴリズムに加えて、ソフトウェアとハードウェアの大幅な進歩も必要だったからです。当時私たちは、これらの基本技術がすべて飛躍的に発展する可能性があると仮定して予測を立てました。そして今日、このすべてが今起こったのです」と彼は興奮に満ちた口調で私に言った。
「もしかしたら、私たちはただ幸運なのかもしれません。」
**非常に謙虚に見えますが、彼が語らなかったのは、もし彼の予測が現実になれば、彼の会社は今後数十年で人類で最も重要なインターネット技術企業の一つになるかもしれないということです。 **同社の技術はライセンス形式で大手企業に提供され、インターネットの帯域問題を解決しながら公共料金や税金も徴収する企業となる。
実際、すべてが変わり始めています。
無視されていたこの企業が、今年に入ってからシリコンバレーや世界中の著名な投資機関のビジョンに参入し、3月に資金調達を完了したクリスは、金も人もいるシリコンバレーに焦点を移し始めた。それらに興味を持っている人、大口顧客。
同氏の声明によれば、現在の小規模チームは「名前は出せないが非常に重要な大企業」からの関心と需要に直面し、すでに圧倒されているという。
そして彼は、今すべてが順調に行けば、2024 年の第 2 四半期にはそのテクノロジーが非常に有名なアプリケーション サービスで使用されることになるだろうと私に明かしました。
「何千万ものユーザーがアクセスできるようになるでしょう。」
映像やデータ圧縮の需要が大きい中国市場も、中国に行ったことのないこのCEOの前にさまざまな形で現れ始めている。
同氏は「われわれには中国と強いつながりを持つ投資家の友人が多く、一部の中国企業がわれわれに連絡するよう支援してくれている。われわれはすでに中国最大手のインターネット企業数社と連絡をとっている」と述べた。これらの要求はあまりにも突然かつ暴力的だったので、彼は半日かけて私に「中国のインターネット企業と働くのはどのような感じですか?」という基本的な質問をしました。
「インターネットを救いたいなら、中国市場なしでは実現できないようです。」人生のほとんどをヨーロッパで過ごしたこのテクノロジー起業家に、東洋についての話をした後、私は半分冗談で彼にこう言った。可能。
「その通りです」と彼は笑顔で答えた。しかし、中国市場について考える前に、まずシリコンバレーを征服する必要があった。
アメリカのドラマ「シリコンバレー」の最後で、リチャードの会社は 6 年間の浮き沈みを経て 80 億米ドルと評価されましたが、製品が正式にリリースされる数日前に、圧縮アルゴリズムが異なっていたことが判明しました。ネットワークを改良したAIは互いに改良し合い、理解できないがあらゆるシステムを突破する「怪物」と化し、天秤にかけた末、彼らは最終的に「世界を救う」ことを決意する- 豪華な愚か者を使って皆を止めさせる このテクニカルなルートについては考えがあります。
これはスタートアップにとって良い結末ではありません。来年起業6年目になるクリスにこの話題を振ったところ、彼は少し考えたあと、にっこり笑ってこう言った。
「私たちの結末がより良いものになることを願っています。」
以下は会話の記録です
Q: 自己紹介と会社について簡単に紹介してください。
A: もちろんです。私は Chris Besenbruch、Deep Render の CEO 兼共同創設者です。 Deep Render が行っていることは、基本的にビデオ ファイルなどのサイズを非常に小さいサイズに圧縮することです。なぜこれを行う必要があるかというと、インターネット上のデータは急激に増加しており、データの 90% は過去 2 年間に生成されたものだからです。彼らは世界中の光ファイバー ネットワークを経由する必要がありますが、この規模では非常に高価なインフラストラクチャとなります。世界の光ファイバーインフラ全体の費用は 5 兆ドルです。データが 2 年ごとに 2 倍になるとしたら、それはインフラストラクチャにとって何を意味するのか、データも 2 倍にする必要があるため、これは快適ではありません。しかし、これは兆レベルの倍増です。不可能だよ。これが私がこれを行う理由です。
Q: まず、今日のインターネットが直面している中心的な問題の 1 つを推定し、その解決策を見つけ出し、それを起業家の方向性を決定するために使用したのですね。
A: はい、その通りです。なぜなら、より優れた圧縮方法がなければ、インターネット全体がすぐに崩壊してしまうからです。私はインターネットが大好きなので、これからも続けていきたいと思っています。
Q: では、御社のテクノロジーの違いは何でしょうか。圧縮は新しいものではなく、古くから存在しており、人々はそれに慣れてしまって、その存在を忘れていることさえあります。もしかしたら、あなたのテクノロジーを愚か者でも理解できる言葉で説明できるかもしれません。
A: ははは、頑張ります。過去 60 年間の業界全体を見る必要があります。従来の圧縮技術が登場したとき、それは大きな進歩でした。すべては DCT* に基づいていました (DCT は離散コサイン変換の略で、画像をさまざまな要素で構成されるコンポーネントに分割します)。小さなブロックであり、量子化プロセス中に高周波成分が破棄され、残りの低周波成分が保存され、その後の画像再構成に使用されます。編集者注)*、今日のビデオ圧縮技術を可能にするこの方法は、1960 年に発明されました。 1970 年代から 1980 年代にかけて、それはその後業界を支配しました。 **しかし、それ以来、このテクノロジーは 10 年ごとに少しずつ改良されているだけで、常に同じ技術的なアイデアが続いています。同じアイデアを何百回も繰り返すだけでは、テクノロジーの効果が飛躍的に向上することは期待できません。 **これは素晴らしいテクノロジーですが、そのイノベーションサイクルは終了したか、終了しつつあります。
したがって、何か新しいものが必要です。そしてこの「新しい」とはAIです。 AIは画像や動画を非常にうまく扱えるので、これは考えられない道ではありません。そこでAI技術と圧縮技術を組み合わせるようになりました。その後 2 つの波があり、最初の波は 2017 年に超解像度が登場し、Magic Pony が発明したときで、彼らのアイデアは従来の圧縮方式をパイプラインの途中に残し、その前後に AI を追加するというものでした。
**Deep Render は、これが正しいアプローチであるとは考えていません。なぜなら、そこに残っているのは完全に崩壊したと思われる従来の圧縮技術だからです。以前のものとあまり変わっておらず、まだほとんど役に立ちません。 **
私たちは第 2 の波であり、従来の圧縮技術を完全に放棄し、ニューラル ネットワークのみを使用しています。これは、圧縮の再発明を意味します。機械学習技術を中心とした圧縮の再発明が最も効果的です。ニューラル ネットワークはデータを取得してファイルを圧縮します。それをインターネットに送信すると、ネットワークは圧縮ファイルを受信してビデオを返します。これは AI のみのソリューションです。当社はその先頭に立ち、実際にそれを行っている唯一の企業です。
Q: 基本的には、従来のテクノロジーが担っていた部分を AI で置き換えているということですが、なぜ AI のほうがうまくできるのでしょうか?
A: 理由は 2 つあります。ビデオまたはビデオ圧縮は、基本的にファイル サイズと画質の間のトレードオフです。非常に大きなファイルと見栄えの良いビデオがあるか、非常に小さいファイルの解像度が粗末であるかのどちらかです。したがって、優れた圧縮には適切なトレードオフが関係します。 ファイル サイズに関しては、重要なのは冗長性です。次のピクセルが何であるかを予測できれば、冗長なデータを送信する必要がなく、ファイル サイズが節約されます。ここで AI がより適切な予測を行うことができます。予測が適切であれば、冗長性が削除され、受信できるデータが少なくなります。そして AI はデータに反応するため、根本的に強力です。
2つ目はビデオの品質についてです。どの圧縮アルゴリズムでもビデオ出力にエラーが発生します。これが非可逆圧縮の定義であり、ファイル サイズを小さくするために多少のエラーは許容されます。しかし、人間にとって本当に重要なのは、これらのエラーの分布です。 **つまり、私たちの AI は人間の視覚システムを模倣して、これらのエラーが人間から隠蔽されるようにします。 **
良い例として、人は線がぼやけることを嫌いますが、くっきりした線がぼやけると人は不快に感じるのは生物学的に決まっているためです。たとえば、トラが岩の後ろから動き始めたとき、私たちはそれが見える必要があり、それを見つめます。色の正確性は保証されておらず、損失があったとしても誰も気づきません。そのため、エッジをぼかすことなく、ある程度の色の精度を与えることができます。人々はこのビデオ品質を好みます。
私たちの考え方は、常に第一原理、何が合理的か、その背後にある数学的原理は何なのか、実際の問題を解決するためにどのツールを使用できるのか、ということから始めることです。 AIはまさにこれに最適なツールです。
Q: 非常に興味深いですね。これが最も基本的なアイデアであり、次のステップは実行です。創立 5 年の会社ですが、今日の AI の変化はあなたに何らかの影響を与えていますか?
A: ソフトウェア レベルでは、当社は常に研究サークルに根ざしており、当社のソフトウェア製品は研究サークルから生まれています。現在の AI の変化は私たちにほとんど影響を与えませんが、私は AI 革命が始まった 2015 年からこれらの研究サークルに参加しています。
むしろハードウェアレベルはむしろ新鮮です。私たちは優れたソフトウェアレベルの圧縮テクノロジーを持っていますが、これまではクラウドでのみ機能していたので、製品ではなく、良い研究テーマでした。 **すべての端末に導入され、何百万人もの人々が自分のデバイスで使用できるようになって初めて、それは製品になります。 **
そこで実際に私たちは、AIの有効性だけでなく、NPUなどの特定のAI加速ハードウェアや、AppleやQualcommの各種ハードウェアチップなど、必要なハードウェアが登場することにも賭けて、将来の技術変化に賭けてみました。 、Google.が作られます。 **私たちは 2018 年に賭けましたが、今日では 2023 年に賭けています。 **
**良い景色が見えたか、それとも単に幸運だったかのどちらかです。 **
Q: そして、これらの大手ハードウェア メーカーもあなたに興味を持っています。
A: **はい、彼らはこれらのハードウェアを持っているため、キラー アプリを探し始めました。私たちは彼らのところに行って、「ねえ、みんなビデオを見ているよ。これがあなたが望んでいるキラーアプリだよ」と言いました。今回もとてもぴったりです。 **
Q: 以前チャットしたときに、アルゴリズムに加えて、データもしきい値であるとおっしゃいましたが、明らかに大企業の方がより多くのデータを持っていますが、これは問題になりますか?
A: とても興味深い質問です。 (考察) AI 圧縮の場合、最終的にはアルゴリズムの方が重要であることが判明すると思います。なぜなら、この分野全体がデータ品質に関する決定を必要とするほど十分に成熟していないと思うからです。
Q: これが第 2 段階の質問です。
A: はい、まだ第一段階です。完璧なアルゴリズムがあるとは言えません。私たちのアルゴリズムは毎月大きく進歩しており、非常に速いスピードで変化しています。アルゴリズムが強力であれば、それはデータです。しかし、データの利益は逓減しているため、私たちは蓄積もしています。現在、私たちは 100 万から 200 万のビデオ シーケンス データを保有しており、オープンソースの信頼できるチャネルから取得したり、ビデオ Web サイトから購入したりしています。現時点では、それらはかなりオープンですが、誰もが見ていますChatGPT がオープン性の度合いを変えているということは、このデータを以前に購入できて幸運でした。これも利点ではありますが、現段階では真に決定的な利点ではありません。
Q: LLM と拡散モデルはアルゴリズムに何か新しいものをもたらしますか?
A: 比較的少ないです。参考にできるアイデアがいくつかあります。問題は、これらのモデルがプロセスに入り込んで改善をもたらすことができるように見えることです。たとえば、安定拡散は改善に役立つかもしれませんSDは10秒に1回の処理ですが、10秒間に300回の処理が必要になるなど、トレードオフがあり、リアルタイムとエフェクトのどちらを選択するかが問題となります。彼らは将来的に影響を与える可能性を秘めています。
Q: 競争の観点から見た場合、現在の課題はどこから来ていますか?
A: アルゴリズム、そしてその背後にいる人々。読むべき論文があまりないので、私たちは多くの基本的なアルゴリズムを自分たちで研究しています。最も重要な課題は、優れたチームを形成することです**。なぜなら、市場には AI を研究している人がたくさんいますが、情報理論を研究している人はそれほど多くなく、両方を同時に勉強している人はほぼゼロだからです。そのため、チームを組んで訓練する必要がありますが、お互いにあまり関係がないため、時間がかかります**。したがって、まずグループを育成し、そのグループが下の人々を率いる必要があります。これがピラミッド構造です。
Q: このピラミッドはもう建てましたか?
A: 当社には AI 研究のスーパースターが 30 人以上います。しかし、私たちはこれに長い長い時間を費やしました。
Q: では、あなたと一緒にここにいるのは世界で 30 人だけということですね。
A: そう思います。これらのトピックを研究しているラボもいくつかあり、優秀な人材がいますが、規模の点でこの分野では断然 Deep Render が最大の組織です。
Q: シリコンバレーでのビジネスと存在感を拡大するために最近の新たな資金調達を利用したとおっしゃっていましたが。
A: これは少し奇妙です。当社は英国の会社ですが、インターネット リソースを最も多く使用している会社は中国と米国にあります。さらに、ヨーロッパは確かに技術開発に友好的な場所ではありません。アメリカからの需要が多いのでアメリカに進出するのは当然ですし、中国も同様です。
Q: 中国人の顧客から連絡を受けたことがありますか?
A: **名前は言えませんが、長い長い契約書にサインしたので気をつけなければなりません(笑)。しかし、これらの企業に連絡したところ、確かに中国では米国よりも高い帯域幅要件があることがわかりました。
Q: あなたはすでに顧客と接触していますが、PMF から人々が議論を好むと判断した場合、あなたは現在どの段階にいますか?
A: これを定義するのは常に困難です。対応しきれないほどの需要があるため、PMF に到達したと考えています。私たちは自社の帯域幅リソースが十分ではないため、多くの大企業を実際に拒否していますが、多くの企業が私たちに予約を入れており、同時に 4 ~ 5 社の大企業のニーズしか処理できません。技術がさらに成熟すると、商品化が容易になります。私たちは概念実証の段階を過ぎました。 すべてがうまくいけば、2024 年の第 2 四半期には当社のテクノロジーが非常に有名なインターネット サービスに適用され、それまでに数千万のユーザーがそれを使用することになります。
Q: 異常な需要、限られた人材、そして自身の技術的地位に直面して、バランスの取れた選択をするのは CEO としての責任です。
Q: ははは、これは私の仕事の課題です。決断を下してみます。あまりに早く行動すると常にリソースが消費され、採用には課題が伴います。当社の従業員は通常、生産性を発揮できるようになるまでに 4 か月のトレーニングが必要です。もちろん、AI を使用してツールを開発する人には喜んでお金を払うかもしれません。
Q: はは、LLM はここに参加できるかもしれません。
A:はい、ははは。
Q: すべてが順調に進んでいるように見えますが、このビジネスのために設計したビジネス モデルは何ですか?
A: 当社は現在 B2B の形態をとっており、お客様に製品の認証を提供しています。お客様は多額の費用を節約でき、その一部を当社に寄付していただくことができます。ライセンスベースのビジネスモデルです。ここのデータを見ると、実際にはとんでもない数字で、2030 年までに世界中でコンテンツを送信するコストは 1,250 億ドルに達すると予想されています。 ** Netflix を破壊したい場合は、4K を使用し、1 か月間 24 時間 Netflix を視聴してください。 **
Q: これはやらないほうがいいです。
A: ははは、でも、ファイル サイズをたとえば 90% 削減できれば、1,250 億ドルに基づいて、企業は多額の費用を節約できることになります。
Q: これはお金を稼ぐチャンスです。
A: これは誰もが利益を受けるビジネスです。私が勝ち、会社が勝ち、ユーザーが勝ち、そして大手インターネット企業が勝ちました。誰も何も失いません。
Q: インターネットの保存についてはどうですか? あなたの会社が構築を支援する将来のインターネットがどのようなものになるかを想像したことがありますか?
Q: もちろん、毎日夢を見ます、ハハハ。 **私たちのビジョンは、帯域幅を無制限の商品に変え、誰もがネットワーク速度を心配する必要がなくなるようにすることです。誰もが自宅で非常に高品質のビデオを楽しむことができ、企業にとっては非常に安価、またはさらに優れたビデオを楽しむことができます。無料のインターネット リソース 情報は流れることができ、今日では重いと思われるデータさえも自由に流れることができます。これがインターネットが想定していた未来です。 **
A: そうです、そうです。これはかなり私のお気に入りの番組です。しかし、実際に興味深いのは、HBO が英国ではそれほど人気がなかったため、私の共同創設者と私は設立から 1 年半まで Deep Render のことを知らなかったことです。しかし、興味深いのは、私たちのビジネスモデルと私たちが通過した段階が、この劇のストーリーとほぼ同じであるということです。特に後から見たので、ちょっと待って、これは私たちと同じだ、と二人で言いました。
Q: あなたはこのドラマの結末も知っていました。
A:...ははは、私たちの結末がもっと良くなるといいのですが。