しかし、今日の大規模なモデル企業と同様に、これらの検索会社は、一流の安定性と驚くべきコストを備えた Sun Micro のシステムと HP などのハイエンド サーバーを使用しています。当時、検索エンジンの運営は高価なビジネスでした。トラフィックが増加し続けると、コストも驚くほど上昇します。同時に、計算能力の制限により、検索は依然として基本的な検索、つまりテキストの逆索引テーブルであり、検索効果は平均的です。
Google は当初、他の Web ページからのリンクの重みに基づいて Web ページの重要性を計算する PageRank アルゴリズムを考案しました。これは良いアイデアですが、それを実現するには多くの計算能力が必要です。このプロセスは基本的に、テキストのベクトルを計算する現在の大規模モデルと似ています。ウェブページの重みを知りたい場合は、ウェブ全体を読んで、他のどのウェブページがこのウェブページを指しているのか、そしてこれらのウェブページの重みを確認する必要があります。これらのウェブページの重みは、そのようなロジックによって再計算する必要があります。これはほぼ無限ループです。同じコンピューティング能力要件です。
Google のソリューションは、当時唯一の正しいホスト メーカーから数万ドルもするハイエンド サーバーを購入するのではなく、コルク紙の上に 4 つの小さなマザーボードを置き、ハードディスクを結び、ネットワーク カードを差し込み、そしてそれは終わりました。
つまり、これほど多くの混乱を経た後、安価なハードウェア、十分な計算能力、安価なストレージのおかげで、Google は PageRank の膨大な計算能力消費をサポートするのに十分であり、未知の小さなステーションから当時の巨大企業を非常に迅速に破りました。スタンフォードで、今日の Google になりました。したがって、ある観点から見ると、ソフトウェアと引き換えにハードウェアのコスト面で大きな利点があることは、Google の初期の成功において無視できない要素です。
この歴史は現在の AI 情勢に影響を与えるのでしょうか?
Nvdia V100 グラフィックス カードを積み上げた OpenAI の ChatGPT モデルは、Lycos Same サービスによって構築された高価な検索エンジンと同様に、可能性の確認から可能性の証明に至るまで、ゼロから何かへの最初のステップを完了するのに確かに役立ちました。しかし、Google のような方法、ソフトウェアを使用してハードウェアのコストを大幅に削減する可能性はあるのでしょうか?もちろん、サーバーを手作りする時代は過ぎており、はんだごてで GPU をはんだ付けするのは信頼できる方法ではないようです (当時 Google はこれを行わず、Intel Pentium II CPU を直接使用していました)。大規模なコストを削減できる素晴らしいソリューションはどうでしょうか?
AI ビッグモデルの次のステップは、Google の初期の安価なソリューションになる可能性があります
出典: 王建碩
著者: 王建碩
Google の初期のサーバーの登場は長年にわたって私の頭の中に残り続けており、テクノロジーとスタートアップについての私の理解のベンチマークとなっています。
これは、2007 年にシリコンバレーのコンピューター博物館で私が見たものです。
インターネットの初期の頃、検索はすぐに便利で有望なものになりました。当時の検索エンジンはLycos、AltaVista、InfoSeekなどが独占しており、最近の大手モデル企業が覇権を争う状況に酷似していた。
しかし、今日の大規模なモデル企業と同様に、これらの検索会社は、一流の安定性と驚くべきコストを備えた Sun Micro のシステムと HP などのハイエンド サーバーを使用しています。当時、検索エンジンの運営は高価なビジネスでした。トラフィックが増加し続けると、コストも驚くほど上昇します。同時に、計算能力の制限により、検索は依然として基本的な検索、つまりテキストの逆索引テーブルであり、検索効果は平均的です。
Google は当初、他の Web ページからのリンクの重みに基づいて Web ページの重要性を計算する PageRank アルゴリズムを考案しました。これは良いアイデアですが、それを実現するには多くの計算能力が必要です。このプロセスは基本的に、テキストのベクトルを計算する現在の大規模モデルと似ています。ウェブページの重みを知りたい場合は、ウェブ全体を読んで、他のどのウェブページがこのウェブページを指しているのか、そしてこれらのウェブページの重みを確認する必要があります。これらのウェブページの重みは、そのようなロジックによって再計算する必要があります。これはほぼ無限ループです。同じコンピューティング能力要件です。
Google のソリューションは、当時唯一の正しいホスト メーカーから数万ドルもするハイエンド サーバーを購入するのではなく、コルク紙の上に 4 つの小さなマザーボードを置き、ハードディスクを結び、ネットワーク カードを差し込み、そしてそれは終わりました。
明らかに、この種の安定性はメーカーのメインフレームとは大きく異なります。そのため、Google はソフトウェアを使用して、Google File によって配布されるファイル システムを作成し、複数の場所でファイルを書き換えることができます。ハードウェアが壊れても、データはすぐに別の場所で再構築できるため、急いで駆けつけていくつかのハードウェアを破壊することができます。」リトルコンピューター」は影響を受けません。独自の MapReduce フレームワークを追加することで、これらの小さなコンピューター上でコンピューティングを分散 (マップ) し、その結果を集約 (リデュース) できるため、1 つまたは複数のコンピューターを使用せずに、非常に多くのコンピューターのコンピューティング能力を追加することができます。非常に強力なコンピューター。
つまり、これほど多くの混乱を経た後、安価なハードウェア、十分な計算能力、安価なストレージのおかげで、Google は PageRank の膨大な計算能力消費をサポートするのに十分であり、未知の小さなステーションから当時の巨大企業を非常に迅速に破りました。スタンフォードで、今日の Google になりました。したがって、ある観点から見ると、ソフトウェアと引き換えにハードウェアのコスト面で大きな利点があることは、Google の初期の成功において無視できない要素です。
この歴史は現在の AI 情勢に影響を与えるのでしょうか?
Nvdia V100 グラフィックス カードを積み上げた OpenAI の ChatGPT モデルは、Lycos Same サービスによって構築された高価な検索エンジンと同様に、可能性の確認から可能性の証明に至るまで、ゼロから何かへの最初のステップを完了するのに確かに役立ちました。しかし、Google のような方法、ソフトウェアを使用してハードウェアのコストを大幅に削減する可能性はあるのでしょうか?もちろん、サーバーを手作りする時代は過ぎており、はんだごてで GPU をはんだ付けするのは信頼できる方法ではないようです (当時 Google はこれを行わず、Intel Pentium II CPU を直接使用していました)。大規模なコストを削減できる素晴らしいソリューションはどうでしょうか?
私は大したモデルではないので、解決策が思いつきません。しかし、そのような計画があれば、大型模型業界の競争パターンが大きく変わる可能性がある。