これらの成熟した AI テクノロジーやアプリケーションと比較すると、大規模な実装にはまだ距離がありますが、その技術的リーダーシップには疑いの余地がなく、「旧世代」の AI アプリケーションでさえも AI と組み合わせられたり、AI によって変革されたりすることが期待されています。リニューアルしました。
AI テクノロジーの開発を見ると、インテルが非常に明確な原則を実装していることを見つけるのは難しくありません (最終的には使用が重要です)。データセンターやエッジで利用するだけでは不十分で、すべてのコンピュータ、すべての人の情報端末がAIアプリケーションを自律的に高速化できる機能を備えていれば、「核」を満たすことができるのがベストです。
したがって、インテルは、さまざまなハードウェア製品に AI 機能を追加し、オープンなマルチアーキテクチャ ソフトウェア ソリューションを通じて AI アプリケーションの普及を促進し、「コア エコノミー」の台頭を促進するというイノベーションの使命を調整しました。
AIの大規模モデルの時代 ≠ 大規模モデルのみのAIの時代
著者丨ジン・レイ
出典丨Qubit QbitAI
時代の洗礼を乗り越え、新しさを保つことができるテクノロジーとはどのようなものでしょうか?
その答えは、「三部作」のようなパターン、すなわち、隆起、発展、大規模応用と、このプロセスのさらなる進化の繰り返しに要約されるかもしれません。
歴史を振り返ると、蒸気機関が第一次産業革命を牽引し、それが内燃機関へと進化して普及したとき、第二次産業革命の破壊者である電気エネルギーそのものやそれに関連する各種機器はまだ黎明期にありました。機器はマイクロエレクトロニクスの反復的な革新に向かって進んでいますが、さまざまな燃料エンジンは依然として改良され、普及しています。
このルールから判断すると、ラージ言語モデル(略してLLM)は、その出現以来、すべてのAI関連キーワードを独占し、注目を集めてきましたが、これは「LLM以前にAIは存在しなかった」ことを意味するものではありません。
大規模なモデルが注目を集めている一方で、以前は意思決定に特化していた旧世代の機械学習アプリケーションや、認識機能に焦点を当てた「従来の」深層学習アプリケーションもアイドル状態ではありません。思春期に入り、着実に実践的な練習に入る段階。
大手チップメーカーは、製造業、エネルギー、医療、金融、運輸・物流、教育業界におけるAI実践を対象とした一連のAI実践マニュアルを発売した。
今年の「物流、輸送、ヘルスケアのための AI 実践マニュアル」の更新では、実装されている、または実装されている多くの AI アプリケーションと、それらをスムーズに導入してパフォーマンス加速の可能性を最大限に引き出す方法が記録されています。最前線に深く進出している企業の応用例。
したがって、AI は大きなモデルだけを指すものではありません。 AIの大規模モデルの時代≠大規模モデルのみのAIの時代でもある。
成熟した AI はすでに実用化されています
もしかしたら、AI テクノロジーが小型の速達配達にもすでに導入されていることがまだ信じられないかもしれません。
そうです。AI は注文、出荷、仕分け、積み替え、流通など、物流プロセス全体にほぼ関与しています。AI はすべてを「管理」する必要があります。
古典的な OCR (光学式文字認識) テクノロジーを例に挙げると、物流「技術の世界」におけるその地位は極めて重要であり、作業効率を大幅に向上させます。
たとえば、発送者が発送時に住所や身元情報を入力し、eコマース倉庫が発送された商品情報をチェックする場合、OCRを使用してワンクリック入力を実現できます。
AI技術がより完成され、その応用が深まるにつれて、この速度は「最速というものはなく、ただ速いだけ」を達成しました。
その結果、現在の AI はユンダに「教訓を与え」、精度が 98% 近くまで上昇しただけでなく、時間も 130 ミリ秒から 114 ミリ秒に「短縮」されました。
さらに、OCR 認識は物流業界における AI の関与のほんの一部にすぎません。写真を見て、AI が現在果たしている力を感じてください。
しかし皆さん、これは AI が数千の産業を加速させている一例にすぎません。実際、私たちの日常の旅行も AI の「風味」に満ちています。
例えば、AI映像解析技術により高速道路の交通状況をリアルタイムに解析できます。
交通流の監視、車のナンバープレート認識、事故警告など、AI はあらゆるものを俯瞰できると言えます。
このようにして、道路状況を効果的かつ正確に制御できます。
もう一つの例は空港で、AI 技術を活用したカメラは航空機、車両、人員、国境違反などをきめ細かく識別することができ、飛行エリアの安全を一定の保証を提供します。
……
上記の小規模な使用例から、「成熟した」AI、または数年前に人気があったスター AI アプリケーションが人気がないように見えるかもしれないが、実際には私たちの生活のあらゆる側面に浸透していることを理解するのは難しくありません。主な焦点は「支出の削減と効率の向上」です。
では、このような「コスト削減と効率向上」の背後にあるものは何でしょうか?
あまり気負わずに答えてください——
これを支援するのはインテルのプラットフォーム、特に Xeon®️ スケーラブル プロセッサです。同様に、上で挙げたチップメーカーもインテルですが、複数の業界向けに実践的なAIマニュアルを提供しているのもインテルです。
簡単に要約すると、Xeon®️ スケーラブル プロセッサーとその組み込み AI アクセラレーター、および一連の AI フレームワークと、それを支援する OpenVINO™️ や oneAPI などの最適化ソフトウェアです。
現在、AI アプリケーションのパフォーマンスに影響を与える要因は、コンピューティング能力とデータ アクセス速度の 2 つだけです。
最新の第 4 世代 Xeon®️ スケーラブル プロセッサーの単一 CPU コアの数は、最大 60 コアに増加しました。データアクセス速度に関しては、全レベルのキャッシュサイズ、メモリチャネル数、メモリアクセス速度などがある程度最適化されており、さらにHBMの高帯域メモリ技術もCPU Maxシリーズに統合されています。
さらに、CPU 命令セットも最適化されており、行列計算とディープラーニング ワークロードの高速化を担うインテル®️ アドバンスト マトリックス エクステンション (インテル® AMX) などのハードウェア アクセラレーターが組み込まれています。 -bit の CPU アクセラレーション AI アプリケーション。
これは、GPU の Tensor コアに似ています。
AMX は 2 つの部分で構成されており、1 つは 1kb の 2D レジスタ ファイルで、もう 1 つは行列乗算命令の実行に使用される TMUL モジュールです。 INT8 と BF16 の両方のデータ型をサポートでき、BF16 は FP32 よりも優れたコンピューティング パフォーマンスを備えています。
AMX 命令セットの恩恵により、前世代の Xeon®️ スケーラブル プロセッサに組み込まれているベクトル ニューラル ネットワーク命令セット VNNI と比べて、パフォーマンスが最大 8 倍またはそれ以上向上しました。
コアのハードウェア プラットフォームに加えて、これらの業界が実用的な AI アプリケーションを実装するのに実際に役立つのは、インテルの「独自」ではあるが「プライベート」ではない一連の AI ソフトウェア ツールです。
たとえば、前述の OCR アクセラレーションは、トレーニング部分に必要な多くの冗長な計算を排除し、主に推論部分をサポートする OpenVINO™️ の最適化と切り離せません。
また、Intel ハードウェア用に特別に構築された最適化されたフレームワークでもあり、わずか 5 行のコードで元のフレームワークの置き換えが完了します。
ユーザーは、さまざまなビジネス シナリオに合わせて OpenVINO™️ の動作パラメータを最適化できます。
このようなソフトウェアとハードウェアの組み合わせにより、インテルは CPU のコンピューティングの可能性を最大限に引き出すだけでなく、実際の推論シナリオで GPU に近いパフォーマンスを実現し、低コスト、低しきい値、低コストなどの追加の利点も備えています。使いやすさ。
ただし、これらはインテル®️ プラットフォーム上で成熟した AI テクノロジーを最適化したものにすぎず、インテルの機能はそれをはるかに超えています。
これは大きなモデルに戻ります。
人気のビッグモデルも加速中
現在、大規模言語モデルは世界中の大手テクノロジー企業によって追求されており、テクノロジー界ではそれが今後の開発のトレンドであると考えられています。
これらの成熟した AI テクノロジーやアプリケーションと比較すると、大規模な実装にはまだ距離がありますが、その技術的リーダーシップには疑いの余地がなく、「旧世代」の AI アプリケーションでさえも AI と組み合わせられたり、AI によって変革されたりすることが期待されています。リニューアルしました。
基本的なコンピューティング能力の出力とアプリケーションのパフォーマンスのアクセラレーターとして、Intel はこの競争の分野での万が一の事態にも備えており、すでに計画を立てています。
まず、どんなに高性能な大型モデルであっても、その価値を最大限に発揮するには、より多くの人がそれを使用する必要があります。それを「プレイ」したい場合、その巨大なサイズに直面して、コストが長年の問題です。
そこでインテルは、10億個のパラメーターを持つ大規模な言語モデルを3/4にスリム化して精度を向上させることができ、インテル上で大規模なモデルの推論パフォーマンスを効果的に向上させることができる強化された「軽量化の魔法のツール」を発表しました。 ®️プラットフォーム。
次に、ハードウェア レベルでも、インテルはいくつかの取り組みを行っています。
たとえば、最近人気の ChatGLM-6B は、第 4 世代 Xeon®️ スケーラブル プロセッサーの内蔵 Intel®️ AMX を使用してモデル微調整の計算速度を大幅に向上させ、Xeon®️ CPU Max シリーズ プロセッサーと統合された HBM を使用しています。大規模ユーザーのニーズを満たす モデルの微調整に必要な大きなメモリ帯域幅。
CPU に加えて、Intel は専用のディープラーニング アクセラレーション チップ Habana®️ Gaudi®️2 も備えており、1 台のサーバーに 8 枚のアクセラレータ カード (Habana プロセッシング ユニット、HPU と呼ばれる) を展開でき、各カードには最大 96 個のメモリが搭載されています。 GB、大型モデルに十分なスペースを提供します。
したがって、1,760 億個のパラメータを持つ BLOOMZ のような 1,000 億レベルの言語モデルでも、Intel による最適化後はパフォーマンス遅延を 3.7 秒に制御できます。 70 億のパラメータを備えた小型モデル BLOOMZ-7B の場合、Gaudi®️2 の単一デバイスのレイテンシは、第 1 世代の Gaudi®️ の約 37.21% であり、デバイスの数が 8 に増えると、この割合はさらに約 37.21% に低下します。 24.33%。
次に、ソフトウェア レベルでは、ChatGLM などの一般的な大規模言語モデルの場合、インテルは OpenVINO™ ステートフル モデルを作成することによって最適化することもできます。重みを圧縮してメモリ帯域幅の使用量を削減し、推論速度を向上させます。
これは、大規模モデル アプリケーションにおけるインテルの「ソフトウェアとハードウェアの統合」アプローチを直接反映しています。さらに、ハードウェアは CPU に限定されず、学習性能と推論性能の両方で GPU に匹敵し、コストパフォーマンスの面で誰もが驚く Gaudi®️ もあります。
最後に、セキュリティの面でも、インテルは「両方の長所」を実現しています。インテル® SGX/TDX に基づく信頼できる実行環境 (TEE) は、パフォーマンスを犠牲にすることなく、大規模なモデルに対してより安全なオペレーティング環境を提供できます。
これが、大規模 AI モデル時代におけるインテルの「加速アプローチ」です。
他にどのような変化がもたらされるのでしょうか?
AI テクノロジーの開発を見ると、インテルが非常に明確な原則を実装していることを見つけるのは難しくありません (最終的には使用が重要です)。データセンターやエッジで利用するだけでは不十分で、すべてのコンピュータ、すべての人の情報端末がAIアプリケーションを自律的に高速化できる機能を備えていれば、「核」を満たすことができるのがベストです。
したがって、インテルは、さまざまなハードウェア製品に AI 機能を追加し、オープンなマルチアーキテクチャ ソフトウェア ソリューションを通じて AI アプリケーションの普及を促進し、「コア エコノミー」の台頭を促進するというイノベーションの使命を調整しました。
インテルの「加速アプローチ」は、テクノロジーのより迅速な実装と普及を可能にするだけでなく、導入、革新、変化を促進し、次世代のテクノロジー変化への道を切り開くことも目的としています。
では、インテルにはこの道における最終的な目標があるのでしょうか?
おそらくインテル イノベーション 2023 で繰り返し強調されたように、AI をどこにでも (AI Everywhere) させましょう。