من الذي علق رقبة نفيديا؟

الأصل: هو لوهينج

المصدر: مراجعة تكنولوجيا Yuanchuan** (المعرف: kechuangych)**

بعد الإعلان عن التقرير المالي ربع السنوي الأخير لشركة Nvidia، لم تكتف AMD بإسكات Intel وذرفت الدموع، بل إن المحللين الذين قاموا بالبناء النفسي على المدى الطويل لم يتوقعوا أن يتجاوز الوضع الحقيقي التوقعات.

والأمر الأكثر إثارة للخوف هو أن إيرادات Nvidia ارتفعت بنسبة 854٪ على أساس سنوي، ويرجع ذلك إلى حد كبير إلى "أنها لا تستطيع بيع سوى الكثير" بدلاً من "بيع الكثير". وراء الكثير من المقالات الصغيرة حول "الشركات الناشئة التي تحصل على قروض عقارية H100" تعكس حقيقة أن المعروض من وحدات معالجة الرسوميات H100 محدود.

وإذا استمر النقص حتى نهاية هذا العام، فقد يكون أداء Nvidia أكثر صدمة.

يذكرنا النقص في H100 بما حدث قبل بضع سنوات عندما نفد مخزون وحدات معالجة الرسومات بسبب الارتفاع الكبير في العملات المشفرة، وتعرضت Nvidia للتوبيخ الدموي من قبل اللاعبين. ومع ذلك، فإن النقص في البطاقات الرسومية في ذلك الوقت كان يرجع إلى حد كبير إلى العلاوة غير المعقولة، بينما كان النقص في H100 بسبب القدرة الإنتاجية المحدودة، ولم يكن من الممكن شراؤها بسعر أعلى.

وبعبارة أخرى، لا تزال نفيديا تجني أموالاً أقل.

وفي المؤتمر عبر الهاتف في اليوم الذي تم فيه إصدار التقرير المالي، أصبحت كلمة "القدرة" بطبيعة الحال هي الكلمة الأكثر شيوعاً. وفي هذا الصدد، فإن صياغة نفيديا صارمة، وهي مصممة على عدم حمل الوعاء الذي لا ينبغي حمله:

"فيما يتعلق بحصة السوق، فهذا ليس شيئًا يمكننا تحقيقه بمفردنا، بل يجب أن يشمل العديد من الموردين المختلفين."

في الواقع، لا يوجد سوى اثنين فقط من "الموردين المختلفين" الذين تسميهم Nvidia:

إس كيه هاينكس وTSMC.

HBM: اللعبة الكورية

إذا نظرت فقط إلى نسبة المساحة، شريحة H100، فإن حوالي 50٪ فقط تنتمي إلى Nvidia.

في عرض المقطع العرضي للرقاقة، يحتل قالب H100 الموضع الأساسي، مع ثلاث أكوام HBM على كل جانب، والمساحة المجمعة تعادل قالب H100.

تعد شرائح الذاكرة الست المتواضعة هذه أحد الأسباب وراء نقص إمدادات H100.

تتم ترجمة HBM (ذاكرة النطاق الترددي العالي) حرفيًا على أنها ذاكرة ذات نطاق ترددي عالٍ، والتي تفترض جزءًا من الذاكرة في وحدة معالجة الرسومات.

تختلف HBM عن ذاكرة DDR التقليدية، حيث تقوم بشكل أساسي بتكديس العديد من ذكريات DRAM عموديًا، مما لا يزيد من سعة الذاكرة فحسب، بل يمكنه أيضًا التحكم بشكل جيد في استهلاك الطاقة ومنطقة شريحة الذاكرة، وتقليل المساحة المشغولة داخل الحزمة.

كانت "الذاكرة المكدسة" تستهدف في الأصل سوق الهواتف الذكية، وهو حساس جدًا لمساحة الرقاقة وتوليد الحرارة، ولكن المشكلة تكمن في أنه نظرًا لارتفاع تكلفة الإنتاج، اختارت الهواتف الذكية أخيرًا طريق LPDDR الأكثر فعالية من حيث التكلفة، مما أدى إلى تكنولوجيا فارغة للذاكرة المكدسة. محجوزة، ولكن لا يمكن العثور على مشهد الهبوط.

حتى عام 2015، كانت شركة AMD، التي كانت حصتها السوقية تتراجع، تأمل في الاستفادة من شعبية ألعاب 4K لتقليد موجة Nvidia.

في سلسلة وحدات معالجة الرسومات AMD Fiji التي تم إصدارها في ذلك العام، اعتمدت AMD الذاكرة المكدسة التي تم تطويرها بالاشتراك مع SK Hynix وأطلقت عليها اسم HBM (ذاكرة النطاق الترددي العالي).

تتمثل رؤية AMD في أن ألعاب 4K تتطلب كفاءة أكبر في إنتاجية البيانات، ويمكن أن تنعكس مزايا النطاق الترددي العالي لذاكرة HBM. في ذلك الوقت، كانت بطاقة الرسومات Radeon R9 Fury X من AMD قد طغت بالفعل على بنية Nvidia Kepler الجديدة من حيث أداء الورق.

لكن المشكلة هي أنه من الواضح أن تحسين عرض النطاق الترددي الذي جلبته HBM يصعب تعويض تكلفته العالية، لذلك لم يتم تعميمه.

حتى عام 2016، اكتسح AlphaGo لاعب الشطرنج البطل Li Shishi، وولد التعلم العميق، مما أدى إلى تفعيل ذاكرة HBM.

جوهر التعلم العميق هو تدريب النموذج من خلال البيانات الضخمة، وتحديد المعلمات في الوظيفة، وإدخال البيانات الفعلية في القرار للحصول على الحل النهائي.

من الناحية النظرية، كلما زادت كمية البيانات، زادت موثوقية معلمات الوظيفة، مما يجعل تدريب الذكاء الاصطناعي لديه سعي مرضي تقريبًا لإنتاجية البيانات وتأخير نقل البيانات، وهي بالضبط المشكلة التي تم حلها بواسطة ذاكرة HBM.

وفي عام 2017، حارب AlphaGo Ke Jie مرة أخرى، وتم استبدال الشريحة بـ TPU الذي طورته Google نفسها. من حيث تصميم الرقاقة، كل جيل من أجيال مادة TPU بدءًا من الجيل الثاني يعتمد تصميم HBM. تم تجهيز GPU Tesla P100 الجديدة من Nvidia لمراكز البيانات والتعلم العميق بالجيل الثاني من ذاكرة HBM (HBM2).

نظرًا لأن جميع شرائح GPU تقريبًا في سوق الحوسبة عالية الأداء مجهزة بذاكرة HBM، فإن المنافسة بين عمالقة التخزين حول HBM تتكشف أيضًا بسرعة.

في الوقت الحاضر، لا يوجد سوى ثلاثة من عمالقة الذاكرة في العالم يمكنهم إنتاج HBM بكميات كبيرة: SK Hynix، وSamsung Electronics، وMicron.

تعد SK Hynix أحد مخترعي HBM، وهي حاليًا الشركة المصنعة الوحيدة التي تنتج كميات كبيرة من HBM3E (الجيل الثالث من HBM)؛ دخلت Samsung Electronics السوق بـ HBM2 (الجيل الثاني من HBM)، وهي أول مورد لوحدة معالجة الرسومات لـ Nvidia باستخدام HBM؛ Micron هو الأكثر تخلفًا، حيث تحول من HMC إلى HBM فقط في عام 2018، وبدأ الإنتاج الضخم لـ HBM2 في منتصف عام 2020.

من بينها، تحتكر SK Hynix 50% من حصة السوق في HBM، وقد أدى إمدادها الحصري لـ HBM3E إلى Nvidia إلى منع شحن H100 بشدة:

يستخدم كلا الإصدارين H100 PCIe وSXM 5 مكدسات HBM، ويمكن أن يصل إصدار H100S SXM إلى 6، وقد وصل إصدار H100 NVL الذي دفعته Nvidia إلى 12. وفقًا لتفكيك مؤسسة البحث، تصل تكلفة مكدس HBM واحد بسعة 16 جيجابايت إلى 240 دولارًا. ثم تبلغ تكلفة شريحة الذاكرة H100 NVL وحدها ما يقرب من 3000 دولار أمريكي.

لا تزال التكلفة تمثل مشكلة صغيرة. وبالنظر إلى أن Google TPU v5 وAMD MI300، اللذين يتنافسان بشكل مباشر مع H100، سيتم إنتاجهما بكميات كبيرة قريبًا، وأن الأخيرين سيستخدمان أيضًا HBM3E، فإن تشن نينغ أكثر تشددًا.

وفي مواجهة الارتفاع الكبير في الطلب، يقال إن شركة SK Hynix قد حددت هدفًا صغيرًا يتمثل في مضاعفة طاقتها الإنتاجية وبدأت في توسيع خطوط الإنتاج. وتستعد سامسونج وميكرون أيضًا لـ HBM3E، ولكن في صناعة أشباه الموصلات، لم يحدث توسيع خطوط الإنتاج أبدًا تم تحقيقه بين عشية وضحاها.

وفقًا للتوقعات المتفائلة للدورة التي تتراوح مدتها من 9 إلى 12 شهرًا، لن يتم تجديد الطاقة الإنتاجية لـ HBM3E حتى الربع الثاني من العام المقبل على الأقل.

بالإضافة إلى ذلك، حتى لو تم حل مشكلة القدرة الإنتاجية لـ HBM، فإن الكمية التي يمكن لـ H100 توفيرها تعتمد على وجه TSMC.

CoWoS: سيف TSMC

أجرى المحلل روبرت كاستيلانو عملية حسابية منذ وقت ليس ببعيد، حيث يتم إنتاج H100 باستخدام عملية TSMC 4N (5 نانومتر)، ويبلغ سعر الرقاقة مقاس 12 بوصة مع عملية 4N 13400 دولار، ومن الناحية النظرية، يمكن قطع 86 شريحة H100.

إذا لم يتم أخذ عائد الإنتاج في الاعتبار، فمن مقابل كل H100 يتم إنتاجه، يمكن أن تكسب TSMC إيرادات بقيمة 155 دولارًا [6] .

ولكن في الواقع، من المرجح أن يتجاوز الدخل الذي تجلبه كل H100 إلى TSMC 1000 دولار أمريكي. والسبب هو أن H100 تستخدم تقنية التعبئة والتغليف CoWoS الخاصة بشركة TSMC، ويصل الدخل الناتج عن التغليف إلى 723 دولارًا أمريكيًا. [6] .

سيتم شحن كل H100 يخرج من خط إنتاج N4/N5 في مصنع TSMC الثامن عشر إلى مصنع التغليف والاختبار المتقدم الثاني لشركة TSMC في نفس المجمع لإكمال الخطوة الأكثر خصوصية وأهمية في تصنيع H100 - CoWoS.

لفهم أهمية تعبئة CoWoS، لا يزال يتعين علينا أن نبدأ بتصميم شريحة H100.

في منتجات GPU المخصصة للمستهلكين، يتم تجميع شرائح الذاكرة بشكل عام حول قلب وحدة معالجة الرسومات، ويتم نقل الإشارات عبر الدوائر بين لوحات PCB.

على سبيل المثال، في الصورة أدناه، يتم أيضًا إنتاج شريحة RTX4090 بواسطة Nvidia، ويتم تجميع نواة وحدة معالجة الرسومات وذاكرة GDDR بشكل منفصل ويتم تجميعهما على لوحة PCB، بشكل مستقل عن بعضهما البعض.

تتبع كل من وحدة معالجة الرسومات ووحدة المعالجة المركزية بنية فون نيومان، ويكمن جوهرها في "فصل التخزين والحساب" - أي أنه عندما تقوم الشريحة بمعالجة البيانات، فإنها تحتاج إلى استرداد البيانات من الذاكرة الخارجية، ثم نقلها إلى الذاكرة بعد اكتمال الحساب، مرة واحدة سوف يسبب تأخير في الحساب. وفي الوقت نفسه، سيتم تحديد "كمية" عمليات نقل البيانات وفقًا لذلك.

يمكن مقارنة العلاقة بين وحدة معالجة الرسومات والذاكرة ببودونغ وبوكسي في شنغهاي. يعتمد نقل المواد (البيانات) بين المكانين على جسر نانبو. تحدد القدرة الاستيعابية لجسر نانبو كفاءة نقل المواد. هذه القدرة الاستيعابية هي عرض النطاق الترددي للذاكرة، والذي يحدد أنه يؤثر على سرعة نقل البيانات ويؤثر بشكل غير مباشر على سرعة الحوسبة لوحدة معالجة الرسومات.

من عام 1980 إلى عام 2000، زاد "عدم تطابق السرعة" بين وحدة معالجة الرسومات والذاكرة بمعدل 50% سنويًا. بعبارة أخرى، حتى لو تم بناء نفق طريق لونغياو ونفق طريق شانغ تشونغ، فلن يكونا قادرين على تلبية نمو نقل المواد بين بودونغ وبوكسي. وقد تسبب هذا في أن يصبح عرض النطاق الترددي عنق الزجاجة الواضح بشكل متزايد في الحوسبة عالية الأداء. سيناريوهات.

الفجوة بين أداء وحدة المعالجة المركزية/وحدة معالجة الرسومات وأداء الذاكرة آخذة في الاتساع

في عام 2015، أثناء تطبيق ذاكرة HBM، اعتمدت AMD أيضًا حلاً مبتكرًا لنقل البيانات: الجمع بين Pudong وPuxi.

لتبسيط الأمر، قامت بطاقة الرسومات ذات التصميم المعماري الفيجي لعام 2015 "بربط" ذاكرة HBM ونواة وحدة معالجة الرسومات معًا، مما أدى إلى تحويل عدة شرائح صغيرة إلى شريحة كبيرة كاملة. وبهذه الطريقة، يتم مضاعفة كفاءة إنتاجية البيانات.

ومع ذلك، كما ذكرنا أعلاه، نظرًا للتكلفة والمشكلات الفنية، لم تسمح بنية AMD الفيجي للسوق بشرائها. ومع ذلك، فإن انفجار التعلم العميق وسعي التدريب على الذكاء الاصطناعي لتحقيق كفاءة إنتاجية البيانات بغض النظر عن التكلفة جعل "خياطة الرقائق" مفيدة.

بالإضافة إلى ذلك، فإن فكرة AMD جيدة، ولكنها تجلب أيضًا مشكلة جديدة - بغض النظر عن عدد المزايا التي تتمتع بها HBM، يجب أن تتعاون مع تقنية التغليف المتقدمة لـ "رقاقة التماس"، ويرتبط الاثنان ارتباطًا وثيقًا.

إذا قيل أنه لا يزال من الممكن مقارنة ذاكرة HBM بثلاث شركات، فيبدو أن العبوة المتقدمة المستخدمة في "شريحة التماس" هي الوحيدة التي يمكن أن تصنعها TSMC.

تعد CoWoS نقطة البداية لأعمال التغليف المتقدمة لشركة TSMC، وتعد Nvidia أول شركة شرائح تتبنى هذه التقنية.

CoWoS عبارة عن مزيج من CoW وoS: CoW تعني Chip on Wafer، والتي تشير إلى عملية تجميع الرقائق العارية على رقاقة، وoS تعني على Substrate، وهو ما يعني عملية التعبئة على الركيزة.

تحتوي العبوة التقليدية عمومًا على رابط نظام التشغيل فقط. وبعد أن يكمل المسبك تصنيع الرقاقة، يتم تسليمها إلى مصنع تعبئة واختبار تابع لجهة خارجية لحلها. ومع ذلك، لا يمكن حل رابط CoW الذي تمت إضافته بواسطة التغليف المتقدم عن طريق التعبئة والاختبار مصنع.

بأخذ شريحة H100 كاملة كمثال، يتم توزيع مكدسات HBM المتعددة حول قالب H100، والتي يتم ربطها معًا من خلال تقنية CoW. ولكن ليس فقط الربط، بل التواصل بين القالب والمكدس في نفس الوقت.

تختلف CoW الخاصة بـ TSMC عن العبوات المتقدمة الأخرى من حيث أنها تضع القالب والمكدس على وسيط من السيليكون (رقاقة في الأساس)، وتربط القنوات في الوسيط لتحقيق الاتصال بين القالب والمكدس.

وكما هو الحال مع EMIB من Intel، فإن الفرق هو أنه متصل ببعضه البعض من خلال جسر السيليكون. ومع ذلك، فإن عرض النطاق الترددي أقل بكثير من عرض النطاق الترددي للوسيط السيليكوني، وبالنظر إلى أن عرض النطاق الترددي يرتبط ارتباطًا وثيقًا بمعدل نقل البيانات، فقد أصبح CoWoS هو الخيار الوحيد لـ H100.

هذه يد أخرى عالقة في القدرة الإنتاجية لـ H100.

على الرغم من أن تأثير CoWoS ضد السماء، إلا أن السعر المرتفع الذي يتراوح بين 4000 إلى 6000 دولار أمريكي للقطعة الواحدة لا يزال يوقف الكثير من الناس، بما في ذلك شركة Apple، وهي ثرية للغاية. ولذلك، فإن القدرة الإنتاجية المجهزة لشركة TSMC محدودة للغاية.

ومع ذلك، اندلعت موجة الذكاء الاصطناعي فجأة، وانكسر توازن العرض والطلب على الفور.

في وقت مبكر من شهر يونيو، كانت هناك شائعات بأن طلب Nvidia على CoWoS هذا العام قد وصل إلى 45000 رقاقة، في حين كانت تقديرات TSMC في بداية العام 30000 رقاقة. وإلى جانب احتياجات العملاء الآخرين، تجاوزت فجوة الطاقة الإنتاجية 20٪.

ومن أجل تعويض هذه الفجوة، فإن معركة TSMC ليست صغيرة.

"في يونيو، أطلقت TSMC رسميًا المصنع السادس للتعبئة والاختبار المتقدم في نانكي. الغرفة النظيفة وحدها أكبر من بقية مصانع التعبئة والتغليف والاختبار مجتمعة. كما وعدت أيضًا بزيادة الطاقة الإنتاجية لـ CoWoS ربعًا تلو الآخر. ولهذا السبب، جزء من يتم الاستعانة بمصادر خارجية لنظام التشغيل لطرف ثالث مصنع التعبئة والتغليف والاختبار.

ولكن كما أنه ليس من السهل على شركة HBM توسيع إنتاجها، فإن الأمر سيستغرق بعض الوقت لشركة TSMC لتوسيع إنتاجها. في الوقت الحاضر، يتراوح وقت تسليم بعض معدات ومكونات التعبئة والتغليف من 3 إلى 6 أشهر، ولا يزال من غير المعروف مقدار الطاقة الإنتاجية الجديدة التي يمكن فتحها قبل نهاية العام.

الخطة ب غير موجودة

في مواجهة النقص الهيكلي لـ H100، لا تخلو Nvidia تمامًا من الخطة B.

في المؤتمر عبر الهاتف بعد إصدار التقرير المالي، كشفت Nvidia أن القدرة الإنتاجية لـ CoWoS قد تم اعتمادها بالفعل من قبل موردين آخرين. على الرغم من أنني لم أقل من هو، مع الأخذ في الاعتبار العتبة التقنية للتعبئة المتقدمة، بالإضافة إلى TSMC، فإن EMIB الذي يعاني من عيوب خلقية من Intel وI-Cube من Samsung، والذي تم تطويره لفترة طويلة وكان ينتظر العملاء، يمكنه فقط بالكاد يحارب النار.

ومع ذلك، فإن استبدال التكنولوجيا الأساسية يشبه تغيير الجنرالات قبل المعركة. وبما أن AMD MI300 على وشك أن يتم إنتاجها وشحنها بكميات كبيرة، فإن المنافسة على رقائق الذكاء الاصطناعي شرسة. وأخشى أن يكون Huang Renxun قلقًا أيضًا بشأن ما إذا كان يمكنه التكامل مع تكنولوجيا إنتل وسامسونج.

قد يكون بائعو الخدمات السحابية وشركات الذكاء الاصطناعي الناشئة التي لا تستطيع شراء H100 أكثر قلقًا من Huang Renxun. ففي نهاية المطاف، لا يستطيع اللاعبون الحصول على بطاقة الرسومات، أي أن عدد إطارات اللعبة أقل بمقدار 20 إطاراً؛ ولا تستطيع الشركات الكبرى الحصول على بطاقة H100، وقد تخسر المليارات من الإيرادات وعشرات المليارات من القيمة.

هناك ثلاثة أنواع رئيسية من الشركات التي تحتاج إلى H100: مقدمو الخدمات السحابية مثل Microsoft وAmazon؛ والشركات الناشئة مثل Anthropic وOpenAI؛ وشركات التكنولوجيا الكبرى مثل Tesla. ومجموعة GPU للتدريب.

وهذا لا يشمل الشركات المالية مثل Citadel، والشركات الصينية التي لا تستطيع شراء النسخة الخاصة من H800.

وفقا لحساب GPU Utils [7] ، وهو تقدير متحفظ، وصلت فجوة العرض الحالية من H100 إلى 430،000.

على الرغم من وجود بدائل نظرية لـ H100، إلا أن أيًا منها غير ممكن في المواقف العملية.

على سبيل المثال، المنتج السابق لـ H100، A100، يبلغ حوالي 1/3 سعر H100 فقط. لكن المشكلة تكمن في أن أداء H100 أقوى بكثير من أداء A100، مما يؤدي إلى زيادة قوة الحوسبة لكل وحدة تكلفة H100 مقارنة بـ A100. وبالنظر إلى أن شركات التكنولوجيا بدأت في شراء مئات أو آلاف النسخ، فإن شراء A100 يعد أسوأ من ذلك.

تعد AMD بديلاً آخر، والأداء على الورق ليس بعيدًا عن H100. ومع ذلك، نظرًا لعوائق نظام CUDA البيئي الخاص بـ Nvidia، فمن المرجح أن يؤدي استخدام وحدة معالجة الرسومات الخاصة بـ AMD إلى جعل دورة التطوير أطول، ومن المرجح أن يفتح المنافسون الذين يستخدمون H100 فجوة مع أنفسهم بسبب هذا الفارق الزمني، بل ويستثمرون المئات من الأموال. ملايين الدولارات.لا عودة.

لأسباب مختلفة، أضافت Nvidia شريحة ذات تكلفة مادية إجمالية تبلغ 3000 دولار أمريكي، عنصرًا للبيع بالتجزئة مباشرةً، واندفع الجميع لشرائه. قد يكون هذا شيئًا لم يتوقعه هوانغ رينكسون نفسه.

قبل أن تتحسن القدرة الإنتاجية لـ HBM وCoWoS، قد تكون هناك طريقة واحدة فقط لشراء H100:

انتظر حتى تتوقف الشركات الناشئة التي اشترت مجموعة من H100 عن العمل عن طريق التباهي وجمع الأموال، ثم تأخذ وحدات معالجة الرسوميات المستعملة الخاصة بها.

مراجع

[1] قيود قدرة الذكاء الاصطناعي - سلسلة التوريد CoWoS وHBM، التحليل شبه

[2] يقوم المصنع الأصلي بتوسيع الإنتاج بشكل نشط، ومن المتوقع أن يصل معدل النمو السنوي لإمدادات بت HBM إلى 105% في عام 2024، TrendForce

[3] ما هي التغييرات التي ستجلبها تقنية HBM إلى مركز البيانات؟ صناعة أشباه الموصلات العمودية والأفقية

[4] التغليف المتقدم الجزء الثاني: مراجعة الخيارات/الاستخدام لـ Intel وTSMC وSamsung وAMD وASE وSony وMicron وSKHynix وYMTC وTesla وNvidia والتحليل النصفي

[5] قام أندريه كارباثي، المؤسس المشارك لـ OpenAI والعالم غير المتفرغ، بالتغريد

[6] شركة أشباه الموصلات التايوانية: يتم تقدير قيمتها بأقل من قيمتها بشكل كبير باعتبارها مورد الرقائق والحزم لشركة Nvidia، SeekingAlpha

[7] وحدات معالجة الرسومات Nvidia H100: العرض والطلب، أدوات GPU

المحرر: لي موتيان

التصميم المرئي: شوري

المحرر المسؤول: لي موتيان

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت