هندسة NVIDIA المعتمدة على وحدات معالجة الرسوميات: كيف يُعزز الجدولة الصلبة ثورة الاستنتاج في CES 2026

في مؤتمر CES 2026، قدم الرئيس التنفيذي لشركة NVIDIA جينسن هوانغ كلمة رئيسية شاملة أعادت صياغة حديث البنية التحتية للذكاء الاصطناعي حول مبدأ تنظيمي واحد: التسريع الذكي للأجهزة وجدولة وحدات معالجة الرسومات (GPU) كأساس لاقتصاد الاستدلال. على مدى ساعة ونصف، كشف عن ثمانية تطورات رئيسية تمثل مجتمعة تحولًا من الذكاء الاصطناعي المرتكز على التدريب إلى أنظمة محسنة للاستدلال. الخيط المشترك الذي يربط جميع الإعلانات هو كيف تتيح جدولة GPU المتطورة — من توزيع الحوسبة إلى تخصيص الموارد — نشر الذكاء الاصطناعي بكفاءة من حيث التكلفة وعالية الإنتاجية على نطاق واسع.

تسريع GPU على مستوى النظام: التصميم الثوري لمنصة فيرا روبين

الركيزة الأساسية لاستراتيجية NVIDIA هي الحاسوب العملاق للذكاء الاصطناعي فيرا روبين، وهو نظام مشترك التصميم مكوّن من ستة شرائح يعيد تصور كيفية عمل تسريع GPU على مستوى الرف. بنية المنصة — التي تتألف من معالج فيرا، وGPU روبين، ومفتاح NVLink 6، وConnectX-9 SuperNIC، وBlueField-4 DPU، وSpectrum-X CPO — تمثل خروجًا عن التصاميم المعيارية نحو تسريع الأجهزة المتكامل بشكل عميق.

يقدم GPU روبين محرك Transformer ويحقق أداء استدلال يصل إلى 50 PFLOPS من NVFP4، وهو قفزة بمقدار 5 أضعاف عن Blackwell. والأهم من ذلك، أن عرض النطاق الترددي لربط NVLink البالغ 3.6TB/s ودعمه للعمليات المعتمدة على المعالجة المثلثية يتيح كفاءة غير مسبوقة في جدولة GPU. يعمل مفتاح NVLink 6، بسرعة 400Gbps لكل مسار، على تنسيق التواصل بين GPU مع عرض نطاق ترددي إجمالي يبلغ 28.8TB/s، مما يسمح للنظام بجدولة العمليات عبر وحدات معالجة الرسومات مع أدنى زمن تأخير.

داخل نظام فيرا روبين NVL72 الموحّد في رف واحد، يحقق هذا التسريع المادي أداء استدلال يبلغ 3.6 EFLOPS — أي تحسين بمقدار 5 أضعاف عن الجيل السابق. يضم النظام 2 تريليون ترانزستور ويحتوي على تبريد سائل بنسبة 100%، مما يمكّن من جدولة كثيفة لوحدات معالجة الرسومات دون قيود حرارية. انخفض وقت التجميع إلى خمس دقائق، أي أسرع بـ 18 مرة من الأجيال السابقة، مما يعكس كيف أن أُطُر تسريع GPU المعيارية تُبسط عملية النشر.

كفاءة الاستدلال من خلال جدولة GPU الذكية وتخصيص الموارد

ثلاثة منتجات استدلال جديدة من NVIDIA تتناول مباشرة تحدي جدولة GPU على طبقات مختلفة من النظام. يهدف Spectrum-X (CPO)، الذي يدمج بصريًا مع رقاقة التبديل، إلى تحسين شبكة التبديل بين وحدات معالجة الرسومات. من خلال دمج البصريات مباشرة في رقاقة التبديل، يحقق CPO كفاءة طاقة أفضل بمقدار 5 أضعاف وتحسين مدة تشغيل التطبيقات بمقدار 5 أضعاف. يضمن هذا الاختيار المعماري أن قرارات جدولة GPU-to-GPU تتطلب أقل قدر من استهلاك الطاقة.

تتعامل منصة ذاكرة سياق الاستدلال من NVIDIA مع مشكلة جدولة مختلفة: إدارة السياق. مع تحول نماذج الذكاء الاصطناعي نحو التفكير الوكيلي مع نوافذ من ملايين الرموز، يصبح تخزين واسترجاع السياق هو العقبة الأساسية. تتيح طبقة التخزين الجديدة، المعززة بواسطة BlueField-4 DPU والمتكاملة مع بنية NVLink، لوحدات معالجة الرسومات تفريغ حسابات الكاش المفتاح-القيمة إلى عقد تخزين مخصصة. النتيجة هي أداء استدلال أفضل بمقدار 5 أضعاف واستهلاك طاقة أقل بمقدار 5 أضعاف — لا يتم ذلك فقط عبر وحدات معالجة رسومات أسرع، بل من خلال جدولة ذكية للموارد الحاسوبية والتخزينية.

يعرض نظام NVIDIA DGX SuperPOD، المبني على ثمانية أنظمة Vera Rubin NVL72، كيف تتوسع جدولة GPU عبر نشر على مستوى الحاوية. باستخدام NVLink 6 للتوسع الرأسي وSpectrum-X Ethernet للتوسع الأفقي، يقلل SuperPOD من تكاليف الرموز لنماذج (MoE) المختلطة الكبيرة إلى 1/10 من الجيل السابق. هذا التخفيض بمقدار 10 أضعاف في التكاليف يعكس العوائد المركبة من تحسين جدولة GPU: تقليل دورات الحوسبة المهدر، وانخفاض عبء حركة البيانات، وتحسين استغلال الموارد.

التخزين متعدد الطبقات وإدارة سياق GPU: حل عنق الزجاجة الجديد في الاستدلال

يغير الانتقال من التدريب إلى الاستدلال بشكل أساسي كيفية جدولة موارد GPU. أثناء التدريب، يكون استغلال GPU متوقعًا ومستقرًا. أثناء الاستدلال، خاصة مع استدلال السياق الطويل، تكون أنماط الطلب غير منتظمة، ويصبح إعادة استخدام السياق أمرًا حيويًا. يعالج نظام التخزين الجديد من NVIDIA ذلك من خلال تقديم هرمية ذاكرة محسنة للاستدلال: ذاكرة HBM4 لوحدة المعالجة، وطبقة ذاكرة السياق الجديدة لإدارة الكاش المفتاح-القيمة، والتخزين التقليدي للبيانات الدائمة.

يجب الآن أن توازن جدولة GPU بين المهام الحاسوبية وقرارات جدولة السياق. يعزز BlueField-4 DPU حركة السياق بين هذه الطبقات، بينما يبرمج البرمجيات الذكية إطلاق نوى GPU بالتزامن مع استرجاع السياق المسبق. يزيل هذا التصميم التعاوني — الذي يمتد من الحوسبة على GPU، وتسريع DPU، وكفاءة الشبكة — عمليات إعادة حساب الكاش المفتاح-القيمة المكررة التي كانت تعيق الاستدلال الطويل السياق سابقًا.

النماذج المفتوحة والأُطُر المحسنة لـGPU: بناء منظومة الذكاء الاصطناعي الفيزيائية

يعكس توسع استراتيجية المصدر المفتوح من NVIDIA اعترافًا بأن تسريع GPU يوفر قيمة فقط ضمن منظومة برمجية مزدهرة. في عام 2025، أصبحت NVIDIA أكبر مساهم في النماذج مفتوحة المصدر على Hugging Face، حيث أطلقت 650 نموذجًا و250 مجموعة بيانات. هذه النماذج مُحسنة بشكل متزايد لبنية جدولة GPU من NVIDIA — تستغل محركات Transformer، وتستخدم دقة NVFP4، وتتوافق مع هياكل ذاكرة NVLink.

تمكن منصة “Blueprints” الجديدة المطورين من تركيب أنظمة ذكاء اصطناعي متعددة النماذج وهايبرد-كلاود. تبرمج هذه الأنظمة بشكل ذكي مهام الاستدلال عبر وحدات معالجة الرسومات المحلية والنماذج السحابية المتقدمة استنادًا إلى زمن الاستجابة والتكلفة. يُعد إطلاق نموذج Alpamayo، وهو نموذج استدلالي بقوة 10 مليارات من المعاملات للقيادة الذاتية، مثالًا على هذا النهج. يعمل Alpamayo بكفاءة على وحدات معالجة رسومات محسنة للاستدلال، مما يوضح كيف أن جدولة GPU المدروسة — إلى جانب بنية النموذج — تتيح التفكير المتقدم على أجهزة المستهلك.

توسيع شركة Siemens لدمج NVIDIA CUDA-X، ونماذج الذكاء الاصطناعي، وOmniverse في التوأم الرقمي الصناعي يمدد تسريع GPU إلى التصنيع والعمليات. يوضح هذا الشراكة كيف تصبح أُطُر جدولة GPU بنية تحتية للصناعات بأكملها.

الرؤية الاستراتيجية: من قوة الحوسبة على GPU إلى تسريع النظام الكامل

تكشف سلسلة إعلانات NVIDIA عن استراتيجية متعمدة: كل طبقة من المنتج الجديد — من تصميم نواة GPU، مرورًا بالتبديل الشبكي، إلى بنية التخزين — تم إعادة النظر فيها لأعباء عمل الاستدلال. النتيجة هي نظام حيث لم تعد جدولة GPU مسألة ثانوية، بل هي المبدأ التصميمي المركزي.

ملاحظة جينسن هوانغ أن “لحظة ChatGPT للذكاء الاصطناعي الفيزيائي قد حانت” تستند إلى هذا الأساس التحتية. السيارات الذاتية القيادة المجهزة بنماذج Alpamayo تتطلب وحدات معالجة رسومات يمكنها جدولة الاستدلال في الوقت الحقيقي تحت ظروف غير متوقعة. والروبوتات التي تعمل عبر أُطُر GR00T تتطلب وحدات معالجة رسومات تبرمج بكفاءة جدولة الإدراك المتعدد الوسائط والتفكير. هذه التطبيقات الفيزيائية للذكاء الاصطناعي ممكنة فقط لأن NVIDIA أعادت تصور تسريع GPU من مستوى السيليكون إلى مكدس البرمجيات.

الحصن التنافسي الذي تبنيه NVIDIA يجمع بين ثلاثة عناصر: تحسين مستمر لكفاءة جدولة GPU (5x)، فتح البرمجيات لتحفيز الاعتماد (650 نموذجًا، و250 مجموعة بيانات)، وجعل تكامل الأجهزة والبرمجيات أكثر صعوبة في التكرار. كل إعلان في CES 2026 — من شرائح فيرا روبين المصممة بشكل مشترك إلى منصة ذاكرة السياق — يعمق قدرات تسريع GPU ويزيد من مستوى التحدي أمام الهياكل المعمارية المنافسة.

مع انتقال صناعة الذكاء الاصطناعي من ندرة التدريب إلى وفرة الاستدلال، تظهر جدولة GPU كقيد رئيسي على التكلفة والأداء. يضمن النهج الشامل لـ NVIDIA أن تُمثل قدرات تسريع الأجهزة الخاصة بها طبقة البنية التحتية للجيل القادم من تطوير بنية الذكاء الاصطناعي.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت