هوانغ رنشن يعلن بشكل مذهل في CES: لحظة ChatGPT للذكاء الاصطناعي الفيزيائي تقترب بسرعة

黃仁勳預告物理AI

huangrenxun في CES أعلن “اللحظة الحاسمة للذكاء الاصطناعي المادي مثل ChatGPT تقترب”. أطلقت NVIDIA منصة Vera Rubin بزيادة قوة حاسوبية بمعامل 5، وأطلقت مفتوحة المصدر Alpamayo للقيادة الذاتية، وCosmos نموذج العالم وGroot للروبوت. مع التأكيد على حدوث انتقالين منصة متزامنين: إعادة صنع التطبيقات بالذكاء الاصطناعي، وإعادة صنع الواقع بالذكاء الاصطناعي المادي.

ثلاث نقاط اختراق في ثورة أجهزة Vera Rubin

قال huangrenxun في بداية محاضرته في CES، “لدينا 15 كيلوغراما من المحتوى لإدراجه في هذه المحاضرة اليوم، يجلس 3,000 شخص في القاعة، وهناك 2,000 شخص إضافي في الحديقة خارجا يشاهدون، وجود أشخاص في الطابق الرابع أيضا عبر الإنترنت، وملايين الأشخاص حول العالم يشاهدون.” لكنه سرعان ما أعاد الموضوع إلى الأجهزة، معلنا أن Vera Rubin دخل بالفعل الإنتاج الكامل.

يأتي اسم Vera Rubin من عالمة فلك في القرن العشرين، لاحظت أن سرعة دوران حواف المجرات تقارب سرعة المركز، وهذا لا ينسجم مع الفيزياء النيوتونية، إلا إذا كانت هناك مادة غير مرئية - المادة المظلمة. أطلقت NVIDIA على منصة الحوسبة من الجيل التالي اسم Vera Rubin، لأن “الشيء غير المرئي” الذي يواجهونه يتوسع أيضا: متطلبات الحوسبة.

وصف huangrenxun جنون الطلب على القوة الحاسوبية. ينمو حجم النموذج بمعامل 10 سنويا، بعد o1 أصبح الاستدلال “عملية تفكير”، وأدخلت تدريبات ما بعد التدريب التعلم المعزز مما أدى إلى انفجار حجم الحسابات؛ يسمح test-time scaling برفع حجم token في كل استدلال بمعامل إضافي قدره 5؛ وفي كل مرة تصل إلى حدود جديدة، تنخفض تكلفة token من الجيل السابق بمعامل 10 سنويا. هذا بدوره يدل على أن المنافسة شديدة جدا، يجب على NVIDIA “تحسين state-of-the-art للحوسبة كل سنة، لا يمكن أن نتخلف حتى لعام واحد”.

بنية النوى الستة المتعاونة في Vera Rubin

وحدة معالجة مركزية مخصصة Vera: الأداء يتضاعف، المشاركة ثنائية الاتجاه للبيانات مع Rubin GPU من البداية

Rubin GPU: لوحة حاسوبية واحدة تصل إلى 100 PFLOPS من قوة الذكاء الاصطناعي، 5 أضعاف الجيل السابق

الشبكة والأمان: يوفر ConnectX-9 عرض نطاق أفقي بقدرة 1.6 Tbps، Blue Field-4 DPU تفريغ التخزين والأمان

هناك 17,000 مكون على لوحة حاسوبية واحدة، تم إعادة تصميم أرفف الحوسبة إلى شكل “بدون أسلاك، بدون أنابيب، بدون مراوح”. يربط NVLink التبديل من الجيل السادس 18 عقدة معا في وحدة واحدة، ثم يتم توسيعها إلى 200G مع الضوئيات المسبة المدمجة، مما يشكل آلاف الأرفف معا إلى “مصانع الذكاء الاصطناعي”. في مهام التدريب بـ 10 تريليون معامل و 100 تريليون token، يحتاج Rubin فقط إلى ربع حجم النظام من Blackwell لإكمال التدريب في نفس نافذة شهر واحد.

ذكر huangrenxun أيضا التحديات الصناعية الواقعية. كانت هناك قاعدة داخل NVIDIA أصلا، أن يتم استبدال واحد أو اثنين من الرقائق على أقصى تقدير في الجيل الجديد، بدون إرهاق سلسلة التوريد. لكن بعد تراجع قانون مور، لم يتمكن نمو الترانزستور من مواكبة سرعة نمو النموذج بـ 10 مرات، و token بـ 5 مرات، وانخفاض التكلفة بـ 10 مرات، لا يمكن اللحاق إلا بـ “التصميم المشترك” (co-design)، لذلك اضطروا في هذا الجيل إلى إعادة تصميم كل رقاقة. أداء عائمة Rubin GPU هو 5 أضعاف Blackwell، لكن الترانزستورات فقط 1.6 مرة، مما يعني أن الاعتماد على العملية وحده لزيادة الترانزستورات قد وصل إلى السقف، يجب الاعتماد على بنية وتصميم مستوى النظام المشترك لتحقيق الأداء.

استراتيجية القفزة الجماعية لنماذج مفتوحة المصدر

على مدار العام الماضي، ما أثار “الإثارة” الحقيقية في huangrenxun ليس التقدم لنمط إغلاق مصدري واحد، بل القفزة الجماعية لنمط مفتوح المصدر. قال huangrenxun، النماذج المفتوحة الآن متأخرة حوالي “ستة أشهر” عن نماذج الحدود الأمامية، لكن كل ستة أشهر تظهر نماذج جديدة أذكى، لذا فإن عدد التنزيلات ينفجر، لأن الشركات الناشئة تريد المشاركة، والشركات الكبرى تريد المشاركة، والباحثون يريدون المشاركة، والطلاب يريدون المشاركة، وتقريبا كل بلد يريد المشاركة.

يسيئ الكثير من الناس فهم NVIDIA، قائلين أنها “تبيع فقط GPUs”، بينما كان huangrenxun يؤكد مرارا وتكرارا على المسرح في CES، تصبح NVIDIA مصنع نماذج ذكاء اصطناعي مفتوح المصدر من الحدود الأمامية، والنوع المفتوح تماما. ذكر قائمة كاملة من نماذج NVIDIA مفتوحة المصدر: من Nemotron الذي يخلط Transformer-SSM، نموذج العالم Cosmos، إلى الروبوت الثنائي القدمين Groot. حتى في مجال القيادة الذاتية Alpamayo، ليس فقط نماذج مفتوحة المصدر، بل أيضا بيانات التدريب مفتوحة المصدر.

أعلن huangrenxun أن Alpamayo هو “أول ذكاء اصطناعي للقيادة الذاتية في العالم يعرف كيف يفكر وكيف يستدل”. يعمل من طرف إلى طرف من الكاميرا إلى المشغل، تعلم كميات كبيرة من “العرض البشري” للأميال الحقيقية، وأيضا الأميال المولدة من Cosmos، بالإضافة إلى “عشرات الآلاف” من العينات ذات العلامات الدقيقة جدا. المفتاح هو أنه لا يخرج فقط عجلة القيادة وأنظمة الفرامل والبنزين، بل يخبرك أيضا ما هي الإجراءات التي سيتخذها، لماذا يفعل ذلك، وما هي المسارات.

قال huangrenxun، بدأوا العمل على القيادة الذاتية منذ ثماني سنوات، لأنهم حكموا في وقت مبكر جدا أن التعلم العميق سيعيد صنع مكدس الحوسبة بالكامل. أعلن Alpamayo “في الواقع اليوم مفتوح المصدر”، هذا النطاق الهندسي ضخم، قال huangrenxun فريق AV الخاص بهم “عدة آلاف من الناس”، وبدأت مرسيدس بنز التعاون معهم منذ خمس سنوات. يتنبأ بأنه قد يكون هناك 10 مليارات سيارة تقود ذاتيا في المستقبل، “كل سيارة ستحتوي على القدرة على التفكير، كل سيارة ستقودها الذكاء الاصطناعي”.

معمارية الحواسيب الثلاثة للذكاء الاصطناعي المادي

أمضى huangrenxun وقتا طويلا جدا في التحدث عن شيء واحد: جعل الذكاء الاصطناعي يفهم المعرفة السليمة للعالم أصعب بكثير من اللغة. استمرارية الأشياء، العلاقات السببية، القصور الذاتي، الاحتكاك، الجاذبية، كل هذا هو حدس طبيعي للأطفال البشر، لكنه غريب تماما للذكاء الاصطناعي. وبيانات العالم الحقيقي لا تكفي أبدا. قال أنه لعمل الذكاء الاصطناعي المادي، يحتاج إلى “ثلاثة حواسيب”: واحد لتدريب النموذج، وواحد للاستدلال على الحافة في السيارات/الروبوتات/المصانع، وواحد للمحاكاة.

Omniverse هي عالم محاكاة التوأم الرقمي، Cosmos هو نموذج أساس العالم، وتتضمن نماذج الروبوتات Groot وAlpamayo. من أين تأتي بيانات التدريب؟ لنماذج اللغة كميات كبيرة من النصوص، العالم المادي تحتوي على الكثير من مقاطع الفيديو الحقيقية، لكنها لا تكفي بعيدا عن تغطية التفاعلات المتنوعة. لذلك يستخدمون بيانات اصطناعية متوافقة مع القوانين الفيزيائية لإنشاء عينات تدريب انتقائية.

يمكن لـ Cosmos أن يولد مقاطع فيديو واقعية من صورة واحدة، يولد حركة متسقة من أوصاف المشهد ثلاثية الأبعاد، يولد فيديو محيط من سجلات المستشعرات، ويمكنه “حالات الحافة” الاصطناعية من المشهد المطالب. يمكنه أيضا أن يغلق الحلقة محاكاة، الإجراء يتم، العالم يستجيب، Cosmos ثم يستدل الخطوة التالية. يعرّف huangrenxun القيادة الذاتية كأول “سوق رئيسي واسع النطاق” للذكاء الاصطناعي المادي، ويؤكد “نقطة الانحراف تأتي في هذا الوقت الآن”، في العقد القادم سيكون هناك نسبة كبيرة من السيارات في العالم عالية التأتمتة.

يعتقد huangrenxun أن الذكاء الاصطناعي في المستقبل ليس فقط متعدد الأنماط، بل “متعدد النموذج”. يجب أن يكون النظام الأذكى قادرا على استدعاء أنسب نموذج لكل مهمة، النظام الأكثر واقعية طبيعيا هو سحابة متعددة والسحابة الهجينة والحوسبة الطرفية. هذا يعني أن جوهر تطبيقات الذكاء الاصطناعي، هو في الواقع مجموعة من بنية التخطيط والاستدلال، وكيان يمكنه الحكم على النية، واختيار النموذج، واستدعاء الأدوات، وجمع النتائج. يعتقد huangrenxun أن هذا النوع من الكيان يصبح “واجهة المستخدم” الجديدة، لم تعد Excel، لم تعد النماذج، لم تعد سطور الأوامر.

تمر شركة NVIDIA بلحظة متناقضة. يبدو أنها أخطر واحدة في جميع سردية الفقاعات، تجاوزت القيمة السوقية ارتفاعات غير مسبوقة. لكن يبدو أيضا أنها الأقوى بين جميع أسهم مفهوم الذكاء الاصطناعي، إيرادات فصلية وأرباح صافية بمئات المليارات من الدولارات، هامش ربح إجمالي يصل إلى 70%. عندما تسيطر شركة واحدة على السرد التكنولوجي، والموضع المهم في سلسلة الصناعة، والاهتمام السوق المالي، تصبح أيقونة. فائدة الأيقونة هي أن الإيمان يجلب علاوة، العيب هو أن العلاوة تعني أنك لا تستطيع أن تخطئ.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت