نقش في الحجر - ForkLog: العملات الرقمية، الذكاء الاصطناعي، التفرد، المستقبل

img-e85279aa380bface-8456330719811929# نقش في الحجر

كيف تتجاوز شرائح الذكاء الاصطناعي “حائط الذاكرة”

تقليديًا، تُستخدم وحدات معالجة الرسومات (GPU) للمستهلكين للألعاب والتصيير. ومع ذلك، فهي قادرة على أداء مهام أخرى تتطلب حسابات متوازية

يمكن تشغيل، على سبيل المثال، منجم PoW لاستخراج العملات الرقمية على وحدة معالجة الرسومات، لكن في ظل المنافسة مع المعدات المتخصصة، أصبحت مزارع GPU حلاً للمشاريع المتخصصة

وضع مشابه يتشكل في مجال الذكاء الاصطناعي. أصبحت بطاقات الرسوميات الأداة الأساسية للحوسبة للشبكات العصبية. ولكن مع تطور الصناعة، ظهرت حاجة إلى حلول مخصصة للعمل مع الذكاء الاصطناعي. قام ForkLog بتحليل الحالة الراهنة لسباق الذكاء الاصطناعي الجديد.

تحسين السيليكون للذكاء الاصطناعي

هناك عدة طرق لإنشاء معدات مخصصة لمهام الذكاء الاصطناعي.

يمكن اعتبار وحدات معالجة الرسوميات للمستهلكين نقطة انطلاق نحو التخصص. قدرتها على العمل مع العمليات المصفوفية المتوازية كانت مفيدة لنشر الشبكات العصبية وخاصة التعلم العميق، لكن لا تزال هناك مساحة للتحسين.

إحدى المشكلات الرئيسية في الذكاء الاصطناعي على بطاقة الرسوميات هي الحاجة إلى نقل كميات كبيرة من البيانات باستمرار بين الذاكرة النظامية ووحدة المعالجة الرسومية. يمكن أن تستغرق هذه العمليات المصاحبة وقتًا وطاقة أكثر من الحسابات المفيدة نفسها.

مشكلة أخرى تنبع من مرونة وحدة معالجة الرسوميات. فهندستها مصممة لمجموعة واسعة من المهام — من التصيير إلى الحسابات العامة. ونتيجة لذلك، بعض الوحدات المادية تكون زائدة عن الحاجة للأعباء المخصصة للذكاء الاصطناعي.

قيد آخر هو تنسيق البيانات. تاريخيًا، كانت وحدات المعالجة الرسومية محسنة للعمليات باستخدام FP32 — أرقام ذات 32 بت ذات فاصلة عائمة. عادةً، تُستخدم تنسيقات أدق أقل: FP16 و BF16 ذات 16 بت، والأعداد الصحيحة INT4 و INT8.

Nvidia H200 و B200

واحدة من أكثر المنتجات شعبية للاستنتاج والتدريب هي شرائح H200 وأنظمة الخوادم DGX B200 — والتي تمثل بشكل كبير “تعزيزات” لوحدات معالجة الرسوميات لمراكز البيانات.

العنصر الرئيسي الموجه للذكاء الاصطناعي في هذه المسرعات هو النوى التنسورية، المخصصة للعمليات المصفوفية فائقة السرعة مثل تدريب النماذج والاستنتاج الدفعي.

لتقليل التأخيرات عند الوصول إلى البيانات، تزود Nvidia بطاقاتها بذاكرة عالية الأداء (HBM، ذاكرة عرض النطاق الترددي العالي). في H200، يوجد 141 جيجابايت من HBM3e بسرعة نقل تصل إلى 4.8 تيرابايت/ثانية، وفي B200، تتجاوز هذه الأرقام حسب التكوين.

وحدة المعالجة بالتنسور (TPU)

بحلول عام 2015، طورت Google وحدة معالجة بالتنسور (TPU) — معالج ASIC يعتمد على مصفوفات سيسطولية، مخصص للتعلم الآلي.

وحدة المعالجة بالتنسور 3.0. المصدر: ويكيبيديا. في بنية المعالجات التقليدية — CPU و GPU — كل عملية تتطلب قراءة ومعالجة وكتابة البيانات الوسيطة في الذاكرة

تمر البيانات عبر مصفوفة من الكتل، كل منها ينفذ عملية رياضية ويعطي النتيجة للكتلة التالية. يتم الوصول إلى الذاكرة فقط في بداية ونهاية التسلسل الحسابي.

يسمح هذا النهج بتقليل الوقت والطاقة المستهلكة في حسابات الذكاء الاصطناعي مقارنة بمعالج رسومي غير متخصص، لكن العمل مع الذاكرة الخارجية لا يزال عاملاً مقيدًا.

Cerebras

شركة Cerebras الأمريكية وجدت طريقة لاستخدام لوحة سيليكون كاملة كمعالج، والتي عادةً تُقطع إلى عناصر أصغر لإنتاج الشرائح.

في عام 2019، قدم المطورون أول محرك Wafer-Scale بحجم 300 مم. وفي 2024، أطلقت الشركة معالج WSE-3 المطور حديثًا، بشريحة 460 مم و900,000 نواة.

Cerebras WSE-3 واثنان من شرائح Nvidia B200. المصدر: Cerebras. تتضمن بنية Cerebras توزيع وحدات الذاكرة SRAM بالقرب من وحدات المنطق على نفس اللوحة السيليكونية. ويعمل كل نواة على 48 كيلوبايت من الذاكرة المحلية، ولا تتنافس مع النوى الأخرى على الوصول.

وفقًا للمطورين، تكفي العديد من نماذج الاستنتاج لوحدة WSE-3 واحدة. وللمهام الأكبر، يمكن تجميع عنقود من عدة شرائح من هذا النوع.

Groq LPU

شركة Groq (لا تخلط مع Grok من xAI) تقدم شرائح ASIC خاصة بها للاستنتاج تعتمد على بنية وحدة معالجة اللغة (LPU)

صورة لشرائح Groq. المصدر: Groq. أحد الميزات الرئيسية لشرائح Groq هو تحسينها للعمليات التسلسلية

يعتمد الاستنتاج على توليد الرموز بشكل متتابع: كل خطوة تتطلب إنهاء الرموز السابقة. في ظل هذه الظروف، تعتمد الأداء بشكل أكبر على سرعة تدفق واحد، بدلاً من عددها

على عكس المعالجات العامة التقليدية وبعض أجهزة الذكاء الاصطناعي المخصصة، لا تقوم Groq بإنشاء تعليمات الآلة أثناء تنفيذ المهمة. كل عملية مخططة مسبقًا في “جدول زمني” خاص بها ومربوطة بوقت معين في عمل المعالج.

وفي الوقت نفسه، مثل العديد من معززات الذكاء الاصطناعي الأخرى، تجمع LPU بين وحدات المنطق والذاكرة على شريحة واحدة لتقليل تكاليف نقل البيانات

Taalas

جميع الأمثلة السابقة تتطلب قدرًا عاليًا من القابلية للبرمجة. يتم تحميل النموذج والأوزان الضرورية في ذاكرة قابلة لإعادة الكتابة. في أي لحظة، يمكن للمشغل تحميل نموذج مختلف تمامًا أو إجراء تعديلات.

بهذا النهج، تعتمد الأداء على توفر، وسرعة، وحجم الذاكرة.

تخطت شركة Taalas ذلك، حيث قررت “دمج” نموذج معين مع الأوزان الجاهزة مباشرة في الشريحة على مستوى بنية الترانزستور.

يُنفذ النموذج، الذي عادةً يكون برمجياً، على مستوى الأجهزة، مما يسمح بالتخلي عن مخزن بيانات عام منفصل وتكاليفه المرتبطة.

في أول حل لها — بطاقة الاستنتاج HC1 — استخدمت الشركة نموذج Llama 3.1 8B المفتوح المصدر

Taalas HC1. المصدر: Taalas. تدعم البطاقة دقة منخفضة تصل إلى 3 و6 بت للمعلمات، مما يسرع المعالجة. ووفقًا لادعاءات Taalas، تعالج HC1 حتى 17000 رمز في الثانية، وتظل جهازًا منخفض التكلفة وذو استهلاك منخفض للطاقة.

وتعلن الشركة عن زيادة أداء بمئات المرات مقارنة بوحدة معالجة الرسوميات من حيث استهلاك الطاقة والتكلفة.

لكن لهذه الطريقة عيبًا جوهريًا — عدم القدرة على تحديث النموذج إلا باستبدال الشريحة بالكامل.

وفي الوقت نفسه، زودت HC1 بدعم LoRA — طريقة “تعديل” نماذج اللغة الكبيرة عبر إضافة أوزان إضافية. ومع التكوين الصحيح لـ LoRA، يمكن تحويل النموذج إلى متخصص في مجال معين.

تحد آخر يتعلق بتصميم وإنتاج مثل هذه “النماذج الفيزيائية”. تطوير ASIC يتطلب تكاليف عالية وقد يستغرق سنوات. وفي ظل المنافسة الشديدة في صناعة الذكاء الاصطناعي، يُعد ذلك قيدًا كبيرًا.

تعلن Taalas عن طريقة جديدة لتوليد بنية المعالج، تهدف إلى حل هذه المشكلة. حيث تقوم نظام تلقائي بتحويل النموذج ومجموعة الأوزان إلى تصميم جاهز للشريحة خلال أسبوع.

وفقًا لتقييمات الشركة، ستستغرق دورة الإنتاج من الحصول على نموذج جديد غير معروف سابقًا إلى إصدار شرائح جاهزة بتجسيدها الفيزيائي حوالي شهرين.

مستقبل الاستنتاج المحلي

تحتل الشرائح المخصصة الجديدة للذكاء الاصطناعي مكانة أساسية في مراكز البيانات الضخمة، وتوفر خدمات سحابية مقابل رسوم. الحلول غير التقليدية، حتى “النماذج الفيزيائية” المطبقة مباشرة في السيليكون، ليست استثناءً.

بالنسبة للمستهلك، سيكون الاختراق الهندسي الثوري في خفض تكلفة الخدمات وتسريع الأداء.

وفي الوقت نفسه، يخلق ظهور شرائح أبسط وأرخص وأكثر كفاءة في استهلاك الطاقة أساسًا لتعميم الحلول المحلية للاستنتاج.

حاليًا، توجد شرائح الذكاء الاصطناعي المخصصة في الهواتف الذكية وأجهزة اللابتوب، والكاميرات الأمنية، وحتى أبواب الأجراس. تتيح أداء المهام محليًا، مع تقليل التأخير، وزيادة الاستقلالية، والحفاظ على الخصوصية.

يعمل التحسين الجذري، حتى مع التضحية بالمرونة في اختيار واستبدال النموذج، على توسيع قدرات هذه الأجهزة بشكل كبير، ويسمح بدمج مكونات ذكاء اصطناعي بسيطة في منتجات رخيصة ومنتشرة.

إذا بدأ معظم المستخدمين في توجيه طلباتهم إلى نماذج تعمل على أجهزة محلية، قد ينخفض الحمل على مراكز البيانات، مما يقلل من خطر إرهاق الصناعة. وربما، لن يكون هناك حاجة للبحث عن طرق جذرية لزيادة القدرات الحاسوبية — مثل إطلاقها في المدار

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.42Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • تثبيت