العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
نقش في الحجر - ForkLog: العملات الرقمية، الذكاء الاصطناعي، التفرد، المستقبل
كيف تتجاوز شرائح الذكاء الاصطناعي “حائط الذاكرة”
تقليديًا، تُستخدم وحدات معالجة الرسومات (GPU) للمستهلكين للألعاب والتصيير. ومع ذلك، فهي قادرة على أداء مهام أخرى تتطلب حسابات متوازية
يمكن تشغيل، على سبيل المثال، منجم PoW لاستخراج العملات الرقمية على وحدة معالجة الرسومات، لكن في ظل المنافسة مع المعدات المتخصصة، أصبحت مزارع GPU حلاً للمشاريع المتخصصة
وضع مشابه يتشكل في مجال الذكاء الاصطناعي. أصبحت بطاقات الرسوميات الأداة الأساسية للحوسبة للشبكات العصبية. ولكن مع تطور الصناعة، ظهرت حاجة إلى حلول مخصصة للعمل مع الذكاء الاصطناعي. قام ForkLog بتحليل الحالة الراهنة لسباق الذكاء الاصطناعي الجديد.
تحسين السيليكون للذكاء الاصطناعي
هناك عدة طرق لإنشاء معدات مخصصة لمهام الذكاء الاصطناعي.
يمكن اعتبار وحدات معالجة الرسوميات للمستهلكين نقطة انطلاق نحو التخصص. قدرتها على العمل مع العمليات المصفوفية المتوازية كانت مفيدة لنشر الشبكات العصبية وخاصة التعلم العميق، لكن لا تزال هناك مساحة للتحسين.
إحدى المشكلات الرئيسية في الذكاء الاصطناعي على بطاقة الرسوميات هي الحاجة إلى نقل كميات كبيرة من البيانات باستمرار بين الذاكرة النظامية ووحدة المعالجة الرسومية. يمكن أن تستغرق هذه العمليات المصاحبة وقتًا وطاقة أكثر من الحسابات المفيدة نفسها.
مشكلة أخرى تنبع من مرونة وحدة معالجة الرسوميات. فهندستها مصممة لمجموعة واسعة من المهام — من التصيير إلى الحسابات العامة. ونتيجة لذلك، بعض الوحدات المادية تكون زائدة عن الحاجة للأعباء المخصصة للذكاء الاصطناعي.
قيد آخر هو تنسيق البيانات. تاريخيًا، كانت وحدات المعالجة الرسومية محسنة للعمليات باستخدام FP32 — أرقام ذات 32 بت ذات فاصلة عائمة. عادةً، تُستخدم تنسيقات أدق أقل: FP16 و BF16 ذات 16 بت، والأعداد الصحيحة INT4 و INT8.
Nvidia H200 و B200
واحدة من أكثر المنتجات شعبية للاستنتاج والتدريب هي شرائح H200 وأنظمة الخوادم DGX B200 — والتي تمثل بشكل كبير “تعزيزات” لوحدات معالجة الرسوميات لمراكز البيانات.
العنصر الرئيسي الموجه للذكاء الاصطناعي في هذه المسرعات هو النوى التنسورية، المخصصة للعمليات المصفوفية فائقة السرعة مثل تدريب النماذج والاستنتاج الدفعي.
لتقليل التأخيرات عند الوصول إلى البيانات، تزود Nvidia بطاقاتها بذاكرة عالية الأداء (HBM، ذاكرة عرض النطاق الترددي العالي). في H200، يوجد 141 جيجابايت من HBM3e بسرعة نقل تصل إلى 4.8 تيرابايت/ثانية، وفي B200، تتجاوز هذه الأرقام حسب التكوين.
وحدة المعالجة بالتنسور (TPU)
بحلول عام 2015، طورت Google وحدة معالجة بالتنسور (TPU) — معالج ASIC يعتمد على مصفوفات سيسطولية، مخصص للتعلم الآلي.
تمر البيانات عبر مصفوفة من الكتل، كل منها ينفذ عملية رياضية ويعطي النتيجة للكتلة التالية. يتم الوصول إلى الذاكرة فقط في بداية ونهاية التسلسل الحسابي.
يسمح هذا النهج بتقليل الوقت والطاقة المستهلكة في حسابات الذكاء الاصطناعي مقارنة بمعالج رسومي غير متخصص، لكن العمل مع الذاكرة الخارجية لا يزال عاملاً مقيدًا.
Cerebras
شركة Cerebras الأمريكية وجدت طريقة لاستخدام لوحة سيليكون كاملة كمعالج، والتي عادةً تُقطع إلى عناصر أصغر لإنتاج الشرائح.
في عام 2019، قدم المطورون أول محرك Wafer-Scale بحجم 300 مم. وفي 2024، أطلقت الشركة معالج WSE-3 المطور حديثًا، بشريحة 460 مم و900,000 نواة.
وفقًا للمطورين، تكفي العديد من نماذج الاستنتاج لوحدة WSE-3 واحدة. وللمهام الأكبر، يمكن تجميع عنقود من عدة شرائح من هذا النوع.
Groq LPU
شركة Groq (لا تخلط مع Grok من xAI) تقدم شرائح ASIC خاصة بها للاستنتاج تعتمد على بنية وحدة معالجة اللغة (LPU)
يعتمد الاستنتاج على توليد الرموز بشكل متتابع: كل خطوة تتطلب إنهاء الرموز السابقة. في ظل هذه الظروف، تعتمد الأداء بشكل أكبر على سرعة تدفق واحد، بدلاً من عددها
على عكس المعالجات العامة التقليدية وبعض أجهزة الذكاء الاصطناعي المخصصة، لا تقوم Groq بإنشاء تعليمات الآلة أثناء تنفيذ المهمة. كل عملية مخططة مسبقًا في “جدول زمني” خاص بها ومربوطة بوقت معين في عمل المعالج.
وفي الوقت نفسه، مثل العديد من معززات الذكاء الاصطناعي الأخرى، تجمع LPU بين وحدات المنطق والذاكرة على شريحة واحدة لتقليل تكاليف نقل البيانات
Taalas
جميع الأمثلة السابقة تتطلب قدرًا عاليًا من القابلية للبرمجة. يتم تحميل النموذج والأوزان الضرورية في ذاكرة قابلة لإعادة الكتابة. في أي لحظة، يمكن للمشغل تحميل نموذج مختلف تمامًا أو إجراء تعديلات.
بهذا النهج، تعتمد الأداء على توفر، وسرعة، وحجم الذاكرة.
تخطت شركة Taalas ذلك، حيث قررت “دمج” نموذج معين مع الأوزان الجاهزة مباشرة في الشريحة على مستوى بنية الترانزستور.
يُنفذ النموذج، الذي عادةً يكون برمجياً، على مستوى الأجهزة، مما يسمح بالتخلي عن مخزن بيانات عام منفصل وتكاليفه المرتبطة.
في أول حل لها — بطاقة الاستنتاج HC1 — استخدمت الشركة نموذج Llama 3.1 8B المفتوح المصدر
وتعلن الشركة عن زيادة أداء بمئات المرات مقارنة بوحدة معالجة الرسوميات من حيث استهلاك الطاقة والتكلفة.
لكن لهذه الطريقة عيبًا جوهريًا — عدم القدرة على تحديث النموذج إلا باستبدال الشريحة بالكامل.
وفي الوقت نفسه، زودت HC1 بدعم LoRA — طريقة “تعديل” نماذج اللغة الكبيرة عبر إضافة أوزان إضافية. ومع التكوين الصحيح لـ LoRA، يمكن تحويل النموذج إلى متخصص في مجال معين.
تحد آخر يتعلق بتصميم وإنتاج مثل هذه “النماذج الفيزيائية”. تطوير ASIC يتطلب تكاليف عالية وقد يستغرق سنوات. وفي ظل المنافسة الشديدة في صناعة الذكاء الاصطناعي، يُعد ذلك قيدًا كبيرًا.
تعلن Taalas عن طريقة جديدة لتوليد بنية المعالج، تهدف إلى حل هذه المشكلة. حيث تقوم نظام تلقائي بتحويل النموذج ومجموعة الأوزان إلى تصميم جاهز للشريحة خلال أسبوع.
وفقًا لتقييمات الشركة، ستستغرق دورة الإنتاج من الحصول على نموذج جديد غير معروف سابقًا إلى إصدار شرائح جاهزة بتجسيدها الفيزيائي حوالي شهرين.
مستقبل الاستنتاج المحلي
تحتل الشرائح المخصصة الجديدة للذكاء الاصطناعي مكانة أساسية في مراكز البيانات الضخمة، وتوفر خدمات سحابية مقابل رسوم. الحلول غير التقليدية، حتى “النماذج الفيزيائية” المطبقة مباشرة في السيليكون، ليست استثناءً.
بالنسبة للمستهلك، سيكون الاختراق الهندسي الثوري في خفض تكلفة الخدمات وتسريع الأداء.
وفي الوقت نفسه، يخلق ظهور شرائح أبسط وأرخص وأكثر كفاءة في استهلاك الطاقة أساسًا لتعميم الحلول المحلية للاستنتاج.
حاليًا، توجد شرائح الذكاء الاصطناعي المخصصة في الهواتف الذكية وأجهزة اللابتوب، والكاميرات الأمنية، وحتى أبواب الأجراس. تتيح أداء المهام محليًا، مع تقليل التأخير، وزيادة الاستقلالية، والحفاظ على الخصوصية.
يعمل التحسين الجذري، حتى مع التضحية بالمرونة في اختيار واستبدال النموذج، على توسيع قدرات هذه الأجهزة بشكل كبير، ويسمح بدمج مكونات ذكاء اصطناعي بسيطة في منتجات رخيصة ومنتشرة.
إذا بدأ معظم المستخدمين في توجيه طلباتهم إلى نماذج تعمل على أجهزة محلية، قد ينخفض الحمل على مراكز البيانات، مما يقلل من خطر إرهاق الصناعة. وربما، لن يكون هناك حاجة للبحث عن طرق جذرية لزيادة القدرات الحاسوبية — مثل إطلاقها في المدار