الذكاء الاصطناعي والعملة المشفرة: من الصفر إلى القمة
تعتبر التطورات الأخيرة في صناعة الذكاء الاصطناعي بمثابة الثورة الصناعية الرابعة. لقد ساهم ظهور النماذج الكبيرة بشكل كبير في تحسين كفاءة مختلف الصناعات، حيث يُقدّر أنها زادت من كفاءة العمل في الولايات المتحدة بنحو 20%. تُعتبر القدرة على التعميم التي توفرها النماذج الكبيرة نموذج تصميم برمجي جديد، حيث يمكن أن تدعم مجموعة واسعة من المدخلات والمخرجات. لقد جلبت تقنيات التعلم العميق ازدهارًا رابعًا لصناعة الذكاء الاصطناعي، وقد انتشرت هذه الظاهرة أيضًا إلى صناعة العملات المشفرة.
ستستكشف هذه التقرير تاريخ تطور صناعة الذكاء الاصطناعي، وتصنيفات التقنية، وتأثير تقنية التعلم العميق على الصناعة. سيتم إجراء تحليل عميق لحالة وتوجهات تطوير سلسلة القيمة في التعلم العميق، بما في ذلك وحدات معالجة الرسومات (GPU)، والحوسبة السحابية، ومصادر البيانات، والأجهزة الطرفية. سيتم تناول العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، وتنظيم هيكل سلسلة القيمة المرتبطة بالعملات المشفرة.
بدأت صناعة الذكاء الاصطناعي منذ الخمسينيات من القرن العشرين، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة ومن خلفيات علمية متنوعة العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل رئيسي مصطلح "التعلم الآلي"، حيث تقوم فكرة هذه التقنية على جعل الآلات تعتمد على البيانات للتكرار في المهام لتحسين أداء النظام. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار نشر النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
حاليًا، هناك ثلاثة تيارات رئيسية في التعلم الآلي، وهي الاتصال، الرمزية، والسلوكية، والتي تحاكي على التوالي النظام العصبي البشري، التفكير، والسلوك.
حاليًا، يحتل الاتصال الذي تمثله الشبكات العصبية، والذي يعرف أيضًا بالتعلم العميق، الصدارة، والسبب الرئيسي هو أن هذه البنية تحتوي على طبقة إدخال وطبقة إخراج، ولكن بها عدة طبقات مخفية. عندما تصبح عدد الطبقات وعدد الخلايا العصبية كافية، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وبعد عدة تجارب بيانات، ستصل هذه الخلية العصبية إلى الحالة المثلى، وهذا هو أصل كلمة "عميق" - عدد كافٍ من الطبقات والخلايا العصبية.
على سبيل المثال، يمكن فهمه ببساطة على أنه تم إنشاء دالة، حيث تكون المدخلات X=2 تعطي Y=3؛ وعندما X=3 تعطي Y=5. إذا كنت ترغب في أن تتعامل هذه الدالة مع جميع قيم X، فستحتاج إلى إضافة درجة هذه الدالة ومعاملاتها باستمرار. على سبيل المثال، يمكن إنشاء دالة تحقق هذه الشروط على أنها Y = 2X -1، ولكن إذا كانت هناك بيانات حيث X=2 وY=11، فستحتاج إلى إعادة بناء دالة تناسب هذه النقاط الثلاثة. باستخدام GPU لتجربة القوة الغاشمة، تم اكتشاف أن Y = X2 -3X +5 هو الأنسب، لكن ليس من الضروري أن تتطابق تمامًا مع البيانات، فقط يجب أن تتبع التوازن، وإخراج مشابه بشكل عام. هنا، يمثل X2 وX وX0 خلايا عصبية مختلفة، في حين أن 1 و-3 و5 هي معاملاتها.
في هذه الحالة، إذا أدخلنا كمية كبيرة من البيانات إلى الشبكة العصبية، يمكننا زيادة عدد الخلايا العصبية وتكرار المعلمات لتناسب البيانات الجديدة. بهذه الطريقة، يمكننا ملاءمة جميع البيانات.
تكنولوجيا التعلم العميق المعتمدة على الشبكات العصبية، شهدت أيضًا العديد من التكرارات والتطورات التقنية، بدءًا من الشبكات العصبية المبكرة، الشبكات العصبية التغذوية، RNN، CNN، GAN، وأخيرًا تطورت إلى النماذج الكبيرة الحديثة مثل GPT، التي تستخدم تقنية Transformer. تقنية Transformer ليست سوى اتجاه تطوري واحد من الشبكات العصبية، حيث أضافت محولًا ( Transformer )، لتحويل جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم عددية مناسبة لتمثيلها. ثم يتم إدخال هذه البيانات إلى الشبكة العصبية، مما يمكن الشبكة العصبية من ملاءمة أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
مرّت تطورات الذكاء الاصطناعي بثلاثة أمواج تكنولوجية، حيث كانت الموجة الأولى في الستينيات من القرن العشرين، بعد عقد من طرح تقنية الذكاء الاصطناعي. نشأت هذه الموجة نتيجة لتطور تقنيات الرمزية، والتي حلت مشاكل معالجة اللغة الطبيعية العامة والحوار بين الإنسان والآلة. في نفس الفترة، وُلِد نظام الخبراء، وهو نظام خبير في الكيمياء مكتمل، حيث يمتلك هذا النظام معرفة قوية جداً في الكيمياء، ويقوم باستنتاج الإجابات بشكل مشابه لخبير الكيمياء من خلال الأسئلة. يمكن اعتبار هذا النظام الخبير في الكيمياء بمثابة دمج بين قاعدة بيانات المعرفة الكيميائية ونظام الاستنتاج.
بعد نظام الخبراء، اقترح جوديا بيرل في التسعينيات من القرن العشرين شبكة بايزي، والتي تُعرف أيضًا بشبكة المعتقدات. في نفس الفترة، اقترح بروكس علم الروبوتات القائم على السلوك، مما يمثل ولادة السلوكية.
في عام 1997، هزم "بلو" من IBM، بواقع 3.5:2.5، بطل الشطرنج كاسباروف(Kasparov)، وقد اعتُبر هذا الانتصار بمثابة معلم بارز في الذكاء الاصطناعي، حيث شهدت تقنيات الذكاء الاصطناعي ذروة ثانية من التطور.
حدثت الموجة الثالثة من تقنية الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق يان ليكون وجيفري هينتون ويوشوا بينجيو مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN وGAN إلى Transformer وStable Diffusion، حيث شكلت هذه الخوارزميات معاً هذه الموجة التقنية الثالثة، وكانت هذه أيضاً فترة ذروة الارتباطية.
ظهرت العديد من الأحداث البارزة بالتزامن مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، تغلب نظام واتسون( من IBM على البشر وفاز بالبطولة في برنامج اختبار 《خطر الحدود》) Jeopardy(.
في عام 2014، قدم غودفيلو شبكة الخصومة التوليدية GAN)، Generative Adversarial Network(، والتي تتعلم من خلال جعل شبكتين عصبيتين تتنافسان ضد بعضهما البعض، مما يمكنها من إنتاج صور تبدو واقعية للغاية. في الوقت نفسه، كتب غودفيلو أيضًا كتابًا بعنوان "Deep Learning"، المعروف باسم الكتاب الزهري، وهو واحد من الكتب الأساسية المهمة في مجال التعلم العميق.
في عام 2015، اقترح هينتون وآخرون خوارزمية التعلم العميق في مجلة "Nature"، وقد أثار هذا الاقتراح لطريقة التعلم العميق ردود فعل هائلة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، وأعلن عدد من المستثمرين المعروفين عن استثمار مشترك بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، المدعومة بتقنية التعلم العميق، معركة شطرنج ضد بطل العالم في الشطرنج، اللاعب المحترف من الدرجة التاسعة لي شي شي، وحققت الفوز بنتيجة 4 إلى 1.
في عام 2017، طورت شركة تقنية الروبوتات إنسانًا آليًا يُدعى صوفيا، والذي يُعتبر أول إنسان آلي يحصل على الجنسية كأول مواطن في التاريخ، ويتميز بتعبيرات وجه غنية وقدرة على فهم اللغة البشرية.
في عام 2017، نشرت جوجل ورقة بحثية بعنوان "Attention is all you need" قدمت فيها خوارزمية Transformers، وبدأت نماذج اللغة الكبيرة تظهر.
في عام 2018، أصدرت OpenAI نموذج GPT) (المولد المدرب مسبقًا بالاعتماد على خوارزمية Transformer) وهو واحد من أكبر نماذج اللغة في ذلك الوقت.
في عام 2018، أصدرت فريق Google Deepmind AlphaGo القائم على التعلم العميق، والذي يمكنه التنبؤ بهيكل البروتين، ويعتبر علامة على التقدم الكبير في مجال الذكاء الاصطناعي.
في عام 2019، أصدرت OpenAI نموذج GPT-2، والذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طورت OpenAI نموذج GPT-3 الذي يحتوي على 175 مليار معلمة، وهو أعلى بمئة مرة من الإصدار السابق GPT-2. تم تدريب هذا النموذج على 570 جيجابايت من النصوص، ويمكنه تحقيق أداء متقدم في مهام معالجة اللغة الطبيعية مثل الإجابة على الأسئلة، والترجمة، وكتابة المقالات.
في عام 2021، أصدرت OpenAI GPT-4، حيث يحتوي النموذج على 1.76 تريليون معلمة، وهو 10 مرات أكبر من GPT-3.
تم إطلاق تطبيق ChatGPT القائم على نموذج GPT-4 في يناير 2023، وفي مارس وصل عدد مستخدمي ChatGPT إلى مئة مليون مستخدم، ليصبح التطبيق الذي وصل إلى مئة مليون مستخدم بأسرع وقت في التاريخ.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
سلسلة صناعة التعلم العميق
تستخدم نماذج اللغة الكبيرة الحالية طرق تعلم عميقة قائمة على الشبكات العصبية. لقد أدت النماذج الكبيرة بقيادة GPT إلى ظهور موجة من الذكاء الاصطناعي، مما جذب عددًا كبيرًا من اللاعبين إلى هذا المجال. كما لاحظنا أن السوق تشهد انفجارًا كبيرًا في الطلب على البيانات والقدرة الحسابية، لذلك في هذا الجزء من التقرير، نستكشف بشكل أساسي سلسلة صناعة خوارزميات التعلم العميق. في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، كيف تتكون السلاسل التوريد والتوزيع، وما هي حالة العرض والطلب الحالية، وكيف ستتطور في المستقبل.
أولاً، نحتاج إلى توضيح أنه عند إجراء تدريب نموذج LLMs الكبير الرائد GPT المعتمد على تقنية Transformer)، يتم تقسيم العملية إلى ثلاثة خطوات.
قبل التدريب، وبما أنه يعتمد على Transformer، فإن المحول يحتاج إلى تحويل مدخلات النص إلى قيم عددية، وهذه العملية تُعرف باسم "Tokenization"، وبعد ذلك تُعرف هذه القيم العددية باسم Tokens. وفقًا للقواعد التجريبية العامة، يمكن اعتبار كلمة إنجليزية أو حرف واحد بشكل تقريبي كToken واحد، بينما يمكن اعتبار كل حرف صيني بشكل تقريبي كTokenين. هذه هي الوحدة الأساسية المستخدمة في تسعير GPT.
الخطوة الأولى، التدريب المسبق. من خلال إعطاء طبقة الإدخال عددًا كافيًا من أزواج البيانات، مشابهة لتلك التي تم ذكرها في الجزء الأول من التقرير مثل (X,Y)، للبحث عن أفضل المعلمات لكل خلية عصبية في النموذج، في هذه المرحلة تحتاج إلى كمية كبيرة من البيانات، وهذه العملية هي أيضًا الأكثر استهلاكًا للطاقة الحاسوبية، لأنها تتطلب تكرارًا متكررًا للخلية العصبية لمحاولة معلمات مختلفة. بعد اكتمال تدريب مجموعة من أزواج البيانات، عادة ما يتم استخدام نفس مجموعة البيانات للتدريب الثاني من أجل تحسين المعلمات.
الخطوة الثانية، الضبط الدقيق. الضبط الدقيق هو إعطاء كمية صغيرة ولكنها ذات جودة عالية من البيانات للتدريب، وهذا التغيير سيجعل مخرجات النموذج ذات جودة أعلى، لأن التدريب المسبق يتطلب كميات كبيرة من البيانات، ولكن العديد من هذه البيانات قد تحتوي على أخطاء أو تكون ذات جودة منخفضة. يمكن أن تعزز خطوة الضبط الدقيق جودة النموذج من خلال بيانات عالية الجودة.
الخطوة الثالثة ، التعلم المعزز. أولاً ، سيتم إنشاء نموذج جديد تمامًا ، نسميه "نموذج المكافأة". الغرض من هذا النموذج بسيط جدًا ، وهو تصنيف النتائج الناتجة. وبالتالي ، سيكون تنفيذ هذا النموذج بسيطًا نسبيًا ، لأن سيناريو العمل عمودي للغاية. بعد ذلك ، سيتم استخدام هذا النموذج لتحديد ما إذا كانت مخرجات نموذجنا الكبير ذات جودة عالية ، بحيث يمكن استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ( لكن في بعض الأحيان يكون من الضروري أيضًا المشاركة البشرية لتقييم جودة مخرجات النموذج )
بعبارة بسيطة، خلال عملية تدريب النموذج الكبير، تتطلب المرحلة المسبقة التدريب كمية بيانات عالية جداً، وتكون قوة حساب GPU المطلوبة هي الأكبر، بينما تتطلب مرحلة التعديل بيانات ذات جودة أعلى لتحسين المعلمات، ويمكن للتعلم التعزيزي أن يكرر المعلمات من خلال نموذج مكافأة لإنتاج نتائج ذات جودة أعلى.
أثناء عملية التدريب، كلما زاد عدد المعلمات، زادت قدرة النموذج على التعميم. على سبيل المثال، في المثال الذي يستند إلى الدالة Y = aX + b، يوجد في الواقع عصبونان هما X و X0. لذلك، فإن كيفية تغير المعلمات تحد من كمية البيانات التي يمكن تمثيلها، لأن طبيعتها لا تزال خطًا مستقيمًا. إذا زاد عدد العصبونات، فسيكون من الممكن تكرار المزيد من المعلمات، مما يسمح بتمثيل المزيد من البيانات. هذه هي السبب وراء ظهور نماذج كبيرة مع نتائج رائعة، وهي أيضًا السبب وراء تسمية هذه النماذج الكبيرة بهذا الاسم، حيث تتكون في جوهرها من عدد هائل من العصبونات والمعلمات، بالإضافة إلى كميات هائلة من البيانات، مما يتطلب أيضًا قدرًا هائلًا من القدرة الحاسوبية.
لذلك، يتحدد أداء النماذج الكبيرة بشكل أساسي من خلال ثلاثة جوانب: عدد المعلمات، كمية وجودة البيانات، وقوة الحوسبة. هذه الثلاثة تؤثر بشكل مشترك على جودة نتائج النموذج وقدرته على التعميم. لنفترض أن عدد المعلمات هو p، وكمية البيانات هي n( محسوبة بعدد الرموز )، يمكننا بعد ذلك حساب كمية الحوسبة المطلوبة من خلال قاعدة خبرة عامة، مما يسمح لنا بتقدير كمية قوة الحوسبة التي نحتاج إلى شرائها ومدة التدريب.
تُستخدم قدرة الحوسبة عمومًا كواحدات أساسية من Flops، والتي تمثل عملية حساب عائمة واحدة. تعتبر العمليات الحسابية العائمة عبارة عن مجموعة من العمليات الحسابية غير الصحيحة مثل الجمع والطرح والضرب والقسمة، مثل 2.5 + 3.557، حيث تمثل العمليات العائمة القدرة على التعامل مع الأرقام العشرية. FP16 تمثل الدقة التي تدعم الأعداد العشرية، بينما FP32 هي الدقة الأكثر شيوعًا. وفقًا لقواعد التجربة العملية، تتطلب عملية ما قبل التدريب ( Pre-training ) عملية تدريب واحدة ( عادة ما تحتاج إلى عدة جولات من التدريب على نموذج كبير، ويُفترض أنها تحتاج حوالي 6np Flops، حيث يُطلق على الرقم 6 اسم الثابت الصناعي. بينما تشير عملية الاستدلال ) Inference إلى إدخال بيانات معينة وانتظار مخرجات النموذج الكبير (، وتنقسم إلى جزئين، إدخال n توكن، وإخراج n توكن، وبالتالي تحتاج حوالي 2np Flops بشكل إجمالي.
في البداية، كانت تستخدم شرائح CPU لتوفير دعم القوة الحاسوبية للتدريب، ولكن بعد ذلك بدأت تدريجياً في استخدام GPU كبديل، مثل بعض شرائح GPU عالية الأداء. لأن CPU تعمل كحاسوب عام، ولكن GPU يمكن أن تعمل كحاسوب مخصص، فهي تتفوق بكثير على CPU من حيث كفاءة استهلاك الطاقة. تعمل GPU على إجراء العمليات الحسابية العائمة أساسًا من خلال وحدة تسمى Tensor Core.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
الدمج بين الذكاء الاصطناعي وصناعة الأصول الرقمية: من العمق إلى النماذج الكبيرة
الذكاء الاصطناعي والعملة المشفرة: من الصفر إلى القمة
تعتبر التطورات الأخيرة في صناعة الذكاء الاصطناعي بمثابة الثورة الصناعية الرابعة. لقد ساهم ظهور النماذج الكبيرة بشكل كبير في تحسين كفاءة مختلف الصناعات، حيث يُقدّر أنها زادت من كفاءة العمل في الولايات المتحدة بنحو 20%. تُعتبر القدرة على التعميم التي توفرها النماذج الكبيرة نموذج تصميم برمجي جديد، حيث يمكن أن تدعم مجموعة واسعة من المدخلات والمخرجات. لقد جلبت تقنيات التعلم العميق ازدهارًا رابعًا لصناعة الذكاء الاصطناعي، وقد انتشرت هذه الظاهرة أيضًا إلى صناعة العملات المشفرة.
ستستكشف هذه التقرير تاريخ تطور صناعة الذكاء الاصطناعي، وتصنيفات التقنية، وتأثير تقنية التعلم العميق على الصناعة. سيتم إجراء تحليل عميق لحالة وتوجهات تطوير سلسلة القيمة في التعلم العميق، بما في ذلك وحدات معالجة الرسومات (GPU)، والحوسبة السحابية، ومصادر البيانات، والأجهزة الطرفية. سيتم تناول العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، وتنظيم هيكل سلسلة القيمة المرتبطة بالعملات المشفرة.
! علم الوافد الجديد 丨 الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة
تاريخ تطور صناعة الذكاء الاصطناعي
بدأت صناعة الذكاء الاصطناعي منذ الخمسينيات من القرن العشرين، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة ومن خلفيات علمية متنوعة العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل رئيسي مصطلح "التعلم الآلي"، حيث تقوم فكرة هذه التقنية على جعل الآلات تعتمد على البيانات للتكرار في المهام لتحسين أداء النظام. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار نشر النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
حاليًا، هناك ثلاثة تيارات رئيسية في التعلم الآلي، وهي الاتصال، الرمزية، والسلوكية، والتي تحاكي على التوالي النظام العصبي البشري، التفكير، والسلوك.
حاليًا، يحتل الاتصال الذي تمثله الشبكات العصبية، والذي يعرف أيضًا بالتعلم العميق، الصدارة، والسبب الرئيسي هو أن هذه البنية تحتوي على طبقة إدخال وطبقة إخراج، ولكن بها عدة طبقات مخفية. عندما تصبح عدد الطبقات وعدد الخلايا العصبية كافية، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وبعد عدة تجارب بيانات، ستصل هذه الخلية العصبية إلى الحالة المثلى، وهذا هو أصل كلمة "عميق" - عدد كافٍ من الطبقات والخلايا العصبية.
على سبيل المثال، يمكن فهمه ببساطة على أنه تم إنشاء دالة، حيث تكون المدخلات X=2 تعطي Y=3؛ وعندما X=3 تعطي Y=5. إذا كنت ترغب في أن تتعامل هذه الدالة مع جميع قيم X، فستحتاج إلى إضافة درجة هذه الدالة ومعاملاتها باستمرار. على سبيل المثال، يمكن إنشاء دالة تحقق هذه الشروط على أنها Y = 2X -1، ولكن إذا كانت هناك بيانات حيث X=2 وY=11، فستحتاج إلى إعادة بناء دالة تناسب هذه النقاط الثلاثة. باستخدام GPU لتجربة القوة الغاشمة، تم اكتشاف أن Y = X2 -3X +5 هو الأنسب، لكن ليس من الضروري أن تتطابق تمامًا مع البيانات، فقط يجب أن تتبع التوازن، وإخراج مشابه بشكل عام. هنا، يمثل X2 وX وX0 خلايا عصبية مختلفة، في حين أن 1 و-3 و5 هي معاملاتها.
في هذه الحالة، إذا أدخلنا كمية كبيرة من البيانات إلى الشبكة العصبية، يمكننا زيادة عدد الخلايا العصبية وتكرار المعلمات لتناسب البيانات الجديدة. بهذه الطريقة، يمكننا ملاءمة جميع البيانات.
تكنولوجيا التعلم العميق المعتمدة على الشبكات العصبية، شهدت أيضًا العديد من التكرارات والتطورات التقنية، بدءًا من الشبكات العصبية المبكرة، الشبكات العصبية التغذوية، RNN، CNN، GAN، وأخيرًا تطورت إلى النماذج الكبيرة الحديثة مثل GPT، التي تستخدم تقنية Transformer. تقنية Transformer ليست سوى اتجاه تطوري واحد من الشبكات العصبية، حيث أضافت محولًا ( Transformer )، لتحويل جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم عددية مناسبة لتمثيلها. ثم يتم إدخال هذه البيانات إلى الشبكة العصبية، مما يمكن الشبكة العصبية من ملاءمة أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
مرّت تطورات الذكاء الاصطناعي بثلاثة أمواج تكنولوجية، حيث كانت الموجة الأولى في الستينيات من القرن العشرين، بعد عقد من طرح تقنية الذكاء الاصطناعي. نشأت هذه الموجة نتيجة لتطور تقنيات الرمزية، والتي حلت مشاكل معالجة اللغة الطبيعية العامة والحوار بين الإنسان والآلة. في نفس الفترة، وُلِد نظام الخبراء، وهو نظام خبير في الكيمياء مكتمل، حيث يمتلك هذا النظام معرفة قوية جداً في الكيمياء، ويقوم باستنتاج الإجابات بشكل مشابه لخبير الكيمياء من خلال الأسئلة. يمكن اعتبار هذا النظام الخبير في الكيمياء بمثابة دمج بين قاعدة بيانات المعرفة الكيميائية ونظام الاستنتاج.
بعد نظام الخبراء، اقترح جوديا بيرل في التسعينيات من القرن العشرين شبكة بايزي، والتي تُعرف أيضًا بشبكة المعتقدات. في نفس الفترة، اقترح بروكس علم الروبوتات القائم على السلوك، مما يمثل ولادة السلوكية.
في عام 1997، هزم "بلو" من IBM، بواقع 3.5:2.5، بطل الشطرنج كاسباروف(Kasparov)، وقد اعتُبر هذا الانتصار بمثابة معلم بارز في الذكاء الاصطناعي، حيث شهدت تقنيات الذكاء الاصطناعي ذروة ثانية من التطور.
حدثت الموجة الثالثة من تقنية الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق يان ليكون وجيفري هينتون ويوشوا بينجيو مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN وGAN إلى Transformer وStable Diffusion، حيث شكلت هذه الخوارزميات معاً هذه الموجة التقنية الثالثة، وكانت هذه أيضاً فترة ذروة الارتباطية.
ظهرت العديد من الأحداث البارزة بالتزامن مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، تغلب نظام واتسون( من IBM على البشر وفاز بالبطولة في برنامج اختبار 《خطر الحدود》) Jeopardy(.
في عام 2014، قدم غودفيلو شبكة الخصومة التوليدية GAN)، Generative Adversarial Network(، والتي تتعلم من خلال جعل شبكتين عصبيتين تتنافسان ضد بعضهما البعض، مما يمكنها من إنتاج صور تبدو واقعية للغاية. في الوقت نفسه، كتب غودفيلو أيضًا كتابًا بعنوان "Deep Learning"، المعروف باسم الكتاب الزهري، وهو واحد من الكتب الأساسية المهمة في مجال التعلم العميق.
في عام 2015، اقترح هينتون وآخرون خوارزمية التعلم العميق في مجلة "Nature"، وقد أثار هذا الاقتراح لطريقة التعلم العميق ردود فعل هائلة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، وأعلن عدد من المستثمرين المعروفين عن استثمار مشترك بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، المدعومة بتقنية التعلم العميق، معركة شطرنج ضد بطل العالم في الشطرنج، اللاعب المحترف من الدرجة التاسعة لي شي شي، وحققت الفوز بنتيجة 4 إلى 1.
في عام 2017، طورت شركة تقنية الروبوتات إنسانًا آليًا يُدعى صوفيا، والذي يُعتبر أول إنسان آلي يحصل على الجنسية كأول مواطن في التاريخ، ويتميز بتعبيرات وجه غنية وقدرة على فهم اللغة البشرية.
في عام 2017، نشرت جوجل ورقة بحثية بعنوان "Attention is all you need" قدمت فيها خوارزمية Transformers، وبدأت نماذج اللغة الكبيرة تظهر.
في عام 2018، أصدرت OpenAI نموذج GPT) (المولد المدرب مسبقًا بالاعتماد على خوارزمية Transformer) وهو واحد من أكبر نماذج اللغة في ذلك الوقت.
في عام 2018، أصدرت فريق Google Deepmind AlphaGo القائم على التعلم العميق، والذي يمكنه التنبؤ بهيكل البروتين، ويعتبر علامة على التقدم الكبير في مجال الذكاء الاصطناعي.
في عام 2019، أصدرت OpenAI نموذج GPT-2، والذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طورت OpenAI نموذج GPT-3 الذي يحتوي على 175 مليار معلمة، وهو أعلى بمئة مرة من الإصدار السابق GPT-2. تم تدريب هذا النموذج على 570 جيجابايت من النصوص، ويمكنه تحقيق أداء متقدم في مهام معالجة اللغة الطبيعية مثل الإجابة على الأسئلة، والترجمة، وكتابة المقالات.
في عام 2021، أصدرت OpenAI GPT-4، حيث يحتوي النموذج على 1.76 تريليون معلمة، وهو 10 مرات أكبر من GPT-3.
تم إطلاق تطبيق ChatGPT القائم على نموذج GPT-4 في يناير 2023، وفي مارس وصل عدد مستخدمي ChatGPT إلى مئة مليون مستخدم، ليصبح التطبيق الذي وصل إلى مئة مليون مستخدم بأسرع وقت في التاريخ.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
سلسلة صناعة التعلم العميق
تستخدم نماذج اللغة الكبيرة الحالية طرق تعلم عميقة قائمة على الشبكات العصبية. لقد أدت النماذج الكبيرة بقيادة GPT إلى ظهور موجة من الذكاء الاصطناعي، مما جذب عددًا كبيرًا من اللاعبين إلى هذا المجال. كما لاحظنا أن السوق تشهد انفجارًا كبيرًا في الطلب على البيانات والقدرة الحسابية، لذلك في هذا الجزء من التقرير، نستكشف بشكل أساسي سلسلة صناعة خوارزميات التعلم العميق. في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، كيف تتكون السلاسل التوريد والتوزيع، وما هي حالة العرض والطلب الحالية، وكيف ستتطور في المستقبل.
أولاً، نحتاج إلى توضيح أنه عند إجراء تدريب نموذج LLMs الكبير الرائد GPT المعتمد على تقنية Transformer)، يتم تقسيم العملية إلى ثلاثة خطوات.
قبل التدريب، وبما أنه يعتمد على Transformer، فإن المحول يحتاج إلى تحويل مدخلات النص إلى قيم عددية، وهذه العملية تُعرف باسم "Tokenization"، وبعد ذلك تُعرف هذه القيم العددية باسم Tokens. وفقًا للقواعد التجريبية العامة، يمكن اعتبار كلمة إنجليزية أو حرف واحد بشكل تقريبي كToken واحد، بينما يمكن اعتبار كل حرف صيني بشكل تقريبي كTokenين. هذه هي الوحدة الأساسية المستخدمة في تسعير GPT.
الخطوة الأولى، التدريب المسبق. من خلال إعطاء طبقة الإدخال عددًا كافيًا من أزواج البيانات، مشابهة لتلك التي تم ذكرها في الجزء الأول من التقرير مثل (X,Y)، للبحث عن أفضل المعلمات لكل خلية عصبية في النموذج، في هذه المرحلة تحتاج إلى كمية كبيرة من البيانات، وهذه العملية هي أيضًا الأكثر استهلاكًا للطاقة الحاسوبية، لأنها تتطلب تكرارًا متكررًا للخلية العصبية لمحاولة معلمات مختلفة. بعد اكتمال تدريب مجموعة من أزواج البيانات، عادة ما يتم استخدام نفس مجموعة البيانات للتدريب الثاني من أجل تحسين المعلمات.
الخطوة الثانية، الضبط الدقيق. الضبط الدقيق هو إعطاء كمية صغيرة ولكنها ذات جودة عالية من البيانات للتدريب، وهذا التغيير سيجعل مخرجات النموذج ذات جودة أعلى، لأن التدريب المسبق يتطلب كميات كبيرة من البيانات، ولكن العديد من هذه البيانات قد تحتوي على أخطاء أو تكون ذات جودة منخفضة. يمكن أن تعزز خطوة الضبط الدقيق جودة النموذج من خلال بيانات عالية الجودة.
الخطوة الثالثة ، التعلم المعزز. أولاً ، سيتم إنشاء نموذج جديد تمامًا ، نسميه "نموذج المكافأة". الغرض من هذا النموذج بسيط جدًا ، وهو تصنيف النتائج الناتجة. وبالتالي ، سيكون تنفيذ هذا النموذج بسيطًا نسبيًا ، لأن سيناريو العمل عمودي للغاية. بعد ذلك ، سيتم استخدام هذا النموذج لتحديد ما إذا كانت مخرجات نموذجنا الكبير ذات جودة عالية ، بحيث يمكن استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ( لكن في بعض الأحيان يكون من الضروري أيضًا المشاركة البشرية لتقييم جودة مخرجات النموذج )
بعبارة بسيطة، خلال عملية تدريب النموذج الكبير، تتطلب المرحلة المسبقة التدريب كمية بيانات عالية جداً، وتكون قوة حساب GPU المطلوبة هي الأكبر، بينما تتطلب مرحلة التعديل بيانات ذات جودة أعلى لتحسين المعلمات، ويمكن للتعلم التعزيزي أن يكرر المعلمات من خلال نموذج مكافأة لإنتاج نتائج ذات جودة أعلى.
أثناء عملية التدريب، كلما زاد عدد المعلمات، زادت قدرة النموذج على التعميم. على سبيل المثال، في المثال الذي يستند إلى الدالة Y = aX + b، يوجد في الواقع عصبونان هما X و X0. لذلك، فإن كيفية تغير المعلمات تحد من كمية البيانات التي يمكن تمثيلها، لأن طبيعتها لا تزال خطًا مستقيمًا. إذا زاد عدد العصبونات، فسيكون من الممكن تكرار المزيد من المعلمات، مما يسمح بتمثيل المزيد من البيانات. هذه هي السبب وراء ظهور نماذج كبيرة مع نتائج رائعة، وهي أيضًا السبب وراء تسمية هذه النماذج الكبيرة بهذا الاسم، حيث تتكون في جوهرها من عدد هائل من العصبونات والمعلمات، بالإضافة إلى كميات هائلة من البيانات، مما يتطلب أيضًا قدرًا هائلًا من القدرة الحاسوبية.
لذلك، يتحدد أداء النماذج الكبيرة بشكل أساسي من خلال ثلاثة جوانب: عدد المعلمات، كمية وجودة البيانات، وقوة الحوسبة. هذه الثلاثة تؤثر بشكل مشترك على جودة نتائج النموذج وقدرته على التعميم. لنفترض أن عدد المعلمات هو p، وكمية البيانات هي n( محسوبة بعدد الرموز )، يمكننا بعد ذلك حساب كمية الحوسبة المطلوبة من خلال قاعدة خبرة عامة، مما يسمح لنا بتقدير كمية قوة الحوسبة التي نحتاج إلى شرائها ومدة التدريب.
تُستخدم قدرة الحوسبة عمومًا كواحدات أساسية من Flops، والتي تمثل عملية حساب عائمة واحدة. تعتبر العمليات الحسابية العائمة عبارة عن مجموعة من العمليات الحسابية غير الصحيحة مثل الجمع والطرح والضرب والقسمة، مثل 2.5 + 3.557، حيث تمثل العمليات العائمة القدرة على التعامل مع الأرقام العشرية. FP16 تمثل الدقة التي تدعم الأعداد العشرية، بينما FP32 هي الدقة الأكثر شيوعًا. وفقًا لقواعد التجربة العملية، تتطلب عملية ما قبل التدريب ( Pre-training ) عملية تدريب واحدة ( عادة ما تحتاج إلى عدة جولات من التدريب على نموذج كبير، ويُفترض أنها تحتاج حوالي 6np Flops، حيث يُطلق على الرقم 6 اسم الثابت الصناعي. بينما تشير عملية الاستدلال ) Inference إلى إدخال بيانات معينة وانتظار مخرجات النموذج الكبير (، وتنقسم إلى جزئين، إدخال n توكن، وإخراج n توكن، وبالتالي تحتاج حوالي 2np Flops بشكل إجمالي.
في البداية، كانت تستخدم شرائح CPU لتوفير دعم القوة الحاسوبية للتدريب، ولكن بعد ذلك بدأت تدريجياً في استخدام GPU كبديل، مثل بعض شرائح GPU عالية الأداء. لأن CPU تعمل كحاسوب عام، ولكن GPU يمكن أن تعمل كحاسوب مخصص، فهي تتفوق بكثير على CPU من حيث كفاءة استهلاك الطاقة. تعمل GPU على إجراء العمليات الحسابية العائمة أساسًا من خلال وحدة تسمى Tensor Core.