معالجة النصوص الطويلة: المعيار الجديد للنماذج الكبيرة مواجهة "الثالوث الغير مقدس"

القدرة على النصوص الطويلة: "المعيار" الجديد للنماذج الكبيرة

من 4000 إلى 400000 توكن، يقوم النموذج الكبير بزيادة قدرته على معالجة النصوص الطويلة بسرعة ملحوظة.

يبدو أن قدرة معالجة النصوص الطويلة أصبحت "معيارًا" جديدًا لمصنعي النماذج الكبيرة.

على المستوى الدولي، قامت OpenAI بعدة ترقيات، حيث زادت طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، وزادت لـ GPT-4 من 8000 إلى 32000 توكن. بينما قامت منافستها Anthropic بزيادة طول السياق دفعة واحدة إلى 100000 توكن. أما LongLLaMA فقد زادت طول السياق إلى 256000 توكن أو حتى أكثر.

في البلاد، حققت بعض شركات النماذج الكبيرة الناشئة أيضًا اختراقات في هذا المجال. على سبيل المثال، منتج مساعد ذكي أصدرته شركة واحدة يمكنه دعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. بالإضافة إلى ذلك، طورت فرق بحثية تقنية جديدة تسمى LongLoRA، يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.

حالياً، هناك العديد من الشركات الكبرى في مجال تقنيات النماذج الكبيرة والمؤسسات البحثية في الداخل والخارج التي تضع توسيع طول السياق كأولوية في التحديثات والترقيات.

تلقى معظم هذه الشركات والمؤسسات استحسان سوق رأس المال. على سبيل المثال، حصلت OpenAI على استثمار يقارب 12 مليار دولار؛ وقد تصل التقييمات الأخيرة لـ Anthropic إلى 30 مليار دولار؛ كما أكملت شركة محلية تأسست قبل ستة أشهر فقط عدة جولات تمويل بسرعة، وقد تجاوزت تقييماتها السوقية 300 مليون دولار.

لماذا تولي شركات النماذج الكبيرة أهمية كبيرة لتكنولوجيا النصوص الطويلة؟ ماذا يعني توسيع طول السياق بمقدار 100 مرة؟

من الناحية السطحية، فهذا يعني أن طول النص المدخل يتزايد، وقدرة النموذج على القراءة تزداد. من البداية التي كانت فيها القدرة على قراءة نص قصير فقط، إلى الآن حيث يمكنه معالجة رواية طويلة.

من منظور أعمق، فإن تقنيات النصوص الطويلة تدفع بتطبيق النماذج الكبيرة في مجالات متخصصة مثل المالية والقضاء والبحث العلمي. في هذه المجالات، تعتبر القدرة على تلخيص وفهم النصوص الطويلة والإجابة على الأسئلة متطلبات أساسية، وهي أيضًا اتجاه يحتاج إلى ترقية ذكية.

ومع ذلك، فإن طول النص ليس كلما زاد كان أفضل. أظهرت الدراسات أنه لا يمكن رسم معادلة مباشرة بين دعم النموذج لإدخال سياق أطول وتحسين أداء النموذج. الأمر الأكثر أهمية هو كيفية استخدام النموذج لمحتوى السياق بشكل فعال.

حتى الآن، لا يزال البحث عن طول النصوص في الداخل والخارج بعيدًا عن الوصول إلى الحد الأقصى. قد تكون 400,000 رمز فقط بداية، ولا تزال الشركات الكبرى مستمرة في كسر هذه الحواجز التقنية.

لماذا يجب تحسين القدرة على معالجة النصوص الطويلة؟

قال مؤسس إحدى شركات النماذج الكبيرة إن القيود المفروضة على طول الإدخال هي السبب وراء الصعوبات التي تواجه العديد من تطبيقات النماذج الكبيرة في التنفيذ. وهذا هو السبب الذي يجعل العديد من الشركات تركز حاليا على تقنيات النصوص الطويلة.

على سبيل المثال، في مشاهد الشخصيات الافتراضية، بسبب عدم كفاية القدرة على التعامل مع النصوص الطويلة، ستنسى الشخصيات الافتراضية معلومات مهمة. عند تطوير ألعاب تعاونية، عدم كفاية طول الإدخال يعني أنه يجب تقليل القواعد والإعدادات، مما يؤثر على تجربة اللعبة. في مجالات متخصصة مثل القانون والتمويل، غالبًا ما تكون هناك قيود على تحليل المحتوى العميق وتوليده.

في الطريق نحو تطبيقات الذكاء الاصطناعي المستقبلية، لا يزال للنصوص الطويلة دور مهم. تحتاج الوكالات الذكية إلى الاعتماد على المعلومات التاريخية لاتخاذ القرارات، وتحتاج تطبيقات الذكاء الاصطناعي الأصلية إلى السياق للحفاظ على تجربة مستخدم متسقة وشخصية.

يعتقد المؤسس أنه سواء كان نصًا أو صوتًا أو فيديو، فإن الضغط غير المفقود للبيانات الضخمة يمكن أن يحقق مستوى عالٍ من الذكاء. يتم تحديد الحد الأقصى للنموذج الكبير من خلال القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث ترتبط القدرة على الخطوة الواحدة بكمية المعلمات، بينما يمثل عدد خطوات التنفيذ طول السياق.

في نفس الوقت، حتى النماذج ذات المعلمات الكبيرة يصعب عليها تجنب مشكلة الهلوسة بالكامل. بالمقارنة مع النصوص القصيرة، يمكن أن توفر النصوص الطويلة المزيد من السياق ومعلومات التفاصيل، مما يساعد النموذج على الحكم بدقة أكبر على المعنى، وتقليل الغموض، وزيادة دقة الاستدلال.

من الواضح أن تقنية النصوص الطويلة يمكن أن تحل بعض المشكلات المبكرة للنماذج الكبيرة، وهي أيضًا واحدة من التقنيات الرئيسية لدفع التطبيقات الصناعية. وهذا يدل أيضًا على أن النماذج الكبيرة العامة تدخل مرحلة جديدة، من LLM إلى عصر Long LLM.

من خلال بعض المنتجات التي تم إصدارها حديثًا، يمكننا إلقاء نظرة على ميزات الترقية لنموذج Long LLM في المرحلة الكبيرة:

أولاً، يتعلق الأمر باستخراج المعلومات الرئيسية من النصوص الطويلة جدًا، وتلخيصها وتحليلها. على سبيل المثال، يمكن تحليل فكرة المقال بسرعة، واستخراج المعلومات الرئيسية من التقرير المالي، أو إجراء أسئلة وأجوبة حول كتاب كامل.

فيما يتعلق بالبرمجة، يمكن تحقيق إنشاء الشيفرة مباشرة من النص، بل وحتى إعادة إنتاج عملية الشيفرة استنادًا إلى الأوراق البحثية. لقد خطت هذه الخطوة تقدمًا كبيرًا مقارنةً بمواقع توليد الشيفرة الأولية.

في مشاهد الحوار الطويلة، يمكن تحقيق تمثيل أكثر حيوية للشخصيات. من خلال إدخال نصوص شخصيات معينة، وضبط النغمة والشخصية، يمكن إجراء محادثة فردية مع الشخصيات الافتراضية.

تظهر هذه الأمثلة أن الروبوتات الحوارية تتجه نحو التخصص والتخصيص والعمق، وقد تكون هذه وسيلة جديدة لتحفيز تطبيقات الصناعة.

تستهدف بعض الشركات التطبيق الفائق المقبل الموجه للمستهلكين: من خلال تقنية النصوص الطويلة كاختراق، وتطوير تطبيقات متعددة على أساس النموذج الأساسي. يتنبأ مؤسس الشركة بأن سوق النماذج الكبيرة المحلي سينقسم إلى معسكرين: الشركات والمستهلكين، حيث ستظهر في سوق المستهلكين تطبيقات فائقة تستند إلى نماذج مطورة ذاتيًا.

ومع ذلك، لا يزال هناك مجال كبير لتحسين سيناريوهات الحوار الطويلة في السوق الحالية. على سبيل المثال، هناك بعض التطبيقات التي لا تدعم الاتصال بالإنترنت للحصول على أحدث المعلومات، ولا يمكن إيقاف التعديل أثناء عملية التوليد، وحتى مع وجود المواد الخلفية الداعمة، قد تحدث أخطاء في المعلومات.

مشكلة تقنية النصوص الطويلة

في مجال تقنيات النصوص الطويلة، توجد "مثلث الاستحالة" بين طول النص والانتباه والحوسبة.

يظهر ذلك في: كلما كان النص أطول، كان من الصعب جمع الانتباه الكافي؛ عندما يكون الانتباه محدودًا، يكون من الصعب أيضًا فهم المعلومات المعقدة في النصوص القصيرة؛ معالجة النصوص الطويلة تتطلب قوة حسابية كبيرة، مما يزيد من التكلفة.

تعود جذور هذه المعضلة إلى أن معظم النماذج تعتمد على هيكل Transformer. في هذا الهيكل، تعتبر آلية الانتباه الذاتي الأكثر أهمية، على الرغم من أنها تسمح للنموذج بتحليل العلاقة بين المعلومات بشكل مرن، إلا أن حساباتها ستزداد بشكل متزايد مع زيادة طول السياق.

تشير بعض الدراسات إلى أن السياق الطويل جدًا يؤدي إلى انخفاض ملحوظ في نسبة المعلومات ذات الصلة، مما يزيد من تشتيت الانتباه ويبدو أنه من الصعب تجنبه. وهذا يشكل تناقضًا بين طول النص والانتباه، وهو السبب الجذري الذي يجعل تقنيات النصوص الطويلة في النماذج الكبيرة صعبة التقدم.

في الوقت نفسه، كانت القوة الحاسوبية دائمًا موردًا نادرًا. في النشر الفعلي، من الصعب على الشركات تقديم دعم كبير للقوة الحاسوبية، مما يتطلب من الموردين التحكم بدقة في استهلاك القوة الحاسوبية عند توسيع معلمات النموذج أو طول النص. لكن في الوقت الحالي، يتطلب كسر تقنيات النصوص الأطول غالبًا قوة حاسوبية أكبر، مما يخلق تناقضًا آخر بين طول النص والقوة الحاسوبية.

في هذا الصدد، أشار الخبراء في الصناعة إلى أن نمذجة النصوص الطويلة باستخدام النماذج الكبيرة لا تزال تفتقر إلى حل موحد، وأن الجذر الذي يسبب هذه المشكلة هو هيكل الـTransformer نفسه، بينما تم البدء في تطوير هيكل جديد.

حاليا، هناك ثلاثة أفكار مختلفة لحل المشكلة:

  1. استخدام أدوات خارجية من النموذج للمساعدة في معالجة النصوص الطويلة. الطريقة الرئيسية هي تقسيم النص الطويل إلى نصوص قصيرة متعددة، وتحميل أجزاء النص القصير المطلوبة فقط في كل مرة، مما يتجنب مشكلة عدم قدرة النموذج على قراءة النص الطويل بالكامل في一次.

  2. إعادة بناء طريقة حساب الانتباه الذاتي. مثل تقسيم النصوص الطويلة إلى مجموعات مختلفة، وإجراء الحسابات داخل كل مجموعة بدلاً من حساب العلاقة بين كل كلمة، لتقليل عبء الحساب وزيادة السرعة.

  3. تحسين النموذج نفسه. مثل تعديل النموذج الحالي لجعله قادرًا على التمدد إلى تسلسلات أطول؛ أو من خلال تقليل عدد المعلمات لزيادة طول السياق.

إن "مثلث الاستحالة" الخاص بالنصوص الطويلة قد لا يزال بدون حل حاليًا، لكن هذا يوضح أيضًا اتجاه استكشاف شركات النماذج الكبيرة: البحث عن النقطة المثلى للتوازن بين طول النص والانتباه وتكلفة الحوسبة، بحيث يمكن معالجة معلومات كافية مع الأخذ في الاعتبار قيود حساب الانتباه وتكاليف الحوسبة.

TOKEN-3.66%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت