أطلقت شركة ميتا للذكاء الاصطناعي نظام التعرف التلقائي على الكلام أومنيليغويل، الذي يوفر التعرف على الكلام لأكثر من 1600 لغة، وأصدرت نماذج مفتوحة المصدر وكتلة بيانات لـ 350 لغة محرومة من الخدمات.
أعلنت قسم الأبحاث في شركة ميتا، المتخصصة في الذكاء الاصطناعي والواقع المعزز، عن إصدار نظام التعرف التلقائي على الكلام أومنيليغويل من ميتا (ASR).
توفر مجموعة النماذج هذه التعرف التلقائي على الكلام لأكثر من 1600 لغة، مع أداء عالي الجودة على نطاق غير مسبوق. بالإضافة إلى ذلك، تقوم ميتا للذكاء الاصطناعي بفتح مصدر نموذج wav2vec 2.0 أومنيليغويل، وهو نموذج تمثيل صوتي متعدد اللغات ذاتي الإشراف، يضم 7 مليارات معلمة، مصمم لدعم مجموعة متنوعة من مهام الكلام اللاحقة.
بالإضافة إلى هذه الأدوات، تقوم المنظمة أيضًا بإصدار مجموعة بيانات أومنيليغويل للتعرف التلقائي على الكلام، وهي مجموعة من التسجيلات المنقحة من كلام مكتوب من 350 لغة محرومة من الخدمات، تم تطويرها بالشراكة مع متعاونين عالميين.
لقد تطور التعرف التلقائي على الكلام في السنوات الأخيرة، محققًا دقة شبه مثالية للعديد من اللغات ذات الانتشار الواسع. ومع ذلك، فإن توسيع التغطية ليشمل اللغات ذات الموارد المحدودة لا يزال تحديًا بسبب الطلب العالي على البيانات والحوسبة في البنى التحتية الحالية للذكاء الاصطناعي. يعالج نظام أومنيليغويل للتعرف التلقائي على الكلام هذا القيد من خلال توسيع محول الكلام wav2vec 2.0 ليصل إلى 7 مليارات معلمة، مما يخلق تمثيلات غنية متعددة اللغات من كلام خام غير منقوش. يربط نوعان من المفككات هذه التمثيلات برموز الأحرف: أحدهما باستخدام التصنيف الزمني الاتصالي (CTC) وآخر باستخدام نهج يعتمد على المحول، مشابهًا لتلك المستخدمة في نماذج اللغة الكبيرة.
يحقق هذا النهج المستوحى من نماذج اللغة الكبيرة أداءً متقدمًا على مستوى العالم عبر أكثر من 1600 لغة، مع معدلات أخطاء في الأحرف أقل من 10% لـ 78% منها، ويقدم طريقة أكثر مرونة لإضافة لغات جديدة.
على عكس الأنظمة التقليدية التي تتطلب ضبطًا دقيقًا من قبل خبراء، يمكن لنظام أومنيليغويل للتعرف التلقائي على الكلام دمج لغة غير مدعومة سابقًا باستخدام عدد قليل من الأمثلة الصوتية والنصية المزدوجة، مما يمكّن من النسخ دون الحاجة إلى بيانات واسعة أو خبرة متخصصة أو حوسبة عالية الأداء. على الرغم من أن النتائج بدون تدريب مسبق لا تزال غير مطابقة للأنظمة المدربة بالكامل، إلا أن هذه الطريقة توفر وسيلة قابلة للتوسع لإدخال اللغات المحرومة إلى النظام الرقمي.
ميتا للذكاء الاصطناعي لتعزيز التعرف على الكلام باستخدام مجموعة أومنيليغويل وكتلة البيانات
أصدر قسم الأبحاث مجموعة شاملة من النماذج وبيانات مصممة لتعزيز تكنولوجيا الكلام لأي لغة. استنادًا إلى أبحاث FAIR السابقة، يتضمن أومنيليغويل نوعين من المفككات، تتراوح بين نماذج خفيفة الوزن بسعة 300 مليون لمعدات منخفضة الطاقة إلى نماذج بسعة 7 مليارات تقدم دقة عالية عبر تطبيقات متنوعة. كما يتوفر نموذج الأساس wav2vec 2.0 متعدد الأحجام، مما يتيح مجموعة واسعة من المهام المتعلقة بالكلام بخلاف التعرف التلقائي على الكلام. جميع النماذج متاحة بموجب ترخيص أباتشي 2.0، وتتوفر مجموعة البيانات بموجب CC-BY، مما يسمح للباحثين والمطورين والمدافعين عن اللغات بتكييف وتوسيع حلول الكلام باستخدام إطار عمل fairseq مفتوح المصدر من FAIR في نظام PyTorch.
تم تدريب أومنيليغويل على واحدة من أكبر وأكثر مجموعات البيانات تنوعًا لغويًا على الإطلاق، حيث جمعت بين مجموعات البيانات المتاحة علنًا وتسجيلات من المجتمع. لدعم اللغات ذات الوجود الرقمي المحدود، تعاونت ميتا للذكاء الاصطناعي مع منظمات محلية لتوظيف وتعويض المتحدثين الأصليين في المناطق النائية أو ذات التوثيق المحدود، مما أدى إلى إنشاء مجموعة بيانات أومنيليغويل للتعرف التلقائي على الكلام، وهي أكبر مجموعة بيانات للتعرف التلقائي على الكلام العفوي ذات الموارد المنخفضة حتى الآن. كما جلبت التعاونات عبر برنامج شركاء تكنولوجيا اللغة خبراء لغويين وباحثين ومجتمعات لغوية من جميع أنحاء العالم، بما في ذلك شراكات مع مؤسسة موزيلا للمجموعة الصوتية وLanfrica/NaijaVoices. قدمت هذه الجهود رؤى لغوية عميقة وسياقًا ثقافيًا، لضمان تلبية التكنولوجيا لاحتياجات المجتمعات المحلية وتمكينها على مستوى العالم.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ميتا آي آي تقدم تقنية التعرف التلقائي على الكلام متعددة اللغات، مما يعزز التعرف التلقائي على الكلام لأكثر من 1600 لغة
باختصار
أطلقت شركة ميتا للذكاء الاصطناعي نظام التعرف التلقائي على الكلام أومنيليغويل، الذي يوفر التعرف على الكلام لأكثر من 1600 لغة، وأصدرت نماذج مفتوحة المصدر وكتلة بيانات لـ 350 لغة محرومة من الخدمات.
أعلنت قسم الأبحاث في شركة ميتا، المتخصصة في الذكاء الاصطناعي والواقع المعزز، عن إصدار نظام التعرف التلقائي على الكلام أومنيليغويل من ميتا (ASR).
توفر مجموعة النماذج هذه التعرف التلقائي على الكلام لأكثر من 1600 لغة، مع أداء عالي الجودة على نطاق غير مسبوق. بالإضافة إلى ذلك، تقوم ميتا للذكاء الاصطناعي بفتح مصدر نموذج wav2vec 2.0 أومنيليغويل، وهو نموذج تمثيل صوتي متعدد اللغات ذاتي الإشراف، يضم 7 مليارات معلمة، مصمم لدعم مجموعة متنوعة من مهام الكلام اللاحقة.
بالإضافة إلى هذه الأدوات، تقوم المنظمة أيضًا بإصدار مجموعة بيانات أومنيليغويل للتعرف التلقائي على الكلام، وهي مجموعة من التسجيلات المنقحة من كلام مكتوب من 350 لغة محرومة من الخدمات، تم تطويرها بالشراكة مع متعاونين عالميين.
لقد تطور التعرف التلقائي على الكلام في السنوات الأخيرة، محققًا دقة شبه مثالية للعديد من اللغات ذات الانتشار الواسع. ومع ذلك، فإن توسيع التغطية ليشمل اللغات ذات الموارد المحدودة لا يزال تحديًا بسبب الطلب العالي على البيانات والحوسبة في البنى التحتية الحالية للذكاء الاصطناعي. يعالج نظام أومنيليغويل للتعرف التلقائي على الكلام هذا القيد من خلال توسيع محول الكلام wav2vec 2.0 ليصل إلى 7 مليارات معلمة، مما يخلق تمثيلات غنية متعددة اللغات من كلام خام غير منقوش. يربط نوعان من المفككات هذه التمثيلات برموز الأحرف: أحدهما باستخدام التصنيف الزمني الاتصالي (CTC) وآخر باستخدام نهج يعتمد على المحول، مشابهًا لتلك المستخدمة في نماذج اللغة الكبيرة.
يحقق هذا النهج المستوحى من نماذج اللغة الكبيرة أداءً متقدمًا على مستوى العالم عبر أكثر من 1600 لغة، مع معدلات أخطاء في الأحرف أقل من 10% لـ 78% منها، ويقدم طريقة أكثر مرونة لإضافة لغات جديدة.
على عكس الأنظمة التقليدية التي تتطلب ضبطًا دقيقًا من قبل خبراء، يمكن لنظام أومنيليغويل للتعرف التلقائي على الكلام دمج لغة غير مدعومة سابقًا باستخدام عدد قليل من الأمثلة الصوتية والنصية المزدوجة، مما يمكّن من النسخ دون الحاجة إلى بيانات واسعة أو خبرة متخصصة أو حوسبة عالية الأداء. على الرغم من أن النتائج بدون تدريب مسبق لا تزال غير مطابقة للأنظمة المدربة بالكامل، إلا أن هذه الطريقة توفر وسيلة قابلة للتوسع لإدخال اللغات المحرومة إلى النظام الرقمي.
ميتا للذكاء الاصطناعي لتعزيز التعرف على الكلام باستخدام مجموعة أومنيليغويل وكتلة البيانات
أصدر قسم الأبحاث مجموعة شاملة من النماذج وبيانات مصممة لتعزيز تكنولوجيا الكلام لأي لغة. استنادًا إلى أبحاث FAIR السابقة، يتضمن أومنيليغويل نوعين من المفككات، تتراوح بين نماذج خفيفة الوزن بسعة 300 مليون لمعدات منخفضة الطاقة إلى نماذج بسعة 7 مليارات تقدم دقة عالية عبر تطبيقات متنوعة. كما يتوفر نموذج الأساس wav2vec 2.0 متعدد الأحجام، مما يتيح مجموعة واسعة من المهام المتعلقة بالكلام بخلاف التعرف التلقائي على الكلام. جميع النماذج متاحة بموجب ترخيص أباتشي 2.0، وتتوفر مجموعة البيانات بموجب CC-BY، مما يسمح للباحثين والمطورين والمدافعين عن اللغات بتكييف وتوسيع حلول الكلام باستخدام إطار عمل fairseq مفتوح المصدر من FAIR في نظام PyTorch.
تم تدريب أومنيليغويل على واحدة من أكبر وأكثر مجموعات البيانات تنوعًا لغويًا على الإطلاق، حيث جمعت بين مجموعات البيانات المتاحة علنًا وتسجيلات من المجتمع. لدعم اللغات ذات الوجود الرقمي المحدود، تعاونت ميتا للذكاء الاصطناعي مع منظمات محلية لتوظيف وتعويض المتحدثين الأصليين في المناطق النائية أو ذات التوثيق المحدود، مما أدى إلى إنشاء مجموعة بيانات أومنيليغويل للتعرف التلقائي على الكلام، وهي أكبر مجموعة بيانات للتعرف التلقائي على الكلام العفوي ذات الموارد المنخفضة حتى الآن. كما جلبت التعاونات عبر برنامج شركاء تكنولوجيا اللغة خبراء لغويين وباحثين ومجتمعات لغوية من جميع أنحاء العالم، بما في ذلك شراكات مع مؤسسة موزيلا للمجموعة الصوتية وLanfrica/NaijaVoices. قدمت هذه الجهود رؤى لغوية عميقة وسياقًا ثقافيًا، لضمان تلبية التكنولوجيا لاحتياجات المجتمعات المحلية وتمكينها على مستوى العالم.