تطبيع البيانات؟ إنه مهم جدًا في استخراج البيانات. يساعد على توحيد الميزات. يجعل خوارزميات تعلم الآلة تعمل بشكل أفضل. هناك بعض الطرق الرئيسية التي يستخدمها الناس.



توسيع النطاق من الحد الأدنى إلى الحد الأقصى هو واحد. يقوم بضغط البيانات في نطاق ثابت. عادة من 0 إلى 1. يحافظ على العلاقات سليمة. خدعة مرتبة.

توحيد Z-Score هو شيء آخر. اسم رائع، أليس كذلك؟ يتعلق الأمر بالمتوسطات والانحرافات. جيد للتوزيعات الطبيعية، أعتقد.

تحويل اللوغاريتم. هذا ينطبق على البيانات المنحرفة. يجعلها تبدو أكثر طبيعية. مفيد للنطاقات الواسعة أو الأشياء الأسية.

توسيع قوي. يبدو صعباً. إنه كذلك نوعاً ما. يستخدم الوسائط والرباعيات. لا يتأثر بسهولة بالقيم الشاذة.

هذه التقنيات؟ تُستخدم في جميع أنحاء تعدين البيانات. تحب الخوارزميات البيانات المُعَدّلة. الشبكات العصبية، أقرب الجيران - تتناولها بشغف.

لكن الأمر لا يتعلق فقط بالأداء. البيانات المُعَيارَة أسهل في الفهم. يصبح مقارنة الميزات أبسط. معاملات النموذج أكثر منطقية.

هناك شيء يتعلق بالتقارب الأسرع أيضًا. يبدو أن الانحدار التدرجي يعمل بشكل أفضل. تصبح عملية التدريب أكثر استقرارًا.

وعندما يكون لديك بيانات مختلطة؟ مقاييس مختلفة، وحدات مختلفة؟ التوحيد يجمعها جميعًا. يجعل المقارنات عادلة.

لذا، يستخدم عمال المناجم هذه التقنيات. يقومون بإعداد مجموعات البيانات الخاصة بهم. تعمل النماذج بشكل أفضل. تصبح الأفكار أكثر موثوقية. كل هذا جزء من اللعبة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت