white and black plane on blue sky

تنقية البيانات

ما أهمية تنقية البيانات؟

نظرًا لأن نماذج الذكاء الاصطناعي المفيدة تتطلب الكثير من بيانات التدريب، فإن جودة البيانات المستخدمة لتدريبها لها أهمية كبيرة. إذا كانت البيانات بها أخطاء، أو غير مكتملة، أو متكررة على سبيل المثال، قد يؤدي ذلك إلى تحريف نموذج الذكاء الاصطناعي. لمساعدة نموذج الذكاء الاصطناعي على التعلم بشكل صحيح، يجب تنظيف البيانات قبل استخدامها. 

تخيل أنك تحاول بناء سيارة باستخدام قطع مكسورة وأجزاء لا تتناسب مع بعضها البعض. سيكون مصير مشروعك الفشل حتمًا. تدريب نموذج الذكاء الاصطناعي دون تنظيف البيانات يشبه تمامًا بناء تلك السيارة بالأجزاء المكسورة. يمكن أن تؤدي البيانات السيئة إلى إرباك نموذج الذكاء الاصطناعي والتسبب بالأخطاء. على سبيل المثال، إذا كنا نعلم نموذج الذكاء الاصطناعي كيفية التعرف على الحيوانات في الصور ولكن بعض الصور غير واضحة أو تم تصنيفها بشكل خاطئ، فقد يتعلم نموذج الذكاء الاصطناعي الشيء الخاطئ. ولهذا السبب تعد تنقية البيانات أمرًا حيويًا لبناء نماذج ذكاء اصطناعي مفيدة.

أنواع تنقية البيانات للذكاء الاصطناعي

بعض الطرق الشائعة لتنظيف البيانات:

  • تقليل الضوضاء: إحتواء البيانات على معلومات عشوائية أو غير مرغوب فيها لا تساعد نموذج الذكاء الاصطناعي على التعلم، وهذا يسمى "ضوضاء". على سبيل المثال، إذا كنت تقوم بتدريب نموذج الذكاء الاصطناعي للتعرف على الوجوه، ولكن بعض الصور التي تستخدمها بها الكثير من الفوضى في الخلفية (مثل السيارات أو الأشجار أو اللافتات)، فإن هذه المعلومات الإضافية يمكن أن تربك نموذج الذكاء الاصطناعي. يساعد تقليل الضوضاء في التخلص من هذه الانحرافات حتى يتمكن نموذج الذكاء الاصطناعي من التركيز على ما هو أكثر أهمية، وهو الوجه في هذه الحالة.

  • اكتشاف التكرار: عندما تظهر نفس المعلومة البيانية أكثر من مرة، قد يؤدي ذلك إلى إضاعة الوقت وإبطاء تعلم نموذج الذكاء الاصطناعي. على سبيل المثال، إذا كان لديك نسختان من نفس الصورة لكلب في مجموعة البيانات الخاصة بك، فقد يتعلم نموذج الذكاء الاصطناعي نفس الشيء مرتين، مما يجعل عملية التدريب غير فعالة.

  • إصلاح البيانات المفقودة: إذا كانت مجموعة البيانات تحتوي أجزاء فارغة، فقد يفشل نموذج الذكاء الاصطناعي في تعلم كل ما يحتاج إليه. على سبيل المثال، إذا كانت صورة كلب تفتقد التصنيف ("كلب")، فلن يعرف نموذج الذكاء الاصطناعي ما الذي ينظر إليه. في عملية تنقية البيانات، نقوم إما بملء المعلومات المفقودة أو إزالة البيانات غير المكتملة.

  • تصحيح الأخطاء: عندما تحتوي البيانات على أخطاء، مثل الأخطاء الإملائية أو الأرقام الخاطئة أو العناصر التي تم تصنيفها بشكل خاطئ. إذا تم تصنيف صورة قطة على أنها كلب مثلًا، فقد يرتبك نموذج الذكاء الاصطناعي ويتعلم الشيء الخطأ.

  • توحيد البيانات: قد تأتي البيانات بتنسيقات مختلفة، ويمكن أن يرتبك نموذج الذكاء الاصطناعي إذا لم يفهم كيفية قراءة كل شيء. على سبيل المثال، قد تستخدم بعض البيانات "1" لتعني "نعم" وقد تستخدم بيانات أخرى "نعم". عندما يتم توحيد مجموعة البيانات، يفهمها نموذج الذكاء الاصطناعي بشكل أفضل.