إدارة المخاطر الكبيرة للبيانات الضخمة

نشر في 26-02-2017

مخاطر البيانات الكبيرة يمكن تجنبها إلى حد كبير، لكن لن يتأتى ذلك إلا إذا قمنا بحماية خصوصية الناس بكل جدية، وكشفنا عن الظلم وقمنا بتصحيحه، باستخدام توصيات النظم الحسابية بحكمة، والحفاظ على فهم دقيق لأساليب العمل الداخلية لهذه النظم "والبيانات التي تؤثر في قراراتها.

شهدنا في السنوات الـ15 الماضية انفجارا في كمية البيانات الرقمية المتاحة- من الإنترنت ووسائل الإعلام الاجتماعية، والمعدات العلمية، والهواتف الذكية، وكاميرات المراقبة، إلى العديد من المصادر الأخرى- وفي تكنولوجيا الكمبيوتر المستخدمة، ومما لا شك فيه أن "البيانات الضخمة"، كما هو معروف، تقدم التطورات العلمية والتكنولوجية والطبية المهمة، لكن البيانات الضخمة أيضا تشكل خطرا جسيما إذا ما استُخدمت أو تم التعامل معها بشكل سيئ.

وبالفعل فقد اعتمدت الابتكارات الرئيسة مثل محركات البحث على الإنترنت، والترجمة الآلية، ووسم الصورة على تطبيق تقنيات التعلم الآلي لمجموعات البيانات الضخمة، وفي المستقبل القريب يمكن للبيانات الضخمة أن تحسن إلى حد كبير السياسات الحكومية وبرامج الرعاية الاجتماعية والمنح الدراسية.

لكن وجود المزيد من البيانات ليس بديلا عن وجود بيانات عالية الجودة، على سبيل المثال يوضح مقال نُشر مؤخرا في مجلة "نيتشر" أن استطلاعات الرأي الانتخابية في الولايات المتحدة تكافح من أجل الحصول على عينات تمثيلية من السكان، لأنه مسموح لها قانونا بالاتصال فقط بالهواتف الأرضية، في حين يعتمد الأميركيون بشكل متزايد على الهواتف المحمولة، وفي حين يمكن للمرء أن يجد آراء سياسية لا تحصى حول وسائل الإعلام الاجتماعية، فهذه لا تمثل الناخبين على نحو موثوق، وفي الواقع فإن حصة كبيرة من التغريدات والمشاركات على الفيسبوك حول السياسة مولدة بالحاسوب.

تسببت البرامج الآلية المرتكزة على مجموعات البيانات، في السنوات الأخيرة، في العديد من الفضائح، على سبيل المثال، عندما بحث طالب جامعي في يونيو الماضي على صور في غوغل عن "قصات شعر غير مهنية للعمل"، أظهرت النتائج غالبية الصور للسود، وعندما غير الطالب مصطلح البحث الأول إلى "المهنية"، أعطى غوغل أغلب الصور من الناس البيض، لكن هذه الصور لم تكن نتيجة للتحيز من جانب مبرمجي غوغل، بدلا من ذلك، إنها تعكس مدى تصنيف صور الناس على شبكة الإنترنت. إن برنامج البيانات الضخمة الذي استخدم نتيجة البحث هذه لتقييم قرارات التعيين والترقية قد يفرض عقوبات على المرشحين السود الذين يشبهون الصور في نتائج "تسريحات الشعر غير المهنية"، وبالتالي إدامة الأحكام المسبقة التقليدية، وهذا ليس مجرد احتمال افتراضي، ففي العام الماضي أظهرت تحقيقات "بروبوبليكا لنماذج مخاطر الانتكاسية" أن المنهجية المستخدمة على نطاق واسع لتحديد العقوبات على المجرمين المدانين تغالي في احتمال ارتكاب المتهمين السود جرائم في المستقبل، وتقلل من خطر إقدام المتهمين البيض على فعل ذلك.

ويكمن خطر آخر في إمكانية التلاعب بالبيانات الضخمة، فعندما يعرف الناس أن مجموعة البيانات التي يتم استخدامها لاتخاذ قرارات مهمة من شأنها التأثير عليهم، سيكون ذلك حافزا لقلب الموازين لمصلحتهم. على سبيل المثال قد يكون المعلمون الذين يقيمون وفقا لدرجات اختبار طلابهم أكثر عرضة "للتعليم من أجل الاختبار"، أو حتى للغش.

وبالمثل فقد اتخذ مديرو الجامعات الذين يرغبون في نقل مؤسساتهم إلى تصنيفات جريدة "أخبار الولايات المتحدة وتقارير العالم" قرارات غير حكيمة، مثل الاستثمار في صالات رياضية باهظة على حساب الأكاديميين، والأسوأ من ذلك أنهم اتخذوا قرارات غير أخلاقية على نحو بشع، مثل الجهود التي تبذلها جامعة ماونت سانت ماري للزيادة في معدل "استبقائها" عن طريق تحديد وطرد الطلاب الأضعف في الأسابيع القليلة الأولى من الدراسة. وحتى محرك البحث في غوغل ليس مناعيا، فعلى الرغم من قيادته كمية هائلة من البيانات التي تشرف عليها نخبة من كبار علماء البيانات في العالم، فإن نتائجه عرضة "لتطوير محرك البحث" والتلاعب، مثل "قصف غوغل"، و"سبامديكسينغ"، وغيرها من الأساليب التي تخدم المصالح المحدودة.

والخطر الثالث هو انتهاك الخصوصية، لأن الكثير من البيانات المتاحة حاليا تحتوي على معلومات شخصية، وفي السنوات الأخيرة سُرقت مجموعات هائلة من البيانات السرية من المواقع التجارية والحكومية، وأظهر الباحثون أن الآراء السياسية الشعبية أو حتى الميولات الجنسية يمكن استقاؤها بدقة من وظائف بسيطة على الإنترنت، مثل التعليقات حول الأفلام، حتى بعد نشرها الزائف.

وأخيراً تطرح البيانات الكبيرة تحديا للمساءلة، فيشعر أي شخص تمت معاملته بطريقة جائرة من قبل قرار نظام الحلول النسبية أنه أحيانا ليست لديه وسيلة للطعن، وذلك إما بسبب نتائج محددة لا يمكن تفسيرها، أو لأن الناس الذين كتبوا هذا النظام يرفضون تقديم تفاصيل عن كيفية اشتغاله، وقد تعترض الحكومات أو الشركات منتقدي وصف نظام الحلول النسبية بـ"الرياضي" أو "العلمي"، وهؤلاء غالبا ما ينزعجون من السلوك المرعب لإبداعاتهم. لقد اعتمد الاتحاد الأوروبي مؤخرا ضمان حق الأشخاص المتضررين من هذه النظم "في الاستفسار"، ولكن الزمن وحده سيبين كيفية تطبيقه في الممارسة العملية.

وعندما لا يحصل المتضررون من البيانات الكبيرة على سبل للطعن، تصبح النتائج سامة وبعيدة المدى، كما أوضحت مؤخرا عالِمة البيانات كاثي أونيل في كتابها "أسلحة الدمار الرياضي". والخبر السار هو أن مخاطر البيانات الكبيرة يمكن تجنبها إلى حد كبير، لكن لن يتأتى ذلك إلا إذا قمنا بحماية خصوصية الناس بكل جدية، وكشفنا عن الظلم وقمنا بتصحيحه، باستخدام توصيات النظم الحسابية بحكمة، والحفاظ على فهم دقيق لأساليب العمل الداخلية لهذه النظم "والبيانات التي تؤثر في قراراتها.

إرنست ديفيس*

* أستاذ علوم الحاسوب في معهد كورانت للعلوم الرياضية، جامعة نيويورك. «بروجيكت سنديكيت، 2017»

بالاتفاق مع «الجريدة»