يسلط الضوء على الباحثين كذبة بيانات 'مجهولة'

يسلط الضوء على الباحثين كذبة بيانات 'مجهولة'


قام الباحثون من جامعتين في أوروبا بنشر طريقة يقولون إنها قادرة على إعادة تحديد 99.98 ٪ من الأفراد في مجموعات البيانات المجهولة مع 15 سمات ديموغرافية فقط.

يقترح نموذجهم مجموعات بيانات معقدة من الشخصية لا يمكن حماية المعلومات مقابل إعادة تحديد الهوية بالطرق الحالية لإضفاء الطابع الهوية على البيانات-مثل إطلاق عينات (مجموعات فرعية) للمعلومات. إعادة تحديد الهوية-ليس من دون عناصر تحكم صارمة في الوصول. والكفاية القانونية لنموذج الإفراج عن التعريف والانهيار يكتب الباحثون من جامعة إمبريال كوليدج في لندن وبلجيكا كاثوليك دي لوفان في الملخص إلى PAPER IR الذي تم نشره في مجلة Nature Communications.

بالطبع لا يُظهر بأي حال من الأحوال أن عدم الكشف عن هويته للبيانات لأول مرة. لقد أظهر أحد الباحثين الذين يقفون وراء الورقة إيف ألكساندر دي مونتجوي الكلية الإمبراطورية في الدراسات السابقة التي تبحث في بيانات تعريف بطاقة الائتمان أن أربع قطع عشوائية فقط كانت كافية لتحديد 90 ٪ من المتسوقين كأفراد فريدين على سبيل المثال .

في دراسة أخرى شاركت في تأليفها De Montjoye والتي بحثت في تآكل خصوصية بيانات موقع smartphone تمكن الباحثون من تحديد 95 ٪ من الأفراد في مجموعة بيانات مع أربع نقاط مكانية فقط.

في الوقت نفسه على الرغم من هذه الدراسات التي توضح مدى سهولة اختيار الأفراد من حساء البيانات فإن مجموعات بيانات المستهلك المجهولة مثل تلك التي يتم تداولها من قبل الوسطاء لأغراض التسويق يمكن أن تحتوي للشخص الواحد.

يستشهد الباحثون بوسيط البيانات ببيع وصول Alteryx إلى مجموعة بيانات غير محددة تحتوي على 248 سمات لكل أسرة لـ 120 مليون أمريكي على سبيل المثال. ES لا شيء من تلك الأسر في مأمن من إعادة تحديد هويته. ومع ذلك تستمر مجموعات البيانات الضخمة في تداولها مدهونًا بمطالبة المطالب المتمثلة في عدم الكشف عن هويتها ...

(إذا كنت تريد أن تتسلل إلى مزيد من الزحف من خلال تداول البيانات الشخصية على نطاق واسع لأغراض تجارية والبيانات السياسية المشينة والآن تنهار وقالت الشركة كامبريدج تحليلية في العام الماضي-في ذروة فضيحة إساءة استخدام بيانات Facebook-أن مجموعة بياناتها التأسيسية لجهود استهداف الناخبين في الولايات المتحدة الأمريكية قد تم ترخيصها من وسطاء البيانات المعروفين مثل ACXIOM و Experian و Infogroup. للحصول على ملايين نقاط البيانات قانونًا على الأفراد الأميركيين من مجمعات البيانات الكبيرة جدًا وبائعي البيانات.)

Bit Novel هنا هو أن الباحثين قاموا ببناء نموذج إحصائي يقدر مدى سهولة القيام بذلك في أي مجموعة بيانات. H صحيح - لذلك يقومون بتقييم التفرد المطابق. ووجدوا أيضًا فشلت كسور أخذ العينات الصغيرة في حماية البيانات من إعادة تحديد هويتها. وحماية بياناتك يكتبون. تحصل طريقتنا على درجات دقة AUC تتراوح من 0.84 إلى 0.97 للتنبؤ بالتفرد الفردي مع معدل اكتشاف كاذب منخفض. لقد أظهرنا أن 99.98 ٪ من الأميركيين أعيد تحديدهم بشكل صحيح في أي مجموعة بيانات 'مجهولة المصدر' المتاحة باستخدام 15 خصائص فقط بما في ذلك العمر والجنس والحالة الزوجية.

لقد اتخذوا الخطوة غير المعتادة المتمثلة الكود الذي بنوه للتجارب حتى t

اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي