من الصعب تجنب المفسدين على الإنترنت هذه الأيام - حتى لو كنت حذراً فقد يكون هناك تغريدة عشوائية أو عنصر إخباري موصى بها لإهدار خطتك لمشاهدة هذا الموسم في وقت متأخر يوميًا أو التقاط فيلم بعد أن تملك الحشود تهدأ. ولكن سرعان ما يجوز لوكيل منظمة العفو الدولية القيام بتصعيد المفسد من أجلك وعلم المراجعات المفسدة والمحتوى قبل أن تتاح لك فرصة النظر.
المفسد هو إنشاء فريق في جامعة كاليفورنيا في سان دييغو الأشخاص الذين حاولوا الانتظار أسبوعًا لرؤية حرب Infinity وقطعوا لمشاكلهم. لم مرة أخرى أبدًا!
قاموا بتجميع قاعدة بيانات لأكثر من مليون مراجعة من مجتمع القراءة المملوكة لـ Amazon حيث يكون الاتفاقية أن نلاحظ المفسدين في أي مراجعات خطًا سويًا بشكل أساسي. كمستخدم للموقع أنا ممتن لهذه الإمكانية وكان الباحثون أيضًا - لأنه لا يوجد مكان آخر من المراجعات المكتوبة التي تم فيها تصنيف كل مفسد بدقة من قبل مجتمع ضميري.
(حسنًا نوعًا ما من الضمير. كما يلاحظ الباحثون: نلاحظ أنه في الواقع يستخدم عدد قليل فقط من المستخدمين هذه الميزة.)
على أي حال هذه البيانات المسمى هي هذه الأيام بشكل أساسي الطعام لما يتم إحالته عمومًا إلى أنظمة AI: الشبكات العصبية من أنواع مختلفة تتعلم الصفات التي تحدد صورة أو كائن أو في هذه الحالة المفسدين. أطعم الفريق مراجعات GoodReads البالغة 1.3 مليون شخص في النظام مما يتيح له مراقبة وتسجيل الاختلافات بين الجمل العادية والأخرى مع المفسدين.
ربما يميل كتاب المراجعات إلى بدء الجمل مع تفاصيل المؤامرة بطريقة معينة - في وقت لاحق يتم الكشف عنها ... - أو ربما تميل جمل المفسد إلى عدم وجود كلمات تقييم مثل العظيمة أو المعقدة. من تعرف؟ فقط الشبكة.
بمجرد اكتمال تدريبها تم ضبط الوكيل على مجموعة منفصلة من الجمل (من كل من Goodreads و Timesink Times Timesink) والتي كانت قادرة على تسمية المفسد أو غير المفسد -Spoiler بدقة تصل إلى 92 في المئة. محاولات سابقة للتنبؤ بحساب ما إذا كانت الجملة لديها المفسدين في ذلك لم تكن جيدة ورقة واحدة بقلم تشيانغ وآخرون. في العام الماضي حطمت أرضية جديدة ولكنها محدودة من قبل مجموعة البيانات ونهجها والتي تسمح لها بالنظر فقط في الجملة أمامها. وقال المؤلف الرئيسي لورقة المفسد Mengting WAN لـ TechCrunch في رسالة بريد إلكتروني أنه يمكن دمج الدلالات عالية المستوى كما أخبر المؤلف الرئيسي لورقة المفسد Mengting WAN TechCrunch في رسالة بريد إلكتروني. هذا يسمح بفهم أكثر اكتمالا للفقرة أو المراجعة على الرغم من أنها بالطبع هي أيضًا مشكلة أكثر تعقيدًا.
ولكن النموذج الأكثر تعقيدًا هو نتيجة طبيعية من البيانات الأكثر ثراءً فقد كتب:
هذا التصميم النموذجي يستفيد بالفعل من مجموعة بيانات المراجعة واسعة النطاق الجديدة التي جمعناها لهذا العمل والتي تتضمن مستندات مراجعة كاملة وعلامات المفسد على مستوى الجملة وغيرها من البيانات الوصفية. على حد علمنا لا تتضمن مجموعة البيانات العامة (التي تم إصدارها في عام 2013) قبل هذا العمل سوى بضعة آلاف من التعليقات ذات الجملة الواحدة بدلاً من مستندات المراجعة الكاملة. بالنسبة لمجتمعات الأبحاث تسهل مجموعة البيانات هذه أيضًا إمكانية تحليل المفسدين للمراجعة الواقعية بالتفاصيل بالإضافة إلى تطوير نماذج التعلم العميقة 'المتعطشة للبيانات' الحديثة في هذا المجال.
لا يزال هذا النهج جديدًا و النهج الأكثر تعقيدًا له عيوبه. على سبيل المثال يخطئ النموذج أحيانًا في الجملة على أنه وجود مفسدين إذا كانت جملة المفسد الأخرى مجاورة وفهم الجمل الفردية ليس جيدًا بما يكفي لفهم عندما تشير بعض الكلمات إلى المفسدين حقًا أم لا. أنت وأنا أعلم أن هذا يقتل دارث فيدر هو مفسد في حين أن هذا يقتل التشويق ليس كذلك لكن نموذج الكمبيوتر قد يواجه مشكلة في الوقت الفعلي على جهاز كمبيوتر المستخدم على الرغم من التدريب بالطبع فسيكون ذلك وظيفة أكبر بكثير. أن المرجع
اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي