يتم تثبيت العديد من الشركات والبلديات بمئات أو آلاف الساعات من الفيديو وطرق محدودة لتحويلها إلى بيانات قابلة للاستخدام. يوفر Voxel51 خيارًا قائمًا على التعلم الآلي يمضغه عبر الفيديو ويسميه ليس فقط مع التعرف على الصور البسيط ولكن مع فهم الحركات والكائنات مع مرور الوقت. الأكثر شهرة منها هي بالتأكيد القيادة المستقلة. ولكن من المهم أيضًا في الروبوتات وصناعات الخدمة وتجارة التجزئة لمواجهة الشرطة (الآن بعد أن أصبحت كاميرات الجسم شائعة) وما إلى ذلك. كل إطار وكتابة ما هو فيه إلى أساليب أكثر تقدمًا تتم أتمتة الكثير من العملية حتى تعمل في الوقت الفعلي. لكن القاعدة العامة في هذه هي أنها تم إجراؤها حسب الإطار.
يكون إطارًا واحدًا رائعًا إذا كنت تريد معرفة عدد السيارات الموجودة في صورة أو ما إذا كانت هناك علامة توقف أو ما لوحة الترخيص تقرأ. ولكن ماذا لو كنت بحاجة إلى معرفة ما إذا كان شخص ما يسير أو يخرج عن الطريق؟ ماذا عن ما إذا كان شخص ما يلوح أو يرمي صخرة؟ هل يذهب الناس في حشد إلى اليمين أو اليسار بشكل عام؟ من الصعب استنتاج هذا النوع من الأشياء من إطار واحد لكن النظر إلى اثنين أو ثلاثة فقط على التوالي يجعل الأمر واضحًا.
هذه الحقيقة هي ما تستفيد منه شركة Voxel51 للاستفادة من المنافسة الراسخة في هذا المجال. يمكن لخوارزميات الفيديو الأصلية أن تفعل بعض الأشياء التي لا يمكن للأشياء المفردة وحيثما تتداخل غالبًا ما تقوم الأول بذلك بشكل أفضل. جيسون كورسو و CTO براين مور في جامعة ميشيغان. أخذ الأخير فئة رؤية الكمبيوتر السابقة وفي النهاية وجد الاثنان أنهما شاركوا في إخراج الأفكار من المختبر.
wtf هي رؤية الكمبيوتر؟
لقد بدأت وقال كورسو إن الشركة لأنني أجريت لي هذه المجموعة الشاسعة من الأبحاث وكانت الغالبية العظمى من الخدمات المتوفرة تركز على الفهم القائم على الصور بدلاً من الفهم القائم على الفيديو. وفي جميع الحالات التي رأيناها تقريبًا عندما نستخدم نموذجًا قائمًا على الفيديو نرى تحسينات دقة.
أكثر بكثير من ذكاء لتصنيع شيء يمكن على سبيل المثال تحديد السلوكيات المدمجة عند تقاطع أو أخبر ما إذا كان شخص ما قد انزلق بين السيارات إلى Jaywalk. في كل من هذه الحالات يكون السياق مهمًا وهناك حاجة إلى إطارات متعددة للفيديو لتوصيف الإجراء. خمسة 10 30 إطارًا ... تكتشف نماذجنا إلى أي مدى يجب أن تتطلع إلى إيجاد استنتاج قوي. ولكن في العلاقات بين العديد من الصور مع مرور الوقت. إذا لم يكن متأكدًا تمامًا مما إذا كان الشخص الموجود في إطار معين يتجول أو يهبط من قفزة فهذا يعلم أنه يمكن أن يتقدم قليلاً للأمام أو للخلف للعثور على المعلومات التي ستوضح ذلك.
وحتى ل المزيد من مهام الاستدلال العادية مثل حساب السيارات في الشارع يمكن التحقق من هذه البيانات أو تحديثها من خلال النظر إلى الوراء أو التخطي إلى الأمام. إذا كان بإمكانك رؤية خمس سيارات فقط لأن المرء كبير ويمنع السادس فهذا لا يغير حقيقة أن هناك ست سيارات. حتى إذا لم يظهر كل إطار كل سيارة فلا يزال من المهم على سبيل المثال نظام مراقبة حركة المرور.
الاعتراض الطبيعي على ذلك هو أن معالجة 10 إطارات لمعرفة ما يفعله الشخص أكثر تكلفة من الناحية الحسابية من معالجة إطار واحد. هذا صحيح بالتأكيد إذا كنت تعاملها مثل سلسلة من الصور الثابتة ولكن هذا ليس كيف يفعل Voxel51. قد يكون إجمالي كمية وحدات البكسل التي نعالجها هي نفسها أو أقل كإطار واحد اعتمادًا على ما نريده
اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي