يتواصل الملايين من الأشخاص باستخدام لغة الإشارة ولكن حتى الآن مشاريع لالتقاط إيماءاتها المعقدة وترجمتها إلى الكلام اللفظي حققوا نجاحًا محدودًا. ومع ذلك يمكن أن يكون التقدم الجديد في تتبع اليد في الوقت الفعلي من مختبرات AI من Google هو الاختراق الذي كان البعض ينتظره. أنظمة التعلم الآلي لإنتاج في الوقت الحقيقي خريطة دقيقة للغاية لليد وجميع أصابعها لا تستخدم سوى هاتف ذكي وكاميرا. بيئات سطح المكتب القوية للاستدلال تحقق طريقتنا الأداء في الوقت الفعلي على الهاتف المحمول وحتى المقاييس إلى أيدي متعددة وكتابة باحثو Google Valentin Bazarevsky و Fan Zhang في منشور مدونة. إن إدراك اليد القوي في الوقت الفعلي هو مهمة رؤية كمبيوتر صعبة للغاية حيث غالبًا ما تتفكك الأيدي نفسها أو بعضها البعض (مثل انسداد الأصابع/النخيل والهزات اليدوية) وتفتقر إلى أنماط التباين العالية. غالبًا ما تكون الحركات سريعة أو خفية أو كليهما - وليس بالضرورة نوع من الأشياء التي تكون أجهزة الكمبيوتر جيدة في الصيد في الوقت الفعلي. في الأساس من الصعب للغاية القيام بذلك بشكل صحيح ومن الصعب القيام بذلك بشكل صحيح. حتى مع وجود كاميرات متعددة فإن منصات استشعار العمق مثل تلك المستخدمة من قبل Signall تواجه مشكلة في تتبع كل حركة. (لكن هذا لا يوقفهم.)
يعد Signall ببطء ولكن بثبات يقوم ببناء منصة ترجمة لغة الإشارة
هدف الباحثين في هذه الحالة جزئيًا على الأقل كان لخفض كمية البيانات التي تحتاجها الخوارزميات للخلع. تعني البيانات الأقل تحولًا أسرع.
لشيء واحد لقد تخلىوا عن فكرة وجود نظام يكتشف موضع وحجم اليد بأكملها. بدلاً من ذلك ليس لديهم فقط النظام يجد النخيل وهو ليس فقط الجزء الأكثر تميزًا والموثوقية من اليد ولكنه مربع مما يعني أنه لا داعي للقلق من أن النظام قادر على التعامل مع المستطيل طويل القامة الصور والصور القصيرة وما إلى ذلك. تنظر خوارزمية منفصلة إلى الصورة وتعين 21 إحداثيات لها وتنسيقًا تقريبًا على المفاصل والأطراف الأصلية بما في ذلك المدى الذي يحتمل أن يكونوا (يمكن أن يخمنوا على أساس حجم وزاوية النخيل من بين أشياء أخرى).
للقيام بهذا الجزء التعرف على الإصبع كان عليهم أولاً إضافة تلك النقاط الـ 21 يدويًا إلى حوالي 30000 صورة من الأيدي في مختلف المواقف ومواقف الإضاءة لنظام التعلم الآلي للاستيعاب والتعلم منها. كالعادة يعتمد الذكاء الاصطناعي على العمل الإنساني الصعب للذهاب. مثل السلام والمعادن.
والنتيجة هي خوارزمية تتبع اليدين سريعة ودقيقة على حد سواء وتدير على هاتف ذكي عادي بدلاً من سطح مكتب مخادع أو سحابة (أي سطح مكتب مخادع لشخص آخر) . كل هذا يعمل ضمن إطار عمل MediaPipe الذي قد يعرفه أفراد التكنولوجيا متعددة الوسائط بالفعل. نوع الاعتراف باليد التي احتاجوا إليها للتعرف على الإيماءات. إنه طريق طويل من هنا إلى فهم لغة الإشارة حقًا والتي تستخدم كل من اليدين وتعبيرات الوجه وغيرها من الإشارات لإنتاج طريقة اتصال غنية على عكس أي شيء آخر.
هذا لا يتم استخدامه في أي Google المنتجات حتى الآن لذلك تمكن الباحثون من التخلي عن عملهم مجانًا. رمز المصدر موجود هنا لأي شخص أن يأخذه ويبني عليه. طرق يكتبون.
اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي