تفاصيل Google تفاصيل AI خلف مشروع Project Euphonia الأكثر شمولية التعرف على الكلام

تفاصيل Google تفاصيل AI خلف مشروع Project Euphonia الأكثر شمولية التعرف على الكلام


كجزء من الجهود الجديدة نحو إمكانية الوصول أعلنت Google عن مشروع Euphonia في I/O في مايو: محاولة لجعل التعرف على الكلام قادرًا على فهم الأشخاص الذين لديهم أصوات غير قياسية أو عوائق. نشرت الشركة للتو منشورًا وورقتها تشرح بعض أعمال الذكاء الاصطناعى التي تتيح القدرة الجديدة. مثل التصلب الجانبي الضموري (ALS) ببساطة لا يتم فهمه من قبل أنظمة معالجة اللغة الطبيعية الحالية. تفاعل مع أحد منتجات الشركة الخاصة (وفي النهاية القيام بذلك بمساعدة العمل الباريوور ذي الصلة):


يصفها فريق البحث على النحو التالي:

ASR [التعرف على الكلام التلقائي غالبًا ما يتم تدريب الأنظمة من الكلام 'النموذجي' مما يعني أن المجموعات الممثلة تمثيلا ناقصا مثل تلك التي لديها إعاقة في الكلام أو لهجات ثقيلة لا تواجه نفس درجة المنفعة.

... يمكن أن تسفر نماذج الفند ASR عن خطأ في الكلمات العالية الأسعار (WER) للمتحدثين الذين يعانون من ضعف في الكلام المعتدل فقط من ALS باستثناء الوصول بشكل فعال إلى التقنيات المعتمدة على ASR.

من الجدير بالملاحظة أنها تلوم على الأقل مجموعة التدريب. هذا هو أحد تلك التحيزات الضمنية التي نجدها في نماذج الذكاء الاصطناعي والتي يمكن أن تؤدي إلى معدلات خطأ عالية في أماكن أخرى مثل التعرف على الوجه أو حتى ملاحظة أن الشخص موجود. في حين أن الفشل في تضمين مجموعات رئيسية مثل الأشخاص الذين يعانون من Dark Skin ليس خطأً قابلاً للمقارنة في الحجم لبناء نظام لا يشمل أولئك الذين يعانون من الكلام المتأثر يمكن معالجتهما ببيانات مصدر أكثر شمولاً.

لـ Google's الباحثون وهذا يعني جمع عشرات الساعات من الصوت المنطوق من الأشخاص الذين يعانون من ALS. كما قد تتوقع يتأثر كل شخص بشكل مختلف بحالته لذا فإن استيعاب آثار المرض ليس هو نفس عملية استيعاب على سبيل المثال لهجة غير شائعة.


النسخ المباشر والتسمي يعد Android بمثابة نعمة لـ Impaireged


تم استخدام نموذج قياسي لإدراك الصوت كخط أساسي ثم تم تعديله بعدة طرق تجريبية وتدريبه على الصوت الجديد. هذا وحده خفض معدلات خطأ الكلمات بشكل كبير وفعلت ذلك مع تغيير ضئيل نسبيا للنموذج الأصلي مما يعني أن هناك حاجة أقل إلى حساب ثقيل عند التكيف مع صوت جديد.

وجد الباحثون أن النموذج عندما يكون هو لا يزال مرتبكًا من قبل صوتي معين (هذا خطاب فردي يبدو مثل E أو F) له نوعان من الأخطاء. أولاً هناك حقيقة أنها لا تتعرف على الصوتيات لما كان مقصودًا وبالتالي لا يتعرف على الكلمة. وثانياً يتعين على النموذج أن يخمن أي صوت كان المتحدث ينويه وقد يختار الخاطئ في الحالات التي تبدو فيها كلمتين أو أكثر متشابهة تقريبًا. . ربما تقول سأعود إلى المنزل وفشل النظام في التعرف على B في الظهر و H في المنزل من غير المحتمل بنفس القدر أنك تنوي القول إنني سأذهب داخل الماوس. قد يكون نظام الذكاء الاصطناعي قادرًا على استخدام ما يعرفه باللغة البشرية - وصوتك أو السياق الذي تتحدث فيه - لملء الفجوات بذكاء.

ولكن هذا يترك للبحث في المستقبل. في الوقت الحالي يمكنك قراءة عمل الفريق حتى الآن في الورقة التي تخصيص ASR لخطاب خلل الحركة والكلام المحدود مع بيانات محدودة من المقرر أن يتم تقديمها في مؤتمر Interspeech في النمسا الشهر المقبل.

اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي