تجمع الخطاب 62 مليون دولار لنهجه الشامل في AI للكلام إلى النص

تجمع الخطاب 62 مليون دولار لنهجه الشامل في AI للكلام إلى النص

لقد كتبت الأسبوع الماضي عن شركة ناشئة منظمة العفو الدولية التي تبني تقنية يمكن أن تتغير ، في الوقت الحقيقي ، لهجة خطاب شخص ما. ولكن ماذا لو كان هدف الذكاء الاصطناعي بدلاً من ذلك هو جعل من الممكن للأشخاص الذين يتحدثون بأي طريقة يفعلون ، وأن يتم فهمهم تمامًا كما هم ، وإزالة بعض التحيز المتأصل في الكثير من أنظمة الذكاء الاصطناعى في هذه العملية؟ هناك حاجة كبيرة لذلك ، والآن شركة ناشئة في المملكة المتحدة تسمى الكلام - التي صممت منظمة العفو الدولية لترجمة الكلام إلى نص ، بغض النظر عن لهجة أو كيف يتحدث الشخص - تعلن عن 62 مليون دولار في التمويل لتوسيع أعماله.
قادت Susquehanna Growth Equity من الولايات المتحدة الجولة مع المملكة المتحدة InvestorsalBionvc و IQ Capital المشاركة أيضًا. هذه السلسلة B هي خطوة كبيرة لعلاج الخطاب. تم إيقاف الشركة في الأصل في عام 2006 من أبحاث الذكاء الاصطناعى في كامبريدج من قبل المؤسس الدكتور توني روبنسون ، وقبل ذلك جمع حوالي 10 ملايين دولار فقط (ألبيون و IQ من بين هؤلاء المؤيدين السابقين ، إلى جانب المدعومة من وكالة المخابرات المركزية في Q المدعومة من وكالة المخابرات المركزية الأمريكية -tel وغيرها).

في غضون ذلك ، قام ببناء قاعدة عملاء تبلغ من العمر 170 عامًا-تبيع فقط B2B ، لخدمات تواجه المستهلك أو الخدمات التي تواجه الأعمال-وبينما لا تكشف عن القائمة الكاملة ، بعض الأسماء تشمل What3words ، وسائط 3Play ، و Veritone ، و Deloitte UK و Vonage ، والتي تستخدم التكنولوجيا بشكل مختلف ليس فقط لصنع النسخ بالمعنى التقليدي ؛ ولكن من أجل أخذ الكلمات المنطوقة لمساعدة الجوانب الأخرى لوظيفة التطبيق ، مثل التسمية التوضيحية التلقائية ، أو لتشغيل ميزات إمكانية الوصول الأوسع. لاستخدام التمويل على حد سواء لمواصلة تحسين الدقة هناك ، ولإجراء تطوير الأعمال ، فإنه سيضيف المزيد من اللغات والنظر في حالات الاستخدام المختلفة ، مثل بناء الكلام إلى نص يمكن استخدامه في البيئة الأكثر صعوبة من السيارات (حيث تؤثر ضوضاء المحرك والاهتزازات على كيفية استطاعة AIS للأصوات). كاتي ويغدال ، الرئيس التنفيذي لشركة بدء التشغيل (عنوان شاركت فيه مع روبنسون ، الذي تراجعت منذ ذلك الحين من دور تنفيذي مؤخرًا).
يتجلى هذا في تركيز منتج الشركة وكذلك مهمتها ، وهذا شيء تتطلع أيضًا إلى التوسع.
وقال ويغدل إن الطريقة التي ننظر بها إلى اللغة عالمية. سيكون لدى Google حزمة مختلفة لكل إصدار من اللغة الإنجليزية ولكن حزمة واحدة ستفهم كل واحدة. في البداية جعلت تقنيتها متاحة فقط عن طريق واجهة برمجة تطبيقات خاصة تم بيعها للعملاء ؛ الآن في محاولة لجلب المزيد من المستخدمين والمستخدمين الذين يحتمل أن يكونوا أكثر دفعًا ، يقدم أيضًا المزيد من أدوات API مفتوحة للمطورين للعب مع التكنولوجيا ، وأخذ عينات من السحب والإفلات على موقعها.
وفي الواقع ، إذا من تحديات الكلام في تدريب الذكاء الاصطناعي على أن تكون أكثر إنسانية في فهمها لكيفية التحدث بها ، والآخر هو نحت اسمًا لنفسه ضد مقدمي الخدمات الرئيسية الأخرى لتكنولوجيا الكلام إلى النص.

قال wigdahl تتنافس الشركة اليوم ضد Big Tech - أي الشركات الكبرى مثل Amazon و Google و Microsoft (التي لديها الآن فارق بسيط) التي بنت محركات التعرف على الكلام وتوفر التقنية كخدمة لأطراف ثالثة.

ولكنه يقول إنه يسجل باستمرار أفضل من هذه الاختبارات لتكون قادرة على فهم متى يتم التحدث باللغات بعدة طرق. (أحد الاختبارات التي استشهدت بها هي دراسة 'التباينات العنصرية في ستانفورد في التعرف على الكلام' ، حيث سجلت دقة إجمالية قدرها 82.8 ٪ للأصوات الأمريكية الأفريقية مقارنة مع Google (68.6 ٪) وأمازون (68.6). انخفاض بنسبة 45 ٪ في أخطاء التعرف على الكلام - ما يعادل ثلاث كلمات في جملة متوسطة. كما وفرت TC مع منافس متوسط ​​مرجح:
ائتمانات الصورة: الكلام (يفتح في نافذة جديدة)

هناك بالفعل

اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي