Unified-IO هو نظام منظمة العفو الدولية يمكنه إكمال مجموعة من المهام ، بما في ذلك توليد الصور

Unified-IO هو نظام منظمة العفو الدولية يمكنه إكمال مجموعة من المهام ، بما في ذلك توليد الصور


ركز معهد ألين لمنظمة العفو الدولية (AI2) ، القسم داخل معهد ألن غير الربحية ، على أبحاث التعلم الآلي ، اليوم عمله على نظام الذكاء الاصطناعى ، يسمى Unified-IO ، بأنه يدعي أنه من بين أول من يقوم بأداء كبير ومجموعة متنوعة من مهام الذكاء الاصطناعي. يمكن لـ Unified-IO معالجة وإنشاء الصور والنصوص والبيانات المنظمة الأخرى ، وهو إنجاز يقوله فريق البحث الذي يقف وراءها إنه خطوة نحو بناء أنظمة AI ذات الأغراض العامة القادرة والموحدة.

نحن مهتمون ببناء مهمة -أغني [أنظمة الذكاء الاصطناعى] ، والتي يمكن أن تمكن الممارسين من تدريب نماذج [التعلم الآلي] على مهام جديدة مع القليل من المعرفة بالآلية الأساسية ، أخبر جايسن لو ، عالم أبحاث في AI2 الذي عمل على unified-IO ، TechCrunch عبر البريد الإلكتروني . هذه البنى الموحدة تخفف من الحاجة إلى المعلمات الخاصة بالمهمة وتعديلات النظام ، ويمكن تدريبها بشكل مشترك على أداء مجموعة كبيرة ومتنوعة من المهام ويمكن أن تشارك المعرفة عبر المهام لزيادة الأداء.

الجهود المبكرة لـ AI2 أدى إلى GPV-1 و GPV-2 ، وهما أنظمة متعددة للأغراض العامة التي تدعم حفنة من أعباء العمل بما في ذلك صور التسمية التوضيحية والإجابة على الأسئلة. تطلب Unified-IO العودة إلى لوحة الرسم ، وفقًا لـ LU وتصميم نموذج جديد من الألف إلى الياء.

يشارك Unified-IO الخصائص المشتركة مع GPT-3 من Openai ، بمعنى أنه محول. يعود تاريخه إلى عام 2017 ، أصبح المحول بنية اختيار مهام التفكير المعقدة ، مما يدل على الكفاءة لتلخيص المستندات ، وتوليد الموسيقى ، وتصنيف الكائنات في الصور وتحليل تسلسل البروتين.

مثل جميع أنظمة الذكاء الاصطناع تعلم القدوة ، تناول مليارات الكلمات والصور والمزيد في شكل الرموز. عملت هذه الرموز المميزة لتمثيل البيانات بطريقة يمكن أن تفهمها-

يمكن لـ Unified-IO إنشاء صور تعطى وصفًا موجزًا. اعتمادات الصورة: موحد-IO

كان مجتمع معالجة اللغة الطبيعية (NLP) ناجحًا للغاية في بناء [أنظمة AI] الموحدة التي تدعم العديد من المهام المختلفة ، لأن العديد من مهام NLP يمكن تمثيلها بشكل متجانس-كلمات كمدخلات و كلمات مثل الإخراج. لكن طبيعة وتنوع مهام رؤية الكمبيوتر تعني أن نماذج المهام المتعددة في الماضي تقتصر على مجموعة صغيرة من المهام ، ومعظمها من المهام التي تنتج مخرجات اللغة (أجب على سؤال ، تسمية توضيحية صورة ، إلخ) ، كريس كلارك ، الذين تعاونوا مع LU على Unified-IO في AI2 ، أخبر TechCrunch في رسالة بريد إلكتروني. يوضح Unified-IO أنه من خلال تحويل مجموعة من المخرجات المهيكلة المتنوعة مثل الصور والأقنعة الثنائية والصناديق المحددة ومجموعات من النقاط الرئيسية والخرائط الرمادية والمزيد إلى تسلسلات متجانسة من الرموز ، يمكننا تصميم مجموعة من مهام رؤية الكمبيوتر الكلاسيكية إلى حد كبير وأوضح كلارك أن كيفية تصميم المهام في NLP.


على عكس بعض الأنظمة ، لا يمكن لتحليل أو إنشاء مقاطع فيديو وصوت-وهو قيود على النموذج من منظور طريقة. ولكن من بين المهام التي يمكن أن يكملها موحد-IO هي توليد الصور ، واكتشاف الكائنات داخل الصور ، وتقدير العمق ، وإعادة صياغة المستندات ، وتسليط الضوء على مناطق محددة داخل الصور.

هذا له آثار كبيرة على رؤية الكمبيوتر ، لأنه يبدأ في علاج الطرائق وأضاف كلارك أن الأقنعة والأقنعة واللغة والمربعات المحيطية بمثابة تسلسلات الرموز - أقرب إلى اللغة. علاوة على ذلك ، يمكن للتوحيد على هذا المقياس الآن أن يفتح الأبواب أمام الطرق الجديدة في رؤية الكمبيوتر مثل التدريب الموحد الهائل ، ونقل المعرفة عبر المهام ، والتعلم قليلًا ، وأكثر من ذلك. في جامعة ألبرتا التي لم تشارك في أبحاث AI2 ، كان مترددًا في تسمية Unified-Io باختراق. وأشار إلى أن النظام مماثل لـ DeepMind المفصل مؤخرًا ، وهو نموذج واحد يمكنه أداء أكثر من 600 مهمة من ممارسة الألعاب إلى الروبوتات. مجموعة مختلفة من

اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي