Openai: انظر إلى مولد الصور الرائع لدينا! Google: امسك Shiba Inu

Openai: انظر إلى مولد الصور الرائع لدينا! Google: امسك Shiba Inu


لا يزال عالم الذكاء الاصطناعى يكتشف كيفية التعامل مع العرض المذهل للبراعة التي هي قدرة Dall-E 2 على رسم/الطلاء/تخيل أي شيء ... لكن Openai ليس الوحيد الذي يعمل على شيء من هذا القبيل. هرعت Google Research إلى نشر نموذج مشابه كان يعمل عليه-وهو ما يدعي أنه أفضل. هذا ... حسنًا ، دعنا نتباطأ ونفصل عن ذلك سريعًا. شوهدت قفزات ضخمة في الجودة وإمكانية الوصول.

جزء من ذلك يستخدم تقنيات الانتشار ، والتي تبدأ بشكل أساسي مع صورة ضوضاء نقية وتحسينها ببطء قليلاً حتى يعتقد النموذج أنها لا تستطيع أن تجعلها تبدو أكثر مثل كلب على دراجة مما هو عليه بالفعل. كان هذا تحسناً على المولدات من أعلى إلى أسفل يمكن أن تخطئ بشكل فرحان في التخمين الأول ، والآخرين الذين يمكن أن يتم دفعهم بسهولة. النهج ، الجوانب الفنية التي لن أذهب إليها (ولا يمكنني) هنا ، ولكنها وبعض التطورات الحديثة الأخرى أدت إلى إقناع نماذج لغة مثل GPT-3 وغيرها.

اعتمادات الصورة : Google Research

يبدأ Imagen بإنشاء صورة صغيرة (64 × 64 بكسل) ثم يمر اثنين من الدقة الفائقة عليها لتحقيقها حتى 1024 × 1024. هذا ليس مثل الارتفاع العادي ، على الرغم من أن AI Super-Desolution يخلق تفاصيل جديدة في وئام مع الصورة الأصغر ، باستخدام الأصل كأساس.

قل على سبيل المثال أن لديك كلبًا على دراجة و عين الكلب هي 3 بكسل في الصورة الأولى. ليس هناك مساحة كبيرة للتعبير! ولكن على الصورة الثانية ، يبلغ طولها 12 بكسل. من أين تأتي التفاصيل اللازمة لهذا؟ حسنًا ، يعرف الذكاء الاصطناعى كيف تبدو عين الكلب ، لذلك يولد المزيد من التفاصيل كما يرسم. ثم يحدث هذا مرة أخرى عندما تتم العين مرة أخرى ، ولكن في 48 بكسل عبر. ولكن في أي وقت من الأوقات ، كان على الذكاء الاصطناعى أن يسحب 48 فقط بأي وحدات بكسل من الكلب من ... دعنا نقول حقيبة سحرية. مثل العديد من الفنانين ، بدأ الأمر بما يعادل رسمًا تقريبيًا ، وملأه في دراسة ، ثم ذهب حقًا إلى المدينة في اللوحة النهائية.

هذا غير مسبوق ، وفي الواقع الفنانين يعمل تستخدم النماذج هذه التقنية بالفعل لإنشاء قطع أكبر بكثير مما يمكن أن يتعامل معه الذكاء الاصطناعي في واحدة. إذا قمت بتقسيم قماش إلى عدة قطع ، ودقة فائقة كلها بشكل منفصل ، ينتهي بك الأمر بشيء أكبر بكثير وأكثر تفصيلًا ؛ يمكنك حتى أن تفعل ذلك مرارًا وتكرارًا. مثال مثير للاهتمام من فنان أعرفه:


الصورة المنشورة مسبقًا هي عبارة عن 24576 × 11264 بكسل. لا يوجد ترقية. في الواقع ، ذهبت بعيدًا عن LeTsenhance_ios Limits.😥

الصورة هي ما أسميه 'الجيل الثالث' (التورية المقصودة) ، مع تجديد شرائح 420 من صورة سابقة بالفعل مرة واحدة. 🧵2/ 10 pic.twitter.com/qg2zcccqma

- خلل dilkrom (dilkromglitches) 17 مايو ، 2022


تقدم الباحثين في Google مع Imagen عدة. يقولون أنه يمكن استخدام نماذج النص الحالية لجزء ترميز النص ، وأن جودتها أكثر أهمية من مجرد زيادة الإخلاص المرئي. هذا منطقي بشكل حدسي ، نظرًا لأن صورة مفصلة للهراء هي بالتأكيد أسوأ من صورة أقل تفصيلاً قليلاً لما طلبته بالضبط. ه 2 القيام باندا صنع لاتيه الفن. في جميع صور الأخيرة ، إنه فن الباندا ؛ في معظم Imagen ، إنه باندا يصنع الفن. (لم يتمكن أي منهما من تقديم حصان يركب رائد فضاء ، يظهر العكس في جميع المحاولات. إنه عمل مستمر.)

اعتمادات الصورة: Google Research

في اختبارات Google ، خرج Imagen إلى الأمام في اختبارات hu

اخلاء مسؤولية! هذا المقال لا يعبر بالضرورة عن رأي جامعة الرازي