لقد اختبرت منشئ الصور الرائع من Google وسرعان ما وجدت حدوده

adminنوفمبر 6, 2024

0 12 4 دقائق

Imagen 3 هو منشئ صور الذكاء الاصطناعي من Google، والذي كان أعلن مرة أخرى في شهر مايو في الشركة مؤتمر المطورين I/O. تم إطلاقه بسعة محدودة في الولايات المتحدة في أغسطس ولكنه أصبح متاحًا مجانًا تَوأَم المستخدمين الشهر الماضي. لقد استخدمتها منذ ذلك الحين لإنشاء جميع أنواع الصور، وعلى الرغم من أنها أداة رائعة بشكل عام، إلا أنها تحتوي على العديد من القيود التي تعيق التجربة الشاملة.

هنا حيث يكافح Imagen 3

الحد الأول الذي يجب أن تكون على دراية به هو أنه لا يمكنك إنشاء صور للأشخاص، على الأقل باستخدام حساب Gemini المجاني. لا ينطبق هذا فقط على إنشاء صور لأشخاص مشهورين، وهو ما لا تسمح به العديد من أدوات إنشاء الصور على أي حال، ولكن الأشخاص بشكل عام. لذا فإن المطالبة مثل “إنشاء صورة لشخصين عشوائيين يرقصان” لن تؤدي إلى أي نتائج. للإشارة، ChatGPT يوجد أيضًا هذا الحد في الطبقة المجانية الخاصة به.

يمكنك إنشاء صور للأشخاص إذا قمت بالترقية إلى Gemini Advanced.

ومع ذلك، يمكنك إنشاء صور للأشخاص – باستثناء المشاهير – إذا اخترت اشتراك Gemini Advanced. لقد قمت بتجربتها، وكانت تجربة فاشلة. على الرغم من أنه يمكنه إنشاء صور واقعية جدًا، فمن الصعب معرفة ما إذا كانت تم إنشاؤها بواسطة الذكاء الاصطناعي أم لا، إلا أن النتائج التي ينتجها في بعض الأحيان تكون دون المستوى. تحقق من المثالين أدناه. يبدو أن الصورة الموجودة على اليسار واقعية للغاية ويبدو أنها تم التقاطها بواسطة مصور محترف، بينما تبدو الصورة الأخرى كرتونية فقط. حتى عند مطالبة الأداة بجعل الصورة أكثر واقعية عدة مرات، كانت التغييرات التي أجرتها ضئيلة للغاية.

بالحديث عن المصورين المحترفين، دعنا ننتقل إلى الحد الثاني أو المشكلة التي أراها مع Imagen 3. حتى عند إنتاج صورة واقعية، سواء لشخص أو حيوان أو كائن، فإن النتيجة تبدو احترافية وليست عادية. تعتبر كل صورة مثالية، مع إضافة تأثير البوكيه بشكل متكرر لجعلها تبدو أكثر جاذبية. تبدو كل صورة ينشئها Imagine 3 وكأنها تم تحريرها بشكل كبير، وهو أمر جيد إذا كان هذا هو المظهر الذي تبحث عنه، ولكن امتلاك القدرة على جعل الصور تبدو غير رسمية سيكون أمرًا رائعًا.

أعتقد أن أفضل الصور هي في بعض الأحيان تلك التي تكون خامًا. الصور غير المحررة التي التقطتها دون الكثير من التفكير عندما لم تكن الإضاءة مثالية ولم يكن الأشخاص الذين التقطتهم يعرفون حتى أنك التقطت صورة. هذا هو المكان الذي يعاني فيه Imagine 3، على الرغم من أنه من الجدير بالذكر أن هذا ينطبق تقريبًا على كل مولد صور يعمل بالذكاء الاصطناعي.

يقودني هذا إلى المشكلة الرئيسية الثالثة في Imagen، وهي تحرير الصور التي تم إنشاؤها. إذا قمت بإنشاء صورة مضحكة لقطة ترتدي قبعة وتأكل المصاصة ثم أردت تعديلها بمطالبة إضافية، فسيقوم Imagen 3 بإنشاء صورة جديدة تمامًا في الجوزاء. لذلك، على سبيل المثال، إذا أعجبتني الصورة التي تم إنشاؤها ولكني أريد فقط تغيير لون القبعة من الأسود إلى الأزرق، فستقوم الأداة بإنشاء صورة جديدة تمامًا وتغيير لون القبعة بدلاً من مجرد تغيير لون القبعة وتركها كل شيء آخر كما هو. من المؤكد أن الصورة الجديدة تبدو مشابهة نسبيًا للصورة القديمة عند استخدام الموجه الصحيح، لكنها لا تزال ليست هي نفسها، وهو ليس مثاليًا. وهذا يجعل من المستحيل تحرير الصورة إلى حد الكمال، خاصة مع المطالبات المتعددة التي من شأنها إنشاء صورة جديدة في كل مرة. تحقق من المثال أدناه وانظر لنفسك.

هناك مشكلة أخرى وهي أنني لا أستطيع تغيير نسبة العرض إلى الارتفاع. يتم إنشاء الصور بنسبة عرض إلى ارتفاع 1:1 افتراضيًا ولا يمكن تعديلها. إذا طلبت من الأداة تغييرها إلى 16:9، فسيقول Gemini أنه سيفعل ذلك، ولكنه سينشئ بعد ذلك صورة جديدة بنفس نسبة العرض إلى الارتفاع. ومع ذلك، يبدو أن هذا سيتغير قريبًا، مثل القدرة على ذلك تغيير نسبة العرض إلى الارتفاع قيد التنفيذ بالفعل.

وبغض النظر عن الحدود، فإن Imagen 3 رائع

اسمحوا لي فقط أن أوضح أنني لا أحاول مهاجمة منشئ الصور الرائع الذي يعمل بالذكاء الاصطناعي من Google. أريد فقط تسليط الضوء على الحدود التي واجهتها أثناء اختباره حتى تعرف ما يمكن توقعه. وبغض النظر عن الحدود، فإن Imagen 3 هي في الواقع أداة مثيرة للإعجاب للغاية. لقد قمت بتجريب عدد قليل من منافسيه أيضًا، وبينما كل مولد صور يعمل بالذكاء الاصطناعي له إيجابياته وسلبياته، أود أن أقول أن Imagen 3 هو من بين أفضل المولدات المتوفرة. يوافق زميلي كالفين. لقد قارن الأداة بالمنافسين ووجد أنها أفضل واحد هناك من حيث الجودة.

ما زلنا في المراحل الأولى من المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.

عندما يقوم Imagen 3 بالمهمة بشكل صحيح، تكون النتائج رائعة. صور الحيوانات والمدن والأشخاص وأي شيء آخر في هذا الشأن ستكون رائعة – إذا كنت تستطيع العيش بمظهر معدل بالفوتوشوب. لا تأخذ كلامي لذلك. قم بإلقاء نظرة على المعرض أدناه لترى بنفسك. وتذكر أننا ما زلنا في المراحل الأولى من المحتوى الذي ينشئه الذكاء الاصطناعي، لذا تخيل فقط ما سيكون البرنامج قادرًا على فعله بعد بضع سنوات.

حدود أخرى يجب أن تكون على علم بها

هذه هي الحدود التي صادفتها أثناء اختبار الأداة ولم أتوقعها – بصرف النظر عن عدم القدرة على إنشاء صور للأشخاص كمستخدم مجاني – على الرغم من وجود حدود أخرى مطبقة، تنص عليها Google بوضوح على موقعها على الويب. من المفيد إدراجها حتى تعرف ما يمكن توقعه.

لن تقوم Imagen 3 بإنشاء صورة تعتبرها غير مناسبة، حتى مع وجود خطة مدفوعة. يتضمن ذلك الصور المتعلقة بالعنف والتحرش والجنس والتمييز وما شابه ذلك. وينطبق هذا أيضًا على الصور التي تشجع على النشاط الخطير وتلك التي تحتوي على معلومات غير دقيقة في الحقائق والتي من شأنها أن تشكل خطراً على سلامة شخص ما.

هذه كلها حدود مناسبة، ومعظم أدوات إنشاء الصور ذات الذكاء الاصطناعي الكبيرة تضعها في مكانها الصحيح، دون احتساب FLUX.1 الذي يستخدمه جروك.

adminنوفمبر 6, 2024

0 12 4 دقائق