لقد اختبرت مولد صور ديبسيك وأنا لست معجبًا

adminمنذ 3 أسابيع

0 12 4 دقائق

روبرت تريجز / سلطة أندرويد

بينما ديبسيك تستمر Mania في الاستيلاء على عالم الذكاء الاصطناعي ، وسرعان ما تابعت شركة AI الصينية نموذج توليد الصور الأول. يطلق عليه Deepseek ، الذي يطلق عليه Deepseek ، على نموذج لغوي كبير يوحد الفهم متعدد الوسائط وتوليد الصور ، يتنافس مع النماذج الحالية مثل الانتشار المستقر ، جوجل Imagen 3و Openai’s Dall-E 3.

Deepseek يمثل تهديدًا للاعبين القائمين ، لكن هل يمكن أن يتجاوز Janus Pro؟

مطالبة Deepseek بالشهرة هي انخفاض تكلفة التدريب والوصول مع الحفاظ على الأداء والدقة التي تقدمها Openai. لذلك ، فإن النموذج الذي يمكن أن يتطابق أو يتجاوز قدرات أفضل مولدات الصور AI في الوقت الحالي سيكون تهديدًا خطيرًا للجهود التي بذلها Adobe وغيرها من اللاعبين الراسخين.

مع أن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعى يصبح سائدًا بشكل متزايد ، من المتوقع أن توفر نماذج الصور مرونة إبداعية ودقة واقعية. لكن هل يانوس برو على هذه التوقعات؟

وضع إطار الاختبار

سلطة Dhruv Bhutani / Android

قررت اختبار Janus Pro ضد خمسة من نماذج توليد الصور الرائدة. يتضمن ذلك الانتشار المستقر ، Dall-E 3 ، Openai’s Dall-E 3 ، Google’s Imagen 3 ، Meta AI ، و Adobe Firefly.

تم إعطاء جميع نماذج توليد الصور الستة نفس المطالبات ، وللحفاظ على ملعب مستوي ، اخترت الاستجابة الأولى بدلاً من اختيار أفضل النتائج. إنها ليست الطريقة الأكثر علمية للاختبار ، لكنني أردت التعامل مع المقارنة كمستخدم عادي.

يقوم معظم المستخدمين ببساطة بإدخال موجه ويتوقعون نتيجة شبه مثالية في المحاولة الأولى. لهذا السبب قمت بإعطاء الأولوية للاختبار مع مخرجات فورية غير مفيدة لمحاكاة تجربة المستخدم المتوسطة.

إلى أي مدى يمكن أن تولد الذكاء الاصطناعي صورًا واقعية؟

لاختباري الأول ، أردت أن أرى كيف يقترب كل نموذج لتوليد الصور من إنشاء صورة واقعية. لقد اختبرت سيناريو محدد ، وإضاءة ، ومدى جودة إعادة إنشاء حيوان. إليكم المطالبة التي استخدمتها: صورة واقعية لقطط برتقالي سمين تطارد غزل من الصوف في حديقة مشمسة.

تعد الصور الواقعية صعبة بشكل خاص لنماذج الذكاء الاصطناعى لأنها تتطلب اهتمامًا دقيقًا لمصادر الضوء وتفاصيل الملمس والعمق المكاني. لقد ركزت على مدى واقعية النماذج التي جعلت فراء القط ، ولعب أشعة الشمس على الحديقة ، وما إذا كانت الغزل يبدو ديناميكيًا وملموسًا.

لمحة سريعة كافية لإدراك أن Janus Pro يشترك في الإصدار الأول من نموذج Dall e text to-image أكثر من أي شيء آخر. والنتيجة منخفضة إلى حد ما ، وبالتأكيد ليست واقعية للغاية. الانتشار المستقر ، من ناحية أخرى ، يقترب جدا من المطالبة الواقعية ، على الرغم من أن الذيل المتضخم يعطي جذور الذكاء الاصطناعي.

الترتيب في المركز الثالث سيكون Adobe’s Firefly. يمكن أن تنخدع تقريبًا أن الصورة كانت صورة تم تحريرها للغاية. ومع ذلك ، فإن الوجه يعطيه بعيدا. أخيرًا ، يقوم Imagen 3 و Dall E و Meta AI بعمل لائق ، لكنني لن أسمي حقًا أي من تلك الصور الواقعية.

اختبار قدرة الذكاء الاصطناعى على التقاط التنوع والتفاصيل

للاختبار الثاني ، قررت رفع مستوى الصعوبة. عادة ما تكافح نماذج الذكاء الاصطناعي مع إعادة إنشاء الوجوه الطبيعية والأيدي ومجموعة متنوعة من الناس. إن إضافة تعليمات محددة للغاية لظروف الإعداد والإضاءة تخلق اختبارًا صعبًا إلى حد ما لأي نموذج توليد صور حالي. هذه المرة ، كانت موجه أكثر تفصيلاً ، حيث تستفيد نماذج الذكاء الاصطناعى من التعليمات الحبيبية: صورة شخصية جماعية لطلاب الجامعات متعددة الثقافات يتناولون الغداء خارج منتجع للتزلج ، مع وجوه مفصلة – ذكور ، أنثى ، متنوعة – خلال فصل الشتاء عند الظهر ، تحت غائم جزئيًا السماء الزرقاء.

كانت التحديات هنا عديدة ، من التقاط نغمات البشرة المتنوعة بدقة إلى تقديم تعبيرات واقعية للوجه وضمان عدم تشويه الأيدي.

مرة أخرى ، يقع Janus Pro وراء نماذج توليد الصور الأخرى. انها حقا لا منافسة على الإطلاق. على الرغم من أن AI-AI-LENCING المرئية في جميع اللقطات ، ووضح الانتشار المستقر ، و Adobe Firefly ، و Imagen 3 تحديًا صعبًا هنا ، لدرجة أنني أضعه في النقاش داخل سلطة Android قناة الركود. أنا شخصياً أميل نحو نتائج Imagen 3 هنا.

اختبار الإبداع

لاختباري النهائي ، أردت أن أرى كيف ستعمل نماذج توليد الصور مع المزيد من المساعي الإبداعية. طلبت منهم إنشاء شخصية كرتونية جديدة مستوحاة من شخصيات ديزني الكلاسيكية. إليكم المطالبة التي استخدمتها: شخصية كرتونية تستند إلى شخصيات ديزني الكلاسيكية ، مع العيون الكبيرة والمرح والخصائص الخيالية.

ما يجعل الشخصيات المستوحاة من ديزني أيقونية هي عيونها التعبيرية وعناصر التصميم غريب الأطوار ونسب مرحة. كنت أبحث عن تصميم استحوذ على “السحر” دون الشعور بالاشتقاق.

إذا قرر Hieronymus Bosch رسم شخصيات ديزني ، فربما ينتهي الأمر بشيء مثل إخراج Janus Pro. الانتشار المستقر ، من ناحية أخرى ، يخرج مباشرة نسخة أصغر من ELSA من Frozen. لقد قامت بتسمية المهمة ، لذلك سأتصل بالانتشار المستقر للفائز.

إذا قرر Hieronymus Bosch رسم شخصيات ديزني ، فربما ينتهي الأمر بشيء مثل إخراج Janus Pro.

نماذج توليد الصور الأخرى لم تُعزى إلى جمالية ديزني تمامًا ، وأقول إن نتائج Meta AI كانت أقرب إلى Pixar. بغض النظر ، يمكن أن تكون جميع النماذج التي تحظر يانوس بمثابة نقطة انطلاق عند العصف الذهني.

هل يانوس برو منافس جاد في توليد الصور؟

باستخدام Pixel Studio لأفكار التصميم الداخلي 1

ريتا الخوري / سلطة أندرويد

أنا لست معجبًا كبيرًا بنماذج توليد الصور بشكل عام. إنهم يفتقرون إلى الروح والإبداع التي لا يمكن أن تأتي إلا من فنان حقيقي. ومع ذلك ، يمكن أن تكون مفيدة في النماذج الأولية السريعة ، أو توليد الأفكار ، أو بمثابة إضافات مبسطة لتوضيح نقطة في عرض تقديمي.

على سبيل المثال ، غالبًا ما يلجأ محترفي التسويق إلى هذه الأدوات لمشاركات الوسائط الاجتماعية أو النماذج الاسمية المرئية السريعة ، بينما قد يستخدمها المعلمون لمواد الدروس الإبداعية. قد يولد مصممو الألعاب بيئات خيالية أو أفكار شخصية كأساس للفنانين لصقلها. ولكن هل يمكن أن تحل هذه النماذج حقًا محل خيال الفنان البشري؟ هذا لا يزال نقطة النقاش.

يشير Janus Pro إلى دخول Deepseek إلى توليد الصور ، ولكن أمامه طريق طويل قبل الوقوف مع قادة الصناعة.

قد يكون Janus Pro Mark Mark Deepseek في مساحة توليد الصور ، ولكن من الواضح أنه أمامه طريق طويل قبل الوقوف من أخمص القدمين مع نماذج ثابتة مثل الانتشار المستقر ، Adobe Firefly ، و Imagen 3.

على الرغم من أنها تكافح مع الصور الواقعية ، وتركيبات الوجه المعقدة ، والمطالبات الإبداعية ، فإن وجودها يدل على أن المنافسة في تطوير الذكاء الاصطناعي تكثف فقط. مع تطور التكنولوجيا ، من المثير أن نتخيل أين ستتجه نماذج جيل الصور بعد ذلك-وما إذا كان يمكن أن يصبح Janus Pro في النهاية منافسًا جادًا.

adminمنذ 3 أسابيع

0 12 4 دقائق