نموذج جديد من جوجل يغير مفهوم توليد الصور بالذكاء الاصطناعي
أصبح نموذج Gemini 3 Pro Image، المعروف باسم Nano Banana Pro، واحداً من أبرز أدوات الذكاء الاصطناعي في مجال توليد الصور، منذ إطلاقه في منتصف نوفمبر الماضي، بعدما قدّم مستوى بصرياً غير مسبوق خاصة في التعامل مع النصوص العربية، وهو التحدي الذي ظلّ يمثّل عقبة أمام النماذج السابقة لسنوات.
هذا التقدّم لم يأتِ من تحسينات سطحية، بل كان نتيجة إعادة بناء شاملة لطريقة تدريب النموذج وفهمه للعناصر البصرية.
وأفاد البيان التوضيحي للنموذج، بأنه ينتمي إلى الجيل الجديد من نماذج Gemini 3 Pro متعددة الوسائط القادرة على معالجة المعلومات عبر النص والصورة في سياق واحد، مع نافذة سياق تصل إلى مليون رمز (Token)، ما يمنحه قدرة استثنائية على فهم العلاقات بين العناصر داخل المشهد.
فهم بصري عميق
اعتمدت “جوجل” في تدريب النموذج على مجموعة بيانات بصرية ضخمة وجودة عالية، تشمل أمثلة تصميم تحتوي نصوصاً عربية ولغات متعددة.
ومكّن هذا التنوع النموذج من فهم شكل الحروف العربية وتوزيعها داخل التصميم وربطها بالمعنى والسياق، وهي نقطة شديدة الحساسية في توليد الصور التي تحتوي على نصوص.
واعتمدت عملية تدريب النموذج على معالجة متقدمة للبيانات وتصفية دقيقة للمدخلات، لضمان نتائج أولية أكثر تماسكاً، وتقليل الأخطاء التي كانت تظهر في النماذج السابقة عند التعامل مع النصوص أو العناصر الدقيقة داخل الصور.
تحكّم كامل بالمشهد
واحدة من أبرز نقاط القوة في Nano Banana Pro هي قدرته على التعامل مع عدد كبير من العناصر البصرية داخل مشهد واحد، فالنموذج يسمح بدمج ما يصل إلى 14 صورة مرجعية في التصميم ذاته، وهو ما يوفر مساحة واسعة لبناء مشاهد مركّبة ومعقدة دون فقدان الاتساق البصري.
ويتميز النموذج بالقدرة على إدارة ما يصل إلى 5 أشخاص داخل الصورة نفسها مع الحفاظ على ملامحهم بين اللقطات المختلفة، وهي ميزة ترتبط مباشرة بقدرته المتقدمة في تحرير الشخصيات، والتي سجل فيها أعلى تقييمات مقارنة بالنماذج المنافسة في الاختبارات الرسمية.
وإلى جانب ذلك، يمنح النموذج المستخدم تحكّمًا مشابهًا للموجود في بيئات التصوير الحقيقية؛ إذ يمكن تعديل الإضاءة وتركيز الكاميرا وزوايا التصوير بدقة كبيرة.
هذا المستوى من التحكم يسمح بتشكيل المشهد كما لو كان المستخدم يمسك بكاميرا داخل بيئة ثلاثية الأبعاد، مع القدرة على تغيير العمق، وتحديد مناطق التركيز، والتلاعب بظروف الإضاءة لتحقيق تأثيرات بصرية احترافية.
دقة تصل إلى 4K
يدعم نانو بنانا برو توليد الصور بدقة تتراوح بين 1K و4K، ما يجعله مناسبًا لمجموعة واسعة من الاستخدامات، بدءًا من المنشورات الرقمية وحتى الملصقات المطبوعة عالية الجودة.
ويتيح للمستخدم تعديل أبعاد الصورة بحرية لإنتاج نسخ مختلفة من التصميم نفسه بما يتوافق مع متطلبات المنصات المتعددة، سواء كانت منصات اجتماعية أو صفحات تحرير أو شاشات عرض كبيرة.
ولا يتوقف الأمر عند هذا الحد، إذ يستطيع النموذج تحويل صورة واحدة إلى سلسلة من اللقطات المتتابعة لبناء قصة بصرية كاملة.
هذه القدرة تمنح صناع المحتوى مرونة عالية في ابتكار سرد بصري يبدأ بالصورة، وينتهي بمشهد متكامل من عدة لقطات.
تفوق لافت في اختبارات الأداء
أفادت جوجل أن النموذج حقق نتائج قياسية في معظم الفئات، سواء في وضوح النصوص داخل الصور، أو في تحرير الشخصيات، أو في الإنفوجرافيكس.
وتصدّر النموذج قمة نتائج تقييمات Text Rendering وStylization وMulti-character editing، كما حقق نتائج متقدمة في تحرير الرسوم البيانية (Chart Editing) وتحرير النصوص داخل الصور، متفوقًا بشكل ملحوظ على النماذج المنافسة.
وقالت الشركة، عبر الصفحة الرسمية للنموذج، أن النموذج يتمتع بتحسّن واضح مقارنة بالإصدارات السابقة، خصوصًا في ثبات الأنماط البصرية وجودة التماسك بين العناصر داخل التصميم.
نصوص عربية واضحة
أكثر ما يميز النموذج الجديد هو طريقة تعامله مع النص العربي، إذ يعالج النص داخل الصورة باعتباره عنصرًا أساسيًا من التصميم، وليس مجرد إضافة جانبية.
وبفضل التدريب المكثّف على أمثلة تحتوي نصوصًا عربية، أصبح قادرًا على كتابة النصوص العربية بوضوح ومراعاة للمحاذاة والتشكيل وتناسق الخط، ما يجعله مناسبًا للإعلانات التجارية واللافتات والتصاميم المؤسسية.
وأشار البيان التوضيحي إلى وجود بعض القيود عند التعامل مع النصوص صغيرة الحجم جدًا أو الفقرات الطويلة جدًا في دقة 1K، إلا أن النموذج يقدم أداءً متفوقًا في معظم الحالات العملية.
بنية تقنية متقدمة
استخدمت جوجل في تدريب نموذج نانو بنانا برو معالجاتها المتطورة Google TPU المصممة خصيصًا للمهام الضخمة التي تتطلب طاقة حسابية عالية، وبالاعتماد على JAX وML Pathways في تنفيذ عمليات التدريب.
وتسمح هذه البنية التقنية للنموذج بالتعامل مع ملايين الأمثلة في بيئة تدريبية ذات كفاءة عالية، ما ينعكس في النهاية على جودة النتائج وثباتها.
وأفاد تقرير لموقع ذا إنفورميشن بأن نماذج جيميناي 3 الأحدث من جوجل أثارت اهتماماً واسعاً في السوق التقني بمعالجات الشركة، إلى درجة وصلت لوجود اتفاق وشيك يجمع بين جوجل وميتا، بحيث تستخدم الأخيرة معالجات Google TPU لتدريب نماذجها الذكية.
وعلقت شركة إنفيديا على الأمر بأنها سعيدة لما أنجزته جوجل، إلا أنها ترى أن معالجاتها الخاصة تتخطى من حيث الأداء جميع المعالجات المتوفرة في الأسواق.
وعلقت جوجل على الأمر قائلة: “نحن نعمل على توسيع نطاق استخدام معالجاتنا في السوق التقني، ونماذجنا الذكية الأخيرة اعتمدنا في تدريبها على معالجات إنفيديا، بجانب معالجاتنا الخاصة”.
استخدام مجاني محدود
وتتيح “جوجل” استخدام نموذج Nano Banana Pro داخل تطبيق Gemini بشكل مجاني بعدد محدد من الصور يوميًا، قبل أن يعود التطبيق إلى النسخة الأقدم عند تجاوز الحد المجاني، بينما تظل النسخة الاحترافية متاحة عبر الاشتراكات أو واجهات البرمجة.
نقلاً عن: الشرق
