أصدرت Google دليلاً جديداً يشرح أفضل الطرق لصياغة الأوامر النصية الخاصة بتوليد الصور باستخدام الذكاء الاصطناعي، مؤكدة أن جودة الصورة النهائية لا تعتمد فقط على قوة النموذج المستخدم، بل تتأثر بشكل مباشر بطريقة كتابة الطلب ومدى دقته.
وجاءت هذه التوصيات بالتزامن مع إطلاق نموذج Gemini Omni المتخصص في إنشاء الصور ومقاطع الفيديو من الأوصاف النصية، حيث أوضحت الشركة أن كثيراً من النتائج غير المرضية التي يحصل عليها المستخدمون تعود إلى أوامر عامة أو غير واضحة تفتقر إلى التفاصيل الأساسية.
ابدأ بتحديد زاوية التصوير وتكوين المشهد
تشير Google إلى أن أول خطوة للحصول على صورة دقيقة تتمثل في وصف المشهد بصرياً منذ البداية، بما يشمل نوع اللقطة المطلوبة، سواء كانت لقطة قريبة أو متوسطة أو واسعة.
أما عند إنشاء مقاطع الفيديو، فمن المهم تحديد حركة الكاميرا أيضاً، مثل التقريب التدريجي نحو الهدف أو التحرك الجانبي أو التصوير الجوي. هذه التفاصيل تساعد النموذج على فهم الفكرة بشكل أفضل وإنتاج مشهد أكثر واقعية.
وتنصح الشركة المستخدمين بالاعتماد على اللغة الطبيعية والواضحة، مع وصف النمط البصري المطلوب بدقة، سواء كان واقعياً أو سينمائياً أو مستقبلياً أو مستوحى من الرسوم المتحركة.
فعلى سبيل المثال، يعطي وصف مثل: “مدينة مستقبلية بأسلوب الخيال العلمي مع أضواء نيون ساطعة” نتائج أكثر دقة من الاكتفاء بعبارة عامة مثل “مدينة في المستقبل”.
الإضاءة والتفاصيل تصنع الفارق
تؤكد Google أن الإضاءة تعد من أكثر العناصر تأثيراً في جودة الصورة النهائية. لذلك يُنصح بتحديد مصدر الضوء وطبيعته، سواء كان ضوء الشمس أو إنارة الشوارع أو أضواء الإعلانات أو أجواء الغروب.
كما أن وصف الحالة المزاجية للمشهد يمنح النموذج فهماً أعمق للنتيجة المطلوبة، مثل:
- أجواء هادئة ودافئة.
- مشهد غامض ومثير.
- لقطة درامية ومتوترة.
- بيئة حيوية ومشرقة.
وفي الوقت نفسه، تشدد الشركة على أهمية وصف الموقع بدقة. فإذا كانت الصورة في غابة، يُفضّل توضيح نوع الأشجار والتضاريس والعناصر المحيطة. أما إذا كانت داخل مدينة، فمن المفيد الإشارة إلى الطراز المعماري وطبيعة الشوارع والمباني.
ولا يقل وصف الحركة أهمية عن بقية العناصر، إذ تنصح Google بتوضيح ما يفعله الأشخاص أو الكائنات داخل المشهد وكيفية تفاعلهم مع البيئة المحيطة. فكلما ازدادت التفاصيل المنطقية والواضحة، ارتفعت فرص الحصول على صورة مطابقة للفكرة الأصلية.
وترى الشركة أن هذه المبادئ لا تقتصر على Gemini Omni فقط، بل تنطبق على معظم منصات توليد الصور والفيديو الحديثة، والتي تعتمد بشكل أساسي على جودة التعليمات التي يقدمها المستخدم. لذلك فإن إتقان كتابة الطلبات أصبح مهارة أساسية لأي شخص يرغب في الاستفادة القصوى من أدوات الذكاء الاصطناعي الإبداعية.