OpenAl تبدأ عصراً جديداً في إنشاء الفيديو بنموذج Sora 2

لم يعد إنتاج مشاهد سينمائية أو لقطات خيالية حكراً على استوديوهات الأفلام، فبعدما أطلقت OpenAI نموذجها الجديد Sora 2 بات بإمكان الذكاء الاصطناعي أن يحاكي الواقع بدرجة غير مسبوقة من الدقة.
من قفزات جمباز أولمبية وقوارب تتأرجح وفق قوانين الطفو، إلى حوارات متزامنة مع الصورة ومؤثرات صوتية تنقل تفاصيل المشهد، يَعِد هذا النموذج بفتح آفاق جديدة لتجارب الإبداع الرقمي، وبخطوة أخرى نحو بناء أنظمة قادرة على فهم العالم الفيزيائي والتفاعل معه.
قفزة الأداء
حين أطلقت OpenAI النسخة الأولى من Sora في فبراير 2024، وُصفت بأنها اللحظة المشابهة لبداية GPT-1 في عالم النصوص، إذ كان ظهورها أول دليل عملي على إمكانية توليد الفيديو عبر الذكاء الاصطناعي مع ملامح أولية لفهم العالم الفيزيائي، مثل إدراك استمرارية الأشياء (Object Permanence).
لكن فريق التطوير لم يتوقف عند تلك المرحلة، بل ركّز على بناء أنظمة أكثر قدرة على محاكاة العالم الواقعي، وبحسب الشركة، فإن إتقان مرحلتي التدريب المسبق وما بعد التدريب على نطاق واسع باستخدام بيانات الفيديو لا يزال في بداياته مقارنة بتقنيات معالجة اللغة، لكنه يُعَد أساسياً للوصول إلى نماذج قادرة على فهم البيئة الفيزيائية بعمق.
واقعية المحتوى
مع Sora 2، تقول الشركة إنها انتقلت مباشرة إلى ما يشبه لحظة GPT-3.5 بالنسبة للفيديو، فالنموذج الجديد يستطيع تنفيذ مهام معقدة جداً، بل وحتى مستحيلة على النماذج السابقة، مثل حركات الجمباز الأوليمبي أو القفزات الخلفية على ألواح التجديف مع محاكاة دقيقة لتأثيرات الطفو والصلابة، أو أداء قفزة ثلاثية في التزلج بينما يتمسك قط بالشخصية الرئيسية.
ويُظهر Sora 2 قفزة في القدرة على التحكم، إذ يمكنه الالتزام بتعليمات معقدة تمتد عبر لقطات متعددة مع الحفاظ على تسلسل منطقي لحالة العالم الافتراضي، كما يبدع في إنتاج أنماط متنوعة، بدءاً من الواقعية السينمائية إلى الأساليب الفنية والأنميشن.
إضافة إلى ذلك، يمكن إدخال عناصر حقيقية إلى المقاطع؛ إذ يستطيع النظام بعد مراقبة فيديو قصير لشخص ما أن يُدرجه بدقة داخل أي مشهد مولد بواسطة Sora، مع المحافظة على ملامحه وصوته.
وتقول OpenAI إن هذه القدرة عامة وتشمل البشر والحيوانات والأشياء على حد سواء.
ولا يقتصر التطوير على الصورة، بل يمتد إلى الصوت أيضاً، فالنموذج قادر على إنشاء خلفيات سمعية متكاملة، بما في ذلك الحوار والمؤثرات الصوتية والبيئات الطبيعية بدقة عالية.
وعرضت الشركة أمثلة شملت مشاهد لمستكشفين يصرخون وسط العواصف الثلجية، أو أصوات طبيعية تحاكي ارتطام الأجسام وانكسار الجليد.
تطبيق Sora.. تجربة اجتماعية مختلفة
إلى جانب إطلاق النموذج، قدّمت OpenAI تطبيقاً اجتماعياً جديداً على iOS يحمل اسم Sora، يُمكّن المستخدمين من إنشاء مقاطع فيديو أو إعادة مزج أعمال الآخرين أو استكشاف مكتبة من المقاطع ضمن واجهة قابلة للتخصيص.
الميزة الأبرز في التطبيق هي Cameos، التي تتيح للمستخدم إدخال نفسه أو أصدقائه مباشرة في أي مشهد مولد بالذكاء الاصطناعي، بعد تسجيل قصير بالصوت والصورة للتحقق من الهوية وضبط ملامح الشكل والصوت.
وتصف الشركة هذه التجربة بأنها امتداد طبيعي لتطور وسائل التواصل، من الرسائل النصية إلى الرموز التعبيرية وصولاً إلى الحضور الافتراضي.
في مرحلة الاختبار الداخلي، ذكرت الشركة أن موظفيها وجدوا في هذه الميزة وسيلة جديدة للتواصل والتعارف داخل بيئة العمل، معتبرة أن التطبيق قد يمثل شكلاً جديداً من التواصل الاجتماعي المبني على الإبداع المشترك.
مراعاة الصحة الرقمية
أكدت OpenAI أن تصميم التطبيق يختلف عن المنصات التقليدية التي تركّز على جذب المستخدم للبقاء أطول وقت ممكن، إذ تُظهر الخوارزميات محتوى من الأشخاص الذين يتابعهم المستخدم أو يتفاعل معهم، مع إعطاء الأولوية للمقاطع التي قد تلهمه للإبداع بدلاً من دفعه إلى استهلاك غير محدود.
ويستطيع المستخدم التحكم في توصيات الخوارزميات عبر أوامر بلغة طبيعية.
وإدراكاً للمخاطر المحتملة مثل الإدمان أو العزلة، دمجت الشركة آليات لمتابعة حالة المستخدمين، وتجري تحديثات دورية تمنحهم القدرة على ضبط تفضيلاتهم.
حماية الهوية والخصوصية
وبالنسبة للمراهقين، يفرض التطبيق حدوداً افتراضية على عدد المقاطع التي يمكنهم مشاهدتها يومياً، إلى جانب قيود إضافية على استخدام ميزة Cameos.
كما توفر أدوات تحكم أبوي متكاملة عبر ChatGPT، تسمح بتعطيل التخصيص الخوارزمي أو التحكم في الرسائل المباشرة.
يشدد التطبيق على منح المستخدمين سيطرة كاملة على صورتهم الرقمية. فالمحتوى الذي يتضمن Cameos يبقى متاحاً لصاحبه في أي وقت، مع إمكانية إزالته أو إلغاء صلاحيات الآخرين في استخدامه.
وأوضحت الشركة أنها اتخذت خطوات لضمان الموافقة المسبقة على استخدام الهوية، والتحقق من مصدر المحتوى، ومنع توليد مقاطع ضارة أو مسيئة، كما خصصت فرقاً بشرية للتدخل السريع في حالات التنمر أو الاستخدام غير المناسب.
وقالت OpenAI إنها وضعت مبادئ السلامة في صميم صممت Sora 2 وSora منذ البداية، عبر مجموعة من الضمانات التي تضمن الشفافية والتحكم وحماية المستخدمين، موضحة أن كل مقطع يجري توليده عبر Sora يحمل علامات واضحة تميّزه عن المحتوى البشري، إذ تضاف إليه علامة مائية مرئية وبيانات تعريف رقمية مدمجة وفق معيار C2PA الصناعي، ما يتيح التحقق من مصدر الفيديو.
وطورت الشركة أنظمة بحث داخلية متقدمة، قادرة على تتبع المقاطع بصرياً وصوتياً بدقة عالية، بالاستناد إلى خبرتها السابقة في أنظمة توليد الصور في ChatGPT والنسخة الأولى من Sora.
أما في ما يتعلق بالهوية الشخصية، فأكدت الشركة أنها تمنح المستخدم تحكماً كاملاً في صورته وصوته عبر ميزة Cameos، بحيث لا يمكن لأي طرف آخر استخدام ملامحه أو صوته دون موافقته.
ويستطيع المستخدم إلغاء صلاحيات الآخرين أو حذف أي مقطع يتضمن صورته في أي وقت، بل وحتى ضبط تفضيلات محددة لسلوكيات ظهوره الافتراضي، مثل تحديد مظهر أو زي معين يظهر به دائماً.
وفي السياق نفسه، تمنع الشركة إدراج الشخصيات العامة في المقاطع إلا عبر هذه الميزة وبموافقة صريحة.
وتشمل الحماية أيضاً الفئات العمرية الأصغر سناً، إذ يفرض التطبيق قيوداً مشددة على ما يمكن للمراهقين مشاهدته أو التفاعل معه، فلا يتم عرض حساباتهم كاقتراحات للبالغين، كما يُحظر على البالغين بدء محادثات مباشرة معهم.
إضافة إلى ذلك، يتم ضبط الخوارزميات لتقديم محتوى مناسب لهذه الفئة العمرية، مع وضع حدود افتراضية تمنع التمرير اللانهائي، كما يوفر التطبيق لأولياء الأمور أدوات تحكم عبر ChatGPT لإدارة الرسائل المباشرة وتخصيص نوعية المحتوى الذي يتعرض له أبناؤهم.
وفي جانب آخر، اعتمدت OpenAI طبقات متعددة من الحماية لمنع إنشاء أو نشر محتوى ضار، سواء كان يتعلق بالمواد الإباحية أو الترويج للإرهاب أو التحريض على إيذاء النفس.
وتتم مراجعة المدخلات والمخرجات بشكل متواصل عبر تحليل إطارات الفيديو والنصوص الصوتية، في حين تعمل أنظمة آلية على مراقبة جميع المقاطع المنشورة في التطبيق وفق سياسات الاستخدام العالمية للشركة، وتدعم هذه الأنظمة فرق بشرية مكلّفة بمراجعة الحالات الأكثر خطورة.
ومع إدخال عنصر الصوت في Sora 2، رفعت الشركة مستوى الحماية ليشمل مراقبة النصوص المولدة صوتياً، والتأكد من أنها لا تنتهك السياسات أو تحاكي موسيقى وأصوات فنانين معاصرين.
وصُممت الأنظمة لاكتشاف مثل هذه المحاولات ومنعها، مع التزام الشركة بالاستجابة لطلبات حذف المحتوى الذي يمكن أن ينتهك حقوق الملكية الفكرية.
تُطرح النسخة الجديدة أولاً في الولايات المتحدة وكندا، مع خطط للتوسع لاحقاً إلى دول أخرى.
التطبيق متاح مجاناً في البداية مع حدود سخية للاستخدام، رغم أن الشركة تترك الباب مفتوحاً أمام خيار الدفع لإنتاج مقاطع إضافية في حال تجاوز الطلب القدرات المتاحة.
ومن المقرر دمج Sora 2 Pro، وهو إصدار بجودة أعلى، ضمن خدمة ChatGPT Pro عبر موقع sora.com، مع خطط لإتاحته لاحقاً داخل التطبيق. وستبقى نسخة Sora 1 Turbo متاحة، مع الحفاظ على جميع المقاطع التي أنشأها المستخدمون سابقاً.
نقلاً عن: الشرق