OpenAI تكشف النقاب عن POINT-E، وهي خوارزمية مثل DALL-E، ولكن للنماذج ثلاثية الأبعاد. وكانت النتائج بالفعل رائعة جدًا.
OpenAI، بدء التشغيلالذكاء الاصطناعيأعلن إيلون ماسك، الذي أسسه إيلون ماسك والمسؤول عن مولد تحويل النص إلى صورة الشهير DALL-E، عن نشرهخوارزمية POINT-E الجديدة، وهي قادرة على إنتاج سحب نقطية ثلاثية الأبعاد بناءً على الإرشادات النصية. حيث تتطلب الأنظمة الحالية مثل Google DreamFusion عادةً عدة ساعات والكثير من الطاقة الحاسوبية لإنشاء صورها، فإن POINT-E يحتاج فقط إلى وحدة معالجة الرسومات ودقيقة واحدة من العمل.
يتم استخدام النمذجة ثلاثية الأبعاد في العديد من الصناعات والتطبيقات. تأثيرات CGI للأفلام الحديثة الكبيرةألعاب الفيديووالواقع الافتراضي والواقع المعزز، ومهمات رسم خرائط الحفر التابعة لوكالة ناسا، ومشاريع الحفاظ على المعالم البارزة من Google، ورؤية ميتا للميتافيرس، كلها تعتمد على النمذجة ثلاثية الأبعاد. ومع ذلك، فإن إنشاء صور ثلاثية الأبعاد واقعية لا يزال يتطلب الكثير من الموارد والوقت، على الرغم من عمل NVIDIA على أتمتة إنشاء الكائنات وتطبيقات الهاتف المحمولRealityCaptureمن Epic Games studio، والذي يسمح لأي شخص لديه هاتف ذكي يعمل بنظام iOS بمسح كائنات العالم الحقيقي وتحويلها إلى نماذج ثلاثية الأبعاد.
أنظمة تحويل النص إلى صورة مثلأوبن آي دال-E 2و Craiyon و DeepAI و Prisma Lab Lensa و Hugging Face Stable Diffusion اكتسبت شعبية وسمعة سيئة بسرعة، ولكنها أثارت أيضًا جدلًا ساخنًا في السنوات الأخيرة. يعد تحويل النص إلى ثلاثي الأبعاد امتدادًا لهذه الأنظمة. POINT-E، على عكس الأنظمة المماثلة، "يستخدم مجموعة كبيرة من الارتباطات (نص، صورة)، مما يسمح له بتتبع مؤشرات متنوعة ومعقدة، في حين يتم تدريب عملية تحويل الصورة إلى نموذج ثلاثية الأبعاد على قاعدة بيانات أكثر تقييدًا من الأزواج (الصورة، 3D)"، أوضح فريق بحث OpenAI بقيادة أليكس نيكول في ورقة فنية. "لإنتاج كائن ثلاثي الأبعاد من نص بسيط، نلتقط أولاً صورة باستخدام نموذج تحويل النص إلى صورة ثم صورة ثلاثية الأبعاد من هذه الصورة ثنائية الأبعاد. يمكن إكمال هاتين الخطوتين في ثوانٍ ولا تتطلب إجراءات تحسين باهظة الثمن. »
وكانت النتائج بالفعل رائعة جدًا
إذا كتبت نصًا مثل "قطة تأكل البوريتو"، فستقوم POINT-E أولاً بإنشاء عرض اصطناعي ثنائي الأبعاد لقطة تأكل البوريتو. سيتم بعد ذلك تشغيل هذه الصورة من خلال سلسلة من نماذج الانتشار لإنشاء سحابة نقاط RGB ثلاثية الأبعاد للصورة الأولية، مما يؤدي أولاً إلى إنتاج نموذج سحابي مكون من 1024 نقطة، ثم نموذج سحابي أكثر دقة مكون من 4096 نقطة. يقول الفريق: "من الناحية العملية، نفترض أن الصورة تحتوي على المعلومات ذات الصلة من النص ولا تحدد بوضوح نقاط السحب في النص".
تم تدريب جميع نماذج التسليم هذه على "ملايين" النماذج ثلاثية الأبعاد، وتم تحويلها جميعًا إلى تنسيق موحد. "على الرغم من أن طريقتنا أقل كفاءة في هذا الاستخدام من التقنيات الحديثة،" يعترف الفريق، "إلا أنها تنتج المحتوى في جزء صغير فقط من الوقت المطلوب لهذه التقنيات نفسها. » إذا كنت ترغب في تجربة POINT-E بنفسك، فاعلم أن OpenAI قد نشرت الكود الخاص بذلكمشروع مفتوح المصدر على جيثب.
الخلاصة
هل يعجبك المحتوى الخاص بنا؟
احصل على أحدث منشوراتنا كل يوم مجانًا ومباشرة في صندوق الوارد الخاص بك