يقوم طراز Apple الجديد بإعادة إنشاء كائنات ثلاثية الأبعاد بتأثيرات إضاءة واقعية

ابتكر باحثو Apple نموذجًا للذكاء الاصطناعي يعيد بناء كائن ثلاثي الأبعاد من صورة واحدة، مع الحفاظ على اتساق الانعكاسات والإبرازات والتأثيرات الأخرى عبر زوايا مشاهدة مختلفة. وهنا التفاصيل.

قليلا من السياق

في حين أن مفهوم الفضاء الكامن في التعلم الآلي ليس جديدا تماما، فقد أصبح أكثر شعبية من أي وقت مضى في السنوات الأخيرة، مع انفجار نماذج الذكاء الاصطناعي القائمة على بنية المحولات، ومؤخرا، النماذج العالمية.

باختصار (مع المخاطرة بعدم الدقة بعض الشيء في شرح الصورة الأكبر)، فإن “الفضاء الكامن” أو “الفضاء المضمَّن” هي مصطلحات تصف ما يحدث عندما:

  1. اختزال المعلومات إلى تمثيلات رقمية لمفاهيمهم؛
  2. تنظيم هذه الأرقام في فضاء متعدد الأبعاد، مما يتيح حساب المسافات بينها لكل بعد مختلف.

إذا كان هذا لا يزال يبدو مجردًا للغاية، أحد الأمثلة الكلاسيكية هو الحصول على التمثيل الرياضي للرمز المميز “الملك”، وطرح التمثيل الرياضي للرمز المميز “الرجل”، وإضافة التمثيل الرياضي للرمز المميز “المرأة”، وسوف ينتهي بك الأمر في المنطقة العامة متعددة الأبعاد للرمز المميز “الملكة”.

من الناحية العملية، فإن تخزين المعلومات كتمثيلات رياضية في الفضاء الكامن يجعل قياس المسافات بينها وتقدير احتمالية ما ينبغي توليده أسرع وأقل تكلفة حسابيًا.

إليك مقطع فيديو قصير يشرح المساحة الكامنة باستخدام تشبيه مختلف:

على الرغم من أن الأمثلة أعلاه تركز على تخزين النص في مساحة كامنة، إلا أنه يمكن تطبيق نفس الفكرة على العديد من أنواع البيانات الأخرى. وهو ما يقودنا إلى دراسة أبل.

LiTo: ترميز مجال الضوء السطحي

في دراسة جديدة لشركة أبل بعنوان LiTo: ترميز مجال الضوء السطحييقترح الباحثون “تمثيلًا كامنًا ثلاثي الأبعاد يقوم بشكل مشترك بنمذجة هندسة الكائن والمظهر المعتمد على العرض.”

وبعبارة أخرى، فقد ابتكروا طريقة لتمثيل، في الفضاء الكامن، ليس فقط كيفية إعادة بناء جسم ثلاثي الأبعاد، ولكن أيضًا كيف يجب أن يظهر الضوء المتفاعل معه من زوايا مختلفة.

كما يشرحون ذلك:

تركز معظم الأعمال السابقة على إعادة بناء الهندسة ثلاثية الأبعاد أو التنبؤ بالمظهر المنتشر المستقل عن العرض، وبالتالي تكافح من أجل التقاط تأثيرات واقعية تعتمد على العرض. يستفيد نهجنا من أن الصور بعمق RGB توفر عينات من مجال الضوء السطحي. من خلال تشفير عينات فرعية عشوائية من حقل الضوء السطحي هذا في مجموعة مدمجة من المتجهات الكامنة، يتعلم نموذجنا تمثيل كل من الهندسة والمظهر داخل مساحة كامنة موحدة ثلاثية الأبعاد. يعيد هذا التمثيل إنتاج التأثيرات المعتمدة على العرض مثل الإبرازات المرآوية وانعكاسات فريسنل تحت الإضاءة المعقدة.

ما هو أكثر من ذلك، الباحثين تمكنت من تدريب النموذج حتى يتمكن من القيام بكل ذلك من صورة واحدة، بدلاً من الطرق الأكثر شيوعًا التي تتطلب صورًا من زوايا مختلفة لتمكين إعادة البناء ثلاثي الأبعاد.

في حين أن الطريقة بأكملها تقنية للغاية وتم شرحها بالتفصيل في الدراسة، فإن الفكرة الأساسية هي في الواقع بسيطة نسبيًا، بمجرد فهم كيفية عمل الفضاء الكامن:

  • أولاً، يقوم المشفر بضغط المعلومات حول الكائن في تمثيل مضغوط في الفضاء الكامن. لذلك، بدلاً من تخزين كل التفاصيل المرئية، فإنه يتعلم وصفًا رياضيًا مكثفًا لشكل الجسم وكيفية تفاعل الضوء مع سطحه.
  • ثم يقوم جهاز فك التشفير بالعكس. فهو يعيد بناء الكائن ثلاثي الأبعاد بالكامل من هذا التمثيل المضغوط، مما يؤدي إلى إنشاء كل من الشكل الهندسي وتمثيل كيفية ظهور تأثيرات الإضاءة، مثل الانعكاسات والإبرازات، من زوايا مشاهدة مختلفة.

تدريب ليتو

لتدريب النموذج، اختار الباحثون آلاف الأشياء التي تم تقديمها من 150 زاوية رؤية مختلفة، و3 ظروف إضاءة.

بعد ذلك، بدلًا من إدخال كل تلك المعلومات مباشرة في النموذج، اختار النظام عشوائيًا مجموعات فرعية صغيرة من هذه العينات وضغطها في تمثيل كامن.

بعد ذلك، تم تدريب وحدة فك التشفير على إعادة بناء الجسم بالكامل ومظهره تحت زوايا وظروف إضاءة مختلفة، من تلك المجموعة الفرعية من البيانات فقط.

على مدار التدريب، تعلم النظام تمثيلًا كامنًا يلتقط هندسة الجسم وكيف يتغير مظهره اعتمادًا على اتجاه المشاهدة.

وبمجرد الانتهاء من ذلك، قاموا بتدريب نموذج آخر يأخذ صورة واحدة لجسم ما ويتنبأ بالتمثيل الكامن الذي يتوافق معه. بعد ذلك، يقوم جهاز فك التشفير بإعادة بناء الكائن ثلاثي الأبعاد بالكامل، بما في ذلك كيفية تغير مظهره مع تغير زاوية الرؤية.

فيما يلي بعض مقارنات إعادة البناء بين LiTo ونموذج يسمى TRELLIS، كما نشرت Apple على موقع صفحة المشروع:

تأكد من ذلك تحقق من صفحة المشروع، حيث يمكنك أيضًا تحميل مقارنات تفاعلية جنبًا إلى جنب بين LiTo وTRELLIS، كما هو موضح في الصورة المميزة لهذا المنشور.

وبالنسبة للدراسة كاملة اتبع هذا الرابط.

يستحق التدقيق على الأمازون

FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.


■ مصدر الخبر الأصلي

نشر لأول مرة على: 9to5mac.com

تاريخ النشر: 2026-03-17 02:26:00

الكاتب: Marcus Mendes

تنويه من موقع “beiruttime-lb.com”:

تم جلب هذا المحتوى بشكل آلي من المصدر: 9to5mac.com بتاريخ: 2026-03-17 02:26:00. الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “beiruttime-lb.com”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.

Exit mobile version