العلوم و التكنولوجيا

صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها

صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها

طور باحثو Apple طريقة جديدة لتدريب نماذج الذكاء الاصطناعي على التعليق على الصور، مما يوفر أوصافًا أكثر دقة وتفصيلاً أثناء استخدام نماذج أصغر بكثير. وهنا التفاصيل.

يمكن للنموذج الجديد تسريع تدريب الذكاء الاصطناعي متعدد الوسائط في المستقبل

وفي دراسة جديدة بعنوان RubiCap: التعلم المعزز الموجه بالمعايير من أجل التسميات التوضيحية الكثيفة للصور، فريق من باحثون من شركة أبل تعاونت مع جامعة ويسكونسن-ماديسون لتطوير إطار عمل جديد لنموذج التسميات التوضيحية الكثيفة للصور، مما يؤدي إلى أحدث النتائج عبر معايير متعددة.

التسميات التوضيحية الكثيفة للصور هي مهمة إنشاء أوصاف تفصيلية على مستوى المنطقة لكل ما يحدث داخل الصورة، بدلاً من ملخص شامل واحد.

بمعنى آخر، فهو يحدد عناصر ومناطق متعددة في الصورة، ويصفها بتفاصيل دقيقة، مما يؤدي إلى فهم أكثر ثراءً للمشهد من الوصف الشامل.

فيما يلي بعض الأمثلة من ورقة التسميات التوضيحية الكثيفة الأصلية لجامعة ستانفورد، DenseCap: شبكات التعريب التلافيفية بالكامل للتسميات التوضيحية الكثيفة:

صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها

يمكن استخدام التسميات التوضيحية الكثيفة للصور في مجموعة متنوعة من المهام، مثل تدريب لغة الرؤية ونماذج تحويل النص إلى صورة. عند تطبيقه على الميزات التي تواجه المستخدم، يمكنه تحسين البحث عن الصور وحتى أدوات إمكانية الوصول.

تكمن المشكلة، وفقًا للباحثين، في أن الأساليب الحالية القائمة على الذكاء الاصطناعي لتدريب نماذج التسميات التوضيحية الكثيفة للصور تميل إلى الفشل بطرق كبيرة:

تعد التعليقات التوضيحية الكثيفة للصور أمرًا بالغ الأهمية للمحاذاة عبر الوسائط في التدريب المسبق للغة الرؤية وإنشاء النص إلى صورة، ولكن توسيع نطاق التعليقات التوضيحية ذات الجودة المتخصصة يعد أمرًا مكلفًا للغاية. في حين أن التسميات التوضيحية الاصطناعية عبر نماذج لغة الرؤية القوية (VLMs) تعد بديلاً عمليًا، فإن التقطير الخاضع للإشراف غالبًا ما يؤدي إلى تنوع محدود في المخرجات وتعميم ضعيف. يمكن للتعلم المعزز (RL) التغلب على هذه القيود، لكن نجاحاته تركزت حتى الآن في المجالات التي يمكن التحقق منها والتي تعتمد على المدققات الحتمية – وهو ترف غير متوفر في التسميات التوضيحية المفتوحة.

ومع أخذ ذلك في الاعتبار، اقترحوا إطارًا جديدًا لمعالجة هذه القيود، والذي اتخذ نهجًا مثيرًا للاهتمام.

قاموا بأخذ عينات عشوائية من 50000 صورة من مجموعتي بيانات التدريب، PixMoCap وDenseFusion-4V-100K.

لكل صورة، قام النظام بإنشاء العديد من خيارات التسميات التوضيحية باستخدام مجموعة من نماذج لغة الرؤية الحالية، بما في ذلك Gemini 2.5 Pro وGPT-5 وQwen2.5-VL-72B-Instruct وGemma-3-27B-IT وQwen3-VL-30B-A3B-Instruct.

وفي الوقت نفسه، أنتج النموذج الذي تم تدريبه تحت RubiCap تعليقًا خاصًا به لتلك الصورة.

بعد ذلك، استخدمت RubiCap برنامج Gemini 2.5 Pro من أجل:

  1. تحليل الصورة إلى جانب التسميات التوضيحية المرشحة ومخرجات النموذج؛
  2. تحديد ما اتفقت عليه النماذج وما تم إغفاله أو تحريفه؛
  3. حول ذلك إلى معايير واضحة للحكم على التسميات التوضيحية.

بعد ذلك، عمل Qwen2.5-7B-Instruct كحكم، وسجل التسميات التوضيحية مقابل كل معيار لإنتاج إشارة المكافأة المستخدمة للتدريب.

ونتيجة لذلك، تلقى النموذج تعليقات أكثر دقة وتنظيمًا حول ما يجب إصلاحه، مما أدى إلى تسميات توضيحية أكثر دقة دون الاعتماد على إجابة واحدة “صحيحة”.

صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها

بعد كل ما قيل وفعل، أنتج الباحثون ثلاثة نماذج: RubiCap-2B، وRubiCap-3B، وRubiCap-7B، مع 2 مليار، و3 مليار، و7 مليار معلمة، على التوالي.

وبالمقارنة مع الأساليب الحالية، فقد كان أداؤها جيدًا بشكل مدهش، حيث تفوقت على النماذج التي تحتوي على ما يصل إلى 72 مليار معلمة.

صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها

من الدراسة:

عبر المعايير الشاملة، تحقق RubiCap أعلى معدلات الفوز في CapArena، متفوقة في الأداء على التقطير الخاضع للإشراف، وطرق RL السابقة، والشروح البشرية، والمخرجات المعززة GPT-4V. في CaptionQA، يُظهر كفاءة فائقة في الكلمات: يتطابق نموذجنا 7B مع Qwen2.5-VL-32B-Instruct، ويتفوق نموذجنا 3B على نظيره 7B. ومن اللافت للنظر أن استخدام RubiCap-3B المدمج كمعلق ينتج وحدات VLM مدربة مسبقًا أقوى من تلك المدربة على التسميات التوضيحية من النماذج الخاصة.

و

في تقييم التصنيف الأعمى، حصل RubiCap-7B على أعلى نسبة من تعيينات المرتبة الأولى بين جميع النماذج – بما في ذلك حدود 72B و32B – محققًا أدنى عقوبة هلوسة وأقوى دقة.

في حالة فاتتك ذلك، لاحظ الباحثون أن النموذج الأصغر الذي يحتوي على 3 مليارات معلمة تفوق في الأداء على نظيره الأكبر في معايير معينة، مما يشير إلى أن نموذج التعليق القوي والمكثف للصور لا يتطلب بالضرورة نطاقًا هائلاً لتقديم نتائج عالية الجودة.

فيما يلي بعض مقارنات التسميات التوضيحية بين RubiCap-7B-DenseFusion وQwen2.5-VL-7B-Instruct:

صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها
صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها
صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها
صور التسميات التوضيحية التي تدربها شركة Apple بشكل أفضل من النماذج التي يبلغ حجمها 10 أضعاف حجمها

لمعرفة المزيد عن الدراسة، بما في ذلك نظرة متعمقة على مصطلحاتها الفنية، اتبع هذا الرابط.

يستحق التدقيق على الأمازون

FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.


■ مصدر الخبر الأصلي

نشر لأول مرة على: 9to5mac.com

تاريخ النشر: 2026-03-26 01:58:00

الكاتب: Marcus Mendes

تنويه من موقع “beiruttime-lb.com”:

تم جلب هذا المحتوى بشكل آلي من المصدر: 9to5mac.com بتاريخ: 2026-03-26 01:58:00. الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “beiruttime-lb.com”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.