أخر الاخبار

Apple تكشف النقاب عن Ferret: نموذج ذكاء اصطناعي توليدي مفتوح المصدر يربط بين الرؤية واللغة

 تمتلك شركة Apple Ferret مفتوح المصدر، وهو نموذج جديد متعدد الوسائط للذكاء الاصطناعي بارع في الفهم التحادثي للصور من خلال التفكير المشترك حول المدخلات المرئية والنصية. تمثل هذه الخطوة احتضان Apple المفاجئ لتطوير الذكاء الاصطناعي مفتوح المصدر وتضع الأساس للتقدم في الأنظمة الذكية متعددة الوسائط.



أبل تكشف عن النمس

قامت شركة Apple بفتح مصدر مفتوح لنموذج ذكاء اصطناعي توليدي جديد متعدد الوسائط يسمى Ferret. تم تطوير Ferret بالاشتراك بين باحثين من Apple وجامعة كورنيل، وتم إصداره على GitHub في أكتوبر 2023 جنبًا إلى جنب مع ورقة بحثية .


يجمع Ferret بين رؤية الكمبيوتر ومعالجة اللغة الطبيعية لاتخاذ نهج جديد للتفاعل مع المحتوى المرئي. يمكنه تحديد الكائنات والمناطق داخل الصورة، وربط المفاهيم النصية بالعناصر المرئية، والاستفادة من هذا الفهم لإجراء محادثات نصية دقيقة حول الصور.


جهود واستثمارات الذكاء الاصطناعي للمحادثة الداخلية من شركة Apple

يقود سعي شركة Apple لتحقيق التقدم في الذكاء الاصطناعي للمحادثة رئيس الذكاء الاصطناعي جون جياناندريا. يشرف جياناندريا على جهود شركة Apple في نماذج اللغات الكبيرة ويقدم تقاريره مباشرة إلى الرئيس التنفيذي تيم كوك. لقد أنشأ فريقًا مخصصًا للمحادثة باستخدام الذكاء الاصطناعي منذ أربع سنوات، وتسارع العمل منذ ذلك الحين.

داخليًا، تمتلك شركة Apple روبوت دردشة أطلق عليه بعض المهندسين اسم "Apple GPT". ومع ذلك، من المحتمل ألا تستخدم الشركة هذا الاسم علنًا لأي منتج استهلاكي. الوصول إلى chatbot مقيد بشدة داخل Apple حاليًا. لا يمكن الاستفادة من مخرجاتها لتطوير ميزات منتج جديد للعملاء حتى الآن. يتم استخدام برنامج chatbot في المقام الأول للنماذج الأولية الداخلية والإجابة على الاستفسارات بناءً على بيانات التدريب الخاصة به .

ويتطلب تعزيز أبحاث الذكاء الاصطناعي التحادثية استثمارات ضخمة من جانب شركة آبل من أجل البنية التحتية اللازمة للأجهزة. يتطلب تدريب النماذج اللغوية الكبيرة ذات الأداء موارد حسابية وافرة. وفقًا لأحد المحللين، من المتوقع أن تنفق شركة Apple أكثر من 4 مليارات دولار على خوادم الذكاء الاصطناعي في عام 2024 حيث تكثف جهودها في هذا المجال.


كيف يعمل النمس

الابتكار الرئيسي لـ Ferret هو قدرته على اكتشاف الكائنات والمفاهيم الدلالية داخل المناطق التي يحددها المستخدم من الصورة بدلاً من مجرد تحليل الصورة بأكملها.

على سبيل المثال، يمكن للمستخدم رسم شكل غير منتظم حول وجه شخص ما في الصورة ويسأل "ما لون عيون هذا الشخص؟" سيتعرف فيريت بعد ذلك على العيون الموجودة في تلك المنطقة، ويكتشف أنها زرقاء، ويجيب: "هذا الشخص لديه عيون زرقاء".

يتجاوز النمس التعرف على الأشياء الأساسية. يمكنه فهم العلاقات بين الكائنات والإجراءات والتفاصيل السياقية الأخرى لإجراء محادثة غنية ومتعددة المنعطفات حول الصورة. وهذا يجعله أكثر قدرة على الدردشة التي تركز على المنطقة مقارنة بأنظمة الذكاء الاصطناعي متعددة الوسائط السابقة.


كيف يعمل التعرف على الكائنات في Ferret

ولتحقيق ذلك، تستفيد Ferret من بنية التشفير المزدوج. يركز أحد برامج التشفير على الجوانب المرئية، بينما يتعامل الآخر مع الإدخال النصي. يتم دمج تدفقي البيانات باستخدام آلية الاندماج الديناميكي الجديدة. وهذا يتيح الاستخدام المتوازن لكلتا الطريقتين أثناء التدريب.

اقرا ايضا:تعرف على 8 من أهم اتجاهات الذكاء الاصطناعي التي يجب مراقبتها في عام 2024 من هنا

التدريب باستخدام البيانات المكانية المتنوعة وتقليل الهلوسة

لتحسين إمكانات الإحالة والتأريض المرئية لـ Ferret، قام الباحثون بعناية بتنسيق مجموعة بيانات واسعة النطاق تسمى GRIT (ضبط تعليمات الأرض والإحالة). كما هو مذكور في الورقة، يحتوي GRIT على أكثر من 1.1 مليون عينة متنوعة ذات معرفة مكانية غنية على مستويات متعددة - تشمل الأشياء والعلاقات وأوصاف المناطق والتفكير.


تتضمن مجموعة البيانات كلا من أمثلة النص في الموقع والخروج والموقع في النص والخروج لتغطية مهام الإحالة والتأريض. تم إنشاء 34000 محادثة مرجعية وأرضية باستخدام نماذج مثل GPT-3 لجعل مجموعة البيانات أكثر اتباعًا للتعليمات. علاوة على ذلك، تمت إضافة 95000 عينة سلبية لتحسين المتانة.


تشير الورقة إلى أنه عند تدريبه على GRIT، حقق Ferret أداءً فائقًا في معايير الإحالة والتأريض التقليدية. والأهم من ذلك، أنها تفوقت بشكل كبير على ماجستير إدارة الأعمال متعدد الوسائط السابق في المهام التي تتطلب فهمًا وتوطينًا على أساس المنطقة أثناء الدردشة المحادثة.


ووفقا للباحثين، أظهرت التقييمات الكمية والنوعية أن قدرات فيريت تجاوزت النماذج الحالية. لقد أظهر تحسينًا في قدرات وصف الصور الدقيقة وتقليل مشكلات الهلوسة السائدة في ماجستير إدارة الأعمال الأخرى.


فوائد نهج Ferret مفتوح المصدر

تم ترخيص Ferret بموجب ترخيص مفتوح المصدر غير تجاري من شركة Apple. وهذا يتناقض مع النهج المنغلق تاريخيًا الذي اتبعته الشركة في أبحاث الذكاء الاصطناعي.


إن إطلاق Ferret كمصدر مفتوح يجلب العديد من المزايا:

يتيح التعاون على نطاق واسع : يمكن للباحثين من جميع أنحاء العالم البناء على أسس Ferret، وتستفيد Apple من هذا التقدم الجماعي.

يعزز الابتكار : مع إتاحة الكود للعامة، يمكن أن تظهر امتدادات وتطبيقات جديدة لـ Ferret تتجاوز ما تصورته شركة Apple.

يعزز الشفافية : يخفف المصدر المفتوح المخاوف بشأن التحيز والسلامة التي تحيط بأنظمة الذكاء الاصطناعي المغلقة.

الطريق أمام النمس

يوفر Ferret أساسًا قويًا يمكن لشركة Apple البناء عليه في سعيها للتقدم في الذكاء الاصطناعي للمحادثة. يتيح إصداره مفتوح المصدر التعاون من مجتمع أوسع من المساهمين مقارنة بالتطوير الداخلي فقط.

تتضمن بعض الاتجاهات المستقبلية لـ Ferret توسيع نطاقها ليشمل طرائق أخرى تتجاوز الصور والنصوص، وتعزيز منطقها المنطقي، وتحسين أسسها الواقعية. ومن ناحية التطبيق، يمكن دمج Ferret في منتجات Apple مثل البحث المرئي Spotlight لفهم استفسارات المستخدم حول الصور.


على الرغم من أنه لا يزال مشروعًا بحثيًا مبكرًا، إلا أن Ferret يضع الأساس لأنظمة متعددة الوسائط ذات قدرة متزايدة. إنه يمثل خطوة مهمة إلى الأمام بالنسبة للذكاء الاصطناعي الذي يمكنه عقد حوارات مرئية حقيقية. إن انتقال Apple إلى Ferret مفتوح المصدر يعني أن هذه التطورات ستأتي بشكل أسرع من خلال جهد مجتمعي تعاوني.



تعليقات



    حجم الخط
    +
    16
    -
    تباعد السطور
    +
    2
    -