ديبسيك يكشف عن مولد صور نموذج Janus-Pro AI ، يقول إنه يفوق Dall-E 3 Openai
كشفت Deepseek عن أحدث طرازات AI ، Janus-Pro-7B ، والتي تدعي أنها تتفوق على Dall-E 3 من Openai و Diffusion Diffusion 3 في مهام توليد النص إلى صورة.
هذا الإعلان ، الذي أدلى في تقرير بعنوان “Janus-Pro: فهم موحد متعدد الوسائط وتوليد البيانات وتوسيع نطاق النماذج ، “ يسلط الضوء على تطورات النموذج في الفهم متعدد الوسائط وقدرات التوليد.
تم التحقق من صحة أداء Janus-Pro-7B عبر معايير متعددة ، حيث عرضت قدراته في كل من الفهم متعدد الوسائط وتوليد النص إلى صورة.
على لوحة المتصدرين في Geneval للحصول على مهام تتبع التعليم إلى النص ، حقق Janus-Pro-7B درجة 0.80 ، متجاوزًا يانوس (0.61) ، و Dall-E 3 (0.67) ، ومتوسطة الاستقرار 3 (0.74).
“حقق Janus-Pro-7B درجة 79.2 في المعيار المتعدد الوسائط MMBENCH و 0.80 على لوحة المتصدرين في Geneval ، تفوق الأداء على أحدث طرازات متعددة الوسائط الموحدة ، بما في ذلك DALL-E 3 و DIPFUSION 3 متوسطة ،” ذكر ديبسيك.
سجل النموذج 79.2 على المعيار المتعدد الوسائط المعيارية Mmbench ، يتفوق بشكل كبير على المنافسين مثل Janus (69.4) ، TokenFlow (68.9) ، و Metamorph (75.2).
معالجة أوجه القصور السابقة
يعتمد نموذج Janus-Pro-7B على الأساس الذي وضعه سلفه ، Janus ، من خلال مواجهة التحديات الهامة في مهام الترميز المرئي والتوليد. إنه يشتمل على 72 مليون صورة اصطناعية عالية الجودة مع بيانات حقيقية لتحقيق مخرجات الصور المحسنة.
- وفقًا للتقرير ، كافحت النماذج السابقة ، بما في ذلك Janus ، مع متطلبات متضاربة للفهم متعدد الوسائط والتوليد. لحل هذا ، يقدم Janus-Pro تشفيرًا مرئيًا مفصلًا ، مما يتيح له التفوق في كلتا المهمتين.
يدمج Janus-Pro تحسينات عبر ثلاثة أبعاد: استراتيجيات التدريب والبيانات وحجم النموذج ،يقول التقرير ، مضيفًا أن النموذج يوضح قابلية التوسع مع تكوين – معلمات 1B و 7B.
- واجه نموذج JANUS الأصلي ، الذي تم التحقق من صحته على مقياس المعلمة 1B ، قيودًا بسبب قدرته النموذجية الصغيرة نسبيًا وبيانات التدريب المحدودة.
- أدت هذه القيود إلى أداء دون المستوى الأمثل في توليد الصور القصيرة والمخرجات غير المستقرة من النص إلى الصورة. يعالج Janus-Pro-7B هذه القضايا من خلال استراتيجيات التدريب المحسّنة ، ومجموعات البيانات الموسعة ، وزيادة قدرة النموذج.
يؤكد التقرير على أن هذه الترقيات لا تحسن فقط أداء النموذج الذي يتبع التعليمات من النص ، بل تعزز أيضًا استقرارها وقابلية التوسع ، مما يجعلها منافسة قوية في مساحة الصور التي تم إنشاؤها من الذكاء الاصطناعى.
المزيد من الأفكار
ديبسيك هو مشارك جديد نسبيًا لصناعة الذكاء الاصطناعى ، الذي أسسه رجل الأعمال الصيني ليانغ وينفينج عام 2023. على الرغم من كونها أقل من عامين ، فقد أحدثت الشركة بالفعل تأثيرًا كبيرًا.
- في يناير 2024 ، أصدرت نماذجها المفتوحة للمصدر للتنزيل ، حيث اكتسبت شعبية بسرعة ، وتصدرت مخططات تنزيل تطبيق iPhone وتجاوز تطبيق ChatGPT من Openai.
- أدى أحدث طرازات التفكير في Deepseek ، R1 ، إلى إجراء مقارنات مع منتجات AI من الدرجة الأولى من Openai و Meta. تدعي الشركة أن نماذجها ليست منافسة في الأداء فحسب ، بل أيضًا أكثر كفاءة وفعالية من حيث التكلفة لتطويرها.
- واحدة من المطالبات البارزة من Deepseek هي تكلفة تدريب نماذجها. ذكرت الشركة أن تدريب أحد نماذجها الأخيرة تكلف 5.6 مليون دولار ، وهو رقم أقل بكثير من 100 مليون دولار إلى مليار دولار المقدرة من قبل قادة الصناعة لمشاريع مماثلة.
أبرزت ديبسيك أيضًا كفاءة عملية التطوير الخاصة بها ، والتي لا تعتمد على أقوى مسرعات AI.