DeepSeek-V3: أكبر نموذج مفتوح المصدر يقلب موازين الذكاء الاصطناعي عالميًا
5 د
تشير شركة ديبسك إلى أنّ ميزانية تطوير DeepSeek-V3 بلغت نحو 5.
57 مليون دولار أميركي فقط.
يعتمد النموذج مبدأ خليط الخبراء (MoE) لتفعيل 37 مليار مُعامل للمهمة الواحدة، ما يعزّز الكفاءة ويخفّض النفقات.
يُقال إنّ النموذج يُضاهي نماذج عالمية مغلقة مثل GPT-4 وClaude 3.
5 خاصة في الرياضيات واللغة الصينية.
أثار إطلاق النموذج ترحيبًا واسعًا من خبراء الصناعة، مع دعوات إلى تكثيف الفحص المستقل لضمان الإنصاف والأمان في استخدامه.
بمتابعة مستجدّات الذكاء الاصطناعي على مدى السنوات القليلة الماضية، نجد أنفسنا أمام منعطف جديد يستحق العناية والتحليل الدقيق. فقد أعلنت شركة صينية ناشئة تُدعى “ديبسيك” عن إطلاق نموذجها الثوري “DeepSeek-V3”، الذي تصفه بأنه أضخم نموذج مفتوح المصدر في العالم حتى اليوم، حيث تخطت بناية معماريته حاجز 671 مليار مُعامل. وربما يظن البعض أنّ هذا الرقم يمرّ دون أثر، لكن الحقيقة هي أنّه أشبه بقفزة هائلة في قدرة الآلات على المعالجة والفهم، يقابلها شغف متصاعد لدى المطوّرين والباحثين حول العالم.
خلفية التقنية وأسباب الأهمية
نجح DeepSeek-V3 بتكلفته زهيدة نسبيًا التي لا تتعدّى 5.57 مليون دولار، وفقًا للمعلومات المنشورة على حساب الشركة في GitHub. وعلى الرغم من أنّ هذا المبلغ كبير بمقاييس بعض الشركات الناشئة، فهو ليس بشيء يُذكر أمام ميزانيات التطوير الضخمة التي رُصدت لنماذج مثل GPT-4 أو Llama-3.1، والتي تُقدّر بمئات الملايين. شخصيًا، أرى في هذا الفارق دلالة واضحة على تغيّر موازين اللعبة في صناعة الذكاء الاصطناعي، ما قد يفتح الباب لموجة جديدة من الابتكار المُبهر.
يعتمد النموذج على مفهوم “خليط الخبراء” أو ما يُعرف عالميًا بـ(MoE)، وهي فلسفة تصميمية تفعّل نحو 37 مليار مُعامل فقط عند كل مهمة. تُوفِّر كفاءة غير مسبوقة في استهلاك الموارد الحاسوبية. هذا ليس مجرد تفصيل تقني، بل قد يكون حجر الزاوية الذي سيمكّن الشركات ذات الإمكانات المحدودة من استغلال قدرات هائلة دون أن تغرق في بحر من التكاليف.
معمارية DeepSeek-V3 وقدراته
بحسب الوثائق المتوفرة على المنصة الرسمية لديبسيك، يضم النموذج في جوفه 671 مليار مُعامل، لكنه لا يُسخِّر منها إلا نسبة معيّنة عند تنفيذ أي مهمة محدّدة. مثلًا، إذا كنت تبحث عن حل مسائل رياضية معقدة، فسوف يُفعِّل مجموعة متخصصة من تلك المعاملات، وإن كنت بحاجة إلى معالجة نصوص باللغة الصينية، فسيُفَعِّل خبراء مختلفين داخل نفس الهيكل العملاق. أعترف أنّني شعرتُ بالدهشة من هذا التناول الابتكاري، فهو ليس مجرّد تغيير في الأرقام، بل نقلة نوعية في آلية التفكير التصميمي.
عندما نطّلع أكثر على أساليب التدريب المستخدمة، نجد التدريب المختلط بدقة FP8 وخوارزمية DualPipe. ومن خلال تجربتي الشخصية في متابعة أبحاث مماثلة، يبدو لي أنّه لم يجرِ اتباع الطرق التقليدية المكلفة فحسب، بل ابتكرت ديبسيك أساليب تمنحها مرونة أعلى من حيث التكلفة والسرعة، دون الإخلال بجودة المخرجات. ولا شكّ أنّ هذا الانفتاح على تقنيات جديدة يُعدّ دليلًا على جرأة الفريق البحثي ورؤيته الثاقبة.
مقارنة بالأقران وانطباعات الأوساط التقنية
يتساءل كثير من المهتمين: “هل سيقف DeepSeek-V3 ندًّا قويًا أمام عمالقة مثل GPT-4 وClaude 3.5؟” شخصيًا،إذ تشير عدة تجارب إلى قدرة النموذج على التعامل مع المسائل الرياضية المتقدمة والنصوص باللغة الصينية بكفاءة مذهلة، ما يُثبت بالفعل منافسة حقيقية. وقد لفت انتباهي تشبيه البعض لأداء DeepSeek-V3 بأنّه قد يتجاوز بعض النماذج مفتوحة المصدر المعروفة، أو يضاهي مستوى النماذج المغلقة التي تطوّرها شركات عالمية مرموقة.
على صعيد ردود الفعل العامة، فإنّ معظم الأصوات في الأوساط التقنية تبدو إيجابية. أحد الزملاء في مجال التعلّم العميق أثار نقطة مثيرة للاهتمام بقوله: “هل كنا لنشهد إنجازًا أعظم لو توفرت لـديبسيك حرية كاملة في شراء أحدث المعالجات وبطاقات الرسوميات، دون القيود التي تفرضها بعض الدول؟” والسؤال هنا لا يخلو من بُعد سياسي وتقني، إذ يُثار حوله جدلٌ لا ينتهي في ظل القيود الدولية المفروضة على بيع مكوّنات تقنية متطورة لجهات صينية.
الدفع نحو الانفتاح والابتكار
من القضايا التي تدفع للحماسفعليًا هي إتاحة DeepSeek-V3 على منصّات مفتوحة مثل GitHub، إلى جانب واجهات برمجية (APIs) موجهة للمؤسسات. وأعتقد أنّ في هذا الخطوة نزوعًا صريحًا نحو المزيد من التعاون العلمي والتقني. فمن منّا لا يتمنى أن يتسنّى لأي باحث — سواءٌ أكان طالبًا في جامعة ناشئة أو شركة صغيرة في طور التأسيس — أن يطّلع على كود شيفرة لنموذج ضخم، ويُعدل عليه، ويطوّره لأغراض متخصصة؟
لكن يجب أن نكون واقعيين: هذه الحرية قد تحمل معها بعض التحديات. إذ من الأهمية بمكان طرح الأسئلة حول كيفية مراقبة تحيّز الخوارزميات عند اعتمادها على مجموعات بيانات غير متوازنة، أو حول طرق الحماية من الاستغلال السلبي الذي قد يطال أنظمة الذكاء الاصطناعي فائقة القدرة. بالنسبة لي، أهمّ ما نتطلّع إليه هو تأسيس معايير واضحة تضع حدودًا أخلاقية وتنظيمية، خصوصًا في التطبيقات المتعلقة بالأمن أو الصحة العامة.
الآثار الاقتصادية وأبعاد المنافسة العالمية
من زاوية اقتصادية، يجب الإشارة بإعجاب إلى تكلفة التطوير المنخفضة نسبيًا لـ DeepSeek-V3، والتي من شأنها إلهام شركات كثيرة للانخراط في مشاريع طموحة دون الوقوع في فخ العجز المالي. لذا إذا ما أصبحت التقنيات المتقدمة رخيصة نسبيًا، فقد نتوقع طفرة في الابتكارات الناشئة، من الرعاية الصحية المتقدمة وحتّى تحليل البيانات في سوق المال، إلى تطبيقات تعليمية متطورة.
وما يزيد الأمر حماسًا أنّ نجاح مشروع مثل DeepSeek-V3 يحمل بُعدًا جيوسياسيًا: إنه يضع الصين بشكل أكثر حزمًا في دائرة الضوء كقوة صاعدة في مجالات تتجاوز الصناعات التقليدية. حتى إنّ بعض الأصوات بدأت تشبّه هذا التطوّر بما حدث في سباق الفضاء قبل عقود. وبرأيي، قد تساهم هذه المنافسة، إن أحسن توجيهها، في خلق بيئة مواتية للابتكار، طالما بقيت بعيدة عن الشلل الذي قد تخلقه الصراعات السياسية.
مستقبل النماذج المفتوحة واستدامتها
نحن أمام مرحلة قد تغيّر قواعد اللعبة جذريًا، وربما تسفر عن سلسلة من النماذج المفتوحة الأخرى التي ستستفيد من تجربة DeepSeek-V3، تمامًا كما استفاد الأخير من تراكم أبحاث سابقة. وإذا كان ثمة ما يسترعي الانتباه، فهو ضرورة تركيزنا على الحوكمة والأخلاقيات، جنبًا إلى جنب مع دفع حدود التطوير التقني. فلا يُعقل أن نُسلم مقاليد قدرات متزايدة للآلات دون وضع قوانين وممارسات مسؤولة تكبح أي انحراف.
كما أنّ هناك جانبًا مُضيئًا يتمثّل في إمكانية وصول أي مطوّر في دولة نامية إلى نموذج يتسم بمستوى عالٍ من القدرة والدقّة، واستخدامه في مشاريع علمية أو صناعية تلبّي احتياجات محلية. أراها فرصة ثمينة لدفع عجلة النهوض الرقمي وتعزيز العدل التقني على مستوى عالمي.
أحلى ماعندنا ، واصل لعندك! سجل بنشرة أراجيك البريدية
بالنقر على زر “التسجيل”، فإنك توافق شروط الخدمة وسياسية الخصوصية وتلقي رسائل بريدية من أراجيك
عبَّر عن رأيك
إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.