تذر داتا قامت بخطوة مهمة نحو العلم المفتوح من خلال تقديم QVAC Genesis II – مجموعة بيانات تعليمية بحجم 148 مليار رمز تغطي 19 مجالًا أكاديميًا. كانت النسخة السابقة Genesis I تحتوي على 41 مليار رمز، مما يمثل زيادة تزيد عن 150٪، مما يضع هذا الحل في موقع أكبر مجموعة تدريب اصطناعية عامة متاحة في العالم.
لماذا 148 مليار رمز هو تغيير قواعد اللعبة؟
معظم مجموعات تدريب الذكاء الاصطناعي الحديثة تظل مغلقة ضمن أنظمة مملوكة، مما يحد من الوصول للباحثين المستقلين والمؤسسات الأكاديمية. يغير Genesis II هذا الديناميك، حيث يتيح مجموعة بيانات ضخمة بموجب ترخيص Creative Commons Attribution–NonCommercial 4.0. هذا الحجم البالغ 148 مليار رمز يمكّن من تدريب نماذج تفهم الأمور بشكل أعمق – لا تقتصر على توقع النصوص فحسب، بل تشرح اختياراتها واستنتاجاتها.
اقترحت بيانات تذر طريقة جديدة تسمى Option-Level Reasoning. بدلاً من اعتبار الإجابات الصحيحة في اختبارات الاختيار من متعدد كمسار تعلم وحيد، تحلل هذه التقنية كل خيار – سواء الصحيح أو المفاهيم الخاطئة الشائعة. بهذه الطريقة، تتعلم النماذج التعرف على سبب فشل إجابة معينة، وليس فقط تذكر أيها صحيح.
الهيكلية والتوافر
تغطي مجموعة البيانات 19 مجالًا أكاديميًا وتركز على عمق الفهم التعليمي. تم إنشاء كل عنصر بهدف القيمة التعليمية – من خلال دمج تحليل الإخفاقات مع Option-Level Reasoning في عملية تحقق من خطوتين. يتوفر Genesis II عبر منصة Hugging Face مع توثيق كامل وأدوات.
تُظهر الاختبارات المستقلة أن النماذج المدربة على Genesis II تحقق دقة أعلى في الفهم وتوفر تفسيرات بطريقة أكثر اتساقًا. يمثل هذا الانتقال من السلاسة السطحية إلى الفهم الهيكلي فرقًا رئيسيًا.
رؤية الذكاء الاصطناعي اللامركزي
أكد باولو أردوينو، المدير التنفيذي لشركة تذر، على فلسفة المشروع: “معظم تدريب الذكاء الاصطناعي اليوم يركز على السيولة، وليس على الفهم. من خلال هذا الإصدار، نذهب أبعد – نركز على الهيكل، والاستنتاج، والوضوح.” يتيح التوافر المفتوح لـ 148 مليار رمز للباحثين بناء أنظمة ذكاء اصطناعي بدون الاعتماد على منصات سحابية مركزية.
يدعم المبادرة تطوير الذكاء الاصطناعي اللامركزي ويقضي على الحواجز الهيكلية التي تواجهها المجموعات البحثية الصغيرة. مع توسع الذكاء الاصطناعي في التعليم، والعلوم، والخدمات المالية، ستزداد أهمية مجموعات التدريب المفتوحة، القابلة للتفسير، والموثوقة – ويحدد Genesis II معيارًا جديدًا لهذا التصنيف.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
QVAC Genesis II: معيار جديد لتدريب الذكاء الاصطناعي مع 148 مليار توكن
تذر داتا قامت بخطوة مهمة نحو العلم المفتوح من خلال تقديم QVAC Genesis II – مجموعة بيانات تعليمية بحجم 148 مليار رمز تغطي 19 مجالًا أكاديميًا. كانت النسخة السابقة Genesis I تحتوي على 41 مليار رمز، مما يمثل زيادة تزيد عن 150٪، مما يضع هذا الحل في موقع أكبر مجموعة تدريب اصطناعية عامة متاحة في العالم.
لماذا 148 مليار رمز هو تغيير قواعد اللعبة؟
معظم مجموعات تدريب الذكاء الاصطناعي الحديثة تظل مغلقة ضمن أنظمة مملوكة، مما يحد من الوصول للباحثين المستقلين والمؤسسات الأكاديمية. يغير Genesis II هذا الديناميك، حيث يتيح مجموعة بيانات ضخمة بموجب ترخيص Creative Commons Attribution–NonCommercial 4.0. هذا الحجم البالغ 148 مليار رمز يمكّن من تدريب نماذج تفهم الأمور بشكل أعمق – لا تقتصر على توقع النصوص فحسب، بل تشرح اختياراتها واستنتاجاتها.
اقترحت بيانات تذر طريقة جديدة تسمى Option-Level Reasoning. بدلاً من اعتبار الإجابات الصحيحة في اختبارات الاختيار من متعدد كمسار تعلم وحيد، تحلل هذه التقنية كل خيار – سواء الصحيح أو المفاهيم الخاطئة الشائعة. بهذه الطريقة، تتعلم النماذج التعرف على سبب فشل إجابة معينة، وليس فقط تذكر أيها صحيح.
الهيكلية والتوافر
تغطي مجموعة البيانات 19 مجالًا أكاديميًا وتركز على عمق الفهم التعليمي. تم إنشاء كل عنصر بهدف القيمة التعليمية – من خلال دمج تحليل الإخفاقات مع Option-Level Reasoning في عملية تحقق من خطوتين. يتوفر Genesis II عبر منصة Hugging Face مع توثيق كامل وأدوات.
تُظهر الاختبارات المستقلة أن النماذج المدربة على Genesis II تحقق دقة أعلى في الفهم وتوفر تفسيرات بطريقة أكثر اتساقًا. يمثل هذا الانتقال من السلاسة السطحية إلى الفهم الهيكلي فرقًا رئيسيًا.
رؤية الذكاء الاصطناعي اللامركزي
أكد باولو أردوينو، المدير التنفيذي لشركة تذر، على فلسفة المشروع: “معظم تدريب الذكاء الاصطناعي اليوم يركز على السيولة، وليس على الفهم. من خلال هذا الإصدار، نذهب أبعد – نركز على الهيكل، والاستنتاج، والوضوح.” يتيح التوافر المفتوح لـ 148 مليار رمز للباحثين بناء أنظمة ذكاء اصطناعي بدون الاعتماد على منصات سحابية مركزية.
يدعم المبادرة تطوير الذكاء الاصطناعي اللامركزي ويقضي على الحواجز الهيكلية التي تواجهها المجموعات البحثية الصغيرة. مع توسع الذكاء الاصطناعي في التعليم، والعلوم، والخدمات المالية، ستزداد أهمية مجموعات التدريب المفتوحة، القابلة للتفسير، والموثوقة – ويحدد Genesis II معيارًا جديدًا لهذا التصنيف.