تعاونت جامعة إلينوي في إربانا-شامبين مع العديد من المؤسسات الأكاديمية والبحثية المعروفة لإطلاق منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تكشف نتائج أبحاثهم "DecodingTrust: تقييم شامل لموثوقية نموذج GPT" عن بعض الثغرات المتعلقة بالموثوقية التي لم تكن معروفة من قبل.
أظهرت الأبحاث أن نماذج GPT تميل إلى إنتاج مخرجات سامة ومتحيزة، وقد تكشف عن معلومات خاصة من بيانات التدريب وسجل المحادثة. على الرغم من أن GPT-4 يكون عادةً أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة أنظمة أو مطالبات مصممة بشكل خبيث، مما قد يكون بسبب اتباعه الصارم للتعليمات المضللة.
تقدم هذه الدراسة تقييمًا شاملاً وموثوقًا لنموذج GPT، يكشف عن أوجه القصور في النماذج الحالية. تم نشر معايير التقييم التي وضعتها فريق البحث، بهدف تشجيع المزيد من الباحثين على المشاركة وتحسين هذا المجال. ومن الجدير بالذكر أن النتائج البحثية تشير إلى أن الخدمات الموجهة للعملاء لن تتأثر بهذه الثغرات المحتملة، ويرجع ذلك جزئيًا إلى مجموعة من التدابير التي تم تنفيذها.
تم تقييم نموذج GPT من ثمانية جوانب موثوقة من خلال تحليل شامل يغطي سيناريوهات بناء مختلفة، ومهام، ومؤشرات، ومجموعات بيانات. على سبيل المثال، عند تقييم قدرة النموذج على مواجهة هجمات نصية مضادة، قام الباحثون بإنشاء ثلاثة سيناريوهات تقييم، بما في ذلك اختبارات معيارية قياسية، وأداء تحت توجيهات مهام مختلفة، وأداء عند مواجهة نصوص مضادة أكثر تحديًا.
أظهرت الأبحاث أيضًا بعض الظواهر المثيرة للاهتمام. على سبيل المثال، لا يتم خداع نموذج GPT بواسطة الأمثلة المضادة للحقائق المضافة في العرض، ولكنه قد يُخدع بالعروض المضادة للغش. في ما يتعلق بالسمية والتحيز، فإن النموذج يظهر أداءً أفضل في بيئات جيدة، ولكنه عرضة للتأثيرات السلبية من الموجهات المضللة. بالإضافة إلى ذلك، هناك اختلافات في مستوى التحيز للنموذج تجاه مجموعات سكانية ومواضيع مختلفة.
فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، خاصة في سياقات أو ظروف عرض معينة. بشكل عام، يظهر GPT-4 أداءً أفضل في حماية المعلومات الشخصية، ولكن كلا النموذجين عرضة لتأثيرات تسرب الخصوصية في العروض.
تقدم هذه الدراسة رؤى هامة لفهم وتحسين موثوقية نماذج اللغة الكبيرة، كما تسلط الضوء على ضرورة الحذر والبحث الإضافي عند تطبيق هذه النماذج.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 17
أعجبني
17
5
مشاركة
تعليق
0/400
OnChainDetective
· 07-11 05:09
مرة أخرى نفس الفخ، GPT4 مجرد أداة مطيعة، حتى قدرات تفادي الأخطاء الأساسية أقل من 3.5.
شاهد النسخة الأصليةرد0
PermabullPete
· 07-09 04:00
الثقة كلها هراء، أنا فقط أثق في الكود
شاهد النسخة الأصليةرد0
GasGuzzler
· 07-09 03:59
لقد حصلنا على معلومات جديدة، حتى الآلات يمكن أن تُخدع
شاهد النسخة الأصليةرد0
TokenBeginner'sGuide
· 07-09 03:54
تذكير لطيف: بيانات البحث الجديدة تذكر الجميع أن نماذج مثل GPT تحتوي على مخاطر تسرب خصوصية بنسبة 73%، يُنصح بإدخال المعلومات الحساسة بحذر، وعدم اتباع نصائح الذكاء الاصطناعي بشكل أعمى.
شاهد النسخة الأصليةرد0
GasWhisperer
· 07-09 03:52
وحشي... gpt4 مثل جرو مطيع يقع في كل مطالبة خبيثة smh
تظهر الأبحاث اكتشافات جديدة في تقييم موثوقية نماذج GPT وتحث على الاستخدام بحذر لنماذج اللغة الكبيرة
تقييم موثوقية نموذج المحولات المدربة مسبقًا
تعاونت جامعة إلينوي في إربانا-شامبين مع العديد من المؤسسات الأكاديمية والبحثية المعروفة لإطلاق منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تكشف نتائج أبحاثهم "DecodingTrust: تقييم شامل لموثوقية نموذج GPT" عن بعض الثغرات المتعلقة بالموثوقية التي لم تكن معروفة من قبل.
أظهرت الأبحاث أن نماذج GPT تميل إلى إنتاج مخرجات سامة ومتحيزة، وقد تكشف عن معلومات خاصة من بيانات التدريب وسجل المحادثة. على الرغم من أن GPT-4 يكون عادةً أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة أنظمة أو مطالبات مصممة بشكل خبيث، مما قد يكون بسبب اتباعه الصارم للتعليمات المضللة.
تقدم هذه الدراسة تقييمًا شاملاً وموثوقًا لنموذج GPT، يكشف عن أوجه القصور في النماذج الحالية. تم نشر معايير التقييم التي وضعتها فريق البحث، بهدف تشجيع المزيد من الباحثين على المشاركة وتحسين هذا المجال. ومن الجدير بالذكر أن النتائج البحثية تشير إلى أن الخدمات الموجهة للعملاء لن تتأثر بهذه الثغرات المحتملة، ويرجع ذلك جزئيًا إلى مجموعة من التدابير التي تم تنفيذها.
تم تقييم نموذج GPT من ثمانية جوانب موثوقة من خلال تحليل شامل يغطي سيناريوهات بناء مختلفة، ومهام، ومؤشرات، ومجموعات بيانات. على سبيل المثال، عند تقييم قدرة النموذج على مواجهة هجمات نصية مضادة، قام الباحثون بإنشاء ثلاثة سيناريوهات تقييم، بما في ذلك اختبارات معيارية قياسية، وأداء تحت توجيهات مهام مختلفة، وأداء عند مواجهة نصوص مضادة أكثر تحديًا.
أظهرت الأبحاث أيضًا بعض الظواهر المثيرة للاهتمام. على سبيل المثال، لا يتم خداع نموذج GPT بواسطة الأمثلة المضادة للحقائق المضافة في العرض، ولكنه قد يُخدع بالعروض المضادة للغش. في ما يتعلق بالسمية والتحيز، فإن النموذج يظهر أداءً أفضل في بيئات جيدة، ولكنه عرضة للتأثيرات السلبية من الموجهات المضللة. بالإضافة إلى ذلك، هناك اختلافات في مستوى التحيز للنموذج تجاه مجموعات سكانية ومواضيع مختلفة.
فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، خاصة في سياقات أو ظروف عرض معينة. بشكل عام، يظهر GPT-4 أداءً أفضل في حماية المعلومات الشخصية، ولكن كلا النموذجين عرضة لتأثيرات تسرب الخصوصية في العروض.
تقدم هذه الدراسة رؤى هامة لفهم وتحسين موثوقية نماذج اللغة الكبيرة، كما تسلط الضوء على ضرورة الحذر والبحث الإضافي عند تطبيق هذه النماذج.