عندما تنتج النماذج مخرجات تبدو معقولة من الناحية الظاهرية ولكنها غير صحيحة من الناحية الواقعية، يثير ذلك سؤالًا أساسيًا: هل يمكن لعقوبات RLHF أن تتجاوز فعلاً الهياكل التفسيرية الأساسية التي نحاول الحفاظ عليها؟ اللغز الحقيقي هنا قد يكون ما إذا كنا نطارد أهداف تحسين خاطئة تمامًا. لذا إليك الزاوية العملية—هل من الممكن أن تكون دوال الخسارة التي تحافظ على سلامة الهيكل قابلة للتنفيذ في نموذج التدريب الحالي، أم أننا نواجه قيودًا صارمة لم نعترف بها بعد؟ من المفيد التفكير في الآليات قبل التوسع أكثر.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • إعادة النشر
  • مشاركة
تعليق
0/400
TokenAlchemistvip
· منذ 6 س
لا، هذه مجرد المشكلة الكلاسيكية "بنينا النظام بشكل خاطئ من الأساس" مرتدية عباءة الرياضيات الفاخرة. إن RLHF يقاتل أساسًا ضد ما تعلمه النموذج فعليًا—مثل محاولة استخراج ألفا من سطح تحكيم غير صحيح. الفعالية الحقيقية هنا تكمن في التظاهر بأن دوال الخسارة يمكن أن تصلح الكسل المعماري. نحن نقوم بتحسين انتقالات الحالة الخاطئة fr
شاهد النسخة الأصليةرد0
VitalikFanboy42vip
· منذ 6 س
بصراحة، مجموعة RLHF لا يمكنها حل المشكلة الأساسية على الإطلاق. ربما كنا نعمل على تحسين أشياء خاطئة منذ البداية.
شاهد النسخة الأصليةرد0
CompoundPersonalityvip
· منذ 6 س
هذه المجموعة من أدوات rlhf حقًا تشبه أن تضغط على جذر وتظهر ثمرة، حاولت إصلاح مشكلة الوهم ولكن انتهى الأمر بتقليل بعض قدرات النموذج أيضًا، شعور بأنها معكوسة في الأولوية.
شاهد النسخة الأصليةرد0
MerkleTreeHuggervip
· منذ 6 س
rlhf هذه المجموعة من الأشياء تشبه حقًا إصلاح منزل مليء بالثغرات، كلما أصلحته أصبح أكثر تعقيدًا. المشكلة ليست في وظيفة العقوبة، بل في أننا قمنا بعكس شيء ما.
شاهد النسخة الأصليةرد0
  • تثبيت