OpenAI تطلق مراقبة CoT لوقف السلوك الضار للنماذج الكبيرة

2025-03-10 22:48:31

إنشاء الملخص قيد التقدم

ذكرت شركة Golden Finance أن OpenAI أصدرت أحدث الأبحاث ، باستخدام مراقبة CoT (سلسلة الفكر) ، يمكنها منع السلوكيات الخبيثة مثل النماذج الكبيرة التي تتحدث عن الهراء وتخفي النوايا الحقيقية ، وهي أيضا واحدة من الأدوات الفعالة للإشراف على النماذج الفائقة. يستخدم OpenAI الطراز المتطور الذي تم إصداره حديثا o3-mini ككائن مراقب ، وطراز GPT-4o الأضعف كشاشة. بيئة الاختبار هي مهمة ترميز تتطلب من الذكاء الاصطناعي تنفيذ الوظائف في قاعدة التعليمات البرمجية لاجتياز اختبارات الوحدة. أظهرت النتائج أن جهاز مراقبة CoT كان أداؤه جيدا في اكتشاف سلوك "قرصنة المكافآت" المنهجي ، بمعدل استدعاء يصل إلى 95٪ ، يتجاوز بكثير 60٪ من السلوكيات التي تم مراقبتها فقط.

GPT-6.33%

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
Dr.Han Joins Gate Square
15k درجة الشعبية
Gate VIP New Upgrade
17k درجة الشعبية
Nonfarm Payrolls Update
14k درجة الشعبية
4BTC
30293k درجة الشعبية
5contentstar
10719k درجة الشعبية
6NADA
11186k درجة الشعبية
7BOME
11564k درجة الشعبية
8BTC
30293k درجة الشعبية
9SMILE
9062k درجة الشعبية
10比特币
13358k درجة الشعبية

تثبيت

خريطة الموقع