Evaluasi Kelayakan Model GPT Secara Menyeluruh: Mengungkap Kerentanan dan Ruang untuk Perbaikan

2025-07-30 18:51:53

Pembuatan abstrak sedang berlangsung

Penelitian Baru untuk Menilai Kepercayaan Model GPT Secara Menyeluruh

Sebuah penelitian yang dilakukan oleh beberapa universitas terkemuka dan lembaga penelitian telah melakukan evaluasi menyeluruh terhadap keandalan model bahasa besar seperti GPT. Tim penelitian mengembangkan platform evaluasi komprehensif dan memperkenalkan temuan terkait dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Menyeluruh terhadap Keandalan Model GPT."

Penelitian menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT rentan terhadap pengelabuan yang menghasilkan output beracun dan bias, serta dapat membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, dalam menghadapi prompt sistem atau prompt pengguna yang dirancang secara jahat, GPT-4 justru lebih mudah diserang, yang mungkin disebabkan oleh GPT-4 yang lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang kredibilitas, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Misalnya, saat mengevaluasi ketahanan terhadap serangan teks adversarial, peneliti membangun tiga skenario evaluasi, termasuk pengujian standar, kinerja di bawah instruksi tugas yang berbeda, dan kerentanan saat menghadapi teks adversarial yang lebih menantang.

Penelitian juga menemukan bahwa model GPT menunjukkan keunggulan yang tidak terduga dalam beberapa kasus. Misalnya, GPT-3.5 dan GPT-4 tidak akan terpengaruh oleh contoh kontra-faktual yang ditambahkan dalam demonstrasi, bahkan mungkin mendapat manfaat dari situasi tersebut. Namun, pada saat yang sama, memberikan demonstrasi anti-penipuan dapat menyesatkan model dalam membuat prediksi yang salah terhadap input kontra-faktual, terutama ketika demonstrasi kontra-faktual dekat dengan input pengguna.

Dalam hal toksisitas dan bias, model GPT tidak banyak menyimpang dari sebagian besar tema stereotip dalam lingkungan yang baik, tetapi di bawah sistem petunjuk yang menyesatkan, dapat "tertipu" untuk setuju dengan konten yang bias. GPT-4 lebih mudah terpengaruh oleh sistem petunjuk menyesatkan yang ditargetkan dibandingkan dengan GPT-3.5. Tingkat bias model juga berkaitan dengan kelompok populasi dan tema stereotip yang disebutkan dalam petunjuk pengguna.

Mengenai masalah kebocoran privasi, penelitian menunjukkan bahwa model GPT mungkin akan membocorkan informasi sensitif dalam data latih, seperti alamat email. Dalam beberapa kasus, menggunakan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Model GPT juga mungkin membocorkan informasi pribadi yang disuntikkan dalam riwayat percakapan. Secara keseluruhan, GPT-4 lebih tangguh dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model dapat membocorkan berbagai jenis informasi pribadi saat menghadapi demonstrasi kebocoran privasi.

Penelitian ini memberikan evaluasi komprehensif terhadap keandalan model GPT, mengungkapkan potensi celah dan ruang untuk perbaikan. Tim penelitian berharap bahwa pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat diandalkan.

GPT-7.27%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

23 Suka