Penelitian mengungkap temuan baru dalam evaluasi keandalan model GPT, mendesak penggunaan hati-hati terhadap model bahasa besar.

Penilaian Keandalan Model Transformer Pra-latihan Generatif

Universitas Illinois di Champaign bekerja sama dengan beberapa institusi dan lembaga penelitian terkemuka untuk merilis platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Penelitian mereka yang berjudul "DecodingTrust: Evaluasi Komprehensif Terhadap Kredibilitas Model GPT" mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak dipublikasikan.

Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan sejarah percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi sistem yang dirancang dengan jahat atau petunjuk pengguna yang berbahaya, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.

Pekerjaan ini memberikan evaluasi kredibilitas yang komprehensif terhadap model GPT, mengungkap kekurangan dari model yang ada. Basis evaluasi tim penelitian telah dipublikasikan, bertujuan untuk mendorong lebih banyak peneliti untuk terlibat dan lebih lanjut memperbaiki bidang ini. Perlu dicatat bahwa hasil penelitian menunjukkan bahwa layanan yang ditujukan untuk pelanggan tidak akan terpengaruh oleh potensi kerentanan ini, sebagian berkat serangkaian langkah mitigasi yang telah diterapkan.

Evaluasi dilakukan dari delapan sudut pandang kepercayaan terhadap model GPT, mencakup berbagai skenario konstruksi, tugas, indikator, dan dataset yang berbeda. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks yang bersifat adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian standar, kinerja di bawah instruksi tugas yang berbeda, dan kinerja saat menghadapi teks adversarial yang lebih menantang.

Penelitian juga menemukan beberapa fenomena menarik. Misalnya, model GPT tidak terpengaruh oleh contoh kontrafaktual yang ditambahkan dalam demonstrasi, tetapi mungkin akan terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model menunjukkan kinerja yang lebih baik dalam lingkungan yang baik, tetapi mudah dipengaruhi oleh petunjuk sistem yang menyesatkan. Selain itu, tingkat bias model terhadap kelompok populasi dan topik yang berbeda juga bervariasi.

Dalam hal perlindungan privasi, penelitian menunjukkan bahwa model GPT mungkin akan mengungkap informasi sensitif dari data pelatihan, terutama dalam konteks atau kondisi demonstrasi tertentu. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, tetapi kedua model tetap rentan terhadap pengaruh kebocoran privasi dalam demonstrasi.

Penelitian ini memberikan wawasan penting untuk memahami dan meningkatkan keandalan model bahasa besar, sekaligus menekankan perlunya kehati-hatian dan penelitian lebih lanjut saat menerapkan model-model ini.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
OnChainDetectivevip
· 07-11 05:09
Ini lagi jebakan lama, GPT4 hanyalah alat yang patuh, bahkan kemampuan untuk menghindari anomali dasar pun tidak sebaik 3.5.
Lihat AsliBalas0
PermabullPetevip
· 07-09 04:00
Kepercayaan itu omong kosong, saya hanya percaya pada kode.
Lihat AsliBalas0
GasGuzzlervip
· 07-09 03:59
Ada berita lagi, mesin juga bisa dibohongi.
Lihat AsliBalas0
TokenBeginner'sGuidevip
· 07-09 03:54
Pengingat ramah: Data penelitian baru mengingatkan semua orang bahwa model seperti GPT memiliki risiko kebocoran privasi sebesar 73%, disarankan untuk berhati-hati saat memasukkan informasi sensitif, jangan terlalu percaya pada saran AI.
Lihat AsliBalas0
GasWhisperervip
· 07-09 03:52
brutal... gpt4 seperti anak anjing yang patuh turun untuk setiap prompt jahat smh
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)