Penelitian mengungkap temuan baru dalam evaluasi keandalan model GPT, mendesak penggunaan hati-hati terhadap model bahasa besar.

2025-07-09 03:32:52

Penilaian Keandalan Model Transformer Pra-latihan Generatif

Universitas Illinois di Champaign bekerja sama dengan beberapa institusi dan lembaga penelitian terkemuka untuk merilis platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Penelitian mereka yang berjudul "DecodingTrust: Evaluasi Komprehensif Terhadap Kredibilitas Model GPT" mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak dipublikasikan.

Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan sejarah percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi sistem yang dirancang dengan jahat atau petunjuk pengguna yang berbahaya, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.

Pekerjaan ini memberikan evaluasi kredibilitas yang komprehensif terhadap model GPT, mengungkap kekurangan dari model yang ada. Basis evaluasi tim penelitian telah dipublikasikan, bertujuan untuk mendorong lebih banyak peneliti untuk terlibat dan lebih lanjut memperbaiki bidang ini. Perlu dicatat bahwa hasil penelitian menunjukkan bahwa layanan yang ditujukan untuk pelanggan tidak akan terpengaruh oleh potensi kerentanan ini, sebagian berkat serangkaian langkah mitigasi yang telah diterapkan.

Evaluasi dilakukan dari delapan sudut pandang kepercayaan terhadap model GPT, mencakup berbagai skenario konstruksi, tugas, indikator, dan dataset yang berbeda. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks yang bersifat adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian standar, kinerja di bawah instruksi tugas yang berbeda, dan kinerja saat menghadapi teks adversarial yang lebih menantang.

Penelitian juga menemukan beberapa fenomena menarik. Misalnya, model GPT tidak terpengaruh oleh contoh kontrafaktual yang ditambahkan dalam demonstrasi, tetapi mungkin akan terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model menunjukkan kinerja yang lebih baik dalam lingkungan yang baik, tetapi mudah dipengaruhi oleh petunjuk sistem yang menyesatkan. Selain itu, tingkat bias model terhadap kelompok populasi dan topik yang berbeda juga bervariasi.

Dalam hal perlindungan privasi, penelitian menunjukkan bahwa model GPT mungkin akan mengungkap informasi sensitif dari data pelatihan, terutama dalam konteks atau kondisi demonstrasi tertentu. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, tetapi kedua model tetap rentan terhadap pengaruh kebocoran privasi dalam demonstrasi.

Penelitian ini memberikan wawasan penting untuk memahami dan meningkatkan keandalan model bahasa besar, sekaligus menekankan perlunya kehati-hatian dan penelitian lebih lanjut saat menerapkan model-model ini.

GPT-3.94%

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

17 Suka

Hadiah
17
5
Bagikan

Komentar

0/400

OnChainDetective

· 07-11 05:09

Ini lagi jebakan lama, GPT4 hanyalah alat yang patuh, bahkan kemampuan untuk menghindari anomali dasar pun tidak sebaik 3.5.

Lihat AsliBalas0

PermabullPete

· 07-09 04:00

Kepercayaan itu omong kosong, saya hanya percaya pada kode.

Lihat AsliBalas0

GasGuzzler

· 07-09 03:59

Ada berita lagi, mesin juga bisa dibohongi.

Lihat AsliBalas0

TokenBeginner'sGuide

· 07-09 03:54

Pengingat ramah: Data penelitian baru mengingatkan semua orang bahwa model seperti GPT memiliki risiko kebocoran privasi sebesar 73%, disarankan untuk berhati-hati saat memasukkan informasi sensitif, jangan terlalu percaya pada saran AI.

Lihat AsliBalas0

GasWhisperer

· 07-09 03:52

brutal... gpt4 seperti anak anjing yang patuh turun untuk setiap prompt jahat smh

Lihat AsliBalas0

Topik
Launchpad Debut: Pump.Fun
4k Popularitas
BTC Hits New High
93k Popularitas
My Gate Moments
15k Popularitas
4Fed June Meeting Minutes
5k Popularitas
5Join Gate VIP to Win MacBook
30k Popularitas
6Trump Tariff Hikes
16k Popularitas
7Gate xStocks Trading Share
23k Popularitas
8HK Stablecoin Rules
14k Popularitas
9Truth Social Crypto ETF
3k Popularitas
10Gate Alpha Trading Share
13k Popularitas

Sematkan

peta situs