Penilaian Keandalan Model Transformer Pra-latihan Generatif
Universitas Illinois di Champaign bekerja sama dengan beberapa institusi dan lembaga penelitian terkemuka untuk merilis platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Penelitian mereka yang berjudul "DecodingTrust: Evaluasi Komprehensif Terhadap Kredibilitas Model GPT" mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak dipublikasikan.
Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan sejarah percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi sistem yang dirancang dengan jahat atau petunjuk pengguna yang berbahaya, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.
Pekerjaan ini memberikan evaluasi kredibilitas yang komprehensif terhadap model GPT, mengungkap kekurangan dari model yang ada. Basis evaluasi tim penelitian telah dipublikasikan, bertujuan untuk mendorong lebih banyak peneliti untuk terlibat dan lebih lanjut memperbaiki bidang ini. Perlu dicatat bahwa hasil penelitian menunjukkan bahwa layanan yang ditujukan untuk pelanggan tidak akan terpengaruh oleh potensi kerentanan ini, sebagian berkat serangkaian langkah mitigasi yang telah diterapkan.
Evaluasi dilakukan dari delapan sudut pandang kepercayaan terhadap model GPT, mencakup berbagai skenario konstruksi, tugas, indikator, dan dataset yang berbeda. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks yang bersifat adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian standar, kinerja di bawah instruksi tugas yang berbeda, dan kinerja saat menghadapi teks adversarial yang lebih menantang.
Penelitian juga menemukan beberapa fenomena menarik. Misalnya, model GPT tidak terpengaruh oleh contoh kontrafaktual yang ditambahkan dalam demonstrasi, tetapi mungkin akan terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model menunjukkan kinerja yang lebih baik dalam lingkungan yang baik, tetapi mudah dipengaruhi oleh petunjuk sistem yang menyesatkan. Selain itu, tingkat bias model terhadap kelompok populasi dan topik yang berbeda juga bervariasi.
Dalam hal perlindungan privasi, penelitian menunjukkan bahwa model GPT mungkin akan mengungkap informasi sensitif dari data pelatihan, terutama dalam konteks atau kondisi demonstrasi tertentu. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, tetapi kedua model tetap rentan terhadap pengaruh kebocoran privasi dalam demonstrasi.
Penelitian ini memberikan wawasan penting untuk memahami dan meningkatkan keandalan model bahasa besar, sekaligus menekankan perlunya kehati-hatian dan penelitian lebih lanjut saat menerapkan model-model ini.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
17 Suka
Hadiah
17
5
Bagikan
Komentar
0/400
OnChainDetective
· 07-11 05:09
Ini lagi jebakan lama, GPT4 hanyalah alat yang patuh, bahkan kemampuan untuk menghindari anomali dasar pun tidak sebaik 3.5.
Lihat AsliBalas0
PermabullPete
· 07-09 04:00
Kepercayaan itu omong kosong, saya hanya percaya pada kode.
Lihat AsliBalas0
GasGuzzler
· 07-09 03:59
Ada berita lagi, mesin juga bisa dibohongi.
Lihat AsliBalas0
TokenBeginner'sGuide
· 07-09 03:54
Pengingat ramah: Data penelitian baru mengingatkan semua orang bahwa model seperti GPT memiliki risiko kebocoran privasi sebesar 73%, disarankan untuk berhati-hati saat memasukkan informasi sensitif, jangan terlalu percaya pada saran AI.
Lihat AsliBalas0
GasWhisperer
· 07-09 03:52
brutal... gpt4 seperti anak anjing yang patuh turun untuk setiap prompt jahat smh
Penelitian mengungkap temuan baru dalam evaluasi keandalan model GPT, mendesak penggunaan hati-hati terhadap model bahasa besar.
Penilaian Keandalan Model Transformer Pra-latihan Generatif
Universitas Illinois di Champaign bekerja sama dengan beberapa institusi dan lembaga penelitian terkemuka untuk merilis platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Penelitian mereka yang berjudul "DecodingTrust: Evaluasi Komprehensif Terhadap Kredibilitas Model GPT" mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak dipublikasikan.
Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan sejarah percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi sistem yang dirancang dengan jahat atau petunjuk pengguna yang berbahaya, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.
Pekerjaan ini memberikan evaluasi kredibilitas yang komprehensif terhadap model GPT, mengungkap kekurangan dari model yang ada. Basis evaluasi tim penelitian telah dipublikasikan, bertujuan untuk mendorong lebih banyak peneliti untuk terlibat dan lebih lanjut memperbaiki bidang ini. Perlu dicatat bahwa hasil penelitian menunjukkan bahwa layanan yang ditujukan untuk pelanggan tidak akan terpengaruh oleh potensi kerentanan ini, sebagian berkat serangkaian langkah mitigasi yang telah diterapkan.
Evaluasi dilakukan dari delapan sudut pandang kepercayaan terhadap model GPT, mencakup berbagai skenario konstruksi, tugas, indikator, dan dataset yang berbeda. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks yang bersifat adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian standar, kinerja di bawah instruksi tugas yang berbeda, dan kinerja saat menghadapi teks adversarial yang lebih menantang.
Penelitian juga menemukan beberapa fenomena menarik. Misalnya, model GPT tidak terpengaruh oleh contoh kontrafaktual yang ditambahkan dalam demonstrasi, tetapi mungkin akan terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model menunjukkan kinerja yang lebih baik dalam lingkungan yang baik, tetapi mudah dipengaruhi oleh petunjuk sistem yang menyesatkan. Selain itu, tingkat bias model terhadap kelompok populasi dan topik yang berbeda juga bervariasi.
Dalam hal perlindungan privasi, penelitian menunjukkan bahwa model GPT mungkin akan mengungkap informasi sensitif dari data pelatihan, terutama dalam konteks atau kondisi demonstrasi tertentu. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, tetapi kedua model tetap rentan terhadap pengaruh kebocoran privasi dalam demonstrasi.
Penelitian ini memberikan wawasan penting untuk memahami dan meningkatkan keandalan model bahasa besar, sekaligus menekankan perlunya kehati-hatian dan penelitian lebih lanjut saat menerapkan model-model ini.