Penelitian otoritatif mengungkapkan celah keandalan model GPT, para ahli menyerukan perbaikan kemanan AI.

2025-08-04 05:14:37

Pembuatan abstrak sedang berlangsung

Penilaian Keandalan Model Bahasa Besar

Universitas Illinois di Champaign bekerja sama dengan berbagai universitas dan lembaga penelitian terkenal, mengembangkan sebuah platform untuk mengevaluasi keandalan model bahasa besar (LLMs) secara menyeluruh. Hasil penelitian ini dipublikasikan dalam makalah berjudul "DecodingTrust: Evaluasi Menyeluruh terhadap Keandalan Model GPT."

Tim peneliti melakukan analisis mendalam terhadap model GPT dari berbagai sudut, dan menemukan beberapa celah keandalan yang belum pernah diungkap sebelumnya. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih andal daripada GPT-3.5 dalam tes standar, ketika dihadapkan pada petunjuk jahat yang dirancang khusus, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian mengevaluasi kredibilitas model GPT dari delapan sudut pandang yang berbeda, mencakup berbagai skenario aplikasi, jenis tugas, dan metrik evaluasi. Mereka secara khusus memperhatikan kinerja model dalam lingkungan yang bersifat antagonis, seperti kemampuan untuk merespons saat menghadapi prompt sistem jahat atau input pengguna.

Dalam proses evaluasi, peneliti merancang berbagai skenario pengujian. Misalnya, mereka menggunakan model pengujian standar AdvGLUE untuk menguji ketahanan terhadap serangan adversarial pada teks, sekaligus menciptakan dataset AdvGLUE++ yang lebih menantang untuk menguji lebih lanjut kerentanan model.

Hasil penelitian mengungkapkan beberapa fenomena menarik. Saat menangani demonstrasi yang bersifat antagonis, model GPT menunjukkan ketahanan tertentu, tetapi juga memiliki kelemahan. Terutama ketika menghadapi konten yang bias, GPT-4 lebih mudah terpengaruh oleh petunjuk sistem yang menyesatkan dibandingkan dengan GPT-3.5.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin mengungkapkan informasi sensitif yang ada dalam data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang baik dalam melindungi informasi identitas pribadi, dalam situasi tertentu, tetap mungkin mengungkapkan privasi.

Penelitian ini memberikan dasar penting untuk meningkatkan keandalan model bahasa di masa depan. Tim peneliti berharap dengan mempublikasikan tolok ukur evaluasi mereka, dapat mendorong lebih banyak peneliti untuk terlibat, bersama-sama menciptakan model AI yang lebih dapat diandalkan dan lebih aman.

GPT-16.02%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

5 Suka

Hadiah
5
4
Bagikan

Komentar

0/400

GasWrangler

· 9jam yang lalu

secara teknis, kerentanan gpt-4 telah terbukti secara empiris. tidak terkejut sama sekali smh

Lihat AsliBalas0

NFTFreezer

· 9jam yang lalu

Sial, AI sudah tidak bisa diandalkan lagi～

Lihat AsliBalas0

GasFeeNightmare

· 9jam yang lalu

gpt4 sekali lagi mengalami kegagalan 4 ya

Lihat AsliBalas0

BagHolderTillRetire

· 9jam yang lalu

Masih berpikir 4 sangat 6 juga begitu saja

Lihat AsliBalas0

Topik
1/3
1Show My Alpha Points
3k Popularitas
2Crypto Market Rebound
157k Popularitas
3SEC Crypto Project
12k Popularitas
4CandyDrop Airdrop Event 6.0
100k Popularitas
5White House Crypto Report
84k Popularitas

Sematkan

peta situs