Penelitian otoritatif mengungkapkan celah keandalan model GPT, para ahli menyerukan perbaikan kemanan AI.

robot
Pembuatan abstrak sedang berlangsung

Penilaian Keandalan Model Bahasa Besar

Universitas Illinois di Champaign bekerja sama dengan berbagai universitas dan lembaga penelitian terkenal, mengembangkan sebuah platform untuk mengevaluasi keandalan model bahasa besar (LLMs) secara menyeluruh. Hasil penelitian ini dipublikasikan dalam makalah berjudul "DecodingTrust: Evaluasi Menyeluruh terhadap Keandalan Model GPT."

Tim peneliti melakukan analisis mendalam terhadap model GPT dari berbagai sudut, dan menemukan beberapa celah keandalan yang belum pernah diungkap sebelumnya. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih andal daripada GPT-3.5 dalam tes standar, ketika dihadapkan pada petunjuk jahat yang dirancang khusus, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian mengevaluasi kredibilitas model GPT dari delapan sudut pandang yang berbeda, mencakup berbagai skenario aplikasi, jenis tugas, dan metrik evaluasi. Mereka secara khusus memperhatikan kinerja model dalam lingkungan yang bersifat antagonis, seperti kemampuan untuk merespons saat menghadapi prompt sistem jahat atau input pengguna.

Dalam proses evaluasi, peneliti merancang berbagai skenario pengujian. Misalnya, mereka menggunakan model pengujian standar AdvGLUE untuk menguji ketahanan terhadap serangan adversarial pada teks, sekaligus menciptakan dataset AdvGLUE++ yang lebih menantang untuk menguji lebih lanjut kerentanan model.

Hasil penelitian mengungkapkan beberapa fenomena menarik. Saat menangani demonstrasi yang bersifat antagonis, model GPT menunjukkan ketahanan tertentu, tetapi juga memiliki kelemahan. Terutama ketika menghadapi konten yang bias, GPT-4 lebih mudah terpengaruh oleh petunjuk sistem yang menyesatkan dibandingkan dengan GPT-3.5.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin mengungkapkan informasi sensitif yang ada dalam data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang baik dalam melindungi informasi identitas pribadi, dalam situasi tertentu, tetap mungkin mengungkapkan privasi.

Penelitian ini memberikan dasar penting untuk meningkatkan keandalan model bahasa di masa depan. Tim peneliti berharap dengan mempublikasikan tolok ukur evaluasi mereka, dapat mendorong lebih banyak peneliti untuk terlibat, bersama-sama menciptakan model AI yang lebih dapat diandalkan dan lebih aman.

GPT-16.02%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Bagikan
Komentar
0/400
GasWranglervip
· 9jam yang lalu
secara teknis, kerentanan gpt-4 telah terbukti secara empiris. tidak terkejut sama sekali smh
Lihat AsliBalas0
NFTFreezervip
· 9jam yang lalu
Sial, AI sudah tidak bisa diandalkan lagi~
Lihat AsliBalas0
GasFeeNightmarevip
· 9jam yang lalu
gpt4 sekali lagi mengalami kegagalan 4 ya
Lihat AsliBalas0
BagHolderTillRetirevip
· 9jam yang lalu
Masih berpikir 4 sangat 6 juga begitu saja
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)