Universitas Illinois di Champaign bekerja sama dengan berbagai universitas dan lembaga penelitian terkenal, mengembangkan sebuah platform untuk mengevaluasi keandalan model bahasa besar (LLMs) secara menyeluruh. Hasil penelitian ini dipublikasikan dalam makalah berjudul "DecodingTrust: Evaluasi Menyeluruh terhadap Keandalan Model GPT."
Tim peneliti melakukan analisis mendalam terhadap model GPT dari berbagai sudut, dan menemukan beberapa celah keandalan yang belum pernah diungkap sebelumnya. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih andal daripada GPT-3.5 dalam tes standar, ketika dihadapkan pada petunjuk jahat yang dirancang khusus, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian mengevaluasi kredibilitas model GPT dari delapan sudut pandang yang berbeda, mencakup berbagai skenario aplikasi, jenis tugas, dan metrik evaluasi. Mereka secara khusus memperhatikan kinerja model dalam lingkungan yang bersifat antagonis, seperti kemampuan untuk merespons saat menghadapi prompt sistem jahat atau input pengguna.
Dalam proses evaluasi, peneliti merancang berbagai skenario pengujian. Misalnya, mereka menggunakan model pengujian standar AdvGLUE untuk menguji ketahanan terhadap serangan adversarial pada teks, sekaligus menciptakan dataset AdvGLUE++ yang lebih menantang untuk menguji lebih lanjut kerentanan model.
Hasil penelitian mengungkapkan beberapa fenomena menarik. Saat menangani demonstrasi yang bersifat antagonis, model GPT menunjukkan ketahanan tertentu, tetapi juga memiliki kelemahan. Terutama ketika menghadapi konten yang bias, GPT-4 lebih mudah terpengaruh oleh petunjuk sistem yang menyesatkan dibandingkan dengan GPT-3.5.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin mengungkapkan informasi sensitif yang ada dalam data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang baik dalam melindungi informasi identitas pribadi, dalam situasi tertentu, tetap mungkin mengungkapkan privasi.
Penelitian ini memberikan dasar penting untuk meningkatkan keandalan model bahasa di masa depan. Tim peneliti berharap dengan mempublikasikan tolok ukur evaluasi mereka, dapat mendorong lebih banyak peneliti untuk terlibat, bersama-sama menciptakan model AI yang lebih dapat diandalkan dan lebih aman.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
5 Suka
Hadiah
5
4
Bagikan
Komentar
0/400
GasWrangler
· 9jam yang lalu
secara teknis, kerentanan gpt-4 telah terbukti secara empiris. tidak terkejut sama sekali smh
Penelitian otoritatif mengungkapkan celah keandalan model GPT, para ahli menyerukan perbaikan kemanan AI.
Penilaian Keandalan Model Bahasa Besar
Universitas Illinois di Champaign bekerja sama dengan berbagai universitas dan lembaga penelitian terkenal, mengembangkan sebuah platform untuk mengevaluasi keandalan model bahasa besar (LLMs) secara menyeluruh. Hasil penelitian ini dipublikasikan dalam makalah berjudul "DecodingTrust: Evaluasi Menyeluruh terhadap Keandalan Model GPT."
Tim peneliti melakukan analisis mendalam terhadap model GPT dari berbagai sudut, dan menemukan beberapa celah keandalan yang belum pernah diungkap sebelumnya. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih andal daripada GPT-3.5 dalam tes standar, ketika dihadapkan pada petunjuk jahat yang dirancang khusus, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian mengevaluasi kredibilitas model GPT dari delapan sudut pandang yang berbeda, mencakup berbagai skenario aplikasi, jenis tugas, dan metrik evaluasi. Mereka secara khusus memperhatikan kinerja model dalam lingkungan yang bersifat antagonis, seperti kemampuan untuk merespons saat menghadapi prompt sistem jahat atau input pengguna.
Dalam proses evaluasi, peneliti merancang berbagai skenario pengujian. Misalnya, mereka menggunakan model pengujian standar AdvGLUE untuk menguji ketahanan terhadap serangan adversarial pada teks, sekaligus menciptakan dataset AdvGLUE++ yang lebih menantang untuk menguji lebih lanjut kerentanan model.
Hasil penelitian mengungkapkan beberapa fenomena menarik. Saat menangani demonstrasi yang bersifat antagonis, model GPT menunjukkan ketahanan tertentu, tetapi juga memiliki kelemahan. Terutama ketika menghadapi konten yang bias, GPT-4 lebih mudah terpengaruh oleh petunjuk sistem yang menyesatkan dibandingkan dengan GPT-3.5.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin mengungkapkan informasi sensitif yang ada dalam data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang baik dalam melindungi informasi identitas pribadi, dalam situasi tertentu, tetap mungkin mengungkapkan privasi.
Penelitian ini memberikan dasar penting untuk meningkatkan keandalan model bahasa di masa depan. Tim peneliti berharap dengan mempublikasikan tolok ukur evaluasi mereka, dapat mendorong lebih banyak peneliti untuk terlibat, bersama-sama menciptakan model AI yang lebih dapat diandalkan dan lebih aman.