Nghiên cứu ủy quyền tiết lộ lỗ hổng độ tin cậy của mô hình GPT, các chuyên gia kêu gọi cải thiện Bảo mật AI

robot
Đang tạo bản tóm tắt

Đánh giá độ tin cậy của mô hình ngôn ngữ lớn

Đại học Illinois tại Urbana-Champaign đã hợp tác với nhiều trường đại học và tổ chức nghiên cứu nổi tiếng để phát triển một nền tảng đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Kết quả nghiên cứu này được công bố trong một bài báo có tiêu đề "DecodingTrust: Đánh giá toàn diện độ tin cậy của các mô hình GPT."

Nhóm nghiên cứu đã phân tích sâu về mô hình GPT từ nhiều khía cạnh và phát hiện ra một số lỗ hổng về độ tin cậy chưa từng được công bố trước đây. Chẳng hạn, mô hình GPT dễ tạo ra các đầu ra độc hại và có định kiến, và cũng có thể làm lộ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra tiêu chuẩn, nhưng khi đối mặt với các gợi ý độc hại được thiết kế đặc biệt, GPT-4 lại dễ bị tấn công hơn, có thể là vì nó tuân theo các hướng dẫn gây hiểu lầm một cách nghiêm ngặt hơn.

Nhóm nghiên cứu đã đánh giá độ tin cậy của mô hình GPT từ tám góc độ khác nhau, bao gồm các kịch bản ứng dụng, loại nhiệm vụ và chỉ số đánh giá khác nhau. Họ đặc biệt chú ý đến hiệu suất của mô hình trong môi trường đối kháng, chẳng hạn như khả năng ứng phó khi đối mặt với các gợi ý hệ thống độc hại hoặc đầu vào của người dùng.

Trong quá trình đánh giá, các nhà nghiên cứu đã thiết kế nhiều tình huống thử nghiệm khác nhau. Ví dụ, họ sử dụng mô hình kiểm tra chuẩn AdvGLUE để đánh giá khả năng chống lại các cuộc tấn công đối kháng văn bản, đồng thời cũng tạo ra tập dữ liệu AdvGLUE++ đầy thử thách hơn để kiểm tra thêm sự dễ bị tổn thương của mô hình.

Các kết quả nghiên cứu đã tiết lộ một số hiện tượng thú vị. Khi xử lý các trình diễn đối kháng, mô hình GPT thể hiện một mức độ vững mạnh nhất định, nhưng cũng tồn tại những điểm yếu. Đặc biệt, khi đối mặt với nội dung có thiên kiến, GPT-4 dễ bị ảnh hưởng bởi các gợi ý hệ thống gây hiểu lầm hơn so với GPT-3.5.

Về bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Mặc dù GPT-4 hoạt động tốt trong việc bảo vệ thông tin nhận dạng cá nhân, nhưng trong một số trường hợp nhất định vẫn có thể rò rỉ quyền riêng tư.

Nghiên cứu này cung cấp cơ sở quan trọng cho việc cải thiện độ tin cậy của các mô hình ngôn ngữ trong tương lai. Nhóm nghiên cứu hy vọng thông qua việc công khai các tiêu chuẩn đánh giá của họ, sẽ khuyến khích nhiều nhà nghiên cứu tham gia, cùng nhau nỗ lực tạo ra các mô hình AI đáng tin cậy và an toàn hơn.

GPT5.83%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 4
  • Chia sẻ
Bình luận
0/400
GasWranglervip
· 11giờ trước
nói một cách kỹ thuật, sự dễ bị tổn thương của gpt-4 đã được chứng minh một cách thực nghiệm. hoàn toàn không ngạc nhiên chút nào smh
Xem bản gốcTrả lời0
NFTFreezervip
· 11giờ trước
Hỏng rồi hỏng rồi, AI không đáng tin cậy nữa rồi ~
Xem bản gốcTrả lời0
GasFeeNightmarevip
· 11giờ trước
gpt4 lại gặp sự cố rồi 4 à
Xem bản gốcTrả lời0
BagHolderTillRetirevip
· 11giờ trước
Cứ tưởng 4 thì 6 cũng chỉ vậy thôi.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)