Estudos autoritários revelam vulnerabilidades na confiabilidade dos modelos GPT. Especialistas pedem melhorias na Segurança da IA.

2025-08-04 05:14:37

Geração do resumo em andamento

Avaliação da confiabilidade de grandes modelos de linguagem

A Universidade de Illinois em Urbana-Champaign, em conjunto com várias universidades e instituições de pesquisa renomadas, desenvolveu uma plataforma abrangente para avaliar a confiabilidade de grandes modelos de linguagem (LLMs). Este resultado de pesquisa foi publicado em um artigo intitulado "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".

A equipe de pesquisa analisou o modelo GPT sob várias perspectivas e descobriu algumas vulnerabilidades de credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é propenso a produzir saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas em dados de treinamento e histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes padrão, ele é mais suscetível a ataques quando confrontado com prompts maliciosos projetados especificamente, provavelmente porque segue instruções enganosas de forma mais rigorosa.

A equipe de pesquisa avaliou a confiabilidade do modelo GPT a partir de oito ângulos diferentes, cobrindo vários cenários de aplicação, tipos de tarefa e métricas de avaliação. Eles se concentraram especialmente no desempenho do modelo em ambientes adversariais, como a capacidade de resposta quando confrontado com prompts de sistema maliciosos ou entradas de usuários.

Durante o processo de avaliação, os pesquisadores projetaram vários cenários de teste. Por exemplo, eles usaram um modelo padrão de benchmark AdvGLUE para testar a resistência a ataques adversariais de texto, ao mesmo tempo que criaram um conjunto de dados mais desafiador, o AdvGLUE++, para testar ainda mais a vulnerabilidade do modelo.

Os resultados da pesquisa revelaram alguns fenômenos interessantes. Ao lidar com demonstrações adversariais, o modelo GPT mostrou uma certa robustez, mas também apresentou fraquezas. Especialmente quando confrontado com conteúdo tendencioso, o GPT-4 é mais suscetível a prompts enganosos do que o GPT-3.5.

Em termos de proteção da privacidade, pesquisas descobriram que os modelos GPT podem vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Embora o GPT-4 se saia bem na proteção de informações de identificação pessoal, ainda pode vazar privacidade em situações específicas.

Este estudo fornece uma base importante para a melhoria da confiabilidade dos modelos de linguagem no futuro. A equipe de pesquisa espera, ao tornar público o seu benchmark de avaliação, incentivar mais pesquisadores a participar e trabalhar juntos para criar modelos de IA mais confiáveis e seguros.

GPT5.83%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

5 Curtidas

Recompensa
5
4
Compartilhar

Comentário

0/400

GasWrangler

· 11h atrás

tecnicamente falando, a vulnerabilidade do gpt-4 é empiricamente comprovada. não estou nada surpreso smh

Ver originalResponder0

NFTFreezer

· 11h atrás

Poxa, poxa, a IA não é confiável!～

Ver originalResponder0

GasFeeNightmare

· 11h atrás

o gpt4 falhou de novo 4啊

Ver originalResponder0

BagHolderTillRetire

· 11h atrás

Ainda pensei que 4 era 6, também é assim.

Ver originalResponder0

Tema
1/3
1Show My Alpha Points
6k Popularidade
2Crypto Market Rebound
160k Popularidade
3SEC Crypto Project
15k Popularidade
4CandyDrop Airdrop Event 6.0
100k Popularidade
5White House Crypto Report
84k Popularidade

Marcar

sitemap