Injeção de prompt: uma análise sobre estímulos que induzem erros e impactos em grandes modelos de linguagem

Medeiros, Arthur Dantas
Fernandes, Tiago de Lima

Resumo

Este trabalho investiga como diferentes tipos de prompts podem induzir Grandes Modelos de Linguagem (GMLs) a gerar respostas falsas ou prejudiciais. O estudo parte do problema crescente da manipulação por prompt injection, que ameaça a confiabilidade desses sistemas em contextos educacionais, profissionais e sociais. O objetivo principal foi analisar a suscetibilidade de três GMLs: ChatGPT, Gemini e DeepSeek, a ataques estruturados em três temas distintos, utilizando técnicas como roleplay, Ofuscamento e variação linguística. A metodologia envolveu testes empíricos, análise de Taxa de Sucesso de Ataque (ASR) e as métricas ROUGE-L e BART-MNLI. Os resultados mostram que, embora os modelos apresentem maior resistência em tópicos sensíveis, continuam vulneráveis em temas aparentemente inofensivos. Conclui-se que é necessário aprimorar mecanismos de segurança para mitigar manipulações sutis e preservar a integridade das respostas.

Citação

Artigo Completo

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.