Geração automática de Testes de Unidade com LLMs em projetos de larga escala

Melo, Maria Eduarda Pereira de Souza

Resumo

Este trabalho investiga a viabilidade e a eficácia da geração automática de testes de unidade por Large Language Models (LLMs) aplicada a projetos de software de larga escala. A pesquisa se apoia em um estudo empírico conduzido com três modelos de código aberto (Qwen 2.5 Coder 14B, Qwen 2.5 Coder 32B e DeepSeek Coder V2), executados em múltiplos ambientes computacionais, e avaliados sobre cinco sistemas reais escritos em Java. A metodologia combinou métricas quantitativas, como taxa de compilação, cobertura de código e análise estrutural, e métricas qualitativas, como legibilidade e relevância semântica dos testes gerados. Os resultados mostram que, apesar do potencial dos LLMs, seu desempenho é altamente sensível à complexidade dos projetos, apresentando taxas de sucesso consistentes apenas em sistemas de menor acoplamento. O principal gargalo encontrado foi a baixa cobertura de branch, que impossibilitou a aplicação da Análise de Mutação com confiabilidade. A análise qualitativa revelou recorrência de problemas como alucinação de métodos, incompatibilidade de tipos genéricos, uso inadequado de anotações e compreensão limitada do contexto global do projeto. Conclui-se que os LLMs atuam hoje como assistentes de programação com desempenho semelhante ao de desenvolvedores iniciantes, exigindo supervisão humana e retrabalho substancial. O estudo também demonstra que modelos maiores não são universalmente superiores, apresentando complementaridade e pontos cegos distintos. Como trabalhos futuros, sugere-se aprimorar a engenharia de prompts, adotar técnicas de aumento de contexto e explorar a orquestração de múltiplos modelos.

Citação

Artigo Completo

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.