Arquitetura conceitual para automação de ETL de microdados públicos: um estudo de caso com o ENEM

Sousa, Ialy Cordeiro de

Resumo

Este trabalho tem como objetivo propor uma arquitetura conceitual denominada AutoMicroETL, voltada para a automação do processo de Extração, Transformação e Carga (ETL) de microdados públicos. A solução busca reduzir barreiras técnicas de acesso e promover a democratização da análise de dados governamentais, oferecendo uma estrutura modular, reutilizável e de fácil implantação em ambientes locais. A metodologia consistiu na implementação de um pipeline lógico baseado em ferramentas open source, utilizando Docker para conteinerização do ambiente, Python para extração e padronização dos dados, MinIO como repositório de armazenamento em camadas (bronze, prata e ouro) e Apache Airflow para orquestração das etapas de execução. O estudo de caso foi conduzido com os microdados do ENEM, disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). Como resultado, foi desenvolvido um pipeline funcional capaz de automatizar a coleta, descompactação e padronização dos microdados, garantindo reprodutibilidade e portabilidade em qualquer ambiente compatível com Docker. A arquitetura mostrou-se escalável, podendo ser expandida para outras bases públicas além do ENEM. Conclui-se que a AutoMicroETL contribui para a democratização da análise de dados públicos, ao oferecer uma solução acessível e eőciente para pesquisadores, estudantes e gestores, representando um passo relevante no fortalecimento da ciência aberta e na promoção de boas práticas de engenharia de dados no setor público e acadêmico.

Citação

Artigo Completo

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.