Use este identificador para citar ou linkar para este item: http://hdl.handle.net/123456789/7598
Título: Uma abordagem baseada em Engenharia de Dados para extração, transformação e carregamento de dados de instituições acadêmicas
Título(s) alternativo(s): An approach based on Data Engineering for extracting, transformation and loading of data from academic institutions
Autor(es): NAHUZ, Breno Baptista
Palavras-chave: Dados abertos;
dados conectados;
engenharia de dados;
ETL;
RDF
Open Data;
linked data;
data engineer;
ETL;
RDF
Data do documento: 17-Jul-2023
Editor: UFMA
Resumo: Um número significativo de instituições de ensino superior públicas já disponibiliza seus dados por meio de portais abertos, sem restrições de acesso. Como resultado, diversos estudos têm explorado a possibilidade de transformar esses dados, que até então refletem apenas o contexto da instituição específica, em dados conectados que possam ser relacionados entre centenas de universidades distintas. O objetivo do trabalho apresentado foi desenvolver uma abordagem baseada em Engenharia de Dados para extração, transformação em dados conectados e carregamento dos dados, em um repositório unificado de maneira automática denominado DBAcademic, seguindo o modelo RDF de dados conectados. Para alcançar tal meta foi desenvolvida uma arquitetura escalável baseada em gerenciadores de fluxo de trabalho, para lidar com as etapas do processo, bancos de dados não relacionais, para agir como uma camada intermediária de armazenamento e portais de acesso para dados conectados com intuito de publicação dos resultados. De modo a garantir um processo prático, foram criadas DAG(Directed Acyclic Graph) em tempo de execução a partir de um único arquivo de configuração, tornando o processo modular. Com a aplicação desses processos em 64 instituições públicas de ensino superior foi possível obter um repositório de dados conectados com aproximadamente meio milhão de discentes e sessenta mil docentes. Além disso, também foi possível concluir a falta de disponibilidade dos dados em diversas instituições, somado a impossibilidade de atualização de diversso recursos.
Descrição: A significant number of public higher education institutions already make their data available through open portals, with no access restrictions. As a result, several studies have explored the possibility of transforming these data, which until then only reflect the context of the specific institution, into connected data that can be related between hundreds of different universities. The objective of the work presented was to develop an approach based on Data Engineering for extraction, transformation into connected data and data loading, in an automatically unified repository called DBAcademic, following the RDF model of connected data. To achieve this goal, a scalable architecture based on workflow managers was developed to handle the process steps, non-relational databases to act as an intermediate layer of storage and access portals for connected data in order to publish the results. In order to guarantee a practical process, DAG(Directed Acyclic Graph) were created at runtime from a single configuration file, making the process modular. With the application of these processes in 64 public institutions of higher education, it was possible to obtain a linked data repository with approximately half a million students and sixty thousand professors. In addition, it was also possible to conclude the lack of data availability in several institutions, in addition to the impossibility of updating several resources.
URI: http://hdl.handle.net/123456789/7598
Aparece nas coleções:TCCs de Graduação de Engenharia da Computação do Campus do Bacanga

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Breno Baptista Nahuz.pdfTCC de Graduação2,26 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.