Use este identificador para citar ou linkar para este item:
http://hdl.handle.net/123456789/7598
Título: | Uma abordagem baseada em Engenharia de Dados para extração, transformação e carregamento de dados de instituições acadêmicas |
Título(s) alternativo(s): | An approach based on Data Engineering for extracting, transformation and loading of data from academic institutions |
Autor(es): | NAHUZ, Breno Baptista |
Palavras-chave: | Dados abertos; dados conectados; engenharia de dados; ETL; RDF Open Data; linked data; data engineer; ETL; RDF |
Data do documento: | 17-Jul-2023 |
Editor: | UFMA |
Resumo: | Um número significativo de instituições de ensino superior públicas já disponibiliza seus dados por meio de portais abertos, sem restrições de acesso. Como resultado, diversos estudos têm explorado a possibilidade de transformar esses dados, que até então refletem apenas o contexto da instituição específica, em dados conectados que possam ser relacionados entre centenas de universidades distintas. O objetivo do trabalho apresentado foi desenvolver uma abordagem baseada em Engenharia de Dados para extração, transformação em dados conectados e carregamento dos dados, em um repositório unificado de maneira automática denominado DBAcademic, seguindo o modelo RDF de dados conectados. Para alcançar tal meta foi desenvolvida uma arquitetura escalável baseada em gerenciadores de fluxo de trabalho, para lidar com as etapas do processo, bancos de dados não relacionais, para agir como uma camada intermediária de armazenamento e portais de acesso para dados conectados com intuito de publicação dos resultados. De modo a garantir um processo prático, foram criadas DAG(Directed Acyclic Graph) em tempo de execução a partir de um único arquivo de configuração, tornando o processo modular. Com a aplicação desses processos em 64 instituições públicas de ensino superior foi possível obter um repositório de dados conectados com aproximadamente meio milhão de discentes e sessenta mil docentes. Além disso, também foi possível concluir a falta de disponibilidade dos dados em diversas instituições, somado a impossibilidade de atualização de diversso recursos. |
Descrição: | A significant number of public higher education institutions already make their data available through open portals, with no access restrictions. As a result, several studies have explored the possibility of transforming these data, which until then only reflect the context of the specific institution, into connected data that can be related between hundreds of different universities. The objective of the work presented was to develop an approach based on Data Engineering for extraction, transformation into connected data and data loading, in an automatically unified repository called DBAcademic, following the RDF model of connected data. To achieve this goal, a scalable architecture based on workflow managers was developed to handle the process steps, non-relational databases to act as an intermediate layer of storage and access portals for connected data in order to publish the results. In order to guarantee a practical process, DAG(Directed Acyclic Graph) were created at runtime from a single configuration file, making the process modular. With the application of these processes in 64 public institutions of higher education, it was possible to obtain a linked data repository with approximately half a million students and sixty thousand professors. In addition, it was also possible to conclude the lack of data availability in several institutions, in addition to the impossibility of updating several resources. |
URI: | http://hdl.handle.net/123456789/7598 |
Aparece nas coleções: | TCCs de Graduação de Engenharia da Computação do Campus do Bacanga |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Breno Baptista Nahuz.pdf | TCC de Graduação | 2,26 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.