Use este identificador para citar ou linkar para este item: http://hdl.handle.net/123456789/7557
Título: Estudo Comparativo de Large Language Models aplicados à classificação de documentos de Prestação de Contas Públicas
Título(s) alternativo(s): Comparative Study of Major Language Models applied to the classification of Public Accountability documents
Autor(es): BERNHARD, Pedro Vinnícius
Palavras-chave: large language models;
processamento de linguagem natural;
classificação de documentos;
prestação de contas;
TCE/MA;
large language models;
natural language processing;
document classification;
accountability;
TCE/MA.
Data do documento: 2023
Editor: Universidade Federal do Maranhão
Resumo: Resumo: O Tribunal de Contas do Estado do Maranhão (TCE/MA) desempenha um papel essencial no controle das contas públicas, utilizando o Sistema de Prestação de Contas Anual eletrônica (e-PCA). Nesse processo, os fiscalizados enviam documentos eletrônicos relacionados às prestações de contas de governo e de gestores, classificados conforme normativas estabelecidas. É importante, portanto, a correta classificação dos documentos para assegurar a conformidade com os padrões estabelecidos pelo tribunal. A utilização de tecnologias avançadas, como Large Language Models (LLMs), tem se destacado como uma abordagem promissora para otimizar esse processo. Neste estudo, a investigação concentrou-se na utilização de LLMs para a classificação de documentos referentes às prestações de contas anuais de gestores recebidos pelo TCE/MA. Três modelos de LLMs foram examinados: mBERT, XLM-RoBERTa e mT5. Essas LLMs foram aplicadas a um conjunto de dados de textos extraídos, especificamente compilado para a pesquisa, com base em documentos fornecidos pelo TCE/MA, e avaliadas com base no F1-score. Os resultados revelaram que o modelo XLM-RoBERTa atingiu um F1-score de 98,99%±0,12%, enquanto o mBERT alcançou 98,65% ± 0,29% e a mT5 apresentou 98,71% ± 0,75%. Esses resultados destacam a eficácia das LLMs na classificação de documentos de prestação de contas, proporcionando contribuições para os avanços no campo do processamento de linguagem natural. Essas abordagens têm o potencial de serem exploradas para aprimorar a automação e a precisão nas classificações de documentos.__Abstract: The Tribunal de Contas do Estado do Maranhão (TCE/MA) plays an essential role in controlling public accounts, using the electronic annual accountability system (e-PCA). In this process, the auditees send electronic documents related to the rendering of government and management accounts, classified according to established regulations. It is therefore important to classify documents correctly to ensure compliance with the standards set by the court. The use of advanced technologies, such as Large Language Models (LLMs), has been highlighted as a promising approach to the optimization of this process. In this study, the research focused on the use of LLMs to classify documents relating to the annual accounts of managers received by the TCE/MA. Three LLM models were examined: mBERT, XLM-RoBERTa and mT5. These LLMs were applied to a dataset of extracted texts specifically compiled for the research, based on documents provided by the TCE/MA, and evaluated based on the F1-score. The results strongly suggested that the XLM-RoBERTa model achieved an F1-score of 98,99% ± 0,12%, while mBERT achieved 98,65% ± 0,29% and mT5 showed 98,71% ± 0,75%. These results highlight the effectiveness of LLMs in classifying accountability documents, providing contributions to advances in the field of natural language processing. These approaches have the potential to be exploited to improve automation and accuracy in document classifications.
URI: http://hdl.handle.net/123456789/7557
Aparece nas coleções:TCCs de Graduação em Ciência da Computação do Campus do Bacanga
TCCs de Graduação em Ciência da Computação do Campus do Bacanga
TCCs de Graduação em Ciência da Computação do Campus do Bacanga

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Pedro_Bernhard.pdfTrabalho de Concclusão de Curso2,28 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.