Desenvolvimento de uma Metodologia para a Coleta e Identificação de Atos Administrativos de Interesse nos Diários Oficiais dos Jurisdicionados do Tribunal de Contas do Estado do Rio de Janeiro (TCE-RJ)

Autores/as

DOI:

https://doi.org/10.70690/m6zcsw72

Palabras clave:

Diários Oficiais, Processamento de Linguagem Natural, Random Forest, Large Language Models, Controle Externo

Resumen

O projeto “Desenvolvimento de uma Metodologia para a Coleta e Identificação de Atos Administrativos de Interesse nos Diários Oficiais dos Jurisdicionados do Tribunal de Contas do Estado do Rio de Janeiro (TCE-RJ)” aborda um desafio essencial na era digital: transformar a vasta quantidade de dados desestruturados contidos nos Diários Oficiais em informações acessíveis e úteis. Utilizando técnicas avançadas de mineração de dados, aprendizado de máquina e processamento de linguagem natural (NLP), a pesquisa visa aprimorar o controle e a fiscalização do setor público. Os Diários Oficiais, fundamentais para a transparência administrativa, frequentemente apresentam informações em formatos variados (PDF, HTML, etc.), dificultando o acesso e a análise. Este projeto propôs e testou uma metodologia inovadora baseada no modelo CRISP-DM, estruturando o processo desde a coleta de dados até a classificação de atos administrativos como nomeações e exonerações. Foram exploradas duas abordagens: o uso de Random Forest para dados segmentados e estruturados, e de um Large Language Model (LLM), como o Gemini, para analisar contextos mais complexos e textos integrais. Os resultados evidenciaram alto nível de precisão em ambas as abordagens. Enquanto o Random Forest destacou-se na eficiência com dados organizados, o LLM demonstrou flexibilidade ao lidar com textos variados, mantendo a acurácia mesmo em casos ambíguos. Adicionalmente, a pesquisa viabilizou o uso de tecnologias emergentes, como modelos de linguagem em larga escala, para automatizar processos repetitivos, facilitando o trabalho de auditores do TCE-RJ. O estudo não apenas confirmou a viabilidade técnica da automação no setor público, mas também forneceu insights práticos para futuras aplicações, como a análise de contratos, licitações e convênios. Esta metodologia promete não apenas modernizar a fiscalização, mas também promover maior transparência e eficiência no controle administrativo, consolidando o uso de inteligência artificial como ferramenta estratégica na gestão pública.

Biografía del autor/a

  • Wellington Souza Amaral

    Wellington Souza Amaral é Auditor de Controle Externo no Tribunal de Contas do Estado do Rio de Janeiro (TCE-RJ), com atuação voltada à análise de dados e inteligência aplicada à auditoria governamental. Desenvolve métodos e ferramentas para a produção de informações estratégicas destinadas à fiscalização de órgãos públicos estaduais e municipais. Mestre em Ciência da Computação pelo CEFET-RJ, com dissertação focada em mineração de dados em grafos para apoio à fiscalização de recursos públicos.

  • Eduardo Bezerra da Silva

    Eduardo Bezerra é professor titular da Escola de Informática e Computação do Centro Federal de Educação Tecnológica do Rio de Janeiro (Cefet/RJ), onde atua desde 2005. Possui graduação em Ciência da Computação pela Universidade Federal do Rio de Janeiro (1995). É Mestre e Doutor em Engenharia de Sistemas e Computação pela COPPE/UFRJ, no Programa de Engenharia de Sistemas e Computação (PESC). É membro do IEEE e da Sociedade Brasileira de Computação. É autor de dois livros e vários artigos científicos na área de Computação. É membro fundador do Programa de Pós-Graduação em Ciência da Computação (PPCIC) do Cefet/RJ (criado em 2016). É um dos coordenadores do projeto multiinstitucional RioNowcast (http://rionowcast.dexl.lncc.br). Tem experiência na área de Ciência da Computação, com ênfase em Inteligência Artificial. Atua principalmente nos seguintes temas: Aprendizado de Máquina, Processamento de Linguagem Natural, Aprendizado por Reforço.

  • Leonardo Silva de Lima

    Leonardo Silva de Lima obteve seu diploma de Bacharel em Matemática Aplicada e Computacional em 1998 pela Universidade Estadual de Campinas, Brasil. Concluiu o Mestrado em Engenharia de Sistemas e Ciência da Computação em 2002 e o Doutorado em Engenharia de Produção em 2006, ambos pela Universidade Federal do Rio de Janeiro, Brasil. Atualmente, é professor na Universidade Federal do Paraná (UFPR), Brasil, e seus principais interesses de pesquisa estão relacionados à Otimização Combinatória, Teoria dos Grafos e Teoria Espectral dos Grafos.

  • Augusto César Benvenuto de Almeida

    Augusto Almeida é graduado em Engenharia da Computação pela Universidade Federal de Pernambuco (UFPE) e atua como auditor de controle externo no Tribunal de Contas do Estado do Rio de Janeiro (TCE-RJ). Realiza fiscalizações na área de Tecnologia da Informação, com ampla utilização de análise de dados para identificar inconformidades e irregularidades nas unidades auditadas. Possui experiência em ciência de dados, machine learning, engenharia de software e computação de alto desempenho.

Referencias

ARAÚJO, Pedro H. Luz de; CAMPOS, Teófilo E. de; SOUSA, Marcelo M. S. de; Inferring the source of official texts: can SVM beat ULMFiT? In: INTERNATIONAL CONFERENCE ON THE COMPUTATIONAL PROCESSING OF PORTUGUESE (PROPOR), 2020, Évora, Portugal. Proceedings [...] Évora, Portugal: Springer, 2-4 mar. 2020. p. 76-86. DOI: https://doi.org/10.1007/978-3-030-41505-1_8

BERRAZEGA, Ines et al. A knowledge-based approach for provisions’ categorization in Arabic normative texts. In: SILHAVY, R. et al. Artificial Intelligence Perspectives in Intelligent Systems. Cham: Springer, 2016. v. 464, p. 415-425. Disponível em: https://doi.org/10.1007/978-3-319-33625-1_37. DOI: https://doi.org/10.1007/978-3-319-33625-1_37

BERRAZEGA, Ines et al. A semantic annotation model for Arabic legal texts. In: HELLENIC CONFERENCE ON ARTIFICIAL INTELLIGENCE (SETN), 9., 2016, Thessaloniki, Greece. Proceedings [...]. New York: ACM, 2016. Session: AI Applications, p. 1-8. Disponível em: https://doi.org/10.1145/2903220.2903244. DOI: https://doi.org/10.1145/2903220.2903244

BERRAZEGA, Ines et al. A linguistic method for Arabic normative provisions’ annotation based on contextual exploration. In: INTERNATIONAL CONFERENCE ON INFORMATION AND COMMUNICATION SYSTEMS (ICICS), 7., 2016, Irbid, Jordan. Proceedings [...]. New York: IEEE, 5-7 apr. 2016. p. 347–352. DOI: https://doi.org/10.1109/IACS.2016.7476076

BRANDÃO, Stainam et al. Knowledge representation of Brazilian official gazettes for chronological recovery of laws. In: CONFERENCE ON INFORMATION SYSTEMS, 2011, Rio de Janeiro. Proceedings [...] Rio de Janeiro: IADIS, 5-8 nov, 2011. p. 540–544.

BREIMAN, Leo; FRIEDMAN, Jerome; OLSHEN, R. A.; STONE, Charles J. Classification and regression trees. 1st. ed. Boca Raton: Chapman and Hall/CRC, 1984. Disponível em: https://doi.org/10.1201/9781315139470. Acesso em: 22 dez. 2025. DOI: https://doi.org/10.1201/9781315139470

BREIMAN, L. Random forests. Machine Learning, [s. l.], v. 45, p. 5–32, 2001. Disponível em: https://doi.org/10.1023/A:1010933404324. Acesso em: 22 dez. 2025. DOI: https://doi.org/10.1023/A:1010933404324

CONSTANTINO, Kattiana et al. Segmentação e classificação semântica de trechos de diários oficiais usando aprendizado ativo. In: SIMPÓSIO BRASILEIRO DE BANCOS DE DADOS (SBBD), 37., 2022, Búzios. Anais [...]. Porto Alegre: SBC, 19-23 set. 2022. p. 304–316. Disponível em: https://sol.sbc.org.br/index.php/sbbd/article/view/21815. Acesso em: 23 dez. 2025. DOI: https://doi.org/10.5753/sbbd.2022.224656

CONSTANTINO, Kattiana et al. Using active learning for segmentation and semantic classification of legal acts extracted from official diaries. Journal of Information and Data Management, Porto Alegre, v. 14, n. 1, 2023. Disponível em: https://doi.org/10.5753/jidm.2023.3181. Acesso em: 23 dez. 2025. DOI: https://doi.org/10.5753/jidm.2023.3181

DEVLIN, J.; CHANG, M.; LEE, K.; TOUTANOVA, K. BERT: pre-training of deep bidirectional transformers for language understanding. In: CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES, 2019, Minneapolis. Proceedings [...]. Minneapolis: Association for Computational Linguistics, 2019. p. 4171–4186.

GE, Yingqiang et al. OpenAGI: when LLM meets domain experts. Advances in Neural Information Processing Systems, v. 36, 2024. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2023/file/1190733f217404edc8a7f4e15a57f301-Paper-Datasets_and_Benchmarks.pdf. Acesso em: 23 dez. 2025.

GREFENSTETTE, G. Tokenization. In: VAN HALTEREN, H. (ed.). Syntactic wordclass tagging. Dordrecht: Springer, 1999. p. 117–133. Disponível em: https://doi.org/10.1007/978-94-015-9273-4_9. DOI: https://doi.org/10.1007/978-94-015-9273-4_9

GUIMARÃES, Gabriel M. C. et al. DODFMiner: an automated tool for named entity recognition from official gazettes. Neurocomputing, London, v. 568, p. 1–10, feb. 2024. Disponível em: https://doi.org/10.1016/j.neucom.2023.127064. DOI: https://doi.org/10.1016/j.neucom.2023.127064

JI, Ziwei et al. Towards mitigating LLM hallucination via self reflection. In: FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (EMNLP 2023), 2023, Singapure. Proceedings [...]. Kerrville, TX: Association for Computational Linguistics, 6-10 dec. 2023. p. 1827-1843. Disponível em: https://aclanthology.org/2023.findings-emnlp.123.pdf. Acesso em: 23 dez. 2025.

KAVLAKOGLU, Eda. O que é random forest?. Tradução de What is random forest?. New York: São Paulo: IBM Research, 25 jul. 2024. Disponível em: https://www.ibm.com/br-pt/topics/random-forest. Acesso em: 25 jul. 2024.

NEVES JUNIOR, R. B. das; MELO, W. F. D. M.; FAGUNDES, R. A. D. A.; MACIEL, A. M. A. Extração de informação e mineração de dados no diário oficial de Pernambuco. REPE: Revista de Engenharia e Pesquisa Aplicada, Pernambuco, v. 3, n. 3, p. 107-113, 2018. Disponível em: http://revistas.poli.br/index.php/repa/article/view/892/449. Acesso em: 5 dez. 2025. DOI: https://doi.org/10.25286/repa.v3i3.892

PINTO, Fernando A. D. G.; LIFSCHITZ, Sérgio; HAEUSLER, Edward H. A knowledge base of public acts based on the grammar of the official gazette. In: INTERNATIONAL CONFERENCE ON DIGITAL GOVERNMENT TECHNOLOGY AND INNOVATION (DGTi-CON), 2022. Proceedings [...]. Bangkok, Thailand: IEEE, 24-25 mar. 2022. p. 24–29. Disponível em: https://doi.org/10.1109/DGTi-CON53875.2022.9849196. Acesso em: 22 dez. 2025. DOI: https://doi.org/10.1109/DGTi-CON53875.2022.9849196

PINTO, Fernando A. D. G.; HAEUSLER, Edward H.; LIFSCHITZ, Sérgio. Transparência pública automatizada a partir da gramática do diário oficial. In: WORKSHOP DE COMPUTAÇÃO APLICADA EM GOVERNO ELETRÔNICO (WCGE 2021), 9., 2021. Anais eletrônicos [...]. Disponível em: https://sol.sbc.org.br/index.php/wcge/article/view/15977/15818. Acesso em: 5 dez. 2025. DOI: https://doi.org/10.5753/wcge.2021.15977

ROCHA, João Paulo L. Inteligência de fontes abertas: um estudo de caso sobre descoberta de conhecimento no diário oficial da união. 2011. Dissertação (Mestrado em Informática) – Universidade Católica de Brasília, Brasília. Disponível em: https://bdtd.ucb.br:8443/jspui/handle/123456789/1336. Acesso em: 5 dez. 2025.

RODRÍGUEZ, Marcia M.; BEZERRA, Byron L. D. Processamento de linguagem natural para reconhecimento de entidades nomeadas em textos jurídicos de atos administrativos (portarias). REPE: Revista de Engenharia e Pesquisa Aplicada, Pernambuco, v. 5, n. 1, p. 67-77, 2020. Disponível em: http://revistas.poli.br/index.php/repa/article/view/1204. Acesso em: 5 dez. 2025. DOI: https://doi.org/10.25286/repa.v5i1.1204

OPEN KNOWLEDGE BRASIL. Querido Diário. [S. l.]: OKBR, 2024. Disponível em: https://queridodiario.ok.org.br/sobre. Acesso em: 5 dez. 2025.

PEDREGOSA, Fabian et al. Scikit-learn: machine learning in Python. Journal of Machine Learning Research, [s. l.], v. 12, n. 8, p. 2825–2830, 2011. Disponível em: https://jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf. Acesso em: 23 dez. 2025.

OGAWA, Yasuhiro et al. Extraction of legal bilingual phrases from the Japanese official gazette, English edition. In: INTERNATIONAL CONFERENCE ON KNOWLEDGE AND SYSTEMS ENGINEERING (KSE), 8., 2016, Hanoi. Proceedings [...]. New York: IEEE, 6-8 oct. 2016. p. 258–263. DOI: https://doi.org/10.1109/KSE.2016.7758063

SANH, Victor; DEBUT, Lysandre; CHAUMOND, Julien; WOLF, Thomas. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. In: CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS, 33., 2019, Vancouver, Canada. Proceedings [...]. Vancouver, Canada: EMC2, 9-13 dec. 2019. Disponível em: https://www.emc2-ai.org/assets/docs/neurips-19/emc2-neurips19-paper-33.pdf. Acesso em: 23 dez. 2025.

SHEARER, C. The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehousing, [s. l.], v. 5, n. 4, p. 13-22, 2000.

XAVIER, Bruno D.; SILVA, Alcione Dias da; GOMES, Georgia R. G. Uma arquitetura híbrida para a indexação de documentos do diário oficial do município de Cachoeiro de Itapemirim. Transinformação, Campinas, v. 27, n. 1, p. 83-95, jan./abr. 2015. Disponível em: https://periodicos.puc-campinas.edu.br/transinfo/article/view/6056. Acesso em: 5 dez. 2025. DOI: https://doi.org/10.1590/0103-37862015000100008

VASWANI, Aahish et al. Attention is all you need. In: CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017), 31., 2017, Long Beach, CA. Proceedings [...]. San Diego, CA: NeurIPS, 4-9 dec. 2017. Disponível em: https://arxiv.org/pdf/1706.03762. Acesso em: 23 dez. 2025.

Publicado

2025-12-29